Sei sulla pagina 1di 97

INTRODUCCION AL

RECONOCIMIENTO DE
PATRONES

Objetivos generales
Brindar un marco terico para el anlisis y resolucin de
problemas de reconocimiento, clasificacin e identificacin de
patrones, en forma automtica.

Realizar hincapi en la evaluacin de desempeo de los modelos


propuestos y su aplicacin en la resolucin de problemas prcticos.

Objetivos especficos
Identificar los principales componentes de un Sistema de
Reconocimiento de Patrones
Estudio de algoritmos asociados a las distintas etapas y modelos de
un SRP
Herramientas de evaluacin de desempeo
Anlisis de casos prcticos

Algunas preguntas que busca


responder el curso

Cual es la mejor estrategia para resolver un problema


concreto?
Cuales son las caractersticas ms significativas?
Cuantas muestras necesito?
Cual es el grado de correccin de mi solucin?
De las soluciones propuestas cual es ms eficiente y eficaz?

Estrategia
Presentar un diagrama de bloques completo de un SRP
Presentar distintos algoritmos que resuelven los bloques.
Analizar mtodos de evaluacin
Analizar estrategias de fusin y combinacin de clasificadores.

Materiales y mtodos

Guas de clase
Bibliografa
Software de simulacin (Matlab, Weka)

Bibliografa
Pattern Classification (2nd. Edition) Duda, Hart Stork John
Wiley & Son 0471056693-2001
Pattern Classification. A unified view of statistical and neural approaches. Jrgen Schrmann.
John Wiley & Son. 1996
Pattern Recognition: A Statistical Approach Devijver y KittlerPrentice-Hall - 1982
Combining Pattern Classifiers Methods and AlgorithmsLudmila I Kuncheva 047121078 2004
Pattern Recognition and Machine Learning C. M Bishop, 2006
Anil Jain-Statistical Pattern Recognition: A Review - 2000
Notas del Curso de Reconocimiento de Patrones y Anlisis de
Imgenes de Francisco Cortijo. Decsai UGR

1Introduccin

Percepcin

Porqu vemos caras en la luna?

Percepcin

Pareidolia: la percepcin imaginada de un patrn


o un significado donde no lo hay

Percepcin

Percepcin vs SRP
Por qu los humanos son tan buenos reconociendo patrones?

Dra. Nouchine Hadjkhani de la Universidad de Hardvard: Los humanos llegan a este mundo con los cables preconectados para
detectar caras. Un buen sistema de RP proporciona una ventaja competitiva a la hora de la supervivencia (discriminar amigo/enemigo) y
reproduccin.

Por qu no imitarlos al disear sistemas automticos de reconocimiento de patrones?


An no se sabe como los humanos reconocen los patrones

Que es el reconocimiento de
patrones?
El estudio de cmo las mquinas pueden observando el
ambiente aprender a distinguir patrones de inters de un fondo y realizar decisiones razonables
sobre las categoras de los mismos. Anil Jain.
El acto de tomar datos crudos y hacer una accin basados en la categora de los
patrones. Duda et al.
Encontrar regla de decisin automtica que transforma medidas en asignaciones a
clases.
Dar nombres a los objetos basados en observaciones.

Percepcin

A la edad de cinco aos la mayora de los nios pueden


reconocer dgitos y letras: Grandes, pequeos, escritos a
mano, rotados, incompletos... Variaciones de la letra R

Reproducir esta capacidad por medio de los ordenadores es


sorprendentemente difcil , de hecho, tras 50 aos de investigacin
no existe actualmente ningn sistema de R.P. de propsito general
que sea capaz de aproximarse a la capacidad humana.

Percepcin vs SRP

Que ventajas tienen los SRP?:

Pueden realizar tareas montonas y repetitivas con menos errores.

Trabajar en zonas peligrosas

Funcionar en lugares inhspitos.

Econmicos y autnomos.

Realizar clculos precisos

Aplicaciones Interesantes

Maquinas de recomendaciones: Ej: Netflix. El 75% de los


videos seleccionados por un usuario promedio provienen de las recomendaciones
producidas por su sistema de propuesta.
Sistemas de reconocimiento: de escritura manual (servicio postal USA),
biometra (facial, huellas, andar)
Aplicaciones de Big Data: descubrir patrones y correlaciones en datos no
estructurados, encontrar relaciones dependencias, anomalas.

Anlisis de un ejemplo
de
SRP

CSI (Crime Scene Investigation)

Identificacin de un criminal a travs de la


observacin de la escena del crimen.

procesar la escena: adquisicin de objetos

analizar sus caractersticas

clasificarlos

identificarlos

post-procesar aumentar confiabilidad

Sistema Biomtrico
Huellas dactilares
ADN
Iris
Forma y tamao de la mano
Escritura
Rasgos faciales
Forma de caminar

Adquisicin- Sensado

Toma de la huella

Toma directa entintado

Sensores capacitivos

Critico calidad y tipo de informacin adquirida que condiciona el


procesamiento posterior. Ej: rodada o plana, manchones (entintado)

Complementariedad: Cada caracterstica fsica tiene ventajas y


limitaciones:

Poder de discriminacin

Invasiva vs no invasiva

Colaborativa vs no colaborativa

Problemas de adquisicin

Ejemplos
Dominio

Aplicacin

Patrn
Entrada

Clases

Data mining

Bsqueda
patrones
signifcativos

Puntos espacio
multidimensional

Clusters compactos
y bien separados

Clasifcacin de
documentos

Bsqueda en
Internet

Texto

Categoras
(dep.,negocios)

Biomtrica

Identificacin de
personas

Iris, huellas, caras

Usuarios
autorizados

Sensado remoto

Pronstico de
cosechas

Imgenes
multiespectrales

Categoras de
tierras.

Reconocimiento
de voz

Acceso a
informacin sin
operador

Seal de voz

Palabras habladas

Identifcacin de los
conceptos y
componentes bsicos de
un SRP

Objetivo de SRP
Asignar un objeto o fenmeno fsico (patrn, en general)
a una clase o categora.

Reconocimiento de Patrones: regla de decisin


automtica que transforma medidas en asignaciones a clases.

Conceptos
Generales
En el R.P. no se

clasifican directamente las entidades u objetos sino su

descripcin.

Esta descripcin se crea a partir de un modelo de la entidad


construida
a
partir
de
unas caractersticas y algn tipo de
representacin.

La representacin tambin es dependiente del problema y puede


ser un vector, una cadena, un grafo, etc... Esta representacin es
utilizada por un clasificador para asignar la entidad a una clase.

Conceptos
Generales
Modelo: representacin de un patrn.

Caractersticas o atributos: medidas que componen las


representaciones.

Espacio de representacin o de caractersticas:


conjunto de todas las representaciones posibles
para un cierto problema, universo de operacin del
SRP.

Caractersticas
(features)
Los objetos se describen por caractersticas :

Cuantitativas:

Cualitativas

Continuos: presin, longitud


Discretos : nmero de ciudadanos, tantos
Ordinal : grado de educacin
Nominal: profesin, marca de auto.

Se necesita una metodologa para pasar de caractersticas cualitativos a


cuantitativos en general son mtodos heursticos subjetivos , Ej: medida
inteligencia, conocimiento, belleza, sentido del humor.

Ejemplo: Reconocimiento de caracteres

x=(x1.x8 ) con xi distancia extremos semirrectas y centro


gravedad.

Buena representacin: una en la que las relaciones estructurales entre los


componentes son simples y se revelan en forma natural y en la que el modelo verdadero
(desconocido) se puede expresar.

Clases y
Etiquetas

Para el reconocimiento automtico, es importante que


patrones que describen objetos de una misma clase,
presenten caractersticas similares. Patrones que
describen objetos de diferentes clases presenten
caractersticas diferenciadas.

Asumiremos:

C= {w1.. wc}: conjunto finito de eventos


wi de C : clase del conjunto de clases
c = card(C) : nmero de clases

CLASIFICACION DE
x: vector de caractersticas: coleccin de observaciones.
PATRONES

Clasificacin de patrones: proceso de inferir w de x, proceso de asignar nombres a las


observaciones x.

Mapeo wx, uno a muchos debido a la variabilidad,


muchos patrones representan el mismo concepto: EjA A A A A ,
El mapeo x w, puede o no ser nico.

Variabilidad: descrita por la distribucin de las clases en el espacio de caractersticas Rd.

Sistemas de Reconocimiento de Patrones

Modelos perceptuales:
adquisicin de datos sensoriales/preproceso
extraccin de caractersticas
toma de decisiones

Diseo de
Inferencia del modelo a partir de un conjunto de
SRP
datos de entrenamiento
1.

2.

Desarrollo de reglas de decisin prcticas

3.

Simulacin y evaluacin del rendimiento del sistema.

(Machine learning, reconocimiento de patrones estadstico)

SRP
Estadstico

Senso
r Funcin del sensor: Medicin, dar representacin de

los elementos a ser clasificados.


Condiciona el rendimiento del sistema
Debera adquirir todas las propiedades fsicas que
permiten discriminar los objetos.
Limitaciones: no se dispone conocimiento, mediciones
no intrusivas, econmicamente no viable, datos histricos (fichas
dactilares)

Preproce
so
Modificar la representacin inicial para poder
resaltar las caractersticas relevantes: Filtraje,
Realce, Cambio de espacio, etc.
No

suele existir mucho conocimiento que dirija el


preproceso.

Aprendizaj
e

El proceso de aprendizaje permite establecer un modelo:


establecer los parmetros del modelo o adquirir conocimiento
sobre el problema.

Tipos de aprendizaje:
Recopilar conocimiento (deductivo) humano sobre el problema.
(Sistemas expertos).
Adquirir (inductivamente) el conocimiento a partir de ejemplos
especficos. Ej. Inferencia gramatical, estimacin de parmetros.

Aprendiza
je El aprendizaje se puede realizar en una fase previa al
reconocimiento (diseo del clasificador) o continuar
durante el proceso de reconocimiento (Aprendizaje
continuo).
Un objetivo del Aprendizaje puede ser la determinacin del
conjunto de descriptores ptimo. Este proceso se llama
seleccin de caractersticas.

La seleccin de caractersticas se suele llevar a cabo mediante

eccin y Extraccin de Caractersticas:


Extraer la informacin que puede permitir la
discriminacin.

Eliminar informacin redundante e irrelevante.

Reducir la dimensionalidad del problema.

Dimensionalidad de los
datos
El desempeo de un clasificador depende de la relacin entre
el nmero de muestras, el nmero de caractersticas y la
complejidad del clasificador.

Maldicin de la Dimensionalidad: En la prctica se ha


observado que el agregar caractersticas puede degradar el
desempeo si el nmero de muestras es pequeo en relacin al
de atributos.

En clasificadores paramtricos la confiabilidad con la que se


estiman los parmetros disminuye al aumentar nmero de
caractersticas para un nmero de muestras dado.

Dimensionalidad de los
Para mejorar el rendimiento del sistema la otra alternativa es
datos
aumentar la complejidad del clasificador

El rendimiento disminuye cuando aumenta la complejidad del clasificador.


A este hecho se le llama el problema de la generalizacin, su explicacin
es que el clasificador se ajusta tanto a las muestras de entrenamiento que no
captura bien el comportamiento de las muestras nuevas (sobreentrenamiento)

Hay una teora filosfica para la eleccin de clasificadores sencillos. Ya


William de Occam (1284-1347?) afirmaba (navaja de Occam) que si dos
explicaciones son igual de buenas se debe elegir la simple sobre la
complicada.

Maldicin de la
dimensionalidad

Buena prctica: n/d >10

Reduccin de la
Dimensionalidad
Razones para mantener la dimensionalidad tan baja como sea posible:

Costo de medida
Precisin de la clasificacin

Un conjunto saliente de caractersticas simplifica la representacin y el


diseo del clasificador. El bajar mucho puede hacer que se pierda poder
de discriminacin.

Seleccin de
Caractersticas
Tiene por objeto seleccionar las caractersticas

(sensadas o
transformadas en el proceso de extraccin) con mayor poder de
discriminacin.

Filtrado (filtering): Selecciona las caractersticas en forma


independiente del clasificador, usando un criterio de relevancia .

Encapsulado (wrapping): Selecciona los subconjuntos de


caractersticas en funcin del desempeo de un clasificador.

Intrnseco (embedding): Realizan la seleccin en el proceso de aprendizaje


devuelve un subconjunto de caractersticas y el clasificador entrenado.
Evalo costo de agregar o quitar caracterstica pero no reentreno.

todos de Seleccin de caractersticas


Mtodo

Propiedades

Comentarios

Bsqueda exhaustiva

Evala todas las combinaciones de Garantiza encontrar el


p tomadas de d
subconjunto ptimo

Mejores caractersticas
individuales

Selecciona las p mejores


caractersticas individuales

Computacionalmente simple
pero no garantiza un
subconjunto ptimo

Seleccin secuencial hacia


delante (SFS)

Selecciona la mejor caracterstica


y agrega una por vez tal que
combinada maximiza funcin
criterio.

Una vez que se agrega una no


se puede quitar,
Computacionalmente eficiente.

Seleccin secuencial hacia atrs


(SBS)

Empieza con todas y quita una a


la vez

Una vez que se quita una no se


puede volver al conjunto
optimo.

Mtodos que permiten determinar un conjunto de dimensionalidad


menor en el espacio original (d menor p). Crean nuevas caractersticas combinaci
de las caractersticas sensadas.

Mtodo

Propiedades

Comentarios

Anlisis de componentes
principales (PCA)

Mapas lineales, rpidos, basados en


vectores propios.

Tradicional, bueno para datos


Gaussianos.

Anlisis de Discriminante
Lineales

Mapas lineales supervisados,


rpidos, basados en vectores
prop.

Mejor que PCA para


clasificacin.

Anlisis de Componentes
Independientes (ICA)

Mapas lineales, iterativo, no


Gaussiano

Se usa para separar mezclas de


fuentes con distribucin no
Gaussiana.

PCA no lineal

Criterio no Gaussiano,
usualmente iterativo

Enfoque redes neuronales.

Self-Organizing Map (SOM)

No lineales, iterativos

Basados en redes neuronales,


adecuado para baja
dimensionalidad

Clasifcad
or Objetivo: dividir

el espacio de caractersticas en regiones de decisin


asociadas a las clases.

La clasificacin de un patrn consiste en localizar a que Regin


pertenece.

Las fronteras entre las Regiones de decisin se llaman Fronteras de


Decisin.

La eleccin de un clasificador depende del problema.


Cuestiones a resolver son: - Como hacer mnimo el error de
clasificacin? - Cual debe ser su complejidad?

Clasifcad
or
Asigna los objetos percibidos (a los que no se le
conoce la clase de pertenencia) a la clase adecuada.

Dado un patrn x Rd, x = (x1, x2, ..., xd)


Objetivo determinar a cul de las c clases de
C={w1,w2, ..., wc} pertenece dicho patrn
D : Rd C, D(x) = w i

i = 1, ..., c

Funciones
Discriminantes

Regin de
Decisin

Enfoque
estadstico

Enfoque
estadstico

Regla de mnimo error de


Bayes

Costo de
decisin

Clasifcaci
n

Reconstruccin de leyes de
probabilidad

Reconocimiento de Patrones
Estadstico

Aprendiz
aje

Aproximacion
es

Aprendizaje
supervisado

stimacin de densidades - Parzen

egla del vecino ms cercano 1-NN

Aprendizaje no supervisado y
anlisis de Agrupamiento

stribucin conjunta multimodal

Algoritmo de kmedias

El algoritmo kmean

Evaluacin de desempeo

Estimacin de error y
confanza

Aplico el clasificador a un conjunto de test de


patrones cuya clase es conocida Zts
Estimo el error contando discrepancias entre clase verdadera y
etiqueta asignada por el clasificador

Error (D) =Nerror/Nts tasa de error aparente


Necesitamos un nmero grande de muestras para
verificar con confianza relativamente razonable.

Conjunto de entrenamiento y
de
testusar la mayor cantidad de datos posibles para el entrenamiento y para la
Queremos

evaluacin del desempeo del clasificador.

Si usamos todos los datos para el entrenamiento y el mismo conjunto para la evaluacin
podemos SOBREENTRENAR el clasificador. Lo que puede hacer que falle con datos no vistos.

Reclasificacin: procedimiento de evaluacin de desempeo usando el conjunto de aprendizaj

Generalizacin: Evaluacin con un conjunto de test


independiente.

Utilizacin de los datos: entrenamiento vs


Testing

Utilizacin de los datos: entrenamiento vs


Testing
Bootstrap: se utiliza para corregir la estimacin optimista del R-mtodo.
Se hace generando L conjuntos de cardinalidad n a partir del conjunto Z con remplazo.
Luego se promedia error de clasificacin de los conjuntos.
Hold out: Utilizo 3 conjuntos: entrenamiento, validacin y test.
Se continua el entrenamiento hasta que no se logra mejora con
el conjunto de validacin.

Matrices de Confusin
Para determinar como se distribuyen los errores en las
clases se construyen las matrices de confusin usando
el conjunto de test Zts.

La entrada aij de cada matriz indica el nmero de


elementos de Zts cuya clase cierta es wi y que se le
asign clase wj

Huellas Dactilares

omparacin de desempeo

Evaluacin de
Desempeo
En una aplicacin de control de acceso o de
verificacin (confrontacin) existen dos clases:
w1 la identidad es autntica o
w2 la identidad es falsa

En este contexto podemos cometer dos errores de clasificacin que


tienen dos costos muy distintos, minimizar el error promedio no es lo
adecuado

Receiver Operating
Characteristic

Ejemplo de Problema
Real

Una planta procesadora de pescado quiere automatizar el


Proceso de clasificacin de pescado con respecto a la especie
(Salmn o Rdalo).
El sistema automatizado consiste en:

Una cinta transportadora para los productos recibidos

Dos cintas transportadoras para los productos clasificados

Un brazo robtico para tomar y colocar objetos

Un sistema de visin con una cmara

Una computadora para clasificar las imgenes y controlar el robot

Ejemplo de Problema
Censado: El sistema de visin captura una imagen en cuanto un nuevo pescado entra en el rea de
Real
clasificacin.

Preprocesado Algoritmos de Procesamiento de Imgenes

Segmentacin para separar el pescado del fondo de la imagen

Extraccin de caractersticas Supongamos que sabemos que en media, el


rdalo es ms largo que el salmn

A partir de la imagen segmentada estimamos la longitud del pescado

Clasificacin

Ajuste de niveles de intensidad

Seleccionar un conjunto de muestras de ambas especies.

Calcular la distribucin de longitudes para ambas clases.

Determinar la frontera de decisin (umbral) que minimiza el error de clasificacin.

Estimamos la probabilidad de error y se obtiene un mal resultado del orden del 40%

Qu hacemos ahora?

Mejora del Desempeo: Para obtener un error inferior al 5%,


probamos con nuevas caractersticas:

Anchura, rea, posicin de los ojos respecto a la cara,...

Finalmente encontramos una buena caracterstica: Intensidad media


media de las escamas .

Combinamos: longitud e intensidad media de las escamas para


mejorar Longitud la separabilidad de las clases

Buscamos un clasificador que proporcione una frontera de decisin lineal


(clasificador lineal) y obtenemos un 4.3% de error.

Costo y Error de Clasificacin

El clasificador que se dise hace mnimo el error de clasificacin.

Es ste el mejor criterio para procesar pescado?

El costo de clasificar errneamente salmn como rdalo es que el


consumidor encontrar una pieza sabrosa de salmn cuando compra
rdalo.

El costo de clasificar errneamente rdalo como salmn es que el


consumidor encontrar una pieza rdalo comprada al precio de salmn

Resume
n
Los objetivos del Reconocimiento de Patrones est
relacionados con la eleccin del algoritmo ms apropiado para
el problema a resolver.

Esto requiere conocimiento a priori (distribucin de los datos,


probabilidades a priori, complejidad del problema, fsica del fenmeno que
gener los datos, etc).

En ausencia de conocimiento a priori no hay ningn clasificador mejor


que otro. Sin embargo con informacin a priori, algunos clasificadores
funcionan mejor con determinados tipos de problemas.

El reto es entonces identificar el clasificador o la combinacin adecuada


para el problema a resolver.

Proyectos de Investigacin recientes:

Deteccin de melanomas

Deteccin de focos epilpticos

Deteccin de plipos en colonoscopa virtual

Clasificacin de trfico en redes de datos

Deteccin de fraudes en consumos de energa

Reconocimiento de Caras

Reconocimiento de Melodas

Potrebbero piacerti anche