Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Reconocimiento e Interpretacion
Concluiremos el estudio del procesmiento de imagenes digitales desarrollando varias tecnicas que
hacen posible su reconocimiento e interpretacion. La materia de este captulo esta relacionada
principalmente con las aplicaciones que requieren un analisis automatizado de imagenes. El analisis
de imagenes es un proceso que consiste en descubrir, identificar y comprender los patrones que son
relevantes en el rendimiento de un trabajo basado en imagenes. Uno de los principales objetivos
del analisis de imagenes por computadora consiste en dotar a una maquina, en algun sentido, de
la capacidad de aproximacion, similar a la de los seres humanos. Por ejemplo, en un sistema para
la lectura automatica de imagenes correspondientes a documentos mecanografiados, los patrones
de interes son los caracteres alfanumericos, y el objetivo es conseguir un reconocimiento preciso de
caracteres que este tan proximo como sea posible a la magnfica capacidad exhibida por los seres
humanos para realizar tareas de este tipo. De este modo, un sistema automatico de analisis de
imagenes debera ser capaz de ofrecer varios grados de inteligencia.
El concepto de inteligencia es algo vago, particularmente con referencia a una maquina. Sin em-
bargo, no resulta difcil expresar el concepto de los diferentes tipos de comportamiento asociados
generalmente con la inteligencia. Diversas caractersticas nos vienen rapidamente a la mente:
251
252 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION
Sin embargo, las tecnicas mas avanzadas de analisis de imagenes por computadora se basan en su
mayor parte en formulas heursticas, adaptadas para la resolucion de problemas especficos. Por
ejemplo, algunas maquinas son capaces de leer documentos impresos, con el formato adecuado, a
velocidades superiores en varios ordenes de magnitud a las que pueda conseguir el lector mas ex-
perto. De cualquier forma, los sistemas de este tipo son sumamente especializados y tienen poca o
ninguna aplicacion en otras tareas. Esto es, la teora actual y las limitaciones de implementacion en
el campo del analisis de imagenes implican soluciones que, en gran medida, dependen del problema.
x1
x2
X= ..
.
xn
x1
X=
x2
En otras palabras, un patron desconocido X pertenece a la i-esima clase de patrones si, al sustituir
X en todas las funciones de decision, di (X) toma el mayor valor numerico. En caso de igualdad,
los conflictos se resuelven arbitrariamente. La frontera de decision que separa la clase wi de la wj
viene dada por valores de X para los que di (X) = dj (X) o, expresado de forma equivalente, por
los valores de X para los que,
di (X) dj (X) = 0.
La practica comun consiste en hacer que la frontera de decision entre dos clases sea la funcion
De esta forma, dij (X) > 0 para los patrones de la clase wi y dij (X) < 0 para los patrones de la
clase wj . El objetivo principal de la presentacion de esta seccion es desarrollar varias tecnicas que
permitan encontrar funciones de decision que satisfagan la primera ecuacion.
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 255
Supongamos que cada clase de patrones esta representada por un vector prototipo (o medio):
1 X
mj = X j = 1, 2, . . . , M
Nj
Xwj
donde Nj es el numero de patrones vectoriales de la clase wj y la suma se realiza para todos los
vectores. Una forma de determinar la pertenencia a una clase de un patron vectorial desconocido
X consiste en asignarlo a la clase del prototipo mas proximo. Si se utiliza la distancia eucldea para
determinar el grado de proximidad, se reduce el problema del calculo de las medidas de distancia:
Dj = kX mj k j = 1, 2, . . . , M
1/2
donde kak = aT a es la norma eucldea. Si Di (X) es la menor distancia, entonces se asigna la
X a la clase wi . Esto es, en esta formulacion, la menor distancia implica el mejor emparejamiento
o correspondencia. No resulta difcil demostrar que esto es equivalente a evaluar las funciones
1
dj (X) = X T mj mTj mj j = 1, 2, . . . , M
2
y asignar X a la clase wi si di (X) toma el mayor valor numerico. Esta formulacion concuerda con
el concepto de funcion de decision, como se ha definido anteriormente. De las ecuaciones previas,
la frontera de decision entre las clases wi y wj para un clasificador de mnima distancia es:
1
dij (X) = di (X) dj (X) = X T (mi mj ) (mi mj )T (mi mj ) = 0
2
La superficie dada por esta ecuacion es el bisector perpendicular a la lnea que une mi y mj . Para
n = 2, el bisector perpendicular es una lnea, para n = 3 es un plano, y para n > 3 un hiperplano.
Ejemplo: La figura 7.2 muestra dos clases de patrones tomados de las muestras de lirios del ejemplo
analizado anteriormente. Las dos clases, Iris versicolor e Iris setosa, representadas por w1 y w2
respectivamente, tienen como vectores medios m1 = (4.3, 1.3)T y m2 = (1.5, 0.3)T .
De la ecuacion anterior, las funciones de decision son,
1
d1 (X) = X T m1 mT1 m1 = 4.3x1 + 1.3x2 10.1
2
y
1
d2 (X) = X T m2 mT2 m2 = 1.5x1 + 0.3x2 1.17
2
Entonces la ecuacion de la frontera se convierte en
256 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION
La figura 7.2 muestra una representacion grafica de esta frontera. Al sustituir cualquier patron de
la clase w1 se obtiene d12 (X) > 0. Recprocamente, para cualquier patron de la clase w2 verifica
que d12 (X) < 0. En otras palabras, dado un patron desconocido que pertenezca a una de estas dos
clases, el signo de d12 (X) sera suficiente para determinar la pertenencia a la correspondiente clase.
En la practica, el clasificador de mnima distancia funciona bien cuando la distancia entre los prome-
dios es grande en comparacion con las variaciones de los elementos de cada clase con respecto a su
media. Posteriormente se demostrara que el clasificador de mnima distancia tiene un rendimiento
optimo (en terminos de minimizacion del error medio de clasificacion) cuando la distribucion de
cada clase alrededor de su media tiene la forma de una hipernube esferica en el espacio de patrones
de dimension n. La existencia simultanea de grandes separaciones entre los valores promedio y
de una dispersion relativamente pequena de las clases es un suceso que rara vez se produce en la
practica, a menos que el disenador del sistema controle la naturaleza de la entrada.
XX
c(s, t) = f (x, y)w(x s, y t)
x y
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 257
PP
f (x, y) f(x, y) [w(x s, y t) w]
x y
(s, t) = P P 2 P P
f (x, y) f(x, y) [w(x s, y t) w]2
x y x y
Aunque la funcion correlacion se puede normalizar para considerar variaciones de amplitud uti-
lizando el coeficiente de correlacion, puede resultar difcil realizar dicha normalizacion para varia-
ciones de tamano y rotacion. La normalizacion del tamano implica la aplicacion de factores de
escala espaciales, un proceso que por s solo anade una cantidad significativa de calculos. La nor-
malizacion de la rotacion es aun mas difcil. Si se puede extraer de f (x, y) alguna pista sobre
la rotacion, entonces simplemente giramos w(x, y) para que tenga el mismo grado de rotacion que
f (x, y). Sin embargo, si la naturaleza de la rotacion es desconocida, la busqueda de la mejor concor-
dancia requiere exhaustivos giros de w(x, y). Este procedimiento no es practico y, en consecuencia,
rara vez se utiliza la correlacion en los casos que presenten rotacion arbitraria o libre.
La correlacion tambien se puede calcular en el dominio de la frecuencia, mediante la Transformada
rapida de Fourier. Si f y w son del mismo tamano, esta tecnica puede ser mas eficaz que la
implementacion directa de la correlacion en el dominio espacial. Una estimacion realizada por
Campbell [1969] indica que, si el numero de terminos no nulos de w es menor de 132 (una subimagen
de aproximadamente 13 13 pixeles), la implementacion directa de la ecuacion de la correlacion
es mas eficaz que la tecnica de la transformada rapida de Fourier. Por supuesto, este numero
depende de la maquina y de los algoritmos utilizados, pero indica aproximadamente un tamano
de subimagen a partir del que se debera considerar como alternativa el dominio de la frecuencia.
El coeficiente de correlacion es considerablemente mas difcil de implementar en el dominio de la
frecuencia y se suele calcular directamente a partir de la ecuacion estudiada.
Fundamentos
M
X
rj (X) = Lkj p(wk /X)
k=1
Esta ecuacion se suele denominar riesgo medio condicional o perdidas, segun la terminologa de
la teora de decisiones. Segun la teora basica de probabilidades, p(a/b) = [p(a)p(b/a)]/p(b). Uti-
lizando esta expresion, escribimos la ecuacion anterior de la forma:
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 259
M
1 X
rj (X) = Lkj p(X/wk )P (wk )
p(X)
k=1
M
X
rj (X) = Lkj p(X/wk )P (wk )
k=1
El clasificador tiene M clases posibles para elegir a la hora de clasificar un patron desconocido dado.
Si se calculan rl (x), r2 (X), , rM (X) para cada patron X, y se asigna el patron a la clase que tenga
el menor error, el error medio total con respecto a todas las decisiones sera mnimo. El clasificador
que minimiza el error medio total se denomina clasificador de Bayes. As pues, el clasificador de
Bayes asigna un patron desconocido X a la clase wi , si ri (x) < rj (X), para j = 1, 2, . . . , M ; j 6= i.
En otras palabras, se asigna X a la clase wi si,
M
X M
X
Lki p(X/wk )P (wk ) < Lqj p(X/wq )P (wq )
k=1 q=1
Lij = 1 ij
M
X
rj (X) = (1 kj ) p(X/wk )P (wk ) = p(X) p(X/wj )P (wj )
k=1
o bien,
260 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION
Con referencia a la discusion que conduce a la ecuacion de las funciones de decision, vemos que el
clasificador de Bayes para funciones de error 0 1 no es nada mas que la implementacion de las
funciones de decision de la forma,
donde un patron vectorial X se asigna a la clase wi si di (X) > dj (X) para todo j 6= i.
Las funciones de decision especificadas son optimas pues minimizan el error medio debido a clasi-
ficaciones erroneas. Para conseguir esta optimizacion, sin embargo, se deben conocer las funciones
de densidad de probabilidad de los patrones de cada clase, as como la probabilidad de ocurrencia
de cada clase. Este ultimo requisito normalmente no es problema.
Por ejemplo, si todas las clases son equiprobables, entonces P (wi ) = 1/M . Incluso si esta relacion
no es cierta, estas probabilidades pueden ser inferidas generalmente del conocimiento del prob-
lema. La estimacion de las funciones de densidad de probabilidad p(X/wi) es otra cuestion. Si
los patrones vectoriales, X, son de dimension n, p(X/wi) es una funcion de n variables, que, si
su forma no es conocida, requiere metodos de la teora de probabilidades de varias variables para
su estimacion. Estos metodos son difciles de aplicar en la practica, especialmente si el numero
de patrones representativos de cada clase no es grande o si la forma de las funciones de densidad
de probabilidad no se comporta bien. Por estas razones, el uso del clasificador de Bayes se basa
generalmente en la suposicion de una expresion analtica para las diversas funciones de densidad
y, posteriormente, en una estimacion de los parametros de la expresion para los patrones ejemplo
de cada clase. Con diferencia, la forma mas comunmente supuesta para p(X/wi ) es la distribucion
gaussiana. Cuanto mas se aproxime a la realidad esta suposicion, mas se aproximara el clasificador
de Bayes al mnimo error medio de clasificacion.
El Clasificador de Bayes
Para empezar, consideremos un problema unidimensional (n = 1) que incluye dos clases de patrones
(M = 2) gobernadas por densidades gaussianas, con medias ml y m2 y desviaciones tpicas 1 y
2 , respectivamente. Las funciones de decision de Bayes tienen la forma:
" #
2
1 (x m j )
dj (x) = p(x/wj )P (wj ) = exp P (wj )
2j 2j2
donde los patrones son ahora escalares, de notacion x. La figura 7.4 muestra una representacion
grafica de las funciones de densidad de probabilidad para las dos clases. La frontera entre las
dos clases es un unico punto, denominado x0 , tal que dl (x0 ) = d2 (x0 ). Si las dos clases son
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 261
equiprobables, P (wl ) = P (w2 ) = 1/2, y la frontera de decision es el valor x0 , para el cual p(x0 /wl ) =
p(x0 /w2 ). Este punto es la interseccion de las dos funciones de densidad de probabilidad.
Cualquier patron (punto) situado a la derecha de x0 se clasifica como perteneciente a la clase wl .
De manera similar, cualquier patron situado a la izquierda de x0 se clasifica como perteneciente a
la clase w2 . Cuando las clases no son equiprobables, x0 se mueve a la izquierda si es mas probable
la ocurrencia de la clase wl o, recprocamente, a la derecha si la clase w2 tiene mas probabilidad
de suceder. Este resultado era de esperar, porque el clasificador trata de minimizar el error de
clasificacion. Por ejemplo, en el caso extremo, si nunca ocurre la clase w2 , el clasificador nunca
se equivocara al asignar siempre los patrones a la clase wl (esto es, x0 se movera hacia menos
infinito).En el caso mas general de dimension n, la densidad gaussiana de los vectores de la j-esima
clase de patrones tiene la forma:
1 1
p(X/wj ) = exp (X mj )T Cj1 (X mj )
n 1 2
(2) /2 |Cj | /2
donde cada densidad queda especificada completamente por su vector medio mj y la matriz de
covarianza Cj , que se definen como sigue:
mj = E {X}
n o
Cj = E (X mj ) (X mj )T
donde E( ) representa el valor esperado del argumento para los patrones de la clase wi , n es la
dimension de los patrones vectoriales, y |Cj | es el determinante de la matriz Cj . Al aproximar el
valor esperado E por el valor medio de las cantidades en cuestion se obtiene una estimacion del
vector medio y la matriz de covarianza:
1 X
mj = X
Nj xw
j
262 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION
1 X
Cj = XX T mj mTj
Nj xw
j
donde Nj es el numero de patrones vectoriales de la clase wi , y la sumatoria se calcula para estos vec-
tores. La matriz de covarianza es simetrica y semidefinida positiva. El elemento ckk , perteneciente
a la diagonal de la matriz, es la varianza del k-esimo elemento de los patrones vectoriales. El ele-
mento cjk , situado fuera de la diagonal, es la covarianza de xi y xj . Cuando los elementos xj y xk
son estadsticamente independientes, cjk = 0. La funcion de densidad de Gauss de varias variables
se reduce al producto de la densidad de Gauss (de una variable) de cada elemento de X cuando
los elementos fuera de la diagonal de la matriz de covarianza son nulos. La funcion de decision
de Bayes para la clase wi es di (X) = p(X/wi )P (wi). Sin embargo, debido a la forma exponencial
de la densidad gaussiana, es mas conveniente trabajar con el logaritmo neperiano de la funcion de
decision. En otras palabras, podemos utilizar la forma:
dj (X) = ln p(X/wj )P (wj ) = ln p(X/wj ) + ln P (wj )
n 1 1h i
dj (X) = ln P (wj ) + ln 2 ln |Cj | (X mj )T Cj1 (X mj )
2 2 2
El termino (n/2)ln2 es el mismo para todas las clases, por lo que es posible eliminarlo de la
ecuacion , que pasa a ser:
1 1h i
dj (X) = ln P (wj ) ln |Cj | (X mj )T Cj1 (X mj )
2 2
para j = 1, 2, . . . , M . Esta ecuacion representa las funciones de decision de Bayes para clases de
patrones gaussianas que tienen una funcion de error 0 1.
Las funciones de decision representadas en la ecuacion son hipercuadricas (funciones cuadraticas
en un espacio de dimension n), puesto que en la ecuacion no aparece ningun termino de grado
superior a dos en las componentes de X. Claramente, lo mejor que puede hacer un clasificador de
Bayes para patrones gaussianos es situar una superficie general de decision de segundo orden entre
cada par de clases de patrones. No obstante, si las distribuciones de los patrones son realmente
gaussianas, ninguna otra superficie conseguira un error medio inferior en la clasificacion.
Si todas las matrices de covarianza son iguales, Cj = C, para j = 1, 2, . . . , M y quitando todos los
terminos independientes de j la ecuacion anterior pasa a ser:
1
dj (X) = ln P (wj ) + X T C 1 mj mTj C 1 mj
2
7.2. REDES NEURONALES 263
1
dj (X) = X T mj mTj mj
2
Esta ecuacion representa las funciones de decision de un clasificador de mnima distancia, indicado
anteriormente. Por lo tanto, el clasificador de mnima distancia es optimo, segun Bayes, si:
Las clases de patrones gaussianas que satisfacen estas condiciones son nubes esfericas de identica
forma en n dimensiones (denominadas hiperesferas). El clasificador de mnima distancia establece
un hiperplano entre cada par de clases, con la propiedad de que el hiperplano es el bisector per-
pendicular del segmento que une los centros del par de esferas. En dos dimensiones, las clases
constituyen crculos, y los lmites pasan a ser lneas perpendiculares al segmento que une los cen-
tros de los crculos, por su punto medio.
Las tecnicas explicadas anteriormente se basan en el uso de patrones ejemplo para la estimacion de
determinados parametros estadsticos de cada clase patron. A los patrones utilizados para estimar
estos parametros normalmente se les denomina patrones de entrenamiento, y a un conjunto de
tales patrones de cada clase se lo conoce como conjunto de entrenamiento. El proceso de utilizar
un conjunto de entrenamiento para obtener funciones de decision se le denomina aprendizaje o
entrenamiento.
A menudo, las propiedades estadsticas de las clases de patrones de un problema son desconocidas,
o no es posible realizar una estimacion de las mismas. En la practica, estos problemas de decision se
gestionan mejor utilizando metodos que obtienen directamente las funciones de decision requeridas
mediante el entrenamiento.
La esencia del proximo material es la utilizacion de una diversidad de elementos de calculo no
lineales y elementales denominados neuronas organizadas como redes que se asemejan a la forma
en que se cree que estan interconectadas las neuronas en el cerebro. Los modelos resultantes poseen
diversas denominaciones, como ser redes neuronales, neurocomputadoras y otras.
En su forma mas simple, una neurona o perceptron aprende una funcion de decision lineal que
dicotomiza dos conjuntos de entrenamiento linealmente separables. La figura 7.5 muestra es-
264 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION
n
X
d(X) = wi xi + wn+1
i=1
n
X
d(X) = wi xi + wn+1 = 0 o w1 x1 + w2 x2 + + wn xn + wn+1 = 0
i=1
La salida del elemento umbral depende del signo de d(X). Se puede modificar esta funcion a la
forma de la figura 7.6.
A continuacion se explica un sencillo algoritmo iterativo para obtener un vector de peso solucion
de dos conjuntos de entrenamiento.
Supongase que se tienen dos conjuntos de entrenamiento de patrones que pertenecen a las clases de
patrones w1 y w2 , respectivamente, y que w(1) representa el vector peso inicial, elegido arbitraria-
mente. Entonces en la k-esima iteracion, si y(k) pertenece a w1 y wT (k)y(k) 0, se sustituye w(k)
7.2. REDES NEURONALES 265
por
La figura 7.7 muestra una red neuronal multicapa, denominado perceptron multicapa.