Sei sulla pagina 1di 15

Captulo 7

Reconocimiento e Interpretacion

Concluiremos el estudio del procesmiento de imagenes digitales desarrollando varias tecnicas que
hacen posible su reconocimiento e interpretacion. La materia de este captulo esta relacionada
principalmente con las aplicaciones que requieren un analisis automatizado de imagenes. El analisis
de imagenes es un proceso que consiste en descubrir, identificar y comprender los patrones que son
relevantes en el rendimiento de un trabajo basado en imagenes. Uno de los principales objetivos
del analisis de imagenes por computadora consiste en dotar a una maquina, en algun sentido, de
la capacidad de aproximacion, similar a la de los seres humanos. Por ejemplo, en un sistema para
la lectura automatica de imagenes correspondientes a documentos mecanografiados, los patrones
de interes son los caracteres alfanumericos, y el objetivo es conseguir un reconocimiento preciso de
caracteres que este tan proximo como sea posible a la magnfica capacidad exhibida por los seres
humanos para realizar tareas de este tipo. De este modo, un sistema automatico de analisis de
imagenes debera ser capaz de ofrecer varios grados de inteligencia.
El concepto de inteligencia es algo vago, particularmente con referencia a una maquina. Sin em-
bargo, no resulta difcil expresar el concepto de los diferentes tipos de comportamiento asociados
generalmente con la inteligencia. Diversas caractersticas nos vienen rapidamente a la mente:

1. la capacidad de extraer la informacion de interes, separandola de un conjunto de detalles


irrelevantes.
2. la capacidad de aprender a partir de ejemplos y de generalizar este conocimiento para que se
pueda aplicar en nuevas y diferentes circunstancias.
3. la capacidad de realizar inferencias a partir de una informacion incompleta.

Se pueden disenar e implementar sistemas de analisis de imagenes de estas caractersticas para


entornos operativos limitados. Sin embargo, no sabemos todava como dotar a estos sistemas de
un nivel de rendimiento que llegue incluso a emular las capacidades humanas a la hora de realizar
funciones genericas del analisis de imagenes.
Gracias a la investigacion en sistemas informaticos y biologicos, continuamente se estan des-
cubriendo nuevas y prometedoras teoras que intentan explicar el conocimiento visual humano.

251
252 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

Sin embargo, las tecnicas mas avanzadas de analisis de imagenes por computadora se basan en su
mayor parte en formulas heursticas, adaptadas para la resolucion de problemas especficos. Por
ejemplo, algunas maquinas son capaces de leer documentos impresos, con el formato adecuado, a
velocidades superiores en varios ordenes de magnitud a las que pueda conseguir el lector mas ex-
perto. De cualquier forma, los sistemas de este tipo son sumamente especializados y tienen poca o
ninguna aplicacion en otras tareas. Esto es, la teora actual y las limitaciones de implementacion en
el campo del analisis de imagenes implican soluciones que, en gran medida, dependen del problema.

7.1 Elementos del Analisis de Imagenes

7.1.1 Tecnicas Utilizadas

El estudio siguiente trata sobre:

1. metodos de decision-teorica para el reconocimiento.

2. metodos estructurales para el reconocimiento.

3. metodos para la interpretacion de imagenes.

El reconocimiento de decision teorica se basa en la representacion de patrones en forma vectorial y en


la busqueda posterior de aproximaciones que permitan agrupar y asignar estos patrones vectoriales
a las diferentes clases de patrones. Las principales tecnicas de reconocimiento de decision teorica
son los clasificadores de mnima distancia, los correladores, los clasificadores de Bayes y las redes
neuronales. En el reconocimiento estructural, los patrones se representan en forma simbolica (como
cadenas y arboles), y los metodos de reconocimiento se basan en el emparejamiento de smbolos o
en modelos que tratan a los patrones de smbolos como sentencias de un lenguaje artificial.
La interpretacion de una imagen consiste en asignar un significado a un conjunto de elementos
reconocidos en dicha imagen. El principal concepto que subyace en las diversas metodologas de
interpretacion de imagenes es la organizacion efectiva y el empleo del conocimiento acerca del
dominio especfico de un problema. Las tecnicas actuales para la interpretacion de imagenes se
basan en la logica de predicados, en redes semanticas y en sistemas de produccion (en concreto, en
sistemas expertos).

7.1.2 Patrones y Clases de Patrones

Como se establecio anteriormente, en el analisis de una imagen es fundamental realizar, en algun


nivel, un reconocimiento de patrones. Aqu, un patron es una descripcion estructural o cuantitativa
de un objeto o de alguna otra entidad de interes en una imagen. En general, un patron esta formado
por uno o mas descriptores o caractersticas, como los ya vistos en la etapa de Descripcion. En
otras palabras, un patron es una disposicion de descriptores. Una clase de patrones es una familia
de patrones que comparten algunas propiedades comunes. Las clases de patrones se representan
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 253

por w1 , w2 , . . . , wM , donde M es el numero de clases. El reconocimiento de patrones mediante


una maquina supone la utilizacion de tecnicas que permitan asignar los patrones a sus respectivas
clases, automaticamente y con la menor intervencion humana posible.
Las tres representaciones de patrones principalmente utilizadas en la practica son los vectores (para
descripciones cuantitativas) y las cadenas y los arboles (para descripciones estructurales).
Los patrones vectoriales se representan utilizando letras mayusculas, y tienen la forma:


x1
x2

X= ..
.
xn

donde cada componente, xi , representa el i-esimo descriptor y n es el numero de descriptores.


Los patrones vectoriales se representan como columnas. De aqu que un patron vectorial se
puede expresar en la forma mostrada por la ecuacion anterior o en la forma equivalente X =
T
x1 x2 xn , donde la T indica una transposicion. La naturaleza de los componentes de
un patron vectorial X depende de la tecnica de medida utilizada para describir el propio patron
fsico.
Por ejemplo, supongamos que queremos describir tres tipos de lirios (Iris setosa, Iris virginica e
Iris versicolor) por la medida de la longitud y el ancho de sus petalos. En este caso, utilizaramos
vectores bidimensionales de la forma:


x1
X=
x2

donde x1 y x2 corresponden al ancho y a la longitud del petalo, respectivamente. En este caso,


las tres clases de patrones, representadas por w1 , w2 y w3 , corresponden a las variedades setosa,
virginica y versicolor, respectivamente. Puesto que la longitud y el ancho de los petalos de todas las
flores varan en algun grado, los patrones vectoriales que describen estas flores tambien variaran,
no solo entre clases diferentes, sino tambien dentro de una misma clase. La figura 7.1 muestra
ejemplos de medidas de ancho y longitud para cada tipo de lirio.
Tras la seleccion de un tipo de medidas (dos, en este ejemplo), un patron vectorial pasa a ser
la representacion completa de cada ejemplo fsico. As, en el caso que nos ocupa, cada flor queda
representada por un punto del espacio eucldeo bidimensional. Tambien destacamos que las medidas
de longitud y ancho del petalo en este caso separan adecuadamente la clase setosa de las otras dos,
pero no separan tan claramente los tipos virginica y versicolor entre s. Este resultado ilustra el
clasico problema de seleccion de caractersticas (descriptores), en el que el grado de separabilidad
entre clases depende fuertemente de la eleccion del tipo de mediciones utilizadas para los patrones
de una determinada aplicacion.
254 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

Figura 7.1: Representacion de medidas de ancho y longitud de tres tipos de lirios.

7.1.3 Metodos de Decision Teorica

Los metodos de decision teorica para el reconocimiento se basan en la utilizacion de funciones


de decision (o discriminantes). Supongamos que X = (x1 , x2 , . . . , xn )T representa un patron
vectorial de dimension n. Para M clases de patrones, w1 , w2 , . . . , wm , el problema basico en el
reconocimiento de patrones por decision teorica consiste en encontrar M funciones de decision
d1 (X), d2 (X), . . . , dM (X) que tengan la propiedad que, si un patron X pertenece a la clase wi ,
entonces,

di (X) > dj (X) j = 1, 2, . . . , M i 6= j

En otras palabras, un patron desconocido X pertenece a la i-esima clase de patrones si, al sustituir
X en todas las funciones de decision, di (X) toma el mayor valor numerico. En caso de igualdad,
los conflictos se resuelven arbitrariamente. La frontera de decision que separa la clase wi de la wj
viene dada por valores de X para los que di (X) = dj (X) o, expresado de forma equivalente, por
los valores de X para los que,

di (X) dj (X) = 0.

La practica comun consiste en hacer que la frontera de decision entre dos clases sea la funcion

dij (X) = di (X) dj (X) = 0.

De esta forma, dij (X) > 0 para los patrones de la clase wi y dij (X) < 0 para los patrones de la
clase wj . El objetivo principal de la presentacion de esta seccion es desarrollar varias tecnicas que
permitan encontrar funciones de decision que satisfagan la primera ecuacion.
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 255

7.1.4 Clasificador de Mnima Distancia

Supongamos que cada clase de patrones esta representada por un vector prototipo (o medio):

1 X
mj = X j = 1, 2, . . . , M
Nj
Xwj

donde Nj es el numero de patrones vectoriales de la clase wj y la suma se realiza para todos los
vectores. Una forma de determinar la pertenencia a una clase de un patron vectorial desconocido
X consiste en asignarlo a la clase del prototipo mas proximo. Si se utiliza la distancia eucldea para
determinar el grado de proximidad, se reduce el problema del calculo de las medidas de distancia:

Dj = kX mj k j = 1, 2, . . . , M
1/2
donde kak = aT a es la norma eucldea. Si Di (X) es la menor distancia, entonces se asigna la
X a la clase wi . Esto es, en esta formulacion, la menor distancia implica el mejor emparejamiento
o correspondencia. No resulta difcil demostrar que esto es equivalente a evaluar las funciones

1
dj (X) = X T mj mTj mj j = 1, 2, . . . , M
2

y asignar X a la clase wi si di (X) toma el mayor valor numerico. Esta formulacion concuerda con
el concepto de funcion de decision, como se ha definido anteriormente. De las ecuaciones previas,
la frontera de decision entre las clases wi y wj para un clasificador de mnima distancia es:

1
dij (X) = di (X) dj (X) = X T (mi mj ) (mi mj )T (mi mj ) = 0
2
La superficie dada por esta ecuacion es el bisector perpendicular a la lnea que une mi y mj . Para
n = 2, el bisector perpendicular es una lnea, para n = 3 es un plano, y para n > 3 un hiperplano.
Ejemplo: La figura 7.2 muestra dos clases de patrones tomados de las muestras de lirios del ejemplo
analizado anteriormente. Las dos clases, Iris versicolor e Iris setosa, representadas por w1 y w2
respectivamente, tienen como vectores medios m1 = (4.3, 1.3)T y m2 = (1.5, 0.3)T .
De la ecuacion anterior, las funciones de decision son,

1
d1 (X) = X T m1 mT1 m1 = 4.3x1 + 1.3x2 10.1
2
y

1
d2 (X) = X T m2 mT2 m2 = 1.5x1 + 0.3x2 1.17
2
Entonces la ecuacion de la frontera se convierte en
256 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

Figura 7.2: Frontera de desicion.

d12 (X) = d1 (X) d2 (X) = 2.8x1 + 1.0x2 8.9 = 0

La figura 7.2 muestra una representacion grafica de esta frontera. Al sustituir cualquier patron de
la clase w1 se obtiene d12 (X) > 0. Recprocamente, para cualquier patron de la clase w2 verifica
que d12 (X) < 0. En otras palabras, dado un patron desconocido que pertenezca a una de estas dos
clases, el signo de d12 (X) sera suficiente para determinar la pertenencia a la correspondiente clase.
En la practica, el clasificador de mnima distancia funciona bien cuando la distancia entre los prome-
dios es grande en comparacion con las variaciones de los elementos de cada clase con respecto a su
media. Posteriormente se demostrara que el clasificador de mnima distancia tiene un rendimiento
optimo (en terminos de minimizacion del error medio de clasificacion) cuando la distribucion de
cada clase alrededor de su media tiene la forma de una hipernube esferica en el espacio de patrones
de dimension n. La existencia simultanea de grandes separaciones entre los valores promedio y
de una dispersion relativamente pequena de las clases es un suceso que rara vez se produce en la
practica, a menos que el disenador del sistema controle la naturaleza de la entrada.

7.1.5 Correspondencia por Correlacion

Anteriormente se introdujo el concepto basico de correlacion de imagenes. Aqu lo consideramos


como el fundamento que nos va a permitir encontrar replicas de una subimagen w(x, y) de tamano
J K dentro de una imagen f (x, y) de dimension M N , donde se supone que J M y K N .
Aunque el enfoque de las correlaciones se puede formular en forma vectorial, resulta mas intuitivo
(y tradicional) trabajar directamente con el formato de imagenes o de subimagenes. En su forma
mas simple, la correlacion entre f (x, y) y w(x, y) es:

XX
c(s, t) = f (x, y)w(x s, y t)
x y
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 257

Figura 7.3: Procedimiento de correlacion.

donde s = 0, 1, 2, . . . , M 1, t = 0, 1, 2, . . . , N 1, y la sumatoria se calcula para la region de la


imagen donde se solapan w y f . La figura 7.3 ilustra el procedimiento, suponiendo que el origen
de f (x, y) esta situado en su parte superior izquierda y que el origen de w(x, y) esta ubicado en su
centro. Para cualquier valor de (s, t) dentro de f (x, y), la aplicacion de la ecuacion anterior dara
como resultado un valor de c.
Al variar s y t, w(x, y) se desplaza por la superficie de la imagen, dando la funcion c(s, t). El
maximo valor de c(s, t) indica la posicion en la que se produce la mayor correspondencia entre
w(x, y) y f (x, y). Observese que se pierde precision para valores de s y t proximos a los bordes de
f (x, y), siendo el valor del error proporcional al tamano de w(x, y). La funcion correlacion dada
por la ecuacion anterior tiene la desventaja de ser sensible a los cambios de amplitud de f (x, y) y
w(x, y). Por ejemplo, si duplicamos todos los valores de f (x, y), se duplica el valor de c(s, t). Una
tecnica utilizada con frecuencia para superar esta dificultad consiste en realizar la correspondencia
mediante el coeficiente de correlacion, que se define como:

PP
f (x, y) f(x, y) [w(x s, y t) w]
x y
(s, t) = P P 2 P P
f (x, y) f(x, y) [w(x s, y t) w]2
x y x y

donde s = 0, 1, 2, . . . , M 1, t = 0, 1, 2, . . . , N 1, w es el valor medio de los pixeles de w(x, y) (que


se calcula una sola vez), f (x, y) es el valor medio de f (x, y) en la region coincidente con la actual
ubicacion de w, y las sumatorias se calculan para las coordenadas comunes a f y w. El coeficiente
de correlacion (s, t) esta normalizado en el rango 1 a 1, y es independiente de los cambios de
escala aplicados a la amplitud de f (x, y) y w(x, y).
258 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

Aunque la funcion correlacion se puede normalizar para considerar variaciones de amplitud uti-
lizando el coeficiente de correlacion, puede resultar difcil realizar dicha normalizacion para varia-
ciones de tamano y rotacion. La normalizacion del tamano implica la aplicacion de factores de
escala espaciales, un proceso que por s solo anade una cantidad significativa de calculos. La nor-
malizacion de la rotacion es aun mas difcil. Si se puede extraer de f (x, y) alguna pista sobre
la rotacion, entonces simplemente giramos w(x, y) para que tenga el mismo grado de rotacion que
f (x, y). Sin embargo, si la naturaleza de la rotacion es desconocida, la busqueda de la mejor concor-
dancia requiere exhaustivos giros de w(x, y). Este procedimiento no es practico y, en consecuencia,
rara vez se utiliza la correlacion en los casos que presenten rotacion arbitraria o libre.
La correlacion tambien se puede calcular en el dominio de la frecuencia, mediante la Transformada
rapida de Fourier. Si f y w son del mismo tamano, esta tecnica puede ser mas eficaz que la
implementacion directa de la correlacion en el dominio espacial. Una estimacion realizada por
Campbell [1969] indica que, si el numero de terminos no nulos de w es menor de 132 (una subimagen
de aproximadamente 13 13 pixeles), la implementacion directa de la ecuacion de la correlacion
es mas eficaz que la tecnica de la transformada rapida de Fourier. Por supuesto, este numero
depende de la maquina y de los algoritmos utilizados, pero indica aproximadamente un tamano
de subimagen a partir del que se debera considerar como alternativa el dominio de la frecuencia.
El coeficiente de correlacion es considerablemente mas difcil de implementar en el dominio de la
frecuencia y se suele calcular directamente a partir de la ecuacion estudiada.

7.1.6 Clasificadores Estadsticos Optimos

Fundamentos

En esta seccion desarrollaremos una aproximacion probabilstica al reconocimiento. Como sucede


en la mayora de los campos relacionados con la medicion e interpretacion fsica de acontecimientos,
las consideraciones probabilsticas tienen su importancia en el reconocimiento de patrones, debido
a la aleatoriedad a la que normalmente esta sometida la generacion de clases de patrones. Como
se muestra en la siguiente exposicion, es posible obtener una tecnica de clasificacion optima en el
sentido que, por termino medio, su empleo tenga asociada la probabilidad mas baja de cometer
errores de clasificacion. La probabilidad de que un patron concreto, X, provenga de una clase
wi se representa por p(wi /X). Si el clasificador de patrones decide que X proviene de wj cuando
realmente proviene de wi , incurre en un error, de notacion Lij . Como el patron X puede pertenecer
a cualquiera de las M clases consideradas, el error medio que se produce al asignar X a la clase wi
es:

M
X
rj (X) = Lkj p(wk /X)
k=1

Esta ecuacion se suele denominar riesgo medio condicional o perdidas, segun la terminologa de
la teora de decisiones. Segun la teora basica de probabilidades, p(a/b) = [p(a)p(b/a)]/p(b). Uti-
lizando esta expresion, escribimos la ecuacion anterior de la forma:
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 259

M
1 X
rj (X) = Lkj p(X/wk )P (wk )
p(X)
k=1

donde p(X/wk) es la funcion densidad de probabilidad de los patrones de la clase wk y P (wk ) es


la probabilidad de ocurrencia de la clase wk . Puesto que 1/p(X) es positiva y comun a todos los
rj (x), j = 1, 2, . . . , M , puede ser eliminada de la ecuacion sin que esto afecte al orden relativo de
las funciones, de menor a mayor valor.
La expresion del error medio se reduce entonces a,

M
X
rj (X) = Lkj p(X/wk )P (wk )
k=1

El clasificador tiene M clases posibles para elegir a la hora de clasificar un patron desconocido dado.
Si se calculan rl (x), r2 (X), , rM (X) para cada patron X, y se asigna el patron a la clase que tenga
el menor error, el error medio total con respecto a todas las decisiones sera mnimo. El clasificador
que minimiza el error medio total se denomina clasificador de Bayes. As pues, el clasificador de
Bayes asigna un patron desconocido X a la clase wi , si ri (x) < rj (X), para j = 1, 2, . . . , M ; j 6= i.
En otras palabras, se asigna X a la clase wi si,

M
X M
X
Lki p(X/wk )P (wk ) < Lqj p(X/wq )P (wq )
k=1 q=1

En muchos problemas de reconocimiento, el error de una decision correcta es cero, y el valor no


nulo (por ejemplo, 1) para cualquier decision incorrecta es siempre el mismo. Bajo estas premisas,
la funcion error pasa a ser,

Lij = 1 ij

donde = 1 si i = j y = 0 si i 6= j. La ecuacion anterior asigna un error unidad a las decisiones


incorrectas y un error cero a las decisiones correctas. Sustituyendo esta ecuacion en la expresion
para rj (X) se obtiene:

M
X
rj (X) = (1 kj ) p(X/wk )P (wk ) = p(X) p(X/wj )P (wj )
k=1

El clasificador de Bayes asigna entonces un patron X a la clase wi si,

p(X) p(X/wi )P (wi ) < p(X) p(X/wj )P (wj )

o bien,
260 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

p(X/wi )P (wi ) > p(X/wj )P (wj )

Con referencia a la discusion que conduce a la ecuacion de las funciones de decision, vemos que el
clasificador de Bayes para funciones de error 0 1 no es nada mas que la implementacion de las
funciones de decision de la forma,

dj (X) = p(X/wj )P (wj )

donde un patron vectorial X se asigna a la clase wi si di (X) > dj (X) para todo j 6= i.
Las funciones de decision especificadas son optimas pues minimizan el error medio debido a clasi-
ficaciones erroneas. Para conseguir esta optimizacion, sin embargo, se deben conocer las funciones
de densidad de probabilidad de los patrones de cada clase, as como la probabilidad de ocurrencia
de cada clase. Este ultimo requisito normalmente no es problema.
Por ejemplo, si todas las clases son equiprobables, entonces P (wi ) = 1/M . Incluso si esta relacion
no es cierta, estas probabilidades pueden ser inferidas generalmente del conocimiento del prob-
lema. La estimacion de las funciones de densidad de probabilidad p(X/wi) es otra cuestion. Si
los patrones vectoriales, X, son de dimension n, p(X/wi) es una funcion de n variables, que, si
su forma no es conocida, requiere metodos de la teora de probabilidades de varias variables para
su estimacion. Estos metodos son difciles de aplicar en la practica, especialmente si el numero
de patrones representativos de cada clase no es grande o si la forma de las funciones de densidad
de probabilidad no se comporta bien. Por estas razones, el uso del clasificador de Bayes se basa
generalmente en la suposicion de una expresion analtica para las diversas funciones de densidad
y, posteriormente, en una estimacion de los parametros de la expresion para los patrones ejemplo
de cada clase. Con diferencia, la forma mas comunmente supuesta para p(X/wi ) es la distribucion
gaussiana. Cuanto mas se aproxime a la realidad esta suposicion, mas se aproximara el clasificador
de Bayes al mnimo error medio de clasificacion.

7.1.7 Clases Gaussianas

El Clasificador de Bayes

Para empezar, consideremos un problema unidimensional (n = 1) que incluye dos clases de patrones
(M = 2) gobernadas por densidades gaussianas, con medias ml y m2 y desviaciones tpicas 1 y
2 , respectivamente. Las funciones de decision de Bayes tienen la forma:

" #
2
1 (x m j )
dj (x) = p(x/wj )P (wj ) = exp P (wj )
2j 2j2

donde los patrones son ahora escalares, de notacion x. La figura 7.4 muestra una representacion
grafica de las funciones de densidad de probabilidad para las dos clases. La frontera entre las
dos clases es un unico punto, denominado x0 , tal que dl (x0 ) = d2 (x0 ). Si las dos clases son
7.1. ELEMENTOS DEL ANALISIS DE IMAGENES 261

Figura 7.4: Representacion grafica de las funciones de densidad de probabilidad.

equiprobables, P (wl ) = P (w2 ) = 1/2, y la frontera de decision es el valor x0 , para el cual p(x0 /wl ) =
p(x0 /w2 ). Este punto es la interseccion de las dos funciones de densidad de probabilidad.
Cualquier patron (punto) situado a la derecha de x0 se clasifica como perteneciente a la clase wl .
De manera similar, cualquier patron situado a la izquierda de x0 se clasifica como perteneciente a
la clase w2 . Cuando las clases no son equiprobables, x0 se mueve a la izquierda si es mas probable
la ocurrencia de la clase wl o, recprocamente, a la derecha si la clase w2 tiene mas probabilidad
de suceder. Este resultado era de esperar, porque el clasificador trata de minimizar el error de
clasificacion. Por ejemplo, en el caso extremo, si nunca ocurre la clase w2 , el clasificador nunca
se equivocara al asignar siempre los patrones a la clase wl (esto es, x0 se movera hacia menos
infinito).En el caso mas general de dimension n, la densidad gaussiana de los vectores de la j-esima
clase de patrones tiene la forma:


1 1
p(X/wj ) = exp (X mj )T Cj1 (X mj )
n 1 2
(2) /2 |Cj | /2

donde cada densidad queda especificada completamente por su vector medio mj y la matriz de
covarianza Cj , que se definen como sigue:

mj = E {X}

n o
Cj = E (X mj ) (X mj )T

donde E( ) representa el valor esperado del argumento para los patrones de la clase wi , n es la
dimension de los patrones vectoriales, y |Cj | es el determinante de la matriz Cj . Al aproximar el
valor esperado E por el valor medio de las cantidades en cuestion se obtiene una estimacion del
vector medio y la matriz de covarianza:

1 X
mj = X
Nj xw
j
262 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

1 X
Cj = XX T mj mTj
Nj xw
j

donde Nj es el numero de patrones vectoriales de la clase wi , y la sumatoria se calcula para estos vec-
tores. La matriz de covarianza es simetrica y semidefinida positiva. El elemento ckk , perteneciente
a la diagonal de la matriz, es la varianza del k-esimo elemento de los patrones vectoriales. El ele-
mento cjk , situado fuera de la diagonal, es la covarianza de xi y xj . Cuando los elementos xj y xk
son estadsticamente independientes, cjk = 0. La funcion de densidad de Gauss de varias variables
se reduce al producto de la densidad de Gauss (de una variable) de cada elemento de X cuando
los elementos fuera de la diagonal de la matriz de covarianza son nulos. La funcion de decision
de Bayes para la clase wi es di (X) = p(X/wi )P (wi). Sin embargo, debido a la forma exponencial
de la densidad gaussiana, es mas conveniente trabajar con el logaritmo neperiano de la funcion de
decision. En otras palabras, podemos utilizar la forma:


dj (X) = ln p(X/wj )P (wj ) = ln p(X/wj ) + ln P (wj )

Esta expresion es equivalente a la ecuacion anterior en cuanto al rendimiento de la clasificacion,


puesto que el logaritmo es una funcion monotona creciente. Dicho de otra forma, el orden numerico
de las funciones de decision de las ecuaciones es el mismo. Sustituyendo se obtiene:

n 1 1h i
dj (X) = ln P (wj ) + ln 2 ln |Cj | (X mj )T Cj1 (X mj )
2 2 2
El termino (n/2)ln2 es el mismo para todas las clases, por lo que es posible eliminarlo de la
ecuacion , que pasa a ser:

1 1h i
dj (X) = ln P (wj ) ln |Cj | (X mj )T Cj1 (X mj )
2 2
para j = 1, 2, . . . , M . Esta ecuacion representa las funciones de decision de Bayes para clases de
patrones gaussianas que tienen una funcion de error 0 1.
Las funciones de decision representadas en la ecuacion son hipercuadricas (funciones cuadraticas
en un espacio de dimension n), puesto que en la ecuacion no aparece ningun termino de grado
superior a dos en las componentes de X. Claramente, lo mejor que puede hacer un clasificador de
Bayes para patrones gaussianos es situar una superficie general de decision de segundo orden entre
cada par de clases de patrones. No obstante, si las distribuciones de los patrones son realmente
gaussianas, ninguna otra superficie conseguira un error medio inferior en la clasificacion.
Si todas las matrices de covarianza son iguales, Cj = C, para j = 1, 2, . . . , M y quitando todos los
terminos independientes de j la ecuacion anterior pasa a ser:

1
dj (X) = ln P (wj ) + X T C 1 mj mTj C 1 mj
2
7.2. REDES NEURONALES 263

que son funciones de decision lineales para j = 1, 2, . . . , M .


Si ademas, C = I, siendo I la matriz identidad y P (wj ) = 1/M para j = 1, 2, . . . , M , entonces,

1
dj (X) = X T mj mTj mj
2
Esta ecuacion representa las funciones de decision de un clasificador de mnima distancia, indicado
anteriormente. Por lo tanto, el clasificador de mnima distancia es optimo, segun Bayes, si:

las clases de patrones son gaussianas,


todas las matrices de covarianza son iguales a la matriz identidad,
todas las clases son equiprobables.

Las clases de patrones gaussianas que satisfacen estas condiciones son nubes esfericas de identica
forma en n dimensiones (denominadas hiperesferas). El clasificador de mnima distancia establece
un hiperplano entre cada par de clases, con la propiedad de que el hiperplano es el bisector per-
pendicular del segmento que une los centros del par de esferas. En dos dimensiones, las clases
constituyen crculos, y los lmites pasan a ser lneas perpendiculares al segmento que une los cen-
tros de los crculos, por su punto medio.

7.2 Redes Neuronales

Las tecnicas explicadas anteriormente se basan en el uso de patrones ejemplo para la estimacion de
determinados parametros estadsticos de cada clase patron. A los patrones utilizados para estimar
estos parametros normalmente se les denomina patrones de entrenamiento, y a un conjunto de
tales patrones de cada clase se lo conoce como conjunto de entrenamiento. El proceso de utilizar
un conjunto de entrenamiento para obtener funciones de decision se le denomina aprendizaje o
entrenamiento.
A menudo, las propiedades estadsticas de las clases de patrones de un problema son desconocidas,
o no es posible realizar una estimacion de las mismas. En la practica, estos problemas de decision se
gestionan mejor utilizando metodos que obtienen directamente las funciones de decision requeridas
mediante el entrenamiento.
La esencia del proximo material es la utilizacion de una diversidad de elementos de calculo no
lineales y elementales denominados neuronas organizadas como redes que se asemejan a la forma
en que se cree que estan interconectadas las neuronas en el cerebro. Los modelos resultantes poseen
diversas denominaciones, como ser redes neuronales, neurocomputadoras y otras.

7.2.1 Modelo de una Neurona

En su forma mas simple, una neurona o perceptron aprende una funcion de decision lineal que
dicotomiza dos conjuntos de entrenamiento linealmente separables. La figura 7.5 muestra es-
264 CAPITULO 7. RECONOCIMIENTO E INTERPRETACION

Figura 7.5: Modelo de una neurona.

quematicamente el modelo de una neurona para dos clases de patrones.


La respuesta de este dispositivo es,

n
X
d(X) = wi xi + wn+1
i=1

los coeficientes wi , i = 1, 2, . . . , n, n + 1, se denominan pesos y modifican las entradas antes de que


se sumen y pasen al elemento de umbralizacion. En este contexto los pesos se comportan como las
sinapsis del sistema neurologico humano. La funcion que convierte la salida de la suma en la salida
final del dispositivo a veces se denomina funcion de activacion.
Cuando d(X) > 0, el elemento umbral hace que la salida de la neurona sea +1, lo que indica que
se ha reconocido el patron X como perteneciente a la clase w1 . Lo contrario sucede si d(X) < 0.
La frontera de decision se obtiene igualando a cero la ecuacion de la neurona:

n
X
d(X) = wi xi + wn+1 = 0 o w1 x1 + w2 x2 + + wn xn + wn+1 = 0
i=1

La salida del elemento umbral depende del signo de d(X). Se puede modificar esta funcion a la
forma de la figura 7.6.

7.2.2 Algoritmo de Entrenamiento

A continuacion se explica un sencillo algoritmo iterativo para obtener un vector de peso solucion
de dos conjuntos de entrenamiento.
Supongase que se tienen dos conjuntos de entrenamiento de patrones que pertenecen a las clases de
patrones w1 y w2 , respectivamente, y que w(1) representa el vector peso inicial, elegido arbitraria-
mente. Entonces en la k-esima iteracion, si y(k) pertenece a w1 y wT (k)y(k) 0, se sustituye w(k)
7.2. REDES NEURONALES 265

Figura 7.6: Modelo de una neurona modificada.

Figura 7.7: Perceptron multicapa.

por

w(k + 1) = w(k) + cy(k)

donde la variable c es un factor de correccion positivo. Pero si y(k) pertenece a w2 y wT (k)y(k) 0,


se sustituye w(k) por

w(k + 1) = w(k) cy(k)

En cualquier otro caso , no se modifica w(k).

7.2.3 Redes Neuronales Multicapa

La figura 7.7 muestra una red neuronal multicapa, denominado perceptron multicapa.

Potrebbero piacerti anche