Sei sulla pagina 1di 225

1

Introduccin
Artificial

la

Visin

Uno de los sentidos ms importantes de los seres humanos es la visin. sta es


empleada para obtener la informacin visual del entorno fsico. Segn Aristteles,
Visin es saber que hay y donde mediante la vista. De hecho, se calcula que ms de
70% de las tareas del cerebro son empleadas en el anlisis de la informacin visual. El
refrn popular de Una imagen vale ms que mil palabras tiene mucho que ver con
los aspectos cognitivos de la especie humana. Casi todas las disciplinas cientficas
emplean utillajes grficos para transmitir conocimiento. Por ejemplo, en Ingeniera
Electrnica se emplean esquemas de circuitos, a modo grfico, para describirlos. Se
podra hacerlo mediante texto, pero para la especie humana resulta mucho ms eficiente
procesar imgenes que procesar texto. La visin humana es el sentido ms desarrollado
y el que menos se conoce debido a su gran complejidad. Es una actividad inconsciente y
difcil de saber cmo se produce. De hecho, hoy en da, se carece de una teora que
explique cmo los humanos perciben el exterior a travs de la vista.
En el ao 1826 el qumico francs Niepce (1765-1833) llev a cabo la primera
fotografa, colocando una superficie fotosensible dentro de una cmara oscura para fijar
la imagen. Posteriormente, en 1838 el qumico francs Daguerre (1787-1851) hizo el
primer proceso fotogrfico prctico. Daguerre utiliz una placa fotogrfica que era
revelada con vapor de mercurio y fijada con trisulfato de sodio.

Dpto. Electrnica, Automtica e Informtica Industrial

11

Carlos Platero

Apuntes de Visin Artificial

Figura 1. 1 Primeras fotografas

Desde que se invent la fotografa se ha intentado extraer caractersticas fsicas


de las imgenes. La Fotogrametra dio sus primeros pasos desde imgenes capturadas en
globos. La Astronoma avanz enormemente con el anlisis de imgenes recibidas por
los telescopios. El anlisis de radiografas transform la Medicina. Se podran citar
muchos ms ejemplos que durante dcadas han transformado la percepcin de la
Ciencia con el procesamiento de las imgenes, alguna veces por separado y otras de
forma multidisiciplinar.

Figura 1. 2 Aplicaciones del procesamiento de imgenes a) Astronoma, b) Fotogrametra, c)


Medicina, d) Industria

12

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

Sin embargo, el momento histrico que hace que estas tcnicas confluyan y den
un cuerpo de conocimiento propio, surge en la dcada de los 80 del siglo XX. La
revolucin de la Electrnica, con las cmaras de vdeo CCD y los microprocesadores,
junto con la evolucin de las Ciencias de la Computacin hace que sea factible la Visin
Artificial.
Por tanto, la Visin Artificial o tambin llamada Visin por Computador,
pretende capturar la informacin visual del entorno fsico para extraer caractersticas
relevantes visuales, utilizando procedimientos automticos. Segn Marr, Visin es un
proceso que produce a partir de imgenes del mundo exterior una descripcin til para
el observador y no tiene informacin irrelevante.
Para algunos autores, como Gonzlez y Woods, los primeros atisbos de este
proceder se remontan a la dcada de los aos 20 del siglo XX, cuando se transmitan
imgenes transocenicas, a travs de cable submarino. Las fotografas periodsticas
entre Europa y Amrica tardaban una semana en llegar a travs de los barcos. Al
emplear las primeras tcnicas de procesamiento de las imgenes se pas slo a tres
horas. Las imgenes se codificaban a cinco niveles de grises y se transmitan por
telfono. No obstante, ste podra ser el principio de las tcnicas de procesamiento de
las imgenes, pero no el de la Visin Artificial, tal cual se ha definido. El concepto de
Visin Artificial es ms amplio y recupera para s, todos los conocimientos de anlisis
de las imgenes desempeado por otras disciplinas desde los albores de la fotografa.
Parece claro que para tratar sobre la Visin, lo primero a estudiar ser la
naturaleza de la luz, para luego pasar a entender cmo funciona la visin humana y
acabar con las partes de la Visin Artificial.

1.1

La naturaleza de la Luz
La luz fue considerara, hasta el siglo XVIII, como una corriente de corpsculos.
stos eran emitidos por los focos luminosos y disminua su densidad a medida de que se
alejaban del foco. Podan penetrar en las sustancias transparentes y se reflejaban en las
superficies de los cuerpos opacos. Cuando los corpsculos penetraban en el ojo,
excitaban el sentido de la vista. Esta teora corpuscular fue desarrollada por Newton en
el siglo XVII y mejorada posteriormente, con el modelo cuntico, por Plank a principios
del siglo XX.
En el siglo XIX, los trabajos de Young, Fresnel y Foucault salvaron la mayora
de las objeciones de la teora ondulatoria. El impulso definitivo lo dio Maxwell, al
explicar la luz como una radiacin ondulatoria. Sin embargo, el efecto fotoelctrico
proporcion evidencias experimentales de que la luz tena carcter corpuscular en la
interaccin con la materia. Hoy se admite que en la emisin de la luz intervienen
electrones con cantidades de energa determinadas o discretas. Cuando un electrn pasa
de un nivel de energa a otro inferior emite una partcula discreta de energa, llamada
cuanto o fotn. El problema ahora consiste en hacer concordar el cuanto o caracterstica
corpuscular de la luz con la idea de onda continua. Para la Mecnica Cuntica, cuando
se trata del comportamiento de gran nmero de cuantos, la teora ondulatoria explica
satisfactoriamente los fenmenos, pero al considerar el comportamiento de unos pocos
Dpto. Electrnica, Automtica e Informtica Industrial

13

Carlos Platero

Apuntes de Visin Artificial

cuantos prevalece la teora corpuscular. As, los fenmenos de propagacin de la luz


encuentran su mejor explicacin dentro de la teora ondulatoria, mientras que la accin
mutua entre luz y materia, en los procesos de absorcin y emisin, es un fenmeno
corpuscular. An hoy se mantiene la teora dual de la luz.
La mayor parte del temario versar sobre la propagacin de la luz y la formacin
de las imgenes. Todos estos fenmenos pueden interpretarse a partir de la teora
ondulatoria. Por tanto, se puede considerar que las fuentes luminosas emanan de un
frente de ondas, las cuales pueden ser representadas, imaginariamente, por lneas rectas
en la direccin de la propagacin del tren de ondas, a las que se llamar rayo.
1.1.1

La luz como onda electromagntica


Algunos tipos de energa requieren de un medio conductor para propagarse.
Como as sucede con la energa elctrica o mecnica. Pero hay otros tipos de fuentes
energticas que no necesitan de un soporte conductor, ste es el caso de la luz. Las
radiaciones electromagnticas se propagan en forma de dos ondas vectoriales
mutuamente acopladas y perpendiculares entre s; una onda para el campo elctrico y
otra para el campo magntico. Segn la teora ondulatoria, la luz se propaga en forma de
onda que viaja en el espacio libre con una velocidad constante c = 3108 m/s. El espectro
visible es una porcin muy pequea del conjunto de ondas electromagneticas que tiene
la peculiaridad de ser captada por los ojos y procesada en el cerebro. El ojo humano es
capaz de distinguir radiaciones de longitudes de onda comprendidas entre los 380 nm a
los 780 nm, cuyas frecuencias oscilan entre los 3.21014 Hz y los 7.71014 Hz1. El sentido
de la vista transforma las diferentes amplitudes y frecuencias del espectro visible en
sensaciones conocidas como brillo y color respectivamente.

Figura 1. 3 a) Campo electromagntico b) Espectro de la luz

Fue Newton quien observ cmo la luz blanca, la procedente de la luz solar, se
poda descomponer en unas serie de haces luminosos de colores cuando atravesaba un
prisma ptico. Newton, con este experimento, hall el espectro de la luz diurna
mediante el fenmeno conocido como dispersin de la luz o dispersin cromtica, cuya
explicacin fsica escapaba de su teora corpuscular. Mediante la teora ondulatoria se
sabe que cada color es en realidad una onda electromagntica de frecuencia determinada
y que, al penetrar en el prisma ptico, se desva en una direccin diferente debido a que

14

La frecuencia de la onda es la velocidad de la luz, partido su longitud: f

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

el ndice de refraccin de este material varia con la frecuencia de la onda penetrante,


con lo que el haz se expande de forma que las radiaciones monocromticas puedan ser
distinguidas y observadas por el ojo humano.

Figura 1. 4 Dispersin cromtica

1.1.2

Fuentes de luz
La distribucin espectral de la energa radiada, f , es una funcin que
representa la cantidad de potencia asociada a cada longitud de onda, . Si la distribucin
presenta un pico sobre una determinada longitud de onda y es despreciable el resto de
componentes, se dice que es una radiacin monocromtica. ste es el caso de la luz
lser. La luz blanca se caracteriza por tener una distribucin uniforme en su espectro.

Figura 1. 5 Diversos espectros de fuentes de luz

Cada onda luminosa monocromtica lleva asociada una energa, cuyo valor es
igual a :
2

La longitud de onda del lser de un DVD est entre los 630 nm y los 650 nm, en un CD es de
780 nm. La potencia del laser de un DVD es de 5.4 W y el de un CD es de 1.85 W.

Dpto. Electrnica, Automtica e Informtica Industrial

15

Carlos Platero

Apuntes de Visin Artificial

Q h f

h c

(1. 1)

Donde h es la constante de Planck, igual a 6.6310-34 Js, f es la frecuencia, c la


velocidad de la luz y la longitud de la onda. As, la luz de menor frecuencia tiene
menor contenido energtico, mientras que la luz de menor longitud de onda posee
mayor energa.
Ejemplo 1.1
Cul es el flujo de fotones por segundo, , de un laser de DVD con una
potencia de 5W emitiendo con una longitud de onda de 650 nm?

h c

P
Q

6 . 63 10

34

650 10

5 10
3 10

3 10

3 10

19

6
19

1 . 67 10

13

fotones/s

La energa radiante emitida por una fuente luminosa, por unidad de tiempo y por
unidad de rea, depende de la naturaleza de la superficie y de su temperatura. Esta
radiacin es una mezcla de diferentes longitudes de onda. La temperatura de color es la
temperatura a la que hay que calentar un radiador de energa o fuente de radiaciones
para que emita radiaciones en determinadas longitudes de onda. A temperaturas bajas,
este manatial radiar energa que se hace visible con longitudes de ondas largas (rojas
anaranjados), mientras que a altas temperaturas llegar a emitir radiaciones de
frecuencia elevadas (azules). Por ejemplo, a la temperatura de 600 K, la ms intensa de
estas ondas tiene una longitud de 500nm, que se encuentra en la regin del infrarrojo,
mientras a 1000 K, un cuerpo emite bastante energa radiante visible para ser luminosos
por si mismo y parece incandescente; no obstante, la mayor parte de la energa emitida
es transportada, con mucho, por ondas infrarrojas. A 3000 K, que es aproximadamente
la temperatura del filamento de una lmpara de incandescencia, la energa radiante
contiene bastantes longitudes de onda visibles, de las comprendidas entre 400nm y
700nm, de modo que el cuerpo parece casi rojo blanco.

Figura 1. 6 Temperatura de color

La relacin entre la radiacin radiada y la temperatura del foco viene


determinada por la ley de Stefan-Boltzmann:

16

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

E K

SB

(1. 2)

Donde KSB es la constante de Stefan-Boltzmann (5.710-8W/m2K4), T es la


temperatura del emisor y E es la potencia radiada por metro cuadrado, llamada
iluminacin.
Ejemplo 1.2
La iluminacin medida por un pirmetro ptico en un pequeo agujero de un
horno es de 22.8 W/cm2. Cul es la temperatura interna del horno?
1

22 . 8 10 W / m
T
8
2

5 . 7 10 W / m K
4

E K

SB

2
4

4
1414 K

El flujo luminoso se calcula a partir de la distribucin espectral, f :

f d
0

(1. 3)

La magnitud fsica del flujo luminoso, en el sistema internacional, es el vatio.


El flujo luminoso emitido por un manantial luminoso
depende de la abertura y del tamao del cono de radiacin,
esto es, del ngulo slido3. Se considera el manantial
luminoso puntual S de la figura 1.7. Y sea d el flujo
luminoso que atraviesa una seccin cualquiera de un
estrecho cono de ngulo slido d estereorradianes, cuyo
vrtice coincida con el manantial. La intensidad luminosa
del manantial, en la direccin del cono, se define como la
razn del flujo, d, al ngulo slido, d, o sea, como el
flujo luminoso emitido por unidad de ngulo slido. La Figura 1. 7 Flujo luminoso
intensidad luminosa se representa por I:
I

d
d

( 1.4 )

El ngulo slido se define como el rea de una superficie esfrica, dA, dividida por el cuadrado
del radio de la esfera, R. Su unidad es el estereorradian, [sr], una cantidad adimensional. Una esfera tiene
4 esterorradianes de ngulo slido.

Dpto. Electrnica, Automtica e Informtica Industrial

17

Carlos Platero

Apuntes de Visin Artificial

La unidad de intensidad es vatio por estereorradin. La mayor parte de los


manantiales no emiten cantidades iguales de flujo por unidad de ngulo slido en todas
las direcciones.
1.1.3

Interaccin entre la luz y la materia


Cuando un cuerpo recibe radiacin luminosa, una parte es absorbida, otra es
reflejada y hay otra parte que es transmitida. Por el principio de conservacin de la
energa, el flujo luminoso incidente ser igualado a los tres mecanismos mencionados:

INCIDENTE

TRANSMITID

ABSORBIDA

(1. 5)

REFLEJADA

Segn sea la longitud de onda que reflejen, transmitan o absorban as ser el


color con el que se percibe el objeto. Un objeto que absorba todas las frecuencias se
captar como negro, mientras que un cuerpo que refleje todas las longitudes de onda
visibles aparecer blanco. En los objetos opacos la transmitancia es insignificante,
siendo las frecuencias que refleja el cuerpo las que determinan con que color se percibe.
En los transparentes, por el contrario, son la reflectancia y la absortancia las que valen
prcticamente cero. En consecuencia, una especificacin puramente objetiva del color
de una superficie opaca puede expresarse en trminos de reflectancia espectral. En el
caso de materiales transparentes vendrn dada
S
por la transmitancia espectral.
n

La radiacin reflejada, la captada por


el observador, depende de la naturaleza de la
l
superficie en la que se refleja el haz luminoso,
as como de las condiciones de iluminacin y
de posicin del punto de vista. Sea dA, en la
dA
figura 1.8, un elemento de superficie cuya
normal n forma un ngulo respecto a un
manantial puntual S. Asumiendo que la fuente
Figura 1. 8 Iluminacin en dA
lumninosa S ilumina por igual en todas las
direcciones. La relacin entre el flujo incidente en la superficie respecto al rea, define
la iluminacin como:

d
dA

I d
dA

I d A cos

dA

I cos
r


I n l

( 1.6 )

De otro lado, a la fraccin del flujo incidente que


sea reflejada en la direccin del observador, esto es, desde
la superficie al sensor se la llama radiacin reflejada o
luminancia. La radiacin reflejada de la superficie es
definida como el flujo emitido por unidad de rea reflejada
y por unidad de ngulo slido en la direccin vista por el
sensor. Se define la radiacin radiada, L, como:

n
v

dA

Figura 1. 9 Radiacin vista por v


18

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

d
2

dA cos r d r

dI

dA cos r

dI
dA n v

( 1.7 )

S a p a r e n te

donde dr es el ngulo slido del sensor visto desde la superficie reflejada.


Considerando que la superficie es iluminada desde una direccin i, se define la funcin
de distribucin reflejada bidireccional ( bi-directional reflectance distribution function,
BRDF), Fr de una superficie, como el nivel de radiacin reflejada de una luz incidente
vista desde (r r) por unidad de iluminacin incidente:
F r i , r

L r r

E i i

( 1.8 )

En la tabla 1.1 aparecen las magnitudes radiomtricas en el Sistema


Internacional y en unidades derivadas del Sistema Internacional4:
Magnitud fsica

Smbolo

Unidad en S.I.

Flujo luminoso

Lumen(Cd sr)

Intensidad luminosa

W sr-1

Candela (Cd)

Iluminacin

W m-2

Lux(Lumen/m2)

W m-2 sr-1

Cd/m2

Radiacin
luminancia

o L

Unidades derivadas
del S.I.

Tabla 1.1 Unidades del S.I. de las magnitudes de Radiometra

Ejemplo 1.3
Un rel es controlado por una clula fotoelctrica. sta tiene una abertura de 15
mm x 40 mm y requiere al menos un flujo mnimo de 0.3 mW. A que distancia
mxima se pondr un emisor puntual que tiene como intensidad 1 W/sr?
E

0 . 3 10
15 10

d max

40 10

0 . 5W / m

1 . 41 m

La candela es la intensidad luminosa, en una direccin dada, de una fuente que emite una
radiacin monocromtica de frecuencia 5.4 1014 Hz y cuya intensidad energtica en esa direccin es
1/683 vatios por estereorradin (W/sr)

Dpto. Electrnica, Automtica e Informtica Industrial

19

Carlos Platero

Apuntes de Visin Artificial

Ejemplo 1.4
Cul es la potencia del Sol, si se sabe que la luz tarda 8 minutos en llegar a la
Tierra y la radiacin incidente en la Tierra es de 1kW/m2?. Y la temperatura del Sol, si
el radio es de 6.96108 m?
I E d

10

8 60 3 10

4 I 2 . 6 10

26

2 . 07 10

25

W sr

1.2

4 R

4 . 27 10 W / m
T
8
2

5 . 7 10 W / m K
7

4 . 27 10 W / m
7

E K

SB

2
4

4
5232 K

Visin humana y visin artificial


La visin es el sentido ms importante que tiene el ser humano. As, mientras
que para el odo se tiene alrededor de treinta mil terminaciones nerviosas, en la vista hay
ms de dos millones. La radiacin exterior recibida por el ojo debe ser transformada en
seales que sean procesadas por el cerebro. El ojo es el elemento transductor mientras
que el cerebro es el que procesa dicha informacin.
El ojo tiene una forma, aproximadamente, esfrica de unos 2.5 cm de dimetro.
El ojo est formado por una ptica y una zona sensorial. La ptica est constituida por
la crnea, el iris o pupila y el cristalino. La cornea es un material transparente y
funciona como lente fija. La pupila regula la cantidad de luz que entra en el interior y el
cristalino hace las veces de lente variable, permitiendo el enfoque dependiendo de la
distancia de los objetos. Los msculos que sujetan al cristalino provocan su
deformacin, cuya consecuencia es el enfoque del campo visual. La misin de la ptica
del ojo es conducir la radiacin electromagntica, del espectro visible, hacia la retina.

Figura 1. 10 Secciones del ojo

La retina se encuentra en la parte posterior del glbulo ocular y es donde se


ubican las clulas fotosensibles: los conos y los bastones.

20

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

Figura 1. 11 Clulas fotosensibles

En la retina se puede distinguir dos partes: la fvea y la mcula. La fvea es la


parte central de la retina, de menor tamao y donde se encuentran los conos. Es en esta
zona donde se tiene mayor sensibilidad a la longitud de la onda electromagntica, con
un ngulo visual de dos grados. La abertura corresponde, aproximadamente, con el
ancho del pulgar extendido el brazo. La fvea es tan pequea que es necesario mover el
ojo para enfocar dos puntos tan prximos como los del signo de puntuacin (:). Esta
informacin visual transmitida al cerebro se llama visin fvea. La mcula es de mayor
extensin, la agudeza visual es menor y est definida por los bastones. Esta zona se
encarga de la visin perifrica.
La percepcin del color de una imagen la realiza los conos. Son unos seis
millones y cada cono tiene conexin a varias neuronas. Basndose en la informacin
aportada por los conos, el cerebro construye la sensacin de color. Por el contrario, los
bastones son ms de 100 millones y son capaces de detectar la intensidad lumnica.
Varios bastones estn asociados a una nica neurona.

Figura 1. 12 Distribuciones de conos y bastones en la retina

Mientras la visin fvea tiene mayor agudeza, ms resolucin y percibe los


colores, la visin perifrica le da al cerebro ms informacin espacial que la fvea y
realza los contrastes. De este hecho se destaca que en la oscuridad, la visin perifrica
es ms adecuada que intentar centrar la visin sobre el objeto.

Dpto. Electrnica, Automtica e Informtica Industrial

21

Carlos Platero

Apuntes de Visin Artificial

Figura 1. 13 Sensibilidad del ojo en luz diurna y en visin nocturna

La sensibilidad a la intensidad en el ser humano es alta siempre que los


elementos que se comparen sean pocos. Cuando el nmero de intensidades involucradas
simultneamente es superior a unos 24 tonos se pierde la mayor parte de esta
sensibilidad. Esto explica que, en la mayora de los casos prcticos, sea suficiente el uso
de 32 64 niveles de intensidad para representar una imagen.
El color es una caracterstica del sistema de percepcin humana y est
relacionado con las sensaciones recibidas por el ojo en el espectro visible. El color es la
respuesta del sistema visual humano ante las variaciones de las longitudes de onda del
espectro electromagntico visible. Estudios fisiolgicos han revelado que existen tres
tipos de conos, denominados tipos S, M y L. Los S son ms sensibles a las ondas cortas
(azules 450nm), los M a las medias (verde 540 nm) y los L a las de longitudes largas
(rojo - 650 nm). Este hecho ha dado base a la teora del triestimulo, de manera que el
color se puede representar en una base de tres componentes fundamentales: rojo-verdeazul (RGB Red, Green, Blue).
La sensibilidad de cada cono no es exactamente igual a cada parte del espectro
fijado. Concretamente, los conos azules son los menos sensibles, mientras que los conos
verdes son los ms sensibles. Otra consideracin a tener en cuenta es la refraccin de los
rayos luminosos que penetran en la retina. No todos afectan por igual. La luz de alta
frecuencia (azul) focaliza en un punto anterior a la retina, mientras que las bajas
frecuencias (rojos) lo hacen en puntos posteriores. Esto tiene como consecuencia que
los detalles rojos o azules no puedan distinguirse netamente en una escena. Justo lo
contrario de lo que ocurre con los verdes, cuyo punto de convergencia o focalizacin se
sita exactamente en la retina, lo que induce a una mayor resolucin del ojo para estas
tonalidades.

22

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

Figura 1. 14 a) Distorsin cromtica b) Sensibilidad del ojo a la longitud de onda

Una vez que la seal luminosa ha sido transformada en pulsos elctricos por los
conos y bastones, stos son transportados al cerebro por los nervios pticos. Los pulsos
son llevados al lbulo occipital, donde se encuentra el crtex visual. Es una zona de 24
cm2 con 1.5108 neuronas. Al hemisferio derecho llega la informacin del ojo izquierdo
y viceversa. En el cerebro se realiza una labor de extraccin de las caractersticas de la
imagen. Para ello existen zonas especializadas que responden mejor a un tipo de
caracterstica que a otras.

Figura 1. 15 Crtex visual

El hombre ha imitado muchas veces, en la construccin de sus artefactos, a la


Naturaleza. En este caso tambin se cumple. Las cmaras de vdeo con sus pticas
hacen las veces del globo ocular, mientras el computador realizar las tareas de
procesamiento, emulando el comportamiento del cerebro. Cuando se establecieron en la
dcada de los 50 del siglo XX, los objetivos de la Inteligencia Artificial, se supona que
con la llegada del siglo XXI habra mquinas que seran capaces de describir, con
informacin de alto nivel, las escenas capturadas. Con el paso del tiempo se vio que
aquel anhelo se iba desvaneciendo. Hoy en da, todava no hay una teora de la visin.
No se conoce los mecanismos que el cerebro utiliza para obtener la informacin de la
percepcin. El cerebro es capaz, de manera inconsciente, de determinar la distancia a los
objetos, de reconocerlos en diferentes posiciones, aunque se encuentren rotados y con
Dpto. Electrnica, Automtica e Informtica Industrial

23

Carlos Platero

Apuntes de Visin Artificial

informacin parcialmente oculta. En definitiva, el cerebro presenta una sofisticacin en


la percepcin que ni ahora ni en mucho tiempo habr posibilidad de implementar
artificialmente.

Figura 1. 16 Imitacin artificial del ojo

Lo que si hace la Visin Artificial es construir nuevos y ms sofisticados


algoritmos que sean capaces de obtener informacin de bajo nivel visual. Y aunque
todava se est aos luz de la percepcin visual de los seres vivos, la Visin Artificial es
muy eficaz en tareas visuales repetitivas y alienantes para el hombre. Por ejemplo, en el
campo de la inspeccin de productos en la industria o en contar clulas en una imagen
de microscopa o en determinar la trayectoria de un vehculo en una autopista.
Resumiendo, las principales ventajas de la visin humana respecto a la artificial
y viceversa, son:
Sistema humano:

Mejor reconocimiento de objetos.

Mejor adaptacin a situaciones imprevistas.

Utilizacin de conocimiento previo.

Mejor en tareas de alto nivel de proceso.

Sistema artificial:

24

Mejor midiendo magnitudes fsicas.

Mejor para la realizacin de tareas rutinarias.

Mejor en tareas de bajo nivel de proceso.

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

1.3

Captulo 1: Introduccin a la Visin Artificial

Configuracin bsica de un sistema de Visin Artificial


Los dos pilares del sistema fsico de la visin artificial son: el sistema de
formacin de las imgenes y el sistema de procesamiento de stas. En el primer
apartado estara constituido por el subsistema de iluminacin, de captacin de la imagen
y de adquisicin de la seal en el computador. Una vez introducida la seal en el
computador, sta es procesada mediante los algoritmos para transformarla en
informacin de alto nivel. La cual puede ser utilizada para su representacin visual, para
actuar en el planificador de un robot o ser fuente de datos para un autmata
programable. En definitiva, mltiples perifricos pueden ser receptores de esta
informacin y vincularse con el sistema de procesamiento de las imgenes.
Desgranado las peculiaridades de cada subsistema, stas tienen las siguientes
reflexiones introductorias:

Subsistema de iluminacin: conjunto de artefactos que producen


radiacin electromagntica para que incidan sobre los objetos a
visualizar. Se puede citar algunos elementos como lmparas, pantallas
fotogrficas, filtros de luz, lseres,

Subsistema de captacin: son los transductores que convierten la


radiacin reflejada luminosa en seales elctricas. Fundamentalmente se
habla de las cmaras CCD, no slo en el espectro visible, sino que van
desde la radiacin gamma hasta la radiofrecuencia o microondas, dando
paso a sensores de ultrasonidos, sonar, radar, telescopa,

Subsistema de adquisicin: la seal elctrica procedente de las cmaras


forman la seal de vdeo. Hay una tendencia creciente a que su
naturaleza sea de tipo digital, pero todava existen muchas seales de
vdeo de carcter analgico (CCIR, PAL, RS170, NTSC,). Para ser
tratadas hay que muestrearlas y cuantificarlas. Ambas tareas son
realizadas por las tarjetas de adquisicin. Tambin se las llama frame
grabbers. Se depositan en el bus de expansin del computador. Existen
tarjetas para buses desde PCI hasta VMP. Aunque actualmente se est
imponiendo las tecnologas de USB o FireWire.

Subsistema de procesamiento: Suele ser un computador o un grupo de


computadores, dependiendo de las necesidades de los algoritmos de
Visin Artificial. Parten de una representacin digital de las imgenes y
procesan esta informacin hasta alcanzar otro tipo de informacin de ms
alto nivel. La transformacin depender de la algoritmia.

Subsistemas de perifricos: conjunto de elementos receptores de la


informacin de alto nivel. Puede ser un monitor de altas prestaciones
grficas, un automatismo, una impresora sacando las caractersticas,

Dpto. Electrnica, Automtica e Informtica Industrial

25

Carlos Platero

Apuntes de Visin Artificial

Figura 1. 17 Subsistemas fsicos de un equipo de visin artificial

1.3.1

Representacin de las imgenes en los computadores digitales


Aunque el sistema de visin humano tiene mayor resolucin en la fvea y menos
en la periferia, se ha observado que a pesar de que la distribucin de los fotorreceptores
no es uniforme, la percepcin visual si lo es. Los humanos percibimos con una nica
resolucin. Esta circunstancia ha conducido a la utilizacin de sensores con matrices de
resolucin uniforme. Por tanto, la organizacin corresponde a una matriz 2D uniforme.
Las imgenes para ser procesadas en el computador han sido adquiridas a travs
de la cmara de vdeo y puestas en su memoria empleando las tarjetas de adquisicin de
vdeo. Esta seal es de carcter bidimensional y emplea variables discretas. Los
elementos de la matriz se llaman pxeles. El acceso a esta elemental informacin se hace
indicando la fila y la columna que ocupa. El origen de coordenadas de la imagen se
encuentra en la esquina superior izquierda. El eje horizontal corresponde con las
columnas y el eje vertical con las filas. Se emplearn ndices enteros para posicionar el
pxel. Se denotar el valor del pxel a travs de una funcin, del tipo f(x,y), siendo x el
ndice de la fila e y de la columna.
Si la imagen es acromtica, slo se presenta la luminancia, esto es, los niveles de
grises. La funcin f(x,y) retornar el nivel de gris del pxel mencionado. En caso de que
la imagen sea en color, f(x,y) devolver un vector. Normalmente suele expresarse como
una proyeccin del color sobre el sistema RGB (Red-Green-Blue).

26

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

Figura 1. 18 Organizacin matricial uniforme de una imagen digital

La imagen puede ser de tipo 3D, por ejemplo, en resonancia magntica, luz
estructurada, etc. stas se presentan como una pila de imgenes 2D. Se les aade otro
ndice, denominado k o z, que indica el orden de la rodaja de imagen 2D dentro de la
pila.
La secuencia temporal de imgenes estticas da lugar al vdeo. En el cine se
emplea 25 fotogramas por segundo, gracias a la inercia visual del ojo humano, da
sensacin de continuidad en la escena.
1.3.2

Etapas bsicas de una aplicacin en Visin Artificial


Aunque cada aplicacin de Visin Artificial tiene sus especificidades, se puede
decir que existe un tronco comn de etapas entre ellas. No necesariamente debe cubrirse
todas en una implementacin concreta. Hay algunas veces que slo se tiene un
subconjunto de las fases que se van a citar. Por otro lado, aunque la exposicin muestra
un encadenamiento temporal de una etapa sobre otra, no es real esta simplificacin; se
hace para facilitar la comprensin. En la puesta en prctica siempre hay
realimentaciones entre las distintas fases.
La primera etapa es la construccin del sistema de formacin de las imgenes.
Su objetivo es realzar, mediante tcnicas fotogrficas (iluminacin, ptica, cmaras,
filtros, pantallas,...), las caractersticas visuales de los objetos (formas, texturas, colores,
sombras,...). El xito de muchas aplicaciones depende de un buen diseo en esta primera
etapa. El segundo captulo se dedicar a estas tcnicas.
Una vez adquirida la imagen se pasar a la etapa de preprocesado. El objetivo es
mejorar la calidad informativa de la imagen adquirida. Se incluyen operaciones de

Dpto. Electrnica, Automtica e Informtica Industrial

27

Carlos Platero

Apuntes de Visin Artificial

mejora de la relacin seal-ruido (denoising), SNR5, de atenuar las imperfecciones de la


adquisicin debido a la funcin de transferencia del sistema de captacin de imgenes
(deconvolution), de regularizar la imagen, de mejorar el contraste o de optimizar la
distribucin de la intensidad (enhancement) o de realzar algunas caractersticas de la
imagen, como bordes o reas. Algunas de estas prcticas sern desarrolladas en el tercer
y cuarto captulo.

Figura 1. 19 Etapas de una aplicacin de visin artificial

Segmentacin es la fase donde se particiona la imagen en regiones con


significado. Por ejemplo, en una imagen de satlite se determina las zonas de agua, de
cultivo, urbanas, carreteras,... Existen varias tcnicas: umbralizaciones,
discontinuidades, crecimiento de regiones, uso del color o de movimiento, etc. Estas
estrategias sern analizadas en el captulo quinto.
Una vez dividida la imagen en zonas con caractersticas de ms alto nivel se
pasar a su extraccin de las caractersticas. Bsicamente son de tipo morfolgico, tales
como rea, permetro, excentricidad, momentos de inercia, esqueletos, pero tambin se
puede emplear caractersticas basadas en la textura o en el color.
Fjese que se ha pasado de una informacin visual primaria a algo ms
elaborado. Con las caractersticas analizadas de cada regin se debe de clasificar e
interpretar. Por tanto, se disearn clasificadores que le d a cada regin segmentada
una etiqueta de alto nivel, como por ejemplo, en una imagen area qu zonas son tierras
de cultivo, reas urbanas, etc. Existe un elenco de tcnicas de clasificacin, como redes

28

SNR=10 log(Pseal/Pruido), indicando P la potencia

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 1: Introduccin a la Visin Artificial

neuronales, sistemas expertos, lgica borrosa, clasificadores estadsticos, etc. stas se


vern muy someramente en el captulo sptimo.
Otras presentaciones sobre las distintas etapas de la Visin Artificial son
expuestas por otros autores. La ms clsica es la dada por Gonzalez y Woods
mencionando tres tipos de nivel de informacin: bajo, medio y alto. La informacin de
bajo nivel est dada por las etapas de adquisicin y procesado, las de medio nivel son
las de segmentacin y extraccin de las caractersticas y las de alto nivel con las etapas
de reconocimiento e interpretacin.
El valor aadido de esta presentacin es la ubicacin del conocimiento en el
centro de todas estas etapas. Los desafos del anlisis de imgenes son
extraordinariamente complejos y exigen de un conocimiento a priori sobre su
problemtica. La mayora de las escenas que aborda la Visin Artificial son
estructuradas, i.e. todos los elementos de iluminacin estn determinados y los objetos a
capturar son previsibles. Por el contrario, una escena es no estructurada, cuando los
objetos a visualizar son imprevisibles y la iluminacin puede variar con el tiempo.
Desde luego, la complejidad de los escenarios no estructurados se suele salir de la
disciplina de la Visin Artificial.

Figura 1. 20 Niveles de procesamiento: bajo, medio, alto

Por ltimo, indicar que la evolucin de las etapas, en forma de flujograma, es


una simplificacin. En la puesta en prctica exige constantes realimentaciones entre los
distintos niveles de informacin, interactuando, adems, con el conocimiento. Como se
ha comentado, el objetivo de la Visin Artificial es hacer algoritmos ms sofisticados.
En un futuro, que parece muy lejano, se deseara que ante un escenario cualquiera, la
mquina pudiera describir con sentencias de alto nivel, las imgenes que est captando.
El mundo del cine se ha hecho eco de estas cualidades de percepcin, mostrndolo
como algo cercano en el tiempo y este autor piensa que ni en muchos aos estar.

Dpto. Electrnica, Automtica e Informtica Industrial

29

Carlos Platero

1.4

Apuntes de Visin Artificial

Disciplinas relacionadas con la Visin Artificial


Un proyecto de Visin Artificial suele ser de tipo multidisciplinar. La ejecucin
de las distintas etapas, mencionadas en el apartado anterior, requiere del manejo de las
siguientes tcnicas:

Fotografa y ptica: crear el ambiente de iluminacin adecuada en la


adquisicin de las imgenes, muchas veces requiere del uso de tcnicas
profesionales de fotografa y vdeo. La seleccin de la ptica y de la
cmara, el uso de filtros y polarizadores, las tcnicas de iluminacin con
pantallas y la eleccin de los tipos de focos son algunas habilidades que
se pueden mencionar.

Procesamiento Digital de las Imgenes (Image Processing): hace


referencia a los algoritmos de computacin que convierte la imagen
digital adquirida en otra de mayor relevancia. Es muy difuso la
separacin entre el procesamiento de imgenes y la Visin Artificial.

Reconocimiento de Patrones (Pattern Recognition): disciplina, dentro de


la Inteligencia Artificial, dedicada a la clasificacin de las seales y a la
bsqueda de patrones existentes dentro de stas. Se encuentran incluidas
las tcnicas de clasificadores estadsticos, Redes Neuronales, Sistemas
Expertos, Lgica Borrosa, ...

Computacin Grfica (Computer Graphics): presenta el problema


inverso de la Visin Artificial. Si en Visin se desea extraer las
caractersticas fsicas de las imgenes, la Computacin Grfica se dedica
a la presentacin visual de los modelos geomtricos. Cada vez ms, la
Visin Artificial emplea la Computacin Grfica para representar las
conclusiones extradas del anlisis de las imgenes adquiridas.

La naturaleza del proyecto hace que se incida en una disciplina ms que en otra.
Por ejemplo, en un problema de inspeccin visual de piezas, la parte de la formacin de
las imgenes suele ser fundamental, mientras que un anlisis de imgenes de una
tomografa tiene ms importancia el procesamiento y la computacin grfica.

1.5

Aplicaciones
El nmero de aplicaciones relacionadas con la Visin Artificial aumenta cada
da. En la tabla adjunta se citan algunos de los campos donde es empleada esta
disciplina.

30

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

rea de produccin

Aplicacin
Inspeccin de productos
(papel, aluminio,
acero,...)
Identificacin de piezas

Control de calidad

Robtica

Biomdicas

Captulo 1: Introduccin a la Visin Artificial

Exploracin del Espacio


Astronoma
Reconocimiento de
caracteres

Etiquetados (fechas de
caducidad,...)
Inspeccin de circuitos
impresos
Control de calidad de los
alimentos (naranjas,...)
Control de soldaduras
Guiado de robots
(vehculos no tripulador)
Anlisis de imgenes de
microscopa ( virus,
clulas, proteinas )
Resonancias magnticas,
tomografas, genoma
humano

Control de trfico

Meteorologa

Agricultura

Control de cheques,
inspeccin de textos, ...
Matrculas de coches
Trfico viario
Prediccin del tiempo
Interpretacin de
fotografas areas
Control de plantaciones
Seguimiento de objetivos

Militares

Vigilancia por satlites

Tabla 1.2 Aplicaciones de la visin artificial

Dpto. Electrnica, Automtica e Informtica Industrial

31

Carlos Platero

1.6

Apuntes de Visin Artificial

Problemas
1. Teora dual de la luz.
2. Flujo luminoso, intensidad lumnica, iluminacin y radiacin.
3. Temperatura de color.
4. Visin fvea y visin perifrica.
5. Comparacin entre la visin humana y la artificial.
6. Arquitectura fsica de un sistema de Visin Artificial.
7. Etapas que se aplican en un proyecto de Visin Artificial.
8. Disciplinas relacionadas con la Visin Artificial.
9. Aplicaciones y reas en las que trabaja la Visin Artificial.

Derecho de Autor 2013 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".

La Licencia de documentacin libre GNU (GNU Free Documentation License)


es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

32

Dpto. Electrnica, Automtica e Informtica Industrial

Formacin de las imgenes

Los sistemas de Visin Artificial se


encuentran con escenas visuales de
informacin en el espacio continuo y sin
embargo el desarrollo y diseo de los
equipos se sustenta en tecnologa digital.
Luego se evidencia el paso de informacin
continua en el tiempo a discreta. La
captacin de la informacin presente en el
espacio continuo, as como la forma en que
sta va a ser alterada, como consecuencia
de la transformacin a datos discretos,
requiere ser estudiada con cierta
profundidad
para
comprender
las
limitaciones que impone el sistema de Figura 2.1 Captura digital: desde el espacio
continuo al discreto
formacin de imgenes en su conjunto.
La figura 2.2 muestra un esquema de adquisicin de escenas. El motivo es
iluminado de manera ptima, tal que aumente el contraste entre el fondo y los objetos de
inters; la luz reflejada o transmitida pasa a travs de un sistema ptico, adecuando la
escena al tamao del elemento sensor. El transductor est constituido por elementos
sensores que convierten los haces luminosos recibidos en una seal elctrica. La cmara

Dpto. Electrnica, Automtica e Informtica Industrial

33

Carlos Platero

Apuntes de Visin Artificial

de estado slido da un formato a la imagen


recibida en seal elctrica pudiendo ser de tipo
digital o analgico. sta es transmitida hasta el
computador, ya sea para su monitorizacin o
procesamiento. En el caso de utilizar seal de
vdeo analgica se requiere de la conversin a
formato digital. Sea como fuese, se habr
generado una correspondencia entre la realidad
y lo almacenado en el computador.

Sistema de
iluminacin
ptica

Movimientos de la banda

Batera de cmaras

Escena

Lnea de inspeccin

Figura 2.2. Elementos constituyentes


de formacin de imgenes

Se pretende abordar las capacidades de


la adquisicin y de formacin de las escenas visuales. Como se ha podido observar, las
posibilidades de estos equipos dependen de una multitud de factores. El diseo de una
aplicacin adecuada requiere del anlisis de todos estos factores que influyen en las
prestaciones, buscando, adems, las fuentes de degradacin en la adquisicin de las
imgenes. Estas ltimas pueden ser eliminadas y/o compensadas mediante la seleccin
apropiada de soporte fsico, compromisos de medidas y tcnicas de calibracin. El
exacto conocimiento de los factores que influyen en la calidad de la imagen permitir
con posterioridad la seleccin correcta de los componentes.
El desarrollo de este captulo va a tratar de cmo afecta los diferentes elementos
del sistema de formacin de imgenes a la mtrica virtual, centrndose especialmente en
el subsistema de iluminacin, en la ptica y en la seleccin de arquitecturas de cmaras
de estado slido. Los motivos son que stos representan los elementos ms crticos en la
calidad de la imagen y por ende en la mtrica. El captulo finalizar con algunas
tcnicas de calibracin de las cmaras.

2.1

Caracterizacin de imgenes digitales

La calidad de una imagen es una impresin subjetiva que va desde pobre hasta
excelente. La habilidad de la percepcin realizada por el cerebro viene afectada no slo
por el sistema de visin humano, sino tambin por otros factores como son: las
emociones, el aprendizaje y la memoria. Las relaciones entre stas son complejas,
intrincadas y no comprendidas. Los juicios personales varan ante una misma imagen y
las valoraciones pueden ser muy dispares.
Muchas expresiones han sido dadas para categorizar una imagen, cada una es
apropiada segn un particular conjunto de condiciones. Estas expresiones suelen ser
obtenidas desde las observaciones empricas, donde un grupo de imgenes son
ordenadas y posteriormente se infiere alguna ecuacin que justifique la clasificacin.
En un principio, la calidad de la imagen estaba relacionada con las lentes. Con el
avance de la tecnologa, la calidad se ha centrado en la minimizacin de la relacin
seal ruido, SNR, y en la arquitectura de las cmaras. Muchos tests han dado medidas
sobre la calidad de la imagen. La mayora de las medidas estn relacionadas con la
calidad de las pticas, la resolucin de la cmara o la relacin seal ruido del elemento
sensor. En general, las imgenes con altas prestaciones pticas y bajo ruido son
clasificadas como imgenes de gran calidad. Las prestaciones del sistema de visin
34

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

dependen de las cmaras, lentes, iluminacin,


filtros pticos, etc. Slo al final se puede plantear
la calidad de la imagen.

Cristal protector

Los ms importantes factores que afectan


a la calidad geomtrica y radiomtrica de una
imagen adquirida por una cmara de estado
slidos son los siguientes:

Lente

Filtro IR

Difusor

Sensor

Figura 2.3. Partes constitutivas de una


cmara

Iluminacin

Superficie a visualizar

ptica

Cmaras

Transmisin y digitalizacin de las imgenes

Entorno

La seleccin de una apropiada iluminacin es una pieza clave en las tareas de


procesamiento de las imgenes. La uniformidad de luminosidad en la superficie, la
estabilidad temporal y su respuesta espectral, as como las propiedades pticas del
entorno deben ser consideradas. La falta de homogeneidad de intensidad luminosa en la
escena puede acarrear que cientos de pxeles aparezcan con bajo contraste. Por la
extensin y la importancia en el buen funcionamiento de los equipos de visin, se ha
dedicado un apartado para abordar el estudio de las fuentes luminosas.
El segundo aspecto se refiere a la naturaleza del producto a inspeccionar. El tipo,
el color, el tamao y la forma del detalle a analizar, obviamente influyen en las
exactitudes de las medidas. stas dependen, sobre todo, del tamao del objeto de
estudio y de su contraste.
Los aspectos referidos a las pticas, sensores, cmaras y digitalizadoras van a ser
abordados con mayor detalle y representan el ncleo del captulo. Se plantearn los
aspectos de focalizacin de la radiacin luminosa que llegue al elemento sensor y cmo
se modela, para pasar posteriormente al estudio del funcionamiento del sensor y de la
composicin de las cmaras de vdeo.
Por ltimo, respecto al entorno, hay que citar la temperatura, la humedad, las
vibraciones y las iluminaciones ambientales. Por ejemplo, el efecto de la temperatura
puede producir profundos cambios en las cmaras. Hay multitud de cmaras que
requieren ms de dos horas antes de alcanzar su estado estable. Estos cambios provocan
errores de gran magnitud. Sus causas se encuentran en las deformaciones mecnicas, en
la sensibilidad de elemento sensor con la temperatura y en las variaciones en la
frecuencia del reloj interno de la cmara.

Dpto. Electrnica, Automtica e Informtica Industrial

35

Carlos Platero

2.2

Apuntes de Visin Artificial

Iluminacin

La iluminacin juega un papel primordial dentro del proceso de visin. Los


sistemas de iluminacin ayudan a simplificar considerablemente el anlisis e
interpretacin de las escenas. Muchas veces, los algoritmos de procesamiento pueden
ser reducidos drsticamente con una seleccin adecuada del sistema de formacin de las
imgenes. Por el contrario, la falta de estudio sobre la adquisicin de las imgenes
provocar el aumento de la complejidad de los algoritmos y las dificultades de
generalizacin del equipo de Visin Artificial. Las imgenes recibidas por las cmaras
no pueden estar, generalmente, en un ambiente de iluminacin no estructurada, esto es,
donde las condiciones de iluminacin no hayan sido estudiadas. En estos casos, la
propia sombra de otro objeto que interfiera har peligrar el xito del montaje.
Los sistemas de Visin Artificial trabajan, normalmente, con iluminaciones
estructuradas. El espacio captado por las cmaras est aislado del resto. No hay
contaminacin lumnica, no hay sombras inesperadas, no existen objetos que
interseccionen a los escenarios que se desean capturar. La iluminacin se disea para
que sea capaz de resaltar los objetos de inters. La iluminacin depende bsicamente de
la naturaleza de las superficies a inspeccionar y del
tipo de fuente luminosa.
Normalmente, la primera reduccin
consiste en tratar los objetos como si fuesen
opacos. La radiacin transmitida no es
considerada. En Computacin Grfica se estudia la
interaccin entre la luz y las superficies y cunta
radiacin le llega al sensor. En una primera
aproximacin se estudia la interaccin entre la
fuente luminosa y los cuerpos. Sin embargo, estas
iteraciones no son suficientes para crear imgenes
sintticas crebles. As, en el movimiento de los
objetos sobre un escenario no se produciran
cambios de iluminacin o sombras. Estas
consecuencias se derivan de no tener en cuanta las
radiaciones de los cuerpos existentes en la escena.
Una de las tcnicas de renderizacin ms
empleadas se llama Ray Tracing. Consiste en
lanzar rayos de luminosidad y ver cmo interactan
con las superficies de los objetos que hay en el
escenario, tomando en cuenta la interaccin entre
todos ellos.

Figura 2. 4 a) Dibujo sin interaccin


con la luz, b) Grfico con interaccin
entre la luz y la materia

El problema en Visin Artificial es el


inverso de la Computacin Grfica. No se trata de
generar una imagen sinttica, sino de ubicar correctamente la iluminacin, los sensores
y los cuerpos a examinar para resaltar las caractersticas visuales de los objetos.

36

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.2.1 Modelos de superficies opacas


La manera en la que la luz es reflejada en una superficie, depende de entre
muchos factores, de las formas macroscpicas que constituyen las superficies. De esta
manera, en superficies lisas al ser iluminadas con un haz incidente, la luz reflejada sobre
ellas toma una sola direccin; en cambio, sobre superficies rugosas tienden a
difuminarse en mltiples direcciones. Para establecer con exactitud el fenmeno de la
reflexin es necesario tener un conocimiento a priori de las estructuras de las
superficies, es decir, un modelo de stas. Se pueden catalogar en dos clases de modelos
de superficie: mapas de perfiles y modelos aleatorios. Un exacto perfil puede ser
determinado con las medidas de alturas en cada punto de la superficie, por algn tipo de
dispositivo existente en el mercado. No obstante, este mtodo es caro e impracticable en
muchos casos. Por lo tanto, suele modelarse mediante funciones de densidad
estadsticas que tienden aproximarse al verdadero comportamiento de la superficie ante
un haz de luz incidente.
Una superficie puede ser modelada a
partir de una coleccin de microsuperficies
planas, tal como queda reflejado en la figura
2.5. Cada microsuperficie tiene su propia
n
Microsuperficies
planas
orientacin. El ngulo de inclinacin, , es el

parmetro que determina el grado de oblicuidad


respecto a la normal del plano medio. En el
caso de superficies isotrpicas, la probabilidad
de distribucin de sera uniforme y las
microsuperficies estaran rotadas respecto a la
Figura 2. 5. Superficie formada por
normal, n, con igual probabilidad en todas las microfacetas
direcciones. Esto lleva a que puede modelarse
la superficie mediante una funcin de distribucin unidimensional. Por ejemplo, la
superficie puede responder a una funcin de densidad gausiana para el nivel de
microfacetas con N( , 2 ). Grandes valores en la varianza, 2, indicarn la
presencia de superficies rugosas, y al contrario, valores pequeos sealarn superficies
lisas. Los modelos basados en la funcin de distribucin del ngulo de inclinacin en las
microsuperficies son muy populares, pues la difusin de la luz reflejada es explicada por
los niveles de inclinacin y no por la cartografa (altura) de la superficie. Por esta razn,
los modelos de inclinacin, aunque relativamente ambiguos, son ampliamente utilizados
en los problemas de reflexin de la luz en superficies.
La impresin visual de los humanos es bastante vaga con el concepto de
rugosidad. De manera que una superficie vista de cerca parece rugosa y algo ms
alejada, puede llevar a la conclusin de calificarla como lisa. De hecho, los humanos
hacen cambios de vistas para ayudarse en el juicio de la rugosidad de la superficie.
A diferencia de las valoraciones humanas, la teora de reflexin tiene bien
definida el concepto de rugosidad; sta debe relacionar las irregularidades de la
superficie con las direcciones que tome la luz ante un haz de luz incidente. Para
superficies cuyas irregularidades son menores que la longitud de onda de la luz, << ,
la mayor parte del flujo incidente ser reflejada especulrmente en una sola direccin.
En caso contrario, si las irregularidades superan la longitud de onda del haz, la

Dpto. Electrnica, Automtica e Informtica Industrial

37

Carlos Platero

Apuntes de Visin Artificial

superficie difuminar la luz en mltiples direcciones, produciendo una radiacin difusa.


En la prctica, la radiacin reflejada es una combinacin de ambos casos.
El modelo ms utilizado en Visin Artificial se basa en las conclusiones de
Nayar. La reflexin de la luz sobre una superficie est formado por tres componentes: la
primera corresponde con la reflexin difusa explicada por el modelo lambertiano. La
segunda justifica el halo especular que se fundamenta en el modelo de TorrenceSparrow y la ltima se emplea en superficies lisas y hace referencia al pico especular.

Sensor
Manantial
r

Luz incidente
n
i

Pico especular
i
Halo especular

Halo difuso

Figura 2. 6 Tipos de radiacin al iluminar una superficie segn el modelo de Nayar

2.2.2 Clculo de la iluminacin y la luminancia


La iluminacin sobre una superficie, tal como se
vio en el captulo anterior, viene determinada por la
intensidad del foco luminoso y por las posiciones
geomtricas entre foco y superficie. Para el caso de
intensidad isotrpica, puntual y de posicin en el eje axial
de la superficie respecto del foco, la iluminacin es igual
a:
E

d I d r
I

2
dA
dA
r

Cuando la iluminacin no es paraxial hay que


descomponerla en una componente horizontal y en otra
vertical a la superficie:

38

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

I cos
d2
EV E H tg
EH

En general, si un punto est iluminado por ms de un foco, su iluminancia total


es la suma de las iluminancias recibidas:
EH

I i cos i

di

EV E H i tg i
i

Ejemplo 2.1
Una superficie est iluminada por una fuente luminosa puntual de 0.1
W/sr de intensidad constante en todas direcciones situada a 2 m de altura.
Calcular la iluminancia de superficie y la iluminacin vertical, si la inclinacin
entre la superficie y la fuente, , es de 30.
I cos 3
EH
16.2mW / m 2
2
h
EV E H tg 9.4mW / m 2
E 18.72mW / m 2

Ejemplo 2.2
Una superficie circular de 3 m de radio est iluminada
por una bombilla de 50 cd de intensidad constante en todas
direcciones situada a 2 m de altura sobre el centro de la
plataforma. Calcular la iluminacin mxima y mnima sobre la
superficie.
La iluminacin mxima se dar en la vertical del foco:

E max

I
12.5 lx
h2

La mnima se dar en la frontera:


E min

I cos

h / cos 2

Dpto. Electrnica, Automtica e Informtica Industrial

2.13 lx

39

Carlos Platero

Apuntes de Visin Artificial

Hasta ahora se ha hablado sobre la iluminacin radiada, pero


para medir la recibida por un observador se emplea el concepto de
luminancia o radiacin. sta se defini como la relacin entre la
intensidad radiada por una fuente, en una direccin determinada, por
la superficie aparente. Es sta la que llega al ojo o a la cmara y no la
iluminacin.
La reflexin de la luz sobre una
superficie rugosa se aproxima a un
comportamiento de reflexin en todas las
direcciones. Una superficie que refleja la luz
de esta forma se la llama lambertiana. Para
explicar el modelo de interaccin entre la luz
y la materia se definen los vectores unitarios

n , l , v y r , segn muestra la figura. La


explicacin del halo difuso se formaliza con:


I d d I din n l

Siendo d el coeficiente de reflexin difuso adimensional e I din es la intensidad


incidente en la superficie. En cambio para superficies lisas, la reflexin es de carcter
especular y su modelo es:
I s s I sin r v

Donde s el coeficiente de reflexin especular adimensional, I sin es la


intensidad incidente en la superficie y k es un parmetro del modelo para disminuir el

efecto especular cuando se desva del vector r . Normalmente se considera k=100.


Ejemplo 2.3
Se tiene un proyector situado en el techo de 0.04
m de superficie que ilumina con una intensidad de 150
mW/sr en cualquier direccin. Una mesa de 0.5 m 2 de
superficie recibe dicha iluminacin y tiene un
comportamiento lambertiano de factor de reflexin de
0.8. Calcular la luminancia de la fuente y la luminancia de
la mesa para el observador de la figura.
2

I
I
21.59W / m 2 sr

S p n P v p S p sen
I
I
Lm
0.48W / m 2 sr

S m nm v m S m sen

Lp

40

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.2.2.1 Modelo de Phong de Reflexin de la luz


Este modelo local es utilizado en Computacin Grfica para aplicaciones en
tiempo real. Considera los dos mecanismos de reflexin de la luz en superficies: difusa
y especular. En cuanto a la iluminacin, las clasificas en difusa, especular y ambiental.
Su forma de proceder es descomponer la luz en sus distintas formas de onda,
normalmente utiliza las franjas RGB y calcula la interaccin de cada parte del espectro
con la materia. Con posterioridad, al aplicar superposicin, se suma las interacciones de
cada franja y se obtiene la intensidad en cada punto del escenario.
Para facilitar el clculo computacional, no se considera la interaccin propia
entre cuerpos prximos entre s al radiar unos sobre otros. Este trmino es aproximado
por una iluminacin ambiental, a I ain . La intensidad de emisin de un punto para una
determinada longitud de onda es calculada como:

I I a I d I s I e a I ain d I din n l s I sin r v I e


k

donde Ie es la componente de intensidad correspondiente a la emisin de luz o


fuente de iluminacin. Este clculo es realizado slo para cuerpos opacos. Es posible
extender el modelo a cuerpos translcidos, modelizando la refraccin difusa y especular
mediante la ley de Snell.
Ejemplo 2.4
Una fuente luminosa de 0.1
W/sr ilumina a una superficie. Los
factores de reflexin difusa y
especular sobre esta superficie
1 ,0.5 , respectivamente.
son
3
Los ngulos de incidencia y de
colocacin de la cmara son

, r

respecto

Sensor
Manantial
r

Luz incidente
n
i

la

Pico especular
i
Halo especular

Halo difuso

4
6
normal de la superficie. Determinar
la intensidad recibida en el sensor.
Considrese
que
no
hay
interferencias de otras superficies y su emisin es nula. Utilizar el modelo de
Pong. Dato: k=100.

I d d I din n l

1
mW

100 cos 40.82
sr
3
4

1
mW
k

I s s I sin r v 100 cos 1.56
2
sr
4 6
k

Dpto. Electrnica, Automtica e Informtica Industrial

I 42.38

mW
sr

41

Carlos Platero

Apuntes de Visin Artificial

2.2.3 Tcnicas de iluminacin


Existen muchas tcnicas de iluminacin y resulta difcil de generalizar sobre los
distintos tipos de iluminacin, ya que suele depender de cada caso concreto. Sin
embargo, se pueden clasificar en cuatro grandes grupos: direccionales, difusas, a
contraluz y estructuradas. Se presentan stas y posteriormente se dar un repaso a
combinaciones de las iluminaciones principales.
2.2.3.1 Iluminacin direccional
Consiste en dar una iluminacin orientada al objeto empleando un
haz altamente direccional o colimado. Se utiliza en la localizacin y
reconocimiento de piezas, inspeccin de superficies, seguimiento de
puntos para soldadura o pegamento, etc. La forma del haz luminoso
depende de la aplicacin y del objeto a analizar. Cabe destacar los
siguientes casos: a) Punto luminoso b) Lnea de luz c) Plano de luz y d)
Corona
luminosa.

circular

Figura
2.7
Tcnica
direccional

2.2.3.2 Iluminacin difusa.


En ella se intenta que los haces luminosos
incidan sobre el objeto desde todas las direcciones y no
slo desde la fuente luminosa. Proporciona el mnimo
contraste del objeto y elimina las sombras. Se utiliza
cuando los objetos a analizar presentan superficies Figura 2. 8. Tcnica difusa
suaves.
Para crear una iluminacin difusa se utilizan
difusores de color blanco mate.
2.2.3.3 Iluminacin a contraluz.
Consiste en colocar la fuente luminosa por
detrs del objeto, de manera que la informacin
capturada por el sensor proviene del flujo luminoso
Figura 2. 9 Tcnica a contraluz
42

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

transmitido por el cuerpo. Si el objeto es opaco, ste aparecer como una sombra y las
imgenes se constituyen bsicamente en slo dos niveles de grises. Se emplea
preferentemente para la localizacin de piezas y anlisis dimensional. El principal
inconveniente es la prdida de los detalles de los cuerpos. Una preocupacin a tener en
cuenta es el posible deslumbramiento de la cmara, producido por la cantidad de
radiacin que alcanza al sensor, lo que origina un recorte en la dimensin de los objetos.
En caso de cuerpos translucidos dejar informacin sobre las propiedades
internas de la materia. ste es el fundamento de la tomografa o de la radiografa. La
imagen capturada depender de la absorcin de la materia. En este ejemplo se observa
que la fuente de iluminacin no tiene necesariamente que pertenecer al espectro visible.
2.2.3.4 Iluminacin estructurada.
Este tipo de iluminacin se sirve de la
proyeccin de puntos, franjas o rejillas sobre la
superficie de trabajo. En funcin de cmo se deforme
este patrn de luz sobre la superficie se puede detectar
las singularidades de la pieza objeto de anlisis. Este
mtodo posee dos ventajas con respecto a las
anteriores.

Figura 2. 10. Tcnica de luz


estructurada

1.

Establece un patrn de luz conocido


sobre la superficie de trabajo y las diferencias con este patrn indican la
presencia de un objeto, simplificndose as el problema de deteccin de
un objeto.

2.

Analizando la forma en que el patrn de luz es distorsionado, es posible


obtener informacin de las caractersticas tridimensionales del objeto.

2.2.4 Luz polarizada


Los haces de luz no polarizada consisten en radiaciones electromagnticas con
vibraciones transversales de igual magnitud en un
nmero infinito de planos perpendiculares a la
direccin de desplazamiento. Algunos materiales
actan selectivamente absorbiendo la energa en
ciertos ngulos y transmitindola en otros. El
resultado de un polarizador es un haz de luz que, en
esencia, parece vibrar en una sola direccin
(polarizador total), o vibra en todas direcciones pero
con distinta magnitud (polarizador parcial). El
estado de polarizacin depende de la relacin
existente entre las fases y amplitudes del campo
Figura 2. 11. Luz polarizada
elctrico y magntico.

Dpto. Electrnica, Automtica e Informtica Industrial

43

Carlos Platero

Apuntes de Visin Artificial

La percepcin de un objeto es el resultado de la reflexin difusa y especular de


la luz incidente sobre ste. La reflexin especular es acromtica y est parcialmente
polarizada, mientras que la reflexin difusa no est polarizada y es la que al actuar
selectivamente sobre las distintas longitudes de onda dan la sensacin de color. Para
obtener imgenes de una superficie coloreada habr de emplear un filtro polarizador que
impida la reflexin especular, polarizada y acromtica, haciendo llegar al sensor slo la
reflexin difusa.
Se suele emplear dos polarizadores, uno en la iluminacin y otro en la cmara.
Generalmente se emplean 0/90 y 45/135.
2.2.5 Ejemplos de iluminaciones.
A continuacin se enumeran algunas iluminaciones utilizadas en Visin
Artificial, mezclas de las anteriores. Se hace una breve descripcin as como sus
ventajas e inconvenientes.
1. Iluminacin Frontal Direccional: Es la tcnica ms empleada. La cmara es
posicionada mirando al objeto en el mismo plano que la iluminacin. La cmara
recibe la luz reflejada del objeto. Ventajas: especialmente til para observar
superficies, fcil de implementar y con posibilidad de utilizar la fibra ptica.
Desventajas: Puede crear reflejos no deseadas.

Figura 2. 12 Ejemplos de iluminacin frontal empleado en la inspeccin de etiquetas

2. Iluminacin Frontal Difusa: Usada para generar iluminacin superior


fuente est ms elevada que la escena) . Ventajas: Es suave, regular
direccional, reduce el brillo en superficies metlicas, relativamente fcil
implementar. Desventajas: Los bordes pueden quedar difuminados y
contraste es bajo en zonas monocolor.

44

(la
no
de
el

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

3. Iluminacin de Tienda (da nublado): No direccional, totalmente difusa,


iluminacin superior que produce iluminacin como la de un da nublado.
Bueno para piezas metlicas (bujas, cojinete de bolas) y componentes
electrnicos. Ventajas: Elimina brillos y sombras. Desventajas: Debe rodear la
pieza, puede ser costoso, el tamao puede ser un
problema.

4. Iluminacin Colimada Posterior: Iluminacin


posterior a travs de una lente colimada, de modo que
los rayos de luz son casi paralelos. Ventajas: Produce
bordes muy contrastados para mediciones de precisin.
Desventajas: Difcil de implementar si el material se
mezcla en la direccin del haz y puede ser demasiado brillante para cmaras sin
filtro.

5. Iluminacin de Campo Oscuro: La luz


incidente se refleja lejos de la cmara y la
iluminacin es creada por reflexin especular.
Ventajas: Ilumina defectos y produce una
imagen de alto contraste en algunas
aplicaciones.
Desventajas:
no
ilumina
superficies planas.

6. Contraluz Difusa: La luz est en el lado opuesto de la cmara y va a travs de


un material difusor, tal como papel de estraza o vidrio translucido. Ventajas:
Fcil de implementar, crea silueta del objeto, imagen de muy alto contraste y
bajo coste. Desventajas: los bordes pueden quedar difuminados, puede ser
difcil de implementar dependiendo de la posicin del material.

7. Iluminacin de Bajo ngulo: La luz


incide casi horizontal a la superficie del
objeto. Ventajas: Muestra defectos
topolgicos, Desventajas: Una sola fuente
producir una iluminacin desigual en la
superficie.

8. Iluminacin Frontal Polarizada: Iluminacin frontal con un polarizador en la


luz y un polarizador cruzado en la lente. Ventajas: elimina brillos. Desventajas:
reduce significativamente la cantidad de luz a travs de la lente.

9. Contraluz Polarizado: El polarizador y el polarizador cruzado estn en lados


opuestos del objeto. Ventajas: alta iluminacin en ciertos tipos de

Dpto. Electrnica, Automtica e Informtica Industrial

45

Carlos Platero

Apuntes de Visin Artificial

caractersticas o defectos en materiales translcidos y relativamente fciles de


implementar. Desventajas: los bordes pueden quedar difuminados y difcil de
implementar para algunas posiciones del material.

10. Iluminacin Estroboscpica: Una iluminacin peridica que dura


microsegundos se usa para congelar la imagen de objetos en movimiento.
Ventajas: toma imgenes sin movimiento, puede ser de rea, fibra ptica o led.
Desventajas: Ms costoso que las fuentes usuales, requiere una precisa
sincronizacin con la cmara y debe estar fuera del alcance visual de las
personas.

11. Iluminacin Estructurada: Un plano de


luz generado por una luz estructurada
mediante conversin de lente cilndrica de
punto a lnea de lser. Ventajas: muestra
informacin 3D, produce alto contraste en
la mayora de las zonas. Desventajas: el
lser por encima de 5 mW es peligroso, la
luz puede ser absorbida por algunas
superficies.

12. Iluminacin Coaxial: La iluminacin va en la


misma direccin que la luz que entra por la
cmara reflejada por los objetos, esto es, la
iluminacin y el eje de la cmara son colineales.
La fuente de luz est colimada (todos los haces
luminosos van en la misma direccin. Ventajas:
elimina sombras e iluminacin uniforme.
Desventajas: complicado de implementar y spera
iluminacin para superficies lustrosas.
2.2.6 Fuentes luminosas.
Entre los elementos comerciales que se pueden utilizar para una correcta
iluminacin son: luces incandescentes, focos halgenos, fluorescentes, lseres y leds.
Las luces incandescentes presentan un coste bajo, son fciles de usar y adems
pueden estar funcionando durante largos periodos de tiempo. stas suelen ser puntos
luminosos, no direccionales y con baja eficiencia energtica. Generalmente presentan la
posibilidad de ajustar la intensidad lumnica, aspecto importante, ya que interesa que el
rea efectiva de la lenta sea lo ms pequea posible, por lo que para estimular al sensor
se requiere mayor potencia lumnica. El principal inconveniente es el elevado calor que
desprenden, producto de su funcionamiento, y que puede limitar su aplicacin.

46

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

Cuando las fuentes luminosas emplean


corriente alterna, la radiacin luminosa vara de
intensidad y puede provocar la variacin de una
imagen a otra. Por eso, a veces, se emplean fuentes
luminosas que puedan ser alimentadas con corriente
continua, como as sucede con las lmparas
halgenas. Estas bombillas tienen una temperatura
menor que las incandescentes (350C).
Figura 2. 13. Fluorescente tipo corona

Los fluorescentes son fuentes de luz que se


caracterizan por no generar calor. Presentan formas y tamaos variables, as como de
diversos colores de luz. Son comnmente empleados en iluminacin difusa. La
alimentacin debe ser en corriente alterna y para evitar fluctuaciones en las imgenes se
emplean reactancias de altas frecuencias (de 100Hz a 25kHz).
El lser es empleado en iluminacin
estructurada. Es un fuente monocromtica que puede
presentar diferentes patrones de luz: punto, lnea,
rejillas, ... Su gran inconveniente es la necesidad de
emplear sistemas de seguridad, para evitar daos en
los operarios que trabajen cerca del estos sistemas de
iluminacin.
El uso de fibra ptica, como gua de luz, est Figura 2. 14. Luz lser
asociado a la transmisin de la iluminacin pero no
del calor, por lo que suele ir asociado a fuentes incandescentes. Su aplicacin est
principalmente en la iluminacin de pequeas reas y
concavidades, como por ejemplo en la endoscopia.
Las luces estroboscpicas son ideales para
analizar objetos en movimiento o piezas en una cinta
transportadora. Dan una iluminacin intensa, por lo
que la iluminacin ambiental influye poco. Existen
elementos con pulsos de 2 microsegundos. El mayor
inconveniente es el proceso de sincronizacin entre la Figura 2. 15. Gua de luz (fibra
ptica)
iluminacin y la cmara.
2.2.7 Aspectos a considerar en las fuentes de iluminacin
Variacin de la iluminacin en pequeos periodos de tiempo: alimentacin
continua, alimentacin alterna en alta frecuencia y sincronizacin.
Variacin de la iluminacin en largos periodos de tiempo: arranque y
autocalibracin.
Temperatura y disposicin fsica.
Fuentes luminosas de alta precisin.
Suciedad.
Carcter colimado del haz.
Mantenimiento, coste y facilidad de recambio.
Dpto. Electrnica, Automtica e Informtica Industrial

47

Carlos Platero

2.3

Apuntes de Visin Artificial

La ptica

La ptica es el elemento del sistema de visin que permite concentrar los rayos
luminosos del entorno sobre el plano sensor. Una vez definido el sistema de
iluminacin, la eleccin de la ptica influir en la calidad de la imagen recibida y del
tamao de los objetos. En este apartado se hace un repaso de los parmetros pticos con
un modelo de lente simple. Posteriormente, se explicaran varias cuestiones prcticas
sobre las pticas comerciales empleadas en las cmaras de vdeo.
2.3.1 Cmara oscura
Desde hace mucho tiempo es conocida la experiencia de la cmara oscura.
Cardan, en 1550, emple la cmara oscura con una lente. Se trata de realizar en un
habitculo cerrado, en una de sus paredes, un pequeo orificio. La luz, tras entrar en la
cmara, se proyecta sobre la pared opuesta a la que tiene el orificio. Por cada rayo
procedente del exterior se obtiene un punto luminoso en el plano proyectivo.
Extendiendo el razonamiento a los infinitos rayos que atraviesan el agujero se obtiene
una imagen invertida y proyectiva del mundo exterior al plano sensor.

Figura 2. 17. Fundamento de la cmara oscura

Tambin se observa que a medida de que la


separacin entre las paredes de la cmara aumente, la
imagen proyectiva se incrementa de tamao. A este
modelo de cmara oscura se la denomina pin-hole.
Sin embargo, en la cmara oscura, la energa
incidente que atraviese no
es
lo
suficientemente
elevada como para excitar Figura 2. 16 Tamao del objeto
al plano sensor. Por lo que proyectado
se resuelve aumentando el
tamao del agujero. El efecto provocado es una degradacin
de la imagen, ya que son varios los rayos los que inciden,
Figura 2. 18. Tipos de pero no necesariamente del mismo objeto, producindose una
lentes
convergentes
o
imagen borrosa. Estos inconvenientes son subsanados con el
positivas
uso de las lentes.

48

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.3.2 Lente simple


Con el objeto de aumentar la luminosidad en el interior de la cmara, sin que la
imagen se haga borrosa al aumentar el tamao del agujero, se utiliza una lente. Una
lente es una sustancia transparente y refringente, limitada por dos caras, una de las
cuales es curva y la otra puede ser plana o curva, pero con la condicin de que sus
centros de curvatura estn en el mismo eje. El efecto deseado es la convergencia o
divergencia del frente de ondas.
La figura representa una lente
convexa1 de radio R. El centro de curvatura de
la lente se define por C. Sea un punto P
exterior, situado a una distancia Z. Los
infinitos rayos procedentes del emisor que
chocan sobre la lente producirn una direccin
especular, respecto a la normal de la superficie
de la lente. La refraccin del frente de ondas,
gracias a la curvatura constante, se concentra
en el punto P, separado a una distancia z,
respecto a la superficie. La relacin entre estas
distancias con el radio de curvatura viene
definido por la ecuacin de Gauss:
1 1 2

Z z R

Figura 2. 19 Modelo de lente delgada

En la formacin de imgenes se emplean tanto lentes convergentes o positivas


como divergentes o negativas. Las lentes positivas tienen la propiedad de hacer
converger en un punto los distintos rayos divergentes que proceden de un mismo lugar
del objeto exterior. Las lentes divergentes hacen el trabajo al contrario, no focalizan la
luz, sino que las hacen divergir.
Al emplear lentes convergentes, todos los puntos del plano imagen tienen, por
tanto, la caracterstica de que todos los rayos incidentes en cada uno de dichos puntos,
provienen de un mismo punto del objeto, obtenindose una imagen ntida con una
mayor energa incidente.

Una superficie es convexa cuando el centro de curvatura pertenece a la figura geomtrica.

Dpto. Electrnica, Automtica e Informtica Industrial

49

Carlos Platero

Apuntes de Visin Artificial

Figura 2. 20. Modelo de lente delgada

La zona sensible de la cmara deber estar situada en el plano de convergencia


de los rayos, en caso contrario, los rayos incidentes sobre el sensor provendr de
distintos objetos, obtenindose una imagen borrosa o desenfocada.
2.3.3 Distancia focal
Se observa que para un mismo
objeto exterior, a medida de que ste se
encuentre ms alejado respecto a la
cmara, el punto de convergencia de los
rayos, al otro lado de la ptica,
disminuye, ya que el grado de
convergencia de la lente permanece
constante y la radiacin incidente tiene
menor divergencia (ver figura 2.22). Al Figura 2. 22. Distancia de enfoque dependiendo de la
procedimiento de ajustar la distancia situacin de los objetos
entre la lente y el plano sensor, con el
objeto de tener una imagen ntida, se le
denomina enfoque.
Dependiendo de la curvatura de
las lentes, stas poseen distintos grados
de convergencia de los rayos
provenientes del objeto y por tanto ser
distinta la distancia entre el plano de la
imagen y la lente. Con el fin de medir el
grado de convergencia de una lente se
utiliza la distancia lente-plano de
imagen. Pero debido a que esta
distancia es variable segn la distancia a
la que est enfocado el objeto, su
Figura 2. 21. Distancia focal
medicin se realiza cuando el objeto se
encuentra enfocado a una distancia infinita delante de la cmara; en cuyo caso, los rayos

50

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

procedentes del mismo punto del objeto sern paralelos. La distancia focal, f, se define
como la distancia entre la lente y el plano sensor o focal cuando se encuentra enfocado
hacia el infinito. Esta definicin equivale a decir que la distancia focal es la distancia
entre la lente y el punto de convergencia de todos los rayos paralelos que inciden
perpendicularmente a ella. A este punto de convergencia se le denomina foco de la
lente. Si el objeto se halla a una distancia
finita, la separacin entre la lente y el plano
focal ser mayor que la distancia focal.
Para explicar la formacin de la
imagen se emplea el modelo de lente
delgada. De forma que todos los rayos que
pasen por el centro ptico continan en lnea
recta y los rayos que atraviesen la lente
paralelamente al eje axial de la ptica
convergen en el foco. La proyeccin de un
punto P del exterior, de coordenadas
Figura 2. 23. Modelo de lente delgada
(X,Y,Z), sobre el plano sensor, p de posicin
(x,y,z) vendr definido, segn la ecuacin de Gauss, por:

1 1 1

Z z f

(2. 1)

La lente delgada puede


ser simplificada si se emplea el
modelo pin-hole. Este modelo,
como se ha comentado, reduce la
ptica
a
un
punto
de
convergencia situado a la
distancia focal, f. Con esta
suposicin,
se
considera
despreciable el movimiento de
convergencia de los rayos a
travs del proceso de enfoque.
Por tanto es como si la ptica
estuviera siempre enfocada hacia Figura 2. 24 Modelo pin-hole
el infinito. La ventaja es la
facilidad de modelado del sistema ptico. Por triangulacin, la relacin entre la
geometra exterior y la proyectada mostrada en la figura es:
x

f
X
Z

f
Y
Z

(2. 2)

Se denomina factor de magnificacin a la relacin entre el segmento proyectado


sobre el plano imagen y el tamao exterior del segmento fsico:

Dpto. Electrnica, Automtica e Informtica Industrial

51

Carlos Platero

Apuntes de Visin Artificial

x
y f

X Y Z

(2. 3)

En el modelo pin-hole, la distancia focal es proporcional al factor de


magnificacin, mientras en el modelo de lente fina es:
f

M
Z
M 1

(2. 4)

En cualquier caso, la distancia focal da una medida del grado de magnificacin


entre la imagen real y la proyectada. El tamao de la imagen proyectiva depende de la
distancia focal. A mayor distancia
focal, menor ngulo visual. Una
eleccin adecuada de la distancia
focal depende de la resolucin
deseada del objeto. El grado de
resolucin espacial del sistema de
adquisicin de las imgenes vendr
determinado por el tamao del
objeto ms pequeo que pueda
distinguirse,
sin
llegar
a
confundirlo. Se analizar ms
adelanta al introducir el teorema de
muestreo.
Figura 2. 25 Magnificacin de la ptica

Ejemplo 2.5
Para la prctica de calibracin de
las cmaras se ha empleado una
cuadrcula tipo de ajedrez. Los lados
son de 27 mm y se ha puesto la rejilla a
1 metro de distancia respecto a la
cmara. Se ha empleado una cmara
de pxel cuadrado de 5.6m. Las aristas
de las caras se ven en 15 pxeles. Cul
debe ser la distancia focal de la ptica?.
Qu rea se visualiza, si la cmara
est constituida por 357x293 pxeles?.
Utilcese el modelo pin-hole.

15 5.6 10 6
f
1 3.1mm
27 10 3
x y 357 5.6 10 6 x 293 5.6 10 6
S X Y 2
0.341m 2
2

3
M
3.1 10

52

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

Ejemplo 2.6
Qu tipo de espejo se requiere para iluminar una pared situada a 3 m
del foco luminoso, sabiendo que la separacin entre la fuente y el espejo es de
10 cm? Cul es la proyeccin del foco de 5 mm sobre la pared?
El tipo de espejo debe de ser divergente, esto es, su curvatura es cncava y
tendr un radio de curvatura de:
1 1
2

3 0.1 R

R 19.4cm

El tamao del foco proyectado ser:


M

0.1
3

x
5 10 3 30 150mm
M

Ejemplo 2.7
Un pequeo objeto se encuentra a 4 cm de un espejo cncavo de radio
12cm. Calcular la posicin y aumento de la imagen ntida.
1
1
1

0.04 z 0.06

z 0.12m

0.12
3
0.04

Ejemplo 2.8
Un objeto es proyectado por una esfera de vidrio hueca de radio R,
10cm, a una distancia respecto de la superficie de 3R, A que distancia
respecto del centro de la esfera se obtendr la imagen ntida y cuanto ha sido
amplificada?
La imagen invertida dentro de la esfera, al pasar por la zona convexa valdr:
1 1 2

3R z R

3R
6cm
5

Esta imagen al ser pasada por la zona cncava ser amplificada y la imagen
ntida respecto del centro de la esfera ser:
1
1
2

Z ' 7R 5 R

Z'

7R
7.78cm d 17.78cm
9

Dpto. Electrnica, Automtica e Informtica Industrial

53

Carlos Platero

Apuntes de Visin Artificial

El factor de magnificacin ser atenuante:


M

3R / 5 7 R / 5 9

3R 7 R / 9 25

2.3.4 ngulo visual


El tamao mximo de los objetos que se proyectan dentro del rea sensible del
sensor viene determinado por el rea del sensor, por la distancias de los objetos a la
cmara y por la distancia focal, f. Con el objeto de poder comparar los ngulos visuales
de las distintas cmaras, se efecta la medida con el enfoque hacia el infinito.
Con este supuesto, se
calcula el ngulo visual cmo el
ngulo que forman dos rayos que
inciden sobre los bordes externos
de la zona sensible de la imagen,
cuando la imagen se encuentra
enfocada a una distancia infinita.
Puesto que la zona sensible es
normalmente rectangular, su
tamao no es lo mismo en todas
las
direcciones,
pudindose
hablar
del
ngulo
visual
horizontal, vertical, as como del
ngulo visual segn la diagonal.
Normalmente, los sensores de
vdeo son caracterizados por su
diagonal, D, por tanto, el ngulo
visual se expresa en funcin de
este valor.
Figura 2. 26. ngulo visual de la ptica
Se observa de la expresin que el ngulo visual disminuye con el aumento de la
distancia focal de la lente.
2.3.5 Diafragma
El rea efectiva de la lente va a influir
en las caractersticas de la imagen proyectada
en la zona sensor. Para poder modificar el
rea efectiva de la lente, sin tener que
cambiarla, se emplea el diafragma. El
diafragma es una superficie opaca, colocada
en la ptica, que permite el paso de los rayos
luminosos en un crculo central de la lente e
impide que los rayos que inciden sobre la
corona pasen. Los diafragmas se construyen
de manera que la abertura central de la lente Figura 2. 27. Colocacin del diafragma

54

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

sea variable, posibilitando de esta manera una graduacin del tamao efectivo de la
lente.
Para una lente con una distancia
focal fija, el efecto ms inmediato de la
variacin de la abertura del diafragma se
refleja en la cantidad de luz que incide
sobre el plano sensor. Esta cantidad de luz
es proporcional al rea efectiva de la lente.
Si se denomina con D el dimetro de la
abertura efectiva, la energa incidente de
los rayos ser proporcional a D2. Pero la
luminosidad en el plano imagen no
depende slo de la cantidad de luz que Figura 2. 28. Abertura de la lente dependiendo del
nmero F
atraviesa la lente, sino tambin de la
distancia entre la lente y el plano sensor, la cual es inversamente proporcional al
cuadrado de su distancia focal2. Segn estos razonamientos, la luminosidad de una
lente, que expresa el flujo de luz en la superficie del rea sensible, es proporcional a
D2/f2. Para cuantificar la luminosidad de una imagen se emplea el nmero F de una lente
que se define como F=f/D. Por tanto, una disminucin del nmero F en un valor de 2
equivale a un aumento del doble de la potencia luminosa.
2.3.6 Profundidad de campo
Para que un objeto situado a una distancia L produzca una imagen ntida es
necesario que la lente se encuentre situada a una determinada distancia del plano sensor.
Esta distancia depende de la distancia L del objeto y de la distancia focal de la lente, f.
Cualquier objeto, situado delante o detrs del enfocado, dar lugar a que los
rayos provenientes de un punto de ste no focalicen en el plano de la zona sensible. En
el sensor quedar proyectado como una mancha, denominado crculo de confusin.
Si el dimetro del crculo de
confusin es menor que la mitad de la
resolucin del sistema de adquisicin de la
imagen, dicho sistema ve tambin como un
solo punto de imagen. Por el contrario, si
el circulo de confusin generado por un
punto fuera del foco es mayor que el valor
mencionado, dicho punto aparecer como
borroso o desenfocado. A este valor crtico

Figura 2. 29. Crculo de confusin


2

D2
I
I dr I 4 2 2
f

Dpto. Electrnica, Automtica e Informtica Industrial

55

Carlos Platero

Apuntes de Visin Artificial

se le denomina circulo permisible de confusin, .


Cuando un punto del objeto se encuentra ms cerca o ms lejos de la distancia L,
a la que se encuentra enfocado el sistema, pero a una distancia tal que el crculo de
confusin generado sea menor del permisible, dicho punto tambin se encontrar
enfocado.
Se denomina profundidad de campo a la zona del espacio dentro de la cual el
objeto forma una imagen proyectada ntida o enfocada. Este valor viene determinado
por el radio del circulo permisible de confusin, , la distancia focal, f, y la abertura del
diafragma, F:

d d1 d 2

F L2
F L2

f 2 F L f 2 F L

(2. 5)

Siendo d1 y d2 las distancias lmites de


los puntos enfocados por detrs y por delante
respectivamente respecto al punto de foco. La
profundidad de campo, d, posee las siguientes
caractersticas:
1. A mayor nmero F da mayor
profundidad de campo.
2. A menor distancia focal da mayor
profundidad de campo
3. A mayor distancia al objeto
supone mayor profundidad de Figura 2. 30. Profundidad de campo
campo.
4. Cuanto mayor sea el radio del crculo de confusin permisible, menor
resolucin del sistema y tanto mayor ser la profundidad de campo.
5. La profundidad de campo es mayor por detrs del objeto que por delante,
d1>d2.
La primera caracterstica supone que cuanto menor sea la abertura de la lente
mayor ser la profundidad de campo. La abertura de la lente hace algo ms que
controlar la cantidad de luz que penetra en la cmara. Tiene una segunda funcin muy
importante, la de controlar la profundidad de campo.
2.3.7 Aberraciones y distorsin de la imagen
El trmino aberraciones designa las imperfecciones introducidas en las
imgenes por los sistemas pticos. Hasta ahora se ha supuesto que la lente hace
converger los rayos divergentes de un punto del espacio en un nico punto del plano
sensor. Sin embargo, este hecho slo sucede cuando la luz es monocromtica y situada
en las proximidades del eje ptico. Hay dos clases de distorsiones: cromticas y
geomtricas. Las primeras estn relacionadas con el espectro frecuencial de los rayos y
las segundas aparecen si los rayos que inciden en la ptica estn alejndose del eje axial
de la lente.

56

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.3.7.1 Aberracin cromtica


Se debe al diferente ndice de refraccin de un rayo luminoso segn su longitud
de onda. Existen dos tipos de aberracin cromtica: longitudinal y lateral.
Aberracin cromtica longitudinal. Este
tipo de aberracin provoca que los rayos de
distintas longitudes de onda procedentes de un
punto sobre el eje ptico de la lente se enfoquen
sobre diferentes planos de imagen.
Aberracin cromtica lateral. Ocurre
debido a que la magnificacin de la lente cambia
segn la longitud de onda del rayo, produciendo un
desplazamiento lateral de los puntos de Figura 2. 31 Aberracin cromtica
convergencia de los rayos de diferente longitud de
onda.
2.3.7.2 Aberracin geomtrica
Las cinco aberraciones geomtricas bsicas o aberraciones de Seidel, en honor al
investigador que las clasific, son: esfrica, coma, astigmatismo, curvatura de campo y
distorsin. Las cuatro primeras afectan a la nitidez de la imagen y la quinta a la forma
de los objetos proyectados.
Aberracin esfrica. Del haz de rayos que parten de un punto del objeto situado
sobre el eje de la lente, aquellos que
entran en la lente a una mayor altura
sobre dicho eje son refractados a
diferentes puntos sobre el eje ptico,
producindose un desplazamiento del
foco. La aberracin esfrica puede ser
subsanada mediante el diafragma;
cuanto mayor sea el valor de F, menor
ser el radio de la lente, reducindose
as esta aberracin.

Figura 2. 32. Aberracin esfrica

Coma. Hasta ahora se ha


supuesto que los rayos son paraxiales,
pero cuando inciden con un cierto
ngulo sobre el eje, stos no son
enfocados sobre el plano de imagen,
sino que forman una imagen similar a
un cometa con una cola. La cola tiene
el aspecto de crculos que permanecen
siempre tangentes a dos rectas que
forman entre s un ngulo de 60. Esta
cola puede apuntar en la direccin al
Figura 2. 33. Aberracin de coma
Dpto. Electrnica, Automtica e Informtica Industrial

57

Carlos Platero

Apuntes de Visin Artificial

centro de la imagen o en la opuesta, originando la coma entrante o la coma saliente. Un


objeto que contenga curvas concntricas al eje ptico sufrir un gran desenfoque a lo
largo de un borde de cada curva concntrica. Si una lente no est corregida contra la
coma, el contraste en los bordes de la imagen ser malo. La coma puede ser corregida
dando una menor abertura al diafragma.
Astigmatismo. En algunos
objetivos
ocurre
que
resulta
imposible enfocar con nitidez
simultneamente
los
objetos
verticales y horizontales, incluso
estando ambos en el mismo plano.
Este
defecto
se
comprueba
fcilmente
fotografiando
unas
rejillas metlicas y examinando
atentamente los bordes. Si el plano
de enfoque se desplaza hasta Figura 2. 34. Astigmatismo
encontrar las lneas perpendiculares
de forma ntida, las horizontales aparecern borrosa y viceversa. Disminuyendo la
abertura del diafragma, y por tanto aumentando la profundidad de campo, se consigue
disminuir el astigmatismo hasta un cierto punto, pero no se elimina completamente.
Curvatura de campo.
Representa la incapacidad de
una lente para enfocar un objeto
plano sobre el plano sensor.
Realmente, el plano focal de un
objetivo no es totalmente plano,
sino que forma una superficie
cncava hacia el objetivo. Como
la zona sensible est totalmente
plana, es difcil enfocar a la vez
y exactamente, el centro y los
bordes de la imagen. Los
fabricantes
solucionan
esta Figura 2. 35. Curvatura de campo
degradacin,
parcialmente,
variando el diseo de las lentes. Como el astigmatismo, la curvatura de campo puede ser
corregida disminuyendo la abertura del diafragma para aumentar la profundidad de
campo.
Distorsin. Mientras que
las aberraciones mencionadas
hasta ahora se relacionan con la
nitidez del enfoque de la imagen,
la distorsin afecta a la forma que
toma los objetos proyectos en la
imagen. Se acostumbra a expresar
la distorsin como un porcentaje
entre la altura ideal de la imagen y
Figura 2. 36. Modelo de distorsin
58

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

la distancia que los puntos se desvan de su posicin en la imagen ideal. La distorsin


destruye la perfecta semejanza entre el objeto y su imagen, dando o bien un efecto de
cojn (distorsin positiva) o bien un efecto de barril (distorsin negativa).
Las lentes de amplio ngulo visual, i.e. de baja distancia focal, deforman las
lneas rectas tanto vertical como horizontalmente. Al fotografiar una cuadrcula, sta
puede deformarse de forma cncava o convexa, resultando as las llamadas distorsiones
de "cojn" y "barrilete".
En el modelo de la distorsin cabe considerar dos componentes: una radial y otra
tangencial. Cada una de ellas se modela como una serie de infinitos trminos. Sin
embargo, para la mayora de las aplicaciones de visin es suficiente con modelar slo la
distorsin radial y, de sta, vale con los dos primeros trminos de la serie. De esta
forma, la relacin entre los pxeles con y sin distorsin sera:

xd 1 k1 r 2 k 2 r 4 xu
2
2
2
r x d y d
2
4

y d 1 k1 r k 2 r yu

(2. 6)

Donde (xd,yd) son las coordenadas del pxel distorsionado y (xu,yu) del pxel sin
distorsin. El grado de distorsin viene dado por los valores de ki. En la figura de abajo
se muestra los modelos de distorsin tanto radial como tangencial, as como la
combinacin de ambos efectos, procedentes de la cmara empleada en las prcticas de
la asignatura.

Figura 2. 37. Modelo de distorsin de la ptica de la cmara de prcticas

2.3.7.3 Efecto del diafragma sobre las aberraciones


Segn se acaba de comentar, los defectos provocados por las aberraciones
pticas aumentan con el tamao efectivo de la lente, puesto que los rayos incidentes en
los extremos de la lente sufren mayores desviaciones de foco y distorsin que los rayos
centrales. Como consecuencia de esta conclusin, cuanto ms cerrado est el diafragma
y por tanto menor sea la abertura efectiva de la lente, tanto menor ser los defectos
apreciables de la lente. El efecto adverso ser una disminucin de la intensidad
luminosa que atraviesa la cmara, cuya consecuencia se traduce en una necesidad de
Dpto. Electrnica, Automtica e Informtica Industrial

59

Carlos Platero

Apuntes de Visin Artificial

aumentar la potencia de la fuente luminosa para conservar el nivel de excitacin


radiomtrica del pxel.
2.3.8 Funcin de punto extendido (PSF y OTF)
Por muy pequeo que sea el orificio de
una cmara real, por l siempre pasarn varios
rayos pertenecientes al haz de rayos divergentes
que se originan de la reflexin de la luz sobre
cualquier superficie. Este hecho implica que en
vez de tener un punto luminoso en el plano
sensor, se tendr un crculo proyectivo. El
efecto anterior provoca una degradacin en la
imagen. La luz incidente en cada punto del
plano sensor proviene de un conjunto de puntos
prximos del objeto y no de un solo punto.
Figura 2. 38. Degradacin del pulso de
dirac

Cuando se emite un pulso de luz, tipo


dirac, ste es procesado por el sistema ptico, formando sobre el plano sensor una
mancha difusa. La distribucin de radiacin sobre el plano sensor del pulso de luz,
cuando el nivel de radiacin es la unidad, se define como la funcin de punto extendido
(Point Spread Function, PSF). A la transformada de Fourier de la funcin de punto
extendido se la denomina funcin de transferencia ptica (OTF).
|OTF|

PSF

0.2

1
0.8

0.15

0.6
0.1
0.4
0.05

0.2

0
40

15

40

15

10
10
5

20

20

5
0 0

0 0

Figura 2. 39. Distribucin gaussiana de la PSF y su funcin de transferencia ptica

60

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.3.9 Lentes comerciales.


Para evitar las degradaciones de la lente delgada, las pticas o lentes comerciales
se componen de varias lentes simples para intentar disminuir las aberraciones. La
diferencia fundamental entre las pticas utilizadas en fotografa y las usadas en las
cmaras de vdeo es el tamao del plano de la imagen. Mientras las fotogrficas
emplean una imagen de 35 mm, las de vdeo utilizan un plano sensor segn el tamao
del sensor empleado; los ms usuales son los de 1/3 y 1/2 de pulgada, aunque existen
sensores desde 1/7 hasta 1 pulgada. El tamao del sensor se refiere a su diagonal y la
relacin entre su anchura y altura suele ser de 3/4.
2.3.10 Caractersticas de las pticas.
Enfoque. Como se ha visto anteriormente, actuando sobre el enfoque se puede
conseguir una imagen ms o menos ntida. Las pticas comerciales se pueden clasificar
por el enfoque en: pticas fijas, pticas variables y pticas motorizadas. Estas ltimas
disponen de un motor de forma que se puede enfocar automticamente o de manera
teleoperada.
Iris o diafragma. El dispositivo de abertura est formado por lminas muy
delgadas dispuestas de tal manera que en el centro se forma un crculo por el que puede
entrar la luz. Abriendo o cerrando el iris entrar ms o menos luz, haciendo que la
imagen sea ms clara o ms oscura. Como se ha visto anteriormente cerrando el iris
tambin se aumenta la profundidad de campo y se disminuyen las aberraciones de la
lente, sin embargo se tendr que iluminar ms la escena. El iris puede ser manual,
automtico (autoiris) o motorizado. Las pticas con autoiris tienen un motor, al igual
que las motorizadas, pero sta no se controla por un usuario a distancia, sino por la
propia cmara. Las cmaras de vdeo tienen una salida de control para este propsito
que se conecta con un cable a las pticas con autoiris. La cmara regular el autoiris
abrindolo o cerrndolo en funcin de la cantidad de luz que est recibiendo.
Zoom. Las pticas con zoom permiten, mediante dos conjuntos de lentes que se
pueden acercar o separar, variar la distancia focal. De esta manera se puede fijar en
detalles que a simple vista no se aprecian. El efecto de aumentar el zoom es la
disminucin del ngulo de vista. Las pticas pueden ser con o sin zoom y stas pueden
ser manuales o motorizadas.
2.3.11 Parmetros de las pticas.
A la hora de comprar una ptica en el mercado para un sistema de visin hay
que tener claro las necesidades del proyecto. El precio de la ptica puede variar entre
unos pocos euros hasta cientos de euros, en funcin de sus caractersticas y calidades.
Los principales parmetros en la eleccin de una ptica son:
Distancia focal f. La ptica comercial tiene dos puntos principales, primario y
secundario. La distancia en milmetros entre el punto principal-secundario y el sensor de
imagen es la distancia focal. En pticas de enfoque variable, se permitir un
desplazamiento del segundo punto principal para modificar el foco respecto al valor
nominal. En el caso de pticas motorizadas, se dar el rango de enfoque. Es el principal
Dpto. Electrnica, Automtica e Informtica Industrial

61

Carlos Platero

Apuntes de Visin Artificial

parmetro a tener en cuenta, ya que ste va a delimitar a que distancia se encuentra la


cmara de la escena.
Nmero F. Es el ndice de cantidad de luz que pasa a travs de la lente. Cuanto
ms pequeo sea el nmero F, mayor ser la cantidad de luz. Se puede calcular su valor
como la relacin entre la distancia focal y dimetro efectivo de abertura de la lente.
Angulo de vista. Es el ngulo que se forma con las dos lneas que parten desde
el punto principal secundario a los extremos de la diagonal del sensor de imagen. A un
mayor ngulo de vista se obtendr un mayor campo de la escena en la imagen.
Rosca. La rosca es la forma con la que la ptica se sujeta a la cmara. Las ms
tpicas en pticas de vdeo son la rosca C y la rosca CS, habiendo incluso adaptadores
de uno a otro. En cmaras fotogrficas se suele emplear la rosca de bayoneta. Existen
otros tipos de rosca como la rosca K y otras que emplean algunos fabricantes
particulares como la rosca Watec.

2.4

Sensores de vdeo

Bsicamente, la cmara fotogrfica del siglo XIX se constitua


por una caja estanca en la atravesaba la luz a travs de una lente. Un
dispositivo mecnico dejaba pasar, durante un pequeo lapsus de
tiempo, la radiacin incidente sobre el interior de la caja. La escena se
proyecta sobre la zona sensible, la cual estaba formada por cristales de
halogenuros de plata, muy sensibles a la luz. La tecnologa de la
fotografa se ha modificado espectacularmente hasta hoy da, pero el
principio sigue siendo el mismo, i.e. de excitacin con fotones a un
rea sensible dentro de un habitculo cerrado.
En 1897 se invento el tubo de rayos catdicos, ofreciendo la oportunidad de
imgenes no fotogrficas, pero no fue hasta 1923 cuando se perfeccion para poder
adquirir imgenes. El sistema usaba un tubo de vaco, una pantalla sensible a la luz y un
haz de electrones para el escaneado de la seal. La llegada en 1930 de la televisin
comercial hizo que las cmaras de vdeo alcanzaran una importancia trascendental.
En 1970 se invent el primer sensor de estado slido. La imagen era formada por
la conversin de los fotones a cargas elctricas. Esta transformacin se realiza por un
elemento semiconductor llamado pxel que se dispona en forma matricial. Las cargas
elctricas eran ledas posteriormente por filas y por columnas,
transformando la seal de vdeo en informacin elctrica. Se
inicio entonces una batalla por la dominacin del mercado entre
las cmaras de estado slido y las de tubo de vaco. sta fue
ganada por las cmaras de estado slido antes sus innumerables
ventajas, como espacio, inmunidad a vibraciones, coste de
fabricacin, etc. Algo similar se libra hoy en da entre las clsicas
cmaras fotogrficas analgicas y las digitales.

62

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.4.1 Cmaras de estado slido


La mayora de las cmaras de estado slido estn basadas en dispositivos de
cargas acopladas o CCD (Charge Coupled Deviced), si bien existen otras tecnologas,
como son la de inyeccin de carga o CID (Charge Injection Deviced) o las cmaras de
integracin o TDI (Time Delay Integration). Otra tecnologa pujante es la CMOS. Aun
as, el funcionamiento bsico en las distintas tecnologas es similar y est fundado en el
efecto fotoelctrico. Los fotones de la luz pasan por una estructura cristalina de silicio y
son absorbidos creando pares electrn-hueco. La cantidad de pares electrn-hueco ser
proporcional a la intensidad de luz que ha incidido sobre el elemento sensor.
2.4.2 Fundamentos del fotosensor.
El elemento bsico de las clulas fotosensibles son los pxeles. stos estn
constituidos por condensadores MOS (Metal Oxido Semiconductor). Sobre un substrato
de silicio de tipo P, se monta una zona de tipo N y se deposita una pelcula de dixido
de silicio, SiO2, formando una
capa de aislante o dielctrico.
Encima de esta capa se sita un
electrodo conductor de polisilicio
transparente.
La
radiacin
incidente de la luz visible pasa a
travs del conductor transparente y
crean pares electrn-hueco en el
semiconductor. Los huecos libres
se combinan con los electrones del
substrato,
mientras
que
la
acumulacin de los electrones
libres produce una carga elctrica
proporcional a la intensidad de la
luz y al tiempo de integracin.
Figura 2. 40 Estructura del pixel

2.4.3 Modelo radiomtrico del pxel


Si el sistema de adquisicin de imgenes,
lente ms cmara, se encuentra a una distancia de
R1, desde la superficie de observacin, el nivel
energtico de fotones incidentes dentro del sistema
ptico, de rea A0 y durante el tiempo de
integracin, tI, es de:

Figura 2. 41 Modelo radiomtrico del


pixel

Dpto. Electrnica, Automtica e Informtica Industrial

63

Carlos Platero

Apuntes de Visin Artificial

d Lr S aparente d r
nlente Lr AS

A0
At I
R12

(2. 7)

donde Lr es la radiacin refleja en la direccin del sensor y A es el coeficiente


de transmisin atmosfrica. El nmero de fotones que alcanza el sensor ser:
nsensor Lr AS

A0
A OtI
R12

(2. 8)

O es la transmitancia del sistema ptico. El nmero de fotones incidentes en un


pxel, es una relacin de reas que depende del factor de relleno:
n pixel nsen sor

Apixel
Asen sor

(2. 9)

usando la aproximacin de ngulo pequeo para rayos axiales:

As
Asen sor

R12
R22

(2. 10)

e introduciendo los conceptos de magnificacin ptica, M, y la relacin del


modelo de lente delgada:
1
1
1

R1 R2 f

(2. 11)

el nmero de fotones que recibe el pxel ser:

n pixel Lr

A0 Apixel
f

1 M

A OtI
(2. 12)

asumiendo una abertura circular e introduciendo el concepto de F - nmero,


quedar:

n pixel

Lr Apixel

4 F 2 1 M 2

A OtI
(2. 13)

Todas las variables son funcin de la longitud de onda y de la adquisicin de la


imagen. El nmero de foto-electrones generados en un detector de estado slido es:

64

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

n pe Rr n pixel d
1

Lr Apixel

n pe Rr

F 2M 2

A O t I d

(2. 14)

siendo Rr() la sensibilidad del pxel ante esta longitud de onda. Como se
observa, la conversin de la radiacin a seal elctrica es slo funcin de la luminancia.
No discrimina el color. Para adquirir el color se necesitar que la integracin se extienda
slo en una franja del espectro determinada. Se suele emplear la teora del triestmulo,
separando la radiacin en tres zonas espectrales, las correspondientes al modelo RGB.
Por otro lado, la conversin de fotones a carga elctrica no es un proceso determinista
sino probabilstico, debido al carcter cuntico del fenmeno fotoelctrico.
Una vez obtenida la cuantificacin de la radiacin incidente hay que transmitirla.
Esta operacin depende de la arquitectura de la cmara y de la tecnologa a emplear.
Bsicamente se hace a travs de los vecinos de forma secuencial, de modo similar a
cmo se comporta un registro de
V1
Puerta
desplazamiento. El mecanismo se basa en
V2
aplicar unas seales de reloj sobre los
Pixel
Pixel
electrodos de cada pxel. Al aplicar un
potencial positivo en el vecino de un pxel,
T1
cuyo pozo de electrones libres es
Carga
proporcional a luz recibida, estos se
T2
desplazarn a la ubicacin del vecino,
transfirindose la carga y produciendo un
T3
registro de desplazamiento analgico. Este
T4
tipo de transferencia se conoce como
CCD. En la figura se observa un CCD con
dos seales de desfase, V1 y V2, que son
utilizadas para transferir cargas desde los
fotosensores al registro de lectura Figura 2. 42. Transferencia de cargas CCD
mediante el efecto CCD.
2.4.4 Arquitectura de las cmaras
Segn la disposicin de los pxeles, las imgenes pueden ser:

Unidimensionales (cmaras lineales, asociadas a un vector de sensores)

Bidimensionales (cmaras matriciales, asociadas a una matriz de


sensores).

2.4.4.1 Cmaras lineales


Si bien es posible encontrar cmaras matriciales de hasta
5120 x 5120, stas exigen anchos de bandas muy elevados. Por
ejemplo, si se desea 25 cuadros por segundo, el volumen de

Dpto. Electrnica, Automtica e Informtica Industrial

65

Carlos Platero

Apuntes de Visin Artificial

informacin es de 640 Mpixel/s, hacindose prohibitivo para la mayora de las


aplicaciones industriales. Con el fin de evitar este exceso de informacin y si se desea
alta resolucin, la solucin hay que encontrarla en las cmaras lineales.
La tecnologa de cmaras lineales hace mucho tiempo que fue desarrollada para
aplicaciones de inspeccin de materiales fabricados en continuo, como papel, tela,
planchas metlicas, etc. Sin embargo, en la actualidad se est imponiendo en muchos
otros procesos productivos que requieren de alta resolucin y /
o alta velocidad a un precio competitivo.
Las cmaras lineales utilizan sensores lineales que
acostumbran a tener desde los 512 hasta 8192 elementos
(pxeles), obteniendo grandes valores de SNR.
El hecho de construir una imagen de alta calidad a
partir de lneas individuales requiere un alto grado de
precisin. La alineacin y los sincronismos del sistema son crticos si se quiere obtener
una imagen correcta del objeto a analizar.
Constructivamente las cmaras lineales
carecen de distancia interpixel, i.e. no existen
zonas no sensibles. Ello es debido a que el
registro de desplazamiento se encuentra a uno de
los lados de los fotosensores, y aunque ste
tambin es sensible a la luz, se cubre con una
capa protectora. Pudindose en este caso doblar
la resolucin de la cmara lineal.

detectores

Registro de desplazamiento

a)
Registro de desplazamiento

detectores

Registro de desplazamiento

2.4.4.1.1

Cmaras lineales TDI

b)

En cualquier cmara convencional, el


Figura 2. 43. a) un nico registro de
mximo tiempo de exposicin est limitado a la desplazamiento b) doble registro
velocidad de la escena. Como consecuencia de
la adquisicin lnea a lnea, el tiempo de integracin es pequeo y se necesita mucha
ms iluminacin que en una cmara matricial ya que la matricial funciona con tiempo
de integracin mayores. Por tanto, aplicaciones de alta velocidad en las escenas y baja
iluminacin no pueden ser adquiridas por las cmaras lineales.
La tecnologa TDI (Time Delay Integration) utiliza el movimiento sincronizado
para capturar mltiples tomas de la misma lnea y sumarlas, obteniendo una lnea con
sensibilidad amplificada. TDI es el nombre dado al mtodo de combinar muchas lneas
individuales a la vez, con el fin de incrementar la sensibilidad de la cmara. La ventaja
de este mtodo reside en la mejora de la relacin seal - ruido.
Las cmaras ms modernas incorporan hasta 96 lneas de sensores, de forma que
pueden alcanzar hasta 96 veces ms sensibilidad que una cmara lineal convencional.

66

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

El dispositivo se presenta fsicamente como un array de sensores en disposicin


bidimensional, con un aspecto idntico al de cualquier cmara matricial. El matiz que lo
hace diferente es la forma de capturar la imagen y la electrnica que lleva integrada para
que esto se pueda realizar. Mientras que en una cmara matricial se hace un muestreo de
la informacin del array completo, en las
cmaras TDI slo se aprovecha una nica
Direccin del objeto
lnea.
Para entender el modo de operar de
una cmara TDI, se sigue la figura 2.44. En
el tiempo T1, la imagen se sita en el primer
detector y se crea una carga. Llegado el
tiempo T2, la imagen se ha desplazado al
segundo detector. Simultneamente, el reloj
del pxel ha movido la carga del primero al
segundo detector. En este punto, se crea una
imagen formada por la carga anterior
aadindose la nueva creada en el segundo
detector y as sucesivamente. La carga
(seal) se incrementa linealmente con el
nmero de lneas, tambin lo hace el ruido
pero no proporcionalmente sino con la raz
cuadrada del nmero de lneas TDI, NTDI. El
resultado es una mejora de la relacin seal
ruido en NTDI .

T2

T1

T3

T4

Cmara TDI
Elementos TDI

Movimientos de la banda

Lneas de inspeccin

Con las cmaras TDI, por tanto, se


Figura 2. 44 Efecto TDI
puede alcanzar ms velocidad con baja
iluminacin. Sin embargo, hay que tener en cuenta que este tipo de cmaras deben estar
perfectamente sincronizadas con la direccin del movimiento de la aplicacin y que la
velocidad de la aplicacin debe ser bastante constante.
Entre sus aplicaciones, a parte de las industriales, se encuentran las capturas de
imgenes procedentes de los satlites. Las imgenes de satlites se caracterizan por
tener una gran variabilidad de iluminacin, de ser adquiridas a velocidad constante y de
requerir alta resolucin. Por tanto, las cmaras TDI son ideales para estas tareas.
2.4.5 Cmaras matriciales
Una cmara matricial produce una imagen de un rea,
normalmente con una relacin de aspecto de 4 a 3. Esta relacin
viene de los tiempos de las cmaras Vidicon y de los formatos de
cine y televisin. Actualmente existen muchas cmaras que ya no
mantienen esta relacin y que no siguen los formatos de la
televisin analgica.

Dpto. Electrnica, Automtica e Informtica Industrial

67

Carlos Platero

Apuntes de Visin Artificial

Los sensores de cmaras modernos son mayoritariamente de tipo CCD o


CMOS. Millones de pxeles se posicionan de forma muy precisa en una matriz y bien
los registros de desplazamiento transfieren las cargas de los pxeles (CCD) para formar
la seal de video o las cargas son
convertidas en potenciales y trasmitidas a
la salida de vdeo (CMOS).
Los tamaos de las cmaras
matriciales estn definidos en pulgadas. Figura 2. 45. Tamaos de los CCD
Los formatos ms comunes actualmente
son de 1/3", ", y 2/3".
2.4.5.1 Caractersticas de las cmaras matriciales
2.4.5.1.1

Factor de relleno

El factor de relleno es el porcentaje del rea de pxel que es sensible a la luz. El


caso ideal es 100%, i.e. cuando los pxeles activos ocupan el 100% del rea del sensor.
Sin embargo, circuitos como los registros de lectura y los circuitos anti-blooming
reducen este factor, en algunas ocasiones hasta en un 20%. El efecto de esta reduccin
se traduce en una menor sensibilidad y en problemas de muestreo. Para evitar estas
desventajas, muchos sensores con bajo factor de relleno (normalmente CCD con
transferencia interlnea) utilizan microlentes que cubren cada uno de los pxeles
incrementando la efectividad del factor de relleno.
2.4.5.1.2

Transferencia de las cmaras CCD

Uno de los mayores inconvenientes de una matriz de fotosensores es la


transmisin de las seales recogidas. Dependiendo de la tecnologa de la cmara,
existen diferentes estructuras para la adquisicin y transmisin de la informacin.
Cualquier cmara, en principio, requerira un rea fotosensora que fuese capaz de captar
toda una imagen enfocada sobre ella mediante un sistema ptico. Esta matriz de
elementos fotosensores es la encargada de recoger la informacin que presenta la escena
que se desee captar. Tras un cierto tiempo (denominado tiempo de integracin), la
informacin luminosa de la escena se encuentra recogida en esta matriz de elementos.
Para extraer esta informacin de los elementos se utiliza la tcnica de registro de
desplazamiento analgico. De esta forma, la carga generada en cada elemento sensor se
desplaza hasta la salida del dispositivo en su conjunto. Existen distintas configuraciones
posibles que darn lugar a diferentes posibilidades tanto en la extraccin como en la
transmisin de la informacin adquirida. Las transferencias ms empleadas son:
transferencia de cuadro, transferencia interlinea y transferencia de cuadro interlnea.
Transferencia de cuadro (Full Frame).- Son los CCD que tienen una
arquitectura ms simple. Emplean un registro paralelo simple para exposicin de los
fotones, integracin de la carga y transporte de la carga. Se utiliza un obturador
mecnico para controlar la exposicin. El rea total del CCD est disponible para recibir
los fotones durante el tiempo de exposicin. El factor de relleno de estos tipos de CCD
es del 100%.

68

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

Segn este tipo de estructura el chip de silicio se divide en dos reas. En la mitad
superior del dispositivo aparece la seccin donde va a incidir la luminosidad de la
imagen que se desea captar en un momento determinado, mientras que en la mitad
inferior, se encuentra el rea de almacenamiento de cargas y el registro de salida. Esta
mitad inferior, evidentemente estar recubierta por una placa opaca de forma que la luz
no pueda alcanzarla y as no
Registro de
contamine la informacin
Fotodiodos
Fotodiodos
desplazamiento vertical
recogida por el rea de la
zona superior.
Transferencia
interlnea - Los CCD que
incorporan esta tecnologa
son los ms comunes y
utilizan
registros
de
Registro serie de lectura
desplazamiento
que
se
encuentran entre las lneas de
Matriz de almacenamiento
los pxeles y se encargan de
almacenar y transferir los
datos de la imagen. La
principal ventaja de este tipo
Registro serie de lectura
de CCD es la alta velocidad
de obturacin, pero no son
tan sensibles y precisas como Figura 2. 46 a) Transferencia interlinea b) Transferencia interlinea
cuadro
otros tipos de tecnologas.
Tienen un bajo nivel de factor de relleno y un rango dinmico ms bajo.
Este tipo de transferencia consiste en un array de fotodiodos separados por
registros de transferencia vertical que son cubiertos por una capa opaca de metal.
Despus de la integracin, las cargas generadas por los fotodiodos son transferidas al
registro vertical CCD en un tiempo de 1s, minimizando los efectos de contaminacin
lumnica. La principal ventaja de esta transferencia es la rapidez, por lo que no hay
necesidad de utilizar obturadores. La desventaja es que este tipo de salida implica una
menor zona activa del sensor. El rea efectiva puede estar por debajo del 20%. Aunque
este factor puede ser ampliado mediante el uso de microlentes.
Transferencia de cuadro interlnea- Este tipo de estructuras incorpora
caractersticas tanto de la transferencia interlinea como de cuadro completo. La parte
superior de la estructura es exactamente igual a una interlineal. Las cargas se mueven
horizontalmente desde los elementos fotosensores hacia los registros de
desplazamientos verticales durante el periodo de borrado vertical. Una vez las cargas
estn en el registro de desplazamiento vertical, en lugar de ser ledas fila a fila a la
frecuencia de lnea, son enviadas a un array de almacenamiento. Este array de
almacenamiento est, al igual que el registro de desplazamiento vertical, cubierto por
una mscara de aluminio opaca a la luz. Es desde este array de almacenamiento donde
las cargas pasan fila a fila al registro de salida. La diferencia es que en esta zona de
almacenamiento los paquetes de informacin no corren ningn peligro de ser
contaminados por excesos de carga que hayan penetrado en el registro de
desplazamiento vertical, ya que en ste permanecen durante un perodo de tiempo muy

Dpto. Electrnica, Automtica e Informtica Industrial

69

Carlos Platero

Apuntes de Visin Artificial

pequeo. Adems, por tener el chip el registro de desplazamiento vertical separado de


los elementos fotosensores y cubierto por una mscara opaca a la luz, no ser necesario
el empleo de obturadores mecnicos, como ocurra en los sensores de cuadro entero.
Esta estructura ofrece las mejores prestaciones de los CCDs actuales. Sin
embargo, su estructura es compleja y requieren un rea total mayor al tener la zona de
almacenamiento separada. En concreto el rea activa es alrededor del 22% del total de
la zona sensora, lo cual ofrece una idea de la relacin entre la zona activa y la zona
sensora presentada en el proceso de captacin de imgenes.
2.4.5.1.3

Integracin de la seal de salida.

Las seales de vdeo fueron estandarizadas antes de que existiesen las cmaras
de estado slido. Los formatos de vdeo definen la frecuencia de la seal de video, el
nmero de lneas por cuadro y el nmero de cuadros por segundo. Muchas de las
cmaras de estado slido siguen estos
Impar
estndares, haciendo que la salida de la
Par
informacin sea de tipo entrelazado,
a
como son las mayoras de las seales de
} a+b
b
} b+c
televisin analgica. De esta forma, en
c
c+d
}
d
los CCD con estructura de transferencia
}
de campo, los mismos elementos
fotosensores son utilizados en los
campos pares e impares. En las
}
estructuras de transferencia interlinea y
de transferencia de cuadro, no es as,
sino que se utilizan pxeles separados
para cada campo, con el inherente Figura 2. 47 Entrelazado a) Campo b) Cuadro
aumento de resolucin vertical. Existen
dos posibles modos de lecturas de las cargas: Integracin de cuadro e integracin de
campo.

}}

}}

En el modo de integracin de cuadro cada elemento acumula cargas durante un


cuadro (dos campos) antes de transferirlas al registro de desplazamiento vertical y desde
l ser enviadas hacia la salida. Otra opcin posible consiste en combinar las cargas de
filas adyacentes del array de fotosensores. En este caso, los pxeles son ledos cada
campo, denominndose este modo integracin de campo. Como las seales adyacentes
se promedian, la resolucin vertical obtenida es menor que en el modo de Integracin de
Cuadro. Sin embargo, como la carga slo se integra durante un campo, se obtiene mayor
resolucin dinmica que con el modo de Integracin de Cuadro.
2.4.5.1.4

70

Cmaras progresivas

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

La mayor desventaja de las cmaras entrelazadas est en el desfase de los tiempos de


integracin, bien sea entre lneas o entre campos. Con el objeto de evitar parar el
movimiento de los objetos al visualizarlas (accin requerida con las cmaras
entrelazadas), aparecen las cmaras progresivas. stas escanean secuencialmente
lnea a lnea las imgenes. La primera ventaja de las cmaras progresivas es la de tomar
imgenes en un mismo instante, en contraste con los sistemas entrelazados que
adquieren la imagen en el distintos tiempo de integracin. As cualquier movimiento
vertical producido entre campos, provocar manchas en la imagen, mientras
movimientos horizontales originan cortes en las lneas verticales. An en el caso de
utilizar luces estroboscpicas para
fotodiodo CCD vertical

fotodiodo CCD vertical


V1 V2 V3 V4

Transferencia entrelazada

Figura 2. 48. Efecto del movimiento a)


carcter en movimiento horizontal b)
Discontinuidad de la imagen debido al
sistema entrelazado c) salida de una
cmara progresiva

V1 V2 V3 V4

Transferencia progresiva

Figura 2. 49. Diferencias constructivas entre


entrelazada y progresiva

congelar el movimiento, se tienen imgenes continuas slo en el campo que fue


activado el pulso de luz. Cuando hay movimiento, slo un campo puede ser usado para
el procesamiento de las imgenes, reduciendo en un 50% la resolucin. En la figura se
aprecia la discontinuidad de las cmaras entrelazadas y la mejora de las progresivas,
aumentando la resolucin vertical respecto a las entrelazadas.
La diferencia entre progresivas y entrelazadas est en su aspecto constructivo.
Obsrvese en la figura como las cmaras progresivas, de cuatro fases, difieren en su
diseo, permitiendo almacenar cargas en el mismo instante de tiempo.
2.4.5.1.5

CCD versus CMOS

Mientras que las cmaras CCD presentan una conversin de fotones a cargas
elctricas y stas son desplazadas segn los distintos tipos de transferencias analizados;
en las cmaras CMOS, cada pxel se transforman directamente de fotones a seal
elctrica y estos pulsos elctricos son los desplazados para ser transmitidos.
Las cmaras CCD tienen una mejor calidad de las imgenes y flexibilidad a
expensas de un mayor tamao. Sus aplicaciones son en fotografa digital, aplicaciones
industriales de altas prestaciones, aplicaciones cientficas y mdicas. Mientras las
cmaras CMOS tiene una integracin mayor, menor consumo y tamao ms reducido, a
expensas de una menor calidad de imagen y menor flexibilidad. Para grandes
volmenes con pocos requerimientos de calidad es la opcin tecnolgica. Sus

Dpto. Electrnica, Automtica e Informtica Industrial

71

Carlos Platero

Apuntes de Visin Artificial

aplicaciones principales son las cmaras de seguridad, webcam, cdigo de barras,


scanners, juguetes, telfonos mviles,....

Figura 2. 50 a) Tecnologa CCD b) Tecnologa CMOS

2.4.5.1.6

Cmaras en color

Aunque el proceso de adquisicin de las imgenes color resulta ser ms


complejo, este tipo de cmaras pueden proporcionar ms informacin que las cmaras
de slo luminancia. Hay dos tipos de arquitectura: 1CCD o
3CCD.
Las cmaras color de 1 CCD incorporan un sensor con un
filtro en forma de mosaico que incorpora los colores primarios
RGB. Esta mscara de color es conocido como filtro Bayer. De
hecho, el sensor slo integra la radiacin al que se le ha
superpuesto el filtro de color. La forma en que se disponen los
colores R, G y B es como se muestra en la figura. Como se
puede ver hay el doble de pxeles con filtro verde que con filtro
azul o rojo. Efecto ste necesario para hacer ms semejante la Figura 2. 51. 1CCD con
filtro de Bayer
percepcin del sensor a la visin humana que es ms sensible al
verde.
Debido al carcter del propio filtro es evidente que en los pxeles donde se sita
el filtro rojo, no tienen seal ni de verde ni de azul. Para subsanar la falta de estos
colores en estos pxeles, se construye una seal RGB a partir de los pxeles adyacentes
de cada color. Este clculo se realiza en el
interior de la cmara mediante un DSP
especfico, que permite realizar la operacin
en tiempo real y dependiendo de la cmara
permite obtener una seal analgica o digital
en RGB en cada caso.
Las cmaras de color 3CCD
incorporan un prisma y tres sensores. La luz
procedente del objeto pasa a travs de la Figura 2. 52 3CCD

72

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

ptica y se divide en tres direcciones al llegar al prisma. En cada una de los tres
extremos del prisma se encuentra un filtro de color (rojo, verde y azul) y un sensor que
captura la luz de cada color que viene del exterior. Internamente la cmara combina los
colores y genera una seal RGB similar a la que ve el ojo humano. La fidelidad de las
imgenes de las cmaras de 3CCD es muy superior a las de las cmaras de 1 CCD, pero
hay un par de inconvenientes inherentes al sistema. Por una parte, este tipo de cmaras
requieren ms luz debido a que el prisma hace que sea menor la cantidad de iluminacin
que incide sobre los sensores y por otra, se genera un efecto de aberracin cromtica
debida a la propia estructura del prisma. Este efecto puede ser subsanado colocando las
pticas diseadas especficamente para este tipo de cmaras.
2.4.6 Eleccin de una cmara
Muchos son los aspectos que puedan influir en la eleccin de una cmara u otra.
Sin embargo, algunas consideraciones deben de tenerse en cuenta para no arrepentirse
de la compra o para no gastarse ms dinero en el proyecto del que realmente hace falta.
Normalmente, la eleccin de la cmara va ntimamente unida a la de la ptica.
Las caractersticas tcnicas son las ms importantes y las que siempre se tendr
presente a la hora de adquirir una cmara. A continuacin se enumeran algunas de ellas.
2.4.6.1 Formato de Vdeo
Este tema ser tratado con mayor profundidad en el siguiente apartado. El
formato de la seal es importantsimo ya que tanto las cmaras como las digitalizadoras
y, a veces, los monitores deben ser del mismo formato. El formato cambia de un pas a
otro. En Europa se tiene el sistema PAL o CCIR que ser siempre al que se haga
referencia. En los pases francfonos se emplea el sistema SECAM y en el continente
Americano y en Japn el sistema NTSC. Otro tipo de cmaras que no sigue ninguno de
estos formatos son las llamadas cmaras digitales que envan la informacin al
ordenador en seales digitales codificadas segn el formato de cada fabricante, aunque
se est extendiendo los protocolos IEEE 1394, USB 2.0 o GigaEthernet. Si se adquiere
una cmara de este tipo hay que tener en cuenta las ventajes e inconvenientes de video
digital respecto al analgico (anchos de banda, mezcla de video procedente de varias
cmaras, ).
2.4.6.2 Resolucin
Una imagen en el sistema CCIR est formada por 576 filas y 768 columnas, sin
embargo, el tamao del rea sensora puede ser mayor o menor. Como norma, cuantos
ms pxeles disponga el sensor mayor ser la calidad de la imagen. Otro factor a tener
en cuenta en la resolucin, es el nmero de bits con que se digitaliza el pxel. Lo normal
en las cmaras digitales es emplear 8 bits, aunque existen cmaras de hasta 16 bits por
pxel.

Dpto. Electrnica, Automtica e Informtica Industrial

73

Carlos Platero

Apuntes de Visin Artificial

2.4.6.3 Tipo de Rosca


La rosca es la forma con la que la ptica se sujeta a la cmara. Las ms tpicas en
pticas de vdeo son la rosca C y la rosca CS, habiendo incluso adaptadores de uno a
otro. En cmaras fotogrficas se suele emplear la rosca de bayoneta. Existen otros tipos
de rosca como la rosca K, y otras que emplean algunos fabricantes particulares como la
rosca Watec. Normalmente las cmaras tienen rosca C, aadiendo normalmente una
arandela que convierte de C a CS. Se debe prestar especial atencin a este hecho, en
caso contrario no se podr acoplar la ptica a la cmara.
2.4.6.4 Seales adicionales
Todas las cmaras poseen un conector, normalmente tipo BNC si es analgica,
donde se consigue la seal de vdeo, adems del de alimentacin. Esto es lo mnimo
necesario que se puede ofertar. Sin embargo, algunas cmaras ofrecen adems las
seales de sincronismo generadas en la propia cmara, que pueden ser empleadas en la
sincronizacin de dispositivos de iluminacin externos. Tambin se suele incluir una
seal de entrada para sincronizar la cmara otras cmaras si se est haciendo visin
estreo. Si se emplean varias cmaras en el sistema de visin, se puede emplear un
generador de sincronismo externo; este generador har que el tiempo de integracin de
todas las cmaras se inicie y termine exactamente en el mismo instante de tiempo.
Todas estas seales se suelen agrupar en un conector denominado EXT. Otra seal que
suelen tener algunas cmaras es la del control del autoiris que se conecta a la ptica. De
esta manera, el iris se abrir o cerrar automticamente dependiendo de la cantidad de
luz recibida en el CCD.
2.4.6.5 Controles adicionales
El fabricante normalmente ofrece varios ajustes que pueden ser modificados a
voluntad. Algunos de ellos pueden ser imprescindibles para el mximo
aprovechamiento del sistema de visin, por lo que se deber prestar especial atencin a
s la cmara que se desea adquirir ofrece uno u otro ajuste. A continuacin se enumeran
algunos de estos controles:

74

Control de ganancia automtica (CAG): Hace las veces de un autoiris electrnico.


Si est activado, se aumentar o disminuir la sensibilidad del CCD en funcin de la
intensidad luminosa que se est recibiendo. Muchas aplicaciones debern tener
desactivado este control si no se quiere tener efectos impredecibles.
Tiempo de integracin: Como ya se explic anteriormente es el tiempo en que la luz
incide sobre el CCD. Equivaldra al tiempo de obturacin en trminos fotogrficos.
Es una caracterstica interesente en una cmara que se pueda modificar el tiempo de
integracin. Si se est iluminando la escena con luz fluorescente, como la red
elctrica funciona a 50 Hz, generar unas fluctuaciones en la luminosidad, de
carcter senoidal y tambin de 50 Hz. Si la cmara tiene un tiempo de integracin
pequeo, por ejemplo de 2ms, la imagen se oscurezca y aclare lentamente, pudiendo
afectar negativamente en el sistema de visin. Si se quiere eliminar este efecto se
deber cambiar el tiempo de integracin lo ms prximo a 20 ms.

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.4.6.6 Filtros de infrarrojos, IR


Los CCD tienen una buena respuesta por encima del espectro no visible, desde
los 700nm hasta los 850nm aproximadamente. Con esta sensibilidad espectral hara que
a luz ambiente la imagen apareciera muy saturada. Para evitarlo se suele intercalar antes
del CCD un filtro de corte de infrarrojos. Este filtro debe tenerse muy en cuenta si se va
a utilizar luz estructurada con longitudes de onda de infrarrojo (IR), en este caso se
deber abrir la cmara y eliminar este filtro. Algunas pticas tambin incluyen este filtro
y en la mayora de los casos no es posible su eliminacin.

2.5

Seal de vdeo

La informacin recogida en el sensor de imagen es convertida a una seal vdeo


analgica o digital segn un formato estndar o no. La transmisin de imgenes de
vdeo ha estado impuesta por la aplicacin principal para las que fueron concebidas las
cmaras, la televisin. La seal analgica de vdeo es una seal elctrica continua que
contiene toda la informacin de la imagen, as como informacin adicional o
sincronismos para que la imagen pueda volver a ser reconstruida mediante un monitor.
Los tiempos y la estructura de la seal fueron determinadas en los primeros das en que
la televisin vio la luz. Posteriormente, se han hecho modificaciones o aadidos a la
seal de vdeo para que se pudiera transmitir color, sonido estreo e informacin
adicional (teletexto), siendo estas nuevas seales compatibles con el formato original.
El primer estndar para transmisin de televisin en niveles de grises fue
conocido como RS-170 en Estados Unidos en 1941. Posteriormente, el formato NTSC,
compatible con RS170, se defini para la transmisin de seal de vdeo en color. Se usa
actualmente en 32 pases (USA, Canad, Japn, ...). En 1950, en Europa se estableci el
estndar CCIR para la transmisin de seales de televisin en blanco y negro y PAL
para el color. Las diferencias esenciales entre los sistemas monocromos RS-170 y
CCIR son el nmero de lneas en la imagen y la transmisin de frecuencias, lo cual les
hace incompatibles en un nivel bsico.
Formato
Fre. Cuadro (Hz)
Entrelazado
Fre. Campo (Hz)
N. lneas horizontales
N. lneas horizont. efectivas
Fre. Lnea (Hz)
Tiempo activo lnea
Pxeles por lnea
Relacin de aspecto
Tamao de imagen (pxeles)

RS-170
30
2:1
60
525
480
15.750
52,5 s
752
4:3
360.960

CCIR
25
2:1
50
625
576
15.625
52 s
744
4:3
428.544

En ambos modelos, el formato de vdeo usa el principio de entrelazado para


reducir la frecuencia requerida en la transmisin y corregir el efecto de parpadeo al
reconstruir la imagen. Este principio consiste en transmitir dos campos de lneas
alternas y transmitirlas secuencialmente. Un campo puede transmitirse en la mitad de

Dpto. Electrnica, Automtica e Informtica Industrial

75

Carlos Platero

Apuntes de Visin Artificial

tiempo que cuadro completo, dando la impresin de continuidad, a pesar del hecho que
slo la mitad de la informacin est siendo actualizada en cada ciclo.
Aunque los sistemas no entrelazados son comunes para los monitores de
ordenadores, el entrelazar campo par e impar es una caracterstica comn a todos los
sistemas de televisin. El campo par contiene todas las lneas pares, comenzando con
media lnea y terminando con una completa. El campo impar contiene las lneas impares
comenzando con una lnea completa y terminando con la mitad de una lnea. Los dos
campos puestos juntos constituyen un cuadro completo.
La frecuencia de cuadro y de campo son las constantes fundamentales en los dos
estndares de vdeo. Como se puede ver en la tabla, el formato RS-170 tiene una
frecuencia de cuadro ms alta, pero las frecuencias de lneas de los dos estndares son
aproximadamente las mismas. En ambos casos, el nmero final de lneas efectivas se ve
reducido por el tiempo de borrado de campo, el cual se usa en los monitores de TV para
que el pincel electrnico vuelva al principio. Adems, en el borrado de campo se envan
seales para sincronizar los osciladores de barrido vertical y horizontal, as como
informacin adicional (teletexto).
Un esquema completo de la
seal de TV de un cuadro completo
puede ser estudiado en la figura. En
ella se incluyen las seales de
sincronismos
empleadas
para
especificar el comienzo de un
campo (sincronismo vertical o
Vsync) y el comienzo de una lnea
(sincronismo horizontal o Hsync).
Si las seales de sincronismo estn
combinadas con la seal de vdeo, Figura 2. 53. Sincronismo vertical
la resultante es denominada seal
de vdeo compuesto (composite video). Una seal que contenga Vsync y Hsync se
denomina seal de sincronismo compuesto (composite sync). En CCIR habr 625
pulsos de sincronismo horizontal por cuadro y 50 pulsos de sincronismo vertical por
segundo.
En la figura se muestra un
diagrama de la seal de una nica
lnea con el sincronismo horizontal y
los niveles de voltaje. El flanco de
bajada del pulso de sincronismo es el
comienzo de una nueva lnea del
campo y el nivel de borrado (blanking
level) indica con cero voltios lo que Figura 2. 54 Sincronismo de lnea
sera negro en la imagen. El mximo
nivel de blanco es equivalente a 0,7 voltios, mientras que el nivel de sincronismo est
fijado a -0,3 V.

76

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

Ningn estndar especifica la cantidad de pxeles en horizontal que debe tener


un CCD, ya que los formatos nacieron para cmaras de tubo de vaco, en los que la
seal analgica se formaba de manera continua. Sin embargo, los CCD hacen un
muestreo de manera discreta. Cada fabricante de cmara ha elegido el nmero de
pxeles que quiere incluir, aunque muchos de ellos han adoptado un estndar para
RS170 de 752 pxeles. La resolucin vertical del sensor suele ser de 484 lneas, aunque
slo 480 son activas.
2.5.1 Vdeo analgico no estndar
Las seales de video no estndares, pueden ser una combinacin de: frecuencias
no estndar, resolucin no estndar o barrido progresivo. Las seales de video que no se
ajustan a uno de los estndares descritos anteriormente no pueden ser interpretadas por
un frame grabber convencional con circuitos de codificacin para estndares. Las
cmaras que tienen este tipo de seal son las cmaras de alta velocidad o alta resolucin
o las cmaras que se activan mediante trigger o captura asncrona.
2.5.2 Seal de vdeo digital
Las cmaras digitales utilizan la misma tecnologa que las analgicas, sin
embargo, el convertidor analgico-digital est dentro de la cmara y digitaliza el video
directamente y proporciona una seal de salida digital que puede ser de distintos tipos.
El hecho de que la seal se digitalice en la propia cmara hace que la calidad de la seal
sea mejor, pero tiene el inconveniente de que los cables entre la cmara y el frame
grabber no pueden ser muy largos. La salida digital paralela permite conectar la cmara
con un frame grabber mediante un cable multi hilos. Esta salida normalmente tiene el
formato RS-422 o LVDS (EIA-644). No obstante, se est imponiendo la conexin de
vdeo digital serie USB 2.0, FireWire o IEEE 1394 y GigaEthernet. A continuacin se
presentan los sistemas ms habituales para la conexin directa entre las cmaras
digitales y el ordenador.
2.5.2.1 USB (Universal Serial Bus)
USB es un sistema maestro (controladora USB) - esclavo (perifrico) para las
comunicaciones punto a punto, diseado para reemplazar de manera universal los
diversos protocolos de E/S tanto en serie como en paralelo. El dispositivo esclavo slo
puede comunicarse con el maestro (normalmente un ordenador) pero no con otros
esclavos.
Con USB 2.0 (2000) hay un aumento de velocidad hasta 480 Mbps (casi 40
veces la velocidad de USB 1.1) con una diferencia de coste casi mnimo. Bsicamente,
USB 2.0 incluye todo lo que ofrece USB 1.1 y aade el modo de alta velocidad. USB
2.0 tambin usa el mismo tipo de cables y conectores para conectar los dispositivos de
alta velocidad. La alta velocidad del USB le permite competir con la IEEE-1394a
(Firewire) de 400 Megabits/ seg., si bien la IEEE-1394b sigue siendo ms rpida, con
3,2 Gigabits/ seg.

Dpto. Electrnica, Automtica e Informtica Industrial

77

Carlos Platero

Apuntes de Visin Artificial

Con respecto a la distancia, USB fue diseada como una extensin del bus del
ordenador personal, con la idea de que los perifricos estuviesen prximos, de forma
que cada cable no midiese ms de 5 metros. Otras interfaces, entre las que se incluyen la
RS-232, la RS-485, la IEEE-1394b, y Ethernet permiten el uso de cables de longitud
mayor. Si bien, la longitud de un vnculo USB se puede aumentar hasta los 30 metros
usando cables que unan 5 hubs y un dispositivo.
2.5.2.2 IEEE-1394 (Firewire)
La tecnologa FireWire (llamada as por su alta velocidad) la desarroll Apple
en 1986 y surgi de la necesidad de tener una conexin entre vdeocmaras digitales y
los ordenadores personales, de bajo coste y orientada al consumidor. Es uno de los
estndares de perifricos ms rpidos desarrollados hasta el momento y resulta
adecuado para el uso de perifricos multimedia.
En 1995, IEEE la adopt como estndar bajo el nombre de IEEE 1394. Desde
entonces se han desarrollado nuevas versiones que han aadido nuevas posibilidades y
caractersticas. Sony es una de las compaas que ha adoptado este estndar
desarrollando su propia versin conocida como i.Link que se puede encontrar en
muchos de sus ordenadores y videocmaras digitales.
2.5.2.3 Ethernet
Ethernet fue desarrollado a principios de los 70 y estandarizndose en los 80
bajo la tutela del comit IEEE 802. Fue diseado como un sistema de broadcast, de tal
manera que todos los elementos conectados a la red pudieran enviar mensajes cuando
quisieran y a quin quisieran, siendo recibidos los mensajes por todos los equipos de la
red, pero atendindolos slo el destinatario.
De la palabra Ethernet, Ether hace alusin al hecho de que el sistema no est
restringido por el medio fsico que utiliza para establecer la comunicacin, ya sea cables
de cobre, de fibra ptica o por ondas de radio. Existen varias versiones de Ethernet que
se diferencian en el tipo de cable empleado y ha habido una evolucin en las
velocidades:
1. Fast Ethernet: tambin conocida como 100Base-T o IEEE 802.3u, emplea el
mecanismo CSMA/CD como Ethernet pero tiene una tasa de transferencia mayor, de
100Mbps.
2. Ethernet Gigabit: es compatible tanto con Ethernet como Fast Ethernet, pero
su tasa de transferencia es mayor, 1000Mbps.
2.5.2.4 Comparacin de los distintos sistemas
En general, la IEEE-1394 puede ser ms rpida y flexible que USB, pero su
ejecucin/aplicacin es ms cara. Con USB, una nica tarjeta controla las
comunicaciones con varios dispositivos. El ordenador se encarga de las tareas ms
complejas, de forma que los dispositivos pueden ser relativamente simples y baratos.
78

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

Por su parte, los dispositivos IEEE-1394 pueden comunicarse directamente entre


ellos y una sola comunicacin puede dirigirse a mltiples receptores. Esta caracterstica
tiene como resultado una interfaz ms flexible, pero los dispositivos son ms complejos
y caros. La IEEE-1394 es ms adecuada para aplicaciones que requieran
comunicaciones extremadamente rpidas o para la emisin hacia mltiples receptores.
Mientras que la USB es idnea para perifricos comunes como teclados, impresoras,
escneres, as como aplicaciones de velocidad baja a moderada y sensibles al coste.
Ethernet presenta como ventajas la posibilidad de usar cables muy largos, la
capacidad de multidifusin, y la optimizacin de protocolos de Internet sobre Ethernet.
Si bien, al igual que ocurra con la IEEE-1394, el hardware que se necesita para
Ethernet es ms complejo y caro que el hardware perifrico habitual de la USB, por lo
que le resta versatilidad.

2.6

Tarjetas digitalizadoras

El nombre tarjeta digitalizadora no es correcto del todo, ya que sta incluye


operaciones de procesamiento e incluso permiten recibir seal de vdeo digital. Sin
embargo, este trmino es ampliamente aceptado por razones histricas, pues al principio
estas tarjetas no hacan ms que digitalizar la imagen y era el computador el encargado
de procesarlas. Estas tarjetas se podran clasificar en tres tipos: a) Digitializadoras de
bajo coste, b) Digitalizadoras con caractersticas multicanal y c) Digitalizadoras con
capacidad de procesamiento.
Una tarjeta digitalizadora o frame grabber tiene como propsito principal
muestrear, en tiempo real, la salida estndar de una cmara de vdeo, pasando la
informacin al computador. La informacin es almacenada temporalmente y una vez
all la informacin es procesada siguiendo las directrices de un programa. Dependiendo
de la aplicacin, la tarjeta puede ser programada para capturar y almacenar cuadros
individuales, recoger una cierta secuencia de cuadros o quizs leer de manera continua
la imagen de vdeo y realizar una tarea determinada en tiempo real. Algunas tarjetas
tienen caractersticas avanzadas como puede ser captura sncrona de las imgenes.

Dpto. Electrnica, Automtica e Informtica Industrial

79

Carlos Platero

Apuntes de Visin Artificial

Las digitalizadoras con capacidades para el procesamiento en tiempo real


derivan sus prestaciones de los procesadores digitales de seal (DSP). stos pueden
realizar procesamientos bsicos sobre la seal de una manera encadenada y en tiempo
real.
2.6.1 Funcionamiento de la adquisicin de la seal de vdeo analgico
El funcionamiento en la adquisicin de vdeo analgico se hace, primeramente,
una adaptacin de impedancias de la seal de vdeo entrante y es separada por un lado
para obtener las seales de sincronismo y por otro el contenido de informacin de la
imagen. Seguidamente, se acondiciona el nivel de continua a un nivel estndar (DC
restoration), ya que la seal enviada por cada cmara puede variar ligeramente y este
proceso ajusta el nivel de negro a una tensin constante. Posteriormente, se hace pasar
la seal por un filtro paso bajo que elimina las altas frecuencias parsitas (low pass
filter) y se corrigen las variaciones que se hayan producido en el nivel de continua y la
ganancia (Offset and Gain). El fabricante normalmente ofrece la posibilidad de
modificar los parmetros de estos circuitos mediante el programa que se ejecuta en el
computador, de esta manera se puede conseguir una seal de mayor calidad. Debido a la
alta frecuencia de la seal de vdeo, es muy importante que las impedancias de cable
coaxial que se utilice y las de la cmara y entrada del digitalizador estn adaptadas. En
caso contrario, se traducir en una degradacin de la seal de vdeo.
2.6.1.1 Sincronizacin.
Ya que las seales de sincronismo vienen junto a la de vdeo, tal y como se ha
explicado, stas deben separarse de la informacin de la imagen. La precisin de las
seales de sincronismo es fundamental para la fidelidad de las imgenes capturadas por
el digitalizador. El primer paso es separar la informacin de vdeo de los impulsos de
sincronismo usando un circuito separador de sincronismo (sync stripper). La resultante
se denomina sincronismo compuesto, ya que contiene tantos los impulsos verticales
como los horizontales. Despus es
introducida como seal de mando a
un bucle de control en cadena
cerrada que en su salida tiene un
oscilador generador de sincronismo
(Hsync
Generator),
que
es
controlado mediante una seal de
error producida por un circuito
comparador de fase (PLL Circuit),
que detecta las diferencias entre la
seal de sincronismo que se est
generando y la que debera ser. La
seal
obtenida
es
la
que
sincronizar en el convertidor
analgico digital que es el
encargado de pasar al formato Figura 2. 55. Diagrama de bloques de una digitalizadora
digital la informacin de las
imagenes.

80

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

El circuito generador de sincronismo horizontal fluctuar por algn tiempo hasta


que el circuito PLL alcance un estado estable. Imprecisiones en la deteccin de la fase
producir el efecto denominado temblor de lneas o line jitter, que causa
desplazamientos horizontales de hasta 3 pxeles. En una tarjeta digitalizadora de
calidad, el temblor de lneas ser normalmente menor de 0.1 pxeles.
Para solucionar este problema, algunas cmaras permiten ser sincronizadas por
un oscilador exterior. En este caso el digitalizador ser el que genere las seales de
sincronismo vertical y horizontal o bien el sincronismo compuesto, haciendo que la
digitalizacin sea en el momento preciso y corrigiendo totalmente este problema. Se
tiene que tener especial cuidado cuando la longitud del cable sea elevada, ya que la
seal de sincronismo puede ser retrasada por la inductancia y capacidad del cable,
haciendo que la imagen aparezca desplazada.
Tambin ha de tenerse especial cuidado con el efecto de calentamiento de los
circuitos electrnicos de la cmara y la digitalizadora, ya que tambin pueden producir
variaciones en el comportamiento de estos y afectar directamente en la calidad de la
imagen. Es un buen hbito esperar una o dos hora con el equipo encendido hasta que la
cmara se estabilice trmicamente.
La digitalizacin se produce en el rango de vdeo de 0 a 0.7 voltios. El periodo
de muestreo para seales de televisin vara entre los 20 y los 30 MHz. Las tarjetas de
propsito general emplean 8 bits que es equivale a un byte de informacin por pxel.

2.7

El modelo proyectivo de la formacin de imgenes

El proceso de adquisicin de una imagen por el sistema de Visin Artificial se


modela en dos pasos: la formacin de la imagen en el elemento sensor CCD a travs de
los elementos pticos y la digitalizacin de la seal proveniente de la cmara. Cada uno
de estos procesos se puede describir de distintas formas, ms o menos complejas.
El modelo pin-hole es el ms simple para representar la formacin de la imagen.
Est basado en la proyeccin de perspectivas y reduce el sistema ptico a un punto
llamado centro ptico, C. Cada punto del espacio eucldeo se proyecta por un nico rayo
luminoso que pasa por el centro ptico, situado a una distancia f (distancia focal), hasta
el plano de la imagen. El eje ptico es la lnea perpendicular al plano de la imagen que
pasa por el centro ptico. En este modelo se carece de proceso de enfoque.
Con este modelo y con una secuencia de imgenes adquiridas consecutivamente
en el tiempo se trata de obtener la percepcin visual de los objetos proyectados en el
plano sensor. Para diferenciar las imgenes unas de otras se indexarn los parmetros.
As la proyeccin de un punto en el espacio Mwi(xwi , ywi , zwi), teniendo el eje de
coordenadas sobre el punto focal de la posicin indexada i, se transforma en un punto
sobre el plano sensor, establecindose la relacin no lineal de:

Dpto. Electrnica, Automtica e Informtica Industrial

81

Carlos Platero

Apuntes de Visin Artificial

xi
x
wi
fi
z wi

yi
y
wi
fi
z wi

(2. 15)

Figura 2. 56. Modelo pin-hole de la cmara

siendo xi e yi las coordenadas del punto proyectado. El signo menos refleja el


carcter invertido del modelo. Obsrvese que estas proporciones estn referenciadas en
magnitudes de longitud, generalmente expresado en milmetros. Sin embargo, los
algoritmos de extraccin de las coordenadas del punto proyectado sern dados en
pxeles. Habr que proponer la conveniente conversin.
Para la transformacin se requiere conocer el centro del plano sensor Ci (cxi, cyi);
estos valores sern dados en pxeles desde el origen de coordenadas de la imagen
digitalizada, es decir, la esquina superior izquierda. Tambin es necesario conocer la
distancia interpixel de la cmara tanto en filas como en columnas (dx, dy). Hay que
destacar que Ci es uno de los parmetros intrnsecos de la cmara, pues el
desplazamiento del zoom o el enfoque de las pticas har variar este parmetro de una
imagen a otra. En cambio, las distancias interpixel se mantendrn al ser un parmetro de
fabricacin. No obstante, la diferencia entre el nmero de columnas sensoras de la
cmara y la frecuencia de muestreo de la lnea modificar el valor interpixel de dY.
Adems habr de considerar el efecto de prdida de sincronismo en la lectura de la
lnea, el llamado efecto temblor de lnea que suele evaluarse por el factor de
incertidumbre, ky. Por tanto, se redefine dy como:

d'y d y

nsy
n py k x

(2. 16)

donde nsy es el nmero de elementos sensores columna que hay en una cmara y
npy es el nmero de pxeles de la imagen digitalizada.
Del planteamiento presentado se deduce que la relacin existente entre el punto
proyectado sobre la cmara y su valor en pxeles sobre la imagen digitalizada resulta
ser:

82

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

xi p xi c xi d x
yi Pyi c yi d y

(2. 17)

teniendo pxi e pyi que son las coordenadas en pxeles de la imagen sobre el punto
proyectado en la cmara Esta disposicin de los signos har eliminar el anteriormente
mencionado efecto inversor del modelo pin-hole. Insertando las expresiones de la ec.
2.17 en la ec. 2.15 y presentndolo en coordenadas homogneas y en notacin matricial
se tendr:

fi

p xi d x

p yi 0
1
0

0
fi

d y
0

c xi wi
z wi

c yi wi
z wi

1 1

(2. 18)

En 2.18 est implcito el carcter ortogonal de los ejes de proyeccin. En el caso


de que no fuese as, el mapa de pxeles podra generalizarse a:

fi

p xi d x

p yi 0
1
0

fi

fi

d y

d y
0

c xi x wi
z wi

c yi wi
z wi

1 1

(2. 19)

donde es un escalar que mide el desplazamiento rotacional entre los dos ejes
principales; si es cero es que stos son perpendiculares.

2.8

Calibracin geomtrica de las cmaras

La calibracin de las cmaras se puede dar en un doble sentido: a) geomtrica y


b) radiomtrica. La primera relaciona las transformaciones proyectivas desde la escena
exterior 3D de la cmara con el plano sensor y la segunda con los aspectos de radiacin
en cada uno de los pxeles. El segundo
aspecto fue tratado, someramente, en el
apartado 2.4.3. Aqu se trata de determinar
cual es el conjunto de transformaciones
proyectivas que relaciona la escena con el
plano sensor. Su utilidad resulta
fundamental en tareas de percepcin y de
navegacin visual. En todas estas
aplicaciones, se trata de analizar las
imgenes
para
obtener
medidas
geomtricas del mundo exterior. Para
Figura 2. 57. Correspondencia entre los puntos 3D
del espacio con los pxeles proyectivos
Dpto. Electrnica, Automtica e Informtica Industrial

83

Carlos Platero

Apuntes de Visin Artificial

realizar estos algoritmos se exige de la calibracin geomtrica de las cmaras.


En funcin de lo comentado en el apartado anterior, existen dos tipos de
parmetros en las transformaciones proyectivas: a) parmetros intrnsecos y b)
parmetros extrnsecos. Los primeros son aquellos inherentes a la cmara y son: la
distancia focal, el centro ptico y el modelo de deformacin de la lente; mientras que los
parmetros extrnsecos son los que definen la posicin y orientacin de la cmara
respecto a un sistema de referencias 3D: vector de traslacin y matriz de rotacin.
2.8.1 Procedimiento general de calibracin
Aunque existen distintos mtodos para la calibracin de una cmara, el
procedimiento bsico es el mismo en todos ellos:
1. Determinar con precisin un conjunto de puntos 3D del mundo exterior.
2. Fijar sus correspondencias con las proyecciones de estos puntos 3D sobre
la imagen proyectada 2D.
3. Obtener mediante tcnicas de optimizacin la mejor solucin de la
determinacin de los parmetros intrnsecos y extrnsecos.
Los dos primeros tems requieren conocer una serie de puntos 3D y sus
correspondientes proyecciones en la imagen; son los que se denominan puntos de
calibracin. Dependiendo del algoritmo de calibracin, los puntos pueden ser coplanares
o no. Pero sea como fuere el tipo de
plantilla de calibracin, se sugiere un
patrn de cuadros blancos y negros, a
modo de tablero de ajedrez, tal que
facilite el proceso de extraccin de las
esquinas con precisin subpixel y sea
fcil de corresponder los puntos
exteriores 3D con sus proyecciones
2D. Realizado los
pasos
de
correspondencia se pasar a determinar
los
parmetros
intrnsecos
y
extrnsecos mediante tcnicas de
optimizacin.

Figura 2. 58. Parmetros extrnsecos

84

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

2.9

Captulo 2: Formacin de las imgenes

Formatos grficos.

Las imgenes digitales se pueden almacenar en distintos soportes fsicos tales


como: discos duros, CDs, DVDs o memoria flash. Para este objetivo se han inventado
cientos de formatos con la funcin principal de comprimir la enorme cantidad de
informacin que contiene una imagen digital. Una primera clasificacin podra ser:
formatos grficos vectoriales y formatos grficos en mapa de bits. Este ltimo puede
dividirse adems en formatos con prdida o no de la informacin.
2.9.1 Formatos grficos vectoriales
Se almacenan las coordenadas de las figuras geomtricas simples como
segmentos, tringulos, rectngulos, circunferencias, etc., as como las rdenes
necesarias para rellenar con los colores adecuados. Para dibujos simples el fichero
resultante ocupar poco tamao comparando con lo que ocupara si estuviera en formato
de mapa de bits. Tal es el caso de ficheros generados por programas de generacin de
imgenes 3D como AutoCAD, libreras de computacin grfica como VTK o
programas de dibujos en general.
2.9.2 Formatos grficos en mapa de bits
Este formato es el ms intuitivo, ya que lo nico que hace es almacenar
secuencialmente los pxeles que componen la imagen en un fichero. El orden de
almacenamiento se puede entender considerando la imagen como una gran matriz de
pxeles. As partiendo de la esquina superior izquierda, avanzando por las columnas de
izquierda a derecha y por filas de arriba abajo.
Si el fichero se almacena as tal cual, se dice que est en formato crudo (*.raw),
ser necesario para su lectura saber cuantas filas y columnas tiene la imagen. El
inconveniente del formato en crudo es la gran cantidad de espacio que se necesita. La
mayora de los formatos actuales llevan consigo una reduccin sustancial del volumen
informativo. La compresin de las imgenes se hace siguiendo algunas de estas tres
estrategias:
1. Compresin en la codificacin: en vez de emplear un nmero fijo de bits
para cada nivel de gris o color, se emplea un cdigo ms corto a los
niveles ms probables y ms largo a los menos probables.
2. Compresin en la representacin: La similitud de intensidad en los
vecinos hace emplear las rachas, las cuales indican el nmero de vecinos
que se repiten. Se almacenan en vez de los valores de intensidad, el
nmero de vecinos con la misma intensidad.
3. Compresin por redundancia visual: Las imgenes vistas por el ojo
humano no es capaz de percibir el contraste de tonos muy prximos entre
s, por dicha razn en vez de almacenar los mapas de bits se aplican
transformaciones matemticas sobre la imagen, con el objetos de guardan

Dpto. Electrnica, Automtica e Informtica Industrial

85

Carlos Platero

Apuntes de Visin Artificial

los principales coeficientes de la conversin. Evidentemente, la imagen


resultante es de peor calidad que la entrante. Hay perdidas de detalle. El
ejemplo ms caracterstico es el algoritmo de compresin JPEG basadas
en las transformadas discretas del coseno. Tambin son ejemplos de
compresin basada en redundancia visual los estndares de vdeo MPEG
y MPEG2.

2.10 Cuestiones

86

1.

Diferencias entre la Visin Artificial y la Computacin Grfica sobre


la iluminacin.

2.

Factores que influyen en la formacin de una imagen digital.

3.

Calidad de una imagen.

4.

Tcnicas de iluminacin.

5.

Discrepancias entre el modelo de lente delgada y el modelo pin-hole.

6.

Consecuencias de variar el diafragma.

7.

Tipos de aberraciones y distorsiones pticas.

8.

Diferencias entre cmaras lineales y cmaras TDI

9.

Modelado geomtrico y radiomtrico de una cmara.

10.

Cmaras CCD versus cmaras CMOS.

11.

Ventajas e inconvenientes de las distintas arquitecturas de


transferencia: cuadro, interlnea, cuadro-interlnea.

12.

Cmaras entrelazadas y cmaras progresivas.

13.

Clasificacin de las seales de vdeo.

14.

Partes de una digitalizadora de vdeo de bajo costo.

15.

Tipos de archivos de imgenes.

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

2.11 Problemas
Ejercicio 1
Una fuente luminosa puntual de 100 mW/sr se sita
en un escenario de 10m x 20m, en X e Y respectivamente,
tal cual se observa en la figura. Sabiendo que irradia por
igual en todas las direcciones. Calcular la iluminacin
mxima y mnima sobre el suelo.
La iluminacin mxima sobre el suelo se encontrar debajo del foco:
Emax

I
d min

100
mW / m2
9

La mnima se encontrar a la distancia ms alejada entre el escenario y el foco:


2
dmax
152 62 16.43m

El ngulo entre el foco y el extremo del escenario es de 79.4. La iluminacin


total ser:

EH ,min 0.068mW / m2

EV ,min 0.364mW / m2

Emin 0.37mW / m2

Ejercicio 2
Una luminaria se sita en el centro de
un escenario de 5m x 2m y a una altura de
3m. La intensidad luminosa es entregada por
el fabricante segn el diagrama polar
adjuntado. Calcular la iluminacin en los
puntos a), b) y c).
En el punto A, la intensidad es de 150 mW/sr
y el ngulo entre la normal de la superficie y el foco
es nula:

I cos 3
16.6mW / m 2
2
h
E H tg 0mW / m 2

E Ha
EVa

E a 16.6mW / m 2

Dpto. Electrnica, Automtica e Informtica Industrial

87

Carlos Platero

Apuntes de Visin Artificial

En el punto B, la intensidad es de 130 mW/sr y el ngulo entre la normal de la


superficie y el foco es de 26.57:
I cos 3
10.3mW / m 2
2
h
E H tg 5.2mW / m 2

E Hb
EVb

Eb 11.5mW / m 2

En el punto C, la intensidad es de 140 mW/sr y el ngulo entre la normal de la


superficie y el foco es de 18.43:
I cos3
13.3mW / m 2
h2
EVc E H tg 4.4mW / m 2
EHc

Ec 14mW / m 2

Ejercicio 3
Se tiene una cmara de vdeo a
calibrar. La ptica tiene una distancia
focal de 3mm y el tamao del pxel es de
5.6 m x 5.6 m. El nmero efectivo de
pxeles son 357(H) x 293(V). Cual es la
distancia mnima que podr ponerse una
rejilla de calibracin respecto de la
cmara, si sta se constituye por cuadros
blancos y negros de 27mm de lado y
segn se observa en la figura, hay 7x9
cuadrados?.
En la mnima distancia deber de entrar la rejilla completa. Se parte de la
hiptesis que los nueve cuadros deben de entrar en las 357 columnas, por tanto:
Z f

Y
9 27 103
3 103
0.364m
y
357 5.6 106

Habr que observar que en las filas entrar los siete cuadrados:
Z f

X
7 27 103
3 103
0.345m
x
293 5.6 106

Por tanto, se verifica que cuando la distancia es de 0.364 m entra por completo la
rejilla.

88

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 2: Formacin de las imgenes

Ejercicio 4
Se emplea una cmara con una lente
de 3mm y un sensor CMOS que tiene un
pixel cuadrado de 5.6m x 5.6m. El nmero
efectivo de pxeles es 357 (H) x 293 (V). Se
ha colocado una plantilla de calibracin a 500
mm respecto al eje de referencia en la
cmara. Sabiendo que los lados del
cuadrado son de 27mm y que las
coordenadas XYZ del punto indicado en la
rejilla son (50,50,500). Determinar en qu
pxeles de la cmara se proyectan las cuatro
esquinas
del
cuadrado
seleccionado.
Considrese que no hay distorsin en la lente, el eje axial de la lente pasa por
el centro del elemento sensor y que los ejes de proyeccin son ortonormales.
El modelo pin-hole de la cmara quedar definido por:
fi
dx
pxi

p yi 0
1
0

0
fi

d y
0

xwi

xwi

cxi

zwi
zwi
0
146.5

535.71

y
ywi

c yi
0
535.71 178.5 wi
zwi
zwi

0
1
1
1
1

El primer punto quedar proyectado en el pxel (200,232) y los otros tres en


(229,232),(200,261) y (229,261).
Ejercicio 5
La imagen area fue adquirida a una altura de 2500 m
con una cmara con distancia focal de 125 mm. Sabiendo
que la distancia entre las dos marcas es de 30m, determinar
las coordenadas en pxeles de la segunda marca (la de la
derecha), si la marca de la izquierda est en el pxel
(250,500). Datos: Pxel cuadrado de 10 m.
El factor de magnificacin es: M

f 0.125
,

Z 2500

luego la

proyeccin de las dos marcas sobre el elemento sensor es: y M Y 0.0015 m , lo que da
una separacin en columnas de 150 pxeles. La coordenada del pixel de la derecha es
(250,650).

Dpto. Electrnica, Automtica e Informtica Industrial

89

Carlos Platero

Apuntes de Visin Artificial

Derecho de Autor 2016 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".

La Licencia de documentacin libre GNU (GNU Free Documentation License)


es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

90

Dpto. Electrnica, Automtica e Informtica Industrial

Procesamiento
imgenes

digital

de

Una vez preparada la escena para ser capturada por las cmaras de Visin
Artificial, se deber de tratar el aspecto tanto de la cuantificacin como de la
codificacin que sufre la seal de vdeo al ser introducida en el computador. Depositada
la informacin, como una matriz o conjunto de matrices de valores discretos se
proceder, tal cual se vio en las etapas de visin del captulo 1, a un procesado de la
imagen. Esta etapa, de bajo nivel, trata de obtener una nueva imagen que o bien mejore
su calidad o bien destaque algn atributo primario de los objetos capturados. En el
aspecto de la calidad tratar de corregir las posibles faltas de iluminacin, la eliminacin
del ruido o de aumentar el contraste en la imagen. Mientras en el realce, su objetivo es
destacar los bordes de los objetos, regularizar sus colores, acentuar sus texturas, etc.
Las tcnicas de procesamiento de las imgenes pueden ser clasificadas en dos
grandes ramas: a) las procedentes del procesamiento de seales y b) aquellas que son
de carcter heurstico y que nacieron para mejorar algn aspecto primario de la imagen.
En este captulo se abordar el proceso de muestreo y cuantificacin de la
imagen y luego se examinarn algunas tcnicas de procesado de imgenes procedentes
del procesamiento de seales.

Dpto. Electrnica, Automtica e Informtica Industrial

91

Carlos Platero

Apuntes de Visin Artificial

3.1 Muestreo y cuantificacin


Las imgenes digitales son obtenidas por el proceso de muestreo y
cuantificacin de las seales de vdeo adquirida a travs de sensores especializados
(bien de cmaras u otro tipo de adquisicin). El muestreo consiste en la tarea de
discretizacin del escenario en el plano sensor. La imagen es convertida en una matriz
discreta de MxN pxeles. El muestreo est relacionado con la resolucin espacial de la
imagen.

256x256

128x128

64x64

32x32

Figura 3. 1 Resoluciones distintas tomadas sobre un mismo escenario

Para determinar la resolucin requerida, hay que determinar dos factores: 1)


cul es la caracterstica ms pequea a observar y 2) cul va a ser el campo de visin
deseado a adquirir. Por tanto, habr que determinar el factor de magnificacin y el
nmero de pxeles que debe de tener la cmara. Como regla general, se puede emplear
que la caracterstica ms pequea sea representada por, al menos, un cuadrado de 2x2
pxeles.
Por otro lado, el campo de visin suele venir
dado por la capacidad del sistema de iluminacin.
ste pretender, por lo general, conseguir una
intensidad luminosa uniforme en toda la superficie
a inspeccionar por la cmara. Por tanto, se plantea
el problema en los siguientes trminos: defecto ms
pequeo a visualizar y el campo de visin a
capturar por la cmara.

92

Campo de visin
Superficie iluminada
cuasi uniforme

Focos luminoso

Figura 3. 2 Escenario de captura de


la escena

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

Ejemplo 3.1
Para la inspeccin de la pasta de papel se
ha conseguido, segn un modelo de simulacin,
una iluminacin uniforme a contraluz de 200 mm
x 275 mm (en una relacin prxima a los ) y el
defecto ms pequeo a detectar tiene un rea de
1 mm2. Con el objeto de reducir las aberraciones
pticas, se ha cerrado el diafragma con un
elevado nmero F. Con ello y tras el anlisis
radiomtrico se ha demostrado que si se emplea
una cmara WATEC 902 con una lente de 16
mm, la pasta de papel debe de estar alrededor de
los 700 mm en vertical. Determinar si es correcta la eleccin realizada.
Segn el fabricante de la cmara, sta tiene
para el estndar CCIR 582 filas por 752 columnas y
el tamao del pxel es 8.3m por 8.6m. Tomando
como propsito un entorno de 3x3 pxeles para el
defecto de 1mm2, el factor de magnificacin
ponderado ser:

M2

9 8.3 10 6 8.6 10 6
10 6

M 0.0253

La superficie a inspeccionar ser:

582 8.3 10 3
752 8.6 10 3
190.6mm Y
255.2mm
M
M

La cmara deber estar situada a:


Z

f
632mm
M

En el caso de necesitar una resolucin elevada se puede optar por dos


soluciones: 1. Si es posible parar la escena, puede resultar ser ms ventajoso utilizar
varias cmaras de baja resolucin en lugar de una de alta resolucin, pues se consigue
disminuir anchos de banda puntuales y resulta ser una solucin ms econmica. 2) Si la
escena no se puede detener y el nmero de detectores a utilizar es elevado, bien porque
la arquitectura de iluminacin slo permite iluminar uniformemente una estrecha banda,
o bien porque se quiere cubrir el ancho de la banda del material a inspeccionar, las
cmaras lineales y TDI son las ms apropiadas. Estas cmaras tienen la ventaja de poner
decenas de miles de pxeles en lnea, analizando la superficie mediante bandas
consecutivas y con una resolucin muy alta. La adquisicin de una sola lnea permite un
ancho de banda razonable, aun con decenas de miles de detectores. Por otro lado, las
altas velocidades hacen que los tiempos de exposicin sean muy pequeos, obligando a
Dpto. Electrnica, Automtica e Informtica Industrial

93

Carlos Platero

Apuntes de Visin Artificial

aumentar la intensidad luminosa. Esta consecuencia puede ser relajada usando cmaras
TDI, siendo stas las ms utilizadas en inspeccin de superficies continuas en lnea.
Desde el punto de vista frecuencia, el teorema de Shanon afirma que la
frecuencia de muestreo debe ser al menos el doble que al ancho de banda de la seal a
muestrear. En una imagen capturada, sin cambios abruptos de intensidad, las
componentes de alta frecuencia de su transformada de Fourier tienden a ser nulas. Por el
contrario, si la imagen contiene muchos pequeos detalles y una gran cantidad de
bordes de los objetos
proyectados, el espectro de
alta frecuencia es de elevado
nivel. Considerando que la
imagen tiene un espectro de
ancho de banda limitado, W,
la frecuencia de muestreo
debe de ser al menos del
doble,
2W.
En
la
cuantificacin de la imagen,
la unidad de frecuencia
especial es un ciclo por pxel.
Por tanto, desde el punto de
vista del teorema, la mayor
frecuencia
espacial
representada es la de ciclo
por pxel. El armnico de
mayor frecuencia requiere de
dos pxeles; realizando una
transicin de blanco-negro.
Por esta razn, se deca
anteriormente que el detalle Figura 3. 3. Componentes de Fourier a) Armnico
fundamental, b) Componente de alta frecuencia
ms pequeo debera de tener
un entorno de 2x2. En la figura se ha representado el armnico fundamental junto con la
componente de mayor frecuencia, tanto en la frecuencia horizontal como en la vertical.
La segunda operacin es la cuantificacin de la seal. Consiste en representar el
valor de cada pxel con un conjunto finito de bits. Los niveles de cuantificacin suelen
ser potencias de 2 para facilitar su almacenamiento en el computador. El nmero de
niveles posibles define la resolucin radiomtrica. Cuando las imgenes solo tienen
informacin sobre la luminancia se habla de una imagen en niveles de grises. En este
caso, la cuantificacin del pxel es de tipo escalar. Si el escalar slo tiene dos valores, se
dice que la imagen es binaria. El valor del cero es negro y el uno es blanco.
En general, se suele emplear un byte de cuantificacin por pxel, consiguiendo
256 niveles de grises. El cero ser el color negro y el valor 255 corresponder con el
blanco. Entre el cero y el valor 255 estarn los diversos valores de grises. Para el caso
del color, la cuantificacin se vuelve vectorial; por cada pxel se representara una terna
de valores que haga reflejar la luminancia y crominancia en cada pxel. La terna
depender del sistema de representacin del color: RGB, L*a*b, HSI,... Comnmente,
se emplear el sistema RGB con 1 byte por cada color, de forma que se obtendr 16
94

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

millones de colores. Las aplicaciones industriales suelen emplear una resolucin


radiomtrica de 256 niveles de grises o de 16 millones de colores. Evidentemente, si la
aplicacin exige ms resolucin, el volumen de informacin se incrementa
exponencialmente.

Figura 3. 4 Niveles de cuantificacin

3.2 Distancias entre pxeles


Antes de entrar en el procesado, se definen ciertas relaciones que se establecen
entre los pxeles de una imagen y que sern aplicadas en las tcnicas de procesamiento
de las imgenes. En primer lugar, se mencionarn los diferentes conceptos de distancias,
para una vez establecidas pasar a las relaciones de vecindad.
3.2.1 Relaciones de distancias
La distancia ms usual entre dos pxeles es la distancia geomtrica o distancia
eucldea. La distancia eucldea entre el pxel p de coordenadas (x,y) y el pxel q de
posicin (s,t) ser:

De p, q

x s 2 y t 2

Dpto. Electrnica, Automtica e Informtica Industrial

(3. 1)

95

Carlos Platero

Apuntes de Visin Artificial

El problema de esta mtrica est en el tiempo de clculo que requiere. Por dicha
razn tambin se suele emplearse, en imgenes digitales, la distancia rectangular o
Manhattan, definida como:

Dm p, q x s y t

(3. 2)

Y la distancia de Tchebychev, tomada como:

Dt p, q max x s , y t

(3. 3)

Para realizar una comparativa entre estas tres distancias, vanse en la figura
adjunta el lugar geomtrico de estas distancias en el entorno de vecindad de un pxel
centrado en la cuadrcula:

Figura 3. 5. a)Eucldea b)Rectangular c)Tchebychev

3.2.2 Relaciones de conectividad


Mediante el concepto de conectividad se quiere expresar que dos pxeles
adyacentes del elemento sensor puedan pertenecer al mismo objeto proyectado. Se
define el conjunto de los 4-vecinos de un pxel dado p, definido como N4(p), como el
conjunto de vecinos de p formado por los pxeles de norte-sur-este-oeste a p. Desde un
punto de vista ms formal sern aquellos pxeles que respecto de p tengan una distancia
rectangular igual a la unidad, Dm(p,q) = 1. La vecindad a 8, denotado por N8(p), est
formado por el conjunto de pxeles que estn a una distancia de Tchebychev igual a la
unidad, Dt(p,q) = 1.

96

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

3.3 Procesamiento lineal de las imgenes


La Teora de Seales y Sistemas da un marco de trabajo para el procesamiento
digital de las imgenes. Con este objetivo, se proceder a extender los conocimientos
dados sobre seales unidimensionales y sistemas discretos monovariables, estudiados en
anteriores asignaturas, a las imgenes digitales. Las imgenes digitales son consideradas
como seales discretas multi-dimensionales, las cuales son procesadas por sistemas
discretos o filtros.
Segn la Teora de la Seal, una seal discreta
unidimensional que es procesada por un filtro discreto
lineal (Linear Time Invariant, LTI), la secuencia de
salida es explicada por el proceso de convolucin
discreta entre la entrada y la secuencia de ponderacin
del filtro:

yk g k * xk xk * g k
yk

(3. 4)

k n

xn xk n g n
n

(3. 5)

Se denomina secuencia de ponderacin a la que se obtiene en la salida del


sistema cuando se aplica a la entrada una secuencia tipo impulso.

g k ..., g 2 , g 1 , g 0 , g1 , g 2 ,...

(3. 6)

Si el sistema es causal, gk es igual a cero para k < 0.


Ejemplo 3.2
Dada la ecuacin en diferencia:

yk

1
1
1
xk xk 1 xk 2
4
2
4

obtener la secuencia de ponderacin y determinar la salida ante una


entrada en escaln.
Para obtener la secuencia de ponderacin habr de aplicarle una entrada
impulsional, de forma que la entrada ser del tipo xk 1,0,0,0,... La evolucin de la
salida puede ser realizada a travs de una tabla, en las que se van obtenido los resultados
temporales al aplicar la ecuacin en diferencias:

Dpto. Electrnica, Automtica e Informtica Industrial

97

Carlos Platero

Apuntes de Visin Artificial

K
0
1
2

xk
1
0
0

xk-1
0
1
0

xk-2
0
0
1

yk
0.25
0. 5
0.25

Luego la secuencia de ponderacin del sistema LTI es:

g k 1

2 1

1
4

Para calcular la respuesta en escaln se aplicar el operador convolucin


discreta, donde la seal de entrada ser xk 1,1,1,1,..:
2

y 0 x k n g n 0.25
n 0
7

y1 x k n g n 0.25 0.5 0.75


n 0
7

y 2 x k n g n 0.25 0.5 0.25 1


n 0

...

Resolucin en MATLAB
g= [1;2;1]./4;
x=ones(10,1);
y=conv(x,g);
stem(y(1:10));

Cuando la secuencia de ponderacin de un filtro es finita se le denomina filtro de


tipo FIR (Finite Impulse Response). Si la secuencia de ponderacin tiene infinito
trminos, el filtro se denomina IIR (Infinite Impulse Response).
A veces cuando se pretende ponderar alguna caracterstica del entorno de
vecindad de los pxeles, la suma de los coeficientes de la mscara del filtro debe ser
unitaria, con el propsito de preservar el rango dinmico de la secuencia de entrada:

98

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

g
k 0

(3. 7)

n ser el grado del filtro.


Estos razonamientos se extienden a seales multi-dimensionales discretas,
aplicndose, por tanto, a las imgenes digitales. En este caso, la seal de entrada ser la
imagen discreta a procesar que es convoluciona con el filtro lineal discreto y la seal de
salida ser la imagen resultante. La expresin de la convolucin discretas 2D ser:
y k ,l

m n

k m ,l n

g m,n

(3. 8)

Normalmente, el filtro lineal discreto est constituido por una secuencia de


ponderacin finita FIR, del tipo 3x3 o de 5x5. A los coeficientes de estos filtros se les
llama mscaras de convolucin. El proceso de convolucin se presenta como una
combinacin lineal de los pxeles del entorno ponderados por los elementos de la
secuencia de ponderacin o mscara de convolucin, de forma parecida al caso
unidimensional. Por ejemplo, para el caso de un filtro de 3x3, el valor de pxel de salida
(k,j) ser:
y k ,l

m 1n 1

k m ,l n

g m,n x k ,l g 0,0 x k ,l 1 g 0,1 x k ,l 1 g 0, 1

x k 1,l g 1,0 x k 1,l 1 g 1,1 x k 1,l 1 g 1, 1


x k 1,l g1,0 x k 1,l 1 g1,1 x k 1,l 1 g1, 1

(3. 9)

Las grficas del filtro y la imagen en subndices y expresadas en forma matricial


correspondern a1:

g 1, 1

g 0, 1
g
1, 1

g 1, 0
g 0, 0
g1,0

g 1,1

g 0,1
g1,1

x k 1,l 1

x k ,l 1
x
k 1,l 1

x k 1,l
x k ,l
x k 1,l

x k 1,l 1

x k ,l 1
x k 1,l 1

La convolucin discreta 2D se presenta como una combinacin lineal, donde el


valor del pxel de salida (k,l) est definido por la multiplicacin de sus vecinos
ponderados por los coeficientes de las mscara de convolucin. El valor del pxel de
entrada del vecino a (k,l) es multiplicado por el opuesto de la mscara de convolucin.

Para facilitar la interpretacin los subndices han sido referenciados en el centro de la matriz.
No debera interpretarse los coeficientes gij, con ndices negativos, representativos de filtros no causales.
Son ndices de las coordenadas espaciales.

Dpto. Electrnica, Automtica e Informtica Industrial

99

Carlos Platero

Apuntes de Visin Artificial

Por ejemplo, el vecino (k+1,l+1) est ponderado por el coeficiente (-1,-1) de la


mscara.

Ejemplo 3.3
Determinar la imagen de salida cuando sta es procesada por un filtro
binomial de 3 x 3.

0
0 0
0 0
0

0
0 200 200 200 0 1 2 1

0 200 0 200 0 * 2 4 2 1 0

16
0 200 200 200 0 1 2 1
0
0 0

0
0
0 0

12.5 37.5

0
50

37.5 12.5

37.5 100 125 100


50

125 150 125

37.5
50

37.5 100 125 100 37.5


12.5 37.5 50 37.5 12.5
0

0
0

0
0
0

Resolucin en MATLAB
g= [1;2;1]./4;
mascara = conv2(g,g);
imagen = zeros(5,5);imagen(2:4,2:4)=200;imagen(3,3)=0;
imgSal = conv2(imagen,mascara)

100

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

Del ejemplo se observa que la aplicacin del operador convolucin sobre la


imagen produce una imagen resultado de mayor dimensin que la entrada. La
dimensin de la imagen salida ser la suma de filas de la imagen de entrada ms las filas
del filtro menos la unidad. Igualmente sucede con las columnas. Si KxL es el tamao de
la matriz de entrada y MxN la dimensin de la mscara, el tamao de la imagen salida es
(K+M-1)x(J+L-1). Este efecto se debe a cuando el operador convolucin pasa por los
bordes de la imagen. En los pxeles de los bordes cuando se pivota la mscara, los
vecinos del pxel que no existen, por defecto, son considerados nulos. En los algoritmos
que implementan esta operacin, el efecto de los bordes es tratado de tres maneras
distintas:
1. Se considera que los pxeles vecinos no existentes bien son cero, un valor
dado por el usuario o se toma un valor intermedio de los que existen. La
imagen de salida es (K+M-1)x(L+N-1).
2. Se hace la misma convolucin que en el apartado anterior pero
eliminando las filas y columnas exteriores. La imagen de salida es de
igual tamao que la de entrada, (KxL).
3.

La convolucin se hace slo en la parte central de la imagen de entrada.


Se hace una submatriz tal que al convolucionar todos los pxeles de sta,
hay un entorno definido para cada pxel. El tamao de la imagen de
salida es (K-M+1)x(L-N+1).

Ejemplo 3.4
Determinar el resultado de la convolucin discreta 2D para el filtro FIR
binomial {1,2,1} y su traspuesta.

1 1 2 1

1 2 1 * 2 2 4 2
1 1 2 1

Resolucin en MATLAB
g= [1;2;1]./4;
conv2(g,g)
Una ayuda a la comprensin del efecto de la convolucin es dado por el
operador correlacin discreta 2D. Esta transformacin se define como:
y k ,l

m n

k m ,l n

g m,n

(3. 10)

Ntese que para mscaras de convolucin con simetra par, la convolucin y la


correlacin son operaciones idnticas. En el caso de simetra impar, la convolucin y la
Dpto. Electrnica, Automtica e Informtica Industrial

101

Carlos Platero

Apuntes de Visin Artificial

correlacin son idnticas pero de signo contrario. La correlacin es aplicada cmo


operador de bsqueda de patrones en la imagen.
El operador correlacin es empleado en las tcnicas de Visin Artificial como
instrumento para la bsqueda de patrones en la imagen (Pattern Matching). Por
ejemplo, localizar fechas de caducidad, formas geomtricas de
objetos, etc. No obstante, la variabilidad de la iluminacin en la
escena requiere que la correlacin sea independiente del nivel de
gris y que dependa slo de la forma. Para solucionarlo se
emplean operadores de correlacin normalizada2. Los fabricantes
de tarjetas de procesamiento de imgenes implementan la
operacin correlacin en vez de la convolucin, ahorrando
tiempo computacional en el filtrado lineal. Esta consecuencia es
debido a que las mayoras de las mscaras de convolucin tienen Figura
3.
6.
simetra par. En caso de simetra impar, el resultado de la Aplicaciones
de
convolucin y de la correlacin son iguales pero de signo pattern matching
contrario.
No obstante, la interpretacin ms fructfera de la convolucin se da en la
respuesta en frecuencia de los filtros.

3.4 Respuesta en frecuencia y transformadas de Fourier


Para seales unidimensionales y considerando normalizado el periodo de
muestreo a 1 segundo, la respuesta en frecuencia de un filtro lineal discreto se define
como:
G

ge

j n

2
T

T 1s

(3. 11)

Ejemplo 3.6
Determinar la respuesta en frecuencia de un sistema discreto cuya
secuencia de ponderacin es {1/4, 1/2, 1/4}.
Al aplicar (3. 11) sobre la secuencia de ponderacin dada:
2

G g n e jn
0

102

1 1 j 1 j 2
e e
4 2
4

Vase la bibliografa especializada.

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

dando valores de 0 hasta la frecuencia de Nyquist, /T, se conseguir la


respuesta. Ntese que G() es una funcin continua. Con el propsito de representarla
en el diagrama de Bode se hace, por ejemplo, 64 intervalos entre 0 y ,
confeccionndose la tabla siguiente:

0
/64
2/64
...
63/64

G()
1
0.99-j0.049
0.99-j0.097
...
-0.0006-j0.00003

arg G

1
0.999
0.997
...
0.0006

0
-2.81
-5.62
...
-178

Resolucin en MATLAB
[G,W] = freqz ([1/4,1/2,1/4], 1,128);
plot(W,abs(G));
plot(W,angle(G).*(180/pi));

En este sentido, aunque la respuesta en frecuencia es continua y de variable


compleja, los algoritmos de clculo son discretos, por tanto, si la frecuencia va desde
cero hasta la frecuencia de muestreo y se hacen K particiones para este rango de
frecuencias, este operador podr redefinirse como:
N

Gk g n e

2 k
n
K

k 0,1,2,..., K 1

n 0

(3. 12)

Para secuencias con valores reales, recurdese el carcter simtrico de la


respuesta en frecuencia entre el rango de frecuencias entre 0 y la frecuencia de Nyquist
y de esta frecuencia a la de muestreo. La antitransformada quedar aproximada por la
algoritmia numrica:

1
gn
2

G e

j n

j
1 K 1
d Gk e
K k 0

2 k
n
K

n 0,1,2,..., N 1
(3. 13)

La forma de asociar la secuencia de ponderacin {gn} a la respuesta en


frecuencia Gk, puede ser extendida a cualquier secuencia que cumpla determinadas

Dpto. Electrnica, Automtica e Informtica Industrial

103

Carlos Platero

Apuntes de Visin Artificial

propiedades. As se construye lo que se denomina la transformada discreta de Fourier de


una secuencia, a sta se la conoce por las siglas DFT (Discrete Fourier Transform). De
este modo, dada una secuencia, {xn}, se define su transformada discreta de Fourier como
la funcin:
N

X k xn e

2 k
n
K

k 0,1,2,..., K 1

n 0

(3. 14)

sta es igualmente peridica, de ciclo 2, y en las condiciones antes indicadas es


un desarrollo de Fourier, lo que permite definir la transformada inversa:

xn

j
1 K 1
Xke

K k 0

2 k
n
K

n 0,1,2,..., N 1

(3. 15)

La transformada de Fourier de una secuencia es una funcin de variable


compleja, siendo usualmente representada grficamente por sus curvas de mdulo y de
argumento. Al igual que ya se vio en la Teora de Control, la utilidad ms importante
que se va a hacer de la transformacin de Fourier es la que se deriva de la relacin
existente entre las transformadas de Fourier de las secuencias de entrada y de salida de
un filtro lineal y la respuesta en frecuencia del filtro, de manera que:

Y G X

(3. 16)

Esta relacin permite tratar a los filtros discretos de una manera similar con lo
que se proceda con los continuos; dando un procedimiento para determinar la secuencia
de salida a partir de la respuesta en frecuencia (ver figura 3.7). Conocida la respuesta en
frecuencia del filtro y la transformada discreta de la secuencia de entrada, se
determinar la transformada de la secuencia de salida y posteriormente se aplicar la
transformada inversa, obteniendo la secuencia de la salida.

Figura 3. 7 Relacin fundamental de los sistemas discretos

Ejemplo 3.7

104

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

Dada la respuesta en frecuencia de un filtro discreto unidimensional de


orden 2 (ver ejemplo 3.6):
2

Gk

1 1 j K k 1 j K k
e
e
4 2
4

k 0,1,2,..., K 1

y siendo xk 1,1,0,0,0,... la excitacin al sistema, calcular la secuencia


de salida.
En primer lugar se proceder a calcular la DFT de la secuencia de entrada:
X k 1 e

2
k
K

k 0,1,2,..., K 1

Aplicando la relacin fundamental visto en la ec.(3. 16) se tendr que:


2
2
4
2
4
6
j
k 1

1 j k 1 j k 1 3 j k 3 j k 1 j k
Yk 1 e K e K e K e K e K e K
4
4
4

4 2
4 4

Por tanto, la secuencia de salida valdr:

yk 1 , 3 , 3 , 1
4 4 4 4

Resolucin en MATLAB
Xw = fft( [1;1], 64);
Gw = fft( [1;2;1]./4, 64);
Yw = Xw .* Gw;
yk = ifft( Yw )
0.25
0.75
0.75
0.25
0
...

3.4.1 Extensin a imgenes digitales


La respuesta en frecuencia de un filtro LTI 1D puede ser extendida a la
respuesta en frecuencia sobre la mscara de convolucin 2D. Dada una mscara de
convolucin, gn,m, su respuesta en frecuencia es:

Dpto. Electrnica, Automtica e Informtica Industrial

105

Carlos Platero

Apuntes de Visin Artificial

Gk ,l gm,n e

2 k
2 l
m j
n
K
L

k 0,1, 2,..., K 1 l 0,1, 2,..., L 1

(3. 17)

m0 n 0

Ejemplo 3.7
Determinar la respuesta frecuencia del filtro binomial 2D:

1 2 1

1
g m,n 2 4 2
16

1 2 1
Al aplicar la definicin sobre la mscara de convolucin dada:
Gk ,l

2 k
2 l
2
4
j
m j
m
j
l
j
l
1 2 2
K
L
L
L
g
e
e

2
e

m, n
16 0 0

2e
e

2
k
K

4
k
K

4e

2e

2
k
K

4
k
K

2
l
L

2
l
L

2e

2
k
K

4
k
K

4
l
L

4
l
L

Resolucin en MATLAB
V=fft2(conv2([1 2 1],[1 2 1]'),64,64);
surf(abs(V))
Respuesta en frecuencia de la mscara binomial

mdulo de la respuesta

20

15

10

0
80
60

80
60

40

40

20
l

20
0

El nivel de resolucin se vuelve tan enredoso que slo se puede realizar desde
los mtodos numricos. En la presentacin con Matlab obsrvese que se ha empleado
para K y L un valor en potencia de 2, como es el valor de 64. Los valores de K y L son

106

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

elegidos de esta manera para optimizar el tiempo de clculo de la transformada de


Fourier. En la representacin slo se ha presentado el mdulo. Al igual que en el caso
unidimensional, existe simetra tanto en la direccin k como en l debido a que la
secuencia toma valores reales.
Las imgenes discretas tambin poseen su transformada de Fourier. Cualquier
imagen digital puede ser representada por una serie de exponenciales discretas:
M

X k ,l xm,n e

2 m
k
K

2 n
l
L

k 0,1,2,..., K 1 l 0,1,2,..., L 1

m 0 n 0

(3. 18)

Dada la transformada de Fourier de la imagen tambin se puede recuperar sta a


travs de su antitransformada:

xm,n

j
1 K 1 L 1

X k ,l e

K L k 0 l 0

2 k
m
K

2 l
n
L

m 0,1,2,..., M 1 n 0,1,2,..., N 1
(3. 19)

La transformada de Fourier obtiene el espectro frecuencial de la imagen. A


medida que aumenta la frecuencia de las componentes del espectro, stas indican ms
transiciones de luminancia en menos pxeles de la imagen. Imagnese que slo se utilice
una nica componente del desarrollo de Fourier, por ejemplo, un armnico en la
frecuencia de la direccin k. Al realizar su antitransformada, mostrar los cambios
producidos por el armnico en la direccin k en un determinado conjunto de pxeles. Al
aumentar la frecuencia de esta componente, las transiciones de grises sern mayores en
el conjunto de pxeles seleccionados.

Dpto. Electrnica, Automtica e Informtica Industrial

107

Carlos Platero

Apuntes de Visin Artificial

Resolucin en MATLAB
V=zeros(64,64);V(1,1+2)=2000;V(1,64-2)=2000;
surf(V);title('Componente 2 en el eje k');
imshow(ifft2(V,64,64));
V=zeros(64,64);V(1,1+16)=2000;V(1,64-16)=2000;
surf(V);title('Componente 16 en el eje k');
imshow(ifft2(V,64,64));
Componente 2 en el eje k

2000
1800
1600
1400
1200
1000
800
600
400
200
0
70
60
70

50

60

40

50
30

40
30

20

20

10

10
0

Componente 16 en el eje k

2000

1500

1000

500

0
80
60

80
60

40

40

20

20
0

Las mayores transiciones se darn en las altas frecuencias definiendo la mxima


resolucin del sistema de formacin de las imgenes.
Resolucin en MATLAB
V=zeros(64,64);V(30:34,30:34)=20000;
surf(V);title('Componente de alta frecuencia');
imshow(ifft2(V,64,64))
Componente de alta frecuencia
4

x 10
2

1.5

0.5

0
80
60

80
60

40

40

20

20
0

108

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

La transformada de Fourier muestra que una imagen puede ser construida por la
combinacin de armnicos de frecuencias verticales y horizontales.
3.4.2 Aplicaciones
De la interpretacin de la transformada de Fourier de las imgenes se deducen
aplicaciones inmediatas. Una primera sera la eliminacin del ruido de la imagen. Es
conocido que el espectro del ruido, normalmente, est en la alta frecuencia, por tanto, si
se elimina estas componentes se habr cancelado el ruido. La desventaja de este
proceder es que tambin eliminar los detalles finos de la imagen.

Resolucin en MATLAB
imagen=imnoise(imread('cameraman.tif'));imshow(imagen);
V=fft2(double(imagen)); V(128-120:128+120,128-120:128+120)=0;
imshow(uint8(ifft2((V))))

Otra aplicacin sera realzar los bordes de la imagen. Los contorno son
transiciones en la luminancia de alta frecuencia, la eliminacin de las componentes de
baja frecuencia permitir destacar los bordes.

Dpto. Electrnica, Automtica e Informtica Industrial

109

Carlos Platero

Apuntes de Visin Artificial

Resolucin en MATLAB
imagen= imread('cameraman.tif');imshow(imagen);
V=fft2(double(imagen));
V(1:10,1:10)=0;V(256-9:256,1:10)=0;
V(256-9:256,1:10)=0;V(256-9:256,256-9:256)=0;
imshow(uint8(ifft2((V))))

Sin embargo, esta manera de procesar las imgenes no se emplea por el alto
coste computacional. Muchas de las tcnicas de procesamiento lineal usan la relacin
fundamental de los sistemas discretos. Se disea una mscara de convolucin cuya
respuesta en frecuencia corresponda a filtro paso bajo, paso banda o pasos altos,
eligiendo el espectro de la imagen de entrada que se pretende seleccionar. Debido a la
profundidad de estas tcnicas se abordarn en el prximo captulo.

3.5 Problemas
1. Cmo determinar el proceso de muestreo de una imagen?. Y el de
cuantificacin?.
2. El procesamiento lineal de las imgenes digitales.
3. Convolucin y correlacin 2D, conclusiones y aplicaciones.

0 1 0

1
4. Respuesta en frecuencia de la mscara de convolucin: 1 2 1
6

0 1 0
5. Relaciones entre el espectro de la imagen y el tipo de escena capturada.

110

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

Ejercicio 1
Dada la siguiente imagen, calcular para el pxel marcado el resultado de
la convolucin con las dos mscaras de Prewitt.

1
1

1 10 10 10

1 10 10 10
1 10 10 10

1 10 10 10

1 1 1

0 0 0
1 1 1

1 0 1

1 0 1
1 0 1

Ejercicio 2
Si se aplica la siguiente mscara de convolucin, gn 1 0 1 ,
como un vector fila a la imagen de la figura, Cul sera el resultados?Y si se
aplica como un vector columna?

La mscara corresponde al operador derivada respecto al eje Y. La imagen


resultado sera:
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
-255
-255
-255
-255
0
0
0

0
0
0
-255
-255
-255
-255
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
255
255
255
255
0
0
0

0
0
0
255
255
255
255
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

Correspondera con el operador derivada respecto al eje X:


0
0
0
0
0
0

0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0 -255 -255 -255 -255
0 -255 -255 -255 -255
0
0
0
0
0
0
0
0
0
0

Dpto. Electrnica, Automtica e Informtica Industrial

0
0
0
0
0
0

0
0
0
0
0
0

0
0
0
0
0
0

111

Carlos Platero

Apuntes de Visin Artificial

0
0
0
0

0
0
0
0

0 255 255 255 255 0


0 255 255 255 255 0
0
0
0
0
0 0
0
0
0
0
0 0

0
0
0
0

0
0
0
0

Ejercicio 3
Demostrar que el filtro FIR, cuya secuencia de ponderacin es
1
gn 1 0 2 0 1 , corresponde a un filtro paso banda.
4

Empleando la respuesta frecuencial del filtro:


G

1
1 2e j 2 e j 4
4

Se calcula el mdulo y el argumento para varias frecuencias. Por ejemplo a 0,


/2 y .

G 0 0 G 1 G 0
2

Se produce un incremento del mdulo hasta alcanzar la mitad de la frecuencia de


Nyquist y despus decrece, por tanto es un filtro paso banda.
200

Mdulo de la respuesta en frecuencia


1

150

0.9

0.8

100

0.7

50
0.6

0
0.5

-50

0.4

0.3

-100
0.2

-150
0.1

-200
0

0.5

1.5

2.5

3.5

0.5

1.5

2.5

3.5

Ejercicio 4
Las transformadas wavelets de Haar emplean las siguientes mscaras
de convolucin para implementar su nivel 1. Determinar sus respuestas
frecuencias y qu funcin realiza cada una.
H1

112

1
2

1 1

H2

1
2

1 1

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 3: Procesamiento de imgenes

Modulo de la respuesta en frecuencia de H1

Modulo de la respuesta en frecuencia de H2


1.5

|H ()|

|H ()|

1.5

0.5

0.5

0.5

1.5

2.5

3.5

0.5

[rad/s]

1.5

2.5

3.5

[rad/s]

Las mscaras corresponden con un filtro paso bajo y paso alto respectivamente.
Ejercicio 5
Para la imagen dada, I(x,y), obtener los coeficientes de su transformada
discreta de Fourier que no aparecen en F(I):
1

1
I
0

F (I )

1 1 1

1 1 1
0 0 0

0 0 0

0 0

0 0 0
0 0 0

0 0 0

La transformada discreta de Fourier de la imagen ser:

F k , l I x, y e
x

2 k
2 l
x
y
4
4

k 0,1, 2,3 l 0,1, 2,3

Luego:

F 0,0 8 F 0,1 0 F 1,0 4 j 4 F 2,0 0

F 3,0 4 j 4

Derecho de Autor 2016 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".

Dpto. Electrnica, Automtica e Informtica Industrial

113

Carlos Platero

Apuntes de Visin Artificial

La Licencia de documentacin libre GNU (GNU Free Documentation License)


es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

114

Dpto. Electrnica, Automtica e Informtica Industrial

Tcnicas de preprocesado

Las tcnicas de procesado pretenden mejorar o realzar las propiedades de las


imgenes para facilitar las siguientes operaciones de la Visin Artificial, tales como las
etapas de segmentacin, extraccin de las caractersticas y finalmente la interpretacin
automtica de las imgenes. Recuerde que el fin ltimo de la Visin Artificial es la
interpretacin automtica de la imagen o una mejora de la calidad de la imagen.
Las tcnicas de preprocesado se basan bien en tcnicas derivadas del
procesamiento lineal de seales, vistas en el captulo anterior, o bien en un conjunto de
procedimientos heursticos que han dado resultados satisfactorios. En este tema ser
objeto de estudio el segundo proceder. Las tcnicas heursticas son una combinacin de
procedimientos basados en el procesamiento lineal de seales y en otros tipos de
manipulaciones matemticas. Su estudio se iniciar con una primera clasificacin. Estos
algoritmos se pueden catalogar en funcin de las pretensiones de sus transformaciones
en alguna de las siguientes facetas:

Realce o aumento del contraste (enhancement).

Suavizado o eliminacin del ruido (denoising)

Deteccin de bordes (edge detection)

El desarrollo de estas tcnicas se realizar con la informacin de luminancia de


las imgenes, i.e. slo se analizarn imgenes en niveles de grises. Muchas de ellas

Dpto. Electrnica, Automtica e Informtica Industrial

115

Carlos Platero

Apuntes de Visin Artificial

pueden ser luego trasladadas a imgenes en color. Sin embargo, no se puede generalizar.
Las tcnicas de preprocesado sobre imgenes en color requieren un tratamiento
diferenciado.

4.1 Realce o manipulacin del contraste


Las tcnicas de realce pretenden aumentar el contraste de las imgenes. No en el
sentido estricto de aumentar la calidad radiomtrica, sino de mejorar algunas de sus
caractersticas visuales para las siguientes etapas del anlisis automtico de las
imgenes. Las causas de aplicar estos algoritmos se deben bien a una falta de
iluminacin uniforme en la escena o bien al deseo de aumentar el contraste entre los
objetos presentes en la imagen.
En el captulo de formacin de las imgenes se estudi las dificultades de la
implementacin del sistema de iluminacin. Normalmente, la escena capturada por el
sistema de visin se encuentra con unas fuentes de iluminacin no colimadas y variables
con el tiempo y con objetos que producen reflejos y sombras no deseadas. De otro lado,
las ganancias de las cmaras no son lineales. El doble de intensidad radiada en un pxel,
no se traduce en el doble de cuantificacin en el nivel de gris de ese pxel. Todas estas
imperfecciones deben ser corregidas tanto en la formacin de las imgenes como con el
uso de tcnicas preprocesado de realce. Ambas deben ser utilizadas.
Estas tcnicas de realce tambin se aplican cuando se pretende utilizar tcnicas
de segmentacin. El objetivo de este procesado es facilitar las tareas de la particin de la
imagen. Con este fin se aumenta el contraste entre los objetos de la imagen.
Muchas de las aplicaciones de realzado se fundamentan en operaciones punto a
punto, i.e. no tienen en cuenta el entorno de vecindad del pxel. Para su estudio se
requiere introducir los conceptos de histograma, brillo y contraste. Los fundamentos de
estas tcnicas estn en la adecuacin del rango dinmico de la imagen y en la
ecualizacin del histograma. Para acabar, tambin se explorarn algunos procedimientos
basados en el uso de filtros paso banda.
4.1.1 Histograma, brillo y contraste
El histograma es una funcin discreta que contabiliza el nmero de ocurrencias
de cada nivel de gris presente en una imagen. Se representa en un eje de coordenadas
donde en abscisa est el nivel de gris y en el de ordenadas la frecuencia de cada nivel de
gris en la imagen. Si al histograma se le divide por el nmero de pxeles de la imagen se
obtendr la funcin de probabilidad muestreal de cada nivel de gris en la imagen:
hi nmero de ocurrencia del nivel de gris i en la imagen
pi

116

hi
M N

(4. 1)

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

siendo M y N el nmero de filas y columnas de la imagen, h(i) es la funcin


histograma y p(i) su probabilidad muestreal. Un histograma no dice nada sobre la
disposicin espacial de las distintas intensidades. Dos imgenes diferentes pueden tener
igual histograma. Sin embargo, el histograma habla sobre el tipo de adquisicin que ha
sido realizado.
El histograma proporciona informacin estadstica de la imagen. Esta
informacin es bastante til para conocer cmo se ha producido el proceso de formacin
de la imagen. As, se define el brillo de la imagen como el valor medio de la imagen que
coincide con el valor medio del histograma:
Brillo

I 1
1 M N

f
x
,
y

i pi

M N x 1 y 1
i 0

(4. 2)

Donde f(x,y) retorna el nivel de gris del pxel situado en las coordenadas (x,y), I
es el nmero de grises que se ha empleado en el proceso de cuantificacin de la imagen.
Una imagen que presente un valor de brillo mayor que otra sobre la misma escena,
indica que el nivel de radiacin medio que ha llegado a la cmara es mayor en una
imagen que en la otra, bien porque se disminuy el nmero F de diafragma o debido a
que se vari el tiempo de integracin. Este efecto se observa en el histograma como un
desplazamiento neto hacia la derecha del eje de abscisa. A medida de que la imagen sea
ms clara, el histograma se mueve hacia valores ms altos de los niveles de grises. La
variacin del brillo se efecta con la operacin aritmtica de suma o resta a cada pxel
de una cantidad determinada.
Imagen de entrada

Imagen de entrada + 50

1000

1000

500

500

0
0

100

200

100

200

Figura 4. 1. Imagen con dos valores distintos de brillo a) 76 b) 126

La varianza del histograma suele ser asociada al contraste de la imagen:

Dpto. Electrnica, Automtica e Informtica Industrial

117

Carlos Platero

Apuntes de Visin Artificial

Contraste 2
1
M N

1
M N

f x, y

x 1 y 1

I 1

I 1

i 0

i 0

2
2
i hi i pi

(4. 3)

El contraste mide la dispersin de los niveles de grises en la imagen. Aunque se


puede encontrar otras definiciones matemticas del contraste, todas las propuestas
realizadas son ndices de la dispersin de los niveles de grises. En todo caso, una
imagen con poco contraste indica que hay poca variabilidad de los niveles de grises en
la imagen. Su efecto se muestra en un histograma muy concentrado, con un rango
dinmico pequeo. El rango dinmico es la variacin de niveles de grises en la imagen.
Otro estadstico interesante es la funcin energa:
I 1

Energa pi

i 0

(4. 4)

sta indica el grado de dispersin de grises en la imagen. Si hubiese un nico


nivel de gris la energa sera mxima y de valor uno. A medida de que aumente el
nmero de niveles de grises existentes en la imagen disminuir la energa. La funcin
inversa a la energa es la entropa:
I 1

Entropa p i log p i
i 0

i | p i 0

(4. 5)

A mayor entropa ms desorden en la imagen, i.e. ms niveles de grises


participan en la imagen con similares probabilidades. La entropa ser mxima cuando
todos los niveles de grises sean equiprobables.
Se dice que una imagen est saturada cuando su histograma presenta valores
muy altos en sus extremos del rango dinmico; el histograma tiene una forma en U.
Las imgenes con bajo contraste o saturada tienen prdidas de informacin en sus
adquisiciones. La solucin est en una nueva formacin de la escena con valores
diferentes de los parmetros de la captura. Las tcnicas de preprocesado digital no
aumentan el nivel de informacin, aunque adecan las imgenes para las siguientes
etapas de interpretacin de las mismas.
Para aumentar el contraste se emplean las funciones de transferencias del
histograma. stas son transformaciones matemticas que asocian a un nivel de gris de
entrada otro nivel en la salida:

i' T i

(4. 6)

T es la funcin matemtica de transformacin e i es el nuevo nivel de gris


asociado. La transformacin ms generalizada consiste en adecuar el rango dinmico de
la imagen de entrada a todo el conjunto de valores de la cuantificacin:

118

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

i a
iout 0
in min
I 1 0 amax amin

iout

I 1
iin amin
amax amin

(4. 7)

Siendo I el rango mximo de cuantificacin y amin y amax el rango dinmico de la


imagen de entrada.
Ejemplo 4.1
Adecuar el rango dinmico de una imagen de resonancia magntica,
cuyos valores varan entre el nivel de gris de 0 a 88. Ntese el carcter
saturado de la adquisicin.
iout

Histograma original

255
iin
88

Transformacin
250

1600

Histograma modificado
1600
1400
200

1400

1200
1200
1000
150

1000

800
800
600

100

600

400
400
50

200

200

50

100

150

200

250

50

100

150

200

250

100 200

Figura 4. 2 Imagen de resonancia magntica y con aumento del contraste a) 2=33 b) 2=96

Dpto. Electrnica, Automtica e Informtica Industrial

119

Carlos Platero

Apuntes de Visin Artificial

Resolucin Matlab
imagen=imread(mri.tif`);
imhist(imagen);
max(max(imagen))
imagen_sal=imadjust(imagen);
imhist(imagen_sal);
imshow([imagen,imagen_sal]);
std2(imagen),std2(imagen_sal)
Evidentemente, las transformaciones no necesariamente deben ser lineales. Por
ejemplo, las siguientes operaciones consiguen el negativo de la imagen de entrada y
variaciones diferentes del contraste:

T1 i I i T2 i

i2
I

T3 i I i T4 i i

(4. 8)

La ltima transformacin se la llama la correccin de gamma. Su propsito es


adecuar la luminancia a la sensibilidad de los monitores de vdeo de rayos catdicos, los
cuales presentan no linealidad entre la intensidad y el voltaje de excitacin de la
pantalla. Si 1 se ampliar los niveles de grises oscuros y con 1 se ampliar los
niveles de grises ms claros. Este tipo de transformacin se realiza con valores
normalizados de intensidad en el intervalo [0,1]. Por ejemplo, suponga que fuese 2 y
no estuviera el rango de intensidad normalizado, por ejemplo en el intervalo de [0 255].
Se observa que el rango de salida sera mayor a 256 niveles de grises.
No obstante, como se ha comentado, estas transformaciones no introducen
mayor informacin en las imgenes, pues estos resultados son slo expansiones de los
rangos dinmicos. En cambio, estas operaciones facilitan las siguientes etapas de
extraccin de informacin de mayor relevancia.
La implementacin de estas transformaciones se realiza a travs de una tabla que
se la denomina LUT (Look Up Table). Para aumentar la eficiencia de la conversin, en
la tabla se entra por el valor de nivel de gris de la imagen original y sta retorna el nivel
de gris de la imagen de salida. Comnmente a la LUT se la denomina paleta o mapa de
color.
4.1.2 Ecualizacin del histograma
En cualquier funcin de densidad probabilstica que es transformada a uniforme
se maximiza la explotacin de la informacin. Este fenmeno que rige a los procesos
continuos tambin se puede aplicar sobre la informacin discreta. La conversin de
cualquier forma de histograma a uno uniforme, si bien es cierto que no aumentar la
informacin, como ya se ha comentado anteriormente, si mejorar la imagen para las
siguientes etapas. Recuerde que el valor mximo de la entropa se dar cuando el
histograma sea uniforme.
120

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

El fundamento se basa en realizar una conversin en el histograma de forma que


la probabilidad de cualquier nivel de gris en la imagen sea idntica. Desde el punto de
vista del histograma, esta transformacin producir que el nmero de ocurrencias de un
nivel de gris sea el mismo valor para todos los niveles de grises,
M N
hi
, i 0,..., I 1 .
I
Para obtener esta tcnica de preprocesado se partir de la funcin de distribucin
de la imagen. sta se define, para variables aleatorias discretas, como el sumatorio de
las probabilidades desde el valor inicial de la variable hasta un valor prefijado. Por
tanto, el sumatorio de la funcin en todo el rango de la variable aleatoria independiente
es la unidad:
r

F r pi
i 0

I 1

F I 1 pi 1

(4. 9)

i 0

En este caso, la probabilidad de la variable aleatoria corresponder con la


probabilidad de que aparezca el nivel gris i en la imagen. La funcin de distribucin de
una imagen estar determinada por el histograma acumulado relativizado por el tamao
de la imagen.
Sea F(r) la funcin de distribucin de una imagen cualquiera. Un histograma
uniforme se caracterizar por tener:
r'

F r ' p(i) r 1
i 0

1
I

(4. 10)

Siendo F(r) la funcin de distribucin uniforme. La conversin del histograma


se establece igualando la funcin de distribucin de la imagen con la funcin de
distribucin deseada. Con esta relacin se establece la funcin de transferencia del
histograma, de r a r:
F r ' F r

r 1 1 F r
I

r F r I 1

(4. 11)

El carcter discreto de la variable supondr una aproximacin a una funcin de


densidad uniforme.

Dpto. Electrnica, Automtica e Informtica Industrial

121

Carlos Platero

Apuntes de Visin Artificial

Imagen de entrada

Imagen ecualizada

Histograma de entrada

Histograma ecualizado
1000

800
600

500

400
200
0

0
0

100

200

100

200

Figura 4. 3 Ejemplo de ecualizacin del histograma

Resolucin Matlabs
>>imagen=imread(tire.tif`);
>>imhist(imagen);
>>imagen_sal=histeq (imagen);
>>imhist(imagen_sal);

Ejemplo 4.2
Se tiene esta subimagen:
5
8
4
2
1
1
0
4
4
1

5
4
6
0
5
0
5
5
1
4

1
3
5
2
1
5
5
4
0
3

3
1
4
5
1
6
5
3
5
0

1
3
2
6
2
3
1
3
3
5

0
0
2
2
1
2
0
6
2
5

2
4
0
3
2
2
1
8
1
6

4
6
0
3
4
5
1
2
0
1

2
1
3
8
5
4
4
2
6
1

6
3
8
2
7
1
5
1
5
4

Calcular:

122

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

1. Histograma
2. Brillo, contraste, energa y entropa
3. Ecualizacin del histograma.
Nivel de gris

Ocurrencias

11

19

15

12

13

17

Probabilidad

0.11

0.19

0.15

0.12

0.13

0.17

0.08

0.01

0.04

Brillo = 3, contraste = 4, energa = 0.139, entropa = 2.94


Nivel de gris
de entrada

Nivel de gris
de salida

(-0.01)

(1.7)

(3)

(4.13)

(5.3)

(6.83)

(7.55)

(7.64)

(8)

12

67

78

78

11

19

15

12

13

17

13

13

13

Histograma
ecualizado

4.1.3

Realzado basado en el dominio frecuencial

Las componentes de alta frecuencia estn relacionadas con los bordes de los
objetos y con los pequeos detalles de la imagen. El aumento del contraste puede estar
basado en una combinacin lineal entre la imagen original y el resultado de un filtro
paso alto. La imagen salida ser:
Imagen Salida = A*(Imagen) - (Paso bajo de la Imagen)
= (A-1) *(Imagen) +(Imagen) -(Paso bajo de la Imagen)
= (A-1) *(Imagen) + (Paso alto de la Imagen)

A es un escalar; cuando A es la unidad se tendr el resultado del filtro paso alto.


Para A mayor a la unidad se estar realizando un nfasis sobre las componentes de alta
frecuencia y si A es menor a la unidad aparecer como el negativo de la imagen. A este
algoritmo se le denomina unsharp masking. Desde el punto de vista de la
implementacin se suele utilizar la imagen menos el resultado de sta con una mscara
laplaciana; en un entorno de 3x3 queda definido como:

Dpto. Electrnica, Automtica e Informtica Industrial

123

Carlos Platero

Apuntes de Visin Artificial

0 0 0 0 1 0

0 1 0 1 4 1
0 0 0 0 1 0

(4. 12)

Figura 4. 4 Filtrado de realzado unsharp

Resolucin Matlab
>>imagen=imread(cameraman.tif`);
>>H=fspecial(unsharp,0)
>>imagen_sal=imfilter (imagen, H);
>>imshow([imagen,imagen_sal]);

4.2 Tcnicas de suavizado


Las tcnica de suavizado de las imgenes intentan eliminar el nivel de ruido
presente en la imagen. En el proceso de formacin de la imagen se ha generado ruido
que se ha sumado a la seal. Este ruido se explica como una variable aleatoria que sigue
una funcin de densidad determinada. El origen del ruido es mltiple y existen tres tipos
bsicos: gaussiano, impulsional y multiplicativo.
El ruido ms comn se origina en el proceso de captacin al convertir los
fotones en carga elctrica, debido al carcter no determinista de esta transformacin.
Este tipo de ruido se explica mediante el modelo de funcin de densidad normal o
gaussiana. El segundo tipo de perturbacin se consigue como consecuencia de la
saturacin de la carga que recibe un pxel ya sea por exceso o por defecto. A este tipo de
ruido se le denomina de sal y pimienta. Este segundo tipo de comportamiento se
modela con una funcin de densidad de tipo impulsional. Por ltimo, hay ruido
generado por la falta de iluminacin uniforme sobre la escena capturada. Este error es
como si la imagen estuviera formada por la multiplicacin de dos imgenes, por un lado
la imagen causada por la intensidad de iluminacin sobre los objetos y de otro por la

124

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

textura de los cuerpos vistos en la escena. A esta categora de ruido se le relaciona con
los filtros homomrficos.
Imagen original

Imagen con ruido gaussiano

Imagen con ruido sal y pimienta

Imagen con ruido multiplicativo

Figura 4. 5 Fuentes de error a) original b) gaussiano c)impulsional d)multiplicativo

4.2.1 Mejora en la adquisicin


La adquisicin de las imgenes es un proceso no determinista. La seal de vdeo
est definida por la interaccin de distintas causas y algunas de carcter aleatorias. Se
puede suponer que la imagen resultante, g(x,y), puede ser explicada como la suma entre
la imagen ideal, f(x,y) y un ruido blanco, r(x,y) 1:

g x, y f x, y r x, y

(4. 13)

La ponderacin de varias capturas sobre la escena producir una disminucin del


ruido. Obviamente se necesitar que durante el intervalo de tiempo de la adquisicin de
las imgenes, los objetos permanezcan quietos y la iluminacin sea constante.

Se define ruido blanco a una variable aleatoria con funcin de densidad normal, de media cero
y varianza determina, N(0,2).

Dpto. Electrnica, Automtica e Informtica Industrial

125

Carlos Platero

Apuntes de Visin Artificial

Figura 4. 6. Dos imgenes adquiridas consecutivamente y la resta de ambas

A medida de que se adquieran ms imgenes disminuir la influencia del ruido.


De hecho al aplicar el operador esperanza sobre la imagen real conducir hacia la
imagen ideal:
1 n
g i x, y f x, y

n n
i 1

E g x, y lim

(4. 14)

El ruido queda cancelado con la ponderacin de las imgenes. Este efecto se


explica matemticamente debido a que la suma de la variable aleatoria genera otra
funcin de densidad probabilstica de carcter normal, con media nula y varianza
decreciente con el nmero de muestras:

N 0,
n

(4. 15)

Los mayores inconvenientes de esta tcnica, en la prctica, consisten en


mantener constante la iluminacin durante la exposicin, adems de tener el tiempo
suficiente para adquirir las imgenes y que no aparezcan objetos en movimiento durante
las capturas de las imgenes.
4.2.2 Filtros paso bajo
El espectro del ruido corresponde a componentes de alta frecuencia, por tanto, la
aplicacin de un filtro paso bajo significar la reduccin del ruido sobre la imagen. El
precio a pagar ser una prdida en la calidad de los detalles finos y en la degradacin de
los bordes de la imagen. La aplicacin del filtro paso bajo supone la cancelacin parcial
del ruido pero tambin la perdida de la propia informacin de la imagen.
Para la aplicacin de los filtros se usar la relacin fundamental de los sistemas
discretos. No es necesario actuar sobre el espectro de la propia imagen para filtrarla
frecuencialmente. Slo se requiere aplicar una mscara de convolucin cuya respuesta
frecuencial corresponda a la cancelacin del espectro deseado.
A razn de lo comentado en el anterior apartado, el primer filtro paso bajo sera
tomar un promediado del entorno de vecindad:

126

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

f x, y

M /2
N /2
1
f x i, y j
M N i M / 2 j N / 2

(4. 16)

Por ejemplo, para una ventana de vecindad 3x3, la mscara de convolucin


sera:

1 1 1

1
1 1 1
9

1 1 1

(4. 17)

Sin embargo, estos tipos de mscaras, las provenientes del promediado de


vecindad, presentan varios lbulos en su respuesta en frecuencias, adems de no tener la
propiedad de ser de filtro de fase lineal, distorsionado gravemente la fase del espectro
de la imagen a procesar.
Las mscaras construidas mediante la funcin de densidad binomial discreta
generan filtros paso bajo de fase lineal y no presentan lbulos en el mdulo. Sus
coeficientes son obtenidos mediante el tringulo de Pascal:
n
f
mscara 2
0
1
1
0
1 1/2
11
1/4
2 1/4
121
1/2
3 1/8
1 3 3 1 3/4
4 1/16 1 4 6 4 1 1
n es el grado del filtro, f es el factor de escala y 2 es la varianza efectiva de la
mscara respecto al filtro de Gauss. Los filtros binomiales bidimensionales se
construyen mediante la convolucin discreta de un filtro binomial unidimensional con l
mismo y su traspuesta:

h2nD hxn * h yn

(4. 18)

Por ejemplo, el filtro 2D ms pequeo, 3x3, se formar mediante la convolucin


de dos filtros 1D:

2
2D

1
1 2 1

1
1 1
h * h 1 2 1 * 2 2 4 2
4
4 16

1
1 2 1
2
x

2
y

(4. 19)

Esta propiedad de composicin es posteriormente aplicada para el procesamiento


de las imgenes, ahorrando tiempo en su ejecucin: primero se pasa la mscara 1D por
filas y luego por columnas. La algoritmia pasa del orden de operaciones de O(n2) a
O(2n), siendo n el orden de la mscara de convolucin. Desde el punto de vista espacial,

Dpto. Electrnica, Automtica e Informtica Industrial

127

Carlos Platero

Apuntes de Visin Artificial

ntese que la mscara presenta un promediado en la cual pondera la influencia de cada


vecino en funcin de su distancia respecto del pxel de pivotacin. La figura adjunta
muestra la respuesta en frecuencia de los filtros basados en la ponderacin y en los
filtros binomiales.

4.2.3 Filtros gaussianos


Los filtros gaussianos son mscaras de convolucin que emplean la
discretizacin de las funciones de densidad normal de media cero y varianza dada,
N(0,2):

h x, y e

y2

2 2

(4. 20)

Las respuestas en frecuencia de estas mscaras son filtros paso-bajo cuyos


anchos de banda dependen de sus varianzas. No presentan rizados o lbulos secundarios
en el mdulo y son de fase lineal. Al igual que los filtros binomiales, las mscaras de
Gauss bidimensionales se construyen a partir de las unidimensionales. Su ventaja,
respecto a los filtros binomiales, est en su parametrizacin dependiendo de la varianza.
A medida de que la varianza sea ms elevada significar que tiene en cuenta a vecinos
ms alejados, por el contrario, si la varianza es ms pequea indicar que slo ponderar
con los ms prximos. La varianza funciona como grado de ponderacin en la vecindad.
sta es la interpretacin en el dominio espacial. Desde el punto de vista frecuencial, la
varianza determina el ancho de banda del filtro paso bajo que supone la mscara de
Gauss. A mayor varianza menor ancho de banda.
128

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

En el proceso de discretizacin de la mscara Gaussiana aparece el problema del


nmero de coeficientes finitos a emular a la funcin continua. Para evitar la formacin
de lbulos secundarios en la respuesta frecuencial de la mscara, se toma como regla
que el tamao del operador, w, debe ser al menos de:
w 3c

(4. 21)

Siendo c el tamao del lbulo central y dependiente de la varianza:

c 2 2 2

(4. 22)

Si la varianza es unitaria, la mscara debera de ser al menos 9 x 9. Ntese que


se busca una mscara bidimensional que tenga simetra par. Tambin hay que
considerar que esta mscara tiene simetra radial, por lo que slo es necesario calcular
un cuadrante de la mscara.
Ejemplo 4.3
Determinar la mscara de Gauss
para una varianza de 0.25 y 1.
El tamao de la mscara para 0.25
ser:

c 2

2
2 w3
4

Los coeficientes de la mscara tendr


simetra radial y slo se buscar para el radio
igual a 1 y 2 :
0.0183 0.1353 0.0183

1
1
0.1353
0.1353
1.6154

0.0183 0.1353 0.0183

Figura 4. 7. Modulo de la respuesta en frecuencia de


un filtro de Gauss a) 2=0.25, b) 2= 1

Para el caso de varianza unitaria la mscara ser de 9x9:


0.0000 0.0000 0.0000
0.0000 0.0000 0.0002
0.0000 0.0002 0.0029
0.0000 0.0011 0.0131
0.0001 0.0018 0.0215
0.0000 0.0011 0.0131
0.0000 0.0002 0.0029
0.0000 0.0000 0.0002
0.0000 0.0000 0.0000

0.0000 0.0001 0.0000


0.0011 0.0018 0.0011
0.0131 0.0215 0.0131
0.0586 0.0965 0.0586
0.0965 0.1592 0.0965
0.0586 0.0965 0.0586
0.0131 0.0215 0.0131
0.0011 0.0018 0.0011
0.0000 0.0001 0.0000

Dpto. Electrnica, Automtica e Informtica Industrial

0.0000
0.0002
0.0029
0.0131
0.0215
0.0131
0.0029
0.0002
0.0000

0.0000
0.0000
0.0002
0.0011
0.0018
0.0011
0.0002
0.0000
0.0000

0.0000
0.0000
0.0000
0.0000
0.0001
0.0000
0.0000
0.0000
0.0000

129

Carlos Platero

Apuntes de Visin Artificial

Imagen de entrada

Filtro promediado

Filtro binomial

Filtro gaussiano

Figura 4. 8 Tipos de suavizado a) imagen original b)promediado c) binomial d) gaussiano con


2 = 0.25

Resolucin Matlab
h1=fspecial('average')
h2=conv2([1 2 1],[1 2 1]')/16
h3=fspecial('gaussian')
imagen= imnoise(imread('cameraman.tif'));imshow(imagen);
imagen1=imfilter(imagen,h1);imshow(imagen1);
imagen2=imfilter(imagen,h2);imshow(imagen2);
imagen3=imfilter(imagen,h3);imshow(imagen3);
Al igual que los filtros binomiales, los gaussianos bidimensionales tambin se
construyen mediante la convolucin discreta de un filtro gaussiano unidimensional con
l mismo y su traspuesta. Esta propiedad es utilizada para disminuir el coste
computacional.
4.2.4 Filtros basados en la mediana
Con el procesamiento lineal, empleando tcnicas de filtrado paso bajo, se ha
observado que al eliminar el ruido se han desdibujado los bordes y cancelado los
pequeos detalles. Este efecto secundario suele ser reducido empleando el filtrado
basado en la mediana del entorno de vecindad. Esta tcnica de procesamiento es no
lineal, con lo cual no se aplica mediante mscara de convolucin. Su actuacin se basa
en elegir el valor de la mediana en el entorno de vecindad. Se define la mediana como el
valor intermedio de la ordenacin de los pxeles vecinos en funcin de su intensidad. Si
los vecinos son 2M+1 pxeles, la mediana estar por encima de los M primeros valores
130

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

y por debajo de los M ltimos. Por ejemplo, en un entorno de 3x3, la mediana ocupar
la quinta posicin:

89 87 14

92 75 56
99 78 90

89 87 14 92 75 56 99 78 90 14 56 75 78 87 89 90 92 99
En este ejemplo, la mediana ser el nivel 87. En consecuencia, si el ruido tiene
un valor atpico en el entorno quedar colocado en los extremos de la ordenacin. Vase
cmo el nivel 14 queda desplazado. La mediana se presenta como una buena tcnica
para el suavizado en general y en particular para la cancelacin de ruido impulsional. El
mayor inconveniente es su alto coste computacional. Cuando la aplicacin de Visin
tiene restricciones de tiempo suele ser prohibitivo el uso de la mediana, optando por el
filtrado lineal.
Otro efecto adverso de la mediana es el desplazamiento de los bordes de la
imagen. Si se desea precisin subpixel en la imagen, no es aconsejable esta tcnica.
Comparacin entre filtrado gaussiano y mediana con el ruido impulsional

Figura 4. 9 a) imagen con ruido de sal y pimienta, b) filtrado gaussiano c) mediana

Resolucin Matlab
h=fspecial('gaussian')
imagen= imnoise(imread('circuit.tif'),'salt & pepper');imshow(imagen);
imagen1=imfilter(imagen,h);imshow(imagen1);
imagen2=medfilt2(imagen);imshow(imagen2);
4.2.5 Filtros homomrficos
El caso de iluminacin no uniforme en la escena capturada es un ejemplo de
ruido multiplicativo. La formacin de la imagen depende bsicamente de la iluminacin
sobre los objetos y del tipo de superficie de stos. La intensidad en la imagen puede ser
modelada por la multiplicacin entre la causa derivada de la iluminacin y la causa
proveniente del tipo de superficie:

Dpto. Electrnica, Automtica e Informtica Industrial

131

Carlos Platero

Apuntes de Visin Artificial

f x, y ix, y ox, y

(4. 23)

f(x,y) ser la intensidad del pxel, i(x,y) ser el efecto de la iluminacin y o(x,y)
corresponder a la funcin de reflectancia de la escena. Si se convolucionase la imagen
con cualquier filtro, procesara indistintamente a ambas componentes de iluminacin y
reflectancia. La forma de proceder es aplicar un sistema homomrfico capaz de separar
los efectos y procesar por separado. Los sistemas homomrficos son operaciones de
aplicar una funcin, procesar y aplicar su inversa. Por ejemplo, la funcin logartmica y
su inversa la exponencial.
Para el caso que ocupa, la forma de separar los efectos es mediante la funcin
logartmica. Al aplicarla es posible obtener la respuesta frecuencial por separado de las
componentes de iluminacin y reflectancia:

ln f x, y ln ix, y lnox, y F ln f x, y F lnix, y F ln ox, y


(4. 24)
El espectro del efecto de iluminacin estar dominado por la baja frecuencia, ya
que los cambios de iluminacin en la escena son paulatinos, por el propio carcter
continuo de la luz. Sin embargo, los bordes de las superficies, los contactos entre los
objetos y sus intersecciones, tendrn un perfil claramente de mayor frecuencia. Por
tanto, la aplicacin de un filtro paso alto, atenuar la falta de iluminacin uniforme y
realzar los bordes entre los objetos. Esta algoritmia acaba empleando la funcin
inversa, despus de haber filtrado las dos componentes. En la figura se muestra el
diagrama a bloques del algoritmo.

4.3 Deteccin de bordes


Estudios sobre el procesamiento visual
humano indican que para la percepcin de las
escenas, el cortex visual utiliza informacin del color
de los objetos, de sus texturas, de las sombras, pero
sobre todo de los contornos o bordes de los objetos.
Parece ser que existen neuronas, del sistema visual
primario, especializadas en las discontinuidades de la
intensidad lumnica o bordes. Segn la teora
dominante, el cortex visual trabaja en una jerarqua
de caractersticas visuales, donde agrupa los Figura 4. 10. Contornos subjetivos de
elementos primarios de los contornos en objetos Kanizsa
geomtricos ms complejos hasta la interpretacin
de las figuras. Este subsistema biolgico es capaz de completar bordes parcialmente
132

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

ocluidos o explcitamente eliminados. En los contornos subjetivos de Kanizsa, figura


4.10, ntese como al visualizarlos quedan completos, aunque los objetos geomtricos
estn inacabados.
Bordes de una escena de bodegn

Otro
experimento
psicofisiolgico es la capacidad de
interpretar la imagen con slo
apreciar los bordes de la escena. En la
figura adjunta se presenta la imagen
con slo los bordes. Es fcil de
interpretar que es una escena de
bodegn.
Estos aspectos son aplicados
y emulados en la Visin Artificial. Figura 4. 11. Imagen de contornos
La deteccin automtica de bordes es
una tarea esencial en muchas aplicaciones de interpretacin de las imgenes. Suele ser
una etapa muy empleada para las tareas de segmentacin o para la bsqueda de objetos
geomtricos ms complejos como lneas, elipses, esquinas, etc.
Se entiende como borde aquella regin donde aparece una fuerte variacin del
nivel de intensidad en los pxeles adyacentes. Su causa principal es originada por la
interseccin de varios objetos, con diferentes niveles de reflactancia, que al ser
proyectados sobre la cmara generan discontinuidades de intensidad en los pxeles
correspondidos. Sin embargo, estas discontinuidades tambin aparecen de forma no
deseada por la presencia del ruido, por el efecto de sombras sobre los propios objetos o
por una iluminacin no uniforme dentro la escena.
El fundamento para la deteccin de los bordes est en la aplicacin del operador
derivada en un entorno de vecindad. Si se construye una imagen sinttica con franjas de
alto contraste y se adquiere una fila de la imagen, se observar una fuerte variacin de la
intensidad en el entorno de los
bordes de las franjas. Al aplicar el
Lnea 16
operador derivada, se observa que
sta toma un valor de mximo o
mnimo justamente cuando en la
transicin se pasa de cncavo a
convexo o viceversa, esto es, en el
punto de inflexin del borde. Si en
vez de emplear la primera derivada
se realiza con la segunda, el punto
de inflexin de la primera deriva
coincidir con un paso por cero
(zero-crossing).
Ambos
razonamientos son empleados para
la deteccin de los bordes. Cuando
se aplica el operador gradiente en Figura 4. 12. Bordes ideales
la imagen se localizar valores que

Dpto. Electrnica, Automtica e Informtica Industrial

133

Carlos Platero

Apuntes de Visin Artificial

tengan un gran valor, normalmente, en el mdulo del gradiente. Por el contrario, al


emplear la laplaciana se trata de detectar pxeles en la imagen que sean pasos por cero.
El problema reside en los bordes de las escenas reales, donde el modelo
propuesto no est tan claramente definido y no se ajusta a la simplificacin indicada.
Las discrepancias entre el modelo de los bordes y lo almacenado en el computador, tras
un proceso de formacin de la
imagen, est en:
imagen capturada

Las imgenes digitales


son de carcter discreto
y no continuo.

Perfil de la lnea 15
150
100

La presencia de ruido
en la imagen, la cual
produce
variaciones
locales de intensidad,
produce falsos bordes al
aplicar los operadores
derivadas. Por esta
razn, la deteccin de
bordes est unida a
etapas de eliminacin
del ruido.

50

10

15

20

25

30

35

30

35

30

35

Primera derivada de la lnea 15


50
0
-50

10

15

20

25

Segunda derivada de la lnea 15


50
0
-50

10

15

20

25

Figura 4. 13. Bordes reales

Los orgenes diversos


de los bordes, tales como oclusiones, superficies de diferentes orientaciones,
cambios de texturas o de iluminacin, reflejos, sombras, etc, hace que sea
difcil la determinacin de los bordes.

4.3.1 Tcnicas basadas en el operador gradiente


El operador gradiente, aplicado sobre un pxel (x,y) de la imagen, retorna un
vector que indica la direccin de mxima variabilidad de la intensidad luminosa y su
nivel de variacin:
2
2

f x, y f x, y f x, y

f x, y
x y

f x, y
f x, y f xx, y

f x, y arctan
y

f x, y

(4. 25)

Sobre una imagen sinttica se ha aplicado el operador gradiente y se visualiza el


vector resultante en cada pxel. Ntese cmo cada vector indica la direccin de la
134

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

mxima variabilidad en su entorno y su magnitud est relacionada con la intensidad de


la variacin. Al aplicar el operador divergencia sobre este campo vectorial devolver un
campo escalar, de manera que los valores positivos indica la presencia de una fuente
(pxeles de tonalidad oscura) y los valores negativos de un sumidero (pxeles de
tonalidad brillante). Justamente la transicin de una fuente a sumidero ser la presencia
del borde.
Operador gradiente en cada pxel
20
18

Imagen sinttica

16
14
12
10
8
6
4
2
5

10

15

20

Figura 4. 14. Efecto del operador derivada

Un pxel se considerar que pertenece a un contorno si el mdulo del gradiente


supera un cierto umbral T:
1
g x, y
0

f x, y T
f x, y T

(4. 26)

En la prctica, generalmente se establece como umbral, T, cuando el mdulo del


gradiente est por encima del 70% al 80% del valor mximo detectado en la imagen.
Para el clculo del mdulo del gradiente se suele emplear la aproximacin de la suma de
los valores absolutos sus derivadas parciales, mejorando el coste computacional:

f x, y

f x, y f x, y

x
y

(4. 27)

La discretizacin del operador gradiente se basa en las diferencias de los niveles


de grises en el entorno de vecindad. En el escenario numrico de aproximacin de las

Dpto. Electrnica, Automtica e Informtica Industrial

135

Carlos Platero

Apuntes de Visin Artificial

derivadas por las diferencias, stas suelen emplear el truncamiento del desarrollo de
Taylor obteniendo las diferencias progresivas y regresivas:

f x, y f x x, y f x, y

x
x

f x, y f x, y y f x, y

y
y

f x, y f x, y f x x, y

x
x

f x, y f x, y f x, y y

y
y
(4. 28)

Con un promediado de ambas se consigue las diferencias centradas:

f x, y f x x, y f x x, y

x
2x

f x, y f x, y y f x, y y

(4. 29)
y
2y

Existen diferentes mscaras de convolucin que implementan estas diferencias


finitas. En un entorno de 2x2 se usa el operador de Roberts y en una mscara de 3x3 se
aproximan por el operador de Prewitt, Sobel y el de Fre-Chen. Considerando el caso de
un entorno de vecindad 3x3, las derivadas parciales seran:

f 1, 1

f 0, 1
f
1, 1

f 1,0
f 0,0
f1,0

f 1,1
x

f 0,1
f
f1,1
y

1, 1

f1,0 f1,1 f 1, 1 f 1,0 f 1,1


x

0,0

1,1

f 0,1 f1,1 f 1, 1 f 0, 1 f1, 1


y

0,0

(4. 30)

Los incrementos de las variables independientes, x e y, no se suelen


considerar cuando el pixel es cuadrado, ya que son valores constantes correspondientes
a la discretizacin espacial. De esta expresin se desprende las mscaras de Prewitt:

1 1 1

0 0 0
1 1 1

1 0 1

1 0 1
1 0 1

(4. 31)

El operador derivada resulta ser muy sensible con el ruido, ya que su respuesta
frecuencial tiende a su amplificacin. Para reducir el realce del ruido se propone una
mscara que sea la convolucin entre el operador derivada con un filtro binomial,
obtenindose las mscaras de Sobel:

136

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

1 2 1

1 0 0 0

S DT * B 1 0 1 * 2 1 2 1
1

1 0 1

2 0 2
1 0 1

(4. 32)

Mientras que Prewitt detecta mejor los bordes verticales u horizontales, Sobel
mejora su localizacin en los bordes diagonales. El operador isotrpico o de Frei-Chen
intenta llegar a un compromiso entre ambos:
1
2

0
0

1 2

1 0 1

2 0 2
1 0 1

(4. 33)

Experimentalmente se ha encontrado que todos los operadores tienen resultados


similares, y que la respuesta se va deteriorando de acuerdo con la cantidad de ruido
presente en la imagen. Debido al menor coste computacional se suele elegir el operador
de Sobel.
Mscaras de Prewitt y Sobel 3x3 en la direccin X

Resolucin Matlab
>>imagen= imread('cameraman.tif');imshow(imagen);
>>imagen1=imfilter(imagen,fspecial(prewitt));imshow(imagen1);
>>imagen2= imfilter (imagen, fspecial(sobel);imshow(imagen2);
4.3.2 Operadores basados en la laplaciana
En la deteccin de bordes con el operador laplaciano sern aquellos pxeles que
sean paso por cero. El operador laplaciano se define en el dominio continuo como:

Dpto. Electrnica, Automtica e Informtica Industrial

137

Carlos Platero

Apuntes de Visin Artificial

2 f x, y

2 f x, y 2 f x, y

x 2
y 2

(4. 34)

Obsrvese que a diferencia del gradiente, el laplaciano no retorna una


informacin vectorial sino escalar. El laplaciano al aplicarlo sobre una zona homognea
de intensidad, ste ser nulo en toda la regin. Por el contrario al aplicar este operador
sobre un borde, aparecern en sus alrededores valores positivos y negativos. Este
comportamiento indicar la regla de actuacin para la deteccin de los bordes. Se le
aplicar a la imagen el operador laplaciana y en pxeles con vecindad de valores
positivos y negativos indicar la presencia de un borde. Por la propiedades de la
segunda derivada, este operador es ms exacto en la precisin del borde que el uso del
gradiente (vase las figuras 4.12 y 4.13 de los bordes ideales y reales).
La discretizacin del operador laplaciana para un entorno de 3x3 estar
constituida por la suma de las derivadas parciales de segundo orden:

2 f x, y f x 1, y 2 f x, y f x 1, y

0 1 0
x 2
x 2

1 4 1
2
f x, y f x, y 1 2 f x, y f x, y 1
0 1 0


y 2
y 2

(4. 35)

Esta laplaciana se conoce como vecindad a 4. Obsrvese que no se ha cambiado


el signo y no se ha normalizado, ya que slo interesa conocer pxeles que transitan en un
entorno de valores positivos a negativos o viceversa. Tambin se emplea la mscara a
vecindad a 8:

1 1 1

1 8 1
1 1 1

(4. 36)

Al aplicarla, cualquiera de sus implementaciones, sobre una imagen real no


habr valores nulos en los bordes sino que se aproximan a valores pequeos positivos o
negativos, por el carcter discreto tanto de la seal como del operador. Eso s, estos
pxeles etiquetados de bordes, tendrn en su entorno valores positivos y negativos. Los
bordes, con este operador, estarn formados por el ancho de un pxel a diferencia del
mtodo del gradiente. Adems, el operador laplaciano no tiene direcciones privilegiadas
a diferencia de las distintas mscaras que se implementan con el operador gradiente.
Obsrvese, las diferencias entre la aplicacin sobre una misma imagen del operador
gradiente y del operador laplaciana. Los bordes detectados son ms finos con el
operador laplaciana y en cualquier direccin.

138

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

Imagen de entrada y sus procesamiento con Sobel y con laplaciana de Gauss

Figura 4. 15 Diferencias entre el operador gradiente y el operador laplaciana

Resolucin Matlab
>>imagen= imread('cameraman.tif');imshow(imagen);
>>imagen1=imfilter(imagen,fspecial(sobel));imshow(imagen1);
>>imagen2= imfilter (imagen, fspecial(log);imshow(imagen2);
El mayor inconveniente del operador laplaciano es su sensibilidad al ruido. Para
disminuir los falsos bordes se hace interaccionar con un filtro paso bajo, dando paso al
operador laplaciano de Gauss (LoG).
4.3.2.1 Laplaciano de Gauss
Marr al final de la dcada de los 70 sintetiz las diferentes teoras de visin
biolgica de los mamferos. Segn esta teora existe diferentes fases en el proceso de la
percepcin y en la primera etapa se basa en la deteccin de los bordes. Se observ que
este proceso estaba constituido por dos caractersticas:
1. Medida del gradiente de luminancia en diferentes escalas. Las diferentes
causas de discontinuidades en la imagen son variadas, tal como se ha
comentado al principio de este apartado (iluminacin, texturas,
sombras,...). Todos estos cambios se producen a distintas escalas
espaciales, propias de las causas que las originan.
2. La localizacin de los bordes debe de hacerse con precisin. El ruido de
la imagen desvirta la posicin exacta, necesitando de un suavizado
previo de la imagen. En el dominio frecuencia supone la delimitacin del
ancho de banda del detector de bordes. La actuacin del operador debe
estar limitado en las frecuencias.
Estas condiciones de diferentes escalas en el dominio espacial y de ancho de
banda limitado en el dominio frecuencial, son contradictorias entre s. Marr y Hildreth
(1980) proponen una solucin de compromiso con el operador laplaciano de Gauss
(LoG). ste es un filtro paso banda, mezcla del filtro paso bajo que supone el suavizado
con un filtro de Gauss y su posterior procesamiento con el operador laplaciano. Desde el
punto de vista formal, el operador queda definido como:

Dpto. Electrnica, Automtica e Informtica Industrial

139

Carlos Platero

Apuntes de Visin Artificial

2 f x, y * h x, y f x, y * 2 h x, y f x, y * LoGx, y

(4. 37)

De la expresin se deduce la posibilidad de convolucionar la imagen de entrada


con una sola mscara. Los coeficientes del filtro se darn en el proceso de
discretizacin del operador LoG. En el dominio continuo este operador est definido
como:

h x e

x2
2

x2

dh
x 2
2 e 2
dx

x2

d 2 h x 2 2 2 2

e
dx 2
4

(4. 38)

La represtacin espacial del operador muestra una forma de sombrero


mejicano. Ntese de la ecuacin que sta tiene simetra radial, por tanto, slo ser
necesario calcular un nico cuadrante de los coeficientes. El resto son simtricos. Desde
el punto de vista frecuencia, responde a un filtro paso banda bidimensional, cuyo ancho
de banda depende de la varianza, 2.

Figura 4. 16 a) mscara LoG 15x15 con varianza 2, b) Mdulo de la respuesta en frecuencia

Una alternativa al operador LoG es una aproximacin basada en la diferencia de


la imagen suavizada por dos varianzas distintas. Este operador es conocido por DoG y
est muy relacionado con el concepto de espacio de escalas:
f x, y * DoGx, y f x, y * h 1 x, y f x, y * h 2 x, y

140

(4. 39)

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

Segn Marr y Hildreth, este algoritmo DoG se asemeja al operador LoG, cuando
las varianzas se encuentran en una relacin de:

22

12

1.6

(4. 40)

En el proceso de discretizacin de la mscara de convolucin del operador


laplaciana de Gauss, ya sea mediante LoG o DoG, para evitar la aparicin de lbulos en
la respuesta frecuencia de la mscara, el tamao de sta viene determinado por la
varianza:

w 3c

c 2 2 2

(4. 41)

La misma regla que ya se aplic para el suavizado mediante mscaras


gaussianas. No hay que olvidar que la varianza es la que limita el ancho de banda del
operador LoG.
4.3.3 Operador de Canny
Este algoritmo es ampliamente usado en la localizacin de contornos. Se
caracteriza por evitar la ruptura de los bordes de los objetos. Su fundamento se basa en
un proceso de optimizacin, teniendo en cuenta los siguientes objetivos a maximizar:
1. Aumentar la relacin seal-ruido de la imagen.
2. Disminuir todo lo posible la distancia entre el borde detectado y el borde
real.
3. No identificar un borde por un nico pxel, sino por un conjunto de
pxeles que tengan una cierta conectividad.
Segn Canny, el operador ptimo est en la derivada de Gauss:
f x, y * h x, y f x, y * h x, y f x, y * DroGx, y

(4. 42)

donde el operador DroG es una derivada suavizada de Gauss, haciendo de este


operador menos vulnerable al ruido. Aqu tambin la varianza controlar el grado de
suavizado deseado (espacio de escalas). El operador DroG quedar definido por:

Dpto. Electrnica, Automtica e Informtica Industrial

141

Carlos Platero

Apuntes de Visin Artificial

h x, y

DroGx, y h xx, y

(4. 43)

Pudiendo ser implementado en una sola mscara cada derivada parcial. No


obstante, suele emplearse la descomposicin del operador derivada 1D en la direccin
correspondiente y en el resto de componentes se aplica la mscara de suavizado de
Gauss 1D. A estas derivadas se las llama derivadas suavizadas de Gauss.
Los pasos que sigue el algoritmo de Canny son tres:
1. Calcular el mdulo y el argumento del gradiente de una imagen
suavizada aplicando el operador derivada de Gauss.
2. En la direccin del gradiente, eliminar puntos que no sean mximos
locales del mdulo (equivalente a encontrar el paso por cero en el
operador LoG). Se eliminan los pxeles que no sean mximos locales,
mejorndose la localizacin y evitando falsas detecciones.
3. Para la deteccin de los bordes se emplean dos umbrales de histresis, T1
y T2, siendo este ltimo el mayor. Con T2 habra pocos pxeles de bordes
y con T1 habra muchos pxeles de bordes. T2 es empleado para localizar
las semillas de los bordes. A partir de los pxeles que superen el umbral
T2, se seguir construyendo el borde mediante la adicin de pxeles que
sean mayor a T1 y que sean perpendiculares a la normal del borde.
En la figura adjunta se ha pasado una imagen por cuatro operadores de bordes.
Ntese cmo el operador de Canny presenta unos contornos cerrado respecto al resto.

142

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

Deteccin de bordes de Prewitt, Sobel, LoG y Canny

Figura 4. 17 Deteccin de bordes a) Prewitt, b) Sobel, c)LoG y d) Canny

Resolucin Matlab
>>imagen= imread('cameraman.tif');
>>im1=edge(imagen, prewitt); im1=edge(imagen, sobel);
>>im1=edge(imagen, log); im1=edge(imagen, canny);
>> imshow([im3,im1;im2,im4])

4.4 Cuestiones
1.

Determinar las posibles transformaciones para obtener la imagen


negativa y para realizar correccin de gamma.

2.

Tipos de ruido en una imagen digital.

Dpto. Electrnica, Automtica e Informtica Industrial

143

Carlos Platero

Apuntes de Visin Artificial

3.

Construir un filtro binomial de 5x5

4.

Realizar un filtro de Gauss con varianza unitaria.

5.

Discrepancias entre los operadores basados en la primera derivada y


en la segunda derivada.

6.

Obtener la mscara de LoG para una varianza igual a 0.25.

7.

Determinar las mscaras del operador derivada de Gauss para una


varianza igual a 0.25.

4.5 Problemas
Ejercicio 1
Dada la imagen de la figura, calcular la transformacin mediante LUT para
aumentar su contraste.

1200

1000

800

600

400

200

50

100

150

200

250

La imagen est saturada, por tanto, en una primera aproximacin se podra una
LUT de forma:
iout

255
iin I min
255 I min

Como dentro de la regin es bastante uniforme sera 1.


Ejercicio 2
Dada la siguiente imagen de entrada junto con la LUT, determinar la
imagen de salida.

144

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

0
0.5

0.5
0.5

Captulo 4: Tcnicas de preprocesado

0.2 0.2
0.3 0.3
0.4 0.4
0.9 0.9

0.8 0.8

0.2 0.8
0.3 0.8

0.4 0.8
0.9 0.8

La relacin no lineal entre la imagen de entrada y salida quedar definida por:

i 0.3 0 iin 0.7


iout in
iin 0.7
1

1
1 1
0.3 1

0.3 0.5 0.5 0.5 1


0.8 0.6 0.6 0.6 1

0.8 0.7 0.7 0.7 1


0.8 1
1
1 1

Ejercicio 3
Dada la siguiente imagen se le aplica la transformacin adjunta.
Determinar la imagen resultado y el histograma

240

235
210

230
180

230 225 235 240

220 205 195 185


215 200 245 215

240 170 235 240


225 190 205 225

Dpto. Electrnica, Automtica e Informtica Industrial

145

Carlos Platero

Apuntes de Visin Artificial

Se est aplicando una LUT tipo inverso:

iout 255 iin :

15

20
45

25
75

25 30 20 15

35 50 60 70
40 55 10 40

15 85 20 15
30 65 50 30

Ejercicio 4
Para la siguiente figura, con 8 niveles de grises de cuantificacin,
obtener:
a)Histograma
b)Brillo y contraste
c) Ecualizacin del histograma

1
1

3
2

2
1

1
0

nivel(i)
h(i)
p(i)

0
6
0.06

1
1
1
2

2
3
2
3

0
3
2
6

2
3
5
6

2
3
3
6

1
2
2
2

3
2
2
2

1
1
1
1

2 6 7 7 6 6 1 1
2 6 6 7 6 6 0 3
2 2 6 5 5 3 2 1
1 2 3 5 5 3 2 1
1 1 3 3 3 3 2 2
1 1 1 1 2 1 1 1

1
33
0.33

2
26
0.26

3
16
0.16

0
1

1
1
2

1
0

1
0

4
0
0

5
5
0.05

6
11
0.11

7
3
0.03

brillo i pi 2.45
i 0

2
contraste 2 i pi 3.52
i 0

146

Nivel de gris
de entrada

Nivel de gris
de salida

(-0.52)

(2.12)

(4.2)

(5.48)

(5.48)

(5.88)

(6.66)

(7)

56

56

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Histograma
ecualizado

Captulo 4: Tcnicas de preprocesado

33

26

16

16

14

14

Ejercicio 5
Dada la siguiente imagen, calcular para el pxel marcado, la media y
mediana en un entorno de 3x3:

6
7

5 6 6 7

2 6 6 5
7 4 5 7

7 7 5 6

La media es 5.22 y la mediana corresponde a 6.


Ejercicio 6
Dada la siguiente imagen, calcular para el pxel marcado el mdulo y la
direccin del gradiente, empleando los operadores de Sobel:

1
1

1 10 10 10

1 10 10 10
1 10 10 10

1 10 10 10

Al aplicar el operador de Sobel sobre el pxel anotado, las derivadas parciales


quedan definidas por:
f x, y
x

f x, y
y

36

Por tanto, el mdulo y direccin del gradiente ser:


f x, y 36 arg f x, y

Ejercicio 7
Calcular las mscaras de las derivadas de Gauss 2D para una 0.5 ,
sabiendo que el tamao corresponde a 3x3. Aplquese sobre el pxel
seleccionado para determinar el mdulo del gradiente y su orientacin. Indique
cmo lo implementara para aumentar su eficiencia computacional.

Dpto. Electrnica, Automtica e Informtica Industrial

147

Carlos Platero

Apuntes de Visin Artificial

1
1

1 10 10 10

1 10 10 10
1 10 10 10

1 10 10 10

La mscara de suavizado de Gauss quedar definida por:


x
2

h x e

2 2

1
0.135 1 0.135
1.27

Mientras que su derivada estar definida por:


x2

dh
x 2
2 e 2 0.54 0 0.54
dx

Las derivadas suavizadas se calculan con la derivada parcial en la direccin


elegida y en la otra componente con la suavizada:
0.057 0.425 0.057
0.057 0 0.057

0
0
0
0.425 0 -0.425
x

0.057 0 0.057
0.057 -0.425 0.057

Al aplicar las mscaras sobre el pxel sealado valdr:


f x, y
x

f x, y
y

f x, y 4.85 arg f x, y

4.85

La implementacin eficiente se realizar pasando por filas y columnas el


operador 1D de la mscara de suavizado y de su derivada.
Ejercicio 8
Calcular la mscara de la laplaciana de Gauss para una = 0.5,
sabiendo que el tamao es de 5x5. Aplquese sobre el pxel seleccionado.
1

1
1

1
1

10 10

10 10
1 10 10 10

1 10 10 10
1 10 10 10
1

10

10

La laplaciana de Gauss es formada a partir de la mscara de Gauss:

148

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 4: Tcnicas de preprocesado

h e

x2 y2
2 2

x 2 y 2 2 2

Utilizando la mscara de Gauss de 5x5 para = 0.5:

h x 0.0003 0.135 1 0.135 0.003 h h x * h ' x

0
0.0003
0
0
0

0.0182 0.135 0.0182


0
0
0.0003 0.135
1
0.135 0.0003

0.0182 0.135 0.0182


0
0
0
0
0.0003
0
0

La mscara normalizada, dividiendo por la suma de los coeficientes:

h n

0
0.0003
0
0
0

0
0.0113
0.0836
0.0113
0

0.0002 0.0836 0.6193 0.0836 0.0002

0.0113 0.0836 0.0113


0
0
0
0
0.0002
0
0

Aadiendo el trmino

y 2 2 2

se obtendr la mscara de la laplaciana

de Gauss:
0
0.0116
0
0
0

0.2709 0.6689 0.2709


0
0
h 0.0116 0.6689 -4.9548 0.6689 0.0116

0.2709 0.6689 0.2709


0
0
0
0
0.0116
0
0

Al convolucionar esta mscara con el pxel marcado da un valor de -22.4.


Derecho de Autor 2016 Carlos Platero Dueas.
Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".

La Licencia de documentacin libre GNU (GNU Free Documentation License)


es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

Dpto. Electrnica, Automtica e Informtica Industrial

149

Segmentacin

En las tcnicas de procesamiento de las imgenes cada pxel era transformado de


un valor a otro. Estos cambios, mayoritariamente, se realizan para facilitar la particin
de la imagen en reas de pxeles con significado. En esta nueva fase se trata de agrupar
los pxeles, por algn criterio de homogeneidad, para particionar la escena en regiones
de inters. Estas reas deben de tener algn significado fsico. Por tanto, la
segmentacin de una imagen es un proceso de extraccin de los objetos de inters
insertados en la escena capturada. La agrupacin de los pxeles se hace a razn de que
sus vecinos sean similares en criterios como de luminancia, color, texturas,
movimientos,... Una vez que la
imagen ha sido particionada, la
unidad dejara de ser el pxel
para ser la agrupacin de
pxeles que constituye el
objeto. La imagen estar
definida por un conjunto de
objetos, habiendo pasado de
un nivel bajo a otro ms
elaborado o nivel medio
visual. La informacin estar
preparada
para
el
reconocimiento
e
interpretacin de la imagen.
Para la segmentacin Figura 5. 1 Esquema general de Visin Artificial
de las imgenes se usan tres
Dpto. Electrnica, Automtica e Informtica Industrial

149

Carlos Platero

Apuntes de Visin Artificial

conceptos bsicos:

Similitud: los pxeles agrupados del objeto deben ser similares respecto
algn criterio (nivel de gris, color, textura,....).

Conectividad: los objetos corresponden a reas de pxeles con


conectividad. Las particiones corresponden con regiones continuas de
pxeles.

Discontinuidad: los objetos tienen formas geomtricas que definen unos


contornos. Estos bordes delimitan unos objetos de otros.

En la prctica, la imposicin de estas condiciones sobre la estrategia de


segmentacin resulta casi imposible. As, por ejemplo, los criterios de similitud fallan
debido a la aparicin del ruido, a la falta de iluminacin uniforme sobre el escenario o a
la creacin de sombras de unos objetos sobre otros. Todas estas causas producen que
algo que pareca sencillo de definir, como es alguna regla sobre la similitud, resulte
impracticable de acotar. Todas ellas fracasan sobre escenas ms o menos complejas. En
cuanto a la conectividad, la ocultacin parcial de un objeto capturado hace fallarla.
Suele ser normal en el proceso de segmentacin que se produzcan varias regiones de
pxeles agrupados que provienen del mismo objeto fsico. No slo por las oclusiones de
ste, sino tambin debido a los cambios de la textura del objeto, a la variacin de la
iluminacin de la escena o al reflejo de otros objetos adyacentes. Por ltimo y tal cual se
coment en el anterior captulo, la deteccin de los contornos fsicos suele estar plagada
de errores y de discontinuidades en los bordes. Resulta extraordinariamente difcil
obtener los contornos cerrados, inmunes al ruido y sin desplazamiento entre el contorno
real y el obtenido.
La conclusin es obvia, la segmentacin es un proceso altamente complejo y sin
solucin final en muchos aos. Es una labor de investigacin actual y en las siguientes
dcadas venideras. En el paradigma actual se combinan las tcnicas basadas en la
localizacin de regiones uniformes con los contornos de los objetos.

Figura 5. 2. Estadio actual de las tcnicas de segmentacin sobre escenarios naturales

150

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

No obstante, en la actual Visin Artificial todava existe mucho recorrido para


las aplicaciones industriales. Las citadas dificultadas de la fase de segmentacin son
resueltas con una eleccin esmerada en la formacin de la imagen, eligiendo una
iluminacin adecuada y simplificando la escena. Como se ha comentado varias veces,
las tcnicas de Visin Artificial resultan factibles para el anlisis de imgenes simples y
repetitivas.

Figura 5. 3. Tcnicas de segmentacin sobre escenarios repetitivos y alienantes para el


hombre. Aplicaciones de segmentacin sobre imgenes procedentes de microscopa.

La exposicin de este captulo versa sobre las distintas tcnicas de


segmentacin, clasificadas en:

Contornos de los objetos: trata de localizar las fronteras de los objetos.


Hace referencia a los aspectos geomtricos de los objetos.

Bsqueda de regiones homogneas: agrupa los pxeles por algn criterio


de similitud y stos tienen conectividad entre ellos. Est unido a las
caractersticas texturales de los objetos.

5.1 Tcnicas basadas en los bordes


Para la localizacin de las fronteras de los objetos en la escena se emplearn las
tcnicas de deteccin de los bordes, vistas en el captulo anterior. Sin embargo, esta
etapa no es definitiva para poder segmentar los objetos presentes en la imagen. La
presencia de ruido, el efecto de las sombras, la falta de iluminacin uniforme y un largo
etctera de causas, produce que los contornos no sean del todo continuos y cerrados
sobre los objetos. Se requiere otra etapa de post-procesamiento. Esta nueva fase emplea
los resultados de la deteccin de bordes para elaborar las fronteras de los objetos. Se
trata de agrupar los pxeles etiquetados como bordes, de la etapa anterior (de deteccin
Dpto. Electrnica, Automtica e Informtica Industrial

151

Carlos Platero

Apuntes de Visin Artificial

de bordes), empleando la propiedad de conectividad. Para que un pxel etiquetado


como borde se defina como pxel frontera de un objeto se necesitar que otros pxeles
bordes tengan similar direccin y mdulo del gradiente. Dos pxeles sern considerados
pertenecientes a una misma frontera si presentan alguna condicin de conectividad y las
diferencias entre sus gradientes no superan un determinado umbral:

G1 G2 TM
1 2 TA

(5. 1)

Donde |Gi| y i se ha denotado el mdulo y argumento del gradiente del pxel i,


siendo i = 1 2, indicando dos pxeles vecinos. Evidentemente, en la construccin de la
frontera aparecer ruido, habr pxeles que constituyen los bordes de los objetos y otros
que son defectuosos y que han aparecido por una alta variacin local de intensidad
debido a sombras, cambios de iluminacin,... Hay varios planteamientos para superar
estos inconvenientes. Algunos autores emplean tcnicas de crecimiento de regiones, las
cuales se vern ms adelante, pero que bsicamente se trata de partir de un pxel borde
semilla ir agrupando pxeles con conectividad siempre y cuando cumplan algn criterio
de homogeneidad, por ejemplo, el expresado en la anterior ecuacin. Otros autores
emplean un marco de trabajo basado en la optimizacin. Realizan un grafo de los
posibles caminos que pueda llevar la frontera del objeto y mediante una funcin de
coste, eligen la mejor solucin. Un planteamiento alternativo es la agrupacin de los
pxeles que cumplen un cierto criterio en una primitiva ms elaborada, como puede ser
un pequeo segmento con orientacin. Posteriormente, se procede a encadenar estas
primitivas dando paso a la delimitacin de los objetos.
Un campo muy atractivo en esta materia son los contornos activos. Se trata de
emplear una curva cerrada que vaya adaptndose dinmicamente hasta alcanzar la
frontera del objeto.

Figura 5. 4 Ejemplo de contornos activos

Muchas aplicaciones se basan en las localizaciones de lneas rectas o de otras


formas bsicas como crculos o elipses, ya que se consideran elementos fundamentales
en la percepcin de entornos estructurados o semi-estructurados. Se basa en el hecho de
que las escenas artificiales, construidas por el hombre, estn plagadas de contornos
rectos o de objetos con formas circulares o elpticas. En este sentido se aplican las
transformadas de Hough para la localizacin de estas fronteras.

152

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

5.1.1 Transformada de Hough


Este algoritmo trata de detectar formas geomtricas sencillas en una imagen. En
su procesamiento emplea el conjunto total de la imagen, hacindolo robusto ante la
presencia del ruido o discontinuidades de las etapas previas. De hecho, para su
ejecucin requiere de una imagen binarizada en la que se ha seleccionado previamente
los bordes. Por tanto, la entrada al algoritmo de Hough es una imagen en la que se le ha
aplicado un detector bordes. Hough, desde una perspectiva global, intentar extraer las
primitivas de ms alto nivel como pueden ser lneas, elipses o cualquier tipo de curva
parametrizada o no. El mayor inconveniente es su alto coste computacional.
5.1.1.1 Deteccin de lneas rectas
Considerando un pxel de coordenadas (xi,yi), seleccionado como elemento que
representa un borde; sobre este pixel pasarn infinitas rectas:

yi axi b

(5. 2)

El modelo de todas las infinitas rectas que pasan por (xi,yi) queda definida por
los infinitos valores de a y b. Haciendo la transformacin al espacio paramtrico, a y b
quedarn definidos como:
b yi axi

(5. 3)

Al variar el parmetro a desde - a + se obtendr los infinitos valores de b. La


representacin geomtrica de b yi axi , en el espacio paramtrico, ser tambin una
recta. La caracterstica interesante de esta presentacin consiste que si dos pxeles que
pertenezcan a una misma lnea son representados en el espacio paramtrico, el modelo
de la recta est definido en la interseccin de las dos rectas del espacio paramtrico.

(xi,yi)

(a1,b1)
(a2,b2)

(xl,yl)

Figura 5. 5 Ejemplo de conversin hacia el espacio paramtrico

La transformada de Hough (1962) aplica este concepto para la localizacin de


lneas rectas en la imagen. Discretiza el espacio paramtrico en intervalos de [amin, amax]
y [bmin, bmax], creando una rejilla de celdas de acumulacin. Por cada pxel, considerado
como borde, se hace recorrer el rango dinmico de a obteniendo los valores de b. Por

Dpto. Electrnica, Automtica e Informtica Industrial

153

Carlos Platero

Apuntes de Visin Artificial

cada valor de a y b se le pone un voto en la celda correspondiente. Esta operacin se


hace con todos los pxeles etiquetados como bordes. Al finalizar, aquellas celdas con
ms votos indicarn la presencia de rectas en la y
imagen, cuyos modelos correspondern con las
coordenadas de las celdas ms votadas.

Sin embargo, el espacio paramtrico elegido


no es el ms correcto, ya que los rangos dinmicos
de a y b no estn limitados. En cambio, si se hace
una representacin en coordenadas polares, el

ngulo de la normal de la recta, , est limitado en


un intervalo de radianes, mientras la distancia de Figura 5. 6. Espacio paramtrico en
coordenadas polares
proyeccin, , est acotada por el tamao de la
imagen:
xi cos yi sen

(5. 4)

La representacin de un pxel seleccionado en este espacio paramtrico ser una


parte de una senoide.
Espacio de lneas
160

-150

140

rho (pixeles desde el centro)

-100
120
-50
100
0
80
50

60

100

40

150

20

20

40

60

80
100
theta (grados)

120

140

160

180

Figura 5. 7 Votaciones en el espacio paramtrico de coordenadas polares

Una forma de mejorar el coste computacional es aprovechar el ngulo del


gradiente de cada pxel, pues ste, aunque es de carcter local, dar una primera
aproximacin del ngulo de la normal. De esta forma, se disminuye el rango dinmico
de y por tanto del nmero de operaciones y de votos en la rejilla de acumulacin.

154

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

Detector de Canny

rho (pixeles desde el centro)

Catenaria

Espacio de lneas
150
-100
100

50

100
0

50
100 150
theta (grados)

Figura 5. 8. Transformadas de Hough para lneas rectas

Resolucin Matlab
imgEnt=imread('cables_gris.bmp');imshow(imgEnt);pause;
imgBorde=edge(imgEnt,'canny');imshow(imgBorde);
theta = 0:180;
[acum,rho] = radon(imgBorde,theta);
imagesc(theta,rho,acum), colorbar;
xlabel ('theta (grados)'), ylabel ('rho (pixeles desde el centro)')
title('Espacio de lneas');
Otro inconveniente de la transformada de Hough est en su salida, al retornar el
modelo de una recta infinita y no de un segmento. No se sabe donde empieza y acaba la
recta.

Dpto. Electrnica, Automtica e Informtica Industrial

155

Carlos Platero

Apuntes de Visin Artificial

Imagen de entrada

Imagen binarizada con detector de Canny

rho (pixeles desde el centro)

Espacio de lneas

Resultados de la transformada de Hough

-150

120

-100

100

-50
80
0
60

50

40

100

20

150
0

50

100
theta (grados)

150

Figura 5. 9 Resultados de la transformada de Hough, si las rectas tenan al menos 80 votos

5.1.1.2 Deteccin de crculos


Para este caso, el espacio paramtrico ser 3D, correspondiente a la posicin del
centro del crculo, (x0, y0), y al radio, r:

xi x0 2 yi y0 2 r 2

(5. 5)

Las votaciones de cada celdilla del espacio paramtrico se realizar variando la


posicin del centro del crculo, (x0, y0), para cada pxel etiquetado, (xi,yi), obteniendo
los distintos valores del radio, r. Por tanto, entrado en la rejilla de acumulacin por
posicin del centro del crculo y del radio calculado se proceder a depositar los votos
correspondientes. Los crculos seleccionados sern aquellos que superen un cierto
umbral de votos recibidos. El mayor inconveniente es su alto coste computacional. Una
forma de ahorro en el clculo es prefijar el valor del radio del crculo. Si se conoce el
radio, junto con la informacin de la orientacin del gradiente del pxel etiquetado,
(xi,yi), las posibles coordenadas del centro del crculo darn una nube de puntos
limitados. Se observa que fijado el radio, cada pxel etiquetado como borde se convierte
en una circunferencia en el espacio de las votaciones.
La ventaja de esta deteccin de los crculos proviene de las caractersticas
inherentes de las transformadas de Hough, la inmunidad al ruido y que es capaz de
detectar crculos, aunque exista oclusin del mismo. Por otro lado, en este tipo de
curvas, al ser cerradas, no hay problemas como suceda en las lneas rectas en cuanto a
su limitacin dentro de la imagen.

156

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

Figura 5. 10. Transformadas de Hough para crculos

Resolucin Matlab
imgEnt = imread('coins.png');radioMoneda = 30;
[y0,x0,Accumulator]=houghcircle(edge(imgEnt,'canny'),radioMoneda,4)
UmbralVotaciones = 45; [x,y]=find(Accumulator>UmbralVotaciones);
imshow(imgEnt);hold on;
for i=1:size(x,1)
dibujarCirculos(radioMoneda,y(i),x(i));
end;hold off
Las funciones houghcircle y dibujarCirculos no estn en el toolbox de Image Processing, stas han sido previamente
implementadas.

5.1.1.3 Transformadas
generalizadas

de

Hough

Cuando no hay expresin analtica en las

curvas a detectar, se emplean las transformadas de


Hough generalizadas. El mtodo es esencialmente
un detector de formas o curvas geomtricas.
Consiste en elegir un punto de referencia dentro del
objeto a describir, por ejemplo el centroide del
mismo, (xref,yref). Luego, siguiendo el borde del
objeto se obtiene una tabla donde se guarda la Figura 5. 11. Descripcin de Hough para
objetos cualesquieras
Dpto. Electrnica, Automtica e Informtica Industrial

157

Carlos Platero

Apuntes de Visin Artificial

distancia al punto etiquetado, r, el ngulo de apertura, , y la orientacin del gradiente


compensado, +90. La tabla ser indexada por la orientacin del gradiente
compensado, +90. Posteriormente, para cada pxel etiquetado se entrar en la tabla
segn la orientacin del gradiente compensado, +90, obtenindose el radio y el ngulo
de apertura, . Con estos valores se evaluar la expresin:

xref xi r cos

y ref yi r sen

(5. 6)

Retornado para cada valor de un punto de referencia distinta, (xref,yref). El


espacio de votaciones estar formado por:
a) Las coordenadas de referencia del objeto, (xref,yref).
b) Y la orientacin del objeto, .
La celda con ms votos indicar la posicin y orientacin del objeto en la
imagen. Como se ha comentado, las transformadas de Hough generalizadas se emplean
como descriptores de alto nivel de los bordes.

5.2 Umbralizacin
La umbralizacin es una tcnica de segmentacin ampliamente utilizada en las
aplicaciones industriales. Se emplea cuando hay una clara diferencia entre los objetos a
extraer respecto del fondo de la escena. Los principios que sigue son la similitud entre
los pxeles pertenecientes a un objeto y sus diferencias respecto al resto. Por tanto, la
escena debe caracterizarse por un fondo uniforme y por objetos bien contrastados.
Al aplicar un umbral, la imagen de niveles de grises quedar binarizada;
etiquetando con 1 los pxeles correspondientes al objeto y con 0 aquellos que son del
fondo. Por ejemplo, si los objetos son claros respecto del fondo, se aplicar:

1
g x, y
0

f x, y T
f x, y T

(5. 7)

f(x,y) es la funcin que retorna el nivel de gris del pxel (x,y), g(x,y) ser la
imagen binarizada y T es el umbral. En el caso de que los objetos sean oscuros respecto
del fondo, la asignacin sera:

1
g x, y
0

158

f x, y T
f x, y T

(5. 8)

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

El umbral puede depender de f(x,y), de alguna propiedad local del pxel, p(x,y) y
hasta de su propia posicin:

T T f x, y , px, y , x, y

(5. 9)

Si el umbral slo depende de f(x,y) se dice que es un umbral global; en el caso de


que adems dependa de p(x,y), por ejemplo, el valor medio del entorno de vecindad, el
umbral es denominado local y si depende tambin de la posicin del pxel, se
denominar dinmico. El problema es encontrar el umbral; operacin nada sencilla ya
que las imgenes suelen estar contaminadas. Para acotar el estudio, slo se centrar en
las tcnicas globales.
5.2.1 Segmentacin por histograma
La segmentacin por histograma es una tcnica global que se basa en una
definicin clara de los objetos respecto del fondo, con una iluminacin relativamente
uniforme en toda la escena. Se supone que el histograma est constituido por dos picos
y un valle. Al segmentar empleando el histograma, se observa que esta tcnica no
considera las relaciones de vecindad de los pxeles. El umbral estar definido
justamente en el valle del histograma.

4
x 10 Umbral de 43 segn Otsu

1.8

1.6

Escenario con clulas

1.4

Imagen binarizada

1.2

0.8

0.6

0.4

0.2

100

200

Figura 5. 12 Tcnica de segmentacin mediante anlisis del histograma

Esta tcnica es extensible a un histograma con N picos y N-1 valles, presentado


varios umbrales. Sin embargo, a mayor nmero de umbrales en la imagen, menos
fiables sern los resultados. La umbralizacin por histograma presenta ciertas
limitaciones:

Dpto. Electrnica, Automtica e Informtica Industrial

159

Carlos Platero

Apuntes de Visin Artificial

Es difcil identificar correctamente los mnimos del histograma.

Se tienen problemas cuando las regiones varan suavemente su nivel (por


ejemplo, la falta de iluminacin uniforme en la escena).

Se aplica slo cuando hay pocas regiones.

No se pueden distinguir regiones separadas por niveles de gris similares.

No considera la conectividad de los pxeles. Debido a este inconveniente,


se suele emplear a continuacin tcnicas de post-procesado morfolgico
(se tratarn en el captulo siguiente).

5.2.1.1 Seleccin ptima del umbral


Hay diferentes estrategias para la eleccin del umbral ptimo; entre ellas
destacan aquellas cuyos fundamentos se basan en:

Ajuste gaussiano.

Minimizacin de la varianza interclase.

Entropa del histograma.

Anlisis de la concavidad.

Mtodos basados en momentos.

Un resumen detallado de los distintos algoritmos se puede encontrar en artculos


especializados1. De entre todas las propuestas se va a destacar el umbral de Otsu, por su
alta utilizacin en las aplicaciones de la Visin Artificial.

5.2.1.1.1

Mtodo de Otsu

Este mtodo se basa en la suposicin de que las funciones de densidad del fondo
y de los objetos siguen un modelo gaussiano, N(f, f2) y N(o, o2). Sin prdida de
generalidad, se supone que el fondo es oscuro y los objetos brillantes. Cada clase estar
formada por los niveles de grises fijados por el umbral, T:

Sahoo, P.K., A survey of Thresholding Techniques, Computer Vision, Graphics


and Image processing, 41, pp. 233-260, 1988.

160

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

C f 0,1,2,..., T

Co T 1, T 2,..., I 1

(5. 10)

El umbral debe de minimizar la suma ponderada de las varianzas de las clases


fondo y objetos, ya que se supone que el modelo es la suma de las dos normales, las
cuales se aproxima al histograma real ponderado.
Para determinar los parmetros de los modelos se toman las probabilidades
muestreales de cada una de las clases. Considerando un valor fijo de umbral, T, las
probabilidades de cada categora sern:
T

PC f pi

PCo

i 0

I 1

i T 1

(5. 11)

Donde pi es la probabilidad muestreal de la intensidad i en la imagen. Las


medias y varianzas de cada grupo correspondern a:
T

1
PC f

i p

C2

1
PC f

i 0

1
PC0

C2

1
PCo

i 0

Cf

pi

I 1

i p

i T 1

I 1

i T 1

C0

pi

(5. 12)

Siendo entonces la varianza interclase ponderada:

p2 PC C2 PC C2
f

(5. 13)

Se recorre todo el rango de niveles de gris, desde T igual 0 hasta I-2,


calculndose la varianza ponderada y se elige el umbral, T, que minimiza este valor. La
imagen quedar binarizada como:

1
g x, y
0

f x, y T
f x, y T

5.3 Segmentacin orientada a las regiones


La estrategia a emplear en este tipo de segmentacin est basada en los criterios
de similitud y continuidad de los pxeles que forman una regin. Bajo esta perspectiva,
la imagen se considera formada por n regiones disjuntas, cada una de las cuales tiene
agrupada a los pxeles por alguna propiedad que los hace ser caractersticos de esa zona
y discrepantes respecto al resto. Desde el punto de vista formal, las condiciones de la
segmentacin orientada a regiones seran:

Dpto. Electrnica, Automtica e Informtica Industrial

161

Carlos Platero

Apuntes de Visin Artificial

a) I Ri
i 1

c)

pi R j PR j ( pi ) 1

b) Ri R j i j
d)

pi R j PR j ( pi ) 0

(5. 14)

Siendo I la imagen, Ri una regin de sta, pi un pxel cualquiera de la imagen y


PRj la regla de similitud de la regin j. Las dos primeras condiciones describen la
segmentacin como un proceso de particin de la imagen en regiones disjuntas;
mientras, las otras dos restantes hacen referencia a las propiedades de similitud de los
pxeles agrupados y de discrepancia respecto al resto.
5.3.1 Crecimiento de regiones
A partir de pxeles semillas se hace crecer la regin considerando alguna regla
de similitud y teniendo en cuenta la propiedad de conectividad de los pxeles. Una vez
definida una semilla, se analiza los vecinos segn la regla de similitud de la regin, PRj.
Los pxeles que cumplan la propiedad se aadirn a la regin de crecimiento. Aquellos
que no cumplan significarn que pertenecen a otra regin. Con los nuevos pxeles
unidos a la regin de crecimiento, se volver a procesar sus nuevos vecinos. El
algoritmo de crecimiento finalizar cuando todos los vecinos hayan sido estudiados.
Obsrvese el carcter de conectividad espacial y similitud radiomtrica de la tcnica de
segmentacin de crecimiento de regiones.
Esta estrategia tiene dos problemas: a) Cul es el criterio de similitud de las
regiones?, y b) Cmo se definen las semillas de las regiones?. Para la primera cuestin,
las reglas de similitud de las regiones se fundamentan en alguna propiedad tal como
luminancia, color, textura, etc. Por ejemplo, se presentan tres reglas basadas en la
intensidad de los pxeles:
a) f x, y f xs ,i , y s ,i T

b) f x, y Ri T

c) f x, y Ri k Ri (5. 15)

Donde f(x,y) es la intensidad del pxel (x,y), f(xs,i,ys,i) es nivel de gris de la


semilla, T es un umbral, Ri es el brillo de la regin de crecimiento Ri y 2Ri es su
varianza o contraste. La primera regla aade pxeles vecinos que sean menores a una
variacin determinada del nivel de gris respecto a la semilla, fijada por el umbral T. La
segunda actualiza la comparacin en cada iteracin con el valor medio de intensidad de
la regin creciente. Por ltimo, en la tercera se emplea como umbral k veces la
desviacin tpica de la regin.
La segunda cuestin resulta ser tan decisiva como la regla de similitud: cul es
el pxel semilla?. La eleccin de uno u otro pxel hace que el resultado final de la
segmentacin pueda variar. Estas tcnicas suelen ser frgiles en sus resultados por la
alta dependencia entre los pxeles semillas y las reglas de similitud. Por tanto, se suele
acompaar con otras estrategias para incrementar su robustez. La eleccin de la semilla
puede abordase buscando el nivel de gris de mayor probabilidad en el histograma. Para
su situacin espacial se puede apoyarse en una deteccin de los bordes, los cuales
delimitarn las fronteras de las regiones. Los centroides de las reas delimitadas por las

162

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

fronteras, junto con el valor del nivel de gris del entorno del centroide, dar un conjunto
de semillas. En todo caso, la casustica de cada problema de anlisis de imagen decidir
que algoritmia emplear en la localizacin de las semillas y en las reglas de similitud.

Figura 5. 13 a) imagen adquirida con etiquetado los pxeles semilla b) Resultados de la


tcnica de crecimiento empleando la regla del brillo de la regin creciente

5.3.2 Pirmides y rboles cuaternarios


Muchas tcnicas de anlisis de imgenes, no
slo las tcnicas de segmentacin orientada a
regiones, emplean en su procesamiento distintas
resoluciones espaciales de la imagen. La
informacin visual se puede organizar en forma de
pirmide. En la base se encontrara la mxima
resolucin espacial, con M filas y N columnas y a
partir de este valor, se reducira el nmero de
pxeles en cada nivel ascendiente en la pirmide Figura 5. 14. Pirmide de resoluciones de
la imagen
hasta alcanzar la cspide con un nico
pxel. Normalmente, se suele emplear
un promediado de los pxeles en la
reduccin de la resolucin espacial, de
un nivel a otro.
Una de las formas piramidales
de resolucin son los rboles
cuaternarios (quadtree). La imagen de
mxima resolucin se divide en cuatro
rectngulos iguales. Cada regin es Figura 5. 15 Estructura de rboles cuaternarios

Dpto. Electrnica, Automtica e Informtica Industrial

163

Carlos Platero

Apuntes de Visin Artificial

posteriormente dividida en otras cuatro subregiones. Estas divisiones se van haciendo


recursivamente hasta alcanzar a nivel de pxel. Por tanto, por cada nodo o regin padre
colgarn otras cuatro subregiones. Esta organizacin de los datos se denomina rbol
cuaternario.
Sin embargo, estas divisiones arbitraria de las regiones en otras sub-cuatros, en
cualquier nivel de la pirmide, hace que sean divisiones geomtricas de cuatro
subregiones de igual nmero de pxeles. Esta forma de dividir no tiene en cuenta el
contenido de la escena, produciendo una descomposicin rpida desde el punto de vista
computacional, pero pobre desde el punto de vista de anlisis de las imgenes. Las
tendencias actuales es a una actuacin mixta. Las nuevas particiones tienen en cuenta la
existencia de bordes de la imagen obtenida de la informacin radiomtrica.
5.3.3 Divisin y fusin de regiones
Uno de los puntos dbiles de las tcnicas de crecimiento de regiones est en la
localizacin de las semillas. Para superar esta situacin se pasa a la descomposicin de
la imagen en regiones arbitrarias, de forma que si la regin es muy discrepante con
algn tipo de regla se dividir, en caso contrario, buscar fusionarse con las regiones
adyacentes.
Esta tcnica suele emplear una descomposicin inicial de la imagen empleando
un rbol cuaternario. En esta fase, la imagen se ha particionado en un conjunto de
regiones arbitrarias y disjuntas. La regla de divisin suele estar relacionada con el
contraste o varianza de la regin. Si la varianza es elevada se pasar a descomponerlo en
otras cuatro subregiones.

Figura 5. 16 Divisin de la imagen de entrada empleando rboles cuaternarios

Una vez dividida la imagen con diferentes grados de resolucin, se procede a la


fusin de regiones adyacentes empleando tcnicas de crecimiento de regiones.

164

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

Figura 5. 17. Resultado de la fusin de las regiones empleando tcnicas de crecimiento de


regiones

Los resultados de esta tcnica de segmentacin hacen no preservar los contornos


reales de los objetos. Esta consecuencia se debe al proceso de divisin de la imagen en
cuatro reas iguales, sin considerar el contenido existente en ellas.

Resolucin Matlab
%Divisin de la imagen
imgEnt = imread('liftingbody.png');
im1=imfilter(imgEnt,fspecial('gaussian'));
imgDescomp = qtdecomp(im1,.27);
imgDivision = imgEnt;
for dim = [128 64 32 16 8 4 2 1]
[valores,fila,columna] = qtgetblk(im1, imgDescomp, dim);
if (~isempty(valores))
doublesum = sum(sum(valores,1,'double'),2);
end
imgDivision = qtsetblk(imgDivision, imgDescomp, ...
dim, doublesum ./ dim^2);
end

Dpto. Electrnica, Automtica e Informtica Industrial

165

Carlos Platero

Apuntes de Visin Artificial

5.4 Ejercicios
1. Estado actual de las tcnicas de segmentacin.
2. Clasificacin de las tcnicas de segmentacin.
3. Transformadas de Hough para lneas rectas y crculos.
4. Mtodo de umbralizacin de Otsu.
5. Tcnicas de crecimiento de regiones.
6. Tcnicas de divisin y fusin de regiones.

5.5 Problemas
Ejercicio 1

Dada la siguiente imagen calcular

1.

El

2
2

2
3

2
2

3 2 2 3 2

8 9 2 2 3
9 10 3 2 2

8 9 9 8 2
:
8 2 3 3 2

9 9 2 2 3
8 8 9 8 4 2 2

2 3 2 2 2 2 2
3
2
2
9
8
9

4
2
2
8
8
8

mdulo

del
gradiente
mediante
la
aproximacin
. Utilice la mscara ms simple para la
implementacin de la diferenciacin y para los bordes replique el valor de los
pxeles de frontera (condicin de Neumman).
f ( x, y) x f ( x, y) y f ( x, y)

2. Determinar el umbral ptimo para la deteccin de los bordes y


representar la imagen resultado.
Las diferencias finitas en cada componente son:

166

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial


0

0
0

0
x f x, y
1

1
0

el

ambas:

Captulo 5: Segmentacin

0
1
0
7
1
1

0
2
0
6
0
0

0
5
1
1
0
1

0
7
0
0
7
7

1
6

0
5

0
7

1
6

mdulo

del

0
0

0
f x, y
1

1
0

0
0

0
0
0
1

0
6
y f x, y
0
6

1
0
0
2

gradiente

1
0
0
7
5
7

1
0
0
1
0
1

1
6
7
0
0
1

1
1
0
1
6
0

6
0

0
1

1
1

1
0

aproximadamente

1
1
0
14
6
8

1
2
0
7
0
1

1
11
8
1
0
2

1
8
0
1
13
7

7
6

0
6

1
8

2
6

ser

la

7
6

0
1

7
4

suma

de

7
7

6
.
7

8
6

Analizando el histograma se observa que el umbral de 6 servir para detectar los bordes:
20
18
16
14
12
10
8
6
4
2
0
0

10

Dpto. Electrnica, Automtica e Informtica Industrial

1
2

14

167

Carlos Platero

Apuntes de Visin Artificial

Ejercicio 2
Dado los puntos: (x,y) = {(1,0), (3,2), (4,3), (3,4)}. Determinar mediante la
transformada de Hough, como tres de ellos pertenecen a la misma recta.
Para cada punto se muestrea las votaciones, tal que a = y bx:
a = y i - b*x i
15

(1 0) azul
(3 2) verde
(4 3) rojo
(3 4) cian

10

-5

-10
-3

-2

-1

0
b

Ejercicio 3
Detectar las lneas de la imagen binarizada mediante las transformadas
de Houhg. Emplear el espacio paramtrico en coordenadas polares
( xi cos yi sen ) y con solo muestreo de los ngulos de 0 y 90.

0
0

0
0

0
0

1 1 1 1 1 1

0 0 0 0 0 0
0 0 0 0 0 1

0 0 0 0 0 1
0 0 0 0 0 1

0 0 0 0 0 1
0 0 0 0 0 1

Los valores muestreados de para cada pxel detectado de borde es:


xi

yi

168

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

90

Captulo 5: Segmentacin

Las votaciones sern:

90

Las rectas estarn definidas por las normales = 1 y 0 junto con = 7 y


90 .
Ejercicio 4
Segmentar el vaso capilar de la mamografa de la figura a) como se
muestra en b)

Se trata de determinar la recta que identifica el vaso


capilar presente en la mamografa. Para ello se utilizar la
transformada de Hough. Primero se aplica una deteccin de
bordes, por ejemplo, mediante el algoritmo de Canny, donde
habr que definir la escala, a travs de la varianza, y el nivel de
umbral.
Una vez obtenida la imagen binaria de deteccin de
bordes, f(x,y), se procede al siguiente algoritmo:
a) Inicializacin de la matriz de votaciones:
C(, ) = 0, para = 1,...,a, = 1,..., b.
b) Para = 1,...,a:
Para todos los pixeles (xi, yi) con f(xi, yi)=1 se determina:
= xi cos + yi sen

Dpto. Electrnica, Automtica e Informtica Industrial

169

Carlos Platero

Apuntes de Visin Artificial

y se aade el voto: C(, ) = C(, ) + 1.


El algoritmo da la matriz de votaciones C(,). La recta se determinar con la
celda de mayor votacin.
Espacio de lneas
35

rho (pixeles desde el centro)

-100

30
-50
25
20

15
50

10
5

100
0

20

40

60

80
100
120
theta (grados)

140

160

180

Ejercicio 5
Para la siguiente figura, con 8 niveles de grises de cuantificacin,
obtener:
a) Umbral mediante mtodo Otsu

1
1

3
2

2
1

1
0

nivel(i)
h(i)
p(i)

T
0
170

0
6
0.06

Pcf
0.06

1
33
0.33

Pco
0.94

1
1
1
2

2
3
2
3

0
3
2
6

2
3
5
6

2
3
3
6

1
2
2
2

3
2
2
2

1
1
1
1

2 6 7 7 6 6 1 1
2 6 6 7 6 6 0 3
2 2 6 5 5 3 2 1
1 2 3 5 5 3 2 1
1 1 3 3 3 3 2 2
1 1 1 1 2 1 1 1
2
26
0.26

3
16
0.16

cf
0

4
0
0

cf
2.60

0
1

1
1
2

1
0

1
0
5
5
0.05

2cf
0

6
11
0.11

2cf
3.30

7
3
0.03

2P
3.10

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

1
2
3
4
5
6

0.39
0.65
0.81
0.81
0.86
0.97

Captulo 5: Segmentacin

0.61
0.35
0.19
0.19
0.14
0.03

0.84
1.30
1.64
1.64
1.83
2.30

3.47
4.57
5.89
5.89
6.21
7.00

0.13
0.39
0.77
0.77
1.34
2.93

2.93
2.30
0.41
0.41
0.16
0

1.84
1.06
0.70
0.70
1.18
2.84

Evolucin de varianza ponderada


3.5

2.5

1.5

0.5

El umbral segn el mtodo de Otsu ser 3 4.


Ejercicio 6
Segmente la imagen empleando crecimiento de regiones a partir de la
semilla indicada. Aplique vecindad a 4 y utilice la regla: f x, y f xs , ys 1 .

1
1

3
2

2
2

1
1

1
1
1
2

2
3
2
3

0
3
2
6

2
3
5
6

2
3
3
6

1
2
2
2

3
2
2
2

1
1
1
1

2 6 7 7 6 6 1 1
2 6 6 7 6 6 0 3
2 2 6 5 5 3 2 1
1 2 3 5 5
1 1 3 3 3
1 1 1 1 2

3
3
1

2 1
2 2
1 1

0
1

1
1

2
1

0
1
0

Ejercicio 7
Para la siguiente matriz, realizar una descomposicin de rbol
cuaternario empleando como regla de divisin de la regin que la diferencia
Dpto. Electrnica, Automtica e Informtica Industrial

171

Carlos Platero

Apuntes de Visin Artificial

entre el nivel de gris mximo y mnimo debe de mayor a un determinado


umbral:
a) Obtener el rbol cuaternario si el umbral es 5.
b) Obtener la matriz de salida con el umbral anterior.

1
1
1

1
1
1

2
1
1

1
1
1

4
7
6

5
7
6

6
7
5

20
20
20
20

22
22
22
22

20
22
20
20

22 1
20 5
20 9
20 13

2
4
12
14

3
7
40
15

8
7

5
4
8

12
16

a)

1
1
1

1
1
1

2
1
1

1
1
1

4
7
6

5
7
6

6
7
5

20
20
20
20

22
22
22
22

20
22
20
20

22 1
20 5
20 9
20 13

2
4
12
14

3
7
40
15

8
7

5
4
8

12
16

b)

1.06 1.06 1.06 1.06 3.5 3.5 6.5 6.5

1.06 1.06 1.06 1.06 3.5 3.5 6.5 6.5


1.06 1.06 1.06 1.06 6.5 6.5 6 6

1.06 1.06 1.06 1.06 6.5 6.5 6 6


20.75 20.75 20.75 20.75 3 3 5.5 5.5

20.75 20.75 20.75 20.75 3 3 5.5 5.5

20.75 20.75 20.75 20.75 12 12 40 12


20.75 20.75 20.75 20.75 12 12 15 16

Ejercicio 8
Dada la imagen I aplicar el mtodo de divisin mediante rboles
cuaternarios, luego proceda al crecimiento de regiones con vecindad a 4 y

172

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 5: Segmentacin

segmente. Aplicar la regla de similitud: la diferencia en valor absoluto entre un


pxel y la media de la regin debe ser inferior a 2.
2

2
I
7

2 4 4

2 3 3
8 1 7

8 8 9

Al aplicar rboles cuaternarios quedaran definidas las siguientes regiones:


2

2
7

3
8 1 7

8 8 9
2
2

4
3

2 2
4 4
7 8
R1
R2
R3
R4 1 R5 8 R6 7 R7 9
2 2
3 3
7 8

Procediendo al crecimiento de regiones con las siguientes fusiones:


R1 R2 R4
0

0
S
1

R3 R5 R6 R7
0 0 0

0 0 0
1 0 1

1 1 1

Derecho de Autor 2016 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".
La Licencia de documentacin libre GNU (GNU Free Documentation License)
es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

Dpto. Electrnica, Automtica e Informtica Industrial

173

Procesamiento morfolgico

Las tareas de segmentacin no suelen dar un resultado exacto de la delimitacin


de los objetos o regiones de inters. Aparecen pxeles mal clasificados, bordes
imprecisos de los objetos o regiones que estn solapadas. Por tanto, antes de extraer ms
caractersticas de medio nivel se requiere de una etapa de post-procesamiento. En esta
fase se suele emplear el tratamiento morfolgico. Es una tcnica de procesamiento no
lineal de la seal, caracterizada por realzar la geometra y la forma de los objetos. Su
fundamento matemtico se basa en la teora de conjunto. Aunque en un principio se
aplicar sobre las imgenes binarizadas, luego se extender a las imgenes en niveles de
grises. Este uso, a niveles de grises, permitir vislumbrar que el procesamiento
morfolgico tambin se puede utilizar como tcnica de procesado de la seal.
Concluyendo, estas nuevas herramientas se pueden emplear tanto en el procesado, como
en las etapas de segmentacin-postprocesado o en fases de mayor nivel de informacin
visual. Actualmente se puede encontrar aplicaciones en la restauracin de imgenes, en
la deteccin de bordes, en el anlisis de texturas, en el aumento del contraste y hasta en
la compresin de las imgenes.

6.1 Procesamiento morfolgico de imgenes


Para la definicin de las operaciones bsicas del procesamiento morfolgico de
imgenes binarias se precisa repasar algunas nociones bsicas de la teora de conjuntos.

Inclusin: Y es subconjunto de X si todos los elementos de Y pertenecen a X:

Dpto. Electrnica, Automtica e Informtica Industrial

173

Carlos Platero

Apuntes de Visin Artificial

Y X p Y p X
La inclusin es reflexiva X X , antisimtrica Y X y X Y

(6. 1)

X Y

y transitiva Y X y X Z Y Z . Un conjunto que cumpla estas tres


condiciones se dice que es un conjunto totalmente ordenado.

Interseccin: La interseccin de dos conjuntos X e Y es el conjunto de los


elementos que pertenecen a ambos conjuntos:

X Y p | p X

p Y

(6. 2)

La interseccin es conmutativa, asociativa e idempotente. Esta ltima propiedad


es importante en Morfologa e indica que X X X .

Unin: La unin de dos conjuntos se constituye por los elementos que


pertenecen a uno o al otro:

X Y p | p X

p Y

(6. 3)

Al igual que la interseccin, la unin de conjuntos es conmutativa, asociativa e


idempotente.

Extensiva y antiextensiva: Una transformacin, , sobre un conjunto, X, es


extensiva si el conjunto entrada est incluido en el conjunto salida. Se dice
que es antiextensiva cuando el resultado de la transformacin est incluido
en el conjunto de la entrada:

Extensiva : X X

AntiExtens iva : X X

(6. 4)

Idempotente: Una transformacin, , es idempotente cuando al aplicarla otra


vez sobre s misma, el resultado se mantiene:

X X

(6. 5)

El objetivo de las transformaciones morfolgicas es la extraccin de estructuras


geomtricas en los conjuntos sobre los que se opera, mediante la utilizacin de otro
conjunto de forma conocida, al que se le denomina elemento estructurante. El tamao y
forma del elemento estructurante se elige, a priori, de acuerdo con la morfologa sobre
la que va a interseccionar y en funcin de las formas que se desea extraer. En la figura
adjunta aparecen algunos tipos de elementos estructurantes empleados en el
procesamiento morfolgico.

174

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

Figura 6. 1. Elementos estructurantes tpicos

6.1.1 Erosin binaria


La transformacin de la erosin es el resultado de comprobar si el elemento
estructurante B est completamente incluido dentro del conjunto X. Cuando no ocurre,
el resultado de la erosin es el conjunto vaco:

B X x | Bx X

(6. 6)

Cuando los objetos de la escena sean menores que el elemento estructurante,


stos desaparecern. Otra interpretacin de la erosin supone tomar el valor mnimo del
entorno de vecindad definido por el elemento estructurante.
Su utilidad consiste en definir una geometra determinada por el elemento
estructurante y pasarlo sobre la imagen binarizada. Los objetos de menor tamao que el
elemento estructurante no aparecern en la imagen resultante. Los objetos que queden
de la transformacin habrn sido degradados. Por tanto, la erosin supone una
degradacin de la imagen. La aplicacin iterativa de esta transformacin har que se
eliminen todos los objetos existentes en la imagen. La erosin es una transformacin
antiextensiva:

B X X

(6. 7)

Figura 6. 2 a) imagen original, b) imagen umbralizada, c) imagen erosionada con elemento


estructurante tipo disco de radio 2

Dpto. Electrnica, Automtica e Informtica Industrial

175

Carlos Platero

Apuntes de Visin Artificial

Resolucin Matlab
>>imgEnt=imread('rice.png');imshow(imgEnt);pause;
>>umbral=graythreshold(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>> se = strel('disk',2);
>> imgEroBW = imerode(imgBW,se);
>> imshow([imgBW,imgEroBW]);

6.1.2 Dilatacin binaria


La dilatacin es la transformacin dual a la erosin. El resultado de la dilatacin
es el conjunto de elementos tal que al menos algn elemento del conjunto estructurante
B est contenido en el conjunto X, cuando B se desplaza sobre el conjunto X:

B X x | X Bx

(6. 8)

Esta operacin representa un crecimiento progresivo del conjunto X. Al pasar el


elemento estructurante dentro del conjunto, ste no se modificar. Sin embargo, en la
frontera del conjunto X, al desplazar a B, el conjunto resultado se expansionar. La
aplicacin iterada de este operador hara degradar la imagen, haciendo coincidir el
conjunto dilatado con la totalidad del dominio de la imagen. La dilatacin es una
transformacin extensiva:

X B X

(6. 9)

La dilatacin tambin se puede interpretar como el valor mximo del entorno de


vecindad definido por el elemento estructurante.
Las aplicaciones de las operaciones de erosin seguida con una dilatacin no son
conmutativas. Los resultados son diferentes, dando paso a las aperturas y cierres
morfolgicos.

176

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

Resolucin Matlab
>>imgEnt=imread('coins.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>> se = strel('disk',5);
>> imgDilBW = imdilate(imgBW,se);
>> imshow([imgBW,imgDilBW]);
6.1.3 Procesamiento morfolgico en niveles de grises
Las operaciones de erosin y dilatacin son crecientes, respectan el orden
presente en la estructura del conjunto. Para dos imgenes f y g:
Si
Si

f g f g

f g f g

(6. 10)

Gracias a esta propiedad, las operaciones morfolgicas pueden extenderse del


caso binario a la escala de grises, puesto que estas ltimas seales pueden expresarse
como una suma ponderada de imgenes binarias.
Desde un punto de vista formal, una funcin puede ser vista como una pila de
conjuntos decrecientes. Cada conjunto es la interseccin entre el umbral de la funcin y
un plano horizontal.

La erosin de una funcin en un punto ser


el valor mnimo de la funcin dentro de la ventana
definida por el elemento estructurante, B, cuando el
origen de B est situado en dicho punto. La
dilatacin de una funcin ser la operacin dual.
Retornar el valor mximo de la funcin definido
por el elemento estructurante:

Dpto. Electrnica, Automtica e Informtica Industrial

177

Carlos Platero

Apuntes de Visin Artificial

B f min f x y , y B
B f max f x y , y B

(6. 11)

El resultado de la erosin sobre imgenes en niveles de grises hace que la


imagen de salida sea ms oscura. La imagen resultado de la dilatacin es una imagen
ms clara.

Resolucin Matlab
>>imgEnt=imread('cameraman.tif');imshow(imgEnt);pause;
>>se = strel('disk',3);
>>imgDilGris = imdilate(imgEnt,se);
>>imgEroGris = imerode(imgEnt,se);
>>imshow([imgEnt,imgEroGris,imgDilGris]);

Erosin y dilatacin en niveles de grises

6.1.4 Apertura y cierre


Usando los operadores elementales de erosin y dilatacin se pueden disear
operaciones de realce de las formas de los objetos. La erosin binaria suele utilizarse
para eliminar pequeos objetos, prctica que suele ser utilizada en la fase de postprocesado, despus de una segmentacin inicial. Sin embargo, tiene el inconveniente de
disminuir el tamao de los objetos que son mayores al elemento estructurante. Este
efecto puede ser subsanado con una aplicacin en cascada de erosin y dilatacin
binaria con igual elemento estructurante. A esta operacin se la llama apertura
(opening):

B X B B X

(6. 12)

La apertura binaria elimina todos los objetos que no estn completamente


contenidos en el elemento estructurante, pero adems no disminuye el tamao a los
objetos que superen la erosin. Sin embargo, la imagen resultante no recupera la misma
forma de los objetos filtrados de la imagen de entrada. Esta operacin puede ser ideal
para la eliminacin de ruido, aunque no preserva la geometra de los objetos. Los bordes
de los objetos sern suavizados.

178

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

Figura 6. 3 a) Imagen segmentada, b) erosin con elemento estructurante de disco de radio 2,


c) Apertura con elemento estructurante de disco de radio 2

Resolucin Matlab
>>imgEnt=imread('rice.png');imshow(imgEnt);pause;
>>umbral=graythres(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>>se = strel('disk',2);
>>imgEroBW = imerode(imgBW,se);
>>imgOpenBW = imopen(imgBW,se);
>>imshow([imgBW,imgEroBW, imgOpenBW]);
Por el contrario, la dilatacin binaria opera aumentando el tamao de los objetos,
cerrando los agujeros y las grietas. El ensanchamiento de los objetos puede ser reducido
mediante la aplicacin seguida de una erosin. La operacin combinada de dilatacin y
erosin es llamada cierre (closing):

B X B B X

(6. 13)

El cierre binario morfolgico produce que la dilatacin rellene las estructuras


que la erosin no puede separar. Los contornos de los objetos tambin sern suavizados,
pero habiendo rellanado las fisuras.

Figura 6. 4 a) Imagen segmentada, b) dilatacin c) Cierre

Dpto. Electrnica, Automtica e Informtica Industrial

179

Carlos Platero

Apuntes de Visin Artificial

Resolucin Matlab
>>imgEnt=imread('coins.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>>se = strel('disk',3);
>>imgDilBW = imdilate(imgBW,se);
>>imgCloseBW = imclose(imgBW,se);
>>imshow([imgBW,imgDilBW, imgCloseBW]);
En imgenes en niveles de grises, la apertura eliminar formas claras menor que
el elemento estructurante; mientras el cierre, los objetos oscuros menores al elemento
estructurado sern eliminados.
Apertura y cierre en niveles de grises

Resolucin Matlab
>>imgEnt=imread('cameraman.tif');imshow(imgEnt);pause;
>>se = strel('disk',3);
>>imgOpenGris = imopen(imgEnt,se);
>>imgCloseGris = imclose(imgEnt,se);
>>imshow([imgEnt,imgOpenGris,imgCloseGris]);

El cierre y la apertura son operaciones idempotentes:

B B X B B B B X
B B X B B B B X

(6. 14)

La aplicacin de una segunda vez o sucesivas de un closing o un opening con


igual elemento estructurante no muestra cambios de una a otra.
Las transformaciones del conjunto inicial, X, sobre un elemento estructurante
refleja las siguientes relaciones de extensin y antiextensin:

B X B B X X B B X B X

180

(6. 15)

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

6.1.5

Captulo 6: Procesamiento morfolgico

Gradiente morfolgico

El residuo de dos operaciones y es su diferencia.


Para el caso de conjunto, esta diferencia se define como:

X X \ X

(6. 16)

Y en el caso de las funciones:

f f f

(6. 17)

El primer residuo que se puede definir en Morfologa es el gradiente. Como


consecuencia de las relaciones de extensin y antiextensin definidas sobre los
operadores morfolgicos se establece el concepto de gradiente morfolgico. El
gradiente morfolgico o de Beucher es el residuo entre la imagen original y su erosin o
entre una dilatacin y la imagen original o entre una dilatacin y una erosin:
g X X \ B X

g X B X \ X

gX B X \ B X

gradiente por erosin

(6. 18)

gradiente por dilatacin


gradiente simtrico

Su utilidad est en la localizacin de los bordes o permetro de los objetos. La


eleccin del tipo de gradiente morfolgico depender de la geometra de los objetos.

Gradientes morfolgicos o de Beucher

Figura 6. 5 a) Imagen segmentada b) gradiente por erosin, c) gradiente por dilatacin d)


gradiente por simetra

Dpto. Electrnica, Automtica e Informtica Industrial

181

Carlos Platero

Apuntes de Visin Artificial

Resolucin Matlab
>>imgEnt=imread('coins.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>>se = strel('disk',3);
>>imgDilBW = imdilate(imgBW,se); imgEroBW = imerode(imgBW,se);
>>imgGraEro=imgBW-imgEroBW; imgGraDil=imgDilBW-imgBW;
>>imgGraSim= imgDilBW- imgEroBW;
>>imshow([imgBW,imgGraEro;imgGraDil,imgGraSim]);

Para el caso de niveles de grises, los gradientes de Beucher quedan definidos


como:
gf f Bf

g f B f f

gradiente por erosin

g f B f B f

gradiente por dilatacin


gradiente simtrico

(6. 19)

Gradiente morfolgico de Beucher

182

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

Resolucin Matlab
>>imgEnt=imread('cameraman.tif');imshow(imgEnt);pause;
>>se = strel('disk',3);
>>imgDilGris = imdilate(imgEnt,se);
>>imgEroGris = imerode(imgEnt,se);
>>imshow([imgEnt,imgEnt-imgEroGris;imgDilGris-imgEnt,
imgDilGris-imgEroGris]);
Destacar como el gradiente simtrico intensifica la deteccin de los bordes. El
gradiente por erosin y el gradiente por dilatacin son operaciones complementarias
entre s. El gradiente simtrico es la suma de los dos gradientes por erosin y por
dilatacin.
6.1.6 Top-hat
Es otra operacin de residuo. Las transformaciones Top-hat consisten en
descubrir aquellas estructuras de la imagen que han sido eliminadas en el filtrado de
apertura o cierre. Una operacin entre la imagen original y el filtrado aumenta
considerablemente el contraste de las zonas eliminadas. Esta operacin se define como
un residuo entre la imagen original y la apertura o bien entre el cierre y la imagen de
partida:

B X B B X \ X B f B B f f
B X X \ B B X B f f B B f

(6. 20)

Figura 6. 6 a) Imagen segmentada b)Top-hat: cierre e imagen, c) Top-hat: imagen y apertura

Resolucin Matlab
>>imgEnt=imread('coins.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>>se = strel('disk',3);
>>imgCloseBW = imclose(imgBW,se); imgOpenBW = imopen(imgBW,se);
>>imshow([imgBW, imgCloseBW- imgBW, imgBW -imgOpenBW]);

Dpto. Electrnica, Automtica e Informtica Industrial

183

Carlos Platero

Apuntes de Visin Artificial

Top-hat en niveles de grises

Resolucin Matlab
>>imgEnt=imread('cameraman.tif');imshow(imgEnt);pause;
>>se = strel('disk',3);
>>imgOpenGris = imopen(imgEnt,se);
>>imgCloseGris = imclose(imgEnt,se);
>>imshow([imgEnt,imgEnt-imgOpenGris,imgCloseGris-imgEnt]);

6.2 Transformaciones geodsicas


El concepto fundamental en el desarrollo geodsico
es la conectividad. En el caso discreto, la conectividad se
define como una vecindad de los pxeles adyacentes.
La distancia geodsica dX(x,y) entre dos puntos, x e
y pertenecientes al conjunto X, es el mnimo de todos los
caminos desde x hasta y formados por puntos intermedios
pertenecientes al conjunto X. Si en el conjunto hay
regiones no conectadas, la distancia geodsica entre dos
elementos de estas regiones es infinita. La distancia
geodsica satisface los tres axiomas de cualquier mtrica:
d X x, y d X y , x
d X x, y 0

Figura
6.
geodsica

Distancia

x y

d X x, z d X x, y d X y , z

(6. 21)

La distancia geodsica siempre ser mayor o igual a la


distancia eucldea.
A partir de la distancia geodsica es posible definir el
concepto de disco geodsico:
Figura 6.
geodsico

184

Disco

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

BX , z y | d X z, y , z X , y X

Cuando el radio se incrementa, , el disco progresa como una onda emitida


desde el epicentro, z, dentro del medio de propagacin delimitado por el conjunto, X.
Para un valor de radio, , BX,(z) puede ser visto como un elemento estructurante que
vara en funcin del radio, , y de su epicentro, z.
6.2.1 Dilatacin y erosin geodsica
La dilatacin geodsica est vinculada al concepto de disco
geodsico. De hecho, la unin de los discos geodsicos se
corresponde con la dilatacin geodsica de Y (marcador) dentro de X
(mascara); tal que el marcador est incluido dentro de la mscara,
Y X . La dilatacin geodsica binaria de tamao de Y incluido X
se define como:
Figura 6. 9. Dilatacin

X , Y BX , y , y Y

geodsica

La mscara acta como lmite de propagacin de la dilatacin


del marcador. En el caso de imgenes binarias, la dilatacin geodsica
de tamao unitario se define como:

X Y Y X

(6. 22)

Siendo (Y) la dilatacin clsica isotrpica de tamao unitario.


La dilatacin geodsica de tamao n es obtenida por iteracin de la
dilatacin geodsica unitaria:

X ,n Y n X Y ... Y X X ... X

(6. 23)

La erosin geodsica binaria es la transformacin dual a la


dilatacin geodsica con respecto al conjunto complementario. En
este caso, la mascara est contenida en el marcador, X Y . El
Figura 6. 10. Ejemplo de
conjunto marcador se erosiona y seguidamente se calcula la unin dilatacin geodsica en
entre la mscara y el marcador erosionado. La erosin geodsica es imgenes binarias
mayor o igual a la mascara; la mscara ser el lmite a la erosin del
marcador

X Y Y X
Donde es la erosin isotrpica de tamao unitario.

Dpto. Electrnica, Automtica e Informtica Industrial

185

Carlos Platero

Apuntes de Visin Artificial

Figura 6. 11 Erosin geodsica

En el caso de imgenes en niveles de grises o


funciones, ests deben de cumplir que la funcin
marcador, g, deber ser menor a la funcin mscara,
f, gf. La versin discreta de la dilatacin geodsica
numrica es:

f g min g , f

f ,n g n f g f ... f f g ...

(6. 24)

La mscara frena la dilatacin clsica del


marcador. Al igual que la dilatacin clsica, la
dilatacin geodsica es una operacin creciente y Figura 6. 12. Dilatacin geodsica numrica
extensiva.
Siguiendo la dualidad respecto a la dilatacin, la erosin geodsica numrica se
define como (fg):

f g max g , f

Figura 6. 13. a) Seales b) Erosin, c) Erosin geodsica numrica

La erosin geodsica es menor o igual al marcador. El lmite de la erosin est


en la mscara.

186

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

6.2.2 Reconstruccin geodsica


Tanto la dilatacin como la erosin geodsica cuando se iteran convergen a la
idempotencia en un nmero finito de pasos.
La reconstruccin por dilatacin de una imagen-mascara X desde una imagenmarcador Y se define como una dilatacin geodsica de Y respecto a X hasta la
idempotencia. Se puede contemplar como una dilatacin geodsica infinita:

X , Y X , Y , 0

(6. 25)

O como una iteracin de dilataciones geodsicas unitarias hasta que no se


produzcan cambios:
R X Y Xi Y

(6. 26)

Donde i es tal que Xi Y Xi 1 Y . Entre alguna de sus aplicaciones, como se


ver en el siguiente apartado, la reconstruccin por dilatacin representar una apertura
morfolgica mejorada, ya que preserva la forma de los objetos que no han sido
eliminados por el proceso de erosin.
La reconstruccin por erosin se define igualmente como:
R * X Y Xi Y

(6. 27)

Siendo i el nmero de iteraciones en el que se consigue la idempotencia. Las


definiciones para funciones o imgenes en niveles de grises son similares:

R f g if g
R * f g if g

(6. 28)

6.2.3 Aplicaciones de la reconstruccin morfolgica


Se presenta a continuacin algunas aplicaciones basadas en la composicin de
operaciones geodsicas. Los algoritmos basados en la reconstruccin son la base de
numerosas transformaciones. Los resultados de la reconstruccin estn fuertemente
influenciados por la eleccin correcta de la mscara y el marcador.
6.2.3.1 Apertura mejorada
Una mejora de los resultados de la apertura morfolgica se hace mediante la
reconstruccin por dilatacin. Los marcadores se eligen de forma que eliminen los
detalles brillantes que no se deseen. Posteriormente se pasar a la reconstruccin por

Dpto. Electrnica, Automtica e Informtica Industrial

187

Carlos Platero

Apuntes de Visin Artificial

dilatacin. El efecto conseguido es la preservacin de las formas de los objetos que han
superado al marcado. Ntese que en la apertura clsica este efecto no se consegua.
El primer ejemplo, a exponer, se hace sobre imgenes binarias. Al comparar los
resultados de la reconstruccin geodsica respecto a la apertura clsica se observa que
las formas originales se mantienen. En el ejemplo sobre la segmentacin de granos de
arroz, se puede observar que la reconstruccin por dilatacin mantiene la forma original,
mientras la clsica ha suavizado los bordes de los granos.

a) Imagen umbralizada (mascara), b) marcador, c)Reconstruccin geodsica d)Apertura

Resolucin Matlab
>>imgEnt=imread('rice.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBWMask=im2BW(imgEnt, umbral);
>>se = strel('disk',2);
>>imgBWMarcador = imerode(imgBWMask,se);
>>imgReconst=imreconstruct(imgBWMarcador,imgBWMask);
>>imgBWOpen = imopen(imgBWMask,se);
>>imshow([imgBWMask,imgBWMarcador;imgReconst,imgBWOpen]);
Lo mismo sucede respecto a imgenes en niveles de grises. Los brillos pequeos
son eliminados y los objetos claros que no han sido eliminados preservan su forma.
Cuando se haca una apertura sobre una imagen en niveles de grises, los objetos
brillantes menores al elemento estructurante desapareca y la imagen se volva ms
oscura. Con la reconstruccin por dilatacin utilizando como marcado la imagen
erosionada, los objetos claros menores al elemento estructurante desaparecen, pero la

188

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

diferencia est en la preservacin de las formas. En el ejemplo adjunto se puede


comparar el efecto de la reconstruccin por dilatacin en comparacin con la apertura
sobre el hombre de la cmara.
a)Original b)Apertura clsica y c)Apertura con reconstruccin

Resolucin Matlab
>> imgMascara=imread('cameraman.tif');
>> se = strel('disk',3);
>> imgMarcador = imerode(imgMascara,se);
>> imgReconst = imreconstruct(imgMarcador,imgMascara);
>> imgOpen = imopen(imgMascara,se);
>> imshow([imgMascara, imgOpen,imgReconst]);
El ltimo ejemplo es una demostracin de la capacidad de realce que se consigue
empleando esta apertura mejorada. Obsrvese cmo se han eliminado los copos de
nieve ms pequeos y han sido realzados los ms grandes.

a)Entrada, b)Realzada y como mascara, c)Reconstruccin

Dpto. Electrnica, Automtica e Informtica Industrial

189

Carlos Platero

Apuntes de Visin Artificial

Resolucin Matlab
>> imgEnt = imread('snowflakes.png');
>> imgMascara = adapthisteq(imgEnt);
>> se = strel('disk',5);
>> imgMarcador = imerode(imgMascara,se);
>> imgReconst = imreconstruct(imgMarcador,imgMascara);
>> imshow([imgEnt,imgMascara,imgReconst]);

6.2.3.2 Eliminacin de objetos que tocan el borde


En muchas aplicaciones aparecen algunos objetos cortados por los bordes. Por
ejemplo, en la captura de la imagen no se tom la estructura completa del objeto.
Muchas veces se suele eliminar esta informacin por su carcter incompleto. La
eliminacin de estos objetos no es compleja si se utiliza reconstruccin geodsica. El
procedimiento es elegir como marcador la interseccin del marco de la imagen con la
propia imagen y aplicar reconstruccin por dilatacin en la imagen. Una operacin de
residuo entre la imagen y la reconstruida por dilatacin obtendr la eliminacin de
objetos que tocan el marco de la imagen.
Eliminacin de objetos en el borde por reconstruccin geodesica

Resolucin Matlab
>>imgEnt=imread('rice.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBWMask=im2BW(imgEnt, umbral);
>>se = strel('disk',2);
>>imgBWMarcador = imerode(imgBWMask,se);
>>imgReconst=imreconstruct(imgBWMarcador,imgBWMask);
>>imgBWElimBorde = imclearborder(imgReconst);
>> imshow([imgBWMask,imgBWElimBorde]);

190

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

6.2.4 Relleno de agujeros y eliminacin de brillos


Los operadores de reconstruccin por erosin y dilatacin son realmente tiles
en aquellas aplicaciones que requieren la eliminacin de zonas oscuras locales (relleno
de agujeros) o zonas claras (atenuacin de los brillos). Para la eliminacin de partculas
oscuras, como es el relleno de agujeros, se ha empleado el cierre morfolgico. Una
mejora se da con la reconstruccin geodsica. Se entiende como agujeros a las partes
del fondo que no pueden ser alcanzadas llenando la imagen desde las esquinas de la
imagen. La algoritmia de relleno de agujeros define como marcador las esquinas de la
imagen que no intersecciona con ningn objeto, mientras la mscara es todo el fondo.
Con el resultado de esta reconstruccin se hace el complementario. En la figura 6.14 se
muestra cmo acta el relleno de agujeros.

Figura 6. 14 a) Original b) Marcador c) Resultado final del relleno


a)Imagen umbralizada de las monedas, b)Relleno mediante reconstruccin

Resolucin Matlab
>>imgEnt=imread('coins.png');imshow(imgEnt);pause;
>>umbral=graythresh(imgEnt);
>>imgBW=im2BW(imgEnt, umbral);
>> imgBWRell = imfill(imgBW,'holes');
>> imshow([imgBW,imgBWRell]);
En niveles de grises sucede lo mismo. Los detalles oscuros pueden ser
eliminados, preservando las formas de los objetos.

Dpto. Electrnica, Automtica e Informtica Industrial

191

Carlos Platero

Apuntes de Visin Artificial

Resolucin Matlab
>>imgEnt = imread('tire.tif');
>>imgRell = imfill(imgEnt,'holes');
>>imshow([imgEnt,imgRell]);
a)Imagen de entrada, b)Imagen con eliminacin de partculas oscuras

6.2.5 Mximos y mnimos regionales


Una aplicacin muy interesante en morfologa es la deteccin de mximos y
mnimos regionales. Se define regin mxima a un grupo de pxeles con conectividad
entre s, de forma que todos tienen el mismo valor y los pxeles externos a la regin
tienen valores menores. La regin minina se caracteriza por tener sus pxeles externos
valores superiores a los suyos.
Mediante geodesia es una tarea fcil de
implementar la bsqueda de estas regiones de
mximos y mnimos. En la deteccin de
mximos regionales se emplea una imagen
marcador resultado de desplazar hacia abajo la
funcin original f por una constante c. Si c=1
se obtendr los pxeles con mximos locales.
Los mximos regionales son el residuo entre la
imagen original y la reconstruccin por
dilatacin de f hasta la imagen desplazada por
c:
Max f f R f f c

192

Figura 6. 15. Reconstruccin por dilatacin

(6. 29)

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

Variando el valor de c produce que el nivel del mximo no sea nico,


incrementando el tamao de la
regin. A esta transformacin se
llama mximo extendido. Con un
procedimiento similar es posible
detectar e identificar los mnimos
regionales. Para este caso se emplea
la reconstruccin por erosin y se
obtiene la transformacin de
mnimo extendido:
Min f R * f f c f

Dpto. Electrnica, Automtica e Informtica Industrial

193

Carlos Platero

Apuntes de Visin Artificial

imagen original

regiones mnimas

>> imgEnt = imread('glass.png');


>> imgRegMaxGris = imgEnt-imreconstruct(imgEnt-50,imgEnt);
>> imgRegMinGris = imreconstruct(imgEnt,imgEnt+30)-imgEnt
>> imgRegMax=imextendedmax(I,50);
>> imgRegMin=imextendedmin(I,30);

6.2.6 Esqueleto geodsico por zonas de influencia


La definicin de esqueleto geodsico por zona de influencia (SKIZ) procede
directamente del concepto de distancia geodsica. Sea X un conjunto compuesto por la
unin de k componentes conectadas Bi i 1,..., k . La zona de influencia geodsica de cada
componente conectada en X se define como:
IZ X Bi p X | j 1...k j i : d X p, Bi d X p, B j

(6. 30)

Siendo dX(p,Bi) la distancia geodsica para el pixel p del conjunto X en la


componente Bi. El conjunto de IZX(B) es la unin de las zonas de influencia geodsica
de las componentes conectadas B:
k

IZ X B IZ X Bi
i 1

(6. 31)

El residuo entre X y el conjunto IZX(B) define el esqueleto por influencia


geodsica SKIZ:

SKIZ X B X \ IZ X B

(6. 32)

Que presenta todos los puntos equidistantes, en distancia geodsica, a dos


componentes del conjunto X.

194

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

El SKIZ es la base de la definicin de la transformacin de watershed (un


algoritmo de segmentacin basado en procesamiento morfolgico).
6.2.7 Watershed
En trminos geodsicos, el algoritmo watershed puede definirse como el
esqueleto geodsico, SKIZ, tomando como componentes las regiones mnimas de la
imagen:
WS f SKIZ f RMIN f

(6. 33)

El significado de la operacin de
watershed se encuentra en su notacin
francesa como la ligne de partage des
eaux (lnea de separacin de aguas). Esta
transformacin consiste en simular la
inundacin numrica de la imagen
(vista como un mapa topogrfico) a
partir de los mnimos regionales.
El agua es introducida desde los
mnimos regionales, de manera que en el proceso de inundacin hace que las cuencas
contiguas se unan. Las lneas de unin representan las fronteras de las regiones
homogneas, stas son las que constituye el esqueleto geodsico. El resultado es un
conjunto de contornos que identifican las regiones de la imagen.
En la prctica, el proceso de segmentacin morfolgica suele partir de la imagen
de gradiente, aplicndose a esta ltima la transformacin de watershed, pues se pretende
identificar el contorno de los objetos y no su zona de influencia. Las regiones mnimas
proceden, en este caso, de la imagen gradiente. El resultado en imgenes reales suele
conducir al fenmeno de sobre-segmentacin, porque la presencia de mnimos locales
en las imgenes son bastantes altas. Para evitar este inconveniente se suele eliminar
todos los mnimos parasitarios y reemplazarlos por marcadores. El nuevo algoritmo
resultante se denomina watershed controlado por marcadores. La eleccin de unos
buenos marcadores ser clave para obtener una exitosa segmentacin. El algoritmo
watershed controlado por marcadores reduce el efecto de sobre identificar zonas o
regiones en la imagen.
Dpto. Electrnica, Automtica e Informtica Industrial

195

Carlos Platero

Apuntes de Visin Artificial

Mascara

Marcador

Watershed a)Sin procesar, b)Con procesamiento

196

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

Resolucin Matlab
>> imgEnt = imread('liftingbody.png');
>> se = strel('disk',5);
>> imgBWMarcador= imfill(imdilate(edge(imgEnt,'canny',.2,1),se),'hole');
>> imgMascara=imfilter(imgEnt,fspecial('log',5,1));
>> imgMascara(imgBWMarcador==0)=0;
>> imshow([label2rgb(watershed(imgEnt)),label2rgb(watershed(imgMascara))]);

Dpto. Electrnica, Automtica e Informtica Industrial

197

Carlos Platero

Apuntes de Visin Artificial

6.3 Problemas
1. Erosin y dilatacin en conjuntos y en funciones.
2. Operaciones de apertura y cierre.
3. Operaciones de residuos.
4. Cmo eliminar los objetos que tocan el borde en las imgenes binarias.
5. Cmo rellenar agujeros en imgenes binarias.
6. Qu es el algoritmo de watershed.
Ejercicio 1
Para la siguiente figura, con 8 niveles de grises de cuantificacin,
obtener:
a) Determinar el umbral de segmentacin
b) Sobre la imagen binarizada aplicar una erosin con un elemento
estructurante cuadrado de 3x3

1
1

3
2

2
1

1
0

1
1
1
2

2
3
2
3

0
3
2
6

2
3
5
6

2
3
3
6

1
2
2
2

3
2
2
2

0
1

1
1
2

1
0

1
0

1
1
1
1

2 6 7 7 6 6 1 1
2 6 6 7 6 6 0 3
2 2 6 5 5 3 2 1
1 2 3 5 5 3 2 1
1 1 3 3 3 3 2 2
1 1 1 1 2 1 1 1

El umbral es 4 por el mtodo de Otsu


0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
1
1
0
0
0
0

0
0
0
1
1
1
1
0
0
0

0
0
1
1
1
1
1
1
0
0

0
0
0
1
1
1
1
1
0
0

0
0
0
0
1
1
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

Y la imagen erosionada queda como:

198

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico


0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
1
1
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

Ejercicio 2
Dada la siguiente imagen, realizar una apertura morfolgica con un
elemento estructurante cuadrado de 3X3.

1
1

3
2

2
1

1
0

1
1
1
2

2
3
2
3

0
3
2
6

2
3
5
6

2
3
3
6

1
2
2
2

3
2
2
2

1
1
1
1

2 6 7 7 6 6 1 1
2 6 6 7 6 6 0 3
2 2 6 5 5 3 2 1
1 2 3 5 5 3 2 1
1 1 3 3 3 3 2 2
1 1 1 1 2 1 1 1

0
1

1
1
2

1
0

1
0

La apertura sobre la imagen de gris es:

1
1

2
2

2
2

1
1

1
1
1
2

1
2
2
3

0
2
2
6

1
2
2
6

1
2
2
6

1
2
2
2

1
2
2
2

1
1
1
1

2 3 6 6 6 3 1 1
2 3 6 6 6 3 0 1
2 2 5 5 5 3 2 1
1 2 3 3 3 3 2 1
1 1 3 3 3 3 2 1
1 1 1 1 1 1 1 1

Dpto. Electrnica, Automtica e Informtica Industrial

0
1

1
1

1
1

0
0
0

199

Carlos Platero

Apuntes de Visin Artificial

Ejercicio 3
Cmo segmentara la carretera de la imagen area?

La carretera es un detalle brillante fino. La aplicacin de un Top-Hat permitir


realzarlo. Se procede a realizar la sustraccin entre la imagen original y su erosionada
con un elemento estructurante de 7x7:

Ejercicio 4
Explicar el algoritmo de segmentacin de la clula en cada fase: A) B) C)
D) E) y F), junto con su seudo-cdigo en Matlab.

200

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

%% Step A: Read Image


I = imread('cell.tif');
%% Step B: Detect Entire Cell
[junk threshold] = edge(I, 'sobel');
fudgeFactor = .5;
BWs = edge(I,'sobel', threshold * fudgeFactor);
%% Step C: Dilate the Image
se90 = strel('line', 3, 90);
se0 = strel('line', 3, 0);
BWsdil = imdilate(BWs, [se90 se0]);
%% Step D: Fill Interior Gaps
BWdfill = imfill(BWsdil, 'holes');
%% Step E: Remove Connected Objects on Border
BWnobord = imclearborder(BWdfill, 4);
%% Step F: Smoothen the Object
seD = strel('diamond',1);
BWfinal = imerode(BWnobord,seD);
BWfinal = imerode(BWfinal,seD);
figure, imshow(BWfinal), title('segmented image');

Ejercicio 5
Dada la imagen de la izquierda nodulos.jpg, describir un algoritmo que a
partir de esta imagen determine una imagen binaria donde slo aparecen los ndulos
cuyo radio tiene una longitud inferior a 9 pxeles y un rea mayor a 20 pxeles (la
imagen de la derecha mostrara el resultado final sobre la imagen de entrada).
Acompese con comando en seudo-matlab. Se adjunta el histograma de la imagen
de entrada.

7000
6000
5000
4000
3000
2000
1000
0
0

Dpto. Electrnica, Automtica e Informtica Industrial

50

100

150

201

200

250

Carlos Platero

Apuntes de Visin Artificial

function segmNodulos
imgEnt = imread('nodulos.jpg');
imgBW = im2bw(imgEnt);
imgBW2 =bwareaopen(imgBW==0,20);
imgErode=imerode(imgBW2,strel('disk',9));
imgOpenMej = imreconstruct(imgErode,imgBW2);
imgSal = imgOpenMej==0 & imgBW2;
figure(1);
imshow([imgBW,imgBW2,imgSal]);
imgAux=imgEnt;
imgAux(imdilate(bwperim(imgSal),strel('square',3)))=255;
figure(2);
imshow([padarray(imgEnt,[5 5],255),...
padarray(imgAux,[5 5],255)]);

Ejercicio 6
Dada la imagen de clulas n1.bmp, describir un algoritmo que a partir
de esta imagen determine las clulas nicas completas y aquellas que estn
solapadas. Se sabe que el rea de una clula es superior a 200 pxeles y
menor a 1400. Sugiera adems cmo separar las clulas solapadas. Escriba
tambin seudo-cdigo de Matlab.

202

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 6: Procesamiento morfolgico

imgIn = imread('n1.bmp');
imgInRes = imgIn(20:end,5:end);
imBW = imgInRes > 55;
imBW_CB = imclearborder(bwareaopen(imBW,200));
imBWSolap = bwareaopen(imBW_CB,1400);
imBWUnicas = (imBWSolap == 0) & imBW_CB;
clf;
figure(1);
subplot(2,2,1);imshow(imgInRes);title('Imagen de entrada');
subplot(2,2,2);imhist(imgInRes);title('Histograma');
se=strel('disk',1);
imgAux=imgInRes;bwborde=imdilate(bwperim(imBWUnicas),se);
imgAux(bwborde)=255;
subplot(2,2,3);imshow(imgAux);title('Clulas nicas');
imgAux=imgInRes;bwborde=imdilate(bwperim(imBWSolap),se);
imgAux(bwborde)=255;
subplot(2,2,4);imshow(imgAux);title('Clulas solapadas');
figure(2);
D = bwdist(~imBWSolap);
D = -D;
D(~imBWSolap) = -Inf;
L = watershed(D);
rgb = label2rgb(L,'jet',[.5 .5 .5]);
imshow(rgb);

Ejercicio 7
Dada la regin de inters de una galaxia galaxia2.jpg realizar las
siguientes operaciones en Matlab: A) Leer la imagen. B) Ecualizarla. C)
Realizar una reconstruccin geodsica de la ecualizada empleando como
mscara su erosionada con elemento estructurante de radio 5. D) Top hat entre
la ecualizada y su reconstruida. E) Umbralizacin con Otsu.

a)

b)

c)

Dpto. Electrnica, Automtica e Informtica Industrial

d)

e)

203

Carlos Platero

Apuntes de Visin Artificial

imgEnt=rgb2gray(imread('galaxia2.jpg'));
imPro=histeq(imgEnt);
imOpen =imreconstruct(imerode(imPro,strel('disk',5)),imPro);
topHat = imPro-imOpen;
segm = im2bw(topHat,graythresh(topHat));
subplot(1,5,1);
imshow(imgEnt);
xlabel ('a)');
subplot(1,5,2);
imshow(imPro);
xlabel ('b)');
subplot(1,5,3);
imshow(imOpen);
xlabel ('c)');
subplot(1,5,4);
imshow(topHat);
xlabel ('d)');
subplot(1,5,5);
imshow(segm);
xlabel ('e)');

Derecho de Autor 2016 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".

La Licencia de documentacin libre GNU (GNU Free Documentation License)


es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

204

Dpto. Electrnica, Automtica e Informtica Industrial

Interpretacin automtica de las


imgenes

Una vez que se ha particionado la imagen en regiones de inters (segmentacin),


los objetos presentes en el escenario debern ser cuantificados para tareas de
reconocimiento o localizacin. Se trata de asociar a cada elemento segmentado con un
conjunto de valores numricos o de atributos, al que se le llamar vector de
caractersticas. Estos valores servirn de entrada al sistema de clasificacin de los
objetos. El clasificador dar finalmente una etiqueta cualitativa a cada objeto presente
en la imagen, cerrando de esta forma la interpretacin automtica de las imgenes. Por
tanto, en este captulo se ver que dada la informacin de partida, la imagen
segmentada, se proceder en primer lugar a la etapa de etiquetamiento, donde a cada
objeto de inters se le asociar una etiqueta (seccin 7.1). Una vez etiquetada la imagen
ser posible extraer de forma particularizada las caractersticas de cada objeto (seccin
7.2). Por ltimo, a cada objeto segmentado de la imagen se le asignar una etiqueta
cualitativa (seccin 7.3), dando por concluida la interpretacin de la imagen.

7.1 Etiquetamiento de la imagen binaria


Se parte de una imagen segmentada donde los objetos han sido delimitados y
separados del fondo, de manera que los pxeles pertenecientes a los objetos de inters
han sido etiquetados con un uno lgico y el resto con cero lgico. El siguiente paso ser
etiquetar cada uno de los objetos presentes en la imagen, separndolo respecto del fondo
y de los otros objetos. Esta etapa se realiza con la operacin de etiquetamiento y se
fundamenta en la continuidad de los objetos en el espacio, cuya propiedad se transforma
Dpto. Electrnica, Automtica e Informtica Industrial

203

Carlos Platero

Apuntes de Visin Artificial

en relaciones de conectividad
entre
pxeles
adyacentes.
Partiendo de la esquina
superior izquierda de la
imagen, se rastrea hacia la
derecha y hacia abajo buscando
pxeles con etiqueta uno lgico.
Cuando se encuentra el primer
pxel con dicha etiqueta se le
coloca la etiqueta 1, los
vecinos que tengan propiedad
de conectividad y que posean el
nivel lgico activo se les Figura 7. 1 Proceso de etiquetado de una imagen binaria
pondr la misma etiqueta. Al
seguir rastreando en la imagen y al encontrarse con un pxel activado sin conectividad
con los anteriores se le asociar con la etiqueta 2 y as sucesivamente. Una vez
finalizada esta etapa, cada objeto de la imagen tendr un identificador numrico que le
hace ser distinto respecto del fondo y de los otros objetos.

Resolucin Matlab
imgEnt=imread('rice.png');imshow(imgEnt);pause;
imgBWMask=im2BW(imgEnt);
se = strel('disk',2);
imgBWMarcador = imerode(imgBWMask,se);
imgReconst=imreconstruct(imgBWMarcador,imgBWMask);
imgBWElimBorde = imclearborder(imgReconst);
imgEtiq=bwlabel(imgBWElimBorde);
subplot(1,2,1);imshow(imgEnt);subplot(1,2,2);imshow(label2rgb(imgEtiq));

Figura 7. 2 Resultado del etiquetamiento de la imagen de granos de arroz

204

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

7.2 Extraccin de caractersticas


Una vez obtenida la imagen etiquetada, los objetos pueden ser medidos,
obteniendo as el vector de caractersticas. Las propiedades de los objetos se clasifican
en dos grandes grupos: aquellas relacionadas con el contorno de los objetos y aquellas
caractersticas propias del conjunto total del objeto o regin de cada una de ellas. En
esta seccin se tratar de estas medidas.
No hay que olvidar que el objetivo de estos vectores de caractersticas servir de
entrada para la clasificacin o localizacin de los objetos. Por tanto, a veces, se
requerir que las caractersticas empleadas sean invariantes a efectos de escalado,
rotacin o posicin. Tambin ser tratado este aspecto.
7.2.1 Descriptores de regiones
Estas propiedades estn relacionadas con el conjunto total de pxeles que
constituye el objeto. Se podran agrupar en tres grandes grupos: geomtricas,
topolgicas y texturales.
7.2.1.1 Medidas geomtricas
Son medidas relacionadas con la distancia eucldea entre pxeles. Las ms
simples seran el rea, el permetro y el centro de gravedad.
El rea, A(i), es el nmero de pxeles que contiene el objeto, i. Si se pondera
cada pxel por su nivel de gris se le define como el peso del objeto, W(i):
N

A i gi x, y
x 1 y 1

W i gi x, y f x, y
x 1 y 1

(7. 1)

Siendo gi(x,y) una funcin que es uno si el pxel pertenece al objeto i y nulo en
caso contrario. El permetro, P(i), es una medida de la longitud del borde del objeto, i.
Tambin se suele utilizar la relacin del perimtrico al cuadrado del objeto entre su
2
rea, P i
. Magnitud adimensional, cuyo valor mnimo se tiene cuando el objeto es
Ai
un crculo, por tanto, describir la compacidad del objeto. Valores prximos a 4
indicar que se aproxima a un crculo.
El centro de gravedad del objeto, x i , y i , indicar su posicin puntual en la
imagen y estar dado por:

Dpto. Electrnica, Automtica e Informtica Industrial

205

Carlos Platero

Apuntes de Visin Artificial

x i

x g i x, y
x 1 y 1

Ai

y i

y g x, y
x 1 y 1

Ai

(7. 2)

Segn el teorema de unicidad de Papoulis dice que, si gi(x,y) es continua a trozos


y tiene valores no nulos slo en una zona finita del plano x-y, entonces todos sus
momentos existen y la aplicacin que asigna una secuencia de momentos a la funcin es
biyectiva. Concluyendo que si se toma un nmero finito de momentos se obtiene una
aproximacin del objeto. Para el caso de imgenes discretas y etiquetadas, los
momentos de orden p+q se definen como:
N

m pq i x p y q g i x, y
x 1 y 1

(7. 3)

Obsrvese que el rea del objeto coincide con el momento de orden cero y que el
centro de gravedad est relacionado con el momento de orden uno (p=1, q=0 y p=0,
q=1). Los momentos se pueden hacer invariantes a traslaciones, si son referidos al
centro de gravedad del objeto. A stos se les llama momentos centrales:
N

mc pq i x x i y y i g i x, y
p

x 1 y 1

(7. 4)

Para ser invariante a escalados, se normaliza los momentos centrales con el rea
del objeto, i.e. con el momento de orden cero. A esta coleccin se la define como
momentos centrales normalizados:

pq

mc pq
m00

(7. 5)

Los ejes mayor y menor de un objeto se definen en trminos de sus fronteras y


son tiles para indicar su orientacin y redondez. Los ejes, dados en pxeles, son
obtenidos por la equivalencia del
segundo
momento
central
normalizado de la regin con una
elipse que lo inscribe. Los ejes
mayor y menor hacen referencia a la
elipse equivalente, mientras su
orientacin es el ngulo entre el eje
horizontal y el eje mayor del objeto.
Otro parmetro empleado es la Figura 7. 3 Elipse equivalente del objeto etiquetado
excentricidad
de
la
elipse

206

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

equivalente1. Este parmetro est entre 0 y 1. En el caso de valer cero indica que es una
circunferencia y si es uno es un segmento recto.

Resolucin Matlab
imgEnt=imread('rice.png');
imgBWMask=im2BW(imgEnt);
se = strel('disk',2);
imgBWMarcador = imerode(imgBWMask,se);
imgReconst=imreconstruct(imgBWMarcador,imgBWMask);
imgBWElimBorde = imclearborder(imgReconst);
imgEtiq=bwlabel(imgBWElimBorde);
stat=regionprops(imgEtiq,'all');
stat(20).Eccentricity

Ejemplo 7.1
Dada la imagen pillsetc.png: A) Leer la imagen. B) Convertirla a grises.
C) Umbralizar con Otsu. D) Eliminar objetos menores 30. E) Realizar un cierre
con elemento estructurante de disco de radio 2. F) Rellenar. G) Etiquetar H)
Extraer las caractersticas de rea, centroide y permetro de cada objeto. I)
Calcular el parmetro adimensional

4 A
para cada objeto, siendo A el rea y P
P2

el permetro. J) Colocar en el centroide del objeto un circulo negro si tiende a


ser un crculo (utilizar como criterio que lo es si

4 A
0.8 ), en caso contrario
P2

poner una cruz.

b
Excentricidad de la elipse, e 1 , donde a y b son el tamao de los semiejes mayor
a

y menor respectivamente.

Dpto. Electrnica, Automtica e Informtica Industrial

207

Carlos Platero

Apuntes de Visin Artificial

RGB = imread('pillsetc.png');
figure; imshow(RGB);
I = rgb2gray(RGB);
threshold = graythresh(I);
bw = im2bw(I,threshold);
figure; imshow(bw)
bw = bwareaopen(bw,30);
se = strel('disk',2);
bw = imclose(bw,se);
bw = imfill(bw,'holes');
figure; imshow(bw)
labels = bwlabel(bw);
features = regionprops(labels,'Area','Perimeter','Centroid');
figure; imshow(label2rgb(labels));hold on;
for i=1:numel(features)
if(4*pi*features(i).Area/(features(i).Perimeter)^2 > .8)
plot(features(i).Centroid(1),features(i).Centroid(2),'ko');
else
plot(features(i).Centroid(1),features(i).Centroid(2),'k+');
end
end
hold off;

7.2.2 Descriptores topolgicos


Las propiedades topolgicas son descripciones globales de los objetos e
invariantes a rotaciones, traslaciones o cambios de escala. Por ejemplo, el nmero de
agujeros dentro del objeto. Otro descriptor utilizado es el nmero de componentes
conectados. Se trata del nmero de elementos separados que forman un objeto. Resulta
evidente que estas propiedades no estn relacionadas con el concepto de la distancia, la
cual se ha empleado en las propiedades geomtricas.
Un descriptor topolgico muy empleado es el nmero
de Euler. ste se calcula con la diferencia del nmero de
componentes conectados de la regin menos el nmero de
agujeros de sta. Por ejemplo, el nmero de Euler de A ser
0, el de B -1 y el i es +2. Los descriptores topolgicos se
Figura 7. 4 Objeto
suelen emplear en aplicaciones de reconocimiento de con nmero de Euler
caracteres.
-1

208

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

7.2.3 Texturas
La textura explica la composicin de las superficies de los objetos en trminos
de suavidad, rugosidad, granularidad, regularidad,... Desde el sentido de la visin, la
textura se observa como repeticiones de patrones locales de radiacin en las imgenes.
La sensacin que transmiten las imgenes de zonas de tosquedad, rugosidad o suavidad,

Figura 7. 5 Imgenes con diferentes texturas

nacen de las correspondencias de las experiencias humana entre el sentido del tacto y la
vista. Desde el punto de vista fsico, la interaccin entre la luz y la materia, en la
radiacin reflejada, muestra ciertas repeticiones de carcter estadstico. La imagen
resultante no es una repeticin local del patrn de forma determinista, sino
probabilstica y con una distribucin en el espacio no exactamente regular.

Esta propiedad en la imagen se manifiesta de forma regional, de manera que si


se asciende a una visin global pueden aparecer diferentes texturas en la imagen. Por el
contrario, al descender y observar la imagen a nivel de pxel o entorno de vecindad del
pxel, la propiedad de la textura ha desaparecido. Lo mismo sucedera si se alejase
excesivamente del escenario, la textura observada quedara diluida. Por esto, la idea de
textura est asociada a un espacio de escalas. La nocin texel o primitiva textural se
define como una regin que posee ciertas propiedades visuales invariantes a la posicin.

Dpto. Electrnica, Automtica e Informtica Industrial

209

Carlos Platero

Apuntes de Visin Artificial

Figura 7. 6 La textura est relacionada con el espacio de las escalas

Figura 7. 7 Imgenes de satlite sobre el suelo de la Tierra que presentan diferentes texturas

Las aplicaciones del anlisis textural no slo se dan para la caracterizacin de los
objetos de inters, sino que tambin son utilizadas en los procesos de segmentacin. En
la figura 7.8 se observa los procesos de segmentacin en la imagen al ir incorporando
ms informacin. Se aprecia el resultado de la segmentacin desde que slo se emplea
el canal de luminancia hasta la incorporacin del color y la textura.

Figura 7. 8 Segmentacin del pez con distintos tipo de informacin. a) niveles de grises, b)
nivel de gris + textura, c) color RGB, d) color HSI, e) color + textura

210

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

El principal reto al que se enfrentan las tcnicas de anlisis textural consiste en


la descripcin de cmo son y cmo se distribuyen los elementos de textura en una
imagen. Los descriptores de texturas deben cuantificar ciertas propiedades tales como
suavidad, rugosidad y regularidad. Estas caractersticas deben ser invariantes a la
posicin, orientacin y nivel de brillo medio. Existen tres enfoques distintos:
estructurales, estadsticos y espectrales.
Las tcnicas estructurales consideran la textura como compuestas por primitivas
que forman un patrn repetitivo y describen este patrn mediante reglas capaces de
generarlo o reproducirlo. Formalmente, estas reglas constituyen la gramtica de la
textura que describe. Estas tcnicas resultan aplicables con xito en el anlisis de
imgenes que contienen una textura en la que los elementos descriptibles siguen una
gran regularidad en su distribucin.

Aceptada

Rechazada

Figura 7. 10. Descripcin estructural de la textura. Se define unas primitivas y unas reglas de
encadenamiento de las primitivas. En la parte superior se ha representado las primitivas y las
reglas de encadenamiento. En la parte inferior un ejemplo de aceptacin y rechazo de un tipo
de textura

Por el contrario, el anlisis


espectral busca en las transformadas
de Fourier, picos de alta densidad en
el mdulo o en el argumento para
caracterizar los patrones texturales.
Se emplea para caracterizar patrones
peridicos y de forma global en la
imagen. Estos descriptores son Figura 7. 9 Imagen de una textura sinttica y el
invariantes a posicin y rotacin.
mdulo de su espectro frecuencial
El mayor problema de las
transformadas de Fourier es que cada componente del espectro frecuencial depende de

Dpto. Electrnica, Automtica e Informtica Industrial

211

Carlos Platero

Apuntes de Visin Artificial

la imagen global. Como se muestra en la figura 7.11, puede haber una variacin espacial
del patrn en la imagen.

Figura 7. 11 Variacin de la textura con diferentes escalas

Una mejora de este procedimiento es utilizar los filtros de Gabor. Con estos
filtros, el anlisis espectral tambin considera el espacio de escala y una cierta
orientacin privilegiada. La mscara de convolucin de cada filtro se construye con una
funcin gaussiana modulada con un armnico de una determinada orientacin y
frecuencia:

G , f x, y

1
2

x2 y 2
2 2

e2 jf x cos y sin

(7. 6)

La varianza y la frecuencia estn relacionadas y definen la escala del patrn:

2 ln 2
f
2

(7. 7)

Normalmente, se emplea cuatro orientaciones y tres escalas, teniendo un


conjunto de doce mscaras de convolucin.

Figura 7. 12 Mscaras de convolucin con 4 diferentes orientaciones 0, , , 3 y tres


4 2 4
diferentes frecuencias

f 0.2,0.35,0.5 . La fila superior es la componente real y la

inferior la componente imaginaria.

Al convolucionar estos filtros con la imagen, los altos valores


indican la presencia del patrn. En el ejemplo de las cebras se
puede observar cmo al procesar la imagen con las
mscaras se puede discernir la posicin de las cebras Figura 7. 13 Imagen original
212

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

respecto del fondo

Figura 7. 14 Resultados de la convolucin de la imagen con las distintas mscaras

7.2.3.1 Tcnicas estadsticas


Las tcnicas estadsticas describen la textura mediante reglas estadsticas que
gobiernan la distribucin y la relacin espacial de niveles de gris en la imagen. stas
presentan buen comportamiento en el anlisis de texturas naturales o texturas con poca
resolucin, en donde los elementos de textura resultan difcilmente describibles.
Estas tcnicas se clasifican en: tcnicas estadsticas de primer orden, de segundo
orden y de orden superior. En el primer grupo, se obtienen medidas considerando el
valor de pxel, sin consideraciones de vecindad; mientras en las tcnicas de segundo
orden tratan de la distribucin espacial de parejas de pxeles vecinos y las de orden
superior consideran tripletes, ternas, ... de pxeles vecinos.
En las estadsticas de primer orden se puede obtener el histograma de la regin,
cuya normalizacin proporcionar la funcin de densidad de probabilidad de la textura.
Se pueden comparar los histogramas normalizados entre regiones o utilizar medidas

Dpto. Electrnica, Automtica e Informtica Industrial

213

Carlos Platero

Apuntes de Visin Artificial

derivadas del histograma, tales como la media, la varianza, energa, entropa, etc. (ver
seccin 4.1.1).
La principal desventaja de las tcnicas de primer orden es su falta de sensibilidad
ante permutaciones de los pxeles. La va ms apropiada para evitar la limitacin
anterior es considerar los estadsticos de segundo orden. A partir de ellos se obtienen las
matrices de dependencia espacial, generadora de medidas de textura ms fiables y
robustas. Las matrices de co-ocurrencia del nivel de gris, C, es un ejemplo de esta
fuente de medidas de textura. Se define en relacin con un desplazamiento de valor h,
en una direccin , desde una determinada fila y columna de la imagen; el elemento (i,j)
de la matriz de co-ocurrencia, cij, representa el nmero de veces que un pxel con nivel
de gris j, se encuentra a una distancia h, en direccin , de un pxel con nivel de gris i
(una ocurrencia conjunta). Si Nh representa el nmero total de ocurrencias, entonces la
fraccin entre la
matriz de coocurrencia y Nh
representa
la
matriz de coocurrencia
normalizada.
Por
ejemplo,
considerando una Figura 7. 15 Ejemplo de extraccin de la matriz de co-ocurrencias
imagen con tres
niveles de grises (0,1 y 2) y utilizando como regla de vecindad el pixel superior a la
derecha. La matriz de co-ocurrencia mostrar por cada celda i,j las ocurrencias de
encontrar un pxel de nivel gris i que tenga como vecino superior a la derecha con nivel
gris j. En el ejemplo la matriz ser de 3x3. La celda (0,0) indica el nmero de
ocurrencias de pxeles con nivel de gris 0 que tenga como superior a la derecha otro
pxel con nivel gris 0. Para este caso, aparecen 2 ocurrencias. En cambio el elemento
(0,1) indica las ocurrencias de pxeles que tengan nivel de gris 1 y que su vecino
superior a la derecha sea 0.
A partir de la matriz de co-ocurrencia se obtienen diferentes descriptores.
7.2.4 Descriptores de fronteras
7.2.4.1 Cdigos encadenados
Partiendo del permetro del
objeto se procede a su codificacin a
travs de segmentos con longitud y
orientacin determinada. La cadena
de cdigos describe el objeto
mediante la sucesin de estos
segmentos
conectando
pxeles
adyacentes
pertenecientes
al
permetro del objeto. La conexin se Figura 7. 16 Codificacin segn vecindad a 4 8
214

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

realiza con conectividad a 4 o a 8 pxeles. Partiendo de un origen determinado y en el


sentido horario o antihorario se procede a codificar la frontera del objeto. En la figura
7.17 se muestra un ejemplo de cmo se codificara a vecindad 4 u 8.

Figura 7. 17 Ejemplo de cdigo encadenado con vecindad a 4 y 8 con sentidos contrarios

El cdigo iniciado en el punto, con vecindad a 4 y sentido antihorario sera


300301121232. El primer elemento debe llevar informacin de su posicin. Si se desea
comparar el cdigo con otros se procede a su normalizacin. Una posibilidad de
normalizacin es iniciar por el pxel de la frontera que genere menor valor en su
codificacin. En el ejemplo seria 00301121232. Si se emplease vecindad a 8, con
sentido horario, el cdigo sera 005577443221.
Este descriptor es invariante a traslaciones, permitiendo ms fcilmente la
comparacin entre objetos. Con esta codificacin se obtiene de manera ms eficiente la
medida del permetro y los descriptores fronteras de Fourier que empleando la imagen
etiquetada. El mayor inconveniente es la presencia de ruido.
El permetro de los objetos se calcula a partir del cdigo encadenado. Habr que
sustituir cada cdigo por 1 2 de valor mtrico, dependiendo si hace referencia a un
cdigo horizontal/vertical o de carcter diagonal respectivamente. La suma de los
valores mtricos obtendr el permetro del objeto.

7.2.4.2 Descriptores geomtricos


Una manera de facilitar la
representacin de las curvas cerradas
(fronteras de loa objetos en imgenes
2D)
es
utilizar
funciones
unidimensionales que la describan. La
primera funcin sera la signatura. sta
codifica la distancia de un punto interior
del objeto a todos los puntos de la
frontera. Normalmente se suele utilizar
el centro de gravedad como punto Figura 7. 18 Ejemplos de signatura
interior.

Dpto. Electrnica, Automtica e Informtica Industrial

215

Carlos Platero

Apuntes de Visin Artificial

Aunque es invariante a traslaciones, depende tanto del tamao como del punto
donde se inicializa la representacin polar. Para que sea invariante a escala se normaliza
la distancia en el rango [0 1]; slo bastar con dividir todas las distancias por la que sea
la mayor. Respecto a la dependencia al punto inicial, se toma aquel que tenga la mxima
distancia.
La
signatura es muy
sensible a la
eleccin
del
punto interior.
Esta
funcin Figura 7. 19 Sensibilidad de la signatura con la eleccin del punto interior
caracterstica
cambia sustancialmente si se desva del centroide. Tambin
tiene el problema con la aparicin de concavidades en el
objeto, ya que la funcin resulta multievaluada para algunos
ngulos. Para solventarlo se suele emplear la envolvente
Figura 7. 20 Objeto con
convexa2.
concavidades

Otra funcin caracterstica es la curvatura, la cual


mide cmo de rpido la curva tiende a doblarse en un punto del contorno. La variacin
de la curvatura en la frontera es invariante a traslacin y rotacin. Para su clculo se
suele emplear las curvas de nivel (Level Set). Los objetos son definidos empleando la
funcin distancia con signo. La curvatura es calculada sobre la curva de nivel 0. La
curvatura es la divergencia del gradiente normalizado de la curva de nivel 0:
f
f

div

(7. 8)

Figura 7. 21 Obtencin de la funcin de distribucin de la curvatura media

Partiendo del concepto de curvatura se define la energa de doblado. Se define


como la energa necesaria para transformar una varilla en una determinada frontera:

Una trozo de la curva es convexa si el radio de curvatura est en el interior del objeto y cncava
si est fuera,

216

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

ED

1 n
2
i

n i 1

(7. 9)

Siendo n el nmero de puntos pertenecientes a la frontera.


Ejemplo 7.1
Calcular la curvatura sobre el pxel indicado empleando
las mscaras de Sobel.
2

2
2

1 2

1 0 1 2
1 0 1 2

1 0 1 2
0

Se calcular la primera derivada en x e y para obtener el gradiente:

x f x, y 0, y f x, y 8 . Seguidamente se calcular el mdulo y se normalizar el

gradiente. Para calcular la divergencia se volver a aplicar las mscaras de Sobel:


f x, y
f x, y

div

x Fx x, y y Fy x, y 0

7.2.4.3 Descriptores de Fourier


Es otra tcnica para convertir la informacin de
bidimensional a otra unidimensional. Dada una curva
cerrada, sta puede ser representada por una transformada
discreta de Fourier. La curva viene dada en coordenadas
cartesianas, obteniendo una secuencia de n puntos
pertenecientes a la frontera:

x1 , y1 , x2 , y2 ,..., xi , yi ,...xn , yn
Cada punto es convertido a variable compleja,
zi xi jy i . La aplicacin sobre esta secuencia compleja de la transformada de
Fourier obtendr una respuesta espectral:
n

Z k zne

2 k
i
K

k 0,1,2,..., K 1

i 1

(7. 10)

Obteniendo K descriptores frecuenciales. La componente de continua


representara el centroide del objeto, las componentes de baja frecuencia estara
relacionados con los aspecto ms grueso del objeto y los de alta frecuencia con los
detalles.

Dpto. Electrnica, Automtica e Informtica Industrial

217

Carlos Platero

Apuntes de Visin Artificial

La secuencia compleja se puede recuperar a partir de la anti-transformada:

1
zi
K

K 1

Z
k 0

2 i k
n
K

i 1,2,..., n

(7. 11)

Si se elige un nmero de componentes P menor a K se tendr una descripcin sin


menos detalles.

Figura 7. 22 Evolucin de la forma cuadrada al ir aadiendo P componentes frecuenciales

Estos descriptores son invariantes a traslaciones, rotaciones, escalado y de donde


se empiece a tomar la secuencia.
7.2.4.4 Descripcin envolvente convexa
El objetivo es descomponer el contorno en una
convexidad que simplifique el proceso de descripcin. Se
trata de eliminar las concavidades del objeto. La envolvente
convexa (convex hull), EC, de un conjunto C se define como
el conjunto convexo ms pequeo que contiene a C.

7.3 Reconocimiento de patrones


El Reconocimiento de Patrones es una disciplina de la Ciencia encargada de
asignar a los objetos una clase determinada. Los objetos no slo proceden de las
imgenes sino tambin de seales unidimensionales (p.ej. reconocimiento de voz o
patrones en el electrocardiograma, ECG) o de cualquier otra medida sobre los objetos.

218

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Figura 7. 23 Proceso de clasificacin de las llaves/moneda empleando tcnicas de Visin


Artificial

La tarea de clasificacin consiste en combinar los vectores de caractersticas de


los objetos y el conocimiento a priori para asignar etiquetas cualitativas a los objetos
segmentados. Para poder asignar una etiqueta de clasificacin a un objeto se debe de
tener un conjunto de funciones o de reglas de pertenencias a cada clase. Estas funciones
o reglas se consiguen a travs del conocimiento que se tenga de cada clase.
Los enfoques que se pueden emplear para la clasificacin se basa bien en una
funcin discriminante que divida el espacio de las caractersticas (clasificadores
estadsticos) o bien empleando reglas de pertenencia (clasificadores sintcticos). Existe
una tercera va basada en las redes neuronales artificiales, las cuales se parecen a los
clasificadores estadsticos, en cuanto que tratan de particionar el espacio de las
caractersticas. Las redes neuronales emulan a los sistemas biolgicos y clasifican los
objetos empleando etapas previas de aprendizaje.
El esquema general del reconocimiento de objetos, tanto estadstico como
neuronal, consiste en obtener las funciones discriminantes que divida el espacio de
caractersticas en tantas clases como estn presentes en el universo del problema. Por
tanto, la seleccin de las caractersticas resulta ser esencial para la buena clasificacin
de los objetos. stas debern de tener las siguientes propiedades:
1. Capacidad de discriminacin: Las caractersticas deben tomar valores
significativamente distintos para cada clase.
2. Fiabilidad: Las caractersticas deben tomar valores similares para todos los
objetos de la misma clase.
3. Correlacin: Las diversas caractersticas no deben estar correladas unas con
otras, en caso contrario reflejaran la misma propiedad del objeto.
4. Nmero: La seleccin de las caractersticas debera de elegir el menor nmero
de ellas, ya que permite generalizar ms. A ms caractersticas ms datos de
entrenamiento se requieren para mantener igual grado de generalidad y no de
memorizacin.
En el ejemplo de la figura 7.24 se expone la distincin entre dos tipos de plantas:
iris setosa e iris versicolor. Las caractersticas seleccionadas son la longitud y anchura
del ptalo. Tambin se ha representado las dos nubes de puntos de cada grupo en el

Dpto. Electrnica, Automtica e Informtica Industrial

219

Carlos Platero

Apuntes de Visin Artificial

espacio de las caractersticas. Se observa que con una funcin discriminante lineal es
posible una ptima clasificacin.
Una vez seleccionada las caractersticas ms discriminante se proceder a la
clasificacin de los objetos. Existen diferentes tcnicas para la clasificacin de los
objetos. Entre ellas destacan los mtodos sintcticos, las redes neuronales y los
clasificadores estadsticos.

Figura 7. 24 Ejemplo de clasificacin entre iris setosa e iris versicolor empleando el ancho y
longitud de los ptalos

7.3.1 Mtodos sintcticos


En este caso un objeto es visto como una composicin de subformas simples.
Las subformas ms simple a ser reconocidas son llamadas primitivas y una forma
compleja es representada en trminos de interrelaciones entre estas primitivas. Este
mtodo tiene analoga con la sintaxis de un lenguaje.

Figura 7. 25 Ejemplos de dos tipos de defectos en el aluminio colado y su clasificacin con


mtodos sintcticos: a) Mala cristalizacin, b) Desperfecto superficial.

7.3.2 Redes neuronales


Consiste en una red cuyos nodos son neuronas artificiales que se conectan
mediante enlaces que tienen distintas ponderaciones. Las redes neuronales tienen la
habilidad de aprender complejas relaciones no lineales de entrada-salida usando
procedimientos secuenciales de entrenamiento. Las redes neuronales ms usadas para
220

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

efectos de clasificacin supervisada son:


Feed-forward networks (redes hacia adelante)
que incluye a MLP (MultiLayer Perceptron) y
las redes de funciones de base radial (RBF).
Para clasificacin no supervisada se usa las
redes de Kohonen conocidas como SelfOrganizing Maps (SOM).

Figura 7. 26 Arquitectura de red neuronal

Figura 7. 27 Ejemplo de clasificacin mediante una red neuronal de los terrenos vistos en una
imagen area

7.3.3 Clasificadores estadsticos


En esta tcnica cada objeto es representado como un conjunto de mediciones de
k-caractersticas y puede ser considerado el objeto como un punto en el espacio kdimensional. Primero hay que seleccionar aquellas caractersticas que permitan a los
vectores de los objetos de las distintas clases ocupar regiones disjuntas en el espacio kdimensional. Dado un conjunto de objetos, el objetivo es establecer las fronteras en el
espacio de caractersticas que separen a las distintas clases. Hay dos metodologas: la
basada en teora de decisin y la basada en anlisis discriminante. En la primera las
fronteras son determinadas por las distribuciones de probabilidad de cada clase. En el
segundo caso se especifica una forma paramtrica de las fronteras entre las clases
(lineal, cuadrtica, etc ) y luego se definen basndose en las muestras de aprendizaje, tal
cual se hace, por ejemplo, con las redes neuronales.
Desde el punto de vista de los clasificadores estadsticos, cada una de las N
clases se representa mediante un prototipo o centroide, Zi, el cual es un punto kdimensional. ste suele ser construido como el valor medio de las muestras de
entrenamiento de cada clase. As, para la clase i con ni muestras de entrenamiento, el
centroide quedar definido como:

1
Zi
ni

ni

X
j 1

ij

Dpto. Electrnica, Automtica e Informtica Industrial

(7. 12)

221

Carlos Platero

Apuntes de Visin Artificial

siendo Xij el vector j de k-dimensiones que es una muestra de la clase i. La


funcin distancia eucldea entre una nueva muestra X y cada uno de los centroides Zi del
universo del problema:
d 2 X , k X Zi

(7. 13)

permitir discriminar a qu clase pertenece la nueva muestra. El objeto a


clasificar ser asignado a la clase i que tenga menor distancia a Zi. La frmula anterior
es equivalente a evaluar la expresin de la funcin discriminante de cada clase fi(X).
Dada la muestra X se asignar a la clase i tal que fi(X) sea mximo:
1
fi X X T Zi ZiT Zi
2

A partir de las funciones discriminantes de clases se pueden construir las


fronteras de decisin entre las clases (hiperplanos), como se ha mostrado en el ejemplo
de la familia de plantas iris (ver figura 7.24). A veces no se puede conseguir una
separacin lineal entre las clases. Normalmente se debe a que: 1) las caractersticas son
inadecuadas para distinguir entre clases de forma lineal, 2) las caractersticas tienen una
alta correlacin, 3) las fronteras de decisin no son lineales, 4) hay subclases, dentro de
las clases, 5) el espacio de caractersticas es muy complejo.
Una solucin a este problema viene dado por el marco de trabajo de Bayes. Se
trata de minimizar el error de clasificacin con el conocimiento a priori de las funciones
de densidad de las caractersticas de los objetos a clasificar. Empleando el teorema de
Bayes se adjudica una nueva muestra a la clase que tenga mayor probabilidad a
posteriori:

p i | X

p X | i p i
p X

(7. 14)

donde p(i) es la probabilidad la clase i y p(X|i) es la probabilidad a priori de


que dado el vector X del objeto pertenezca a la clase i. Por ltimo, p(X) es la
probabilidad de que se presente una muestra con este vector de caractersticas X.
Cumplindose que:
N

p X p X | i p i
i 1

(7. 15)

Para una nueva muestra con vector de caracterstica X, p(X) permanecer


constante para todas las clases, luego la funcin discriminante ser la probabilidad a
posterior sin la probabilidad de la muestra:

222

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

fi X p X | i p i

(7. 16)

se asignar la muestra a la clase que retorne mayor valor de fi(X).


La estimacin de la probabilidad p(X|i) es otra cuestin a tratar. Si el vector de
caractersticas, X, es k-dimensional, p(X|i) es una funcin de k variables, que, si su
forma no es conocida, requiere de mtodos de la teora de probabilidades de varias
variables para su estimacin. Estos mtodos son difciles de aplicar en la prctica. Por
estas razones, los clasificadores de Bayes se basan generalmente en la suposicin de una
expresin analtica para las diversas funciones de densidad y, posteriormente, en una
estimacin de los parmetros de la expresin para los patrones ejemplo de cada clase.
La forma ms habitualmente supuesta para p(X|i) es la distribucin gaussiana. Cuanto
ms se aproxime a la realidad esta suposicin, ms se aproximar el clasificador de
Bayes al mnimo error de clasificacin.

Figura 7. 28 a) nube de puntos de tornillos y tuercas, b) funciones de densidad p(X|i)

El modelo de funcin de densidad normal est definida por el vector de la media,


Mi , y la matriz de covarianza, :

p( X | i )

k /2

T
1

exp X M i i1 X M i
2

(7. 17)

Figura 7. 29 Funcin de densidad gaussiana 2D para tres clases

Dpto. Electrnica, Automtica e Informtica Industrial

223

Carlos Platero

Apuntes de Visin Artificial

Debido a la forma exponencial de la densidad gaussiana es ms conveniente


trabajar con el logaritmo neperiano en la funcin discriminante:

k
1
fi X ln p X | i p i ln 2 ln i 2

2
1
T
X M i i1 X M i ln p i
2

(7. 18)

El trmino k / 2 ln 2 es el mismo para todas las clases, por lo que se elimina


de la ecuacin de la funcin discriminante.
Si todas las matrices de covarianzas de las clases fuesen idnticas y las
probabilidades de las clases fuesen equiprobables, la funcin discriminante se define
como la distancia de Mahalanobis:
fi X

1
T
X M i 1 X M i
2

Adems para el caso particular


de que las componentes del vector X
no estuvieran correladas y fuesen de la
misma magnitud, coincidira con la
funcin
discriminante
lineal
o
distancia eucldea:
fi X X M i

X Mi .

Figura 7. 30 Funciones discriminantes de


Mahalanobis y eucldea para el problema de
tuercas y tornillos

Ejemplo 7.2
Dado las siguientes muestras de 2-caractersticas de dos clases:

1 3 1 2 3
6 6 7 8 8
2

2 3 5 2 3
4 3 4 4 5

Y suponiendo que sigan una distribucin normal en cada grupo,


determinar a que clase pertenece el nuevo elemento: {4,5}.
En primer lugar se calcular la media y la matriz de covarianza para cada clase:

224

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

0.25
2
7
1
1 0.5
M 1 , M 2 , 1
y 2

3
4
0.25 1.5
0.5 0.5

Al ser equiprobables las clases, se calcula la


distancia de Mahalanobis del nuevo elemento a cada
grupo:

pdf(obj,[x,y])
6
5.5
5
4.5

d1 X X M1 11 X M1 8.35

d 2 X X M 2 21 X M 2 34
T

3.5
3
2.5
2

Luego se asignar a la primera clase.

1.5
1

En el caso de no poder asumir un modelo analtico para p(X|i) habr que


recurrir a estimadores no paramtricos de la funcin de densidad, como es el caso del
histograma. Sin embargo, el histograma est promediando valores en una regin y por
tanto est generando una versin distorsionada de la funcin de densidad. Normalmente
se emplea el mtodo no paramtrico de Parzen.
Suponiendo que se tiene muestras de una determinada clase, su probabilidad
ser:

p X

p X dX
R

dX

n/m
VR

(7. 19)

siendo n el nmero de muestras del total m que caen en la regin R de volumen


VR. Por otro lado, habr que garantizar que cuando el nmero de muestras, m, tienda a
infinito, la aproximacin discreta coincida con la continua. Para tal fin, la regin R
quedar definida por una funcin (X) que encierra el volumen VR. El nmero de
muestras que cae en la regin R corresponder con:
m
X Xi
k

h
i 1

(7. 20)

siendo (X) el hipercubo que selecciona la regin. La funcin de densidad


quedar como:

Dpto. Electrnica, Automtica e Informtica Industrial

225

Carlos Platero

Apuntes de Visin Artificial

p X

n/m
1

VR
mhp

X Xi
.
h


i 1

(7. 21)

Normalmente (X) emplea una expresin de tipo gaussiano para el suavizado de


la funcin densidad, de manera que h define la apertura de la regin y por tanto el
carcter de p(X). A medida de que h sea ms grande, con ms muestras de alrededor
interaccionar y ms suave ser p(X). El papel de h2 es idntico a la de varianza.

X Xi
1 m
1
p X
exp

m i 1 2 h 2 12
2h 2

(7. 22)

Figura 7. 31 Estimacin de p(X) con 5 datos con tres diferentes anchos de ventana

7.4 Cuestiones
1. Etiquetamiento de las imgenes
2. Extraccin de caractersticas de los objetos etiquetados.
3. Clasificadores estadsticos.

226

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

7.5 Problemas
Problema 1
Calcular las caractersticas de regiones del objeto etiquetado.
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
1
1
0
0
0
0

0
0
0
1
1
1
1
0
0
0

0
0
1
1
1
1
1
1
0
0

0
0
0
1
1
1
1
1
0
0

0
0
0
0
1
1
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0

1
Area: 19
Centroid: [5.0526 5.6316]
BoundingBox: [2.5000 2.5000 5 6]
MajorAxisLength: 5.5489
MinorAxisLength: 4.6766
Eccentricity: 0.5382
Orientation: -76.7175
FilledArea: 19
EulerNumber: 1
EquivDiameter: 4.9185
ConvexArea: 20
Solidity: 0.9500
Extent: 0.6333
Perimeter: 13.8995

Problema 2
En la imagen de monedas (coins.png) se trata de clasificarlas en dos
categoras: pequeas y grandes. Se pide:
1.
Algoritmo de segmentacin, etiquetado y extraccin de las
caractersticas del rea de cada objeto etiquetado. Explicarlo y escribir el
seudo-cdigo en Matlab.
2.
Sabiendo que las reas de las monedas pequeas son y de las
grandes son y suponiendo distribuciones normales, calcular los parmetros de
las distribuciones y la probabilidad a priori de cada etiqueta.
3.

Determinar el umbral ptimo de Bayes.

Dpto. Electrnica, Automtica e Informtica Industrial

227

Carlos Platero

Apuntes de Visin Artificial

1.

imIn=imread('coins.png'); %lectura de imagen


umbr = im2bw(imIn); % umbralizacin
bwcoins = imfill(umbr,'holes'); % Relleno de grietas
figure(1);
imshow([umbr,bwcoins]);
pause;
labels = bwlabel(bwcoins); %Etiquetamiento
RGB = label2rgb(labels);clf;
figure(1);
imshow(RGB);pause;
area_coins =regionprops(labels,'Area');

2. Los parmetros de las distribuciones normales para las categoras de monedas


pequeas y grandes son la media y la varianza:
Normal pequeas: P 1854 P2 1128

Normal

grande: G 2619 8250


2
G

Mientras que las probabilidades a priori de cada clase son:


pP 0.4

pG 0.6

3. El umbral de Bayes ser definido cuando la probabilidad de cada clase sea la


misma para esa rea:

p area | P p p

p area | G pG

p area | P p p
log
p area | G pG

area 2 area 2
p
p
G

log G P 0
2
2
p


P
G
p G


228

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Resolviendo la ecuacin de segundo orden da que el rea umbral es 2063


pxeles.
Problema 3
En la imagen de la figura el objeto sigue
una distribucin normal de su intensidad con
media 150 y desviacin tpica 30. Por el contrario,
el fondo tiene un nivel de gris, tambin con
distribucin normal, de media 50 y desviacin 20.
El objeto ocupa un 20% del total de la imagen. Si
un pxel tiene intensidad 100, a qu grupo se le
asociara?.
Se tratar de calcular la probabilidad de pertenencia de ese pixel a cada grupo
mediante el conocimiento a priori. La probabilidad de pertenecer al objeto sera:
p ' obj ' | i 100 p i 100 | ' obj ' p ' obj '
p ' obj ' | i 100

2
1
exp (100230150)
0.2 0.0027
2
30 2

Respecto al fondo:

p ' bck ' | i 100 p i 100 | ' bck ' p ' bck '
p ' bck ' | i 100

1
150)2
exp (50220
0.8 0.015
2
20 2

Luego el pxel tiene mayor probabilidad de pertenecer al fondo.


Problema 4
Dada las secuencias de etapas de procesamiento, se pide:

Dpto. Electrnica, Automtica e Informtica Industrial

229

Carlos Platero

1.

2.
3.

Apuntes de Visin Artificial

Escribir el seudo-cdigo de Matlab, sabiendo que la caracterstica de


clasificacin ha sido la excentricidad de la elipse de cada objeto
etiquetado.
Criticas a la adquisicin de la imagen. Explicar el motivo de utilizar la
excentricidad de la elipse como vector de caractersticas.
Determinar el umbral ptimo de Bayes de la excentricidad considerando
que las dos clases son equiprobables y normales. Los valores de
excentricidad para las dos clases de las muestras de entrenamiento son:
Tornillos=[0.91 0.84 0.96 0.89 0.96 0.93 0.95]
Tuercas= [0.61 0.57 0.48 0.52 0.55 0.59 0.49]

% lectura
imIn = rgb2gray(imread('TornTuercas.jpg'));
% Umbralizacin con Otsu
imbw = im2bw(imIn,graythresh(imIn))==0;
% Cierre
imgPost = imclose(imclearborder(imbw),strel('square',3));
% Relleno
imgPost2 = imfill(imgPost,'holes');
% Etiquetado
imLabel = bwlabel(imgPost2);
imshow(label2rgb(imLabel));
% Extraccin de las caractersticas
features = regionprops(imLabel,'Eccentricity','Centroid');
% Clasificador
hold on;
umbralBayes=0.8;
for i=1:numel(features)
if(features(i).Eccentricity< umbralBayes)
%Tuercas
plot(features(i).Centroid(1),features(i).Centroid(2),'ko');
else
%Tornillos
plot(features(i).Centroid(1),features(i).Centroid(2),'k+');
end
end
hold off;

2. De la umbralizacin se observa que la iluminacin est direccionada hacia


abajo y a la derecha. Se necesitara una iluminacin ms uniforme. La eleccin de la
excentricidad es debido a que es una caracterstica invariante a traslacin, rotacin y
escalado. Adems con slo est caracterstica es posible separar las tuercas de los
tornillos, de manera que por debajo del umbral de Bayes se clasificar como tuerca y
por encima como tornillo.
3. Considerando que las dos clases se distribuyen de forma normal, sus
parmetros sern:
230

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Tor

N 0.92 1.9 103 Tor

N 0.54 2.5 103

El umbral de Bayes ser definido cuando la probabilidad de cada clase sea la


misma para esa excentricidad:

p excenticidad * | Tor
1
p excenticidad * | Tuer
p excenticidad * | Tor
log
0
p excenticidad * | Tuer
excenticidad * Tor 2 excenticidad * Tuer 2
Tor

log

0
2
2

Tor
Tuer
Tuer

excenticidad * 0.638

Derecho de Autor 2016 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".
La Licencia de documentacin libre GNU (GNU Free Documentation License)
es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la
versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

Dpto. Electrnica, Automtica e Informtica Industrial

231

Potrebbero piacerti anche