Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
4.1. Introducción.
La percepción visual del movimiento es una función esencial del sistema visual
humano. Su importancia es central en la estimación del movimiento relativo entre
objetos, en la estimación del movimiento propio (ego movimiento), en los procesos de
orientación y en la discriminación entre objetos espacialmente separados. Las
variaciones producidas en el campo visual debido al movimiento revelan una estructura
tridimensional análoga a la que inducen dos imágenes en estereopsis, suponiendo una
rica fuente de información en la determinación de la profundidad en el mismo y de la
estructura de los objetos que comprende.
79
Capítulo 4 Percepción Visual del Movimiento
Una vez establecido un modelo más o menos acertado del sistema de percepción
visual del movimiento usado por los humanos, se plantea la viabilidad de crear un
sistema artificial semejante, sino en estructura, al menos en comportamiento y
funcionalidad. Añadida a la complejidad inherente a la percepción del movimiento, se
unen restricciones tecnológicas que limitan la cantidad de procesamiento que se puede
efectuar sobre las imágenes, teniendo esto consecuencias directas sobre la resolución y
cadencia (espacial y temporal) de las medidas de movimiento y sobre la complejidad
involucrada en los cálculos a efectuar.
4.2. Enfoques.
80
Capítulo 4 Percepción Visual del Movimiento
Medida Interpretación
vectores de
1 1
Correspondencia de desplazamiento Interpretación de
rasgos significativos Correspondencias
estructura y
escena movimiento
campo de de la escena
1 1
Cálculo de velocidades velocidades Interpretación del
instantáneas campo de velocidades
81
Capítulo 4 Percepción Visual del Movimiento
En la figura 4-3. se puede observar el resultado de la aplicación del método del flujo
óptico a la misma secuencia. Para ello se ha aplicado un método que busca
correspondencias entre los puntos de una imagen (a) y los de una localidad de la misma
en la correspondiente al siguiente cuadro (b), obteniéndose un campo de movimiento
82
Capítulo 4 Percepción Visual del Movimiento
denso (c) que pretende corresponder a la velocidad instantánea de los puntos en el plano
de imagen.
83
Capítulo 4 Percepción Visual del Movimiento
Figura 4-5. Estimación del flujo óptico a partir de una secuencia de imágenes.
84
Capítulo 4 Percepción Visual del Movimiento
de orden alto, tal como una esquina o una región fuertemente texturada, presentándose
suficiente gradiente en al menos dos direcciones. En las zonas donde existe un fuerte
gradiente en una sola dirección, solo se puede pretender estimar la componente de flujo
normal al mismo. En las que no presentan gradiente alguno, la estimación será
generalmente pobre.
85
Capítulo 4 Percepción Visual del Movimiento
86
Capítulo 4 Percepción Visual del Movimiento
87
Capítulo 4 Percepción Visual del Movimiento
88
Capítulo 4 Percepción Visual del Movimiento
I ( x , y , z ) = I ( x + δx , y + δy , t + δt ) (4-1)
∂I ∂I ∂I
I ( x + δx , y + δy , t + δt ) = I ( x , y , z ) + δx + δy + δt (4-2)
∂x ∂y ∂t
∂I ∂I ∂I
δx + δy + δt = 0 (4-3)
∂x ∂y ∂t
Ixu + I y v + It = 0 (4-4)
Esta restricción proporciona una ecuación con dos incógnitas (u y v) y por tanto, no
permite determinar la velocidad real sin imponer más restricciones. Como mucho, se
puede obtener el módulo de la velocidad normal al gradiente local (Véase la Figura 4-8),
correspondiendo éste a la distancia desde el origen a la recta descrita por la ecuación (4-
4). Por tanto, la incapacidad de medir la velocidad real es inherente a éste criterio y
persiste aún en regiones fuertemente texturadas que no sufren el problema de la
apertura.
Figura 4-8. Imposibilidad de calcular la velocidad real usando el criterio del gradiente.
89
Capítulo 4 Percepción Visual del Movimiento
Una formulación alternativa consiste en la creación de una función que indica el error
respecto al cumplimiento de la ecuación (4-4) para un conjunto de valores candidatos de
uyv:
Ec (u, v) = ( I x u + I y v + It )2 (4-5)
El resultado de este tipo de operador no es una función de similitud sino una función
de disimilitud o error. La obtención de la primera como función inversa de la otra
presenta problemas de cálculo (división por un número pequeño) cuando la coincidencia
es muy alta. Una alternativa interesante propuesta por [Singh,1991] utiliza la inversa del
exponencial del error multiplicado por un coeficiente.
[
−k ( Ix u+ I y v+ It )2 ]
Rc (u, v) = e (4-6)
En general, se puede decir que las técnicas basadas en éste criterio no disfrutan de
buenas cualidades en cuanto a precisión y robustez. Por contra, presentan una carga
computacional relativamente baja, resultando útiles en muchas aplicaciones donde se
pueden presuponer ciertas características del entorno o cuando solamente se desea
detectar la presencia de movimiento.
90
Capítulo 4 Percepción Visual del Movimiento
búsqueda de tamaño (R x + (Px -1) / 2 )(R y + (Py -1) / 2 ) . El tamaño de ésta respuesta
91
Capítulo 4 Percepción Visual del Movimiento
∑ ∑ I ( x + i, y + j ) ⋅ I
N N
Rc ( u, v ) = 1 2 ( x + u + i, y + v + j ) (4-7)
i=− N j =− N
∑ ∑ ( I ( x + i, y + j ) − I ( x + u + i, y + v + j ))
N N
Ec ( u, v ) = 1 2
2
(4-8)
i =− N j =− N
Una vez mas, se indica que un valor de k entre 10-1 y 10-4 produce resultados
satisfactorios.
92
Capítulo 4 Percepción Visual del Movimiento
Esta familia de criterios suponen que, ante la traslación local de una región texturada,
es posible identificar un plano en el dominio de frecuencia espacio-temporal (R3) donde
se produce un máximo de energía espectral. A si mismo, la traslación de un perfil
unidimensional producirá una línea que pasa por el origen y la traslación de una región
uniforme producirá un punto en el mismo. En el caso de presentarse múltiples
velocidades, la respuesta será más compleja y en la forma de un hiperplano.
orientación y escala de la velocidad a que son sensibles. Si bien se suele proceder a una
disposición heurística del banco de filtros, existen estudios [Nowlan,1994] sobre la
idoneidad de la misma. A continuación se muestra la componente real de un filtro de
Gabor.
x2 y2 t2
− − −
1 2σ x2 2σ 2
2σ t2
g( x, y, t ) = e y
sin( 2πωx o + 2πω y o + 2πωto ) (4-10)
2π 3/ 2σ xσ yσ t
93
Capítulo 4 Percepción Visual del Movimiento
94
Capítulo 4 Percepción Visual del Movimiento
R( u, v , t ) = ρ ( u, v , t )e jφ ( u, v ,t ) ( 4-14 )
Si bien los métodos basados en criterios de éste tipo presentan muy buenas
características en cuanto a robustez y calidad de las medidas, la implantación del banco
de filtros de Gabor en un computador de propósito general supone una carga enorme
tanto de memoria como de cálculo. Por otra parte, existen indicios de que el sistema de
percepción visual humano utiliza en la estimación del movimiento una estructura
análoga a un banco de filtros sintonizados en velocidad [Perone,1992] [Anderson,1991].
95
Capítulo 4 Percepción Visual del Movimiento
dinámica del mismo. Se trata de circuitos que operan directamente sobre las señales
analógicas provenientes de cada uno de los fotodetectores de un CCD y no requieren
ningún tipo de barrido, captura o almacenamiento de imágenes. Por tanto, son
tremendamente rápidos y permitirán la inclusión de la percepción visual del movimiento
en lo que se entiende por sensor cercano (Near-Sensor Paradigm [Forchheimer,1994]).
De momento sin embargo, la gran capacidad de integración que requieren hace que
solamente existan prototipos consistentes en matrices de pocos elementos. Cabe también
destacar propuestas de diseño de circuitos analógicos de estimación del movimiento
basados en correladores de Reichardt [Snippe,1994] dispuestos de manera que
aproximan el comportamiento de un banco de filtros sintonizados en velocidad.
96
Capítulo 4 Percepción Visual del Movimiento
∑ ∑ Rc ( u, v )u ∑ ∑ R ( u, v )v
U cc = u v
u v c
∑u ∑v Rc ( u, v ) ∑ ∑ R ( u, v )
(4-15)
u v c
∑u ∑v Rc ( u, v )( u − ucc )2 ∑∑ Rc ( u, v )( u − ucc )( v − v cc )
u v
∑u ∑v Rc ( u, v ) ∑u ∑v Rc (u, v )
S cc =
∑ ∑ Rc ( u, v )( u − ucc )( v − v cc ) ∑u ∑v Rc ( u, v )( v − vcc ) (4-16)
2
u v
∑u ∑v Rc ( u, v ) ∑u ∑v Rc (u, v )
En la figura 4-11 se muestran las ventanas de pixel, búsqueda y respuesta para tres
situaciones típicas : esquina, borde y región uniforme. Sobre las respectivas ventanas de
respuesta, se muestra el vector de velocidad y las elipses de confianza. Los ejes de las
elipses han sido escalados para corresponder aproximadamente a la región de
incertidumbre involucrada en la determinación del vector de velocidad. Obsérvese que
la longitud de éstos es proporcional a la extensión de dicha zona y por tanto
97
Capítulo 4 Percepción Visual del Movimiento
Figura 4-10. Distribución de respuesta, velocidad y ejes de confianza para tres tipos de regiones
significativas : (a) esquina, (b) borde y (c) región uniforme.
98
Capítulo 4 Percepción Visual del Movimiento
vecinas a las mismas en donde no, pudiéndose utilizar las estimaciones de velocidad en
unas para mejorar las de las otras. Éste es el objetivo del proceso de aplicación de
criterios de vecindad, también conocido como regularización, suavizado o propagación
de velocidad.
Por lo tanto, resulta que si bien los contornos y sobre todo las esquinas parecen ser
buenos candidatos para la estimación del flujo óptico, también son buenos aspirantes a
pertenecer a una vecindad donde se infringen las restricciones de coherencia
espaciotemporal. Cabe distinguir entonces entre contornos que corresponden a
variaciones en la profundidad del entorno (estructurales) y aquellos que corresponden a
variaciones de intensidad en superficies continuas (luminosos) debido a la diversidad de
materiales o pintura, debido a sombras, a macro-texturas (p.ej. ladrillos), etc.. En el
primer caso, los criterios de vecindad deberán evitar mezclar medidas de puntos
99
Capítulo 4 Percepción Visual del Movimiento
∂u ∂u ∂v ∂v
2 2 2 2
E = + + +
2
(4-17)
∂x ∂y ∂x ∂y
c
∂I ∂I
2
∂I
E = δx + δy + δt
2
(4-18)
∂x ∂y ∂t
b
Una forma de obtener este mínimo es mediante un proceso iterativo. Entre los
diversos métodos que se podrían aplicar, Horn y Shunck [Horn,1981] propusieron uno
basado en el cálculo variacional [Elsgoltz,1977] que ha sido adoptado por la mayoría de
los autores y que se describe con el siguiente par de ecuaciones :
100
Capítulo 4 Percepción Visual del Movimiento
n+1
I x un + I y v n + It
u = u − Ix
n
,
α 2 + I x2 + I y2
(4-20)
I x un + I y v n + It
v n+1 = v n − I y
α 2 + I x2 + I y2
(α 2 + I x2 + I y2 )( u − u) = − I x ( I x u + I y v + I t ),
(4-21)
(α 2 + I x2 + I y2 )( v − v ) = − I y ( I x u + I y v + I t )
Figura 4-12. Comportamiento del suavizado convencional ante: (a) vecindad de profundidad
uniforme, (b) variación gradual de la profundidad, (c) variación abrupta de profundidad.
101
Capítulo 4 Percepción Visual del Movimiento
∂u 2 ∂v 2
E 2 ( u ) = ∫ ( n ⋅ u − u⊥ )2 + α 2 + ds (4-22)
∂s ∂s
102
Capítulo 4 Percepción Visual del Movimiento
donde
∂u ∂v
∂x ∂x
∇V = ∂u ∂v (4-24)
∂y ∂x
F I y2 + σ 2 ( I xy2 + I yy
2
) − I x I y − σ 2 ( I xx2 + I yy
2
)
W= , F= (4-25)
− I x I y − σ ( I xx + I yy ) I x2 + σ 2 ( I xx2 + I xy2 )
2 2 2
trace( F )
103
Capítulo 4 Percepción Visual del Movimiento
Entre las técnicas que pretenden solventar esta deficiencia destaca la propagación de
velocidad [Singh,1991], en la cual se propone una optimización estadística de las
estimaciones de conservación y de vecindad. En esta formulación, se requiere que la
estimación del campo en cada punto de evaluación consista en un vector de velocidad
U cc obtenido mediante algún criterio de conservación y una matriz de covarianza S cc
indicadora de la calidad de la estimación. Dicho autor propuso formas de obtener ambos
para diversos criterios de conservación.
i+ p j + p i+ p j+ p
∑ ∑ Rn ( m, n )umn ∑ ∑ R ( m, n )v n mn
U n ( i, j ) = i + p j + p
m= i − p n= j − p m= i − p n= j − p
i+ p j+ p (4-26)
∑ ∑ Rn ( m, n ) ∑ ∑ Rn ( m, n )
m=i− p n= j− p m= i − p n= j − p
i+ p j+ p i+ p j+ p
∑ ∑ Rn ( m, n )( umn − umn n
)2 ∑ ∑ R ( m, n )(un mn − umn
n
)( v mn − v mn
n
)
= − =
m i pn j p−
i+ p j+ p
m= i − p n= j − p
i+ p j+ p
∑ ∑ Rn ( m, n ) ∑ ∑ Rn ( m, n )
m= i − p n= j − p m= i − p n= j − p
S n = i+ p j+ p i+ p j+ p (4-27)
∑ ∑ Rn ( m, n )( umn − umn n
)( v mn − v mn
n
) ∑ ∑ Rn ( m, n )( v mn − v mn ) n 2
m=i− p n= j − p m= i − p n= j − p
i+ p j+ p i+ p j+ p
∑ ∑ Rn ( m, n ) ∑ ∑ Rn ( m, n )
m= i − p n= j − p m= i − p n= j − p
Cabe destacar en las ecuaciones (4-26) y (4-27) que los valores de Rn(i,j) actúan
como un filtro FIR, es decir como una serie de coeficientes constantes mientras que los
valores uij y vij son variables para cada punto ya que corresponden a las estimaciones de
velocidad obtenidas mediante la aplicación de algún criterio de conservación. Esto
contrasta con el significado de Rc ( u, v ) , u y v en las ecuaciones (4-15) y (4-16) donde el
primero es una función de respuesta, variable para cada punto, y los segundos son
valores fijos correspondientes al desplazamiento de la ventana de pixel.
104
Capítulo 4 Percepción Visual del Movimiento
U 0 = U cc
(4-29)
U k +1 = [S−cc1 + S−n1 ] [S−cc1U cc + S−n1U nk ]
−1
S = [S−cc1 + S−n1]
−1
(4-32)
siendo la incertidumbre asociada a ésta menor que la de las otras dos y correspondiendo
a una región aproximadamente igual a la intersección de las elipses de incertidumbre de
las estimaciones de conservación y vecindad.
105
Capítulo 4 Percepción Visual del Movimiento
1
d 0
S = LDU ⇒ S−1 = U T D−1LT = U T 11 LT (4-33)
1
0
d22
Los problemas de inversión surgen cuando d11 o d22 son cercanos a cero. Si bien lo
normal sería sustituir 1/d11 o 1/d22 por cero, Singh indica que esta situación corresponde
a estimaciones de muy alta confianza y propone hacer la sustitución por un valor grande
pero no infinito.
106
Capítulo 4 Percepción Visual del Movimiento
matriz de covarianza indicativa de una gran calidad cuando se trata de una estimación
realmente mala !
Haciendo justicia, cabe indicar que Singh propuso como mejora a su algoritmo el
tener en cuenta dichas covarianzas. No obstante, se ha comprobado que ello conlleva
mayores dificultades en cuanto a singularidades en la inversión que no son resuelven
con la solución descrita en el apartado anterior, siendo éste un problema todavía no
resuelto. Por otra parte, su formulación ha servido de referencia, punto de partida o
comparación desde entonces.
{
( u, v )( x , y ) = min Ec ( x , y ) ( u, v )
{ u,v }
}
(4-34)
σ ( x, y ) =
2
c
1
( 2 N + 1)2
∑ ∑ (E u v c( x , y ) ( u, v ) − Ec ( x , y ) ) 2
∑ ui / Eci′ ∑ v / E′
Un = i
∑ 1 / E′
i i ci
∑i 1 / Eci′
(4-35)
i ci
107
Capítulo 4 Percepción Visual del Movimiento
Con esto se consigue evitar el caso degenerativo de las regiones uniformes pero se
pierde capacidad de suavizado en situaciones donde hay un punto con una estimación
mala, pero que está rodeado de puntos con buena estimación.
Por otra parte, también son eliminados de la propagación los puntos lejanos, que
lógicamente presentan una velocidad pequeña. Esto no supone perjuicio alguno ya que
no se consigue gran mejora para los mismos durante la propagación y porque tampoco
resulta muy aconsejable asignarles una alta confianza en base a criterios de gradiente
local o de similitud de estimaciones, ya que existe la constancia de que habrá un error
considerable en la estimación de la profundidad del mismo debido a que la base de
triangulación involucrada es pequeña.
En la representación del flujo óptico se incluye, para cada punto donde se realiza una
estimación, un cuadrado centrado en dicho punto y con un nivel de gris proporcional a
la confianza normal de la misma. Un segmento recto con origen en el mismo representa
el vector de velocidad correspondiente, estando el módulo de éste en ocasiones escalado
para mayor claridad.
108
Capítulo 4 Percepción Visual del Movimiento
(a)
(b)
(c)
109
Capítulo 4 Percepción Visual del Movimiento
(d)
Figura 4-14. Comparación entre estimación de velocidad con y sin propagación de velocidad ante:
(a) vecindad con un borde, (b) vecindad con un borde y esquinas, (c) región uniforme, (d) vecindad
con oclusión y dos planos de movimiento.
En las figuras 4-14 (a), (b) y (c) se muestran porciones de la pared forrada, que
deberían de presentar una traslación a la derecha. En el primer caso, se trata de una
región que contiene un fuerte gradiente diagonal con lo cual se mejoran las estimaciones
de la componente normal al mismo pero no se consigue resolver el problema de la
apertura. Por contra, en el segundo caso sí que aparecen esquinas y es posible resolver
dicho problema. En el tercer caso, se trata de una región uniforme donde es imposible
percibir el desplazamiento. Para este caso, se ha utilizado intencionalmente la
propagación propuesta por Singh para mostrar el efecto degenerativo mencionado. Para
el resto de los casos y en las demás ilustraciones pertinentes se ha utilizado la
modificación indicada.
En la figura 4-14 (d) se muestra una vecindad donde aparece el techo del tren
moviéndose a la izquierda y ocluyendo a la parte inferior del calendario que se mueve
110
Capítulo 4 Percepción Visual del Movimiento
Tanto los métodos de suavizado como los de propagación pretenden interpolar y/o
extrapolar las estimaciones de flujo óptico, basándose en una supuesta continuidad
espacial del campo de movimiento proyectado sobre el plano de imagen. Sin embargo,
esta suposición es inherentemente imprecisa ya que el grado de continuidad depende del
tipo de movimiento relativo al que están sujetos los objetos que componen el escenario
y de la orientación local de la superficie respeto a la línea de vista. Es decir, es cierto
que los puntos pertenecientes a un objeto rígido presentan el mismo movimiento
tridimensional (traslación y rotación) y por tanto se puede hablar de cierta continuidad
de los vectores de velocidad. Sin embargo, el grado de conservación de dicha
característica ante una proyección sobre el plano de imagen, depende en gran medida del
movimiento relativo y estructura del escenario. La mayoría de los métodos no tienen
esto en cuenta.
111
Capítulo 4 Percepción Visual del Movimiento
Como se puede intuir, la estimación del flujo óptico supone una gran carga
computacional, aumentando ésta de manera exponencial con el tamaño de la zona de
análisis. En concreto, la técnica de bloque basada en la correlación SSD (anteriormente
descrita) requiere, para la estimación del flujo óptico en un punto del plano de imagen,
una carga computacional de O( N 2 M 2 ), donde N y M son las dimensiones de las
ventanas de pixel y respuesta, suponiendo que son cuadradas. A su vez, existe una
relación lineal en el número de puntos donde se estima la velocidad o cuadrática en la
densidad de puntos de medida si se disponen de manera uniforme. Adicionalmente,
existirá un incremento lineal en la frecuencia temporal con la cual se deseen realizar las
estimaciones.
112
Capítulo 4 Percepción Visual del Movimiento
Todo ello conlleva a tener que seleccionar cuidadosamente los siguientes parámetros:
Los parámetros indicados están muy interrelacionados, de manera que sea necesario
dimensionarlos adecuadamente a las características del entorno, a la precisión deseada y
a la capacidad computacional disponible. Puede ocurrir en ciertas aplicaciones que esta
rigidez en el rango de movimientos perceptibles suponga una limitación inadmisible ya
que implicaría la modificación de los parámetros ante variaciones del entorno.
113
Capítulo 4 Percepción Visual del Movimiento
En una pirámide de Gauss, cada nivel se construye a partir del nivel inferior mediante
un filtrado paso bajo (anti-aliasing) y un diezmado por dos (en ambas direcciones),
constituyendo la imagen original el nivel mas bajo de la misma. El espacio adicional
requerido por tal representación está limitado a un tercio del ocupado por la imagen
original.
Se construye una pirámide de Laplace de manera similar, salvo que en cada nivel se
resta el resultado del filtrado paso bajo a la imagen original. De esta manera, solo las
escalas finas, extraídas por la operación de suavizado, permanecen en el nivel mas fino.
El nombre de pirámide de Laplace surge del hecho de que al restar una imagen
suavizada por un operador isótropo de su original, se lleva a cabo un operador de
Laplace. La pirámide de Laplace constituye una forma eficiente de realizar una
descomposición paso banda a múltiples escalas y por tanto será de utilidad cuando se
aplique un criterio de conservación de la componente paso banda de intensidad.
(a) (b)
Figura 4-15. Estructuras Piramidales: (a) Gauss, (b) Laplace.
114
Capítulo 4 Percepción Visual del Movimiento
Sea cual sea el tipo de pirámide empleada, en la estimación piramidal del flujo óptico
se procede de la siguiente manera :
115
Capítulo 4 Percepción Visual del Movimiento
116