Reconhecimento de Objetos 3D A Partir de Imagens 2D

Proc.
Workshop BioMed 2002
Reconhecimento 3D
Reconhecimento de objectos 3D a partir de imagens 2D usando prottipos

Raquel Csar, N 46020
raquelcesar@netcabo.pt
Instituto Superior Tcnico
Engenharia Informtica e de Computadores
Engenharia Biomdica 2002
consideradas vistas intermdias. O desempenho no
depende linearmente da menor distncia angular em trs
dimenses vista melhor reconhecida mas correlacionase de forma significativa com a distncia entre a vista
apresentada e a melhor vista (menor tempo de
reconhecimento e menor taxa de erro) em termos da
deformao, no plano bidimensional da imagem, de um
conjunto de caractersticas identificativas do objecto [2].
Desta forma, a medio da semelhana entre planos de
imagem e alguns padres de caractersticas parece ser um
modelo apropriado para o processo de reconhecimento
humano de objectos tridimensionais. Experincias com
macacos mostram que a familiarizao com um nmero
limitado de vistas de um novo objecto pode dar origem a
reconhecimento independente do ponto de vista. Vrios
estudos fisiolgicos tambm fornecem evidncia de um
processamento baseado em vistas pelo crebro durante o
reconhecimento de objectos. Resultados de medies em
neurnios no cortex temporal inferior dos macacos, que se
sabe estar relacionado com o reconhecimento de objectos,
suportam os resultados dos estudos comportamentais.
Foram encontradas populaes de neurnios no cortex
inferior temporal que respondem selectivamente a apenas
algumas vistas de um objecto e cuja resposta diminui
medida que o objecto rodado, afastando-se de um ponto
de vista preferencial [7].
Em suma, podemos dizer que a representao de
objectos na forma de vistas nicas ligadas entre si parece
ser suficiente para uma vasta variedade de situaes e
tarefas de percepo.
O trabalho aqui apresentado descreve uma tentativa de
incorporao
de
reconhecimento
de
objectos
tridimensionais a partir de imagens bidimensionais
partindo de trabalho apresentado em [14]. O esquema
considerado baseia-se na projeco ortogrfica de
objectos 3D em imagens 2D e composto por duas fases.
Na primeira fase, a fase de categorizao, a imagem
comparada a objectos prottipo. Para cada prottipo
determina-se a vista que mais se aproxima da imagem e,
se essa vista for semelhante imagem, classifica-se o
objecto na classe representada pelo prottipo. Na segunda
fase, a fase de identificao, o objecto observado
comparado com os modelos individuais da sua classe.
Cada classe agrupa objectos com formas relativamente
prximas. Para cada modelo procura-se uma vista que
coincida com a imagem. No caso de se encontrar uma
vista nestas condies, a identidade especfica do objecto
determinada. O processo de categorizao do objecto
(antes da identificao) oferece duas vantagens essenciais:
RESUMO
O reconhecimento de objectos encontra-se no topo de
uma hierarquia de tarefas visuais. Na sua forma geral,
este um problema computacional muito difcil, que
desempenhar, provavelmente, um papel significativo na
eventual construo de mquinas inteligentes.
Um nmero cada vez maior de resultados de estudos
comportamentais e neurofisiolgicos vem dar suporte
deia de que os seres humanos representam internamente
os objectos tridimensionais na forma de um conjunto
reduzido de imagens bidimensionais. Neste trabalho
apresentamos um esquema para reconhecimento de
objectos 3D a partir de imagens 2D. O esquema proposto
comea por identificar a classe do objecto observado e
s depois procura determinar a sua identidade individual.
Desta forma, diminuem-se os custos computacionais de
uma comparao exaustiva com todos os objectos
conhecidos. Por outro lado, parte do processamento
efectuado na fase de categorizao pode ser reutilizado
na fase de identificao. O sistema desenvolvido no
possui qualquer conhecimento prvio e constri a base de
objectos enquanto vai funcionando.
INTRODUO
Cada objecto tridimensional pode produzir padres de
excitao na retina consideravelmente diferentes,
dependendo da posio do objecto relativamente ao
observador. Apesar disto, somos capazes de perceber que
estes sinais diferentes so produzidos pelo mesmo
objecto. Esta capacidade de reconhecimento constante a
partir de tais sinais de entrada inconstantes -nos
conferida pela capacidade que o nosso crebro possui de
estabelecer representaes internas dos objectos. A
natureza de tais representaes invariveis ao ponto de
vista e a forma como elas podem ser adquiridas ainda
um dos maiores problemas por resolver em neurocincia e
em viso por computador.
Existe um nmero incontvel de estudos
comportamentais com primatas que suportam o modelo
de uma representao dos objectos tridimensionais
baseada em vistas pelo nosso sistema de viso. Se
apresentarmos a um humano um conjunto de vistas de
objectos desconhecidos, o seu tempo de resposta e as
taxas de erro durante o reconhecimento crescem com o
aumento da distncia angular entre o objecto aprendido e
a vista desconhecida [11]. Este efeito diminui se forem
25
Proc. Workshop BioMed 2002
Reconhecimento 3D
em primeiro lugar, a imagem comparada com um

nmero menor de modelos, j que apenas necessrio
considerar modelos que pertencem mesma classe que o
objecto; em segundo lugar, o custo de comparar uma
imagem com cada modelo de uma classe muito reduzido
porque as correspondncias so computadas uma nica
vez para toda a classe. Mais concretamente, as
correspondncia e pose do objecto computadas no
processo de categorizao para alinhar a imagem com o
prottipo so reutilizadas no estgio de categorizao para
alinhar os modelos individuais com a imagem. Desta
forma, a identificao reduz-se a uma srie de
comparaes simples.
Este processo de reconhecimento segue de perto o
esquema proposto por Basri [8]. No entanto, diferencia-se
do trabalho a apresentado porque tentmos desenvolver
um processo para reconhecimento em que a base de
conhecimento fosse construda de forma incremental, sem
a prvia construo/categorizao de uma base de
imagens.
O sistema no possui qualquer conhecimento prvio e
as classes e modelos de objectos vo sendo construdas
medida que novos objectos vo sendo observados. A
deia fundamental na base deste procedimento a
seguinte: quando observada uma nova imagem do
objecto, se ela no difere significativamente das vistas j
observadas do mesmo objecto, ento ela ser reconhecida.
Se a nova vista reconhecida for suficientemente diferente
das vistas armazenadas, podemos guard-la, juntamente
com as restantes vistas. Desta forma, poderemos cobrir
todo o espao das vistas de cada objecto com um nmero
reduzido de imagens, de uma forma incremental.
Evidentemente, pode acontecer (e mesmo provvel que
acontea) que duas vistas distintas do mesmo objecto
sejam identificadas como pertencendo a objectos
diferentes, por se tratar de vistas com poucos pontos em
comum. A deia, ento, que, em determinado momento,
ir surgir alguma nova vista do objecto que se
assemelhar a ambos os objectos. Nessa altura, podemos
reconhecer que estamos perante o mesmo objecto e
unificar as duas representaes.
perspectiva fraca, a posio do objecto, aps uma rotao

r
R, translao t e escalamento s, dada por
xi = sr11 X i + sr12Yi + sr13 Z i + st x ,

yi = sr21 X i + sr22Yi + sr23 Z i + st y ,
onde
de escalamento.
r r r r r
X , Y , Z , x , y n os vectores dos
valores X i , Yi , Z i , xi e yi , respectivamente, e
r
n
denotemos 1 = (1,...,1) . Ento, podemos escrever,
Denotemos por
sob a forma vectorial
r
r
r
r
r
x = a1 X + a2Y + a3 Z + a4 1,
r
r
r
r
r
y = b1 X + b2Y + b3 Z + b4 1,
(2)
onde
a1 = sr11
a2 = sr12
a3 = sr13
a4 = stx
Ou seja,
b1 = sr21
b2 = sr22
b3 = sr23
b4 = sty
r r r r
r r
x , y span X , Y , Z ,1
Note-se que a componente de translao pode ser

ignorada se os centrides dos pontos
( xi , yi )
( X i , Yi , Zi )
forem deslocado para a origem, isto , se
transladarmos os pontos do objecto e da imagem de forma

que
n
( X , Y , Z ) = ( 0, 0, 0 ) ,
i
i =1
( x , y ) = ( 0, 0 ) ,
i =1
Logo, todas as vistas do objecto rgido O esto

contidas num espao linear 4D (ou 3D, se ignorarmos a
translao). A deia, agora, usar imagens do objecto para
construir uma base para este espao. Mostra-se que, em
geral, duas vistas so suficientes [12].
Um objecto modelado por uma matriz M, de

dimenso n x k, onde n o nmero de pontos
caractersticos e k, o nmero de colunas em M, est
relacionado com o nmero de graus de liberdade do
objecto.
Este esquema de representao resulta do modelo de
combinao linear para objectos 3D proposto por [12].
Neste trabalho demonstrado que o conjunto de imagens
possveis de um objecto 3D que sofre transformaes
rgidas e escalamento entre imagens seguidos de
projeco ortogrfica pertence a um espao linear gerado
por um nmero restrito de imagens 2D do mesmo
objecto.
Seja O um objecto 3D que contem n pontos
( X i , Yi , Zi ) ,1 i n .
rij so os componentes da matriz de rotao R,
t x , t y so os componentes horizontal e vertical,

r
respectivamente, do vector de translao t e s o factor
REPRESENTAO DOS OBJECTOS
caractersticos
(1)
r r
Seja p1 = ( x1 , y1 ) uma imagem 2D de O e seja
r r
p2 = ( x2 , y2 ) a imagem de O que se obtm aps uma
rotao por R (uma matriz 3 x 3). Considere-se, ento,

uma nova vista de O,
r r
p3 = ( x3 , y3 ) , obtida por
aplicao de uma nova rotao a O. Ter-se-:
r
r
r
r
x3 = a1 x1 + a2 y1 + a3 x2 ,
r
r
r
r
y3 = b1 x1 + b2 y1 + b3 x2 ,
(3)
desde que as duas imagens p1 e p2 no difiram apenas por

uma rotao pura em torno da linha de vista [12].
Sob projeco
26
Reconhecimento 3D
A utilizao da combinao linear de duas vistas

descrita aplicvel a transformaes lineares gerais do
objecto e, sem mais restries, impossvel distinguir
entre transformaes rgidas e transformaes lineares
no rgidas. Para impr rigidez (com possvel
escalamento), os coeficientes (a1, a2, a3, b1, b2, b3) devem
obedecer a duas restries simples
exemplares tpicos das suas classes. Para um dado

prottipo, obtm-se a vista que apresenta mais
semelhanas com a imagem. Essa vista comparada com
a imagem actual e o resultado desta comparao
determina a identidade da classe do objecto.
Uma classe de objectos um par C = (P, {M1, M2, ...,
Ml}), onde P um objecto prottipo para a classe e M1,
M2,... Ml so objectos modelo. Tanto o prottipo como os
modelos so representados por martizes n x k, de acordo
com a descrio acima.
Uma classe contm objectos com forma idntica.
Estes objectos partilham, grosso modo, a mesma
topologia e existe uma correspondncia natural entre
eles. Esta correspondncia explicitada pela ordem dos
vectores linha nos modelos. Especificamente, dado um
prottipo P e modelos M1, M2,... Ml, ordenamos as linhas
destes modelos de tal forma que o primeiro ponto
caracterstico de P corresponde ao primeiro ponto
caractersto de cada um dos modelos M1, M2,... Ml, o
segundo ponto caracterstico de P corresponde ao
segundo ponto caractersto de cada um dos modelos M1,
M2,... Ml, e assim por diante. A importncia desta
ordenao tornar-se- evidente adiante.
Para proceder categorizao do objecto observado
na imagem, necessrio, antes de mais, alinhar os
objectos prottipo com a imagem e compar-los com ela.
Para cada prottipo, resolve-se, em primeiro lugar, a
correspondncia entre o prottipo e a imagem. Em
seguida, usando a correspondncia determinada, calculase a vista do prottipo mais prxima.
Dados um prottipo P e uma imagem I, geramos um
r
vector v a partir da imagem que contem a localizao dos
pontos caractersticos da imagem ordenados em
correspondncia com os pontos do prottipo: o primeiro
r
ponto v corresponde ao primeiro ponto em P e assim por
r
diante. O vector de transformao a que mais aproxima
os pontos do prottipo dos pontos da imagem o vector
que minimiza a distncia euclidiana entre os pontos do
prottipo e os pontos da imagem
a1b1 + a2b2 + a3b3 + ( a1b3 + a3b1 ) r11 +

+ (a2b3 + a3b2 )r12 = 0,
a12 + a22 + a32 b12 b22 b32 =
(4)
= 2 ( b1b3 a1a3 ) r11 + 2 ( b2b3 a2 a3 ) r12

em que r11 e r12 so componentes da matriz de rotao R
que podem ser determinados, a menos de um factor de
escala, a partir das duas primeiras vistas. Quando estas
duas restries no so satisfeitas so geradas imagens do
objecto distorcidas.
Este esquema de combinao linear de imagens
assume que os mesmos pontos do objecto esto visveis
em vistas diferentes. Quando as vistas so suficientemente
difrerentes esta abordagem deixa de ser vlida, devido a
auto ocluso. Para representar um objecto a partir de todas
as direces possveis (por exemplo, visto de frente e de
trs), so necessrios vrios modelos diferentes deste tipo.
Para resumir, seguindo o esquema exposto, um
objecto representado por uma matriz M cujas colunas
so construdas a partir de vistas do objecto, transladadas
por forma a ter o centride na origem, que formam uma
base do espao 3D.
Vistas do objecto podem ser construdas como se segue
r r
r
r
x = Ma ,
r
r
y = Mb ,
(5)
onde a , b so os vectores dos coeficientes na

equao (3). Note-se que os dois sistemas lineares podem
ser reunidos num s atravs da construo de uma matriz
modelo modificada, da forma seguinte
k
r
r
x M 0 a
yr = 0 M r

b
r r
min
Pa ' v
r'
(6)
Se P uma matriz sobredeterminada, isto , se P tem

dimenso n x k, com n > k e verifica rank(P) = k, ento a
soluo da equao acima dada por
Para objectos rgidos, nem todos os pares de vectores

r r
a , b so vlidos, necessrio que os seus componentes
satisfaam as duas restries quadrticas (4). O
reconhecimento envolve a obteno dos vectores de
onde P = P P
T
r
r
a = P+v
(7)
transformao a , b e a verificao de que as suas

componentes satisfazem as duas restries. No que se
segue as resties so largamente ignoradas, mas elas
podem ser verificadas tanto na fase de categorizao
como na fase de identificao dos objectos.
P denota a matriz pseudo-inversa

r
de P, e a vista do prottipo mais prxima, p , obtida
r
por aplicao de P a a , isto
r
r
r
p = Pa = PP + v
r
A vista p ento comparada com a imagem e a sua
CATEGORIZAO
semelhana determina a classificao do objecto. A

qualidade do emparelhamento entre prottipo e imagem
dada por
r r
r r
pv
r
D ( P, v ) = r =
v
O reconhecimento consiste, antes de mais, na

determinao da categoria do objecto atravs da sua
comparao com objectos prottipo que constituem
27
( PP
r
I )v
r
v
(8)
Reconhecimento 3D
onde I representa a matriz identidade. A diviso pela

r
norma de v normaliza a medida (8) permitindo eliminar
efeitos devidos ao escalamento do objecto.
Se o objecto pertence classe representada por P,
ento a funo definida por (8) atinge o seu valor mnimo
r
quando v est ordenado em correspondncia com P.
Qualquer outra ordenao dos pontos aumentar o valor
de D. Portanto, a funo D pode ser utilizada como
funo objectivo para o problema da determinao da
correspondncia entre o prottipo e a imagem.
Formalmente, denotando por uma matriz permutao,
definimos:
r
r
D ( P, v ) = min D ( P, v )
no robusta. Uma forma de tornar este esquema mais

robusto ser incorporar na medida de semelhana
informao adicional sobre os pontos caractersticos.
Embora o esquema geral de classificao aqui
definido no dependa da escolha especfica da mtrica de
distncia, a medida escolhida afecta a diviso dos
modelos em classes e a seleco dos prottipos ptimos
para essas classes. Mais adiante mostraremos como
possvel escolher os prottipos ptimos utilizando a
medida especificada por (8).
Como veremos na seco seguinte, o esquema de
categorizao aqui definido mostra-se til mesmo quando
a categorizao do objecto no possvel e necessrio
comparar a imagem com todos os modelos existentes. A
mostra-se como o vector de transformao do prottipo
pode ser reutilizado para alinhar a imagem com os
modelos especficos. Assim, aps a categorizao, o custo
de comparar a imagem com cada um dos modelos
especficos substancialmente reduzido, pois a parte
complicada de recuperar a transformao que relaciona os
modelos com a imagem aplicada apenas aos objectos
prottipos.
(9)
Se definirmos o custo de emparelhar um ponto pi na

r
r
imagem p com o ponto qj na imagem v como
Cij = ( pi q j )
ento a minimizao de (9) equivalente minimizao

da funo
n
H ( ) = Cij pi , q (i )
i =1
(10)
IDENTIFICAO
sujeita restrio de que o emparelhamento seja um para

um, isto , seja uma permutao. Este problema uma
instncia do problema de atribuio quadrado (ou
emparelhamento bipartido pesado), que pode ser
resolvido em tempo O(n3) usando o mtodo Hungarian.
Na nossa implementao usmos o mtodo mais eficiente
de [9]. A entrada para o problema de atribuio uma
matriz quadrada de custos Cij e a sada uma permutao
tal que (10) minimizada.
De forma a ter-se um tratamento robusto de pontos
sem correspondncia, adicionamos pontos dummy a
cada conjunto de pontos com um custo de
emparelhamento constante d. Assim, um ponto
emparelhado com um dummy sempre que no existe
um emparelhamento real disponvel com custo inferior a
d. Desta forma, d pode ser encarado como um parmetro
de threshold para a deteco de outliers. De forma
anloga, quando o nmero de pontos nos dois conjuntos
no igual, a matriz de custos pode tornar-se quadrada
atravs da adio de pontos dummy ao conjunto de
pontos menor.
r
Um objecto observado numa vista v pertence classe
representada pelo prottipo P se
Aps a categorizao do objecto, procura-se

determinar a sua identidade individual. Nesta fase, a
imagem comparada com todos os modelos pertencentes
classe identificada no processo de categorizao, ou, se
no foi possvel identificar a classe do objecto, com todos
os modelos existentes. Para cada modelo, determina-se a
transformao que alinha o modelo com a imagem, se
existir, usando a informao obtida na categorizao.
r
Seja v uma vista de um objecto modelo Mi,
verificando
r
r
v = M ib
(11)
r
para um certo vector de transformao b . Ento, pode-se
mostrar sem dificuldade que
r
r
b = Ai a
(12)
r
onde a o vector transformao do prottipo dado por
(7) e Ai
= ( P + M i ) , supondo que det ( P + M i ) 0 .

1
Este resultado vlido porque os pontos

caractersticos no prottipo e nos modelos esto
alinhados.
A transformao linear definida pela matriz Ai
r
independente da vista v considerada, ou seja, para
qualquer vista do objecto, a mesma transformao mapeia
a transformao do prottipo que corresponde a essa vista
na transformao do modelo correcta. Isto significa que a
transformao Ai pode ser computada partida e guardada
juntamente com o modelo. Mais, a transformao Ai
permite recuperar a transformao do modelo
independentemente da qualidade do emparelhamento
entre o prottipo e a imagem. Isto , mesmo quando o
prottipo alinha mal com a imagem, a transformao que
r
D ( P, v ) <
para uma certa constante > 0.

Resumindo, dados um prottipo P e uma imagem I, a
correspondncia entre P e I resolvida minimizando a
r
medida (9) sobre todas as permutaes possveis de v e,
se o mnimo obtido estiver abaixo do threshold , ento a
classe do objecto determinada.
aqui definida determina a semelhana

A medida D
r
entre o prottipo P e a vista v usando apenas distncias
entre pontos caractersticos. Em geral, como difcil de
estabelecer uma correspondncia perfeita, esta medida
28
Reconhecimento 3D
alinha o modelo com a imagem determinada

correctamente.
Como vimos, Ai existe se P+Mi invertvel. Esta
condio equivalente a exigir que os dois espaos
coluna de P e Mi no sejam ortogonais em nenhuma
direco. Esta condio verifica-se, em geral, desde que
os dois objectos sejam relativamente semelhantes.
que corresponde ao somatrio, para todos os modelos da
classe, da distncia D ( P, vi ) a todas as possveis vistas,
de norma unitria, de cada modelo.

Em [8] prova-se que o prottipo que minimiza a
equao (14) pode ser obtido usando o seguinte
algoritmo:
1 Verificar que os vectores coluna de cada uma das
matrizes dos modelos Mi (1 i l) so ortonormados. Em
caso negativo, aplicar o mtodo de ortonormalizao de
Gram-Schmidt.
2 Construir a matriz simtrica n x n:
Denotemos M i = M i Ai o modelo Mi alinhado com o

'
'
prottipo P. M i modela o mesmo objecto que Mi, j que

os vectores coluna de ambas as matrizes geram o mesmo
'
espao. Para alm disso, o modelo alinhado M i posto
F = M i M iT
r
pela transformao do prottipo a em alinhamento
perfeito com a imagem. De facto, podemos rescrever (11)
sob a forma
r
r
v = M i' a
3 Encontrar os k vectores prprios de F que

correspondem aos valores prprios dominantes. A matriz
P ptima construida a partir destes vectores.
O prottipo determinado por este processo
independente da escolha da base para os modelos. Isto
implica que, para construir o prottipo, no necessrio
que os objectos modelo M1, ..., Ml estejam alinhados.
(13)
Assim, se os modelos estiverem alinhados com o

prottipo, a transformao calculada na fase de
categorizao pode ser usada para identificao sem mais
manipulaes. Este resultado permite simplificar o
esquema de identificao. Os modelos M1, ..., Ml so
alinhados com o prottipo P aplicando as transformaes
correspondentes A1, ..., Al. No reconhecimento, a
'
IMPLEMENTAO
r
r
a = P + v aplicada aos
transformao do prottipo
A implementao do processamento descrito acima

trivial. O algoritmo implementado consiste nos seguintes
passos:
1 Dada uma imagem I, aplicar o processamento
desenvolvido em [14] para identificar os objectos
presentes na imagem. Para cada objecto encontrado, obter
r
um vector v com a localizao dos pontos caractersticos
da imagem e proceder como se segue.
r
2 Obter o vector v ' que tem o centride na origem e
r
resulta de uma translao de v , dado por
'
modelos alinhados M 1 ,..., M l .

Na descrio acima suposemos que existe uma
correspondncia total entre o prottipo e a imagem. Esta
suposio no , no entanto, mandatria. Se a
correspondncia no total, os resultados anteriores
continuam vlidos desde que se elimine, nas matrizes P e
M, as linhas que correspondem a pontos que no tm
correspondncia na imagem.
r r n v
v'= v i
i =1 n
r
onde vi = (xi, yi) um ponto de v e n o nmero de
r
r
pontos em v . Normalizar v ' .
CONSTRUO DE PROTTIPOS PTIMOS

Nesta seco mostraremos como possvel determinar
os prottipos ptimos para uma dada classe sob a mtrica
(8).
Dada uma classe de objectos, o prottipo ptimo para
esta classe o objecto que mais se assemelha aos objectos
da classe. Na formulao utilizada, um tal objecto dever
partilhar o mximo nmero possvel de pontos
caractersticos com os objectos da sua classe, as posies
destes pontos no prottipo devero estar to prximas
quanto possvel das suas posies nos objectos e as
transformaes prottipo para modelo destes objectos
devero set to estveis quanto possvel. O prottipo pode
ser calculado, ento, usando uma anlise de componentes
principais, isto , calculando os vectores prprios que
correspondem aos valores prprios dominantes de uma
certa matriz determinada pelos modelos da classe.
O prottipo ptimo para uma dada classe definido
como o objecto que minimiza a seguinte funo de custo
n
E ( P) =
( PP
i =1 vri =1
r r
I ) vi dvi
(15)
i =1
3 Seja o conjunto de todos os prottipos e seja Cl o

conjunto de todas as classes. Se P = , prosseguir para
7.1.
4 Para cada prottipo Pj P determinar a
P , v ' , dada por (9).

distncia D
j
5 Seja
j = arg min D ( Pj , v ' ) .

r
Determinar
r
d = min D ( Pj , j v ') .
j{ j:Pj P}
6 Se d < , determinar
r
= j : Pj P D ( Pj , j v ') = d
(14)
29
Reconhecimento 3D
257 correspondences, match = 0.025148

0.15
Prototype
Object
0.1
0.05
Figura 1 Primeira e dcima vistas do objecto casa.
r r
d ' = min min M i Pj+ j v ' v ' ,
6.2 Determinar
{ (
j i j
-0.05
onde j = i : C Pj , M Cl M i M .
6.3 Se d < , determinar
M=
{( j, i ) : P i
j
-0.1
-0.2
{
}
tomar A = {M : i } {M : i A } [ M ]
onde
Aj = {i : ( j , i ) M } e
6.3.3 Se d , fazer
i i A j
[ M i ]iA representa
j
r
A := A { j v '} .
r
A = {M i : i j } { j v '} .
7 Se d
( ( P ')
j
Mi
0.1
0.15
Os resultados obtidos, se bem que em nmero reduzidos,

so encorajadores. Para testar a validade do modelo
proposto ter-se- que efectuar uma bateria de testes mais
exigentes. O modelo muito simples e atractivo do ponto
de vista matemtico e computacional. Os parmetros
threshold utilizados foram escolhidos sem grande critrio
e a investigao do modelo exigir uma pesquisa dos
melhores valores a utilizar.
: M i A .
0.05
DISCUSSO
que Pj resulta da aplicao do algoritmo para obteno

do
prottipo
ptimo
ao
conjunto
A
e
M ' = M i
objecto. Os resultados da comparao da dcima vista

com o prottipo e com o nico modelo so mostrados nas
figuras 2 e 3, respectivamente.
Seguidamente, apresentmos uma imagem de um outro
objecto diferente para verificar se o sistema seria capaz de
distinguir entre as dois objectos. Desta vez escolhemos
um modelo 3D de um co (Figura 4). Os resultados
obtidos so mostrados na figura 5. Como se pode
comprovar, o sistema foi capaz de reconhecer estar na
presena de um novo objecto.
Cl := Cl ( Pj , M ) ( Pj ', M ') , em
6.3.4 Fazer
-0.05
matriz formada por todas as colunas das matrizes com

ndices em Aj.
6.3.2 Se d , fazer
-0.1
Figura 2 Resultados da comparao do objecto casa

r r
M i Pj+ j v ' v ' = d ' com o prottipo (match = 0.025148).
6.3.1 Para cada Pj Pj : j M ,

i
-0.15
7.1 Fazer Cl := Cl v, {v '} .
REFERNCIAS
O threshold , na linha 6.3, o equivalente, para os

modelos, ao threshold usado na categorizao. O
threshold , na linha 6.3.2, destina-se a restringir a
incluso de novas vistas nos modelos. A nova vista no
includa no modelo a no ser que difira do modelo por um
valor superior a . Em todas as simulaes aqui
reportadas tomou-se = 0.25, = 0.15 e = 0.01
(obviamente, dever ter-se sempre ).
[1] C. M. Cyr, B. B. Kimia 3d object recognition using

shape similarity-based aspect graph In ICCV, A
aparecer, 2001.
[2] F. Cutzu, S. Edelman Canonical Views in Object
Representation and Recognition. Vision Research,
34:3037-3056, 1994.
[3] G. Peters "Theories of Three-Dimensional Object
Perception - A Survey", Recent Research
Developments in Pattern Recognition, Vol. 1, pp.
179-197, (Part-I), Transworld Research Network,
rivandrum, Kerala, India, 2000.
[4] G. Peters, Christoph von der Malsburg "View
Reconstruction by Linear Combination of Sample
Views", Proceedings of the 12th British Machine
Vision Conference (BMVC:2001), edio de Tim
Cootes e Chris Taylor, University of Manchester,
Vol. 1, pp. 223-232, Manchester, UK, September 1013, 2001.
RESULTADOS
Para testar a capacidade do sistema reconhecer o mesmo
objectos de vrios pontos de vista, apresentmos-lhe um
conjunto de dez imagens de um modelo 3D de uma casa
(Figura 1) obtidas por rotaes sucessivas em torno do
eixo vertical de 3.6. Desta forma, a primeira e a ltima
imagem apresentadas diferem entre si por uma rotao no
plano horizontal de 36. Todas as imagens foram
reconhecidas como correspondendo a um nico
30
Reconhecimento 3D

0.15
Model
Object
0.1
0.05
Figura 4 Imagem do modelo 3D do objecto co.

0.15
-0.05
Prototype
Object
0.1
-0.1
-0.2
-0.15
-0.1
-0.05
0.05
0.1
0.15
0.05
Figura 3 Resultados da comparao do objecto casa

com o modelo casa (match = 0.022491).
-0.05
[5] G. Peters, C. von der Malsburg "Learning Sparse

Representations of Three-Dimensional Objects,
Proceedings of the 10th European Symposium on
Artificial Neural Networks (ESANN 2002), edited by
Michel Verleysen, d-side, pp. 245-250, Bruges,
Belgium, April 24-26, 2002.
[6] H. M. Gomes, R. B. Fisher Structural Learning from
Iconic Representations. IBERAMIA-SBIA 2000,
pp.399-408, 2000.
[7] N. K. Logothetis, J. Pauls, H.H. Bulthof, Poggio T.
Shape Representation in the Inferior Temporal
Cortex of Monkeys, Current Biology, 5(5): 552-563,
1995.
[8] R. Basri Recognition by Prototypes, International
Journal of Computer Vision, 19(2): 147-168, 1996.
[9] R. Jonker, A. Volgenant A Shortest Augmenting
Path Algorithm for Dense and Sparse Linear
Assignment Problems", Computing, 38:325-340,
1987.
[10] S. Belongie, J. Malik, J. Puzicha Shape Matching
and Object Recognition Using Shape Contexts, Vol.
24, No. 4, 2002.
[11] S. Edelman, H.H. Blthoff Orientation dependence
in the recognition of familiar and novel views of
Three-Dimensional Objects. Vision Research
32(12):2385-2400, 1992.
[12] S. Ullman, R Basri Recognition by linear
combinations of models, IEEE Transactions on
Pattern Analysis and Machine Intelligence,
13(10):pp. 9921006, 1991.
[13] S. Z. Li, J. Yan, X.W. Hou, Z.Y. Li, and H.J. Zhang
"Learning Low Dimensional Invariant Signature of 3D Object under Varying View and Illumination from
2-D Appearances". In Proceedings of 8th IEEE
International Conference on Computer Vision.
Vancouver, Canada. July 9-12, 2001.
[14] T. Silva Reconhecimento Visual de Objectos por
Coerncia Estrutural de Caractersticas, Tese de
Doutoramento, IST, 2001.
[15] Z.Q. Zhang, L. Zhu, S.Z. Li, H.J. Zhang "Real-Time
Multi-view Face Detection". Proceedings de 5th
International Conference on Automatic Face and
-0.1
-0.15
-0.2
-0.15
-0.1
-0.05
0.05
0.1
Figura 5 Resultados da comparao do objecto co

com o prottipo casa (match = 0.38833).
Gesture Recognition. Washington, DC, USA. 20-21 May,
2002.
31

Reconhecimento de Objetos 3D A Partir de Imagens 2D

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Reconhecimento de Objetos 3D A Partir de Imagens 2D

Caricato da

Copyright:

Formati disponibili

Proc.

Workshop BioMed 2002

Reconhecimento de objectos 3D a partir de imagens 2D usando prottipos

Proc. Workshop BioMed 2002

em primeiro lugar, a imagem comparada com um

perspectiva fraca, a posio do objecto, aps uma rotao

xi = sr11 X i + sr12Yi + sr13 Z i + st x ,

sob a forma vectorial

Note-se que a componente de translao pode ser

forem deslocado para a origem, isto , se

transladarmos os pontos do objecto e da imagem de forma

Logo, todas as vistas do objecto rgido O esto

Um objecto modelado por uma matriz M, de

rij so os componentes da matriz de rotao R,

t x , t y so os componentes horizontal e vertical,

REPRESENTAO DOS OBJECTOS

Seja p1 = ( x1 , y1 ) uma imagem 2D de O e seja

rotao por R (uma matriz 3 x 3). Considere-se, ento,

aplicao de uma nova rotao a O. Ter-se-:

desde que as duas imagens p1 e p2 no difiram apenas por

Proc. Workshop BioMed 2002

A utilizao da combinao linear de duas vistas

exemplares tpicos das suas classes. Para um dado

a1b1 + a2b2 + a3b3 + ( a1b3 + a3b1 ) r11 +

= 2 ( b1b3 a1a3 ) r11 + 2 ( b2b3 a2 a3 ) r12

onde a , b so os vectores dos coeficientes na

Se P uma matriz sobredeterminada, isto , se P tem

Para objectos rgidos, nem todos os pares de vectores

transformao a , b e a verificao de que as suas

P denota a matriz pseudo-inversa

semelhana determina a classificao do objecto. A

O reconhecimento consiste, antes de mais, na

Proc. Workshop BioMed 2002

onde I representa a matriz identidade. A diviso pela

no robusta. Uma forma de tornar este esquema mais

Se definirmos o custo de emparelhar um ponto pi na

ento a minimizao de (9) equivalente minimizao

sujeita restrio de que o emparelhamento seja um para

Aps a categorizao do objecto, procura-se

= ( P + M i ) , supondo que det ( P + M i ) 0 .

Este resultado vlido porque os pontos

para uma certa constante > 0.

aqui definida determina a semelhana

Proc. Workshop BioMed 2002

alinha o modelo com a imagem determinada

que corresponde ao somatrio, para todos os modelos da

classe, da distncia D ( P, vi ) a todas as possveis vistas,

de norma unitria, de cada modelo.

Denotemos M i = M i Ai o modelo Mi alinhado com o

prottipo P. M i modela o mesmo objecto que Mi, j que

espao. Para alm disso, o modelo alinhado M i posto

3 Encontrar os k vectores prprios de F que

Assim, se os modelos estiverem alinhados com o

A implementao do processamento descrito acima

modelos alinhados M 1 ,..., M l .

CONSTRUO DE PROTTIPOS PTIMOS

3 Seja o conjunto de todos os prottipos e seja Cl o

P , v ' , dada por (9).

j = arg min D ( Pj , v ' ) .

Proc. Workshop BioMed 2002

257 correspondences, match = 0.025148

Figura 1 Primeira e dcima vistas do objecto casa.

Os resultados obtidos, se bem que em nmero reduzidos,