Luigi Di Stefano
Sommario
Geometria stereo e ricostruzione 3D Vincoli per il problema della corrispondenza Algoritmi di corrispondenza
Tassonomia
Algoritmi feature-based (cenni) Algoritmi area-based locali Algoritmi area-based globali/ibridi (cenni)
Applicazioni
Luigi Di Stefano
Perch pi immagini?
Analizzando una singola immagine non possibile ricostruire la struttura tridimensionale della scena osservata. Ci dovuto alla perdita di informazione insita nella proiezione prospettica, che mappa i punti dello spazio 3D in uno spazio 2D.
Proiezione Prospettica
f f u=x ; v= y z z
Luigi Di Stefano
P P L pR pL pR OR R
Luigi Di Stefano
uL pL I s.d.r. solidali con le due camere differiscono per una traslazione (b), e.g. orizzontale: f OL xL b pR
uR f OR xR
xL xR = b yL = yR = y zL = z R = z
z = b f/d
Luigi Di Stefano
Geometria epipolare
Lo spazio di ricerca del problema della corrispondenza stereo sempre 1D ! Le rette epipolari di un immagine passano tutte per un punto detto epipolo (proiezione del centro ottico dellaltra)
OL
Rettificazione
E possibile ottenere una configurazione equivalente a quella standard (rette epipolari coniugate orizzontali e collineari) applicando a ciascuna delle due immagini una trasformazione (omografia) detta rettificazione.
Luigi Di Stefano
Calibrazione e Rettificazione
Per facilitare la ricerca dei punti corrispondenti le immagini acquisite devono essere rettificate (trasformate in maniera da essere equivalenti a quelle ottenibili con un sistema stereo standard). Per ottenere le omografie di rettificazione le due telecamere devono essere calibrate (stima dei parametri estrinseci ed intrinseci). La calibrazione fornisce anche i parametri necessari per la ricostruzione 3D (b, f, pixel size) Esistono strumenti standard per effettuare la calibrazione e la rettificazione (OpenCV, Matlab Camera Calibration Toolbox,).
Luigi Di Stefano
Disparity (pixels)
1 m ~ 30 d
10 m ~ 3 d
Range (mm)
Luigi Di Stefano
z=(z2/bf)*d
10 cm res~ 9.6 m dist
10 mm res ~ 3 m dist
(Tsukuba, vision.middlebury.edu/stereo)
Luigi Di Stefano
Occlusioni
In ciascuna della due immagini sono presenti regioni non visibili nellaltra poich occluse da oggetti pi vicini. Un algoritmo di matching dovrebbe anche individuare gli elementi dellimmagine situati nelle regioni occluse, per i quali non possibile risolvere il problema della corrispondenza.
Luigi Di Stefano
Luigi Di Stefano
Intervallo di disparit
E opportuno limitare in pi possibile lintervallo di disparit al fine di considerare solo la porzione di spazio 3D entro cui giacciono gli oggetti di interesse:
Zmax
Luigi Di Stefano
mL OL
pL
pR
qR OR
Luigi Di Stefano
Q: qL pL Q: pL qL
pR qR pR qR
qL pL qL pR qR qR OL OR
Dato P, si pu dedurre se unaltro punto 3D appartiene (Q) o meno (Q) alla zona tratteggiata associata a P (zona proibita) in base allordinamento dei punti immagine lungo le rette epipolari. Dato il match pL pR che individua P possibile sfruttare lordinamento rispetto a tale match risultante dai match successivi per scartare quelli che individuano punti 3D situati nella zona proibita associata a P.
Luigi Di Stefano
pL OL
pR OR OL
pL
pR OR
Se Q e P appartengono alla superficie di uno stesso oggetto opaco e di spessore non nullo e Q appartiene alla zona proibita associata a P allora Q non visibile in entrambe le immagini. Se per Q appartiene alla superficie di un altro oggetto pu essere visto in entrambe le immagini pur appartenendo alla zona proibita di P (caso tipico: oggetti sottili in foreground). E quindi opportuno limitare lapplicazione del vincolo ai soli punti situati in un piccolo intorno di P ([2]).
Luigi Di Stefano
Luigi Di Stefano
Algoritmi Area-based
Algoritmi locali La disparit assegnata ad un pixel dipende solo da informazioni dedotte da pixel spazialmente vicini a quello considerato. Generalmente il criterio di matching costituito dalla similiarit fra finestre (di dimensione prefissata o adattive) centrate nei pixel considerati. Veloci e meno accurati. Algoritmi globali La disparit assegnata ad un pixel dipende da informazioni dedotte da tutta limmagine. Generalmente il problema viene impostato come un problema di minimizzazione di una funzione energia. Computazionalmente onerosi e molto accurati. Algoritmi ibridi (semi globali) Stessa impostazione dei globali, ma utilizzando un sotto-insieme dellintera immagine (e.g. una scanline). Interessante compromesso fra velocit e accuratezza.
Luigi Di Stefano
Luigi Di Stefano
S
WTA (Winner-Takes-All)
d
Luigi Di Stefano
i 2W+1
2W+1
Luigi Di Stefano
Luigi Di Stefano
Luigi Di Stefano
Occlusione
Distorsione prospettica
Luigi Di Stefano
Luigi Di Stefano
Uso di interest-operators
Si selezionano mediante opportuni operatori i punti di interesse su cui effettuare il matching (o validare i match ottenuti). Tali operatori selezionano punti caratterizzati da un grado di tessitura locale stimato come sufficiente a considerare affidabili i match. Operatore di Moravec [12],[13]: considerato un intorno N(P) (5x5..11x11): 8 varianze direzionali, minimo e sogliatura.
1(P) = (I(i,j)-I(i+1,j+1))2
(i,j) N(P)
1 4 7
2 5 8 1 4 7
3 6 9 2 5 8 3 6 9
Soglia sulla varianza dei livelli di grigio (e.g. [5], [14]): meno efficace (edge orizzontali) ma molto efficiente computazionalmente.
Luigi Di Stefano
Se la curva presenta pi picchi di valore simile aumenta la probabilit di effettuare una scelta errata (e.g. pattern ripetitivi). Si pu allora accettare un match solo se la differenza (o il rapporto) fra i due picchi principali sufficientemente elevata (e.g. [4], [5], [14], [15]). Un picco principale piatto invece tipicamente dovuto a poca tessitura. Si pu allora stimare lo spread del picco (e.g. media delle derivate destra e sinistra) e tenere solo i match corrispondenti a picchi stretti (e.g. [5]). I filtri sul rapporto dei picchi e lo spread si rivelano efficaci anche per eliminare le corrispondenze out-of-range [16].
Luigi Di Stefano
Luigi Di Stefano
Left ref.
Right ref.
LR map
RL map
Luigi Di Stefano
Vincolo di unicit
Lapproccio di base area-based sfrutta il vincolo di unicit solo rispetto allimmagine di riferimento (L). E possibile allora sfruttare il vincolo di unicit anche rispetto allaltra immagine (R): se durante il processo di matching L-R pR risulta il miglior match sia per pL sia per pL (conflitto su pR) allora fra i due possibile match si sceglie quello caratterizzato dal valore pi elevato della funzione di correlazione (e.g. [5]). Questo approccio fornisce risultati molto simili al left-right check (che implica lunicit anche rispetto ad R) ma non richiede lesecuzione della correlazione R-L.
Luigi Di Stefano
Una finestra che copre regioni a differente disparit non ha una finestra esattamente corrispondente nellaltra immagine in quanto le regioni a differente disparit, se visibili, non sono pi contigue oppure possono risultare occluse. Ci implica elevata incertezza nell individuazione dei massimi (minimi) locali e conseguentemente scarsa accuratezza nella localizzazione degli occluding boundaries (border localization/blurring/fattening problem).
Luigi Di Stefano
Approccio tradizionale
Luigi Di Stefano
CSW ( x, y ) =
( i , j )Wxy ( r )
min {C (W (r ))}
ij
Luigi Di Stefano
Aggregazione su 5 finestre
C H ( p, d ) = C ( p, d ) + Cmin1 ( p, d ) + Cmin 2 ( p, d )
Aggregazione su 9 finestre
C H ( p, d ) = C ( p, d ) + Cmin1 ( p, d ) + Cmin 2 ( p, d ) + Cmin 3 ( p, d ) + Cmin 4 ( p, d )
Luigi Di Stefano
1 1 1 1
1 1 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1
1 1 1
Luigi Di Stefano
Ground truth
E (d ( p L )) = Edata (d ( p L )) + Esmooth (d ( pL ))
Edata (d ( pL )) = Esmooth (d ( pL )) =
p L L L
C ( p , d ( p ))
L L L L L
p L L
Poich la minimizzazione di tale funzione un problema NP-completo, si usano metodi di inferenza approssimata per determinarne un minimo locale: e.g. simulated annealing [21], graph-cuts [22, 23], belief propagation [24] Negli algoritmi ibridi, viene impostato un problema simile ma su un sottoinsieme dellimmagine (tipicamente, una riga). I metodi di risoluzione pi diffusi sono Dynamic Programming [25] e Scanline Optimization [26].
Luigi Di Stefano
Ground truth
Belief Propagation
Graph Cuts
Scanline Optimization
Luigi Di Stefano
SO, DP Local
hours
minutes
Near real-time
Real-time
Luigi Di Stefano
3D, stereo-based tracking holds the potential for dealing with these problems. In particular, stereo, yielding the 3D position of image points, allows to build an orthographic projection with the projection plane parallel to the ground-plane. In such a projection plane people tend to not overlap and their appearance cannot change quickly.
Luigi Di Stefano
Plane-view statistics
A suitable orthograpic projection is given by plane-view statistics (occupancy map: Beymer [27], occupancy and height maps: Harville [28]).
Left image
Stereo head
X cam Z cam Ycam
H max
H min
Height map
ZW
Occupancy map
YW XW
ground
y plan x plan
Luigi Di Stefano
3D People Tracking
Luigi Di Stefano
People counting
Luigi Di Stefano
Luigi Di Stefano
Retail Intelligence
Monitoraggio automatico del comportamento dei clienti allinterno di supermercati, centri commerciali, negozi..
Aziende operanti nel settore della retail intelligence VideoMining - www.videomining.com Vizualize - www.vizualize.net
Luigi Di Stefano
Conteggio Passeggeri
Conteggio automatico di passeggeri che salgono/scendono da mezzi di trasporto quali treni, autobus, tram.
PCN 1001
Neuricam www.neuricam.com & EUROTECH www.eurotech.com Typical installation: 2.25 meters above floor level Minimal detection distance: 0.25 meters - Height Threshold: 1 meter above floor level Count Accuracy: >97% Four integrated high luminosity infrared LEDs (operation in any type of lighting conditions) If the width of a doorway is greater than 120 cm, two or more counters can be interfaced together.
Luigi Di Stefano
Ricostruzione 3D (1)
Ricostruzione 3D da pi viste stereo non calibrate
Luigi Di Stefano
Ricostruzione 3D (2)
Stereo Pairs
Disparity Maps 3D Point Clouds
Luigi Di Stefano
Ricostruzione 3D (3)
Ricostruzione 3D (4)
Luigi Di Stefano
Ricostruzione 3D (5)
Spacetime stereo [29], [16]
Luigi Di Stefano
Ricostruzione 3D (6)
Luigi Di Stefano
Progetto DIPLODOC Fondazione Bruno Kessler Trento (ex ITC-IRST) Gruppo TeV (Tecnologie per la Visione) http://www.fbk.eu/ Dott. Stefano Messelodi
Luigi Di Stefano
Terramax 2004 Team Terramax Gruppo VISLAB Universit di Parma http://vislab.it/ Prof. Alberto Broggi Terramax 2007
Luigi Di Stefano
SRI & Universit La Sapienza L. Iocchi (http://www.dis.uniroma1.it/~iocchi/) SRI International (http://www.sri.com/) K. Konolige
Guida Robot 3D
Individuazione e localizzazione di un oggetto 3D per la presa da parte di un robot manipolatore.
Luigi Di Stefano
Ringraziamenti
Luigi Di Stefano
Bibliografia (1)
[1] D. Scharstein, R. Szeliski A taxonomy and evaluation of dense two frame stereo correspondence algorithms, Int Journ. of Computer Vision, 2002. [2] N. Ayache, B. Faverjon Efficient registration of stereo images by matching graph descriptions of edge segments, Int. Journ. of Computer Vision, Vol. 1(2), 1987. [3] N. Ayache Artificial vision for mobile robots: stereo vision and multisensory perception, The MIT Press, 1991. [4] O. Faugeras et. al. Real time correlation-based stereo: algorithm, implementations and applications, INRIA Rapport de recherche N. 2013, 1993. [5] L. Di Stefano, M. Marchionni, S. Mattoccia A Fast Area-Based Stereo Matching Algorithm, Image And Vision Computing, Vol. 22, No. 12, Oct. 2004. [6] L. Matthies Stereo vision for planetary rovers: stochastic modeling to near real-time implementation, Int. Journ. of Computer Vision, 1992. [7] T. Kanade et. al. A video-rate stereo machine and its new applications Fast Area-Based Stereo Matching Algorithm, Proc. 27th Int. Symp. on Industrial Robots, 1996. [8] K. Konolige Small Vision Systems: Hardware and Implementation, Proc. 8th Int. Symp. on Robotics Research, 1997. [9] R. Zabih, J. Woodfill Non parametric local transforms for computing visual correspondence, Proc. 3 European Conf. On Computer Vision, 1994. [10] D. Bhat and S. Nayar, Ordinal measures for image correspondence, IEEE Trans. Pattern Recognition and Machine Intelligence, 20(4):415423, April 1998. [11] A. Mittal and V. Ramesh, An intensity-augmented ordinal measure for visual correspondence, Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2006. Luigi Di Stefano
Bibliografia (2)
[12] H.P. Moravec Visual mapping by a robot rover, Proc. of. 6th Int. Joint Conf. on Artificial Intelligence, 1979. [13] M.J. Hanna SRI's Baseline Stereo System, Proc. Image Understanding Workshop, 1985. [14] L. Robert, M. Buffa, M. Hebert Weakly-calibrated stereo perception for rover navigation, Proc. Fifth Int. Conf. on Computer Vision, 1995. [15] H. Hirschmuller, P. Innocent, J. Garibaldi Real-time correlation-based stereo vision with reduced border errors, Int. Journ. of Computer, 2002. [16] F. Tombari Stereo for Robots, Seminario tenuto presso il DEIS il 20-11-2008. [17] P. Fua A parallel stereo algorithm that produces dense depth maps and preserves image features, Machine Vision and Applications, 1993. [18] A. Bobick, S. Intille, Large occlusion stereo, International Journal of Computer Vision, 33(3):181200, 1999. [19] M. Gerrits and P. Bekaert, Local stereo matching with segmentation-based outlier rejection, in Proc. Conf. Computer and Robot Vision, pages 6666, 2006 [20] F. Tombari, S. Mattoccia, L. Di Stefano, Segmentation-based adaptive support for accurate stereo correspondence, IEEE Pacific-Rim Symposium on Image and Video Technology, 2007 [21] S. T Barnard Stochastic stereo matching over scale, Int Journ. of Computer Vision, 1989. [22] Y. Boykov, O. Veksler, and R. Zabih Fast approximate energy minimization via graph cuts, IEEE Trans. on PAMI, 2001. [23] V. Kolmogorov, R. Zabih Computing visual correspondence with occlusions using graph cuts, In Eighth Intern. Conf. on Computer Vision, 2001. Luigi Di Stefano
Bibliografia (3)
[24] A. Klaus, M. Sormann and K. Karner, Segment-based stereo matching using belief propagation and a self-adapting dissimilarity measure, Intl Conf. Pattern Recognition 2006. [25] Birchfield, S. and Tomasi, C., Depth discontinuities by pixel-to-pixel stereo. International Conference on Computer Vision (ICCV98), Bombay. [26] H. Hirschmller,Stereo vision in structured environments by consistent semi-global matching, CVPR 2006. [27] D. Beymer Person counting using stereo, IEEE Work. On Visual Motion, 2000. [28] M. Harville Stereo person tracking with adaptive plan-view templates of height and occupancy statistics, Image and Vision Computing (22), No.2, 2004. [29] J. Davis, D. Nnhab, R. Ramamoorthi, S. Rusinkiewicz, Spacetime stereo: A unifying framework for depth from triangulation, IEEE Trans. on PAMI, 2005.
Luigi Di Stefano