Sei sulla pagina 1di 4

Seguimiento de cámara basado en eventos, 6-DOF desde Mapas de profundidad fotométrica

Las cámaras de eventos abstractos son sensores de visión bioinspirados que generan cambios de
brillo a nivel de píxel en lugar de la intensidad estándar marcos. Estas cámaras no sufren de
borrosidad de movimiento y tienen un rango dinámico muy alto, lo que les permite proporcionar
información visual durante movimientos de alta velocidad o en escenas caracterizadas por un alto
rango dinámico. Estas características, junto con una muy baja el consumo de energía, hace que las
cámaras de eventos sean un complemento ideal para las cámaras estándar para aplicaciones de VR
/ AR y videojuegos. Con teniendo en cuenta estas aplicaciones, este documento aborda el problema
del seguimiento preciso y de baja latencia de una cámara de evento desde un mapa de profundidad
fotométrica (es decir, información de intensidad más profundidad) construido a través de tuberías
de reconstrucción densas clásicas. Nuestro enfoque rastrea el 6-DOF posar de la cámara del evento
a la llegada de cada evento, eliminando virtualmente la latencia. Evaluamos con éxito el método
tanto en escenas interiores como exteriores y muestra que, debido a las ventajas tecnológicas de la
cámara de eventos, nuestra tubería funciona en escenas caracterizadas por el movimiento a alta
velocidad, que aún no son accesibles para las cámaras estándar.

Términos del índice: visión basada en eventos, seguimiento de la postura, sensor de visión dinámica,
filtro de Bayes, procesamiento asincrónico, antecedentes de conjugado, Baja latencia, alta
velocidad, AR / VR.

1. INTRODUCCIÓN

LA tarea de estimar el movimiento del ego de un sensor tiene importancia aplicaciones en diversos
campos, como la realidad aumentada / virtual (AR / VR), videojuegos y robótica móvil autónoma.

En los últimos años, se ha logrado un gran progreso usando visual información para cumplir tal tarea
[1], [2], [3]. Sin embargo, debido a algunas limitaciones bien conocidas de las cámaras tradicionales
(desenfoque de movimiento) y bajo rango dinámico), tuberías de odometría visual actual aún luchar
para hacer frente a los movimientos de alta velocidad o alto rango dinámico escenarios. Nuevos
tipos de sensores, llamados cámaras de eventos [4, p.77], ofrecen un gran potencial para superar
estos problemas.

A diferencia de las cámaras estándar, que transmiten cuadros de intensidad a un framerate fijo,
cámaras de eventos, como Dynamic Vision Sensor (DVS) [5], solo transmite cambios de intensidad.
Específicamente, transmiten cambios de intensidad por píxel en el momento en que ocurren, en
forma de un conjunto de eventos asincrónicos, donde cada evento lleva las coordenadas espacio-
temporales del cambio de brillo (con resolución de microsegundos) y su signo.

Las cámaras de eventos tienen numerosas ventajas sobre las cámaras estándar: una latencia del
orden de microsegundos, una dinámica muy alta rango (140 dB en comparación con 60 dB de
cámaras estándar), y muy bajo consumo de energía (10 mW frente a 1,5 W de cámaras estándar).

Lo más importante, dado que todos los píxeles capturan la luz de forma independiente, tales los
sensores no sufren de un desenfoque de movimiento.
Se ha demostrado que las cámaras de eventos transmiten, en principio, toda la información
necesaria para reconstruir una transmisión de video completa [6], [7], [8], [9], que señala
claramente que una cámara de evento solo es suficiente para realizar una estimación de estado de
6-DOF y 3D reconstrucción. De hecho, esto se ha demostrado recientemente en [9], [10].

Sin embargo, actualmente la calidad del mapa 3D se construyó usando eventos las cámaras no
logran el mismo nivel de detalle y precisión que el de las cámaras estándar.

Aunque las cámaras de eventos se han vuelto comercialmente disponibles solo desde 2008 [11], el
reciente corpus de literatura sobre estos nuevos sensores1, así como los planes recientes para la
producción en masa reclamados empresas, como Samsung y Chronocam2, destacan que hay un
gran interés comercial en explotar esta nueva visión sensores como un complemento ideal para las
cámaras estándar para dispositivos móviles robótica, VR / AR y aplicaciones de videojuegos.

Motivado por estos desarrollos recientes, este documento aborda el problema de rastrear el
movimiento 6-DOF de una cámara de evento desde un mapa RGB-D (es decir, profundidad
fotométrica) que ha sido previamente construido a través de una tubería de reconstrucción
tradicional y densa utilizando cámaras estándar o sensores RGB-D (consulte la Fig. 1). Esta

El problema es particularmente importante tanto en AR / VR como en videojuegos aplicaciones,


donde el bajo consumo de energía y la robustez de el movimiento a alta velocidad aún no está
resuelto. En estas aplicaciones, nosotros imaginar que el usuario usaría primero un sensor estándar
para construir un mapa de alta resolución y alta calidad de la sala, y luego los rastreadores de mano
y cabeza aprovecharían un evento cámara para lograr robustez al movimiento de alta velocidad y
baja potencia consumo.

Los desafíos que abordamos en este documento son dos: i) basado en eventos Seguimiento de pose
6-DOF desde un mapa de profundidad fotométrico existente; ii) siguiendo la postura durante
movimientos muy rápidos (aún inaccesibles a cámaras estándar debido al desenfoque de
movimiento), como se muestra en la Fig. 2. Nosotros Demostrar que podemos rastrear el
movimiento 6-DOF de la cámara de evento con una precisión comparable a la de las cámaras
estándar y también durante el movimiento de alta velocidad.

Nuestro método se basa en la teoría del filtrado bayesiano y tiene tres contribuciones clave en la
forma en que se procesan los eventos: i) actualización de pose basada en eventos, lo que significa
que la estimación de pose 6-DOF se actualiza cada vez que se genera un evento, en un tiempo de
microsegundo resolución, ii) el diseño de una función de probabilidad de sensor utilizando un
modelo de mezcla que tiene en cuenta tanto la generación de eventos proceso y la presencia de
ruido y valores atípicos (Sección 4.3), y iii) la aproximación de la distribución posterior del sistema
por una distribución manejable en la familia exponencial, que se obtiene al minimizar la divergencia
Kullback-Leibler (Sección 4.4). El resultado es un filtro adaptado a los asincrónicos naturaleza de la
cámara de eventos, que también incorpora un valor atípico detector que pesa las medidas según su
confianza para una mayor robustez de la estimación de postura. La aproximación de la distribución
posterior nos permite obtener una forma cerrada solución a las ecuaciones de actualización del filtro
y tiene el beneficio de siendo computacionalmente eficiente. Nuestro método puede manejar
arbitrario, 6-DOF, movimientos de alta velocidad de la cámara de eventos en escenas naturales.
El documento está organizado de la siguiente manera: la sección 2 revisa la literatura relacionada
en la estimación del movimiento del ego basado en eventos. La Sección 3 describe el principio de
funcionamiento de las cámaras de eventos. Nuestro evento propuesto basado, enfoque
probabilístico se describe en la Sección 4, y es evaluado empíricamente en escenas naturales en la
Sección 5. Conclusiones se destacan en la Sección 6.

2 TRABAJOS RELACIONADOS CON LA EGOMOCIÓN BASADA EN EVENTOS ESTIMACION

El primer trabajo sobre el seguimiento de pose con un DVS se presentó en [12]. El diseño del sistema,
sin embargo, se limitó a movimientos planos lentos (es decir, 3 DOF) y escenas planas paralelas al
plano de movimiento que consiste en patrones de línea B & W artificiales. El filtro de partículas el
seguidor de pose se extendió a 3D en [13], donde se usó en combinación con un sensor RGB-D
externo (estimación de profundidad) para construir un sistema SLAM Sin embargo, un sensor de
profundidad presenta los mismos cuellos de botella que existen en los sistemas estándar basados
en marcos: las medidas de profundidad están desactualizadas para movimientos muy rápidos, y el
el sensor de profundidad aún es susceptible a la borrosidad del movimiento.

En nuestro trabajo anterior [14], una cámara de escala de grises estándar era unido a un DVS para
estimar el pequeño desplazamiento entre el evento actual y el marco anterior de la cámara
estándar. El sistema fue desarrollado para movimiento plano y B & W artificial fondo rayado. Esto
se debió a la probabilidad del sensor de ser proporcional a la magnitud del gradiente de imagen, lo
que favorece escenas donde los grandes gradientes de brillo son la fuente de la mayor parte de los
datos del evento. Debido a la dependencia de una cámara estándar, el sistema era nuevamente
susceptible al desenfoque de movimiento y por lo tanto limitado para disminuir los movimientos Un
algoritmo basado en eventos para rastrear la pose 6-DOF de un DVS solo y durante el movimiento
a muy alta velocidad se presentó en [15].

Sin embargo, el método fue desarrollado específicamente para artificial, B & W mapas basados en
línea. De hecho, el sistema funcionó minimizando el error de reproyección punto a línea. La
estimación de la orientación 3D de una cámara de evento fue presentado en [6], [16], [17], [18]. Sin
embargo, tales sistemas son restringido a movimientos de rotación, y, por lo tanto, no cuenta
traducción y profundidad.

Contrariamente a todos los trabajos anteriores, el enfoque que presentamos en este documento
aborda los movimientos completos de 6-DOF, no depende de factores externos sensores, puede
manejar movimientos rápidos arbitrarios, y no está restringido a textura específica o escenas
artificiales.

Se han publicado otros enfoques de seguimiento de pose como parte de sistemas que abordan el
problema 3D SLAM basado en eventos. [10] propone un sistema con tres filtros probabilísticos
intercalados para realizar el seguimiento de pose, así como la estimación de profundidad e
intensidad.

El sistema es computacionalmente intensivo y requiere una GPU para tiempo real operación. El
sistema paralelo de seguimiento y cartografía en [9] sigue un enfoque geométrico, semi-denso. El
rastreador de pose es basado en la alineación del mapa de borde y la profundidad de la escena es
estimada sin reconstrucción de intensidad, lo que permite que el sistema funcione en tiempo real
en la CPU. Más recientemente, la odometría inercial visual También se han propuesto sistemas
basados en cámaras de eventos, que confíe en las características del punto [19], [20], [21].

3 CAMARAS DE EVENTOS

La visión basada en eventos constituye un cambio de paradigma de lo convencional

(por ejemplo, basada en cuadros) visión. En cámaras estándar, se adquieren píxeles

y transmitido simultáneamente a tasas fijas; este es el caso

de los sensores de obturación global o de persiana enrollable. Tales sensores

proporcionar poca información sobre la escena en el "tiempo a ciegas"

entre imágenes consecutivas. En cambio, las cámaras basadas en eventos tales

como el DVS

6. CONCLUSIÓN

Hemos presentado un enfoque para rastrear la pose 6-DOF de un mover arbitrariamente la cámara
de eventos desde una fotometría existente mapa de profundidad en escenas naturales. Nuestro
enfoque sigue un Bayesiano Metodología de filtrado: el modelo de sensor está dado por un modelo
de mezcla probabilidad que tenga en cuenta tanto la generación de eventos proceso y la presencia
de ruido y valores atípicos; la posterior distribución del estado del sistema se aproxima de acuerdo
con el criterio de relativa-entropía usando distribuciones en el exponencial familia y antecedentes
conjugados. Esto produce un filtro robusto tipo EKF que proporciona actualizaciones de pose para
cada evento entrante, en microsegundos resolución de tiempo

Hemos comparado nuestro método contra la verdad del suelo de un sistema de captura de
movimiento y un pose-seguimiento basado en cuadros de vanguardia tubería. Los experimentos
revelaron que la propuesta método rastrea con precisión la pose de la cámara basada en eventos,
tanto en experimentos de interior y exterior en escenas con profundidad significativa variaciones, y
bajo movimientos con excitaciones en todos los 6-DOF.

Potrebbero piacerti anche