Sei sulla pagina 1di 15

Sistema Visual y de Audio de MPEG4 INDICE Abstract 1 Descripcin tcnica detallada del sistema visual de MPEG4 2 Aplicaciones del

estndar de video MPEG4. 3 Composicin de los objetos. 4 Funciones basadas en contenidos. 5 Escalabilidad de texturas imgenes y video. 6 Texturas, Imgenes y video naturales. 7 Objetos sintticos. 8 Codificacin escalable de Objetos de video. 9 Robustez en entornos propensos a error. 10 Estabilidad de resolucin temporal mejorada con retraso de buffering bajo. 11 Codificacin de texturas e imgenes estticas. 12 Mallas animadas en 2D. 13 Mallas 3D. 14 Escalabilidad dependiente del punto de vista. 15 Estructura de las herramientas para representar video natural. 16 Soporte para las funciones convencionales y basadas en contenidos. 17 El esquema de codificacin e imagen y video de MPEG4 18 Codificacin de texturas e imgenes estticas. 19 Codificacin escalable de objetos de video. 20 Descripcin tcnica detallada del audio en MPEG4.

21 Cualidades adicionales del audio en MPEG4 22 CELP Compresin de silencio 23 Etorno espacial Abstract This compilation is about MPEG4 Visual and sound system, but it goes beyond the MPEG4 web utilities we are accustumed. This work try to show the posibilities that MPEG4 had now and in the future to come, and the features that makes MPEG4 one of the most reliable,profitable and versatile encoding systems nowadays. Nota: muchos de los trminos que aparecen en este trabajo son explicados segn avanza la lectura, esto es debido a la gran variedad de trminos sin los cuales no pueden ser explicados apartados anteriores, y que por cuestiones de optimizacin del diseo de este trabajo se han dispuesto en dicho orden. 1 Descripcin tcnica detallada del sistema visual de MPEG4 Los objetos pueden ser de dos tipos los de origen natural u origen sinttico. Primero describiremos los de origen natural y a continuacin los de origen sinttico. 2 Aplicaciones del estndar de video MPEG4. MPEG4 video ofrece una tecnologa que cubra un largo rango de aplicaciones existentes tanto como de las que estn apareciendo recientemente. El ratio bajo de bits y la codificacin de error elstica permiten una comunicacin robusta a travs de canales inalmbricos con ratios limitados, esto es til por ejemplo para videotelfonos mviles y comunicaciones espaciales. Tambin se puede obtener una vigilancia de la compresin de datos ya que es posible tener una variacin en el ratio de frames muy baja.. En altos ratios de bit, existen herramientas que permiten la transmisin y almacenamiento de video de alta calidad adaptado para estudios y otras muchas aplicaciones de creacin de contenidos. Lo ms probable es que con el tiempo el estndar soporte ratios de datos ms all de los que se consiguen con MPEG2. Un rea de aplicacin mayor es el video interactivo basado en Web. Ya se ha presentado software que provee video MPEG4 en vivo sobre una pagina web. Hay un gran campo para aquellas aplicaciones que hagan uso de las caractersticas basadas en objetos del MPEG4. Las herramientas binarias y codificacin en escala de grises permiten que los objetos de video se puedan componer junto a texto y grficos. De esta manera se pueden realizar multitud de ricas experiencias interactivas para presentaciones y publicidad basados en Web. Esto mismo se aplica a las aplicaciones asociadas a los settopbox . De manera adicional tambin es posible hacer uso de estas herramientas escalables para permitir un control suave entre el usuario final, el terminal y las capacidades del enlace de datos (data link). MPERG4 video tambin ha sido utilizado para realizar capturas y codificar con cmaras domesticas. Este tipo de aplicacin lo mas seguro es que gane en popularidad debido a su fcil y rpida transferencia a paginas web, y puede que tambin se aproveche su capacidad para capturar imgenes estticas. El mundo de los juegos es otro campo donde MPEG4 video, las texturas estticas, la interactividad y el SNCH prometen mucho, con el mapeado 3D de las imgenes estticas, video en vivo, o las extendidas secuencias de video pregrabadas que potencian las experiencias del jugador. Aadiendo video en vivo de los varios jugadores conseguimos una mayor sensacin para los juegos multijugador en 3D, y haciendo uso del video arbitrario, podemos combinar artsticamente transparencias con el mapeado de texturas de video 3D. La flexibilidad de la codificacin MPEG4 video fomenta muchas ms aplicaciones como esta. 2

3 Composicin de los objetos. La figura bajo estas lneas explica la manera en que una escena audiovisual de MPEG4 es descrita y compuesta en objetos individuales. La figura contiene objetos compuesto de diversos medias los cuales agrupan un nmero de objetos media primitivos, Los objetos primitivos se corresponderan con las hojas que componen un rbol mientras que los objetos media compuestos serian las ramas de dicho rbol. Por ejemplo el objeto visual que corresponde a la persona hablando y la correspondiente voz se unen para formar un nuevo objeto compuesto, conteniendo ambos componentes, sonido e imagen natural de la persona hablando. Dichas agrupaciones permiten a los autores construir escenas complejas, y permiten a los usuarios manipular estos grupos de objetos. Generalizando ms, MPEG4 ofrece una manera estandarizada de describir una escena, permitiendo por ejemplo: Colocar los objetos media en cualquier lugar del sistema de coordenadas. Aplicar transformaciones para cambiar la geometra o la apariencia acstica del objeto. Agrupar objetos primitivos para formar objetos compuestos. Aplicar datos adicionales para modificar los atributos del objeto(sonido, textura, animacin, etc.) Cambiar, interactivamente, el punto de vista y audicin del usuario en cualquier lugar de la escena.

Ejemplo de una escena MPEG4 4 Funciones basadas en contenidos. La codificacin basada en contenidos de imgenes y video permite la decodificacin separada la reconstruccin de objetos de video de forma arbitraria. El acceso aleatorio de el contenido de una secuencia de video permite las funciones tale como pausa, paso rpido hacia delante y rebobinado rpido de los objetos de video almacenados. La manipulacin del contenido extendida, en las secuencias de video permite funciones tales como la insercin de texto sinttico o natural, imagen y video. Un ejemplo es el mapeado de texto en un objeto que se mueve de la misma manera y de acuerdo al mismo. 5 Escalabilidad de texturas imgenes y video. La escalabilidad compleja en el codificador permite generar flujos de bit de complejidad variable para una textura video o imagen dada. 4

La escalabilidad espacial permite a los decodificadores decodificar un subgrupo del flujo de bit total generado por el codificador para reconstruir y mostrar texturas, imgenes y video con una resolucin espacial reducida. Para imgenes y texturas soporta un mximo de 11 niveles mientras que para video soporta un mximo de 3. La escalabilidad permite a los decodificadores decodificar un subgrupo del flujo de bit total generado por el codificador para reconstruir y mostrar video con una resolucin temporal reducida. Soporta un mximo de 3 niveles. La Escalabilidad de calidad permite que un flujo de bits se divida en un nmero de capas de diferente ratio de bits de manera que la combinacin del conjunto pueda ser decodificada como una seal con significado, esto puede ocurrir tanto en la transmisin como en el decodificador. La calidad en general vendr en funcin del nmero de capas utilizas en la decodificacin y la reconstruccin 6 Texturas, Imgenes y video naturales. Las herramientas para la representacin de video natural en el estndar visual de MPEG4 proveen tecnologas estandarizadas permitiendo un almacenamiento, transmisin y manipulacin de texturas, imgenes y datos de video eficientes, para entornos multimedia. Estas herramientas permiten la decodificacin y representacin de unidadesatmicas de imagen y contenido de video, llamadas video objets (Vos). Un ejemplo de un VO puede ser una persona hablando sin un fondo, la cual puede ser compuesta con otro AVO (audiovideo object) para crear de esta manera una escena. De manera para que se pueda conseguir esta meta global y no una solucin para unas pocas aplicaciones, todas las funciones comunes de muchas aplicaciones se han agrupado, por tanto, la parte visual del estndar MPEG4 provee soluciones en forma de herramientas y algoritmos para: &Compresin eficiente de imgenes y video. &Compresin eficiente de texturas y mapeado de texturas para mallas 2D y 3D. &Compresin eficiente de flujos (de datos) de geometra variable en el tiempo que animan las mallas eficiente de mallas implcitas 2D. &Acceso aleatorio eficiente para todos los tipos de objetos visuales (VO). &Funciones de manipulacin extendida para secuencias de imgenes y video. &Escalabilidad de texturas, imgenes y video basadas en contenidos. &Codificacin basada en contenidos de imgenes y video. &escalabilidad espacial, temporal y de calidad. &Robustez frente a errores y vigilancia en entornos con posibilidad de errores.. 7 Objetos sintticos. Los objetos sintticos forman un subconjunto que incluye la mayor parte de los grficos de los ordenadores. Como punto de partida se describirn los siguientes objetos visuales sintticos. &Descripcin paramtrica de:

Sntesis de la cara y cuerpo. Codificacin de malla esttica y dinmica con mapeado de texturas. &Codificacin de texturas para Aplicaciones Wiev dependent. 8 Codificacin escalable de Objetos de video. Hay muchos esquemas de codificacin escalable en el sistema visual de MPEG4: escalabilidad espacial, temporal y espacial basada en objetos. La escalabilidad espacial soporta el cambio en la calidad de la textura. La escalabilidad espacial basada en objetos extiende los convencionales tipos de escalabilidad hacia objetos arbitrarios, de manera que pueden ser usados in combinacin con las otras capacidades basadas en objetos. As, se puede lograr un escalado muy flexible, basado en contenido de la informacin de video. Esto hace posible mejorar la SNR (relacin seal a ruido), la resolucin espacial, la precisin de la forma etc... solo para objetos de inters o para una regin en particular, la cual puede hacerse dinmicamente mientras se realiza la reproduccin de la misma. 9 Robustez en entornos propensos a error. Una tcnica nueva desarrollada en MPEG, llamada NEWPRED (de nueva prediccin), provee una recuperacin rpida de error en aplicaciones de codificacin a tiempo real. sta usa un canal de subida del decodificador al codificador. El codificador conmuta o cambia los frames de referencia adaptndolos de acuerdo a las condiciones de error de la red. NEWPRED no usa intrarefresco y contribuye a una alta eficiencia en la decodificacin. Esta tcnica ha sido diseada para trabajar bajo condiciones de error de importancia. de rfaga en las redes inalmbricas (ratio de error es de 10E 3,1ms de longitud de rfaga) &perdida de paquete en internet (ratio de perdida de paquete es del 5%) 10 Estabilidad de resolucin temporal mejorada con retraso de buffering bajo. Otra nueva tcnica es la DCR (Conversin de resolucin dinmica), un camino para estabilizar el retraso del buffering (o almacenamiento) de la transmisin a travs de minimizar el jitter(o variacin) de la cantidad de bits de salida codificados por VOP. Se previenen as grandes saltos de frames y el codificador puede controlar la resolucin espacial incluso en escenas de alta actividad. 11 Codificacin de texturas e imgenes estticas. Existen 3 nuevas herramientas para la codificacin de texturas e imgenes estticas: &Wavelet tiling que permite que una imagen se divida en varias pilas y cada pila se codifique independientemente. Esto significa que las imgenes grandes se pueden codificar / decodificar con requerimientos de memoria muy bajos, y que el acceso aleatorio al decodificador es significativamente mejorado. &Escalable shape coding que permite codificar las texturas de forma arbitraria y las imgenes estticas de modo escalable. Usando esta herramienta, el decodificador puede decodificar cualquier imagen de forma arbitraria, a cualquier resolucin. Esta herramienta permite emplear escalas al espacio, calidad y objetos a la misma vez. &Error resilience tool aade nuevas caractersticas de vigilancia de errores, usando tcnicas de empaquetamiento y marcadores de segmentos, mejora significativamente la robustez ante errores en 6

aplicaciones tales como transmisin de imgenes a travs de mviles e Internet. 12 Mallas animadas en 2D. Una Malla en 2D es una divisin de una superficie plana en patrones poligonales. Los vrtices de estos polgonos son conocidos como Los puntos nodales, o nodos de la malla. MPEG4 considera solo mallas triangulares donde los patrones son tringulos. Una malla dinmica 2D es la informacin de la geometra y movimiento de los nodos una malla 2D dentro de un intervalo de tiempo de inters. Las mallas triangulares han sido muy utilizadas en geometra de objetos 3D, modelado y renderizado de objetos y grficos. El modelado de mallas 2D puede ser considerado como una proyeccin de la de 3D a una imagen plana. Un ejemplo es la malla 2D de la figura siguiente:

La figura del dibujo es un pez al que se ha aplicado una malla, deformando la malla podemos hacer que el pez, se mueva pareciendo que nade. Tambin podemos asociarle un logotipo al cuerpo del pez de manera que se mueva de la misma forma que el mismo. En el mapeado de texturas basado en mallas 2D, los patrones triangulares del frame actual son deformados por el movimiento de los puntos nodales respecto de los patrones del frame de referencia. La textura dentro de cada uno de estos patrones de referencia se transforma al del frame actual mediante un mapeado paramtrico, definido como una funcin de los vectores de movimiento de los puntos nodales. La forma lineal de las mallas triangulares implica una baja complejidad computacional en cuanto al mapeado de textura se refiere. Los mapeados pueden modelar parmetros como la translacin, rotacin, escalado reflexin etc... El grado de libertad dado por los tres vectores de movimiento de los vrtices del triangulo coincide con los 6 parmetros del mapeado. Esto implica que el campo de movimiento original puede ser representado por el movimiento de los puntos nodales, a la misma vez la estructura de la malla esta relacionada con los movimientos de los patrones de las imgenes adyacentes. Por lo tanto, las mallas estn muy bien adecuadas para representar campos de movimiento espacialmente continuos y que se deforman suavemente. El modelado de mallas 2D es atractivo debido a que las mallas d pueden ser designadas de una vista sencilla de un objeto sin requerir un rango de datos, manteniendo a su vez muchas de las funciones ofrecidas por el modelado 3D. En resumen, la representacin de mallas basadas en objetos 2D es til para modelar la forma (aproximacin poligonal del contorno del objeto) y el movimiento de un VOP en una secuencia unificada.. En particular, la representacin de mallas 2D de objetos de video permite las siguientes funciones: 7

A. Manipulacin del Objeto de video. Realidad aumentada: Mezclando imgenes virtuales (generadas por ordenador) con imgenes reales en movimiento (video) para crear una visualizacin mejorada. Para esto las imgenes generadas por ordenador deben estar en perfecta relacin con las imgenes de movimiento reales. Animacin / transfiguracinobjetosinttica: Sustituye un objeto de video en un video clip por otro objeto de video. Esta sustitucin puede ser extrada desde otro video clip o puede ser transfigurada a partir de una imagen esttica usando la informacin de movimiento del objeto a reemplazar. (De aqu la necesidad de una representacin de movimiento continua en el tiempo). Interpolacin espaciotemporal: El modelado de movimiento de mallas ofrece una interpolacin temporal con compensacin de movimiento ms robusta. B. Compresin del objeto de video. El modelado de mallas 2D puede ser utilizado para la compresin si uno elige transmitir los mapas de texturas solo en los keyframes (frames de pauta o frames clave) y los mapas de texturas animadas (sin mandar ninguna imagen de prediccin de error) para los frames intermedios. Esto es tambin conocido como una autotransfiguracin de los keyframes seleccionados usando la informacin de las mallas 2D. C. Indexado de video basado en contenido. La representacin de mallas permite keysnapshots (imgenes clave) para una sinopsis en movimiento de los objetos. La representacin de mallas ofrece adems una informacin precisa de la trayectoria del objeto que puede ser utilizada para recuperar objetos visuales con un movimiento especifico. 13 Mallas 3D. Las capacidades de la codificacin para mallas 3D incluyen: Algoritmo de codificacin de mallas poligonales 3D genricas adaptadas para la codificacin eficiente de mallas 3D poligonales. La representacin codificada es lo suficientemente genrica para soportar ambas; mallas mltiples y nomltiples. La representacin incremental permite al decodificador reconstruir un numero de caras en una malla proporcional al nmero de bits en el flujo de bit (bit stream) que ha sido procesado. Adems permite un rendering incremental. La vigilancia de error permite al decodificador recuperar parcialmente una malla cuando los subgrupos del flujo de bits se han perdido o corrompido. LOD (level of detail o nivel de detalle) escalable permite al decodificador reconstruir una versin simplificada de la malla original conteniendo un numero de vrtices de un subgrupo del flujo de bits. Dichas representaciones simplificadas son tiles para reducir el tiempo de renderizado de los objetos que estn lejos del observador (gestin del LOD), pero tambin permite motores menos potentes para renderizar el objeto a una calidad mas reducida. 14 Escalabilidad dependiente del punto de vista. La escalabilidad dependiente del punto de vista permite creas un flujo con los mapas de texturas, los cuales son utilizados en entornos de realidad virtual, Consiste en tomar en cuenta la posicin de observacin en el mundo virtual 3D de manera que se transmita solo la mayora de la informacin visible. Solo una fraccin de la informacin es mandada, dependiendo de la geometra del objeto y el desplazamiento del punto de vista . Esta fraccin es computada en ambos el codificador y el decodificador. Esta aproximacin reduce 8

enormemente la cantidad de informacin enviada entre la base de datos remota y el usuario, Esta escalabilidad puede ser aplicada con codificadores basados Wawelet y DCT. 15 Estructura de las herramientas para representar video natural. Los algoritmos de codificacin de imagen y video de MPEG4, presentan una eficiente representacin de objetos visuales de forma arbitraria, tambin soportando las llamadas funciones basadas en contenido. Soportan la mayora de las funciones ya ofrecidas por MPEG1 y MPEG2, incluyendo la compresin eficiente de secuencias rectangulares estndar con varios niveles de formatos de entrada, ratios de frames, profundidad de pxel (pxel depth), ratios de bit, y varios niveles de escalabilidad de calidad , temporal y espacial. Una clasificacin bsica de los ratios de bit y las funciones actualmente ofrecida por MPEG4 visual estndar para imgenes naturales de video es descrita en la siguiente figura, donde se ilustran los grupos de ratios de bit en funcin de las funciones.

Clasificacin de las herramientas y algoritmos para la codificacin de imagen y video de MPEG4. VLBV core (video con muy bajo ratio de bit) ofrece herramientas y algoritmos para aplicaciones que trabajan con ratios de bit tpicos de 5 64 Kbit/s, y que soportan secuencias de imgenes con resolucin espacial baja y bajos ratios de frames (hasta 15 Hz). Las funciones especificas de las aplicaciones bsicas soportadas por el VLBV incluyen: Codificacin de secuencias de imgenes de tamao rectangular convencionales con alta eficiencia de codificacin y alta robustez / vigilancia, baja latencia y complejidad para aplicaciones de comunicacin multimedia. Acceso aleatorio y fast foward y fast reverse para el almacenamiento de bases de datos multimedia VLB y aplicaciones de acceso. Las mismas funciones bsicas descritas sobre estas lneas son tambin soportadas con altos ratios de bit con altos parmetros de entrada en cuanto a rangos espaciales y temporales hasta las resoluciones ITUR Rec.601 y mayores, aplicando idnticos o similares algoritmos y herramientas como la VLBV core. Los ratios de bit previstos son desde 64Kbit/s hasta 10Mbit/s y las aplicaciones previstas incluyen difusin multimedia la recuperacin interactiva de seales de calidad comparable a la de la TV digital. Para estas aplicaciones de altos ratios de bit tambin existen herramientas de codificacin de MPEG4 que pueden representar el video entrelazado. Las funciones basadas en contenido soportan la codificacin / decodificacin separada de contenidos, esto se refiere a los objetos fsicos de una escena (como veremos ms adelante), los Vos. Esta caracterstica de 9

MPEG4 ofrece el mecanismo ms elemental para la interactividad, representacin simple y manipulacin de los contenidos de Vos de imagen o video en el dominio de la compresin , sin la necesidad de mayor separacin o transcodificacin en el receptor. Para la codificacin hbrida de datos visuales naturales tanto como de los sintticos (por ejemplo de un entorno virtual) la funcin de codificacin basada en contenidos permite mezclar un nmero de Vos de diferentes fuentes con objetos sintticos , como fondos virtuales. Los extendidos algoritmos y herramientas MPEG4 para funciones basadas en contenidos pueden verse como un sperconjunto de la VLBV y las herramientas para altos ratios de bit, esto viene a significar que las herramientas ofrecidas por el VLBV y las de alto ratio de bit son complementadas por elementos adicionales. 16 Soporte para las funciones convencionales y basadas en contenidos. Como hemos mencionado antes, MPEG4 video soporta imgenes rectangulares convencionales as como imgenes y video de formas arbitrarias. Este ejemplo se muestra en la figura siguiente:

El VLBV core y el codificador genrico MPEG4 La codificacin convencional de imgenes y video es similar a la convencional realizada por MPEG1/2. Estas incluyen prediccin / compensacin de movimiento seguido por codificacin de texturas. Para las funciones basadas en contenidos, donde la secuencia de imgenes de entrada puede ser de localizacin y forma arbitraria, esta aproximacin es extendida codificando la informacin de forma y transparencia. La forma puede ser representada por un componente de transparencia de 8 bits, )el cual permite la descripcin de dicha transparencia si uno de los VO esta compuesto por otros objetos), o por una mscara binaria. La aproximacin basada en contenidos MPEG4 extendida puede ser vista como una extensin lgica del convencional MPEG4 VLBV core o las herramientas de alto ratio de bits dirigidas a la entrada de formas arbitrarias. 17 El esquema de codificacin e imagen y video de MPEG4 Bajo estas lneas se encuentra una aproximacin de los algoritmos para codificar secuencia de imgenes tanto rectangulares como arbitrarias de MPEG4 video.

10

Diagrama de bloques bsico del codificador de video de MPEG4. La estructura de codificacin bsica incluye codificacin de formas (para Vos de forma arbitraria) y compensacin de movimiento, as como codificacin de texturas basada en DCT (usando el estndar DCT 8x8 o DCT forma adaptativa). Una ventaja importante de la codificacin aproximada basada en contenidos de MPEG4 es que la eficiencia de la compresin puede ser significativamente mejorada para algunas secuencias de video usando herramientas basadas en objetos de movimiento apropiadas y dedicadas para cada objeto en una escena. Un nmero de tcnicas de prediccin de movimiento pueden ser utilizadas para permitir una codificacin eficiente y una presentacin flexible de los objetos Estimacin y compensacin estndar de movimiento basada en bloques 8x8 o 16x16. Compensacin de movimiento global basada en la transmisin de un sprite esttico. Un sprite esttico es una posible gran imagen esttica, que describa por ejemplo un paisaje o un fondo panormico. Para cada imagen consecutiva en una secuencia, solo 8 parmetros de movimiento globales que describan el movimiento de la cmara son codificados para reconstruir el objeto. Estos parmetros representan la apropiada transformacin afn, del sprite transmitido en el primer momento. La siguiente figura describe el concepto bsico de codificacin de una secuencia de video MPEG4 que usa un sprite panormico. Se asume que el objeto en primer plano (jugador de tenis) puede ser separado del fondo y que la imagen panormica puede ser extrada de la imagen antes de ser codificada. (Una imagen panormica es una imagen esttica que describe como tal el contenido del fondo a travs de todos los frames de la secuencia). El sprite panormico es transmitido al receptor solo en el primer frame de la secuencia para describir el fondo de la misma. El sprite permanece almacenado en un sprite buffer. En cada frame consecutivo solo los parmetros de la cmara relevantes son transmitidos al receptor. Esto le permite al recetor reconstruir la imagen de fondo de cada frame en la secuencia basada en este sprite. El objeto mvil que est en primer plano es transmitido como objeto de video de forma arbitraria, separadamente.. El receptor compone la ambos, fondo y primer plano para recomponer la imagen en cada frame .

11

Para aplicaciones de bajo retardo es posible transmitir el sprite en mltiples piezas pequeas a travs de los frames consecutivos para construir el sprite progresivamente en el decodificador.

Ejemplo de codificacin de un sprite en una secuencia de video. 18 Codificacin de texturas e imgenes estticas. La codificacin eficiente de texturas e imgenes estticas ( por ejemplo, para ser mapeadas en mallas animadas) esta soportada por el modo de textura visual de MPEG4. este modo est basado en el algoritmo zerotree wavelet que ofrece una gran eficiencia de codificacin para una gran cantidad de ratios de bit. Junto a la gran eficiencia de compresin, aade escalabilidad espacial y escalabilidad de calidad. (hasta 11 niveles de escalabilidad espacial y escalabilidad de calidad continua) y tambin aade codificacin de objetos de forma arbitraria. El algoritmo de wavelet proporciona una codificacin del flujo de bit escalable en forma de resolucin jerrquica ara transmisin progresiva y mejora temporal de las imgenes estticas. El flujo de bits codificado esta tambin hecho para descararse la jerarqua de resolucin de la imagen al terminal para formatearlo como MIPmap texture usada en sistemas de renderizado 3D. Esta tecnologa ofrece escalabilidad en resolucin para satisfacer en un rango amplio de modos de visualizacin, los ms utilizados en aplicaciones interactivas y mapeado de imgenes en mundos virtuales 2D y 3D. 19 Codificacin escalable de objetos de video. MPEG4 soporta la codificacin, como ya hemos comentado antes, de objetos de imgenes y video con escalabilidad tanto espacial como temporal, ambas tanto en objetos de forma rectangular como de forma arbitraria. La escalabilidad se refiere a la habilidad de solo decodificar una parte del flujo de datos y reconstruir imgenes o secuencias de imgenes con: Complejidad del decodificador reducida as como calidad reducida tambin.(til para accesos de red lentos) Resolucin espacial reducida. Resolucin temporal reducida. Con igual resolucin espacial y temporal, pero con calidad reducida.

12

Esta funcionalidades til para la codificacin progresiva de imgenes y video enviadas a travs de redes heterognea, as como en terminales cuya aplicacin no es capaz de reproducir o mostrar la entera resolucin o calidad de las imgenes o secuencias de video. Esto puede ocurrir por ejemplo cuando la potencia del procesador o la resolucin del adaptador de video es limitado. 20 Descripcin tcnica detallada del audio en MPEG4. La codificacin ofrecen de los objetos de audio en MPEG4 ofrece herramientas para ambos tipos de sonido, el sonido natural (por ejemplo voz o msica) y el sintetizado. La representacin del sonido sintetizado incluye tambin parmetros para la realizacin de efectos tales como la reverberacin o el eco. Estas representaciones del audio presentan adems funciones de compresin, escalabilidad y procesamiento de efectos. Las herramientas de audio de MPEG4 de 6Kbit/s a 24Kbit/s han sido sometidas a tests de verificacin para aplicaciones de difusin de audio en AM en colaboracin con el consorcio NADIB (difusin digital de banda estrecha). Con la intencin de encontrar un formato de difusin de audio digital que pueda aportar mejoras sobre los servicios existentes de modulacin en AM, varios configuraciones de codecs incluyendo el MPEG4 CELP, Twin VQ y AAC Tools se han comparado con el sistema de referencia AM(mas abajo se explican estos algoritmos). Se descubri que se poda conseguir una calidad mayor en el mismo ancho de banda con tcnicas digitales y que las configuraciones escalables del codificador ofrecan un rendimiento superior a la alternativa simulcast. Tests de verificacin se llevaron a cabo por MPEG, en las cuales las herramientas de codificacin para voz y audio en general, se compararon con los estndares existentes. 10.1 Sonido natural. MPEG4 estandariza la codificacin de audio natural en ratios de bit comprendidos entre los 2Kbit/s hasta por encima de 64Kbit/s. Cuando se permite la codificacin con ratios variables, como una codificacin menor de 2Kbit/s, como un ratio de bit medio de1.2Kbit/s , tambin se soporta. La presencia del estndar MPEG2 AAC dentro del grupo de herramientas de MPEG4 ofrece una compresin generalizada para audio en el rango superior en ratios de bit. Para esto, MPEG4 define la sintaxis del flujos de bits y los procesos de decodificacin en trminos de un conjunto de herramientas. De manera que se pueda conseguir la mayor calidad de audio con el mayor rango de ratios de bit y al mismo tiempo ofrecer funciones extra, las tcnicas de codificacin de voz y audio en general se integran dentro del mismo sistema: La codificacin de voz con ratios de bit entre 2 y 24Kbit/s es realizada usando el Codificacin por excitacin del vector de armnicos (HVXC), recomendado para ratios entre 2 4Kbit/s y la prediccin linear excitada de cdigo (CELP) para ratios de 4 24Kbit/s. HVXC puede trabajar por debajo de estos ratios en una media de 1.2Kbit/s en su modo de bit rate variable. En la codificacin CELP dos ratios de sampleado de 8 y 16 Khz, son los utilizados para trabajar con voz de banda estrecha y banda ancha respectivamente. Los siguientes modos de operacin han sido sometidos a pruebas de verificacin: HVXC a 2 y 4Kbit/s, CELP en banda estrecha en 6, 8.3, y 12 Kbit/s , y en banda ancha a 18Kbit/s . Tambin han sido probadas varias de las configuraciones de escalabilidad. Para la codificacin de audio en general en ratios de 6 Kbit/s y superiores, las tcnicas de codificacin de transformacin, llamadas TwinVQ y AAC, son las que se aplican. Las seales de audio en esta regin son tpicamente sampleadas a frecuencias a partir de los ( Khz. Para conseguir una cobertura ptima de los ratios de bit y permitir una ancho de banda y un bit rate escalable, ha sido definido un sistema tal y como se muestra en la siguiente figura.

13

Diagrama general de bloque del audio en MPEG4 Empezando con un codificador trabajando a bajos ratios de bit, e implementado un mejor codificador de audio en general, ambos, la calidad y el ancho de banda del audio codificado pueden ser mejorados. Los sistemas de capas (layers) de MPEG4 permiten que los codecs existentes del MPEG estndar, se han diseado para trabajar de forma independiente, cada uno con su propia sintaxis para el flujo de bits. Las funciones adicionales, son realizadas por ambos codificadores y por herramientas adicionales a ellos. Un ejemplo de dicha funcin de un codificador individual es la velocidad del cambio de tono en el sistema HVXC. 21 Cualidades adicionales del audio en MPEG4 Robustez ante error. La herramienta de robustez ante error ofrece un rendimiento mejorado en canales de transmisin propensos a error. Estas se herramientas se pueden dividir en, Herramientas de vigilancia de error y herramientas de proteccin ante errores comunes. La robustez de error mejorada para AAC esta compuesta por un conjunto de herramientas de vigilancia de error. Estas herramientas reducen el deterioramiento percibido del audio decodificado que es causa debido a los bit corruptos del flujo de bits. Las siguientes herramientas mejoran la robustez de error para varia partes de un AAC frame: Herramienta de codebook (libro de cdigos) virtual. Herramienta de codificacin de longitud variable reversible (RVLC). Herramienta de reordenacin de cdigo de palabras Huffman (HCR). Las habilidades de robustez de error mejorada para todas las herramientas de codificacin se ofrecen a travs de sintaxis como una carga en el flujo de bits de vigilancia de error. Es esto lo que permita tcnicas de codificacin de canal avanzadas, las cuales se pueden adaptar a las necesidades especiales de cada una de las diferentes herramientas de codificacin. La herramienta de proteccin de error (EP tool) tiene las siguientes caractersticas: 14

ofrece una serie de cdigos de deteccin / correccin de errores con gran escalabilidad en redundancia y rendimiento. Ofrece un sistema de proteccin de error genrico y eficiente en banda que cubre tanto los flujos de bit de longitud fija como los de longitud variable. Ofrece control de configuracin de desigual proteccin de error(UEP). MPEG4 adems una clasificacin de sensibilidad de error a cada flujo de bits aplicando a cada uno un mayor grado de proteccin de errores segn convenga. Codificacin de audio de bajo retardo. Mientras que el codificador de audio en general de MPEG4 ofrece una codificacin eficiente para seales de audio en general a bajos ratios de bit, tiene un algoritmo de codificacin / decodificacin con un retraso de hasta 100 ms, que no es apropiado para aplicaciones de bajo retardo, como las de comunicaciones bidireccionales en tiempo real. Como un ejemplo, para la codificacin de audio general a 24 KHz y 24 Kbit/s, esto nos lleva a un retraso de 110 ms ms 210 ms para el uso del depsito de los bits. Para permitir un codificacin de audio en general con u retraso menor de 20 ms, MPEG4 define un codificador de audio de bajo retardo que se deriva del la codificacin avanzada de audio (AAC) de MPEG2/4. Para ello se realiza entre otras cosas un tiempo menor en el deposito de bits, y en casos extremos no se realiza dicho depsito. 22 CELP Compresin de silencio La herramienta de compresin de silencio reduce el ratio medio de bit gracias a una menor compresin del ratio de bits debido al silencio. En el decodificador, se usa un detector de actividad de voz para distinguir las regiones con un actividad normal de voz y aquellas que solo contienen el ruido de fondo. Durante la actividad de voz, el CELP acta normalmente, en el otro caso el descriptor de insercin de silencio (SID) se transmite a una menor tasa de bits. 23 Etorno espacial Las herramientas de entorno espacial permiten las composicin de una escena sonora con una fuente de sonido mucho mas natural y un modelado de sonido envolvente. Ambas, una aproximacin fsica y perceptiva son soportadas por MPEG4 audio, la aproximacin fsica est basad en la descripcin de las cualidades acsticas del entorno(por ejemplo la geometra de la sala, las propiedades de los materiales, posicin de fuente de sonido etc.) y se puede utilizar para aplicaciones basadas en 3D, como la realidad virtual. Por otro lado la aproximacin perceptiva permite un mayor nivel de descripcin del audio de dicha escena y est basada en los parmetros tales como puede ser la reverberacin. De esta manera se puede componer tanto el audio y la escena visual se pueden componer de manera separada como es usual en las aplicaciones como puede ser un editor de pelculas. 10.8 Canal de retorno. El canal de retorno permite al cliente formular peticiones al servidor. De esta manera se consigue la interactividad. En el sistema MPEG4, la necesidad de un canal de subida es necesaria para que el cliente pueda enviar los parmetro bsico del flujo que recibe. Este canal de subida se abre de manera similar que los de bajada, en este caso utilizando como salida el codificador del cliente. En audio este canal sirve como realimentacin para el servidor y se puede ajustar as el ratio de bits, la escalabilidad y la adaptacin de la proteccin de error, segn necesidades. 13

15

Potrebbero piacerti anche