Sei sulla pagina 1di 22

MP3

MPEG-1 Audio Layer 3, ms conocido como MP3, conocido tambin por su grafa emepetrs, es un formato de audio digital comprimido con prdida desarrollado por el Moving Picture Experts Group (MPEG) para formar parte de la versin 1 (y posteriormente ampliado en la versin 2) del formato de video MPEG. Su nombre es el acrnimo de MPEG-1 Audio Layer 3. Dentro de los estndares de vdeo MPEG (de los que hablaremos en temas posteriores) hay tambin creados estndares de compresin de audio. Como se permiten distintas calidades existen tres "capas" con distintos esquemas de compresin: la capa 1, la 2 y la 3 (de forma que la complejidad es progresiva y un decodificador funciona tambin con las capas anteriores), y esta ltima se conoce por MP3 o MPEG Audio Layer-3. El MP3 permite comprimir en un factor aproximado de 12 la informacin original muestreada (unos 120 Kbits por segundo, es decir, ms o menos 1 Mb por minuto) sin perder calidad de sonido de forma apreciable (por un odo no entrenado... y de hecho los estudios de percepcin de calidad de mp3 se han hecho con oyentes humanos opinando sobre las diferencias). Para hacernos una idea aproximada de la compresin obtenida, en un CD-ROM podemos almacenar unos 700 minutos de msica, es decir, ms de 11 horas! (unas 175 canciones de 4 minutos cada una).

Formato Layer1 Layer2 Layer3

Compresin 4a1 6a1 8a1 10 a 1 12 a 1

Kb/seg 384 256 192 128 112

Este formato fue desarrollado principalmente por Karlheinz Brandenburg, director de tecnologas de medios electrnicos del Instituto Fraunhofer IIS, perteneciente a una red de 47 centros de investigacin alemanes que junto con Thomson Multimedia controla el grueso de las patentes relacionadas con el MP3. La primera de ellas fue registrada en 1986 y varias ms en 1991. Pero no fue hasta julio de 1995 cuando Brandenburg us por primera vez la extensin .mp3 para los archivos relacionados con el MP3 que guardaba en su ordenador. Un ao despus su instituto ingresaba en concepto de patentes 1,2 millones de euros. Diez aos ms tarde esta cantidad ha alcanzado los 26,1 millones. El formato MP3 se convirti en el estndar utilizado para streaming de audio y compresin de audio de alta calidad (con prdida en equipos de alta fidelidad) gracias a la posibilidad de ajustar la calidad de la compresin, proporcional al tamao por segundo (bitrate), y por tanto el tamao final del archivo, que poda llegar a ocupar 12 e incluso 15 veces menos que el archivo original sin comprimir. Fue el primer formato de compresin de audio popularizado gracias a Internet, ya que hizo posible el intercambio de ficheros musicales. Esto deriv en procesos judiciales contra empresas como Napster y AudioGalaxy.

Tras el desarrollo de reproductores autnomos, porttiles o integrados en cadenas musicales (estreos), el formato MP3 llega ms all del mundo de la informtica. A principios de 2002 otros formatos de audio comprimido como Windows Media Audio y Ogg Vorbis empiezan a ser masivamente incluidos en programas, sistemas operativos y reproductores autnomos, lo que hizo prever que el MP3 fuera paulatinamente cayendo en desuso, en favor de otros formatos, como los mencionados, de mucha mejor calidad. Uno de los factores que influye en el declive del MP3 es que tiene patente. Tcnicamente no significa que su calidad sea inferior ni superior, pero impide que la comunidad pueda seguir mejorndolo y puede obligar a pagar por la utilizacin de algn cdec, esto es lo que ocurre con los reproductores de MP3. An as, a inicios del 2007, el formato mp3 continua siendo el ms usado y el que goza de ms xito. El formato mp3 utiliza unos cuantos trucos para comprimir el sonido, fundamentalmente tcnicas de codificacin de percepcin que aprovechan la manera en la que el odo humano percibe el sonido. Veamos algunas de las claves: Umbral mnimo de audicin. El umbral mnimo de audicin humano (minimal audition threshold) no es lineal. De acuerdo a la ley de Fletcher y Munsen, se representa por una curva entre 2 y 5 KHz. Cualquier sonido situado fuera de este margen puede no codificarse, ya que no ser percibido de cualquier modo. Efecto mscara. Hay una serie de propiedades de ocultacin (masking effect) del odo humano. De la misma forma que al mirar a un objeto muy brillante se anula la percepcin de otros objetos que puedan cruzarlo, en audio los sonidos fuertes no dejan oir a los dbiles. Para conseguir aprovechar esta caracterstica mp3 usa un modelo psicoacstico del comportamiento del odo humano, que filtra los sonidos ms dbiles cuando hay sonidos muy fuertes a la vez. Reserva de bytes. Partes de una obra pueden no ser codificados por debajo de un nmero de bytes por segundo para mantener la calidad. En estos casos, mp3 usa partes que s pueden codificarse en un tamao inferior para almacenar parte de los otros, de modo que acta como una especie de buffer de las partes ms exigentes. Fusin de estreo. En muchas msicas, en frecuencias determinadas, el odo humano no puede distinguir el origen espacial de los sonidos de un canal u otro del estreo. En este caso mp3 puede fusionar las dos seales en una nica (mono) aadiendo quizs alguna informacin de diferenciacin de canales para disminuir al mnimo la informacin determinada por la diferencia entre uno y otro canal.

Codificacin de Huffman. El cdigo Huffman se aplica al final de la compresin. En cierto modo complementa a las otras partes de la codificacin mp3: en algunas partes polifnicas se puede reducir mucha informacin enmascarada o de estreo, y en ese caso habr poca redundancia (y por ello poca reduccin por codificacin Huffman); mientras que en partes de solos se podrn aplicar pocos efectos de mscara pero habr muchos bytes redundantes (mucha reduccin por Huffman).

Detalles tcnicos En esta capa existen varias diferencias respecto a los estndares MPEG-1 y MPEG-2, entre las que se encuentra el llamado banco de filtros hbrido que hace que su diseo tenga mayor complejidad. Esta mejora de la resolucin frecuencial empeora la resolucin temporal introduciendo problemas de pre-eco que son predecidos y corregidos. Adems, permite calidad de audio en tasas tan bajas como 64Kbps. Banco de filtros El banco de filtros utilizado en esta capa es el llamado banco de filtros hbrido polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de la frecuencia tanto para el codificador como para los filtros de reconstruccin del decodificador. Las muestras de salida del banco estn cuantizadas y proporcionan una resolucin en frecuencia variable, 6x32 o 18x32 subbandas, ajustndose mucho mejor a las bandas crticas de las diferentes frecuencias. Usando 18 puntos, el nmero mximo de componentes frecuenciales es: 32 x 18 = 576. Dando lugar a una resolucin frecuencial de: 24000/576 = 41,67 Hz (si fs = 48 Khz.). Si se usan 6 lneas de frecuencia la resolucin frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos niveles energticos). La Capa III tiene tres modos de bloque de funcionamiento: dos modos donde las 32 salidas del banco de filtros pueden pasar a travs de las ventanas y las transformadas MDCT y un modo de bloque mixto donde las dos bandas de frecuencia ms baja usan bloques largos y las 30 bandas superiores usan bloques cortos. Para el caso concreto del MPEG-1 Audio Layer 3 (que concretamente significa la tercera capa de audio para el estandar MPEG-1) especifica cuatro tipos de ventanas: (a) NORMAL, (b) transicin de ventana larga a corta (START), (c) 3 ventanas cortas (SHORT), y (d) transicin de ventana corta a larga (STOP). El modelo psicoacstico La compresin se basa en la eliminacin de informacin perceptualmente irrelevante, es decir, en la incapacidad del sistema auditivo para detectar los errores de cuantificacin en condiciones de enmascaramiento. Este estndar divide la seal en bandas de frecuencia que se aproximan a las bandas crticas, y luego cuantifica cada subbanda en funcin del umbral de deteccin del ruido dentro de esa banda. El modelo psicoacstico es una modificacin del empleado en el esquema II, y utiliza un mtodo denominado prediccin polinmica. Analiza la seal de audio y calcula la cantidad de ruido que se puede introducir en funcin de la frecuencia, es decir, calcula la cantidad de enmascaramiento o umbral de enmascaramiento en funcin de la frecuencia.

El codificador usa esta informacin para decidir la mejor manera de gastar los bits disponibles. Este estndar provee dos modelos psicoacsticos de diferente complejidad: el modelo I es menos complejo que el modelo psicoacstico II y simplifica mucho los clculos. Estudios demuestran que la distorsin generada es imperceptible para el odo experimentado en un ambiente ptimo desde los 256 kbps y en condiciones normales y para el odo no experimentado 128 kbps es suficiente. Para el odo no experimentado, o comn, con 128 kbps o hasta 96 kbps basta para que se oiga "bien" (a menos que se posea un equipo de audio de alta calidad donde se nota excesivamente la falta de graves y se destaca el sonido de "fritura" en los agudos), sin embargo, en las personas que escuchan mucha msica o que tienen experiencia en la parte auditiva, desde 192 o 256 kbps basta para or bien, lamentablemente en internet circula msica a 128 kbps en su gran mayora. Codificacin y cuantificacin La solucin que propone este estndar en cuanto a la reparticin de bits o ruido se hace en un ciclo de iteracin que consiste de un ciclo interno y uno externo. Examina tanto las muestras de salida del banco de filtros como el SMR (signal-to-mask ratio) proporcionado por el modelo psicoacstico, y ajusta la asignacin de bits o ruido, segn el esquema utilizado, para satisfacer simultneamente los requisitos de tasa de bits y de enmascaramiento. Dichos ciclos consisten en: (i)Ciclo interno. El ciclo interno realiza la cuantizacin no-uniforme de acuerdo con el sistema de punto flotante (cada valor espectral MDCT se eleva a la potencia 3/4). El ciclo escoge un determinado intervalo de cuantizacin y, a los datos cuantizados, se les aplica codificacin de Huffman en el siguiente bloque. El ciclo termina cuando los valores cuantizados que han sido codificados con Huffman usan menor o igual nmero de bits que la mxima cantidad de bits permitida. (ii)Ciclo externo. Ahora el ciclo externo se encarga de verificar si el factor de escala para cada subbanda tiene ms distorsin de la permitida (ruido en la seal codificada), comparando cada banda del factor de escala con los datos previamente calculados en el anlisis psicoacstico. El ciclo externo termina cuando una de las siguientes condiciones se cumple: Ninguna de las bandas del factor de escala tiene mucho ruido. Si la siguiente iteracin amplifica una de las bandas ms de lo permitido. Todas las bandas han sido amplificadas al menos una vez. Empaquetado o formateador de bitstream Este bloque toma las muestras cuantificadas del banco de filtros, junto a los datos de asignacin de bits/ruido y almacena el audio codificado y algunos datos adicionales en las tramas. Cada trama contiene informacin de 1152 muestras de audio y consiste de un encabezado, de los datos de audio junto con el chequeo de errores mediante CRC y de los datos auxiliares (estos dos ltimos opcionales). El encabezado nos describe cul capa, tasa de bits y frecuencia de muestreo se estn usando para el audio codificado. Las tramas empiezan con la misma cabecera de sincronizacin y diferenciacin y su longitud puede variar. Adems de tratar con esta informacin, tambin incluye la codificacin Huffman de longitud variable, un mtodo de codificacin entrpica que sin prdida de informacin elimina redundancia. Acta al final de la compresin para codificar la informacin. Los mtodos de longitud variable se caracterizan, en

general, por asignar palabras cortas a los eventos ms frecuentes, dejando las largas para los ms infrecuentes. Estructura de un fichero MP3 Un fichero Mp3 se constituye de diferentes frames MP3 que a su vez se componen de una cabecera Mp3 y los datos MP3. Esta secuencia de datos es la denominada stream elemental. Cada uno de los Frames son independientes, es decir, una persona puede cortar los frames de un fichero MP3 y despus reproducirlos en cualquier reproductor MP3 del Mercado. El grafico muestra que la cabecera consta de una palabra de sincronismo que es utilizada para indicar el principio de un frame valido. A continuacin siguen una serie de bits que indican que el fichero analizado es un fichero Standard MPEG y si usa o no la capa 3. Despus de todo esto los valores difieren dependiendo del tipo de archivo MP3. Los rangos de valores quedan definidos en la ISO/IEC 11172-3. Seal Longitud (bits) A B 11 2 Posicin Descripcin (bits) (31-21) (20,19) Sincronizacin (todos los bits a 1) Versin MPEG Audio 00 - MPEG Versin 2.5 01 - reserved 10 - MPEG Versin 2 (ISO/IEC 13818-3) 11 - MPEG Versin 1 (ISO/IEC 11172-3) Nota: MPEG Versin 2.5 fue aadida al estndar MPEG 2, usada para bitrates muy bajos. Para decodificadores que no soporten esta extensin se recomienda el uso de 12 bits para sincronizacin en vez de 11. C 2 (18,17) Descripcin de nivel 00 - reserved 01 - Layer III 10 - Layer II 11 - Layer I Bit de Proteccin 0 Protegido por CRC 1 - No protegido E 4 (15,12) Bitrate en kbps bits V1,L1 V1,L2 V1,L3 V2,L1 V2, L2 & L3 0000 Libre Libre Libre Libre Libre

(16)

0001 32 0010 64 0011 96 0100 128 0101 160 0110 192 0111 224 1000 256 1001 288 1010 320 1011 352 1100 384 1101 416 1110 448 1111 Mal

32 48 56 64 80 96 112 128 160 192 224 256 320 384 Mal

32 40 48 56 64 80 96 112 128 160 192 224 256 320 Mal

32 48 56 64 80 96 112 128 144 160 176 192 224 256 Mal

8 16 24 32 40 48 56 64 80 96 112 128 144 160 Mal

V1 - MPEG Versin 1 V2 - MPEG Versin 2 y Versin 2.5 L1 - Layer I L2 - Layer II L3 - Layer III "libre": formato libre. Debe ser constante y por debajo del mximo permitido. No tiene por qu ser aceptado por un decodificador. "mal": valor no permitido. Algunos ficheros MPEG usan bitrate variable (VBR). Cada frame puede poseer un bitare diferente. Esta caracterstica es soportada por los decodificadores Layer III, no por todos los de Layer I y II

(11,10)

Frecuencia de muestreo bits MPEG1 MPEG2 MPEG2.5 00 44100 Hz 22050 Hz 11025 Hz 01 48000 Hz 24000 Hz 12000 Hz 10 32000 Hz 16000 Hz 8000 Hz 11 reserv. reserv. reserv.

(9)

Bit de ajuste 0 - frame no ajustado 1 - frame ajustado con un slot extra Sirve para asegurarnos que cada frame cumple los requisitos del bitrate.

(8)

Bit Privado, informativo. Si no existe, se pone un checksum de 16 bits antes de los datos de audio Modo 00 - Stereo 01 - Joint stereo (Stereo) 10 - Dual channel (2 mono channels) 11 - Single channel (Mono) Nota: Los archivos de canal dual se construyen a partir de dos mono independientes, cada uno usa la mitad del bitrate.

(7,6)

(5,4)

Extensin de Modo (para Joint stereo) Determinados directa y dinmicamente por un codificador. Se divide el rango de frecuencias en 32 subbandas. Para Layer I y II los bits determinan las bandas donde se aplica el estreo intenso. Para Layer III determinan qu tipo de estreo se usa (intenso o MS) Layer I y II valor Layer I & II 00 01 bandas 4 a 31 bandas 8 a 31 Layer III Intenso MS off on off off

10 11 K 1 (3)

bandas 12 a 31 bandas 16 a 31

off on

on on

Copyright 0 - Audio sin copyright 1 - Audio con copyright

(2)

Originalidad 0 - Copia 1 - Original nfasis 00 - no 01 - 50/15 ms 10 reservado 11 - CCIT J.17

(1,0)

Indica al decodificador si el fichero ha de ser re-ecualizado. No se suele usar

Transformada de Fourier discreta En matemticas, la transformada de Fourier discreta, designada con frecuencia por la abreviatura DFT (del ingls discrete Fourier transform), y a la que en ocasiones se denomina transformada de Fourier finita, es una transformada de Fourier ampliamente empleada en tratamiento de seales y en campos afines para analizar las frecuencias presentes en una seal muestreada, resolver ecuaciones diferenciales parciales y realizar otras operaciones, como convoluciones. Es utilizada en el proceso de elaboracion de un fichero MP3. La transformada de Fourier discreta puede calcularse de modo muy eficiente mediante el algoritmo FFT.

WAV
WAV (o WAVE), apcope de WAVEform audio format, es un formato de audio digital normalmente sin compresin de datos desarrollado y propiedad de Microsoft y de IBM que se utiliza para almacenar sonidos en el PC , admite archivos mono y estreo a diversas resoluciones y velocidades de muestreo, su extensin es .wav. Es una variante del formato RIFF (Resource Interchange File Format, formato de fichero para intercambio de recursos), mtodo para almacenamiento en "paquetes", y relativamente parecido al IFF y al formato AIFF usado por Macintosh. El formato toma en cuenta algunas peculiaridades de la CPU Intel, y es el formato principal usado por Windows. A pesar de que el formato WAV puede soportar casi cualquier cdec de audio, se utiliza principalmente con el formato PCM (no comprimido) y al no tener prdida de calidad puede ser usado por profesionales, Para tener calidad Disco compacto se necesita que el sonido se grabe a 44100 Hz y a 16 bits, por cada minuto de grabacin de sonido se consumen unos 5 megabytes de disco duro. Una de sus grandes limitaciones, debida realmente al sistema operativo MS Windows, es que solo se puede grabar un archivo de hasta 4 gigabites, que equivale aproximadamente a 6,6 horas en calidad disco compacto. En Internet no es popular, fundamentalmente porque los archivos sin compresin son muy grandes. Son ms frecuentes los formatos comprimidos con prdida, como el MP3 o el Ogg Vorbis. Como stos son ms pequeos la transferencia a travs de Internet es mucho ms rpida. Adems existen cdecs de compresin sin prdida ms eficaces como Apple Lossless o FLAC. El formato de los ficheros .WAV es el siguiente: Bytes 00 - 03 Contenido Usual "RIFF" Propsito/Descripcin Bloque de identificacin (sin comillas). Entero largo. Tamao del fichero en bytes, incluyendo cabecera. Otro identificador. Otro identificador Tamao de la cabecera hasta este punto. Etiqueta de formato. (Algo as como la versin del tipo de formato utilizado).

04 - 07

???

08 - 11 12 - 15 16 -19

"WAVE" "fmt " 16, 0, 0, 0

20 - 21

1, 0

22 - 23

1, 0 (mono) ; 2,0 (estreo)

Nmero de canales (2 si es estreo).

24 27 28 31 32 33 34 35 36 39 40 43 Resto

??? ??? 1, 0 8, 0 "data" ??? ???

Frecuencia de muestreo (muestras/segundo). Nmero medio de bytes/segundo. Bytes por muestra Nmero de Bits por muestra (normalmente 8, 16 32). Marcador que indica el comienzo de los datos de las muestras. Nmero de bytes muestreados. Muestras (cuantificacin uniforme)

Cabecera RIFF El fichero RIFF lleva siempre una cabecera de 8 bytes, que identifica al fichero y especifica la longitud de los datos a partir de la cabecera (esto es, la longitud total menos 8). Esta cabecera se compone de 4 bytes con el contenido "RIFF" y los otros 4 indican la longitud. Despus de la cabecera RIFF siempre hay 4 bytes que identifican el tipo de los datos que contiene; para el caso .WAV estos 4 bytes contienen "WAVE".

Chunks RIFF Los datos de un fichero RIFF se componen de una secuencia de chunks, cada uno de los cuales consta de un campo de identificacin de 4 bytes, una longitud de datos de 4 bytes y el conjunto de los datos. Al procesar un fichero RIFF, se deben ignorar los segmentos desconocidos, para asegurar compatibilidad con futuras definiciones de los formatos de fichero. Generalidades del formato WAVE Del conjunto de segmentos que se definen para el formato WAVE existen dos que son obligatorios: el segmento de formato y el segmento de datos. Adems el segmento de formato debe aparecer antes que el segmento de datos. El resto de segmentos son opcionales, aunque como se ver ms adelante el segmento FACT es obligatorio en algunos casos. Segmento de formato (Format Chunk) El segmento de formato identifica por "fmt " y se compone de dos elementos: un conjunto de campos comunes y un conjunto de campos especficos. Este ltimo puede no aparecer, en funcin del formato concreto elegido. Los campos comunes pueden representarse en la siguiente estructura:

Categoras del formato WAVE La categora se especifica a travs del campo wFormatTag. Los campos especficos del segmento de formato y la representacin de los datos en el segmento de datos dependen de este valor. Actualmente se han definido los siguientes formatos no propietarios:

Formato WAVE_FORMAT_PCM Este formato define un nico campo especfico que indica el nmero de bits por muestra de cada canal.Si este campo est comprendido entre 1 y 8 bits, el valor que se almacena en una muestra es un entero sin signo. Si su valor supera los 8 bits entonces el valor almacenado en las muestras es un entero con signo. Este campo, dividido entre ocho y redondeado al entero mayor ms prximo indica el nmero de bytes por muestra, y permite estimar el campo wAvgBytesPerSec como: wChannels wSamplesPerSecond BytesPerSample Del mismo modo se puede calcular el valor de wBloackAlign de la siguiente forma: wChannels BytesPerSample La ordenacin de los bytes de datos es la siguiente: los datos se organizan en bloques de wBlockAlign bytes. Estos bloques son una secuencia de las muestras para cada canal (en estreo 0 es izquierdo y 1 es derecho), dentro de cada canal el byte menos significativo va primero. Segmento de datos (Data Chunk) El segmento de datos puede ser de dos tipos: tipo data o tipo data-list.

El primero es una secuencia de datos sin ms elementos. El segundo en una secuencia de dos tipo de segmentos: de datos o de silencio. Un segmento tipo data se identifica por "data", mientras que un segmento tipo data-list se identifica por "wavl". Los segmentos de silencio ("slnt") slo contienen un campo que es una doble palabra con el nmero de muestras a mantener el silencio. NOTA: El valor de las muestras de silencio no deben ser asignadas a cero, sino al valor de la ltima muestra reproducida. De lo contrario, puede orse un 'click' debido al salto que recibe el conversor D/A de salida. Es responsabilidad de la aplicacin evitar este 'click' al igual que el que se puede producir al final del silencio. Segmento FACT El segmento FACT tiene como objetivo almacenar informacin importante sobre los datos del fichero. Es un segmento obligatorio en caso de que el campo de datos sea de tipo data-list y con cualquier tipo de compresin. La definicin bsica de este segmento contiene un nico campo (dwFileSize) pero en futuras definiciones del formato WAVE ampliar su contenido por lo que se debe usar el campo longitud de la cabecera del segmento para determinar los campos que estn presentes. Segmento Cue-Points Este segmento ("cue") tiene como objetivo marcar determinadas posiciones dentro de la forma de onda que contiene el fichero. El segmento consta de un campo dwCuePoints indicando el nmero de puntos a posicionar y una secuencia de estructuras como la siguiente:

Segmento Playlist Especifica un orden de reproduccin a partir de diferentes posiciones en el fichero. Se identifica por "plst" y contiene un campo dwSegments, que indica el nmero de segmentos que se reproducen y a continuacin una lista de estructuras que describen el segmento a reproducir:

Segmento de datos asociados Este segmento se identifica por "adtl" y permite asociar informacin a secciones de la forma de onda del fichero. Se define como una lista de otros segmentos que son: Etiqueta ("labl") Nota ("note") Texto con informacin de longitud de datos ("ltxt") Informacin de fichero embebido ("file")

Segmentos "labl" y "note" Su formato es similar, "labl" contiene una etiqueta o ttulo asociado a una determinada posicin de la forma de onda y "note" aporta un comentario sobre esa posicin. Los dos segmentos constan de dos campos: un campo dwName que identifica el punto de la forma de onda considerado y un campo data que es una cadena terminada con un carcter nula que especifica el contenido de la etiqueta o la nota. Segmento "ltxt" Este segmento contiene informacin asociada a una porcin de datos de una longitud determinada. Los campos de los que se compone son los siguientes:

Segmento "file" Este segmento contiene informacin descrita en otros formatos de fichero. Su formato es el siguiente:

Ogg Vorbis
Vorbis es un cdec de audio libre de compresin con prdida. Forma parte del proyecto Ogg y entonces es llamado Ogg Vorbis y tambin (incorrectamente) slo ogg por ser ms corto de escribir (y decir) y por ser el cdec ms comnmente encontrado en el contenedor Ogg. Introduccin Vorbis es un cdec de audio perceptivo de fines generales previsto para permitir flexibilidad mxima del codificador y as permitindole escalar competitivamente sobre una gama excepcionalmente amplia de bitrates. En la escala de nivel de calidad/bitrate (CD audio o DATrate estreo, 16/24 bits) se encuentra en la misma liga que MPEG-2 y Musepack (MPC) y comparable con AAC en la mayora de bitrates. Similarmente, el codificador 1.0 puede codificar niveles de calidad desde CD audio y DAT-rate estreo hasta 48kbps sin bajar la frecuencia de muestreo. Vorbis tambin est pensado para frecuencias de muestreo bajas desde telefona de 8kHz y hasta alta definicin de 192kHz, y una gama de representaciones de canales (monoaural, polifnico, estreo, quadrafnico, 5.1, ambisnico o hasta 255 canales discretos). Ogg Vorbis es totalmente abierto, libre de patentes y de regalas; la biblioteca de referencia (libvorbis) se distribuye bajo una licencia tipo BSD por lo que cualquiera puede implementarlo ya sea tanto para propsitos comerciales como no comerciales. Historia Vorbis es el primer cdec desarrollado como parte de los proyectos multimedia de la Fundacin Xiph.org. Comenz inmediatamente despus que Fraunhofer IIS (creadores del MP3) enviaran una "carta de infraccin" a varios proyectos pequeos que desarrollan MPEG Audio Layer 3, mencionando que debido a las patentes que poseen sobre el MP3 tienen el derecho de cobrar regalas por cualquier reproductor comercial, todos los codificadores (ya sea vendidos o gratuitos) y tambin trabajos de arte vendidos en formato MP3. Por este motivo fue creado el Ogg Vorbis y la Fundacin Xiph.org: para proteger la multimedia en Internet del control de intereses privados. El formato del bitstream para Vorbis I fue congelado el 8 de Mayo de 2000; todos los archivos creados desde esa fecha seguirn siendo compatibles con futuros lanzamientos de Vorbis. La versin 1.0 fue anunciada en Julio 2002, con una Carta de anuncio de Ogg-Vorbis 1.0 agradeciendo el apoyo recibido y explicando el porqu es necesario el desarrollo de cdecs libres. Vorbis recibe este nombre de un personaje del libro Dioses menores de Terry Pratchett.

Ogg es el nombre que recibe un proyecto que tena como objetivo disear un nuevo sistema multimedia de cdigo abierto. La segunda parte del nombre viene de la denominacin que se dio al esquema de compresin de audio usado para crear archivos con este formato. De ah que el nombre de este nuevo formato sea Ogg Vorbis. Como es lgico, la extensin que toman los ficheros bajo este formato es .ogg. Ogg Vorbis es un nuevo formato de compresin de audio con calidad digital tanto para grabar como para reproducir msica. Es comparable a los formatos mencionados anteriormente, aunque cuenta con una caracterstica que le diferencia de los dems y que adems es bastante importante, y es que es completamente gratuito y no est sujeto a ninguna patente. A partir de este momento comenzaron a aparecer diferentes componentes de software, de los que luego hablaremos, entre los que no solo encontramos reproductores del formato, sino que adems podremos tener acceso al cdigo del formato mediante herramientas de desarrollo que los programadores podrn usar para comenzar a trabajar universalmente con Ogg vorbis. Ogg Vorbis est basado en la licencia pblica general de GNU. GNU es el nombre que recibe un proyecto que data del ao 1984 cuyo objetivo era el desarrollo de un sistema operativo basado en Unix y con la calificacin de software libre. Estos sistemas son hoy en da muy usados bajo el nombre de Linux. El trmino de Software Libre est asociado ntimamente con el proyecto GNU, y por tanto a Ogg Vorbis, y se basa en la libertad que segn los miembros de este proyecto debera existir sobre el software. Para quienes configuran el GNU el hecho de no poseer software libre, supone una privacin de la tecnologa a cierto sector de la sociedad, algo que no debera estar permitido y que seguir siendo as mientras exista el copyright. Ogg Vorbis se rige en su totalidad por las normas del proyecto GNU, por lo que se considera un sistema libre que podr circular, copiarse, mejorarse de manera libre. El cdigo de desarrollo de este formato, est a disposicin de los programadores para ir puliendo los pequeos defectos que pueda tener, al tiempo que se mejora su implementacin. El objetivo se sita en que algn da, todo el software que requiera de contenido de audio, sea desarrollado y distribuido con cdigo de Ogg Vorbis. Por tanto, no est sujeto a patentes como lo est MP3, y su uso no implica la obligacin de abonar una cantidad al grupo de desarrollo de Ogg Vorbis. Tenemos un formato de calidad futurible, que no nos dar una sorpresa dentro de un mes, hacindose de pago. Esto implica un posible soporte para otras empresas, que pueden aadir msica de calidad a sus creaciones sin tener que pensar en el presupuesto necesario para poder usar la tecnologa actual. La intencin de Ogg Vorbis es conseguir una mayor aceptacin que el resto de formatos destinados al mismo fin. Pero para lograrlo, el mejor argumento siempre es poseer la mejor calidad, por ello, y aunque las comparaciones son odiosas, el mp3 es el punto de referencia sobre el que fijarnos a la hora de evaluar este formato. En una hipottica situacin de compresin de una misma cancin, tanto en formato mp3 a 128 kbps como en formato ogg, el espacio que ambos ficheros ocuparan en disco es el mismo aproximadamente, aunque en el segundo caso, la calidad auditiva sera superior. La explicacin se debe fundamentalmente a los valores de muestreo en los que es capaz de trabajar este formato, llegando desde los 16 kbps hasta los 128 kbps por canal, aunque en las especificaciones del formato no se detalla especficamente que no se pueda codificar un archivo a 8 kbps o 512 kbps. Ogg Vorbis tiene una muy bien definida cabecera para comentarios en los archivos, que es extensible y fcil de usar, sin tener que usar etiquetas de ID3. Posee adems una escala de muestreo, es decir, una funcin que permite cambiar la cantidad de muestra de un archivo o transmisin sin tener que recodificar el archivo entero, con el tiempo que ello conlleva, simplemente se acortan los paquetes al tamao deseado. Los archivos Vorbis pueden ser troceados y luego editados con

extraordinaria fineza de muestreo, y puede implementar canales mltiples, no solamente uno o dos. Adems, los archivos en Vorbis se pueden encadenar lgicamente. Vorbis utiliza la Transformada de coseno discreta modificada (MDCT) a diferencia de MP3, que usa la Transformada rpida de Fourier (FFT).

Para que realmente sea til, el formato debe ser soportado por una serie de aplicaciones que provean la funcionalidad mnima exigida al formato, en el mayor nmero de mbitos posibles. Ogg Vorbis est fuertemente impuesto en aplicaciones como: Icecast (audio streaming10) XMMS (reproductor de audio) Sonique (reproductor de audio) Winamp (reproductor de audio) Serious Sam (como msica de un videojuego) Super Audio Converter (conversor de formatos)

Flujos de datos OGG


Los codecs OGG usan vectores de octetos de datos comprimidos (paquetes). Estos paquetes no tienen informacin estructural o delimitadora. Estos paquetes pueden ser usados directamente por mecanismos de transporte que proporcionan su proporcionan su propios mecanismos de framing y separacin de paquetes. Para el almacenamiento y transporte basados en flujos, Vorbis usa el formato de flujo OGG para proporcionar framing/sincronizacin,

resincronizacin tras errores, marcas durante la bsqueda, y suficiente informacin para separar los datos en los paquetes. Los paquetes raw se agrupan y codifican en pginas contiguas de flujos de bits estructurados llamados flujos lgicos. Un flujo lgico contiene pginas pertenecientes a un nico cdec. Cada pgina es una entidad autocontenida, esto es, el mecanismo que decodifica la pgina est diseado para reconocer, verificar y gestionar individualmente pginas del flujo. Se pueden combinar (con restricciones) varios flujos lgicos en un flujo fsico. Un flujo fsico consiste en mltiples flujos lgicos multiplexados al nivel de pgina y puede incluir una meta cabecera al principio del flujo lgico multiplexado que sirve como identificador. Se toman ordenadamente pginas completas de los flujos lgicos y se combinan en un nico flujo fsico de pginas. El decodificador reconstruye los flujos lgicos originales a partir del fsico tomando las pginas en orden y redireccionndolas en la entidad lgica apropiada. El flujo fsico ms simple est compuesto de un nico flujo lgico sin multiplexar, sin cabecera, al que se le llama flujo degenerado. El flujo de transporte OGG est diseado para proporcionar framing, proteccin ante errores y estructuras de bsqueda para flujos de cdecs de nivel superior que consisten en paquetes de datos sin encapsular como el cdec de audio Vorbis o el de vdeo Theora.

MP3 Surround
MP3 Surround es un tipo de archivo MP3 que soporta canales 5.1 de audio. Fue desarrollado por Fraunhofer IIS en colaboracin con Agere Systems. El codificador actual tiene licencia de uso personal y no comercial. Un archivo MP3 surround puede ser creado a partir de canales 5 o 6 de audio WAV. MP3 ha sido sinnimo de almacenamiento y transmisin estreo en los ltimos 15 aos. Sin embargo, cada vez es ms comn que los hogares dispongan de un entorno de sonido multicanal. Una consecuencia de esta tendencia ser un aumento en la demanda de material audio multicanal frente al estreo. Por ello se vio la necesidad de ofrecer un formato multicanal a la comunidad de usuarios de MP3 para la representacin eficiente de sonido surround. Naturalmente, es importante mantener cierto grado de compatibilidad con los sistemas MP3 existentes y facilitar una suave migracin hacia tecnologas de transmisin y reproduccin multicanal. La siguiente figura ilustra la estructura general de un codificador MP3 surround para el caso de una seal multicanal 3/2 (L, R, C, Ls, Rs). Como primer paso, un canal doble compatible con estreo (Lc, Rc) es generado a partir de la informacin multicanal. Esta seal estreo se codifica con un codificador MP3 convencional, al tiempo que se extrae un conjunto de parmetros espaciales (ICLD, ICRD, ICC) de la seal multicanal. Estos parmetros se codifican e incluyen como datos de mejora surround en el flujo MP3 para aquellos decodificadores con capacidad para tratarla.

La siguiente figura muestra la parte de decodificacin. El flujo MP3 surround se decodifica en una seal compatible estreo que se puede reproducir directamente en unos altavoces estreo. Debido a que este paso se basa en Audio MPEG-1, cualquier decodificador MP3 puede realizarlo. Los decodificadores MP3 surround podran detectar las mejoras surround embebidas y, en su caso, transformar la seal de dos canales en multicanal usando un decodificador BCC (Binaural Cue Coding).

El proceso MP3 surround implica informacin tanto de una versin multicanal como una versin estreo de la seal. Por lo tanto, es necesario proporcionar ambas versiones simultneamente. El enfoque ms comn es obtener una seal estreo de una seal multicanal (downmixing) . Esto implica una combinacin lineal de ciertas seales de los canales para obtener las seales estreo. En esta conversin se tiene que tener en cuenta una serie de factores psicoacsticos y prcticas de produccin. Por un lado, se desea presentar todas las partes del sonido multicanal al oyente estreo. Por otro lado, se sabe que la capacidad del oyente para separar las componentes de sonido disminuye entre fuentes de sonido delanteras y traseras. En consecuencia, las fuentes de sonido traseras son generalmente atenuadas con un mixdown estreo para garantizar la audibilidad de las fuentes delanteras importantes. En la prctica, hay diferentes formas de producir material estreo a partir de audio multicanal: Mix manual: En muchos casos, el ingeniero de sonido produce un downmix manual de las fuentes de sonido multicanal usando parmetros optimizado manualmente con el fin de preservar al mximo la libertad artstica Downmixing automtico simple: El enfoque ms bsico es usar una ecuacin fija (como pueden ser las recomendadas por la ITU-R para reproduccin estreo de seales multicanal). Aunque es un mtodo subptimo respecto al procedimiento manual, puede ser en la prctica suficiente para la mayora de aplicaciones. Downmixing automtico avanzado/dinmico: Con el paso del tiempo, mtodos ms avanzados se han ido desarrollando teniendo en cuenta factores tales como posicionamiento absoluto de las fuentes, la forma en que las fuentes de sonido se mezclan en seales multicanal y relaciones de fase entrecanales. Estos algoritmos adaptan su comportamiento al material procesado y pueden conseguir calidad similar al procedimiento manual.

El enfoque bsico del MP3 Surround no impone restriccin alguna sobre qu mtodo debe usarse. De hecho, esta parte puede considerarse como un componente del sistema externo al esquema general de codificacin, lo que se muestra en la figura siguiente.

Considerando la tendencia general en el marco domstico y profesional del sonido surround, comentaremos diversas aplicaciones para la tecnologa MP3 surround, haciendo hincapi en las mejoras de los servicios existentes debidos a la compatibilidad multicanal. La caracterstica clave de MP3 surround en este contexto es su capacidad para distribuir audio multicanal a bitrates comparables a los estreo. Descarga de msica: Actualmente existe una gran cantidad de servicios comerciales de descarga de msica. Estos servicios podran proporcionar servicios multicanal al mismo tiempo que mantener el servicio estreo. En ordenadores con configuracin 5.1 los archivos MP3 surround se decodifican en sonido surround, mientras que en reproductores MP3 porttiles se reproducen en estreo. Servicio de streaming de msica/ radio por Internet: Muchos servicios de radio por Internet funcionan actualmente con restricciones de ancho de banda y, por ello, solo pueden ofrecer contenidos mono o estreo. El sonido MP3 surround podra extender el servicio mono o estreo a un servicio multicanal con un rango variable de bitrates. Puesto que la eficiencia es un factor importante en esta aplicacin, el aspecto de compresin MP3 surround entra en juego. Como muestra, la representacin de los 5 canales a partir de los dos canales ahorra un 60% comparado con la codificacin multicanal completa. Audio para juegos: Muchos ordenadores se han convertido en mquina de juegos y estn equipados con sistemas de altavoces 5.1. La sintetizacin del sonido 5.1 a partir de una base de sonido compatible estreo permite un almacenamiento eficiente de la msica de fondo multicanal.

Potrebbero piacerti anche