Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Telecomunicaciones III
Ing. Luis Degregori C.
Video
Sonido Color
Imgenes Fijas Graficos
Texto y Numeros Tiempo (Aos)
Introduccin
La compresin es una representacin mas compacta de la seal digital, eliminando la redundancia existente en una seal. El objetivo es minimizar el caudal de bits a transmitir o almacenar, manteniendo una seal de calidad. Las seales de audio y vdeo se comprimen, debido a que contienen gran cantidad de informacin redundante que en gran parte puede eliminarse antes de su transmisin o almacenamiento.
Necesidad de la compresin
Por esto es importante la compresin de las seales audiovisuales que permitan reducir considerablemente el volumen de informacin necesario para representarlas.
Redundancia de la seal
Redundancia espacial:
Dentro de una imagen o de un cuadro de vdeo, existe una correlacin significativa entre muestras vecinas.
Redundancia temporal
En secuencias de vdeo, hay tambin una correlacin significativa entre muestras vecinas temporalmente.
Hay una considerable informacin en la seal que es irrelevante desde un punto de vista perceptivo.
CONCEPTOS GENERALES
La informacin transmitida se puede clasificar de tres formas diferentes de comportamiento. Relevante: Necesaria para la reconstruccin precisa. Irrelevante: Susceptible de descarte. Redundante: Datos cclicos clasificables con precisin dentro de un conjunto de patrones redundantes.
CONCEPTOS GENERALES
Entropa: informacin nueva o esencial, diferencia entre la cantidad total de datos de un mensaje y su redundancia.
Sin prdidas reales: Transmite toda la entropa del mensaje (la informacin bsica e irrelevante) pero eliminando la redundante. Subjetivamente sin prdidas: Elimina la informacin redundante y la irrelevante. Subjetivamente con prdidas: Elimina cierta cantidad de informacin bsica. Reconstruccin con errores perceptibles pero tolerables (videoconferencia).
CONCEPTOS GENERALES
As la compresin de datos se puede clasificar a su vez en dos modelos diferentes.
Reversible: Sin prdida de datos, permite la reconstruccion de datos originales . Se emplea en cadenas de texto. Irreversible: Descarta parte de la informacin que resulta inapreciable a los sentidos de la vista y odo humano. Irrecuperable el objeto original. Audio y video.
Aspectos bsicos
Codificador Decodificador
Simtricos
El codificador es mucho mas complejo y lento que el descodificador (p.e. vdeo sobre demanda) Coste computacional similar (p.e. videoconferencia) Adecuada para medios continuos (audio y vdeo) Mayores tasas de compresin
Adecuada para ficheros de datos, imgenes, etc. Tasas de compresin muy moderadas.
Clasificacin de la tcnicas
Codificacin de muestras:
Se utiliza nicamente informacin de los pxeles o muestras individuales para comprimir la seal digital.
Codificacin perceptiva:
Tienen como base el conocimiento de la percepcin psico-visual del ojo humano y de la percepcin psico-acstica del odo humano.
Clasificacin de la tcnicas
Codificacin predictiva:
Codificacin sub-banda:
explotan la correlacin temporal y espacial de las seales de audio, imgenes y vdeo para codificar eficientemente la informacin. Se divide la seal en subbandas de frecuencia y efectuar una compresin en cada una de las bandas de acuerdo a su importancia.
Se utiliza en PCs y se basa en codificar un conjunto de muestras (vector) en base a una lista de vectores pre-establecidos. La asignacin se realiza de forma que se minimice el error introducido.
Cuantificacin vectorial:
Por ejemplo, si en un archivo aparece la secuencia DDDDD", ocupando 5 bytes se podra almacenar simplemente 5D" que ocupa solo 2 bytes, en algoritmo RLE.
REDUNDANCIA
La compresin de datos es una aplicacion donde mejor se aprecian los conceptos desarrollados por la Teora de la Informacin, en especial el de redundancia.
La informacin redundante presente en un mensaje, significa que hay un nmero de smbolos o caracteres mayor del mnimo necesario y si se logra eliminar la redundancia, entonces se habr reducido el tamao del archivo.
AUTOINFORMACION
Mensajes de la misma longitud no llevan siempre la misma cantidad de informacin, ya que sta depende de la probabilidad de que un determinado smbolo aparezca en el mensaje.
Si una fuente de informacin discreta emite una secuencia de smbolos pertenecientes a un alfabeto de N posibles smbolos s1, s2,......sN.
FUENTE S =(S1,S2,S3,S4,..Sn)
AUTOINFORMACION
La probabilidad pi que se emita el smbolo si permite cuantificar la informacin I que lleva ese smbolo (Tambin llamada Autoinformacin):
I = - log2 pi bits
Es la informacion del Simbolo
ENTROPIA DE LA INFORMACION
La Entropa H de una fuente es la informacin promedio que lleva cada smbolo emitido por esa fuente, y no cada smbolo individual. Concebido por Claude Shannon (1948) .- Dedujo que: A mayor Entropa , mayor Informacin.
ENTROPIA DE LA INFORMACION
Si la probabilidad de ocurrencia de un smbolo particular no depende de que otro haya ocurrido antes (es decir que la secuencia es estadsticamente independiente), la entropa, viene dada por:
Ntese que la informacin log2 pi de cada smbolo es ponderada por la probabilidad pi de ocurrencia de dicho smbolo.
ENTROPIA DE LA INFORMACION
Expresado en palabras, esto quiere decir que: En promedio, podemos esperar de obtener H bits de informacin por smbolo. Pero no podemos saber por anticipado cul ser el prximo smbolo y en consecuencia su informacin.
ENTROPIA DE LA INFORMACION
El valor mximo de H se alcanza cuando todos los smbolos tienen la misma probabilidad de ocurrencia y viene dado por:
H max = log2N
N: Numero de simbolos
ENTROPIA DE LA INFORMACION
Cuando la entropa es mxima cada smbolo lleva la mxima cantidad de informacin posible. Esto significa un smbolo binario (0,1) puede llevar al mximo log22 = 1 bit de informacin. Un smbolo ternario (0,1,2) puede llevar al mximo log23 = 1.6 bits de informacin
ENTROPIA DE LA INFORMACION
Por ejemplo, si en un mensaje todos los 256 caracteres ASCII fuesen igualmente probables de aparecer (p = 1/256) la entropa H de ese mensaje sera:
MODELADO Y CODIFICACION
La compresin de datos bsicamente consiste en procesar un conjunto de smbolos de entrada y transformarlos en un conjunto de cdigos. Si la compresin es efectiva, el conjunto de salida tendr un tamao menor que el de entrada.
La transformacin de un smbolo en cdigo se hace mediante una regla o algoritmo basado en un modelo de los datos de entrada.
MODELADO Y CODIFICACION
El modelado permite caracterizar apropiadamente los datos a comprimir, definir con precisin las probabilidades para los smbolos y generar los cdigos apropiados basado en esas probabilidades. En la figura se representa el esquemticamente el proceso de modelado y codificacin.
Smbolos
Flujo de entrada Modelo
Probabilidades
Codificador
Cdigos
Flujo de salida
MODELOS ESTADISTICOS
Estos modelos pueden ser divididos en 3 categora principales, dependiendo de la forma en que se vayan a determinar las probabilidades relativas: (1) fijos (2) adaptables (2 pasadas) (3) adaptables dinmicamente (1 sola pasada)
Cada valor en la tabla representa con buena aproximacin la probabilidad de que aparezca la letra correspondiente cuando se est leyendo un texto en espaol tpico.
3
4 5
0.2
0.1 0.1
10
110 111
Cdigo de Hufman
La codificacin Shannon-Fano fue desplazada por un mtodo an mejor: la codificacin Huffman 1952
En la codificacin Huffman los smbolos a codificar se colocan primero en una tabla en orden decreciente de frecuencia relativa de ocurrencia. Los dos smbolos menos probables (s4 y s5) se funden provisionalmente en un solo smbolo cuya probabilidad es la suma de las dos (0.2).
Cdigo de Hufman
De esta forma hay que codificar un alfabeto que contiene un smbolo menos que el original.
Cdigo de Hufman
Repitiendo el proceso de reduccin, se llega al punto en que queda un alfabeto con slo dos smbolos, a los cuales se les empieza por codificar con 0 y 1 respectivamente.
Cdigo de Hufman
Efectuando ahora el proceso en sentido inverso, se va aadiendo un 0 y un 1 cada vez que un smbolo codificado se expande en dos, hasta completar la codificacin.
Cdigo de Hufman
Huffman demostr que su codificacin es ptima, en el sentido que la longitud promedio L es mnima para un modelo dado con cierta distribucin de probabilidades.
L = 2.2 dgitos/smbolo.
Cdigo de Hufman
La codificacin Huffman utilizando una estructura de datos basada en rbol binario. Se muestra 2 posibles rboles de Huffman para los 5 smbolos del ejemplo visto anteriormente.
En la figura se muestran 2 posibles rboles de Huffman para los 5 smbolos del ejemplo visto anteriormente.
10
110
1110
1111
00
01
10
110
111
Comparacion de Cdigos
En la tabla comparativa entre el cdigo Shannon-Fano , Huffman y Morse. Se utilizan como ejemplo las letras del alfabeto, con la frecuencia relativa tpica que aparece en un texto en ingls (incluyendo el espacio).
Cdificacion Aritmetica
Es una codificacin muy eficiente, se definen unos intervalos de numeros entre 0 y 1 para los simbolos. A mayor cantidad de simbolos, su correspondiente intervalo sera cada vez menor. Para mensajes largos su eficiencia es cercana al 100%.
Cdificacion Aritmetica
Los intervalos en esta tecnica se definen como: Sn(inf) = Sn-1 (inf)+(Sn-1(sup) Sn-1(inf))*Sn (inf) Sn(sup) = Sn-1 (inf)+(Sn-1(sup) Sn-1(inf))*Sn (sup)
A medida que la compresin avanza, el algoritmo aade nuevas cadenas para ser utilizadas posteriormente como cdigos. La compresin basada en LZ77 es del tipo adaptable y se caracteriza adems por las siguientes propiedades:
(N smbolos)
(B smbolos)
Ventana (N smbolos)
Buffer (B smbolos)
Los datos visibles en la ventana son los ms recientes N smbolos, que ya fueron codificados.
Los prximos smbolos a codificar se encuentran fuera de la ventana, en un look-ahead buffer, de tamao B, que contiene los smbolos que han sido ledos del flujo de entrada pero que todava no han sido codificados.
As que la cadena B se aade en el diccionario en la posicin 1 y se emite a la salida el cdigo formado por prefijo + extensin, en esto caso 0B.
Por ejemplo, si en la posicin 9 se guarda 3A, se puede saber que corresponde a BCA ya que el prefijo 3 nos enva a la posicin 3 donde est la extensin C y el prefijo 1, el cual nos enva a la posicin 1 donde est la extensin A.