Sei sulla pagina 1di 31

Alumno: JHOEL CALVO SALVATIERRA

JUAN CCORCA QUISPE


Especialidad: MECATRONICA
Docente:

Ing. AYALA HERRERA ANGEL

Curso: TELECOMUNICACIONES
Turno: NOCHE
Periodo lectivo:

2015-III

1411483
1320447

INTRODUCCION
El ser humano tiene la innata necesidad de estar comunicado siendo esencial el estar informado
para mejorar el entendimiento de su entorno, una de las formas mas importantes para interactuar
con el medio ambiente que le rodea es a travs de sus sentidos Audio-Visuales.
Con el surgimiento de la electrnica y las comunicaciones se ha hecho posible manipular,
procesar, almacenar y transmitir informacin de imgenes y sonido gracias a su representacin a
travs de seales elctricas de variacin continua; sin embargo el nacimiento de las computadoras
y dispositivos digitales trajo consigo una manera distinta de representar la informacin, en ellas las
seales elctricas toman solo dos niveles posibles. As mismo la representacin digital de
informacin tiene ventajas con respecto a la analgica como son: mayor calidad, menor ruido,
permite una mayor manipulacin de las seales, a su vez los datos de tipo digital pueden ser
replicados exactamente y distribuidos fcilmente lo cual les da mucha mayor flexibilidad con
respecto a los datos en formato analgico. Este tipo de ventajas han mejorado una gran cantidad
de productos ya existentes, a su vez han contribuido a crear muchos otros, tanto para uso
domstico como en aplicaciones especializadas.
Uno de los avances que ha hecho posible la llamada revolucin digital ha sucedido en la
tecnologa de semiconductores generando dispositivos de Silicio que son mas pequeos,
poderosos, flexibles y baratos. En ellos las funciones como microprocesamiento, lgica,
procesamiento de seales y memoria estn integrados sobre un mismo componente, lo cual
proporciona varias ventajas, como el menor consumo de potencia, reduccin en los costos de
fabricacin, adems de poder ser usados para mltiples aplicaciones y productos dependiendo del
Software almacenado sobre ellos.
Estas aplicaciones han aumentado las necesidades de procesamiento para los datos de tipo
digital, como voz, audio, video, etc. Para lograr un procesamiento eficaz de estos datos, se
equiere de un dispositivo extremadamente veloz; uno de los dispositivos que apareci para el
mejoramiento del procesamiento digital de seales (PDS) fue el procesador digital de seales
(DSP) cuya funcin principal es el efectuar operaciones de manera rpida mediante el diseo de su
arquitectura.
A su vez no solo es importante el contar con dispositivos que sean capaces de procesar
informacin de manera rpida, si no tambin es importante contar con tcnicas que mejoren el
tratamiento de la informacin que generan las seales digitales. Dentro de estos procesos est la
compresin de datos, que optimiza la representacin que ocurre en los sistemas digitales.
La compresin de datos y en especial la de imgenes resulta cada vez mas importante, debido al
rpido desarrollo de las computadoras, al crecimiento de los sistemas multimedia y al gran avance
de INTERNET, la compresin de imgenes juega un papel fundamental en muchas y diversas
aplicaciones que dependen del procesamiento, almacenamiento y transmisin de imgenes
digitales.

IMAGEN Y VDEO
Imgenes
De acuerdo a algunas definiciones provenientes del diccionario el trmino imagen significa: copia,
figura, dibujo, fotografa, grabado, ilustracin, representacin mental de un objeto, siendo correctas
todas ellas [16]. Para obtener una imagen no es necesario percibir directamente el fenmeno a
representar, por ejemplo el desarrollo tecnolgico de las ltimas dcadas ha permitido la
generacin de imgenes empleando radiacin invisible a la visin humana, imgenes acsticas,
magnticas, de radar [9].
Sin embargo las imgenes ms importantes para el ser humano son las imgenes pticas las
cuales pueden percibirse directamente por el ojo humano, stas se pueden clasificar de muchas
maneras pudindose ser imgenes fijas, en movimiento, continuas o discretas por mencionar solo
algunas de sus caractersticas. Una definicin mas rigurosa de imgenes continuas y discretas es
la siguiente [ 6]:
Una imagen continua es aquella donde la variacin de tonos de gris o color se presenta sin
discontinuidades, sin lneas o fronteras aparte de las que pudiera tener la escena misma, una
imagen discreta por su parte es la que est compuesta por elementos definidos y diferenciados
como puntos o cuadrados.
Imagen digital
Para nuestro trabajo nos interesan solamente las imgenes discretas, como un subconjunto de
ellas se pueden encontrar las imgenes digitales; el hecho de que una imagen sea digital implica
que los elementos que la forman solo podrn tener valores formados por las combinaciones de 0 y
1. Al digitalizar una imagen, se produce una prdida de informacin con respecto a la imagen
continua.
El hecho de que la informacin contenida en una imagen digital, sean combinaciones de unos y
ceros permite que se pueda hacer referencia a cualquier cosa, de ah que la informacin numrica
de una imagen almacenada en un archivo pueda ser tericamente idntica a la de un sonido o un
texto [9].

Tipos bsicos de imgenes digitales


Puesto que la informacin digital es discontinua toda imagen de este tipo ha de estar dividida en
unidades claramente identificables que contengan cada una un conjunto de informacin
determinada, ha este respecto existen dos tipos de imgenes digitales.
Las creadas mediante porciones grficas de la imagen.
Las creadas mediante elementos definidos matemticamente.
A las primeras se les denomina imgenes de mapas de bits a las segundas imgenes vectoriales.

Imgenes de mapas de bits

Las imgenes de mapas de bits (bitmaps o imgenes raster) estn formadas por una rejilla de
celdas a cada una de las cuales se les denomina pxel (elemento de imagen por sus siglas en
ingles), a dichos elementos se les asigna un valor propio (dependiendo del modo de color utilizado)
de tal forma que su agrupacin crea la ilusin de una imagen en tono continuo.
Los pxeles son unidades de informacin mas no de medida, significando que contienen
informacin independientemente de su tamao, por ejemplo un pxel puede ser muy pequeo
(0.1mm) o muy grande (1 m). Una imagen de mapa de bits es creada mediante una rejilla de
pxeles nica cuando se modifica su tamao, se modifican grupos de pxeles, no los objetos o
figuras que contiene, por lo que estos suelen deformarse o perder algunos de los pxeles que los
definen; por lo tanto una imagen de bits est diseada para un tamao determinado perdiendo
calidad si se modifican sus dimensiones.

Resolucin

La resolucin se define como el nmero de pxeles que tiene una imagen por unidad de longitud,
es decir la densidad de pxeles en la imagen, una forma comn de clasificar imgenes segn su
resolucin es aquella que las divide en imgenes de alta resolucin e imgenes de baja resolucin.
A mayor resolucin existen ms pxeles en una imagen y por lo tanto su mapa de bits es mas
grande, contiene mayor informacin y es mayor su capacidad de distinguir los detalles espaciales
finos por lo que tendr mas definicin, permitiendo transiciones de color mas suaves y una mayor
calidad de reproduccin.

Profundidad de bits

Como parte de la informacin que contiene un pxel para representar la imagen original se le
asigna una cantidad determinada de bits, ha esta cantidad se le denomina profundidad de bits. Se
trata de un concepto importante porque a mayor profundidad de bits mas informacin contiene la
imagen y por consiguiente se puede tener un mayor nmero de colores.
Si la profundidad es de un solo bit solo existe la posibilidad de tener dos niveles o tonos.
Si la profundidad es de dos bits es posible tener cuatro niveles o tonos.
Los niveles que podr contener una imagen se encuentran mediante la siguiente relacin 2L,
siendo L el nmero de profundidad de bits; para imgenes en tono real se tiene una profundidad de
24 bits generalmente lo cual genera 16,777,216 colores posibles para su representacin [7].

ESTNDARES DE COMPRESIN DE VIDEO


Estndar MPEG-1
El xito del estndar H.261 fue un logro para razones de codificacin de video de pocos bits y con
calidad razonable, a principios de los 90 el grupo de expertos para imgenes en movimiento
(MPEG) comenz a investigar con las tcnicas de compresin de video para almacenamiento. El
objetivo fue desarrollar un codec de video capaz de codificar eficazmente grandes periodos de
tiempo, tales como pelculas sobre discos duros o CDROM, con un desempeo comparable a los
reproductores de video casettes (VHS).
El resultado de est investigacin fue la primera generacin del grupo MPEG la cual es conocida
como MPEG-1 y oficialmente como ISO 11172, es un estndar creado para proveer codificacin de
video para almacenamiento digital, tal como en un CD o dispositivos pticos, se dise para utilizar
la razn de 1.2 Mbits/s (razn que utiliza el CD), sin embargo en muchas aplicaciones su taza de
video est en el intervalo de 1 a 1.5 Mbit/s, para conseguir estas razones de bits se debe utilizar el
formato CIF.
Adems de introducir una gran mejora de las herramientas de codificacin, las cuales incluyen la
sintaxis, la codificacin bi-direccional y el control, utiliza tambin los principios de la codificacin
espacial que fueron tomados de JPEG para imgenes estticas; a su vez MPEG-1 especifica
compresin de audio hasta para dos canales en sonido estereo y fue optimizado para aplicaciones
que utilizan video no-entrelazado a 25 o 30 cuadros/s.
Consecuentemente el formato MPEG-1 puede proveer calidad tan buena como la provista por las
videograbadoras, a su vez el decodificador/reproductor es capaz de proveer las mismas funciones
que una VCR convencional, tales como imagen congelada, movimiento hacia delante, movimiento
hacia atrs, as como un acceso aleatorio.

Todas estas innovaciones hicieron posible que los decodificadores/reproductores de MPEG-1


estuvieran disponibles rpidamente en los sistemas multimedia, despus de eso fueron incluidos
por medio de Hardware, con lo cual muy pronto estuvieron presentes para casi todos los sistemas
operativos, as como las plataformas de PC y MAC; otro resultado interesante que tambin produjo
MPEG-1 fue la creacin del video CD (VCD) que fue bien aceptado en el mercado.
El estndar MPEG-1 lleg a ser muy popular, debido a que su algoritmo es muy eficaz (aunque
tiene la desventaja de que asimtrico es decir su codificador es mas complejo que su
decodificador), gracias a que no solo comprime imgenes estticas sino que adems compara los
cuadros presentes con los futuros y los anteriores con lo que almacena las partes del video que
cambian y de esta manera se realiza la estimacin del movimiento.
El principal incoveniente es que debido a su complejidad no es posible sacarle el mximo provecho
en tiempo real, ya que es imprescindible apoyarse en hardware especifico para compresin y

descompresin y no es recomendable en ningn caso si lo que se desea es edicin de video


debido a esa misma complejidad.

Estndar MPEG-2
Despus del desarrollo del estndar MPEG-1, se increment la necesidad de comprimir video
digital para TV, la cual puede ser transmitida va satlite, as como por va area, Televisin por
cable (CATV) o realizar simplemente su almacenamiento. Las primeras versiones de MPEG-1 para
video entrelazado, las cuales fueron usadas para la transmisin se llamaron MPEG-1+ , los
transmisores de TV que inicialmente rechazaron usar cualquier tipo de compresin pronto
adoptaron la nueva generacin de MPEG, que es llamada MPEG-2 (y oficialmente es conocida
como ISO 13818) para codificacin de video entrelazado que maneja razones de bit desde 4 hasta
9 Mbits/s.
El estndar subsecuente MPEG-2 fue considerablemente ms amplio y ms eficaz, por ejemplo
MPEG-2 soporta video entrelazado y HDTV, mientras que MPEG-1 no. El estndar MPEG-2 se ha
vuelto muy importante debido a que ha sido elegido como el esquema de compresin para
Transmisin Digital Terrestre (DVB) y para el Disco verstil Digital (DVD), le fue aadida la
capacidad de soportar video entrelazado, as mismo fue ampliado el intervalo de imgenes
(soporta casi cualquier tipo de resolucin) as como sus razones de bits, adems los
decodificadores de MPEG-2 pueden manejar datos codificados en MPEG-1.
MPEG-2 tiene la capacidad de ajustar el nmero de imgenes estimadas bidireccionales por el
decodificador, est tcnica puede ser usada para sistemas de telecomunicaciones por ejemplo en
aplicaciones tales como video sobre demanda, el cliente puede elegir recibir video de diferente
nivel de calidad, en aplicaciones de redes durante la congestin las partes menos importantes
pueden ser descartadas.

Debido a las muchas aplicaciones de MPEG-2, el estndar es subdividido en perfiles y niveles; un


perfil describe el grado de complejidad mientras que un nivel describe el tamao de la imagen que
puede soportar, no todos los niveles son soportados por todos los perfiles. Por ejemplo el perfil
ms simple de MPEG-2 no soporta la codificacin bi-direccional y solo maneja imgenes P e I, esto
reduce los retardos en la codificacin y decodificacin y permite utilizar Hardware ms simple, el
perfil principal es diseado para una gran variedad de aplicaciones como las que ya han sido
citadas.
Debido a que la compresin es elevada, cada bit puede afectar a un gran nmero de muestras de
una seal de audio o video, por lo tanto un error en la transmisin o en el almacenamiento de los
bits comprimidos puede generar grandes efectos en una regin de la imagen o extenderse sobre
un gran periodo de tiempo. As como en MPEG-1 su desventaja ms grande se da en la

complejidad de su algoritmo, que es su aspecto ms crtico est cuestin es controlada por la


evolucin de la tecnologa que provee dispositivos especficos para su implementacin.
En noviembre de 1998 inici la DVB con programacin de la Corporacin Britnica de Difusin
(BBC) de Londres en formato digital codificado en MPEG-2 y casi al mismo tiempo fue lanzado el
satlite SKY Digital el cual transmite audio y video codificado en MPEG-2 directo hacia los hogares.

Aproximadamente en el ao 2014 la existencia de los transmisores NTSC analgicos de video


cesar en E. U y solo se transmitir HDTV con compresin MPEG-2 va terrestre.

TRANSFORMADA INTEGRAL COSENO


La Transformada Coseno al igual que muchas otras Transformadas (Laplace, Fourier, Z)
son definidas de acuerdo a una operacin de Integracin la cual muchas veces se
denomina Kernel de transformacin, gracias a esta operacin se logra trasladar una seal
en su espacio original al espacio de transformacin definido por la ecuacin (3.1).
Por ejemplo dada una funcin x(t) para - < t < su Transformada de Fourier X() est
dada por la ecuacin (3.1) [4][5]:

Donde
j = (-1) 1 / 2

= 2 f , es la frecuencia angular en radianes.


f , es la frecuencia en Hertz.
La funcin x(t) puede ser recuperada por la Transformada Inversa de Fourier (IFT) que se define
en la ecuacin como:

Si ahora la funcin x(t) est definida para 0 t < su Transformada Coseno de Fourier (FCT),
Xc() est definida por la ecuacin:

As mismo la Transformada Inversa Coseno de Fourier (IFCT), se define por la siguiente ecuacin:

Las ecuaciones (3.3) y (3.4) definen la Transformada Coseno en su forma continua de la misma
manera que las ecuaciones (3.1) y (3.2) definen a la Transformada de Fourier.

Transformada Coseno discreta unidimensional


Debido a las definiciones del apartado anterior se observa que el kernel de la transformada
Coseno de Fourier est dado por la ecuacin (3.5) [5]:

Si se considera n = 2 m f y tn = n t, se est muestreando la frecuencia, angular y el tiempo


respectivamente, donde m y n son enteros, la ecuacin anterior se puede rescribir en la ecuacin
(3.6) como:

Por definicin se considera que f t = 1/2N, donde N es un nmero entero, por lo tanto se tiene
que la ecuacin (3.6) se transforma ahora en la ecuacin (3.7):

La ecuacin (3.7) representa el kernel discretizado de la Transformada Coseno. De acuerdo a este


kernel se definen cuatro formas para la Transformada Coseno Discreta, las cuales se pueden

observar a partir de las ecuaciones (3.8), (3.9), (3.10) y (3.11), estas ecuaciones algunas veces son
denominadas DCTs tipos (I, II, III y IV).

[Cn]mn es el elemento mn-simo de la matriz DCT.


Las formas DCT-II y DCT-III proveen una excelente de correlacin estadstica y son la mejor
aproximacin para la optimizacin de la KLT tomando en consideracin, un nmero de criterios de
desempeo (eficiencia en el empaquetamiento de energa, razn de distorsin). La importancia de
las DCT-II y DCT-III est acentuada por la existencia de algoritmos rpidos para su
implementacin [12].

Con base en las definiciones DCT-II y DCT-III, la Transformada Discreta Coseno Directa (FDCT)
unidimensional se define para un conjunto de ocho muestras en la ecuacin [1]:

La definicin matemtica de la Transformada Inversa Coseno Discreta (IDCT), para un conjunto de


ocho muestras se define en la ecuacin:

F(u) es el valor de un coeficiente DCT unidimensional.


f(x) es el valor de una muestra unidimensional.

Como ya se ha sealado la DCT es una transformacin que descompone una seal en un grupo
de seales senoidales ortogonales llamadas funciones base, estas funciones base de acuerdo a la
definicin de la ecuacin (3.12) son generadas por el trmino Coseno y a su vez son escaladas por
el factor C(u), estas funciones junto con los valores originales de las muestras son los encargados
de generar los coeficientes DCT.
En la Figura 3.2 se muestran las funciones base para un conjunto de ocho muestras, el eje de las
ordenadas contiene la amplitud de las seales base sin escalar y el eje de las abscisas, al nmero
correspondiente de cada muestra [6].
En la Figura 3.2 se pueden ver un conjunto de ocho formas de onda de diferente amplitud, cada
una formada por ocho elementos; la primera corresponde al coeficiente DCT cero y es
simplemente una constante, mientras que las otras siete muestran un comportamiento alternado
conforme la frecuencia se incrementa; el coeficiente que corresponde a la funcin base constante
es llamado coeficiente de DC, mientras que las otras funciones base corresponden a los
denominados coeficientes de AC [1].

Los valores de la primera funcin son obtenidos de la siguiente manera: por corresponder al primer
coeficiente DCT el valor de u es igual cero, debido a esto el termino Coseno proporciona un valor
de 1, no importando la variacin de x, despus de eso se debe escalar por el factor C(u) al cual le
corresponde el valor de 0.7071, que debe ser dividido entre 2, lo que da como resultado 0.3536,

para todas las muestras de esta funcin base. Este procedimiento es el utilizado en la generacin
de todas las funciones base de la Figura 3.2.
Por ejemplo considrese el vector

a = [84 84 90 92 88 66 77 86 ]

Que representa el conjunto de ocho muestras que se desea transformar por la aplicacin de la
DCT-unidimensional, la obtencin del vector transformado aT, se puede lograr por la aplicacin de
la ecuacin (3.12) o bien si se conocen a priori los valores de las funciones base escaladas por el
factor C(u), en cuyo caso solo es necesario realizar una suma de productos.
Para obtener el coeficiente de DC se realizan las siguientes operaciones

(84x.3536) + (84x.3536) + (90x.3536) + (92x.3536) + (88x.3536) + (66x.3536) + (77x.3536) +


(86x.3536) =235.8512

Este resultado es el valor del coeficiente DC, de igual manera se sigue el mismo procedimiento en
la obtencin del primer coeficiente de AC, solo que ahora se utilizan los valores de la funcin base
1.

(84x.4904) + (84x.4157) + (90x.2778) + (92x.0975) + (88x-.0975) + (66x.2778) + (77x-.4157) +


(86x-.4904) = 8.9863

Utilizando el mismo procedimiento, se encuentran todos los componentes del vector de


coeficientes

aT = [ 235.8512, 8.9863, -3.6627, -14.3948, 11.6673, 0.0157, -4.2231, 5.8765 ]

Al aplicarle la transformada IDCT al vector aT se obtienen nuevamente los valores originales


contenidos en el vector a. En el vector aT es posible apreciar como la mayor parte de la energa del
vector a se concentra en el coeficiente de DC, con respecto a sus otros elementos, que presentan
valores mucho ms bajos.
El nmero total de operaciones que la realizan la DCT e IDCT unidimensionales para un conjunto
de ocho elementos, siguiendo el criterio de este ejemplo es 120 (56 sumas y 64 multiplicaciones).

Transformada Coseno Discreta bidimensional


La DCT para dos dimensiones se puede generar a partir del productos de dos DCT
unidimensionales. Con base en este criterio, la definicin matemtica de la FDCT en dos
dimensiones para un conjunto de 64 elementos, agrupados en una matriz de 8x8, se muestra en la
ecuacin (3.14) [4]:

A su vez la definicin matemtica de la IDCT en dos dimensiones para un conjunto de 64


coeficientes agrupados en una matriz de 8x8, se muestra en la ecuacin (3.15):

f(x,y) Es el valor de una muestra bidimensional, para los ndices x, y de la matriz de elementos.
F(u,v) Es el valor de un coeficiente DCT bidimensional, para los ndices u, v de la matriz de
coeficientes.

Las ecuaciones anteriores tienen como consecuencia la generacin de un conjunto de funciones


base bidimensionales, las cuales junto a las muestras en dos dimensiones generan los coeficientes
DCT bidimensionales. En una imagen las funciones base corresponden a las frecuencias
espaciales.
Debido a que las imgenes son arreglos en dos dimensiones, la DCT en una dimensin se puede
extender para transformar arreglos de dos dimensiones que se generan a partir de la multiplicacin
de dos conjuntos de una dimensin, un conjunto unidimensional representa las frecuencias
espaciales horizontales y el otro las frecuencias espaciales verticales. Por convencin el
coeficiente de DC de las frecuencias espaciales horizontales se encuentra en el extremo izquierdo
del arreglo y el coeficiente de las frecuencias base verticales en la parte superior, en consecuencia
el nico trmino de DC, es el que se encuentra en la esquina superior izquierda.
Para la definicin de la DCT de 64 muestras, se genera un conjunto de 64 funciones base las
cuales se muestran en la Figura 3.3, en esta figura se observa la variacin de todas las funciones
base, as como la funcin que corresponde al coeficiente de DC (esquina superior izquierda) que
presenta un valor constante.
Con estas 64 funciones base se puede generar cualquier arreglo de 8x8 coeficientes. La eleccin
de estas dimensiones no solo radica en que resulta extremadamente complejo procesar un gran
nmero de muestras al mismo tiempo, sino que al manejar un bloque pequeo nos permite
desarrollar un proceso ms ptimo [3].

En la codificacin intercuadro, las diferencias o errores de prediccin entre dos cuadros diferentes
se agrupan en bloques de 88 y se aplica una transformacin espacial mediante la DCT a estos
bloques de valores de diferencia.

TCNICAS DE COMPRESIN DE VIDEO

Compresin

Una de las mayores desventajas del video digital es un su gran ancho de banda, como ejemplo se
cit una seal PAL que produce alrededor de 257.49 Mbits/s est razn es demasiado alta, lo que
imposibilita sus aplicaciones prcticas.
Esta razn tan elevada es la causa de la creacin y aplicacin de las tcnicas de compresin, las
cuales han jugado un papel muy importante en el mundo de las telecomunicaciones y los sistemas
multimedia donde el ancho de banda es el factor principal. Esto se debe al hecho de que l
espectro electromagntico tiene que ser compartido por muchos servicios tales como, telefona
celular, redes inalmbricas, comunicaciones satelitales, etc, lo que obliga al uso eficiente del
mismo; consecuentemente la necesidad de comprimir la informacin en las radiocomunicaciones
digitales se ha vuelto un criterio esencial.
Dentro de estas tcnicas se encuentran las de compresin de video digital, que son las principales
herramientas para reducir la cantidad de informacin necesaria para una secuencia de imgenes
sin perder la calidad juzgada por los seres humanos. Las tcnicas de compresin comnmente
denominadas algoritmos de compresin, tienen como objetivo, transformar un flujo de datos en un
flujo de palabras cdigo, si la transformacin es efectiva las palabras cdigo ocuparn menos bits
que los datos originales.
Con el transcurso de los aos, los algoritmos de compresin se han vuelto ms complejos, como
consecuencia se genera un incremento en el poder de computo, la rapidez de la compresin es
determinada por el tipo de datos, el algoritmo de compresin y la velocidad del procesador. Con la
disponibilidad de microprocesadores de alto desempeo la compresin de datos puede ejecutarse
por medio de software, a veces se necesita mas potencia y para estas aplicaciones se utiliza un
chip de alto desempeo como un DSP o hardware especializado .

Necesidad de la compresin

En sistemas digitales existen varias razones para usar la compresin de datos :


Eficientar el espacio de almacenamiento (La compresin permite aumentar el tiempo de
reproduccin de un dispositivo de almacenamiento)
Conservacin del ancho de banda para la transmisin.
Reduccin del tiempo de transmisin.
Posibilitar la utilizacin de Hardware especializado en algn estndar de compresin para
aplicaciones de consumo, por ejemplo camcorders digitales y cmaras fotogrficas.

La capacidad de almacenamiento y el ancho de banda para servicios de transmisin de datos


digitalizados ha crecido y continuar creciendo, las nuevas aplicaciones y servicios particularmente
para casa y/o oficina que utilizan voz, audio, imgenes y video digitales requieren incrementos
exponenciales sostenidos para el almacenamiento y transmisin, que sin las tcnicas de
compresin no seran posibles.
Sin embargo, an la compresin mas efectiva que se realiza en la actualidad, no puede superar
todas las demandas de almacenamiento y transmisin de datos, texto, grficos, voz, audio,
imgenes y video. La Figura 2.1 muestra el almacenamiento requerido con y sin compresin para
diferentes tipos de datos digitales, lo que nos permite visualizar la importancia de las tcnicas de
compresin digital (para su comparacin se supone una pgina de texto, una imagen y cinco
minutos de grabacin de audio y video en diferentes formatos) .

Ventajas de la compresin

La ventaja ms grande de la compresin se da en la reduccin de datos, esta mejora los costos de


transmisin cuando su capacidad es fija, adems genera un uso eficiente recursos de
almacenamiento. Son muchas y muy variadas las aplicaciones que han tomado ventaja de las
tcnicas de compresin a continuacin se citarn las principales:

Con el advenimiento del Fax se increment la necesidad para realizar una transmisin rpida de
documentos, sobre redes de conmutacin telefnicas publicas (PSTN), lo cual implic reducir el
nmero promedio de bits por pgina; a esto se le llam compresin digital de documentos (que fue
una de las primeras tcnicas digitales de compresin implementadas); con la aparicin de la
videoconferencia la necesidad de la compresin digital se volvi ms importante.
Para almacenamiento de video digital sobre un CD, la compresin es absolutamente necesaria, es
la nica manera de cumplir con los parmetros requeridos por la industria del entretenimiento (por
ejemplo mantener el espacio de almacenamiento del CD con una calidad visual aceptable),
mientras se conserva el tiempo de duracin de las pelculas, la cual puede exceder las dos horas.
Un canal de TV por cable puede tener entre 4 y 10 programas audio visuales comprimidos,
alternativamente un canal simple de transmisin de 6 MHz puede transportar HDTV comprimida
generando significativamente mejoras en la calidad de audio e imagen sin ancho de banda
adicional.
Las tcnicas de compresin posibilitan el servicio de video sobre demanda hacindolo
econmicamente factible. En estaciones de trabajo diseadas para editar audio y video, el material
es almacenado en discos duros para su rpido acceso, la compresin hace posible almacenar una
gran cantidad de archivos de video digital. La Videotelefona celular inalmbrica debe operar a
razones de pocas docenas de kilobits por segundo, lo cual solo se puede alcanzar a travs de una
gran compresin de datos.
Todas estas aplicaciones han mejorado de manera significativa su ancho de banda para
transmisin, as como su capacidad de almacenamiento a cambio de tener que incrementar el
poder de procesamiento.

Codificacin perceptiva de video

En los sistemas digitales los datos se suelen agrupar en dos categoras:


Datos simblicos tales como una letra, una figura, un carcter, una marca o alguna combinacin
de los mismos, estos representan algo que el ser humano puede reconocer a priori.
Existen tambin los datos difusos, donde el significado y propiedades de la estructura no han sido
extrados y aun no se convierten ha algo que el ser humano podra reconocer; la voz, el audio, las
imgenes y el video cuando se representan por medio digital son ejemplos de datos difusos.
Los algoritmos de compresin de datos de tipo simblico y difuso operan diferentemente, lo que
genera que a pesar de que existen muchas tcnicas de compresin, solo pueden caer en dos
categoras: compresin de datos sin prdidas y con prdidas.

Para comprimir datos simblicos solo se aplica la compresin sin prdidas, debido a que una
reproduccin exacta del dato original usualmente es requerida por aplicaciones que se utilizan en,

negocios, programas de computacin, correo electrnico y aplicaciones cientficas, las cuales solo
permiten la representacin exacta de la informacin.
En estas aplicaciones la prdida de algn bit, en un carcter de texto, dato numrico o programa
de computadora es inaceptable, claramente en programas de computadora la corrupcin de un bit
puede ser catastrfica, debido a esto la compresin sin prdidas generalmente es restringida a
factores de compresin alrededor de 2 : 1 o 3 : 1.
En contraste los datos difusos se pueden comprimir hasta factores de 100 a 1 o ms dependiendo
del tipo de datos, de la efectividad de los algoritmos de compresin y de la prdida de informacin
aceptable. Si la compresin de datos es con prdidas la informacin no critica es removida y la
descompresin de datos no puede ser exactamente igual al dato original, sin embargo el resultado
debe ser una aproximacin aceptable donde las percepciones sensoriales sean adecuadas, este
tipo de compresin es la que se necesita para los datos de tipo difuso [10].
Muchos avances en la compresin de datos difusos han sido posibles por la explotacin de los
sistemas humanos auditivo y visual; los seres humanos quienes usualmente son los receptores de
los datos de tipo difuso no necesitan o no pueden usar toda la informacin capturada durante la
digitalizacin. Han sido creados modelos poderosos y complejos para datos de video usando lo
que se describe como tcnicas de codificacin perceptual que explotan las limitaciones de los ojos
humanos.
La compresin de datos de tipo difuso puede involucrar prdidas desechando bits que no se
necesitan para la reproduccin de video, puede perderse alguna informacin que generar
diferencias entre los datos sin compresin y los comprimidos, pero los humanos debido a sus
lmites visuales hacen que estas diferencias sean aceptables para muchas aplicaciones. El anlisis
estadstico de las seales de video indica que existe una fuerte correlacin entre cuadros de
imagen sucesivos y con los elementos mismos de la imagen, tericamente la decorrelacin de
esas seales disminuye el ancho de banda sin afectar significativamente la resolucin de la
imagen, la respuesta del sistema visual humano para cierta informacin espacio-temporal puede
ser explotada para reducir las razones de bits, mientras se mantiene una calidad aceptable de las
imgenes.
Una cmara de video que capture 30 cuadros por segundo de una escena estacionaria produce
cuadros muy similares uno despus del otro, la compresin permite remover la informacin
superflua que est contenida en un cuadro. La seal de video digital contiene una cantidad
significativa de redundancia estadstica, ya que las muestras son muy similares entre s. Tal
redundancia estadstica puede ser removida sin destruir informacin til.

La datos originales son reducidos por el compresor; los datos comprimidos son entonces pasados
a travs de un canal de comunicacin o almacenados en algn dispositivo y regresados a su forma
original por el expansor, la razn entre la cantidad de los datos originales y los datos comprimidos
es llamada factor de compresin, algunas veces un compresor y un expansor en serie son

referidos como el compander, el compresor puede ser igualmente referido como el codec y el
expansor como el decoder, estos dos trminos tambin pueden ser llamados codecs.
Los compresores de video digital son diseados para eliminar la mayor parte de la redundancia
estadstica sin afectar el contenido de informacin de la seal; la redundancia estadstica para una
seal de video digital se puede dividir en tres tipos:
Redundancia espacial
Redundancia Temporal
Redundancia intersmbolos
Cada una de ellas se detalla en las siguientes secciones.

Reduccin de la redundancia espacial de video


La redundancia espacial es definida como la informacin repetida que se puede descartar,
presente en regiones formadas por pxeles que pertenecen a una imagen de la secuencia de video.
El tipo de compresin que permite reducir la redundancia espacial entre pxeles est basada
comnmente en la codificacin por transformada y se le denomina codificacin Intra. En un cuadro
de la secuencia de video la codificacin intra trabaja en dos dimensiones sobre los ejes espaciales
horizontal y vertical, un anlisis de una imagen tpica revela que mientras existe contenido de
frecuencias altas debido a los detalles espaciales finos en las reas de la imagen, existen
pequeas cantidades de energa para tales frecuencias. Sin embargo las imgenes comnmente
contienen reas considerables que estn formadas por pxeles de un valor muy similar entre si, a
estos valores les corresponden frecuencias espaciales bajas.
La compresin puede ser obtenida tomando ventaja del hecho que la amplitud de los componentes
espaciales disminuye con la frecuencia, tambin es posible tomar ventaja del hecho que la
sensibilidad del ojo en las frecuencias espaciales altas es reducida; si la frecuencia espacial de las
imgenes es dividida en bandas de frecuencia, las bandas de mayor frecuencia pueden ser
descritas por pocos bits, debido a que sus amplitudes son ms pequeas. Existen ciertas
transformaciones matemticas las cuales permiten describir a las imgenes en el dominio de la
frecuencia (seccin 3.1.
La codificacin intra es usada para remover las redundancias espaciales en las imgenes
mapeando los pxeles haca un dominio transformado para reducir los datos, la ventaja de la
codificacin intra para la compresin de datos es que la energa contenida en las imgenes en la
mayora de las escenas naturales est principalmente concentrada en una regin de baja
frecuencia y por lo tanto se obtienen unos pocos coeficientes transformados, esos coeficientes
pueden ser cuantizados descartando los coeficientes de menor amplitud.
Los vectores base de la Transformada Coseno Discreta (DCT) son la eleccin ideal para la
realizacin de la codificacin intra. La razn se debe a que la variacin suave de estos vectores

produce que la energa de la mayora de las imgenes en tonos reales se concentre en unos pocos
coeficientes (esta transformacin se analizar a fondo, as como sus efectos en el capitulo 3).
Debido a que en una secuencia de imgenes, los pxeles estn correlacionados en las direcciones
vertical, horizontal y temporal de la secuencia de video una eleccin natural para la transformacin
es una DCT en tres dimensiones, sin embargo cualquier transformacin en el dominio temporal
requiere de almacenamiento de varios cuadros lo cual produce grandes retardos, que restringen la
aplicacin de la codificacin intra, debido a esto la transformacin es confinada a dos dimensiones.

Reduccin de la redundancia temporal de video


La redundancia temporal es definida como la informacin repetida que se puede descartar, que
se presenta en regiones formadas por pxeles que varan con respecto al tiempo o lo que es lo
mismo, entre diferentes imgenes de la secuencia de video.
El tipo de compresin que permite reducir la redundancia temporal entre imgenes est basada
comnmente en la codificacin de sus diferencias y se le denomina codificacin Inter. La
redundancia temporal es reducida usando la diferencia entre imgenes sucesivas, para las partes
estticas de una secuencia de imgenes la diferencia temporal estar cercana a cero, las partes
que cambian entre cuadros son debido a variaciones en la iluminacin o al movimiento de los
objetos, resultando una imagen de error la cual se necesita para ser codificada, los cambios en la
imagen debidos al movimiento pueden ser reducidos significativamente si el movimiento del objeto
puede ser estimado y su diferencia es tomada con respecto a alguna imagen de referencia.
Para realizar la codificacin Inter, primero tiene que ser encontrado el movimiento que est
presente en el video, este proceso se conoce como estimacin de movimiento. Esta tcnica se
basa en el algoritmo de igualacin de bloque (BMA por sus siglas en Ingls), en el cual un cuadro
de la secuencia de video es dividido en bloques de NxN pxeles.
Estos bloques se debern igualar con los bloques correspondientes del cuadro anterior de la
misma secuencia, para esto se considera que los bloques se desplazan dentro de una ventana
cuyas dimensiones son (N+2W)x(N+2W), Figura 2.2, siendo 2W el nmero mximo de pxeles que
se puede desplazar el bloque en las direcciones horizontal y vertical dentro de la ventana de
bsqueda.

Una vez que los pxeles del bloque actual coinciden con los del bloque anterior dentro de la
ventana, es posible cuantificar su movimiento, las coordenadas que indican este desplazamiento
son conocidas como vectores de movimiento.

Una vez que se encuentran los vectores de movimiento para todas las reas de la imagen, la
imagen de referencia (cuadro anterior) es desplazada de acuerdo a esos vectores, como resultado
se obtiene una imagen estimada que es comparada con la imagen actual, para producir un error
llamado residuo. El residuo es transmitido junto con los vectores de movimiento hacia el receptor,
una vez que en l se genera la imagen de referencia, est se desplazar de acuerdo a los vectores
de movimiento transmitidos, para recrear la imagen estimada y despus el residuo es sumado para
obtener la imagen original.

TCNICAS DE COMPRESIN MPEG


Algunas de las principales caractersticas que distinguen a los estndares MPEG de otros mtodos
de compresin son:
a) MPEG est orientado a vdeo y su formato hace uso de un nico espacio de color (Y,Cr,Cb), as
como de un rango limitado de resoluciones y relaciones de compresin. Tiene adems
mecanismos para el manejo del sonido.
b) Aprovecha el alto grado de correlacin entre las imgenes de una secuencia de vdeo, as como
la naturaleza predictiva del movimiento.
c) Proporciona un caudal binario constante mediante el empleo de variables ajustables, haciendo
que el formato sea predecible en relacin con los requerimientos de ancho de banda.

d) Especifica la sintaxis para el almacenamiento y transmisin de los datos comprimidos y define el


proceso de docodificacin. Sin embargo, los estndares no especifican cmo debe llevarse a cabo
la codificacin, dejando las consideraciones para su implementacin a los fabricantes de
codificadores. El requisito es que todos los codificadores deben producir caudales binarios MPEG
vlidos para ser descomprimidos por cualquier decodificador, lo que en la prctica, da lugar a una
amplia variedad de implementaciones posibles para los codificadores.
El estndard MPEG-1 est enfocado a la codificacin de seales digitales de audio y vdeo y al
sincronismo de los correspondientes caudales binarios. En principio, este estndard maneja
imgenes con barrido no entrelazado y fue desarrollado principalmente para propsitos de
almacenamiento en CD-ROM a caudales binarios del orden de 1.5 Mb/s, en tanto que el estndard
MPEG-2 est orientado especficamente a televisin y puede manejar imgenes con barrido
entrelazado a caudales binarios mayores, codificndolas como campos individuales o como
cuadros completos. En MPEG-1 no est definida la relacin entre cuadros y campos de la seal
analgica de vdeo y se asume que las imgenes bidimensionales pueden obtenerse a partir, bien
sea del formato de campo o del de cuadro.
Otros estndares de la misma familia son MPEG-3 y MPEG-4. El primero enfocado a imgenes de
alta definicin. Sin embargo, las especificaciones bsicas de MPEG-3 quedaron absorbidas en
MPEG-2 y por consecuencia, se ha abandonado. No ocurre lo mismo con MPEG-4, orientado a
conseguir caudales binarios muy bajos, tales como los empleados para teleconferencia y otras
aplicaciones relacionadas, que requieren una elevada relacin de compresin y gran eficiencia de
codificacin.

JERARQUA DE LOS DATOS DE VIDEO

La unidad fundamental de proceso en los estndares MPEG es el bloque, constituido por un grupo
de 88 elementos de imagen. Los bloques de informacin se organizan despus en macrobloques,
formados por cuatro bloques contiguos de luminancia, constituyendo matrices de 1616 elementos,
adems de un cierto nmero de bloques de crominancia. En el formato 4:4:4 hay cuatro bloques de
cada componente de crominancia por cada cuatro bloques de luminancia, en el formato 4:2:2 dos
bloques de cada componente de crominancia por cada cuatro de luminancia y en el formato 4:2:0,
un bloque de cada componente de crominancia. Este diezmado o submuestreo de la informacin
de crominancia es justificable dada la menor resolucin cromtica de la visin humana. En la figura
6.2 se ilustra la estructura de un macrobloque en el formato 4:2:0.

Una imagen MPEG est formada por segmentos (slices10), que son secuencias de macrobloques
contiguos en el mismo orden de barrido de la imagen y que comienzan en una posicin particular
sobre sta, especificada por un encabezado del segmento (slice header). La estructura
segmentada de la imagen aumenta la flexibilidad en el procesado y proporciona un mecanismo
conveniente para el manejo de errores. La figura 6.3 ilustra un cuadro de imagen segmentado en
que, como puede apreciarse esquemticamente, los segmentos pueden tener diferentes
longitudes.
Cuando ocurre un error en el caudal de datos, el decodificador puede saltar al inicio del segmento
siguiente. Como consecuencia de ello, el nmero de segmentos afecta la eficiencia en la
transferencia de los datos, ya que si bien la segmentacin favorece la ocultacin de errores, por
otra parte emplea bits necesarios para la identificacin de los segmentos que de otra forma podran
utilizarse para aumentar la calidad de la imagen.

La unidad primaria de codificacin de una secuencia de vdeo es la imagen o cuadro, formada por
un cierto nmero de segmentos que constituyen el rea activa. Una secuencia de vdeo, se
compone de uno o ms grupos de imgenes (GOP11) que, a su vez, estn constituidos por una o
ms imgenes. Esta jerarqua de la informacin de vdeo en MPEG se ilustra en la figura 6.4.

IMGENES, CUADROS I, P, B
Imgenes I: El primer tipo de imgenes es llamado I, son codificadas sin la referencia de una
imagen previa, estas permiten un punto de acceso para decodificar la secuencia, ests imgenes
son llamadas cuadros intra.
Imgenes P: Corresponden a las cuadros generados por la estimacin de movimiento, la
diferencia entre la imagen actual y la anterior, as como por la informacin de los vectores de
movimiento.
Imgenes B: Corresponden a una imagen estimada bidireccional, estn formadas por informacin
complementaria de cuadros anteriores y posteriores a un cuadro de referencia.
En el proceso de formacin de GOPs las imgenes B se consideran de informacin
complementaria porque contienen lo que falta para obtener cuadros con los datos tomados de las
imgenes de tipo I o P.
Los GOPs permiten acceder aleatoriamente en la secuencia, la primera imagen codificada en el
grupo es una imagen de tipo I, seguida por un arreglo de imgenes P y B tal como se muestra en
la Figura 2.3.

Esta agrupacin tiene sus limitaciones por ejemplo en el caso que suceda un error en la
transmisin, cada imagen subsecuente P o B, este se propagar a lo largo de todo el GOP.

ARQUITECTURA DEL SISTEMA


De acuerdo a lo anterior y, con una perspectiva del sistema, un caudal binario MPEG puede
considerarse constituido bsicamente por dos capas: una del sistema y otra de compresin en que
la primera proporciona la envoltura necesaria a las capas de compresin. La estructura del sistema
puede resumirse fcilmente para el caso del decodificador en la forma mostrada en la figura 6.6.

Las capas de compresin contienen los datos que deben alimentarse a los decodificadores de
audio y vdeo en tanto que la capa del sistema proporciona los medios de control para el
demultiplexado de las capas de compresin y de sincronismo necesario en la reproduccin.
El caudal binario MPEG consiste de una secuencia de envolturas12 que, a su vez, se subdividen
en paquetes, en la forma que se muestra en la figura 6.7.

Cada envoltura consiste de una secuencia de 32 bits que contiene el cdigo de inicio y el
encabezado, seguido de uno o ms paquetes de datos que a su vez, contienen un cdigo de inicio
y un encabezado tambin con 32 bits, seguidos de datos comprimidos de audio o vdeo. El
decodificador del sistema identifica el tipo de informacin sin necesidad de decodificar los datos y
canaliza stos hacia los decodificadores respectivos, junto con la informacin de sincronismo,
extrada del decodificador del sistema.

Conclusiones

Los tiempos de decompresin son mayores a los tiempos de compresin, esto se debe a
que en la etapa de decompresin se deben realizar diversas comparaciones hasta
encontrar el cdigo Huffman correcto. Adems los tiempos de ejecucin para la IDCT son
ms grandes que para los de la DCT, este es otro factor para aumentar los tiempos de
decompresin.

Los tiempos de ejecucin nos permiten establecer que si bien es cierto que para una
secuencia que est formada por 20 cuadros y con sus tres componentes los tiempos de
compresin fluctan entre 7.8 y 9 seg, los de decompresin estn entre 9 y 14 seg. Casi es
posible realizar una implementacin del sistema en tiempo real. Para lograr reducir estos
tiempos de ejecucin se puede optar por optimizar al mximo el cdigo fuente del
programa (de ser preciso realizar la implementacin de la DCT e IDCT en lenguaje
ensamblador para eficientar el desempeo) y utilizar un DSP que trabaje con un nmero
mayor de MIPS, tal como es el caso del C713 u otro mas potente, logrando mejorar los
tiempos de ejecucin para la compresin y la decompresin alrededor de un factor del 2.4.

Los parmetros evaluados (factor de compresin, calidad visual y tiempos de ejecucin)


nos permiten formar el siguiente criterio, a mayor porcentaje de compresin, menor ser la
calidad visual de la secuencias reconstruidas, tal como lo comprueban los resultados de
error obtenidos, de hecho estos resultados nos indican que entre ms alta sea la
complejidad espacial de una escena, mayor ser el error de las secuencias reconstruidas

SIMULACIONES EN DONDE SE CAMBIEN LAS CARACTERSTICAS DE LA IMAGEN.

1. Primera simulacin con imgenes cambiar en modo RGB una imagen.

A = imread('lincol.jpg');
figure(1);
image(A);
T = A;
T(:,:,1) = 0;
T(:,:,2) = 0;
figure(2);
imshow(T);
figure(3);
T1=A;
T1(:,:,2) = 0;
T1(:,:,3) = 0;

imshow(T1);
figure(4);
T2=A;
T2(:,:,1) = 0;
T2(:,:,3) = 0;
imshow(T2);
figure(2)
subplot(1,4,1),image(A),title('imagen original');
subplot(1,4,2),image(T),title('imagen canal azul');
subplot(1,4,3),image(T1),title('imagen canal rojo');
subplot(1,4,4),image(T2),title('imagen canal verde');

2. Imagen en tono de grises y en binario

I=imread('lincol.jpg');
figure(1)
image(I)
G=rgb2gray(I);
figure(2)
colormap(gray(256))
image(G)
B=im2bw(G);
figure(3)
colormap(gray(2))
image(B)
figure(4)
subplot(1,3,1),image(I),title('imagen original');
colormap(gray(256))
subplot(1,3,2),image(G),title('imagen a tono de grises');

subplot(1,3,3),image(B*255),title('imagen en binario');

3. Bordeo de imagen

clc
clear all
close all
Gx=[-1 0 1;-2 0 2;-1 0 1];
Gy=[-1 -2 -1;0 0 0;1 2 1];
I=imread('lincol.jpg');
colormap(gray(256))
G=rgb2gray(I);
image(G)
[fil,col]=size(G);
m=fil;
n=col;
IR1=zeros(m,n);
IR=[G(1,1) G(1,:) G(1,n);G(:,1) G(:,:) G(:,n);G(m,1) G(m,:) G(m,n)];
whos IR G
UMBRAL=90;
IR=double(IR);
for i=2:m+1
for j=2:n+1
A=IR(i-1:i+1,j-1:j+1);
H1=sum(sum(A.*Gx));
H2=sum(sum(A.*Gy));
H12=abs(H1)+abs(H2);
if H12>UMBRAL
IR1(i-1,j-1)=1;
else
IR1(i-1,j-1)=0;
end
end

end
colormap(gray(256))
subplot(121), image(G)
subplot(122), image(255*IR1)

Referencia:
file:///C:/Users/aayala/Desktop/Compresion%20de%20video.pdf

Potrebbero piacerti anche