Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
En el simple hecho de grabar un sonido y escucharlo, intervienen varios dispositivos o módulos de audio que
hacen posible el proceso. Para poder registrar un sonido es necesario utilizar un micrófono que capte las
oscilaciones del aire transmitidas por la onda y las transforme en tensión eléctrica que, sin embargo, todavía
no podremos escuchar directamente debido a que la señal es muy débil para nuestro oído. Para llevar la señal
a un nivel mayor es necesario aumentar su tensión con un amplificador. Una vez amplificada la forma de onda
del sonido, debemos hacer que la onda se traslade nuevamente al aire para que llegue a nuestro oído, es decir
que es necesario recrear el movimiento oscilatorio de la fuente original. Este movimiento lo realiza el cono
del parlante que se mueve de acuerdo a la señal enviada desde el amplificador.
La salida eléctrica del micrófono representa una variación de presión sonora en un determinado punto del
espacio.
Idealmente se da esta relación:
v(t) ∝ p(t)
La variación de presión p(t) es proporcional a variación de voltaje v(t). Los micrófonos agregan ruido y
distorsión, por lo que esta relación no se da así.
Entonces:
v(t) ∝ D[p(t)] + n(t)
“D” caracteriza una función que define la distorsión y n(t) describe el ruido adicionado. De ser “D[x] = x” el
sistema no tendría distorsión, sería lineal. Un amplificador es un dispositivo que multiplica la señal analógica
por una constante, cuyo nombre es ganancia. Este es un caso de amplificación ideal. En la realidad distorsionan
y agregan ruido a la salida. El amplificador posee un circuito de respuesta amortiguada (un resonador
amortiguado) para cubrir la mayor gama de frecuencias posibles con la respuesta más plana posible. La
amplificación, dentro de un sistema digital, se logra mediante la directa multiplicación de los valores que
representan la señal por la constante “ganancia”.
El transductor inverso al micrófono es el parlante, el cual convierte la energía eléctrica en energía sonora. El
parlante ideal sería aquel cuya respuesta es la inversa exacta de la magnitud del micrófono. Nuevamente
decimos que introduce distorsión; además las respuestas nos son parejas para todo el rango de frecuencia,
haciendo necesario el agregado de 2 o 3 parlantes más para corresponder adecuadamente a la audición
humana.
Como vimos fueron necesarios 3 dispositivos conectados mediante cables que transportan la señal de uno a
otro, para poder grabar y escuchar un sonido.
La cadena mencionada se podría representar de la siguiente manera:
La interconexión entre dos o más dispositivos de audio conforman un sistema, denominado aquí cadena
electroacústica, por la cual circula una señal (magnitud variable en el tiempo) que transmite o transporta
información.
En este caso la información que recorre la cadena es la forma de onda del sonido que va cambiando de unidad
y/o magnitud dependiendo del dispositivo en el que se encuentre. Por ejemplo, el sonido llega al micrófono
como una señal acústica y éste la convierte en una señal eléctrica análoga (o analógica) a la anterior.
Existen, además de la acústica y la eléctrica, otros tipos de señales que se utilizan en los dispositivos de audio,
como son las señales magnéticas (cintas, discos rígidos) y las ópticas (CDs, fibra óptica).
Analógico y Digital
Diferenciamos el mundo por distintas graduaciones de estados (ese es el movimiento de la realidad). Este
movimiento se manifiesta de manera continua; entre un suceso y otro hay una infinita cantidad de estados
intermedios. Este mundo es representado simbólicamente por el hombre a través de sustituciones.
Sustituciones analógicas (iguales principios, distintos medios) [ej. Mariposa ‐ avión]. Es decir, un medio
determinado se comporta como aquel que se quiere representar; este medio substituto es elegido por alguna
propiedad especial, que lo hace conveniente a nuestros fines (ej. Datación, registro, grabación, transporte,
perdurabilidad, etc.).
Hablamos de medios analógicos cuando advertimos que el medio representa la realidad de manera continua.
Hay otros medios que no poseen la capacidad de representar la realidad de éste modo; hay una discontinuidad
(ej. el cine, el fax, etc.).
Cuando el medio de representación no acompaña continuamente al fenómeno a representar; sino que lo
realiza a través de “pasos”, hablamos de representación discreta.
El modo de representación de la realidad que utiliza un ordenador es discreto; es decir, posee un sistema
numérico que representa cantidades. Este sistema numérico (como todo sistema numérico) va representando
magnitudes, pero no en la totalidad del fenómeno real. Es decir, no hay infinitos números como infinitos
estadios de la realidad, por lo que el ordenador reduce esa realidad a una constatación periódica del
fenómeno limitada (no se representa todo el continuo que es el fenómeno, sino algunos determinados
momentos).
Aclaración: aunque el sistema numérico cuente con la posibilidad de subdividir la realidad en infinitas
magnitudes, esto cae en el terreno de la abstracción matemática. No hay manera de poder lograrlo bajo
ningún medio.
El sonido es representado, en el mundo de la computación, por lo que se llama sonido digital. Esta
representación admite dos maneras: La forma de onda (en el dominio del tiempo) y el espectro (en el dominio
de la frecuencia). Entonces un sonido determinado admite 2 representaciones; La transformación de Fourier
es la función que asocia un único espectro con su forma de onda. Actualmente se utiliza un algoritmo
particularmente eficiente de la transformada de Fourier, que se llama “fast Fourier transform” (FFT) que
permite calcular la transformada de Fourier discreta (DFT) y su inversa. La FFT es de gran importancia en una
amplia variedad de aplicaciones, desde el tratamiento digital de señales y filtrado digital en general a la
resolución de ecuaciones en derivadas parciales o los algoritmos de multiplicación rápida de grandes enteros.
Resumen:
Algoritmo es un conjunto ordenado de operaciones sistemáticas que permite hacer un cálculo y hallar la
solución de un tipo de problemas.
Un micrófono convierte variaciones en la presión del aire en variaciones análogas de la corriente eléctrica (o,
lo que es equivalente, en voltaje). Es decir que la señal eléctrica es, por lo menos en un sentido ideal,
proporcional a las variaciones de presión en el aire. Esto quiere decir que, cuando la señal original cambia, la
señal análoga también lo hace en una proporción correspondiente, la forma de onda es similar en ambos
casos.
Una señal digital en cambio es una codificación en una secuencia de números de la señal analógica, la forma
de onda del sonido se transforma en una lista de números que posteriormente, si se quiere reconstruir la
señal original, deberán ser decodificados en el sentido inverso.
La señal analógica está compuesta por valores de tiempo continuo.
La señal digital está compuesta por valores enteros discretos (n/sr) que corresponden a cada muestra (esto
se comprenderá más adelante cuando se explique el proceso de digitalización).
Funciones principales:
Generación, procesamiento, registro, reproducción.
Vamos a establecer una clasificación que nos permita entender que función cumplen cada uno de los módulos
dentro de la cadena.
Si bien en rasgos generales todos los dispositivos (micrófonos, amplificadores, altoparlantes, mesas de mezcla,
procesadores de efectos, etc.) procesan la señal, en el sentido que la modifican de alguna manera, aunque
sea en un grado muy pequeño (simplemente modificando la amplitud de la onda, como lo hace un
amplificador), la división en funciones, en cierta medida arbitraria, intenta disgregar los dispositivos según
una determinada tarea que lo distingue del resto. En otras palabras, si bien un grabador de cinta magnética
es un transductor, ya que convierte una señal eléctrica en magnética, su principal tarea es registrar (grabar)
la forma de onda en un soporte.
Transductores:
Estos dispositivos se encargan de convertir la señal de una forma de energía a otra. Por ejemplo:
Micrófono: convierte una señal acústica (presión sonora) en eléctrica.
Altavoz: Opera de forma contraria. Transforma los impulsos eléctricos en mecánicos (movimiento
del parlante).
Generadores:
Estos aparatos producen vibración eléctrica directamente. Por ejemplo: Órganos electrónicos, sintetizadores.
Grabadores:
Son dispositivos que almacenan sonidos en un medio determinado para su posterior reproducción. Para el
almacenamiento se utilizan medios magnéticos (cinta), disco magnético, memoria de la computadora, o
medio óptico (CD, DAT, Adat, Minidisc).
Aclaración: la diferencia entre un registro magnético y uno óptico hace referencia al tipo de soporte y no al
tipo de señal o información que se va a grabar. Es decir que un soporte magnético se puede almacenar tanto
señales analógicas como digitales.
Reproductores:
Son dispositivos que reproducen el sonido no como tal, es decir una fluctuación de presión atmosférica, sino
como una representación de aquella en forma de fluctuación de tensión eléctrica.
Mezcladores:
También denominados consolas de mezcla, estos dispositivos tienen la función principal de combinar las
señales provenientes de los otros dispositivos (micrófonos, reproductores, sintetizadores) y crear nuevas
señales que son la suma de las anteriores atenuada o amplificada con respecto a su nivel original en un factor
ajustable por el operador, para ser enviadas (en una pre‐mezcla o mezcla final) a un grabador, amplificador o
procesador de efectos.
Procesadores:
Son dispositivos que parten de un sonido, recogido mediante micrófono o sintetizado, y modifican alguna de
sus características.
Dentro de esta categoría podemos encontrar procesadores que modifican: la amplitud o nivel de la señal:
pre‐amplificadores y amplificadores
el espectro: filtros
el rango dinámico: compresores, limitadores, compuertas de ruido y expansores.
el contenido espectral, la frecuencia o la envolvente: Ecualizador, Delay, Phaser, Flanger, Chorus,
Reverb, Distorsión, etc.
Fundamentos del tratamiento del sonido con medios digitales
Conversor Analógico‐Digital y el Conversor Digital‐Analógico
Podemos convertir sonido en una representación digital de su forma de onda por medio de un sistema de
conversión analógico‐digital (Analogical to Digital Converter, ADC). Por el contrario, podemos convertir una
representación digital de un sonido en un sonido real con un sistema de conversión digital analógico (Digital
to Analogical Converter, DAC).
Muestreo o Sampling
Consiste en la codificación de la señal analógica en una secuencia numérica. Un tipo de codificación muy
utilizada es la llamada Pulse Code Modulation (PCM) que remplaza la señal original por una secuencia de
números binarios (bits) que representan la forma de onda del sonido.
El proceso de muestreo se realiza conceptualmente en tres etapas:
1) La señal analógica es procesada por un filtro pasa‐bajos que elimina cualquier componente espectral
de frecuencia mayor a la mitad de la frecuencia de muestreo (R/2).
2) Se mide la amplitud instantánea del diseño resultante a intervalos de tiempo iguales (1/SR=T).
3) El cuantizador convierte cada medición en un valor numérico.
Frecuencia de Muestreo y Resolución
La Frecuencia de Muestreo (sampling Rate) es la cantidad de muestras de amplitud por segundo que son
tomadas del sonido. Indica cada cuanto se convierte el sonido analógico en valor digital. Estos valores digitales
representan la amplitud instantánea de cada punto de la onda.
Como vimos anteriormente un filtro pasa‐bajos no permite que ingresen componentes con una frecuencia
mayor a R/2. Esto se establece en el Teorema de Muestreo:
Para representar digitalmente una señal que contiene componentes de frecuencia hasta X Hz, es necesario
usar una Frecuencia de muestreo de, al menos, 2X muestras por segundo.
La mitad de la frecuencia de muestreo se denomina a veces frecuencia de Nyquist, en recuerdo de H. Nyquist,
el creador del teorema. Dicho de otra manera, si se desea muestrear una señal que tiene componentes hasta
20.000Hz, hay que usar, al menos, una frecuencia de muestreo igual a 40.000Hz.
La Resolución (Sample Size) es la cantidad de información almacenada por muestra (sample). La información
correspondiente a cada sample surge de dividir verticalmente cada muestra de la onda sonora en unidades
equivalentes. Una resolución de 8 bits nos da 256 valores posibles, 16 bits en cambio nos da 65.536 (teniendo
en cuenta que el valor en bits representa una potencia de 2).
En otras palabras, es el número de bits utilizados para definir el rango, o cantidades de valores de amplitud
de cada muestra.
Entonces la calidad del sonido está determinada por la relación de estos 2 parámetros. La resolución (número
de bits de la muestra) y la tasa de muestreo (número de muestras por segundo). Es decir, la cantidad de
valores posibles de amplitud que son tomadas por fracción de tiempo.
Observación:
1) El doble de frecuencia de muestreo nos da el doble de puntos tomados por segundo, en cambio el
doble de bits de resolución nos da un valor mucho mayor del doble. Entonces se notará mucho más un
cambio de la resolución que de la frecuencia.
frecuencia de muestreo: de 20.000 Hz a 40.000 Hz = doble de muestras por segundo
resolución en bits: de 8 bits (28= 256 puntos posibles de amplitud) a 16 bits (216= 65.536 puntos
posibles de amplitud), 256 veces mayor.
2) Un CD tiene una frecuencia de muestreo 44.100 Hz y una resolución de 16 bits, un DVD tiene una
frecuencia de muestreo 48 kHz y una resolución de 16 bits y un Blue‐ray 96 kHz y una resolución de 24
bits.
3) El peso del archivo resultante se puede calcular de la siguiente manera:
Para un archivo de un minuto 44.100 Hz, a 16 bits, estereofónico:
16 bits = 2 bytes multiplicamos por 2, porque hay 2 canales = 4 bytes multiplicamos por 44.100 =
176.400 bytes/seg. multiplicamos por 60 = 10.584.000 bytes/min dividimos por 10242(reducción a
Mb)= 10, 093688...Mb/min
Cuantificación
La cuantificación es asignar un determinado valor discreto a cada uno de los niveles de tensión obtenidos en
el muestreo.
Recuperación de la señal analógica
En la recuperación se realiza un proceso inverso, con lo que la señal que se recompone se parecerá mucho a
las originales (a), (b) y (c), si bien durante el proceso de cuantificación, debido al redondeo de las muestras a
los valores cuánticos, se produce una distorsión conocida como ruido de cuantificación. En los sistemas
normalizados, los intervalos de cuantificación han sido elegidos de tal forma que se minimiza al máximo esta
distorsión, con lo cual las señales recuperadas son una imagen casi exacta de las originales. Dentro de la
recuperación de la señal, ya no se asignan intervalos de cuantificación en lugar de ello son niveles,
equivalentes al punto medio del intervalo Impulsos Codificados (IC) en el que se encuentra la muestra
normalizada
Aliasing
En los gráficos siguientes podemos observar 3 sinusoides de diferente frecuencia muestreadas a la misma
frecuencia de muestreo (marcada por las líneas verticales y los puntos sobre la forma de onda). La primera de
ellas, al ser la frecuencia más baja que la mitad de la frecuencia de muestreo (teorema de Nyquist) ha sido
sampleada con más de dos muestras por ciclo, es decir que la onda está sobre muestreada. En el segundo de
los casos la onda fue muestreada críticamente debido a que solo posee dos muestras por ciclo (frecuencia =
sr/2). Finalmente, en el último de los casos, la cantidad de muestras que se toman por ciclo no son suficientes
para representar la onda y se produce una frecuencia “alias” a la original.
En el proceso de digitalización esto se evita con un filtro pasa‐bajos con una frecuencia de corte igual a sr/2
que evita que ingresen frecuencias por sobre la frecuencia de Nyquist.
Teorema del muestreo ‐ Nyquist ‐ Oversampling ‐ Dithering
Teorema de Nyquist.
Hemos mencionado dos parámetros fundamentales en la descripción del proceso de digitalización de una
señal analógica.
La RESOLUCION, que nos indica la precisión en la medición de la amplitud de una muestra... (la "regla" de
medición) ...
y la FRECUENCIA DE MUESTREO, que nos da una idea de la cantidad de muestras por segundo.
En cuanto a la resolución, vimos que, a mayor resolución, mejora la relación señal‐ruido (para 16 bits tenemos
unos 97 dB). Pero ¿hay algún límite inferior para la frecuencia de muestreo? ¿Cómo elegimos la frecuencia de
muestreo?
El criterio de selección está establecido primariamente por el llamado teorema de Nyquist.
En términos sencillos, este teorema define la mínima frecuencia de muestreo necesaria para poder
representar digitalmente una señal.
Fs = 2 x Fmax
donde Fs = frecuencia de muestreo y Fmax es la máxima componente de frecuencia presente en la señal.
En el gráfico que sigue, no se cumplen las condiciones de Nyquist, veamos:
La onda senoidal roja es la señal a muestrear, pero la cantidad de muestras por segundo es insuficiente.
Los puntos negros representan cada muestra. Observar que al "unir" las muestras aparece una onda senoidal
diferente a la original (color azul).
Si hubiera por lo menos 2 muestras por período de la señal, sería posible definir la frecuencia original, caso
contrario aparecerán resultados "extraños". Estas ondas falsas se denominan "aliasing" y es un efecto
indeseado.
En el caso de haber 2 muestras por período, estaríamos usando una frecuencia de muestreo igual al doble de
la frecuencia de la onda de interés.
Veamos 3 ejemplos más, donde f = frecuencia de la señal:
Vemos en el caso "B" que es posible reconstruir una onda de frecuencia igual a la original. Será tarea del
conversor D/A el "conformar" la onda resultante para evitar los angulos "filosos" y aproximarse a la onda
senoidal. Pero en teoría y en términos matemáticos, es posible reconstruir exactamente la onda original si se
satisface la condición de Nyquist.
Observar que una vez definida una determinada frecuencia de muestreo Fs, será obligatorio "filtrar" toda
componente de frecuencias que supere la mitad de Fs para evitar que aparezcan frecuencias aliasing.
Filtros anti‐aliasing.
Hay dos maneras de "eliminar" las frecuencias en exceso:
1) Mediante filtrado analógico ANTES de la digitalización:
Filtro pasa‐bajo
En la práctica, es imposible lograr "cortar" completamente las frecuencias que superen determinado valor,
lográndose en realidad una "pendiente" de atenuación. Si deseamos que la digitalización admita frecuencias
de hasta 20KHz (límite normal de la audición humana), la pendiente de atenuación permite eliminar
aceptablemente frecuencias más allá de los 22.05 KHz. Esto está definiendo entonces una frecuencia de
muestreo de 44.1 KHz que es exactamente el doble, conforme establece el teorema del muestreo.
44.1 KHz es la frecuencia de muestreo más difundida y es la elegida para los CD's, con una resolución de 16
bits para dar un rango dinámico de unos 16 x 6.02 =97 dB (comparar con los 120 dB del oído humano antes
del dolor)
2) Mediante técnicas digitales: OVERSAMPLING
El muestreo se lleva a cabo a la frecuencia de muestreo prefijada, por ejemplo 44.1KHz, pero en la
reproducción (conversión D/A) se calculan y agregan por interpolación 3 muestras (oversampling x 4) ó 7
muestras (oversampling x 8) extras por cada 2 muestras. Esto da como resultado una nueva frecuencia efectiva
de muestreo (cuatro u ocho veces más), elevando entonces la mínima frecuencia permisible en la señal
original (recordar teorema de Nyquist). Entonces es posible realizar un filtrado mediante algoritmos digitales
evitando la aparición de frecuencias aliasing.
DITHERING.
Esta técnica consiste en añadir ruido aleatorio de muy baja amplitud (menor al paso que define la resolución)
a fin de ayudar a los comparadores del conversor (A/D) a definir mejor si una determinada muestra debe
asignarse al valor superior o inferior de la escala de medición. Se demuestra estadísticamente que hay una
mejor precisión en la conversión cuando se usa dithering.
Dado que actualmente los mejores convertidores tienen 'relaciones señal a ruido térmico' que raramente
exceden los 122 dB a temperatura ambiente, se hace necesario añadir dither en todos los casos en los que se
emplean cuantificaciones (o re cuantificaciones) inferiores a 20 bits. Los cuantificadores de 24 bits, si bien no
presentan ventajas prácticas sobre los de 20 bits debido al nivel del ruido térmico de los convertidores, al
menos no requieren la adición de dither (y permiten registrar la muestra en un número entero de bytes). Sin
embargo, sí será imprescindible añadir dither en los casos donde se re cuantifican estas grabaciones a
muestras de 16 bits, por ejemplo.
Señal armónica (sinusoidal pura) con dither añadido en una relación señal a ruido de 21,03 dB lista para ser
cuantificada con sólo 4 bits por muestra (16 niveles de cuantificación).
Formatos de archivo
El formato de archivo más utilizado en PC es el Riff Wave PCM con la extensión *.wav, compatible con el
software de windows. Para el sistema operativo de las computadoras Macintosh se utiliza, como formato más
extendido, los archivos AIFF; y los archivos *.snd para los sistemas compatibles UNÍS.
Archivo
Una vez realizada la grabación, archivamos el sonido. Para esto es recomendable tener una nomenclatura que
nos ayude a ordenar el trabajo y a ahorrar tiempo.
Una posibilidad es nombrar el archivo con un número y un nombre (puede ser abreviado) que nos diga por
ejemplo el origen del sonido, alguna característica particular, o a que parte de una estructura pertenece. Ej:
Mus01: este nombre puede identificar el sonido como perteneciente a una cadena de música, y además que
es el primero de un total máximo de 99 (por eso 01 y no 1 o 001).