Musica y Espacio

Música y espacio:
ciencia, tecnología y estética

UNIVERSIDAD NACIONAL DE QUILMES
Rector
Gustavo Eduardo Lugones
Vicerrector
Mario E. Lozano
Gustavo Basso
Oscar Pablo Di Liscia
Juan Pampin
(compiladores)
Música y espacio: ciencia,

tecnología y estética
Joseph Anderson / Gustavo Basso / Pablo Cetta /

Mariano Cura / Oscar Pablo Di Lisia / Robert Dow /
Pablo Fessel / Gary S. Kendall / Martín Liut /
Dave Malham / Juan Pampin
Bernal, 2009
Colección Música y Ciencia
Dirigida por Oscar Pablo Di Liscia
Basso, Gustavo
P
isbn 987-558-
1. P
CDD
© Gustavo Basso. 2009

© Universidad Nacional de Quilmes. 2009
Roque Sáenz Peña 352
(B1876BXD) Bernal
Buenos Aires
http://www.unq.edu.ar
editorial@unq.ed.ar
ISBN: 987-558-
ISBN-13: 978-987-558-
Queda hecho el depósito que marca la ley 11.723
Esta edición de 1.000 ejemplares se terminó de imprimir en

Índice
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Los autores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Capítulo I. Audición espacial de sonido: conceptos básicos y estado

actual de la cuestión
Gustavo Basso, Oscar Pablo Di Liscia . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Representación geométrica del espacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Indicios de ubicación esp acial de sonido . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Indicios relativos a la localización angular . . . . . . . . . . . . . . . . . . . . 25
Indicios relativos a la distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Directividad de la fuente acústica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Percepción de la directividad de las fuentes acústicas . . . . . . . . . . . 51
Una revisión de los indicios de localización y de los factores
que determinan su prominencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Confiabilidad de los indicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
El rol del conocimiento a priori de las características de la fuente . 54
El contenido de frecuencia de la señal . . . . . . . . . . . . . . . . . . . . . . . 54
Realismo de los indicios o plausibilidad . . . . . . . . . . . . . . . . . . . . . . 55
El rol de los movimientos de la cabeza en la localización . . . . . . . . 56
Efectividad de los indicios relacionados con la distancia . . . . . . . . . 56
Otros indicios que afectan la audición espacial . . . . . . . . . . . . . . . . . . . . . . 57
Efecto Doppler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Efecto Haas o efecto de precedencia. . . . . . . . . . . . . . . . . . . . . . . . . 59
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Capítulo II. Percepción espacial del ambiente acústico
Gustavo Basso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Percepción auditiva del ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Efecto de precedencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Perspectiva auditiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Acústica de salas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Desarrollo histórico hasta el siglo xix . . . . . . . . . . . . . . . . . . . . . . . . 65
Trabajos de Wallace Sabine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Proliferación de parámetros acústicos temporales . . . . . . . . . . . . . . 72
Aparición de los criterios espaciales . . . . . . . . . . . . . . . . . . . . . . . . . 74
Respuestas “espaciales” desde la arquitectura . . . . . . . . . . . . . . . . . . 81
Dos ejemplos célebres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Apéndice: descripción de los parámetros citados. . . . . . . . . . . . . . . . . . . . . 92
Tiempo de reverberación (tr) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Reverberación temprana (edt, Early Decay Time) . . . . . . . . . . . . . . 92
Retardo de la reflexión principal (itdg2) . . . . . . . . . . . . . . . . . . . . . 92
Respuesta al impulso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Función de autocorrelación (φ(τ)) . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Amplitud equivalente de las reflexiones (a) . . . . . . . . . . . . . . . . . . 93
Fracción lateral de energía (le) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Coeficiente de correlación cruzada interaural (iacc). . . . . . . . . . . . 94
Función de crecimiento de la energía . . . . . . . . . . . . . . . . . . . . . . . . 94
Definición (Thiele, 1953) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Claridad a 80 ms y a 50 ms (Reichardt, 1974) . . . . . . . . . . . . . . . . . 95
Relación señal /ruido (Lochner y Burger, 1961) . . . . . . . . . . . . . . . 95
Centro de tiempo (Dietsch y Kraak, 1986) . . . . . . . . . . . . . . . . . . . 95
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Capítulo III. Técnicas de localización espacial de sonido

con altoparlantes usando indicios de intensidad y tiempo
Oscar Pablo Di Liscia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Técnicas de espacialización basadas en indicios de intensidad . . . . . . . . . 100
Simulación de la ubicación angular en dos dimensiones . . . . . . . 100
por medio del panorámico de intensidad . . . . . . . . . . . . . . . . . . . . 100
Simulación de la distancia mediante indicios de intensidad . . . . . 103
Simulación de la ubicación angular en tres dimensiones
por medio del panorámico de intensidad . . . . . . . . . . . . . . . . . 106
Simulación de la directividad de la fuente acústica
mediante indicios de intensidad . . . . . . . . . . . . . . . . . . . . . . . . 110
Técnicas de espacialización basadas en indicios de tiempo . . . . . . . . . . . . 115
Simulación de las características de recintos mediante indicios
de intensidad y tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Simulación de ecos tempranos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Capítulo IV. Transformadas clásicas de la imagen estéreo. Un análisis

Joseph Anderson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Ley de panorámico seno-coseno y el dominio ms . . . . . . . . . . . . . . . . . . . 129
Ley de panorámico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
El dominio ms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Las transformadas estéreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Rotación-panorámico estéreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Panorámicos más allá de +/-45º. Moviéndose más allá
de los altoparlantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Ancho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Balance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Panorámico medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Panorámico izquierdo y derecho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
R-pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
L-pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Dirección-abilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Transformadas dependientes de la frecuencia . . . . . . . . . . . . . . . . . . . . . . 152
Ecualización espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Dispersión estéreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Otras transformadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Capítulo V. El espacio acústico tridimensional y su simulación
por medio de Ambisonics
Dave Malham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
Consideraciones fisiológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Mecanismos de percepción de la dirección . . . . . . . . . . . . . . . . . . 161
Mecanismos de percepción de la distancia . . . . . . . . . . . . . . . . . . . 162
Cuestiones perceptivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Ambisonics, sistemas de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Manipulaciones del campo sonoro . . . . . . . . . . . . . . . . . . . . . . . . . 173
Ambisonics y la compatibilidad estéreo . . . . . . . . . . . . . . . . . . . . . 178
Bounce-back . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Criterios para una decodificación óptima . . . . . . . . . . . . . . . . . . . . 185
El efecto de la acústica del espacio de ejecución . . . . . . . . . . . . . . 187
Sistemas Ambisonics de orden más alto . . . . . . . . . . . . . . . . . . . . . . . . . . 190
Armónicos esféricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
Matrices de rotación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Dominancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Sistemas de orden más alto. desarrollos recientes . . . . . . . . . . . . . . . . . . . 197
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
Capítulo VI. Sistemas de sonido multicanal para la industria audiovisual

Mariano Martín Cura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Estandarizaciones de sonido surround . . . . . . . . . . . . . . . . . . . . . . . . . 203
Especificaciones de canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Sistemas propietarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Canal de efectos de baja frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 204
Sistema de administración de bajas frecuencias . . . . . . . . . . . . . . . 204
Sistemas multicanal matriciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Codificación perceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Estéreo de tres canales (3-0 stereo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Sonido cuadrafónico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Surround de cuatro canales (3-1 stereo). . . . . . . . . . . . . . . . . . . . . . 206
Dolby stereo optical. Dolby surround pro logic . . . . . . . . . . . . . . . . . . . . . 208
Surround de 5.1 canales (3-2 stereo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
El canal de efectos de baja frecuencia y el uso de subwoofers . . . . . 211
Descripciones y asignación de pistas . . . . . . . . . . . . . . . . . . . . . . . . 212
Dolby Digital, Dolby Pro Logic ii . . . . . . . . . . . . . . . . . . . . . . . . . . 212
dts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Surround de 6 canales. Dolby stereo 70 mm . . . . . . . . . . . . . . . . . . . . . . . 214
Surround de 6.1 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Dolby Digital Surround EX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
CI CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Dolby Pro Logic IIx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
dts-es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
Surround de 7.1 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
CI CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Sony sdds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Dolby Digital Plus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
Dolby Digital True hd. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
dts-hd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Surround de 10.2 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Surround de 22.2 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
thx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
mpeg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
mlp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
dvd-audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Super audio cd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Otros formatos multicanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Capítulo VII. El sonido multicanal en la composición acusmática

Robert J. Dow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Preámbulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Ejecución. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Formatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Estereofonía con dos altoparlantes . . . . . . . . . . . . . . . . . . . . . . . . . 231
Estéreo 3-2 (5.1 canales envolventes) . . . . . . . . . . . . . . . . . . . . . . 232
Octofonía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Ambisonics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Síntesis de campo de onda (wfs) . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Capítulo VIII. La interpretación de la espacialización electroacústica:
atributos espaciales y esquemas auditivos
Gary S. Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Atributos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

El contexto de la música electroacústica . . . . . . . . . . . . . . . . . . . . 242
Atributos espaciales y análisis de la escena auditiva . . . . . . . . . . . 243
Esquemas auditivos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
Esquemas auditivos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
Análisis de la escena en función de los esquemas auditivos
espaciales según Rumsey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
El juego artístico con la organización espacial . . . . . . . . . . . . . . . . . . . . . . 249
Juego con el agrupamiento perceptivo . . . . . . . . . . . . . . . . . . . . . . 249
Atributos inmersivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
Juego con los esquemas auditivos espaciales . . . . . . . . . . . . . . . . . . 255
Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
Capítulo IX. Descentramiento y concreción del espacio en la música

del siglo XX
Pablo Fessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
El espacio inmanente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
La crisis en el sistema de categorías estilísticas . . . . . . . . . . . . . . . . . . . . . 263
La textura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
Emancipación de la textura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
Hacia una estética de la heterogeneidad y de la concreción . . . . . . . . . . . 267
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
Capítulo x. Integración de la música al espacio virtual

Pablo Cetta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
Capítulo XI. Música para sitios específicos: nuevas correlaciones
entre espacio acústico, público y fuentes sonoras
Martín Liut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
Sonidos específicos y arquitectura aural . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

Público y fuentes sonoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
En movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Zonas de audición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
Capítulo XII. Espacio y materia, de lo auditivo a lo corporal.

Apuntes sobre la composición de UOM y Entanglement
Juan Pampin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
uom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Dispositivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Espacio y materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Reflexiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
Entanglement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Lugar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
Flujo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Perturbación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
Teleausencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
Presentación
Este libro explora los aspectos más relevantes del estado actual del arte en el
estudio de las relaciones entre espacio, sonido y música. Dada la extensión del
tema y sus numerosas ramificaciones en áreas diversas (tales como acústica,
psicoacústica, percepción sonora, tecnología de audio, arte sonoro y música,
por mencionar solo algunas), resulta necesario abordarlo desde una pluralidad
de perspectivas que asegure una cobertura amplia y sistemática. Para lograr
este objetivo, el libro organiza sus capítulos en tres secciones principales: la
primera examina los aspectos básicos de la audición espacial, la segunda son-
dea las técnicas y tecnologías comprometidas en la simulación e implementa-
ción del sonido espacial, y la última plantea la problemática de la espacialidad
en la producción musical y sonora, tanto desde el punto de vista del análisis
como desde la composición musical.
Los dos primeros capítulos desarrollan las nociones básicas necesarias
para comprender la percepción espacial del sonido. En el primero, a partir
de las señales que se originan directamente en las fuentes acústicas (Basso y
Di Liscia) y en el segundo, desde el ambiente acústico que rodea al oyente
(Basso). Este último, además, introduce los principios fundamentales de la
acústica arquitectónica desde una doble perspectiva, histórica y técnica. Estos
dos capítulos son de lectura insoslayable para el lector que no esté familiari-
zado con la audición espacial de sonido y constituyen la base sobre la que se
desarrollaron muchas de las técnicas de espacialización que se tratan en el
resto del libro.
Siguen luego cuatro capítulos dedicados a las técnicas de espacialización
corrientemente utilizadas en la música por computadoras y en la industria
del audio. El capítulo iii (Di Liscia) analiza las técnicas de simulación de
localización de sonido usando indicios de intensidad y tiempo. El capítulo iv
(Anderson) realiza una profunda exploración de los aspectos técnicos y de las
aplicaciones prácticas de las transformadas de la imagen estéreo en la ingenie-
ría de audio. El capítulo v (Malham) desarrolla extensamente la técnica de
espacialización Ambisonics en sus aspectos básicos y en sus actuales extensio-
15
nes. Malham también estudia en este capítulo algunos aspectos de audición
espacial, y discute los límites y la naturaleza de lo que debe considerarse una
imitación de la realidad sonora espacial. El capítulo vi (Cura) realiza una
reseña histórica y un análisis técnico de las implementaciones para sonido
surround (“envolvente”) en la industria de audiovisual (principalmente en
el cine) y en su uso hogareño. El capítulo vii (Dow) desarrolla la transición
desde la visión técnica/tecnológica hacia la implementación concreta de la
espacialización en la música electroacústica, centrándose en la problemática
estética y práctica que surge en la difusión de la obra electroacústica.
Los siguientes dos capítulos presentan propuestas que se orientan hacia el
análisis estético y técnico-musical de la espacialidad en la música. El capítulo
viii (Kendall) propone un marco conceptual para el análisis de la espacialidad
en la música electroacústica desde la perspectiva de la psicología cognitiva.
Concretamente, este enfoque está basado en los conceptos de “atributos espa-
ciales” y de “esquemas auditivos”. El capítulo ix (Fessel) aborda la espacialidad
del sonido desde el ángulo de la música instrumental del siglo xx. Es la noción
de textura, que según Fessel comienza a desarrollarse de manera significativa
en la música del siglo xx, la que provee las tendencias básicas (descentramien-
to y concreción) a partir de las que es posible pensar en un espacio musical
segmentado, múltiple y particular.
Finalmente, los tres últimos capítulos tratan diferentes casos de puesta
en obra de la espacialidad de la música y el sonido, de manera general uno de
ellos, y de forma específica los otros dos. En el capítulo xi, Liut enfoca la espa-
cialidad en la producción sonora desde la perspectiva de su correlación con los
espacio-entornos. En dicho enfoque se tienen en cuenta tanto las cuestiones
físicas como la carga semántica y la disposición de los oyentes, que surgen de
–o sugieren– los diferentes entornos. En el capítulo x, el autor considera algu-
nas instancias generales pero, sobre todo, las específicas a su obra Interiores, a
partir de lo que denomina una “integración de la música al espacio virtual”.
Finalmente, en el capítulo xii Pampin desarrolla los aspectos tecnológicos y
estéticos de la espacialidad en dos de sus obras (UOM y Entanglement) y provee
una base conceptual para la vinculación de estos aspectos con la carga refe-
rencial e histórica de los entornos de audición.
La complejidad conceptual y técnica de los artículos originales en inglés
requirió una revisión detallada de sus traducciones, tarea que estuvo a cargo
de Juan Pampin. Los compiladores, además, desean agradecer muy especial-
mente al licenciado Emanuel Bonnier (aka Lord-of-the-graphic-vectors), cuya
pericia y dedicación posibilitó la confección de las imágenes que ilustran los
capítulos i, ii y vi.
Vale la pena destacar que los autores que participan en este libro, además
16
de ser especialistas en los aspectos científico-tecnológicos del área que los
ocupa, son músicos formados y activos. Esto último asegura que, por técnico
que sea el tratamiento de cada tema, siempre esté enlazado con la producción
y la performance musical-sonora. Resulta difícil sugerir un lector ideal pen-
sando en disciplinas o áreas de formación tradicional, cristalizada y estanca.
Antes bien, una de las cualidades imprescindibles del lector que esperamos,
debería ser su disposición a explorar uno de los aspectos más concretos y, a la
vez, más misteriosamente inasibles de la música, el espacio, sin confinarlo a
una disciplina aislada.
Gustavo Basso
Juan Pampin
17
Los autores
Joseph Anderson (Escuela Scarborough de Electroacústica, Artes y Nuevos

Medios, Universidad de Hull, Gran Bretaña). Obtuvo su Ph.D. en la
Universidad de Birmingham. Tiene una amplia formación en las aplicaciones
creativas e industriales de las tecnologías de la música. Ha trabajado como
ingeniero y consultor de mezcla surround, productor de radio y desarrollador
de algoritmos para procesos de señal digital. Sus campos específicos de investi-
gación incluyen el sonido surround Ambisonics, la imagen sonora en la música
acusmática y la composición acusmática. En 1997 obtuvo el Grand Prix en el
Concurso de Música Electroacústica de Bourges por su obra Change’s Music,
e instituciones tales como la bbc Radio 3 y la Sociedad para la Promoción
de Nueva Música le han comisionado composiciones. Su ciclo Epiphanie
Sequence ha sido editado recientemente por Sargasso (SCD28056).
Gustavo Basso (Facultad de Bellas Artes, Universidad Nacional de La Plata,

Argentina). Ingeniero y músico, es profesor de acústica musical en las uni-
versidades de La Plata y Buenos Aires. Dirige proyectos de investigación en
temáticas relacionadas con la percepción auditiva y la acústica musical, y se
dedica al diseño de espacios acústicos, en particular teatros y auditorios de
música. Entre sus recientes y más significativas producciones figuran los libros
Análisis espectral: la transformada de Fourier en la música (1999) y Percepción
auditiva (2006). Actualmente trabaja en el diseño acústico de la Ciudad de la
Música y del Centro Cultural Bicentenario, y participa en la restauración del
Teatro Colón de Buenos Aires.
Pablo Cetta (Facultad de Artes y Ciencias Musicales, Universidad Católica

Argentina. Área de Artes Multimediales, Instituto Universitario Nacional del
Arte, Argentina). Es compositor y docente-investigador, secretario académico
del área de Artes Multimediales del Instituto Universitario Nacional del Arte.
Sus obras han recibido importantes distinciones nacionales e internacionales.
Asimismo, ha realizado numerosas publicaciones, investigaciones y desarro-
19
llos en aplicaciones informáticas para música y audio digital, estética y teoría
compositiva.
Mariano Cura (Universidad Nacional de Quilmes. Área de Artes

Multimediales del Instituto Universitario Nacional del Arte, Argentina).
Es compositor, pianista y docente-investigador. Se graduó como Licenciado
en Composición con Medios Electroacústicos en la Universidad Nacional
de Quilmes. Actualmente dirige esa carrera, se desempeña como docente en
dicha universidad y en el Instituto Universitario Nacional del Arte, y dirige
un proyecto de investigación que forma parte del programa de investigación
“Teatro acústico” de la unq. Entre otras actividades de producción musical y
sonora se destaca su participación en el grupo “Buenos Aires Sonora”.
Oscar Pablo Di Liscia (Universidad Nacional de Quilmes. Área de Artes

Multimediales del Instituto Universitario Nacional del Arte, Argentina). Es
compositor y docente-investigador especializado en música por computadoras.
Actualmente dirige un proyecto de investigación en espacialización de sonido
(integrado al programa de investigación “Teatro acústico” de la unq) y otro
en composición musical (en el Instituto Universitario Nacional del Arte).
Es profesor titular en ambas instituciones y director de la colección “Música
y Ciencia” de la Editorial de la unq. Ha publicado artículos sobre estética
y técnica de la música y las nuevas tecnologías, y desarrollado software para
proceso de sonido y música, análisis musical y composición.
Robert Dow (Escuela de Artes, Cultura y Medio Ambiente, Universidad de

Edimburgo, Gran Bretaña). Se graduó en Ciencias, Música, Leyes y Estudios
Cinematográficos en las universidades de Edimburgo y Birmingham. Vive
actualmente en Escocia. Es un compositor muy activo que presenta obras en
la mayoría de los festivales de todo el mundo. Es investigador senior en la
Universidad de Edimburgo y se especializa en teoría del sonido y en la com-
posición y performance de música electroacústica.
Pablo Fessel (conicet; Universidad de Buenos Aires, Argentina). Es inves-

tigador del Consejo Nacional de Investigaciones Científicas y Técnicas en
el área de musicología histórica y director de un proyecto de investigación
sobre música contemporánea argentina en la Facultad de Filosofía y Letras
de la Universidad de Buenos Aires. Ha publicado escritos sobre el concepto
de textura, y sobre la música de Beethoven, Gandini, Ives y Ligeti en revistas
especializadas de la Argentina, Brasil y México. Ha editado la compilación
Nuevas poéticas en la música contemporánea argentina. Escritos de compositores.
20
Gary S. Kendall (Escuela de Música y Artes Sonoras, Centro de Investigación
en Artes Sonoras, Queen’s University, Belfast, Irlanda del Norte). Obtuvo
su Ph.D. en la Universidad de Texas, Austin, en 1982. Luego fue profesor
asociado y jefe del programa en Tecnología de la Música en la Northwestern
University. Desde 2008 es profesor invitado en el Centro de Investigación en
Artes Sonoras de la Queen’s University. Ha publicado numerosos artículos
sobre audio 3D y espacialización de sonido, entre otros, en Computer Music
Journal, Organised Sound y la icmc. Sus investigaciones se han presentado en
la Electroacoustic Music Studies Conference, seamus, la Audio Engineering
Society y la Acoustical Society of America. Sus composiciones se han
difundido en seamus, el festival Spark y el Florida Electroacoustic Music
Festival.
Martín Liut (Universidad Nacional de Quilmes. Universidad de Buenos

Aires, Argentina). Compositor y docente-investigador. Es director del proyec-
to “Espacio y forma musical”, que integra el programa “Teatro acústico” (diri-
gido por Oscar Edelstein), con sede en la unq. Integra el proyecto “Textura y
forma en la música contemporánea argentina (1972-2006)”, que dirige Pablo
Fessel en la uba. Es autor de obras de cámara electroacústicas puras y mixtas,
como así también de obras de arte radiofónico. Es fundador y director de
“Buenos Aires Sonora”, grupo que, desde 2003, realiza intervenciones sonoras
a gran escala en espacios públicos urbanos.
Dave Malham (Centro de Investigación en Música, Universidad de York,

Gran Bretaña). Es ingeniero de audio y miembro del comité directivo del
Grupo de Tecnología Musical de la Universidad de York. Malham es uno
de los más prestigiosos y activos especialistas actuales en el sistema surround
Ambisonics. Es autor de numerosas publicaciones y desarrollos que incluyen
la ingeniería de audio (diseño de hardware), programación de audio, grabación
de audio y los sistemas de proyección de sonido surround.
Juan Pampin (Centro de Artes Digitales y Medios Experimentales, Universidad

de Washington, Seattle, Estados Unidos). Es compositor y artista sonoro.
Vive y trabaja en Seattle, donde es profesor de composición en el Centro
de Artes Digitales y Medios Experimentales (dxarts) de la Universidad de
Washington, del que es miembro fundador. En dicho centro realiza, además,
investigación en análisis espectral y espacialización de sonido. Sus composi-
ciones han sido programadas en importantes festivales de América, Europa y
Asia, y grabadas por destacados ensambles y solistas internacionales.
21
Capítulo I
Audición espacial de sonido: conceptos básicos
y estado actual de la cuestión
Gustavo Basso
Utilizamos la información espacial del sonido constantemente en nuestra vida

cotidiana. Basta cerrar nuestros ojos y analizar, aunque más no sea intuitiva-
mente, la escena auditiva que nos rodea, para tomar conciencia de la cantidad
y relevancia de la información espacial que se nos presenta. Por otra parte,
las aplicaciones de la investigación en audición espacial son numerosas y muy
relevantes. Una lista no exhaustiva pone en evidencia su importancia: diseño
de dispositivos de difusión, técnicas de procesamiento de señales de audio con
la finalidad de simular cualidades espaciales, diseño de recintos de audición,
uso de sistemas de difusión y la segregación-fusión e inteligibilidad de flujos
sonoros. Muchas de estas aplicaciones, así como las técnicas y tecnologías
que comprometen, serán objeto de un estudio detallado en los capítulos
subsiguientes de este libro. Sin embargo, para su comprensión acabada, es
imprescindible el conocimiento de la manera particular en que nuestro sis-
tema auditivo procesa la información espacial, tema que se desarrollará en el
presente capítulo.
Al analizar la espacialidad del sonido, nuestro sistema auditivo considera
información que se puede clasificar en tres grupos: 1) información relacionada
con el ámbito o entorno físico en el que se encuentra una fuente acústica; 2)
información relacionada con la localización y/o el movimiento de una fuente
acústica respecto del ámbito o entorno físico en el que se encuentra o respecto
de la cabeza del oyente; 3) información relacionada con la directividad de la
fuente acústica.
Asimismo, esta información es combinada con la que proviene de otros
sentidos (principalmente la vista), y de nuestro conocimiento previo del com-
portamiento de la fuente acústica. Nuestra percepción de la espacialidad del
sonido es, entonces, holística.
En lo que sigue, se tratarán las particularidades de la audición espacial
que se relacionan con la ubicación-movimiento y con la directividad de las
fuentes acústicas (puntos 2 y 3), dado que aquellas que se relacionan con el
23
ámbito o recinto se tratan extensamente en el capítulo ii. Sin embargo, dado
que todas las particularidades de la audición espacial son interdependientes y
que es prácticamente imposible tratar a una de ellas de manera completamen-
te aislada de las otras, se realizan algunas menciones a la audición de recintos
cuando resulta imprescindible.
Representación geométrica del espacio
En este capítulo, el espacio tridimensional se representará mediante una esfera

cuyo radio es la unidad (esfera-unidad) e integrado por tres planos, siendo cada
uno de ellos diferentes secciones de dicha esfera. Los tres planos mencionados
se denominan: frontal, horizontal y medio.
Para referirse a cualquier punto de esta esfera teórica, pueden usarse tanto
coordenadas esféricas como cartesianas. Si usamos coordenadas cartesianas,
tres valores son necesarios para definir un punto determinado: x (izquierda-
derecha), y (frente-atrás) y z (arriba-abajo). Cuando usamos coordenadas esfé-
ricas, dos ángulos (azimut y elevación) y un escalar de magnitud (distancia)
son necesarios (véase la figura 1).
La localización angular (dirección) de una fuente acústica puede pensarse
como si esta fuente se ubicara en un punto determinado de la superficie de la
esfera teórica cuyo centro es la cabeza del oyente. La distancia puede pensarse
en analogía con el tamaño de la esfera imaginaria antes mencionada, deter-
minado por su radio.
Plano
Plano medio
frontal
Atrás r
º
º
Adelante
º
Plano º
horizontal
Figura 1. Los tres planos esféricos
24
Indicios de ubicación espacial de sonido
Se usará la denominación indicios de ubicación espacial para hacer referencia a

aquellos rasgos o características del sonido que son considerados por nuestro
sistema auditivo como portadores de información relevante en lo que hace
a la localización de una fuente acústica. Los indicios que utiliza el sistema
auditivo en la audición espacial de sonido son bien conocidos desde hace
tiempo y han sido tratados extensamente en más de un trabajo.1 Por otro lado,
parece estar bastante bien determinado que el sistema auditivo evalúa estos
indicios y, si alguno de ellos presenta resultados inconsistentes o poco fiables,
no lo toma en cuenta, o le asigna menor importancia como determinante de
localización.
Se puede clasificar a los indicios de ubicación o localización espacial
en: a) indicios relativos a la dirección desde la que llega la señal de la fuente
(localización angular); b) indicios relativos a la distancia entre la fuente y el
oyente.
Indicios relativos a la localización angular
Previamente a su tratamiento debe aclararse que, en general, se producen dos

fenómenos respecto de la dirección percibida de la fuente. El primero de ellos
se denomina “lateralización” y designa la sensación de ubicación de la fuente
respecto de la cabeza del oyente. Esto se produce en la situación típica de audi-
ción con auriculares en la que, cuando el oyente mueve la cabeza, la imagen
sonora queda “pegada” a esta. El otro fenómeno se denomina “localización”.
En este, el oyente percibe la dirección de la fuente respecto de un espacio
externo a su cabeza, y los eventuales movimientos de esta son independientes
de la ubicación de la fuente.
Los indicios relativos a la localización angular que se tratarán son los
siguientes: itd (Interaural Time Difference, diferencia interaural de tiempo);
iid (Interaural Intensity Difference, diferencia interaural de intensidad); e indi-
cios espectrales hrtf (Head Related Transfer Functions, funciones de transfe-
rencia relativas a la cabeza).
ITD (diferencia interaural de tiempo)
La diferencia interaural de tiempo (itd) consiste en la diferencia en el tiempo

de arribo de la señal a los dos oídos y orienta al oyente en la ubicación de la
1 A modo de ejemplo célebre, véase Blauert (1983).
25
fuente acústica en el ángulo horizontal. Varía entre 0 y 690 µs para señales
cuyos ángulos de azimut corresponden a 0º y 90º, respectivamente. Como
una onda acústica que se propaga en el aire tarda aproximadamente 30 µs en
recorrer 1 cm, para ir de un oído al otro necesita aproximadamente 690 µs.2
Si las señales son estrictamente sinusoidales, una diferencia de tiempo
equivale a una diferencia de fase. A bajas frecuencias la información conteni-
da en la diferencia de fase es significativa, pero a altas frecuencias la longitud
de onda es menor que la distancia entre oídos y la diferencia de fase provee
datos ambiguos. A una longitud de onda de 23 cm, similar a la distancia
promedio entre oídos, le corresponde una frecuencia de 1.500 Hz. Si la señal
posee 10 kHz entran varios ciclos completos en esa distancia y la fase deja de
aportar información espacial unívoca. En la figura 2 se pueden apreciar estas
dos situaciones.
a)
º
Baja frecuencia
F1
b)
F1
F2
Alta frecuencia
Figura 2. Pérdida de efectividad de la itd a alta frecuencia por confusión de fase. El

mecanismo no puede distinguir entre la localización de las fuentes F1 y F2 si emiten a alta
frecuencia
2 Se considera aquí una cabeza de tamaño promedio (aproximadamente 23 cm de diámetro).
26
En este caso, los movimientos de la cabeza reducen en parte la ambigüedad de
fase, pero ésta resulta muy grande para frecuencias por encima de los 1.500 Hz
y el mecanismo de itd pierde toda efectividad.
En la figura 3 se aprecia la diferencia de recorrido en función del ángulo
de entrada de las señales que llegan a los oídos.
sen
Figura 3. Cálculo de la diferencia de recorrido entre las señales que llegan a ambos oídos
Si denominamos r al radio de la cabeza, la diferencia de recorrido d es:
d = r θ + r sen θ
En la figura 4 se puede ver el gráfico de las diferencias temporales de llegada

en función del ángulo θ. La curva se quiebra a 90º por simetría bilateral.
Diferencia interaural de tiempo (ms)
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0º 20º 40º 60º 80º 100º 120º 140º 160º 180º
Ángulo horizontal desde el frente (azimut)
Figura 4. Diferencia interaural de tiempo (itd) en función del azimut
27
IID (diferencia interaural de intensidad)
La diferencia interaural de intensidad (iid) consiste en la diferencia de inten-

sidad de las señales en los dos oídos y orienta al oyente en la ubicación de la
fuente acústica en el ángulo horizontal. En la mayoría de los casos, la iid no
es provocada por la desigualdad de recorrido entre la fuente y cada oído, sino
por la sombra acústica que causa la cabeza al interponerse entre la fuente y el
oído más alejado.
En la figura 5 se puede ver la diferencia interaural de intensidad (iid)
en función del azimutθ. La frecuencia de la señal sinusoidal generada por la
fuente se emplea como parámetro de la familia de curvas.
30
20
6000 10
Diferencia interaural de intensidad (dB)
0
5000 10
0
4000 10
0
Fecuencia (Hz)
3000 10
0
2500 10
0
1800 10
0
1000 10
0
500 10
0
200 10
0
0º 30º 60º 90º 120º 150º 180º
Ángulo horizontal desde el frente (azimut)
Figura 5. Diferencia interaural de intensidad (iid) en función del azimut θ y de la frecuencia
Ya se mencionó que una cabeza humana promedio se puede aproximar a una

esfera de alrededor de 23 cm de diámetro. A causa del fenómeno de difracción
la cabeza no provoca una sombra acústica nítida por debajo de 1.700 Hz y
resulta acústicamente transparente por debajo de 500 Hz. Como puede verse
con claridad en la figura 4, la iid es ínfima a frecuencias por debajo de los 500
Hz, pero puede llegar hasta 20 dB a frecuencias elevadas. En otros términos,
la difracción de las ondas en la cabeza limita la eficacia del mecanismo de
28
detección de diferencias interaurales de intensidad a la parte superior del
espectro audible.
En cuanto al mínimo cambio detectable en la iid, se ha comprobado que
llega a 1 dB para señales frontales siempre que la frecuencia de la señal supere
los 1.000 Hz.
Un buen ejemplo relacionado con la iid lo provee la reproducción este-
reofónica, en la que toda la información espacial está codificada únicamente
en términos de diferencias de intensidad (en los registros de audio más cuida-
dos, sin embargo, se contempla también la información de fase).
Indicios espectrales: hrtf (funciones de transferencia relativas a la cabeza)
Como ya se mencionó, cuando la fuente acústica está ubicada en cualquier

punto del plano medio, las pistas suministradas por la itd y la iid son coin-
cidentes. En este caso, el efecto complejo de “filtrado” que se produce por
acción de nuestro torso superior, cuello, cabeza y orejas es principalmente
responsable de suministrar la información necesaria para determinar la ubi-
cación de la fuente acústica. Debe ser señalado también que la información
entregada es útil tanto para determinar la elevación de la fuente como para
saber si está detrás o delante de nosotros. Dado que esta información es dife-
rente cuando el ángulo horizontal cambia, la hrtf refuerza a las itd y las iid
según corresponda. Sin embargo, algunos experimentos han demostrado que
los oyentes no mejoran su percepción de la dirección en el plano horizontal si
a los indicios de itd e ild se les suman los de las hrtf. Los indicios espectrales
se clasifican en monoaurales y binaurales. Se tratarán unos y otros en las dos
secciones que siguen.
Diferencias espectrales monoaurales
En 1969 Butler sugirió que el pabellón auricular provee información sobre

la localización vertical y sobre la discriminación entre los campos acústicos
anterior y posterior. Es decir, permite localizar fuentes ubicadas en el plano
medio, imposibles de resolver con la iid y la itd (Butler, 1969).
Hoy está aceptado que el pabellón auricular modifica el espectro del
estímulo en función del ángulo de incidencia de la onda en relación con
el eje medio de la cabeza. Esta acción, análoga a la de un filtrado, se mide
comparando el espectro del estímulo exterior con el espectro de la señal en
la entrada del canal auditivo externo. La razón, expresada en dB, se conoce
como “función de transferencia de la cabeza” (hrtf) y se puede apreciar en
la figura 6.
29
Amplitud 10dB
0º
0º 18º
18º
36º
36º
54º
54º
72º
72º
)I
90º 90º
IH (
106º 106º
126º 126º
144º 144º
162º 162º
180º
180º
0,2 0,5 1 2 5 10 15
Frecuencia (kHz)
Figura 6. Funciones de transferencia desde el campo externo hasta la entrada del canal
auditivo externo (hrtf) con el ángulo horizontal θ como parámetro
La información provista por el pabellón auricular, dado su tamaño –unos 27

cm2– es efectiva a frecuencias por encima de los 6 kHz. Entre 500 Hz y 6 kHz
la cabeza, que actúa como pantalla, funciona de manera similar.
En experimentos con ruido de banda angosta, la elevación aparente
deriva de la coincidencia entre los picos de la hrtf y la frecuencia central
del ruido. Por ejemplo, un ruido diótico centrado en 8 kHz se oye “arriba” al
margen de su ubicación real, pues en esa posición la función de transferencia
posee un pico de amplitud.3
Para que el oyente haga un uso eficiente de los datos espectrales asocia-
dos con la dirección de la fuente acústica, es necesario que distinga entre los
picos y valles relacionados con la dirección (hrtf), y los propios de la fuente
y de las reflexiones generadas en las superficies cercanas. Esto significa que el
3 Cuando las señales que llegan a los dos oídos son idénticas se dice que el estímulo es dió-
tico, y cuando son diferentes se lo llama dicótico.
30
conocimiento previo de la fuente y de las condiciones acústicas del ambiente
es relevante. Sin embargo, como cada pabellón auricular provee filtros dife-
rentes y conocidos, se los puede separar de los datos espectrales externos.4 G.
Plenge presentó evidencia de que cuando un sujeto no está familiarizado con
las características de la fuente y del ambiente acústico la localización monoau-
ral se degrada (Plenge, 1974). Pero en compensación se requieren muy pocos
segundos para habituarse a la nueva situación. Esta acomodación espacial es de
gran importancia en la audición y ejecución de música en vivo.
Indicios espectrales binaurales
Cuando se comparan los espectros de la señal entrante en cada uno de los oídos
se descubren significativas diferencias entre estos. De manera análoga al caso
de las hrtf monoaurales, estas diferencias se deben al efecto complejo de “fil-
trado” debido a la acción del torso superior, cuello, cabeza y, particularmente
en este caso, los pabellones auditivos de los oyentes en función del ángulo de
incidencia del frente de onda. Las diferencias espectrales binaurales son usadas
por el sistema auditivo para la determinación de la posición de la fuente acús-
tica en tres dimensiones (particularmente en el plano medio y en la discrimi-
nación frente-atrás, que es en donde los indicios de itd e iid son ineficaces). La
figura 7 muestra el espectro de la respuesta a impulso en cada uno de los oídos
de un individuo para una ubicación espacial hacia la izquierda de este.
Las mediciones de las hrtf se obtienen realizando los productos de la
función de transferencia de la fuente y del equipo de grabación con el oído
contralateral y el oído ipsilateral respectivamente.
A despecho de que existen sutiles variaciones entre los diferentes indivi-
duos debido a sus constituciones físicas,5 se pueden establecer ciertos rasgos
comunes en las hrtf binaurales que son independientes de estos factores. Por
ejemplo, en lo que respecta a la magnitud no hay duda de que las diferencias
son más marcadas en la región de frecuencia por arriba de 1.500 Hz, y esto
se explica en virtud de que es a partir de esta frecuencia hacia arriba que la
cabeza (por su tamaño en comparación con la longitud de onda de los compo-
nentes de frecuencia de la señal) actúa de manera más efectiva produciendo
una sombra acústica. De hecho, se puede pensar a las diferencias espectrales
binaurales como un posterior “refinamiento” de las iid, que constituiría su
4 Un ejercicio interesante consiste en “aplastar” los pabellones contra la cabeza y salir a dar
una caminata. Es notable como se altera nuestra percepción acústica del espacio al modifi-
car levemente los filtros hrtf.
5 ¡Y aun debido a sus vestimentas!
31
Figura 7. Gráfico de magnitud del espectro de la respuesta a impulso de los oídos izquier-
do y derecho de una cabeza artificial, para una señal ubicada a un ángulo horizontal de
45° y de altitud de 0°. Se realizó una fft de 256 muestras con una ventana Blackman-
Harris*
* El gráfico se generó con las respuestas a impulso medidas a partir de grabaciones binau-
rales realizadas con la cabeza artificial Kemmar (información detallada en: <http://sound.
media.mit.edu/KEMAR.html>).
32
medición por bandas de frecuencia diferentes. También se observan (Kendall,
1995) picos significativos en la región de 3.000 Hz (debidos a la resonancia
del canal auditivo) y valles producidos por la interferencia de ondas directas y
reflejadas en el torso (debajo de los 2.000 Hz) y en los pabellones auriculares
(arriba de los 4.000 Hz). Cuando la fuente de sonido se mueve desde el frente
hacia atrás, se observa que el ancho de banda del valle cercano a los 3.000 Hz
crece y que un valle cerca de los 8.000 Hz se traslada hacia arriba. En lo que
respecta a la fase, también existen diferencias significativas entre un oído y
otro. Dado que estas diferencias son especialmente sensibles al tamaño de la
cabeza de los individuos, varían significativamente de uno a otro y, particu-
larmente, de niños a adultos.
Detección angular en fuentes móviles: La habilidad para percibir el movimiento

lateral de una fuente acústica se mide empleando el mínimo ángulo de movi-
miento audible (mama). Los experimentos han mostrado que el sistema auditivo
es poco sensible al movimiento de las fuentes acústicas, aunque se comporta
mejor ante movimientos lentos. Para desplazamientos angulares del orden
de los 15º/s, el mama es de 5º. Pero para movimientos angulares veloces, del
orden de los 90º/s, el mama crece hasta llegar a 21º. Estos valores son mucho
mayores a los de la mínima variación angular detectable en fuentes fijas,
que puede llegar a solo 1º para fuentes de banda ancha ubicadas en el plano
medio.
Indicios relativos a la distancia
Los indicios relativos a la distancia que se tratarán son los siguientes: 1) inten-
sidad global del sonido; 2) proporción entre la señal reverberada y la señal
directa; 3) absorción de altas frecuencias; y 4) efecto de proximidad.
Intensidad del sonido
La intensidad acústica disminuye o aumenta proporcionalmente con el cuadra-

do de la distancia a la fuente. Esto implica que, por ejemplo, una señal acústica
cuya intensidad es igual a 1 (en unidades lineales arbitrarias) y se emite a un
metro del punto de audición, llegará a ese punto con una intensidad de 0,25
(-6 dB) si la fuente se desplaza a 2 metros del punto de audición, y con una
intensidad de 0,125 (-12 dB) si se emite a 4 metros del punto de audición.
Generalizando, una fuente acústica de potencia W producirá, en un
punto del espacio situado a una distancia d, una intensidad I definida por la
expresión I = W / d2 (véase la figura 8).
33
Figura 8. Amplitud de la señal directa y de la reverberada
Proporción entre la señal reverberada y la señal directa
Cuando una fuente acústica se encuentra en un recinto cerrado, además de su

señal directa se producen otras por la reflexión de esta en los elementos físicos
del recinto. A estas últimas se las denomina reverberación.6 Se ha visto en el
punto anterior que la señal directa llega al punto de audición con una inten-
sidad que es proporcional a la distancia que lo separa de la fuente. No ocurre
así con la señal reverberada, que llega al punto de audición con una energía
más o menos constante aunque la distancia entre la fuente y éste cambie. Por
lo tanto, lo que cambia cuando una fuente acústica que emite una señal de la
misma energía se aleja o acerca al punto de audición es la proporción entre la
señal directa y la señal reverberada. Este parece ser el principal indicio respon-
sable para la evaluación de la distancia en ambientes con reverberación y/o
ecos. Si la intensidad de la señal reverberada fuese mucho mayor que la de la
directa, podría llegar a enmascararla, pero el llamado “efecto de precedencia”
(que trataremos más adelante) mitiga los efectos del enmascaramiento por
intensidad.
La figura 8 muestra la comparación entre cuatro señales directas emitidas
con la misma intensidad por una fuente desde ubicaciones sucesivamente
cada vez más alejadas (1 m, 2 m, 4 m y 8 m) del punto de audición. La línea
entera muestra la amplitud de la señal directa en el punto de audición, la
6 Este tema se trata en detalle en el capítulo siguiente.
34
línea punteada muestra la amplitud de la reverberación. Puede observarse que
esta última se mantiene constante. Como consecuencia de esto, la proporción
entre la intensidad de la señal directa y la reverberada en el punto de audición
cambia. En el tercer caso ambas son iguales mientras que, en el cuarto caso, la
reverberación tiene mayor intensidad que la señal directa.
Absorción de altas frecuencias
Debido a la absorción de los gases y la humedad del aire, la energía acústica

de los componentes de alta frecuencia es atenuada de manera directamente
proporcional a la distancia. Este efecto es similar a un filtro pasabajos, y es
considerado relevante únicamente para distancias superiores a 30 metros. Esta
atenuación selectiva en frecuencia no responde a una función sencilla, ya que
es afectada también por la humedad y la temperatura del aire. Para muy poca
humedad, la absorción es casi nula (véase Rossing, 1998, pp. 165-166).
La figura 9 da cuenta de la complejidad del fenómeno:
Figura 9. Absorción en el aire cada 10 m de recorrido y a 20º en función de la humedad

relativa (basado en Harris, 1979)
Como se aprecia en la figura 9, la absorción en el aire es significativa a partir

de 4 kHz y presenta un máximo a una humedad relativa cercana al 20%.
Un cálculo simplificado de este tipo de absorción se encuentra en Moore
(1990, p. 523). Según la fuente citada, la atenuación A, en dB por metro de
distancia sobre un componente de frecuencia f de una señal acústica equivale
aproximadamente a:
35
A(f) = f / 100.000
La fórmula anterior indica que, por ejemplo, un componente de frecuencia de

500 Hz de una señal emitida por una fuente a una distancia de 50 m será ate-
nuado en 0,25 dB, mientras que otro de 10.000 Hz será atenuado en 5 dB.
Cuando se diseñan salas de más de 500 espectadores y según la geometría
del espacio cubierto, es necesario tomar en cuenta la absorción en el aire. Al
aire libre también es necesario tomar en cuenta el viento y las características
acústicas del suelo. Como ilustración, en la siguiente tabla se muestran los
cambios en la atenuación a 500 y 1.000 Hz a 100 m de distancia al variar
dichos factores ambientales:
Tabla 1. Atenuación al aire libre en dB para una señal a 500 y 1.000 Hz en función del
viento y el tipo de cobertura del terreno
Tipo de atenuación 500 Hz 1.000 Hz
Arriba Mínimo Mínimo

Perfil del viento
Abajo Hasta 30 dB Hasta 30 dB
Pasto ralo 3 dB 3 dB
Cobertura del terreno Pasto tupido 5,4 dB 7,4 dB
Árboles 8 dB 10 dB
Es fácil deducir que para que el indicio de absorción de altas frecuencias se

manifieste, la fuente debe tener energía significativa en altas frecuencias.
También es evidente que este indicio depende en gran medida del conoci-
miento a priori de las características de la fuente.
Efecto de proximidad
Una atenuación similar a la explicada en la sección anterior ocurre cuando la

fuente acústica se aproxima mucho a un oído. Se oye un aumento relativo de las
bajas frecuencias que se suele denominar efecto de proximidad. Aunque este efec-
to está relacionado directamente con la curva de audibilidad del oído humano,
también ocurre con algunos micrófonos. Para explicarlo, se usará la descripción
de un micrófono direccional, más sencilla porque funciona como un dispositivo
sensible al gradiente de presión entre ambas caras de un diafragma.
36
Supongamos que la diferencia de recorrido de la onda al alcanzar la cara
frontal y la posterior del diafragma sea de 10 mm. Como la longitud de onda es
función de la frecuencia, a igual intensidad habrá mayor diferencia de presión
a altas frecuencias. Esto se puede apreciar esquemáticamente en la figura 10.
Figura 10. Forma de onda de dos señales. En la señal de baja frecuencia, la diferencia de
presión –en líneas gruesas– es menor que en la de alta frecuencia
Esta dependencia entre la presión y la frecuencia genera una curva que crece
a razón de 6 dB/octava, como se muestra en la figura 11.
El otro componente que produce el gradiente de presión a ambas caras
del micrófono es la diferencia de intensidad provocada por la distancia a la
fuente y que sigue, como ya se explicó, la ley del inverso del cuadrado de la
distancia. La combinación de ambos factores (presión y distancia) se puede
ver en la figura 12.
37
Figura 11. Aumento de la presión entre ambas caras del diafragma de un micrófono en
función de la frecuencia
Figura 12. Combinación de los componentes responsables de la diferencia total de presión

(- - - - = distancia; rrrrr = presión; ––––– = combinación de ambas)
Obviamente, un micrófono con semejante respuesta no sería aceptable. Por

ello, para compensar su respuesta general en frecuencia se lo atenúa con un fil-
tro con una pendiente que decrece a -6 dB/octava, lo que produce la respuesta
casi plana que se grafica en la figura 13.
38
Figura 13. Resultado de la aplicación de una atenuación de -6 dB/octava para una fuente
alejada
Mientras la fuente quede lejos del micrófono, la respuesta resulta casi plana.
Pero si la fuente se acerca mucho, debido a la ley del cuadrado de la distancia,
su componente crece significativamente y “empuja” la curva resultante hacia
arriba, como se aprecia en la figura 14.
Figura 14. Resultado de la aplicación de atenuación de -6 dB/octava para una fuente

cercana
39
Se produce así el llamado “efecto de proximidad”. Su magnitud depende
del diseño del micrófono, pero es generalmente mayor en los direccionales por
gradiente de presión, y nulo en los omnidireccionales.
La curva de audibilidad del oído humano posee una atenuación hacia las
altas frecuencias, similar a la descripta. Es por eso que el efecto se percibe direc-
tamente al acercar una fuente acústica a unos pocos centímetros del oído. Sin
embargo, el efecto no es tan pronunciado como en el caso de un micrófono de
gradiente de presión. Una situación común en la que oímos el efecto de proxi-
midad es cuando se enfatizan las bajas frecuencias de la voz de un locutor.
Directividad de la fuente acústica
Se denomina directividad o patrón de radiación de una fuente acústica al

modo particular en el que dicha fuente irradia en el espacio la señal acústica
que produce.
Una fuente acústica que irradia la misma señal hacia todas las direccio-
nes es considerada omnidireccional. El modelo de radiación omnidireccional
(análogo al de una esfera que crece) es ideal, ya que no se corresponde estric-
tamente con el patrón de radiación de ninguna fuente acústica real. Las fuen-
tes acústicas reales tienen patrones de radiación distintos al omnidireccional
y, por consiguiente, la señal que irradian cuando apuntan hacia el oyente es
distinta de la que irradian cuando apuntan hacia otra ubicación. Este com-
portamiento, que es en general muy complejo, se debe a la constitución física
propia de las fuentes acústicas.
Nuestra experiencia cotidiana con la radiación de la luz nos provee una
analogía que resulta útil para comprender este fenómeno: una esfera que radia
luz en todas las direcciones produce un efecto diferente al de una linterna o
un reflector, que proyectan más luz hacia la dirección a la que apuntan. De
manera análoga con los objetos iluminados, las paredes, techo y piso de un
recinto producirán diferentes ecos y reverberación según las características
direccionales de la fuente acústica y de su orientación. La situación es aun más
complicada, dado que los montos de energía de la señal que irradia una fuente
son también dependientes de la frecuencia.
Todo lo antedicho indica que la señal que emite una fuente acústica cuyo
patrón de radiación no es omnidireccional cambia en espectro y energía de
acuerdo a sus características de directividad y a su orientación.
La figura 15 muestra un esquema en dos dimensiones de la radiación de
dos fuentes acústicas con características direccionales contrastantes. La que se
encuentra a la derecha del oyente es omnidireccional, es decir, irradia montos
40
iguales de energía acústica en todas las direcciones. La que se encuentra al
costado izquierdo es altamente direccional, con un patrón que suele denomi-
narse “hipercardioide”. En ambos casos, las flechas marcan la magnitud de la
radiación de la energía acústica hacia la dirección a la que apuntan (simboli-
zan vectores de radiación).
Figura 15. Esquema bidimensional de radiación de dos fuentes acústicas, a la derecha del
oyente una fuente omnidireccional, y a la izquierda una fuente direccional con patrón
hipercardioide
Numerosos autores –por ejemplo Martin y Meyer– midieron cuidadosamente

las características direccionales de instrumentos musicales, voces y altavoces.
En la figura 16 (a-d) se pueden apreciar los diagramas polares de un violín,
una tuba, un piano y un corno francés, respectivamente. Dado que, como
es de esperar, cada instrumento presenta sus características direccionales en
función de la frecuencia, las mediciones que se muestran fueron tomadas en
cinco diferentes frecuencias.
Los gráficos con diagramas direccionales son herramientas útiles para el
diseño preciso de un sistema de sonido. Sin embargo, muchas veces se necesita
mucho menos información que la que estos proveen y se emplea un factor a
número único para cada frecuencia. A este factor se lo denomina factor de
directividad, Q(f), y se obtiene dividiendo la intensidad sobre el eje de máxi-
ma radiación de la fuente a una distancia r por la intensidad que produciría a
la misma distancia una fuente omnidireccional de la misma potencia que la
fuente a caracterizar. El índice de directividad, di(f), de uso más habitual que
el factor de directividad, se calcula directamente a partir de este último en
base a la siguiente ecuación:
41
a. Características direccionales del violín
para cinco frecuencias diferentes
Figura 16. Características direccionales de algunos instrumentos musicales (basado en

Davis y Davis, 1997, p. 602)
42
b. Características direccionales de la tuba
Figura 16. (Continuación)
43
c. Características direccionales de un piano de cola
Figura 16. (Cont.)
44
d. Características direccionales del corno
Figura 16. (Cont.)
45
di(f) = 10 log10 Q(f)
Como se puede inferir de la ecuación anterior, a una fuente perfectamente

omnidireccional le corresponde un di = 0.
En la figura 17 se pueden apreciar los diagramas direccionales y el índice
de directividad en función de la frecuencia para un altavoz de 30 cm de diá-
metro colocado en una caja de suspensión acústica.
El aumento del índice de directividad en función de la frecuencia cons-
tituye una característica habitual en la mayoría de las fuentes acústicas. Las
consecuencias de la variación de la directividad con la frecuencia son impor-
tantes. En la figura 18 se aprecia el espectro que recibe un oyente ubicado en
distintas posiciones relativas respecto del eje del altavoz.
Diagramas de direccionalidad medidos en un altavoz de radiación directa típico de 30,5

cm de diámetro, en una caja rectangular de 82 x 51 x 30 cm. Se indican los índices de
directividad para F = 00 y un ángulo de índice de directividad cero.
Figura 17. Diagramas direccionales e índice de directividad en función de la frecuencia

para un altavoz de 30 cm de diámetro colocado en una caja de suspensión acústica
46
Figura 18. Efecto espectral de la directividad de un altavoz (basado en Ballou, 1991, p. 555)
Como se puede apreciar en la figura 18, solamente el oyente ubicado en el eje

del altavoz percibirá el sonido sin coloración, es decir con el espectro intacto.
Los demás oyentes percibirán una pérdida de energía de alta frecuencia que se
hará más significativa en la medida en que se alejen del eje. Para evitar este
defecto, los grandes sistemas de refuerzo electroacústico se calculan cuidado-
samente. Para empezar, los diagramas direccionales se miden y dibujan en 3D,
como se muestra en la figura 19.
Este diagrama 3D se aplica, mediante un software específico, al caso
particular a tratar. Por ejemplo, en la figura 20 se puede ver la forma en que
un altavoz “pinta” la platea de un estadio de fútbol que se va a usar para un
recital de rock.
Por lo general, un solo altavoz no puede cubrir eficazmente una gran área.
Por ello, para lograr el efecto que se describió en la figura 20, se emplean com-
binaciones de varios altavoces con la superposición de diagramas direcciona-
les cuidadosamente estudiada. En la figura 21 se pueden ver dos conjuntos
característicos.
47
Figura 19. Diagrama direccional en 3D de un altavoz (realizado con el software CATT-
Acoustic)
Figura 20. Aplicación del diagrama direccional 3D a una platea horizontal
48
49
Figura 21. Arreglo vertical y cluster central de altavoces
50
Si el diseño que se explicó se realiza de la manera adecuada, es posible asegurar
que cada uno de los espectadores recibirá una cantidad adecuada de energía
acústica sin grandes distorsiones de espectro o fase.
Percepción de la directividad de las fuentes acústicas
La directividad de las fuentes acústicas se percibe a partir de la variación de

alguno de los rasgos del sonido que producen. Por ejemplo, si una trompeta
dirige su pabellón hacia un espectador y luego hacia el piso del escenario, el
espectador puede reconocer cambios en la sonoridad, en el timbre y, eventual-
mente, en la claridad y la localización de la fuente.
La disposición en el escenario de los instrumentos de una orquesta es
función, entre otras cosas, de sus respectivas características de directividad.
Los instrumentistas muchas veces las modifican de acuerdo a las necesidades
de la pieza interpretada. Por ejemplo, un trompetista puede alzar o bajar su
instrumento para modificar la intensidad y el brillo del sonido; los cornos
pueden alzar el pabellón para tocar un pasaje modificando notablemente la
directividad;7 un solista de violín puede inclinar hacia adelante su instru-
mento para llegar con mayor claridad y presencia a los oyentes en platea. Y
un ejecutante de platillos “abre” las dos partes de su instrumento variando
dinámicamente la directividad en el tiempo que dura un solo golpe.
Respecto del impacto perceptivo de la directividad de las fuentes acústi-
cas, baste citar esta opinión de uno de sus investigadores más destacados:
Es obvio que oyentes en diferentes ubicaciones escucharán un timbre o cua-

lidad tonal bien diferente debido a la directividad de estas diferentes radia-
ciones. Dentro de una sala de concierto, por supuesto, las reflexiones de las
paredes, techo, piso y otras superficies mezclan a los sonidos, y la directi-
vidad del timbre no es tan evidente para el oyente. Diferencias sutiles y a
menudo sorprendentes existen, sin embargo, y modifican la cualidad de la
interpretación musical (Rossing, 1996).
En una de las investigaciones más recientes sobre la percepción de la directivi-

dad de los instrumentos acústicos y su influencia en la percepción de ambien-
tes8 se tomaron grabaciones de una trompeta, un clarinete y un corno mediante
un arreglo tridimensional de micrófonos en una sala anecoica (Kirkwood,
2003). Los micrófonos fueron dispuestos con una separación de 45°, tanto en el
7 Este efecto es denominado campana in aria.

8 Realizada en 2002-2003 en el marco del proyecto DoReMi9.
51
plano horizontal como en el vertical. Cada instrumentista tocaba notas cortas
aisladas que fueron grabadas filtrándolas por bandas de octava, desde 125 Hz
hasta 8.000 Hz. Se registraron así las variaciones de directividad en función
de la frecuencia de cada instrumento y se calculó su promedio. Se compro-
baron significativas disparidades en ambas, pero en la dimensión vertical las
variaciones fueron más prominentes (Causse, 2002). Mediante un software
especial de simulación de acústica de salas se realizó un modelo de una cono-
cida sala de conciertos de Suecia.9 Los parámetros acústicos que se tuvieron
en cuenta en tal simulación fueron: nivel de presión sonora (spl), factor de
claridad (C80), fracción de energía lateral (LF80) y tiempo de decaimiento
temprano (edt).10
Se usaron tanto notas específicas de cada instrumento (DO4 para la
trompeta, SI3 para el corno y DO#4 para el clarinete) como su directividad
promedio en todo el rango de su registro. El análisis de los resultados mostró
–como era de esperarse– claras diferencias de distribución espacial en el
recinto que son atribuibles a la directividad de cada instrumento usado. Las
más significativas fueron las de spl y C80, menos pronunciadas para LF80 y
prácticamente nulas para edt.
También se realizaron experimentos de audición con once oyentes entre-
nados previamente y que estaban acostumbrados a escuchar en la sala real
que fue simulada. Se realizaron auralizaciones de melodías breves (aproxi-
madamente 10 segundos) y se les presentaron a los oyentes de a pares para
que realizaran una elección cualitativa forzada entre ambas en base a cinco
parámetros subjetivos: sonoridad, reverberación percibida, claridad, facilidad
de localización y naturalidad del timbre instrumental.
El estudio estadístico de los resultados de los test dio como resultado que
el parámetro perceptual favorecido fue la sonoridad (todos los sujetos pudieron
percibir la diferencia de intensidad debida a la directividad específica de cada
fuente), luego la reverberación (fue distinguida en dos de los tres instrumentos),
la claridad solo fue importante para el corno, mientras que tanto las diferencias
en la audibilidad de la localización como del timbre fueron irrelevantes.
Una revisión de los indicios de localización y de los factores

que determinan su prominencia
Algunos investigadores en audición espacial han intensificado sus esfuerzos
9 Se trata del software Odeon, véase <http://www.dat.dtu.dk/~odeon>.

10 Para una explicación de estos factores, véase el capítulo ii de este libro.
52
hacia la determinación de cuáles son los rangos de variación perceptibles de
un indicio, en qué medida nuestro sistema auditivo tiene en cuenta la infor-
mación que proporciona, y cuáles son las condiciones que debe cumplir la
señal acústica para ser portadora de esa información.
Dentro de los más significativos trabajos en este sentido se cuenta el
de Wightman y Kistler (1995). En él sus autores realizan una clara reseña
y clasificación previa de los indicios utilizados por nuestro sistema auditivo
en la localización angular de sonido y luego describen los experimentos que
realizaron para juzgar cuáles indicios, y en qué condiciones, son considerados
más relevantes por nuestro sistema auditivo en una situación dada.
La clasificación de Wightman y Kistler se basa en dos criterios combina-
dos: a) las señales consideradas (binaural o monoaural); y b) la información
evaluada (temporal o espectral). La tabla 2 ilustra esquemáticamente los
indicios y su clasificación.
Tabla 2. Clasificación de los indicios de localización espacial angular, según Wightman y

Kistler
Temporal Espectral
Fase monoaural 1. Nivel general

Monoaural
(Batteau, 1976) 2. Indicios espectrales monoaurales
1. IID
Binaural ITD
2. Diferencias espectrales binaurales
En este trabajo, los autores descartan prácticamente la comparación monoau-

ral de fase en la evaluación de su efectividad. Luego de esto, tratan los factores
que determinan la prominencia de los indicios restantes. Según ellos, los
factores son: a) confiabilidad de los indicios, o consistencia; b) dependencia
del conocimiento a priori de las características de la fuente; c) contenido de
frecuencia de la señal; y d) realismo de los indicios o plausibilidad.
Confiabilidad de los indicios
A su vez, la confiabilidad de los indicios surge de la evaluación de: hasta qué

punto el indicio depende de las características de la fuente; hasta qué punto
provee la misma información en todas las bandas a lo largo del espectro de
frecuencias; hasta qué punto la información es aproximadamente la misma
53
de oyente a oyente (un indicio altamente idiosincrásico, como las hrtf, es
menos confiable) y en qué medida la información provista por el indicio no
es ambigua.
Las conclusiones generales respecto de la confiabilidad favorecen a la itd
en primer lugar, y luego a la iid. Sin embargo, se deben remarcar las observa-
ciones de los autores respecto de la magnitud de la ambigüedad, en el sentido
en que, tanto la itd como la iid son ambiguas, dado que una determinada itd
o iid no es indicio de una sola posición espacial. Como un simple ejemplo de lo
antedicho, piénsese en una fuente acústica que se mueve en el perímetro de un
círculo en el plano medio, con la cabeza del oyente en el centro. En este caso,
tanto las itd como las iid que se registren serán iguales a cero y, por lo tanto,
deberemos recurrir a otros indicios para determinar la posición de la fuente en
el ángulo de elevación.
El rol del conocimiento a priori de las características de la fuente
Cuanto más dependa un indicio en el conocimiento a priori que tiene el oyente

de la fuente acústica involucrada, menos importancia puede tener. Nótese que
si bien esta consideración adquiere un especial sentido en la audición de música,
también es pertinente en oyentes no adiestrados en un lenguaje sonoro espe-
cífico, y en oyentes no músicos habituados a un escenario sonoro por razones
de profesión o trabajo.11 La conclusión general es, por supuesto, que aquellos
sonidos provenientes de fuentes de las que el oyente no tiene un conocimiento
a priori son difíciles de localizar usando indicios que dependen fuertemente de
este conocimiento. Obsérvese la pertinencia en la utilización del concepto de
“comportamiento de la fuente acústica”, dado que la percepción es holística, y
que los sonidos que emite una fuente constituyen una colección extensa, cuyas
características cambian en función de muy diferentes variables. Por dar un solo
ejemplo, el caso de un instrumento musical que puede tocarse con diversas
velocidades, articulaciones, registros, tipos de toque, etc. que influyen de mane-
ra decisiva en los parámetros de la señal resultante. Otra vez, las itd y las iid
vuelven a ser los favoritos, dado que no dependen fuertemente de nuestro cono-
cimiento a priori del comportamiento de las fuentes acústicas involucradas.
El contenido de frecuencia de la señal
Como conclusión general, Wightman y Kistler establecen que “...la localiza-

ción precisa de sonido es posible sólo con fuentes de sonido de banda ancha...”,
11 Como podría ser el caso típico de los mecánicos.
54
dado que los “...estímulos de banda angosta proveen un conjunto típicamente
ambiguo y empobrecido de indicios...”. En la consideración específica de las
regiones del espectro en las que cada indicio opera con mayor intensidad, es
importante observar que los principales indicios alcanzan mayor efectividad
en diferentes regiones del espectro, compensando de esta manera las limita-
ciones de los otros. La tabla 3 muestra un resumen de las conclusiones:
Tabla 3. Los indicios de localización y la región de frecuencia en la que son más promi-
nentes, según Wightman y Kistler (1995)
Indicio Región del espectro en la que es más efectivo
A partir de aproximadamente los 1.500 Hz y para estímulos sinusoidales,

su prominencia disminuye, debido a la confusión en la comparación de
fases a altas frecuencias. Este límite –que corresponde a componentes
ITD
de frecuencia cuya longitud de onda equivale aproximadamente al doble
de la distancia entre nuestros oídos– varía de acuerdo con las caracterís-
ticas espectrales y el tipo de ataque de las señales involucradas.
Disminuye a partir de 1.500 Hz hacia abajo, por debajo de aproxima-

IID damente 500 Hz prácticamente no opera, debido a la difracción de las
frecuencias más graves.
HRTF Su prominencia aumenta a partir de aproximadamente 4.000 Hz debido

mono- a que los picos más significativos de las funciones de transferencia se
aural ubican a partir de ese límite.
HRTF Como es la evaluación de los IID en función de bandas de frecuencias,

binaural está sujeta a los mismos límites.
Realismo de los indicios o plausibilidad
En los sonidos producidos naturalmente, no puede ocurrir que los datos de

un indicio en una banda de frecuencia sean contradictorios con los datos que
produce el mismo indicio en otra banda de frecuencia de la misma señal. Son
distintos, pero no contradictorios, en el sentido en que, por ejemplo, dada una
señal acústica producida por una fuente localizada en una determinada posi-
ción, no podría ocurrir nunca que la iid evaluada en una banda de frecuencias
indique que la fuente acústica está de un lado de la cabeza, mientras que la iid
evaluada en otra banda de frecuencias indique que la fuente acústica está del
otro lado. Lo mismo ocurre con la itd.
55
Sin embargo, en las señales acústicas producidas artificialmente es com-
pletamente posible lograr, para distintas bandas de frecuencias, datos contra-
dictorios en el mismo indicio. Wightman y Kistler, a través de numerosos tests,
comprueban que nuestro sistema auditivo es capaz de seguir al indicio plausible
y descartar aquellos que no lo sean. Los datos de sus experimentos son muy sig-
nificativos, porque demuestran que basta un solo dato respecto de un indicio en
una banda de frecuencia que sea inconsistente con los datos del mismo indicio
en otras bandas de frecuencias para que el sistema auditivo debilite totalmente
la importancia de ese indicio y siga a otros que sean consistentes.
El rol de los movimientos de la cabeza en la localización
Los experimentos de Wightman y Kistler también demuestran que nuestra

habilidad para girar la cabeza y orientarla hacia donde suponemos que provie-
ne el sonido es decisiva para la resolución de confusiones frente-atrás. Luego
de probar extensamente con la audición de indicios en tests de diferencias
frente-atrás (a través del agregado de ecos, y a través de la exageración de
indicios de hrtf) en experimentos con oyentes en situación de cabeza esta-
cionaria, lograron significativos resultados simplemente realizando los experi-
mentos en situación de cabeza móvil.
Lo antedicho sugiere que, por fuertes que sean los indicios, determinadas
posiciones o localizaciones no pueden ser resueltas de manera precisa por el
sistema auditivo sin que se comprometan otros recursos.
Efectividad de los indicios relacionados con la distancia
A pesar de que el trabajo ya citado de Wightman y Kistler no provee una

evaluación de los indicios relacionados con la distancia, el conocimiento de
estos permite exponer algunas consideraciones al respecto.
En general, los juicios auditivos sobre la distancia a la que se encuentra
una fuente acústica son relativamente imprecisos, y los errores con relación a
la distancia física son del orden del 20% en situaciones normales.
A pesar de su aparente simplicidad, la intensidad del sonido no pare-
ce ser un indicio fiable para juzgar la distancia entre la fuente y el oyente.
Físicamente hablando, es bien sabido que la intensidad acústica disminuye
proporcionalmente con el cuadrado de la distancia. La intensidad no es
ambigua (un valor de intensidad acústica se corresponde con un valor de
distancia), y entrega proporcionalmente la misma información en todas las
bandas de frecuencia (i.e., no necesita energía en una zona en particular del
espectro para manifestarse). Sin embargo, la sonoridad (cuya relación con la
56
intensidad acústica de la señal no es lineal) depende fuertemente del conoci-
miento a priori de las fuentes acústicas involucradas. De hecho, no se piensa
que el sonido producido por una persona susurrando cerca del oyente es más
fuerte que el sonido producido por una persona gritando lejos, aun cuando la
primera señal superara en energía intensidad a la segunda.
Las diferencias espectrales que se producen por el efecto del aire en fun-
ción de la distancia de la fuente son solo efectivas a distancias mayores de
30 m y requieren por parte del oyente un conocimiento de las características
de la fuente acústica.
El indicio más efectivo en la apreciación de la distancia entre la fuente
acústica y el oyente es la proporción entre reverberación y sonido directo. Sin
embargo, ya que tal indicio sólo se manifiesta en recintos, es interesante descri-
bir lo que ocurre cuando los oyentes son privados de estos indicios. Por ejemplo,
en el campo libre no actúa el sistema de evaluación de la perspectiva relaciona-
do con la reverberación, y la precisión de los juicios con relación a la distancia
se reduce significativamente. Estas situaciones se han estudiado en experiencias
de laboratorio, con fuentes sinusoidales ubicadas en cámaras anecoicas, en las
que se preserva solamente la información relacionada con la intensidad física.
Un estudio relativamente reciente (Zahorik, 2002) revela que existe
en el sistema auditivo una tendencia a subestimar distancias grandes (i.e.,
percibir que una fuente lejana está más cerca de lo que en realidad está) y
sobreestimar distancias pequeñas (i.e., percibir que una fuente cercana está
más lejos de lo que en realidad está). Además de ello, en dicha investigación
se demuestra que la importancia asignada a los dos indicios que se estudiaron
(intensidad y proporción entre sonido directo y reverberación) varía signi-
ficativamente en función de los dos estímulos usados (ruido y habla) y de la
posición angular de la fuente en el plano medio (0° a 90°).
Consecuentemente, todo lo antedicho puede constituir la causa por la que
la apreciación que realiza nuestro sistema auditivo de la distancia entre la fuente
acústica y el oyente no sea muy precisa.
Otros indicios que afectan la audición espacial
Efecto Doppler
El efecto Doppler, responsable –por ejemplo– del cambio de altura en las sire-
nas de las ambulancias cuando pasan a nuestro lado, es una importante fuente
de información sobre el cambio en el sentido del movimiento relativo entre el
emisor acústico y el oyente. El efecto Doppler es un fenómeno físico que hace
57
que la frecuencia aparente en el punto de recepción aumente si este se acerca
a la fuente, y que disminuya si se aleja de ella. En la figura 22 se ilustra el caso
con una fuente acústica en movimiento hacia un receptor en reposo.
Si la fuente se encuentra quieta la onda acústica llenará la distancia FR
que la separa del receptor en un tiempo ∆t = FR/c, con c como la velocidad del
sonido en el aire. La longitud de onda en este caso es λ = FR / f ∆t. Pero si la
fuente se desplaza hacia el receptor a velocidad vF la onda acústica recorrerá
en el mismo tiempo una distancia menor F’R. La fuente se habrá movido en
ese lapso una distancia F’R – FR = vF ∆t y la nueva longitud de onda será λ’
= F’R / f ∆t. Tomando en cuenta la relación general v = λf y luego de algunas
operaciones algebraicas sencillas se tiene que:
c - vF
f’ = f
c
En la ecuación anterior f es la frecuencia de la señal emitida por la fuente y f ’
es la frecuencia aparente en el punto de recepción. Si se considera también la
posibilidad de movimiento del receptor a velocidad vR la ecuación se modifica
levemente:
c - vF
f’ = f
c - vR
La simulación del efecto Doppler tiene un impacto significativo en la plau-
sibilidad de los efectos especiales para cine y multimedia y se emplea desde
hace tiempo en música electroacústica a partir de módulos específicos de
procesamiento.12
Figura 22. Efecto Doppler con una fuente F en movimiento a velocidad vF hacia un recep-
tor R en reposo
12 La obra electroacústica Turenas (1972) del compositor estadounidense John Chowning

es la primera en utilizar este efecto por medio de programas informáticos especialmente
diseñados a tal efecto por su autor.
58
Efecto Haas o efecto de precedencia
Sabemos que el sentido de la audición, a diferencia de la vista, se concentra

en las fuentes acústicas antes que en las reflexiones provocadas por los objetos
del entorno. Un ejemplo cotidiano ocurre al localizar la ubicación de una
fuente acústica en una sala reverberante donde la mayor parte de la energía
proviene de reflexiones. H. Wallach y H. Haas investigaron este fenómeno
con dos señales asincrónicas (véanse Wallach, Newman y Rosenzweig, 1949
y Haas, 1951).
El efecto de precedencia y su importancia en la acústica de recintos se trata
en el capítulo siguiente de este libro. Baste mencionar aquí que, en general,
consiste en un mecanismo que ayuda a la discriminación entre la señal directa y
reverberada o sus reflexiones, a través de las diferencias temporales entre estas.
Bibliografía
Ballou, G. (ed.) (1991), Handbook for Sound Engineers, Indiana, Howard W.

Sams & Co.
Basso, G. (2006), Percepción auditiva, Bernal, Editorial de la Universidad
Nacional de Quilmes.
Batteau, D. W. (1976), “The role of the pinna in human localization”,
Proceedings of the Royal Society, Ser. B 168, pp. 158-180.
Blauert, J. (1983), Spatial Hearing, Cambridge, mit Press.
Butler, R. A. (1969), “Monaural and binaural localization of noise bursts ver-
tically in the median saggital plane”, Journal of Auditory Research, vol. 3.
Causse, Rene et al. (2002), “Directivity of musical instruments in a real per-
formance situation”, Proceedings of the International Symposium of Music
Acoustics.
Davis, D. y C. Davis (1997), Sound System Engineering, Boston, Focal Press.
Fletcher N. y T. Rossing (1998), The physics of musical instruments, Springler.
Haas, H. (1951), “Über den einfluss eines einfahechos auf die hörsamkeit
von sprache”, Acustica, vol.1, pp. 49-58 [traducción al inglés: “The
influence of a single echo on the audibility of speech”, Journal of the Audio
Engineering Society. 20, 1972, pp. 146-159].
Harris, C. M. (ed.) (1979), Handbook of Noise Control, Nueva York, McGraw-
Hill Book Company.
Kendall, G. S. (1995), “A 3-D Sound Primer: Directional Hearing and Sound
Reproduction”, Computer Music Journal, vol.19, N° 4, Cambridge, mit
Press.
59
Kirkwood, B. et al (2003), “Perceived influence of changes in musical ins-
truments directivity representation”, SMAC03 Proceedings, Estocolmo,
Stockholm Music Acoustics Conference.
Moore, F. R. (1990), Elements of Computer Music, Nueva Jersey, Prentice
Hall.
Plenge, G. (1974), “On the difference between localization and lateraliza-
tion”, Journal of the Acoustical Society of America, vol. 56.
Rossing, T. (1996), “Modes of Vibration and Directivity of Percussion
Instruments”, en <http://www.acoustics.org/press/131st/lay10.html>.
Wallach H., E. Newman y M. Rosenzweig (1949), “The precedence effect in
sound localization”, American Journal of Psychology, 52, pp. 315-336.
Wightman F. y D. Kistler (1995), “Factors Affecting the Relative Salience
of Sound Localization Cues.”, en Gilkey, R. H. y T. R. Anders (eds.)
(1997), Binaural and spatial hearing in real and virtual environments, Nueva
Jersey, Laurence Erlbaum Associates, pp. 1-23.
Zahorik, Pavel (2002), “Assessing auditory distance perception using virtual
acoustics”, Journal of the Acoustical Society of America, N° 111 (4).
60
Capítulo II
Percepción espacial del ambiente acústico
Gustavo Basso
En el capítulo i se ha visto cómo se localiza y lateraliza una fuente acústica en

el espacio que rodea al oyente. Otra operación perceptual de gran importancia
es la evaluación auditiva que realizamos acerca de la naturaleza misma del
ambiente acústico en el que el oyente está inmerso. Este ambiente acústico
es, la mayoría de las veces, común a fuente y receptor.
A lo largo de la historia se han empleado y construido espacios destinados
específicamente a la audición de música y palabra, y se ha invertido gran can-
tidad de tiempo y de recursos en el intento por comprender sus características
y modos de funcionamiento. Para analizar nuestra percepción espacial de los
ambientes acústicos debemos, por lo tanto, examinar en detalle dichos traba-
jos y a ello nos vamos a dedicar en el presente capítulo.
Percepción auditiva del ambiente
Albert Bregman llamó análisis auditivo de escenas al proceso que permite reunir
en una unidad perceptiva el conjunto de datos provenientes de una fuente
acústica externa (Bregman, 1994). Una fuente acústica es una entidad física
que genera ondas en el aire. Un agregado auditivo es un percepto causado por
un grupo de elementos sonoros que se experimenta como un todo y que parece
emanar de una única fuente acústica externa. Normalmente, las propiedades
emergentes que definen cada agregado están correlacionadas con las propie-
dades de los objetos físicos asociados.
Resulta interesante comparar las estrategias de agrupamiento y segrega-
ción de datos que operan en los sentidos de la visión y de la audición. Existe
una diferencia crucial en el modo en que usamos la energía acústica y la lumí-
nica para obtener información del mundo exterior. Cuando analizamos audi-
tivamente un espacio hacemos uso de la energía emitida por ciertos objetos
físicos (las fuentes acústicas) y casi no tomamos en cuenta la energía reflejada
61
en otros objetos físicos. En una situación normal existe la misma cantidad
de agregados auditivos, que podríamos denominar también objetos sonoros,
y de fuentes acústicas físicas. Las reflexiones –que cambian en función del
contexto espacial– degradan la información que nos llega de cada una de las
fuentes. En consecuencia necesitamos atenuar la información que llega por
reflexión y colocar en primer plano la que nos llega directamente (en una sala
de conciertos situamos auditivamente el piano en el escenario, aun cuando
gran parte de su energía nos llega por reflexión desde las paredes y el cielorraso
de la sala). Por el contrario, la información visual está causada principalmente
por la reflexión de la luz en los objetos de interés. Encendemos una lámpara
no porque nos interese mirarla, sino para ver por reflexión los objetos de la
sala. A diferencia de la gran cantidad de fuentes acústicas que nos acompañan
desde siempre, hubo una sola fuente de luz a la vez a lo largo de gran parte
de nuestro recorrido evolutivo. En resumen, los datos auditivos y visuales son
diferentes y se complementan para brindarnos un panorama verosímil del
mundo exterior.
Las características acústicas del ambiente, que pueden tomar la forma
de reflexiones discriminables o de reverberación difusa, pueden percibirse
separadas de la fuente acústica o pueden integrarse alterando de algún modo
su calidad sonora. El efecto de precedencia describe las circunstancias que
determinan la emergencia de una de estas dos alternativas.
Efecto de precedencia
Hans Wallach y Helmut Hass investigaron lo que ocurre al intentar localizar

la ubicación de una fuente acústica en una sala reverberante donde la mayor
parte de la energía proviene de reflexiones (Wallach et al., 1949; Hass, 1951).
El efecto de precedencia, o efecto Hass establece, entre otras cosas, que dos soni-
dos sucesivos se perciben como uno sólo si el intervalo temporal entre ellos
es lo suficientemente corto. Si esto sucede el sonido resultante de la fusión se
ubica espacialmente en la locación correspondiente a la del sonido individual
que llega primero.1
En la figura 1 se puede ver con claridad la región de validez del efecto de
precedencia con relación a la intensidad y el retardo de las reflexiones.
El efecto de precedencia no involucra una completa supresión de la infor-
mación que contienen las reflexiones. El oyente puede distinguir cualitativa-
mente cualquier cambio en el patrón temporal de los estímulos, que aporta
información sobre la sala y la posición de los objetos y paredes en ella. En la
1 El efecto de precedencia se desarrolla en detalle en Basso (2006).
62
Figura 1. Región de validez del efecto de precedencia
región superior de la figura 1 las reflexiones superan los límites del efecto de
precedencia –llegan muy retrasadas o con demasiada intensidad con relación
a la señal directa– y se las percibe como ecos aislados; en la parte interme-
dia las reflexiones aportan información del entorno acústico en la forma de
ensanchamiento de la imagen auditiva o de sensación de espacialidad; y en la
región inferior las reflexiones se vuelven inaudibles.
El efecto de precedencia se usa, entre otras aplicaciones, para preservar
la localización espacial de la fuente física cuando se emplean varios altavoces
separados por distancias significativas (Basso, 2006).
Perspectiva auditiva
La perspectiva auditiva, al igual que su contraparte visual, es una importante

fuente de información ambiental.2 Por ejemplo, el ancho acústico aparente
de una orquesta sinfónica, muy grande en las primeras butacas de la platea,
disminuye a unos pocos grados al oírla a 300 m de distancia en un parque.3 El
efecto es equivalente al efecto visual de las líneas paralelas que convergen en
2 Este tema se desarrolla en detalle en Basso (2006).

3 El parámetro perceptual empleado en acústica de salas se denomina “ancho aparente de la
fuente” (aws), bien correlacionado con el parámetro físico de espacialidad (1-iacc), como
veremos más adelante.
63
el infinito. Si continuamos desarrollando la analogía con el sentido de la vista,
se podría decir que la sonoridad disminuye con la distancia tal como ocurre
con el tamaño aparente de los objetos, y que la definición tímbrica se atenúa
de modo similar al gradiente de color en la visión. La distancia aparente de
la fuente acústica que define la perspectiva auditiva compone una importante
dimensión psicoacústica, aunque no siempre es reconocida como tal. Los
investigadores que desarrollan dispositivos acústicos para cine y sistemas mul-
timedia han concentrado gran parte de su interés en el perfeccionamiento de
modelos virtuales de perspectiva auditiva.
En el dominio de la audición la constancia de la sonoridad funciona de
modo análogo a la constancia de tamaño para el sentido de la vista. Si una
fuente acústica de intensidad constante se aleja de nosotros, la intensidad físi-
ca que nos llega disminuye proporcionalmente con el cuadrado de la distan-
cia. No debe sorprendernos entonces que una fuente cuya intensidad decrece
parezca alejarse. Sin embargo, también podemos experimentar la sensación de
oír una fuente acústica que disminuye de intensidad sin alejarse –un instru-
mento musical en decrescendo–, cuyo equivalente en el campo visual podría
ser un globo que se desinfla.
La figura 2 sintetiza los trabajos de John Chowning a partir de una gran
cantidad de experimentos sobre la perspectiva auditiva (Chowning, 1999).
Representa una generalización del cambio de la composición espectral de una
señal de banda ancha en función de la altura tonal, la dinámica y la distancia.
A causa de la gran cantidad de dimensiones necesarias para describir los datos
físicos se han incluido espacios bidimensionales (espectros de potencia) den-
tro de un espacio tridimensional cerrado.
Una fuente de información adicional sobre la distancia aparente de
la fuente la proporciona la reverberación del recinto. La percepción de la
reverberación de un campo acústico se puede considerar un caso especial
de integración auditiva. El tiempo de reverberación de un espacio –abierto
o cerrado– aporta información sobre sus características generales: mate-
riales, forma, volumen, distancia a la que se encuentra la fuente acústica,
etcétera.
La relación entre la intensidad de la onda directa y la de la reverbe-
ración es interpretada por el oyente como un índice de distancia. En un
espacio cerrado típico la intensidad del campo reverberante no varía con
la distancia a la fuente, mientras que el sonido directo sí lo hace. Sabemos,
por experiencias previas, que el nivel del campo reverberante depende de
la intensidad de la fuente que lo excita y usamos este conocimiento para
evaluar la intensidad y distancia de las fuentes acústicas en recintos cerrados
(Basso, 2006).
64
Figura 2. Espacio distancia-intensidad-frecuencia según Chowning
Acústica de salas
Para comprender en toda su magnitud la importancia de la percepción espa-

cial del ambiente acústico es necesario analizar el desarrollo de la acústica
de las grandes salas para teatro y música, tema que ha recibido la atención
creciente de investigadores, músicos y público durante los últimos cien años.
Desarrollo histórico hasta el siglo XIX
Aunque la mayoría de las culturas de la antigüedad disponían de espacios

destinados a las reuniones y representaciones colectivas, el inicio histórico
reconocido de la acústica de salas coincide con el desarrollo del teatro griego.
A partir de su estructura se derivan el teatro romano y los anfiteatros latinos,
cuyos detalles de diseño acústico conocemos gracias a los 10 tomos del tratado
De architectura de Vitrubio (c. 70 a.C. - c. 25 a.C.).
En el Renacimiento y la Edad Moderna los avances teóricos de la ciencia
acústica fueron notables gracias a los trabajos de Galileo, Mersenne y Euler.
Sin embargo, la comprensión de los principios que gobiernan la acústica de
65
salas no había progresado y el tratado de Vitruvio seguía siendo la referencia
obligada. Los intentos por reunir teoría y práctica llevaron a la creación
de complicados sistemas de imposible realización. El maravilloso tratado
Musurgia Universalis, editado en 1650 por Athanasius Kircher, es el mejor
ejemplo que nos ha llegado del intento moderno por derivar la acústica de
salas de principios geométricos simples.
En forma paralela, la construcción de espacios destinados a representacio-
nes teatrales y líricas seguía las reglas empíricas que permitieron el desarrollo
que va desde el teatro circular medieval hasta el teatro de ópera en herradura,
una de las tipologías arquitectónicas más exitosas de la historia. Pero, mas allá
de dichos procedimientos empíricos, no existía una comprensión profunda de
los principios que rigen la acústica de salas. Vale a modo de ejemplo la con-
clusión de Charles Garnier, el arquitecto que diseñó la Ópera de París en la
década de 1870. Luego de revisar casi por completo la literatura sobre acústica
de salas de su época, declaró que la acústica le resultaba una “ciencia extraña”,
en la que las reglas y los principios se contradecían entre sí.
A fines del siglo xix se habían consolidado dos tipologías arquitectóni-
cas que llevaron a la creación de las dos grandes formaciones instrumentales
dominantes durante el período: la orquesta sinfónica romántica y la combina-
ción de orquesta y canto en la gran ópera.
En el caso de la ópera la tipología arquitectónica provenía en línea direc-
ta de los teatros en herradura italianos del siglo xviii (Alla Scala de Milán,
La Fenice de Venecia), con algunas variantes locales como en los casos de la
planta circular de la ópera de París o el ejemplo solitario del teatro del festival
de Bayreuth diseñado por Richard Wagner.
En cuanto a la música sinfónica, la necesidad de albergar la mayor canti-
dad posible de espectadores –convertida en exigencia a partir de la revolución
francesa– determinó la tipología estándar de los auditorios. El ancho quedaba
determinado por las vigas transversales de madera más largas necesarias para
sostener el techo –entre 20 m y 24 m–, el largo por la distancia máxima desde
la que se pueden ver con un tamaño razonable los músicos en el escenario. La
altura debía permitir la renovación del aire por convección. Nació así la “caja
de zapatos” característica de la mayoría de los auditorios del siglo xix y de alguna
de las salas del siglo xx. Si a esta caja le agregamos las características de estilo
propias de la época, como casetones, nichos, alto y bajo relieves, esculturas
y otros ornamentos de texturas difusoras, tenemos los elementos básicos que
definen, por ejemplo, al Konzerthaus de Berlín, inaugurado en 1821.
En la actualidad se ha retomado esta tipología arquitectónica, hecho que
no debe sorprendernos. La orquesta sinfónica romántica –pensemos en las
sinfonías de Brahms o de Tchaikovsky– nació y se ajustó en su interior. El
66
Figura 3. Konzerthaus de Berlín
balance de sonoridades, traducido en cantidad de instrumentos por fila –las

cuerdas, por ejemplo, incluyen alrededor de 16 primeros violines, 14 segundos
violines, 12 violas, 10 cellos y 8 contrabajos–, es consecuencia de las condi-
ciones acústicas particulares de esta clase de salas. Es razonable suponer que el
balance instrumental se conservará mejor en espacios similares a la “caja de
zapatos” original. Lo anterior no es válido, por supuesto, para otros géneros y
estilos musicales.
A principios del siglo xx comenzó una tendencia, que se mantendría
hasta nuestros días, que consiste en tratar de imitar la acústica de las salas
del siglo xix sin copiar su arquitectura. Los profundos cambios en el estilo
arquitectónico ocurridos durante los últimos 100 años, que comprenden tanto
la geometría como los materiales, dieron lugar a nuevas tipologías arquitectó-
nicas entre las que se encuentran las salas con planta en abanico, las arenas y
los auditorios asimétricos.
Trabajos de Wallace Sabine
El estudio científico de la acústica de salas para música nació con los trabajos
realizados por Wallace Clement Sabine (1868-1919) a fines del siglo xix. En
67
1895, Sabine, entonces un joven físico de Harvard, fue comisionado para
corregir la acústica deficiente del salón de lectura del Fogg Art Museum.
Tras dos años de estudio y experimentación pudo mejorar considerablemente
la sala. En el año 1900, a raíz de este logro, fue contratado como consultor
acústico para la construcción de un nuevo music hall en la ciudad de Boston,
la primera sala en la que se aplicaría desde el comienzo una teoría acústica
cuantitativa. El diseño de Sabine fue un gran éxito, y el Boston Symphony
Hall es considerado desde entonces como una de las mejores salas del mundo
para música sinfónica.
Durante los años de investigación dedicados tanto al Fogg Art Museum
como al Boston Symphony Hall, y los que le siguieron en los Riverbank
Laboratories, Sabine pudo establecer la relación que existe entre el tamaño
del recinto, la cantidad de material absorbente y la calidad acústica del mismo.
Introdujo el concepto de tiempo de reverberación, definido como el tiempo que
tarda el sonido en extinguirse al cesar la fuente acústica.4 El tiempo de rever-
beración se constituyó, a partir de ese momento, en el principal parámetro
a considerar en el proyecto de una sala para música. Los trabajos de Sabine,
consolidados por el éxito alcanzado con el Symphony Hall de Boston, dieron
inicio a una nueva era en el diseño científico aplicado a la arquitectura.
Modelo de Sabine
El modelo de Sabine establece que la calidad acústica de una sala para música
depende de solo tres parámetros independientes: la sonoridad, el balance y la
reverberación (Sabine, 1922). La sonoridad está relacionada directamente con
la cantidad de energía acústica puesta en juego en el sistema y depende de
la potencia de la fuente y de las características físicas del recinto. El balance
involucra a un conjunto de condiciones temporales y espectrales que tienen
que ver con la preservación del timbre de los sonidos. La mayor contribución
de Sabine fue, sin duda, su teoría de la reverberación.
Según la definición clásica, el tiempo de reverberación (tr) es el tiempo,
medido en segundos, que tarda el nivel de presión sonora en caer 60 dB a par-
tir del momento en que cesa la fuente de señal. Sabine dedujo una fórmula de
cálculo a partir de una hipótesis estadística que supone que la distancia media
entre reflexiones es de 4 V/S, expresión en la que V es el volumen cúbico del
recinto y S la suma de sus superficies interiores. Aunque queda claro que no
todas las posibles geometrías cumplen con esta condición estadística, sí lo
4 En el apéndice al final del capítulo se transcriben las expresiones formales de este y de

otros conceptos citados.
68
hacen las salas estándar en las que ninguna dimensión supera ampliamente a
las otras dos. Por ejemplo, no se la puede aplicar a salas muy largas y angostas,
o con cielorrasos excesivamente bajos.
A partir de esta hipótesis estadística Sabine definió el tiempo de rever-
beración:
tr = 0,16 V/A [s]
En esta expresión, V es el volumen cúbico del recinto [m3] y A la absorción

acústica total en sabinios métricos [m2].5
Es común describir el tr en función de la frecuencia (en bandas de octava
o de 1/3 de octava) considerándose el correspondiente a 1.000 Hz como el de
referencia cuando se consigna un solo valor.
El modelo de Sabine parecía cumplir con todas las condiciones deseables:

comprendía un marco teórico consistente, suministraba las reglas de aplica-
ción práctica a la arquitectura y, como remate perfecto, exhibía el mejor de
los resultados posibles, el Boston Symphony Hall.
Durante la primera mitad del siglo xx se diseñaron gran cantidad de
salas partir del modelo de Sabine y se realizaron numerosos experimentos
psicoacústicos en los que se analizaron las respuestas de los oyentes frente a
los distintos valores posibles de reverberación. Se obtuvieron tablas de corre-
lación cuyas variables por lo general comprendían el tiempo de reverberación,
el volumen cúbico de la sala, la absorción acústica de los materiales y el estilo
de la música involucrada. En un trabajo clásico de esa época, Kuhl aconsejaba
los siguientes valores de tr en función del estilo musical (Kuhl, 1954):
Autor TR óptimo
Mozart 1,5 s
Brahms 1,8 s
Stravinsky 1,4 s
El trabajo del consultor acústico nunca fue tan sencillo: solo había que
establecer el tipo de música que se interpretaría en la sala, seleccionar el tr
5La anterior es la fórmula de Sabine para calcular la reverberación. Existen otras fórmulas
diferentes, entre las que se destacan las de Eyring, Millington, Fitzroy y Poujoule.
69
óptimo de tablas como la de Kuhl y aplicar la fórmula de Sabine al diseño
arquitectónico definitivo. El resultado, tal como aseguraban los textos de
época, no debería diferir mucho del logrado por Sabine en Boston.
Crisis del modelo de Sabine
En la práctica, sin embargo, la situación era diferente. A mediados del siglo

xx las salas nuevas, diseñadas de acuerdo a la secuencia del párrafo anterior,
resultaban decididamente malas. Entre las escasas excepciones figura la
Philharmonie de Berlín, acierto que no alcanzaba para compensar la secuen-
cia de fracasos que ya se contaban por centenares.
Enfrentados con tal estado de cosas, las sospechas de los investigadores en
acústica se dirigieron a una de las hipótesis centrales del modelo de Sabine,
que postulaba la existencia de un decaimiento exponencial de la energía
acústica. En el modelo se supone un campo acústico perfectamente difuso,
en el que todas las direcciones de propagación son igualmente probables. El
resultado temporal de esta difusión es un régimen ideal de extinción expo-
nencial como el que se aprecia en la figura 4, que se ve como una línea recta
por el carácter logarítmico del nivel de presión sonora (nps). Las salas reales,
sin embargo, no poseen semejante comportamiento. En la figura 5 se puede
apreciar el decaimiento de la energía en una sala real de baja difusión.
Los investigadores postularon entonces que los fracasos de aplicación del
modelo de Sabine se debían a la divergencia entre los campos acústicos reales
y la condición exponencial exigida por el modelo teórico. Como el tiempo
de reverberación se puede definir únicamente en un sistema con decaimiento
exponencial, se puso en evidencia que el tr no bastaba para describir comple-
tamente la situación acústica de una sala real. La ausencia de otros parámetros
Figura 4. Decaimiento exponencial teórico del nivel de presión sonora en una sala de alta
difusión
70
Figura 5. Medición del nivel de presión sonora en una sala de difusión media
de descripción complementarios explicaría por qué muchas salas con valores

de tr óptimos se comportaban decididamente mal. A pesar de su innegable
utilidad, el tr no alcanzaba para describir por sí solo la complejidad de un
campo acústico real.
Sin embargo, la fórmula de Sabine permaneció, con ciertas modifica-
ciones, como la base de la moderna ciencia acústica. Más de sesenta años
después de los trabajos de Sabine, un texto sobre acústica arquitectónica de
1958 admitía que la reverberación era “la única cualidad acústica que podía
ser medida objetivamente”. En las décadas de 1950 y 1960 Leo Beranek inten-
taría llevar la disciplina más allá de este límite.
La catástrofe del Philharmonic Hall
La teoría de Sabine tuvo su momento de inflexión con los trabajos de Leo

Beranek, desarrollados durante las décadas de 1950 y 1960. Al ser comisiona-
do para diseñar un nuevo auditorio para la ciudad de Nueva York, Beranek
analizó la acústica de 54 salas del mundo. Sus mediciones, encuestas y con-
clusiones se publicaron en un libro en el año 1962 (Beranek, 1962), casi en
sincronía con la inauguración de la nueva sala, el Philharmonic Hall en el
Lincoln Center de Nueva York. De acuerdo con Beranek, en el proceso de
diseño se había aplicado el modelo de Sabine ampliado. Entre otros factores,
le asignó especial importancia al retardo de la primera reflexión significativa
que llega a cada oyente.6
Ya en el concierto inaugural, en el otoño de 1962, los músicos y el público
se manifestaron decepcionados con la acústica. El crítico Harold Schonberg
6 Beranek lo llamó itdg (initial time delay gap).
71
comentó que la impresión general era que la sala sonaba como “un gran
limón amarillo de 16 millones de dólares”. George Szell, director estable de la
Orquesta de Cleveland, se mostró francamente desanimado. Los juicios más
frecuentes hablaban de la falta de bajos, del sonido plano y de la dificultad de
ejecución instrumental en el escenario. En la actualidad, Beranek admite que
el caso resultó una enorme humillación profesional, pero que algo de respon-
sabilidad les cabe a los arquitectos que modificaron el diseño original.7
Aunque la sala se rediseñó en la década de 1980 –a cargo de Cyril Harris–
y hasta cambió su nombre original por el de Avery Fischer Hall, se la sigue
considerando insatisfactoria. En la actualidad existen nuevos proyectos de
modificación.
Sin embargo, el Philharmonic Hall cumplía todos los requisitos exigidos
por la teoría de Sabine. La crisis fue tan grande que hasta se habló de una
“catástrofe de la acústica clásica”. Sin embargo, el fracaso del auditorio no
fue infecundo: de su autopsia se obtendría nuevo y valioso conocimiento, al
brindar a otros acústicos la gran oportunidad de testear sus propias teorías para
explicar qué fue lo que estuvo mal.
Proliferación de parámetros acústicos temporales
Los fracasos registrados en gran cantidad de auditorios a lo largo del siglo xx,
algunos de ellos resonantes como el caso del Philharmonic Hall, convencie-
ron a un grupo de investigadores sobre la necesidad de revisar por completo
la teoría de Sabine. A fines de la década de 1960 varios autores intentaron
corregir el modelo de Sabine incorporando nuevos parámetros temporales
complementarios. En la figura 6a se puede ver un esquema que representa la
energía acústica que le llega a un oyente desde una fuente acústica impulsiva
en el interior de una sala. La distancia entre emisor y receptor, la geometría
de la sala y las características acústicas de las superficies determinan el retardo,
la intensidad y la composición espectral de cada reflexión. En el reflectograma
de la figura 6b se ve que la señal directa es la primera en llegar, luego aparecen
las señales que se han reflejado unas pocas veces en las superficies, y al final
llega una gran cantidad de reflexiones apenas separadas entre sí. Solamente en
esta porción tardía del reflectograma, en la que la cantidad y la distribución
estadística de las reflexiones permiten aproximar la curva a un decaimiento
exponencial, es posible definir un tiempo de reverberación como el de Sabine.
El patrón total de reflexiones, sin embargo, es claramente no exponencial.
7En la década de 1990 Beranek retomó la investigación en acústica y diseñó las salas del
Tokyo Opera City.
72
a)
b)
Figura 6. Esquema del patrón de reflexiones en una sala típica y reflectograma en un sector
de la platea
La cantidad de información que contiene un reflectograma como el de la

figura 6 es muy grande.8
A partir de la respuesta al impulso se pueden definir otros parámetros
acústicos temporales. Un temprano informe de Atal, Schroeder y Sessler
estableció una correlación significativa entre el tiempo de reverberación
temprano (tomado en los primeros 160 ms) y la reverberación subjetiva
que perciben los oyentes (Atal, Schroeder y Sessler, 1965). Tiempo después
Jordan propuso la reverberación temprana o edt –tiempo que tarda la energía
en decaer los primeros 10 dB (Jordan, 1970). Se ha comprobado experimen-
talmente que el edt está mejor correlacionado que el tr con la reverbera-
ción percibida por el público en una sala. ¿Qué importancia tenían estos
hallazgos? El tr de Sabine no depende de la forma de la sala sino de ciertas
características generales como el volumen, la superficie total y la absorción
8 La expresión detallada de la respuesta al impulso se puede ver en el apéndice.
73
acústica promedio de las superficies. En teoría pueden realizarse modifica-
ciones en cualquier lugar de la sala con idénticos resultados. En cambio, la
reverberación temprana (edt) es muy sensible a la variación en las primeras
reflexiones que ocurren en la zona próxima a la fuente acústica. A partir del
edt el campo acústico de una sala para música se polarizó definitivamente y
la zona cercana a las fuentes adquirió entidad propia.
Una enumeración de los parámetros acústicos temporales que se utilizan
en el diseño acústico contemporáneo debería incluir el tiempo de reverberación
(tr) (Sabine, 1922; Eyring, 1930); la reverberación temprana (edt) (Atal,
Schroeder y Sessler, 1965; Jordan, 1970); el retardo de la primera reflexión
(Beranek, 1962); la función de crecimiento de la energía; la definición (Thiele,
1953); la relación señal /ruido (Lochner y Burger, 1961); la claridad a 80 ms
y a 50 ms (Reichardt, 1974); el centro de tiempo (Dietsch y Kraak, 1986); y
muchos otros que, aunque resultan útiles en diferentes contextos, poseen una
característica común: son monofónicos.9
Aparición de los criterios espaciales
De a poco se fue instalando la hipótesis de que la distribución espacial de la

energía resultaba tan importante como su comportamiento temporal. Algunos
investigadores, entre ellos Marshall, Barron, Blauert, Schroeder y Ando, crea-
ron campos acústicos tridimensionales en laboratorios especializados con el
fin de resolver el problema de las grandes salas para música.
La situación se mantuvo relativamente estancada hasta el año 1974, en
el que Manfred Schroeder publicó un trabajo que cambiaría la concepción y el
diseño de las salas de música (Schroeder, Gottlob y Siebrasse, 1974). Schroeder
y su equipo describieron las preferencias perceptuales de un conjunto de oyen-
tes ante un grupo de salas de concierto europeas, e intentaron correlacionarlas
con las características geométricas y acústicas de cada una de las salas. Para
la evaluación perceptual (“subjetiva” según Schroeder) se utilizó un método
complejo que involucró cuatro etapas: 1) se grabaron fragmentos musicales con
una orquesta sinfónica en una cámara anecoica; 2) se reprodujeron dichos frag-
mentos a través de altavoces colocados en los escenarios de cada sala a evaluar;
3) se registraron las respuestas de la sala en diferentes locaciones a través de dos
micrófonos –uno por oído– colocados en una “cabeza artificial”; 4) los registros
se reprodujeron con altavoces en una cámara anecoica de modo tal que cada
sujeto recibiera las mismas señales que la cabeza artificial en las salas.
9 La definición formal de estos parámetros se muestra en el apéndice al final de este

capítulo.
74
Este método permitió la casi instantánea comparación entre la acústica
de dos salas diferentes –o de dos butacas de la misma sala– con la misma fuente
acústica y la misma pieza de música. Los sujetos podían comparar las salas con
su memoria de corto término, cosa imposible de realizar con las salas reales.
Si se utiliza el método de elección forzada entre dos alternativas, en el que el
oyente está obligado a elegir una sala de cada par que se le presenta, es posible
establecer un orden de preferencia perceptual. Es decir, se puede construir una
escala de calidad acústica comparativa.10
Los datos obtenidos fueron sometidos al análisis de factores multidi-
mensionales, y los resultados de las preferencias perceptuales (“subjetivas”
según Schroeder) se correlacionaron con diferentes parámetros acústicos
físicos (“objetivos” según Schroeder). En la conclusión del estudio los autores
propusieron la utilización de un parámetro binaural –no monofónico– como
principal criterio para la evaluación de las bondades acústicas de una sala. Este
parámetro, el coeficiente de correlación cruzada interaural (iacc), cuantifica la
diferencia entre las señales que llegan a los dos oídos del oyente y se relaciona
con la impresión espacial que este percibe.11 Schroeder propuso al iacc como
el parámetro más destacado para la evaluación de la calidad acústica de una
sala, aun por encima del tiempo de reverberación clásico. A partir de ese
momento el tr dejó de ocupar la posición de privilegio que había mantenido
desde los trabajos iniciales de Sabine.
El iacc da una medida de las diferencias entre las ondas que llegan a los
dos oídos. Si estas son iguales toma el valor 1, y si las dos ondas son estadísti-
camente independientes vale 0. A partir del iacc, Leo Beranek (1996) definió
el factor de espacialidad (1–iacc) que se emplea en la actualidad. Cuando un
oyente está inmerso en un campo acústico de alto factor de espacialidad se
siente “rodeado” por el sonido, y dicha sensación de inmersión en un ambien-
te –que incluye tanto a la fuente como a su entorno cercano– es uno de los
factores más apreciados a la hora de evaluar la calidad acústica de una sala
para música.
A modo de ejemplo, en la figura 7 se pueden ver las respuestas al impulso
presentes a los oídos derecho e izquierdo de un oyente situado en la segunda
bandeja de la Sala Ginastera del Teatro Argentino de La Plata.
10 Se pueden realizar varias críticas al método, que soslaya el juego dinámico establecido
durante la ejecución de música en vivo al eliminar la sensibilidad de la fuente frente al
flujo de información proveniente del recinto. Sin embargo, su capacidad para enfrentar casi
simultáneamente dos salas diferentes constituye un mérito imposible de negar.
11 La descripción matemática de este parámetro se encuentra en el apéndice de este capí-
tulo.
75
Figura 7. Ecogramas simulados en computadora para la segunda bandeja de la Sala
Ginastera del Teatro Argentino de La Plata
El coeficiente de correlación cruzada interaural, iacc, se puede extraer de los

ecogramas anteriores con facilidad, calculando la correlación cruzada entre
ambas señales. En la figura 8 se puede ver la función de correlación entre dos
señales genéricas y el valor del iacc. El tiempo máximo de desajuste τ entre
las dos señales es de 1 ms, aproximadamente el tiempo que le lleva a una onda
lateral ir de un oído al otro.
Figura 8. Correlación cruzada entre dos señales y definición del iacc. En abscisas se indica
el tiempo de retardo de la señal entre ambos oídos
76
El iacc da cuenta de las pequeñas diferencias entre ambas señales. En el caso
de la figura 7, el iacc de la segunda bandeja del Teatro Argentino resultó de
0,26 y el factor de espacialidad (1–iacc), de 0,74. Como referencia, el criterio
de Ando, Barron e Hidaka establece que el factor de espacialidad debe ser
mayor que 0,60 en una buena sala.12
No hay que confundir este verdadero parámetro espacial con la fracción
lateral de energía (le) (Barron, 1971) que, aunque correlacionado con el
iacc, es un parámetro monofónico que compara la salida de un micrófono de
diagrama bidireccional (con lóbulos en forma de 8) con la de un micrófono
omnidireccional (Ando et al., 1997).13
Desde la llegada de los criterios espaciales se incorporaron al diseño de
salas gran cantidad de elementos difusores de sonido entre los que se des-
tacan los estocásticos y los basados en la teoría de los residuos cuadráticos
(Schroeder, 1979 y 1980). En las salas construidas durante los siglos xviii y
xix la profusión de estatuas, columnas y adornos de gran tamaño contribuía al
establecimiento de campos acústicos difusos.
Aplicación de los criterios espaciales
Las señales que llegan desde el plano medio (las diferencias interaurales de
tiempo ∆t y de intensidad ∆I son nulas) son las que generan mayores valores
de iacc y menores factores de espacialidad. Las salas simétricas con cielorrasos
planos, que suponen diferencias ∆t y ∆I ≅ 0 son, en consecuencia, las de peor
comportamiento en ese sentido. Sin embargo, aumentar el factor de espacia-
lidad (1–iacc) no significa simplemente “correr” la señal de un oído al otro.
Por ejemplo, si la señal llega antes y con mayor intensidad al oído derecho –en
cuyo caso las diferencias interaurales de tiempo ∆t y de intensidad ∆I no son
nulas–, no implica necesariamente que esté decorrelacionada. Como el tiem-
po máximo de desajuste τ permitido entre las señales es de 1 ms, el iacc podría
tomar un valor cercano a 1.14 Es decir, si las dos señales son muy parecidas y
están solo desfasadas el factor de espacialidad no aumenta necesariamente.
Sacar provecho de estos principios teóricos no es sencillo. La aplicación
práctica de los criterios acústicos espaciales se puede dividir para su estudio
en dos grupos: los que se basan en el diseño geométrico del recinto y los que
parten de la eliminación de las reflexiones especulares.
12 Los cálculos se realizaron con los programas Matlab y Mathematica.

13 La descripción matemática de este parámetro se encuentra en el apéndice de este
capítulo.
14 A una onda acústica le lleva aproximadamente 1 ms viajar de un oído al otro.
77
Factor de espacialidad y geometría
Un cielorraso horizontal plano es un generador de reflexiones casi idénticas

para ambos oídos. En la figura 9 se aprecia su efecto en dos lugares diferentes
de una platea de una sala genérica.
Por lo general, aquellas salas con cielorrasos planos, en los que el cielo-
rraso provee gran cantidad de energía por reflexión, presentan un factor de
espacialidad reducido.
Una solución muy sencilla, manteniendo grandes planos de reflexión
especular, es quebrar en dos o más planos el cielorraso anterior. Por ejemplo,
si se construye algo así como una estructura “a dos aguas”, salvo en el caso
particular de la fuente y el oyente debajo del eje de simetría, el factor de espa-
cialidad aumenta considerablemente con relación al caso de la figura 9. En la
figura 10 se aprecian dos ejemplos de estas características.
Aunque en los ejemplos de la figura 10 las reflexiones son también espe-
culares, la diferencia entre los recorridos de las señales que llegan a cada oído
provoca retardos mayores que 1 ms y se las oye como si estuvieran decorrela-
cionadas. El factor de espacialidad, en consecuencia, es mayor que en caso del
cielorraso horizontal de la figura 9.
Figura 9. Efecto acústico de un cielorraso plano sobre el iacc en platea
78
La orientación relativa de las paredes, por otra parte, incide notablemen-
te sobre el valor del factor de espacialidad. En la figura 11 las paredes paralelas
contribuyen significativamente al total de energía que le llega lateralmente
al espectador.
En cambio, en una sala con paredes que se abren hacia el fondo –carac-
terística de muchos auditorios y cines construidos en las décadas de 1950 y
1960–, las paredes no aportan energía lateral. El factor de espacialidad en esta
clase de salas es, de no mediar algún factor compensatorio, muy bajo.
Figura 10. Efecto acústico de cielorrasos planos “a dos aguas”
Figura 11. Energía lateral en una sala de paredes paralelas
79
Figura 12. Energía lateral en una sala con planta en forma de abanico
Reflexiones difusas
Otra posibilidad es suplantar las reflexiones especulares de gran intensidad gene-

rando, en su lugar, una profusión de reflexiones decorrelacionadas entre sí.
Una superficie difusora es aquella que devuelve la energía incidente de
modo parejo en todas las direcciones posibles. En la figura 13 se puede ver la
diferencia entre la reflexión especular y la reflexión difusa.
Figura 13. Reflexión especular
Figura 14. Reflexión difusa
80
Una superficie difusora devuelve la energía en un abanico de direcciones
diferentes. En general, la modulación volumétrica de una superficie difunde
las señales que posean longitudes de onda del orden de su tamaño. Cuanto
más grandes las irregularidades –molduras, casetones, columnzas, esculturas,
altorrelieves, etc.–, más baja será la frecuencia a partir de la cual la superficie
comienza a comportarse como difusora.
Los estilos arquitectónicos de los siglos xviii y xix presentaban gran canti-
dad de elementos difusores. En contraste, durante gran parte del siglo xx pre-
valecieron las grandes superficies lisas. Al descubrirse la gran importancia de la
difusión espacial en la calidad acústica de una sala, los arquitectos reclamaron
el diseño de elementos difusores compatibles con las nuevas concepciones
estéticas. Por ejemplo, las formas cilíndricas de la figura 15 difunden acepta-
blemente las ondas acústicas.
En el año 1979, Manfred Schroeder publicó un artículo en el que proponía
el desarrollo de superficies difusoras de gran rendimiento. Basadas en secuencias
matemáticas específicas (números primos, residuos cuadráticos, etc.) permiten
un control detallado tanto de las características espaciales como del rango de
frecuencias útiles. En la figura 16 se puede ver la estructura de un difusor de
Schroeder.
La respuesta en frecuencia de esta clase de difusores se puede controlar en
la fase de diseño: la frecuencia de corte inferior, a partir de la que se muestran
efectivos, depende de la profundidad de las celdas. La frecuencia de corte supe-
rior, por su parte, es función del ancho de las celdas.
Respuestas “espaciales” desde la arquitectura
¿Como obtener, a partir del diseño arquitectónico, la cantidad de energía

lateral no correlacionada que proponen los trabajos de laboratorio? La arqui-
tectura respondió a esta pregunta modulando tres factores que actúan a escalas
diferentes: la geometría de las superficies que delimitan el espacio global, la
Figura 15. Comparación entre una superficie plana y una cilíndrica
81
Figura 16. Difusor de Schroeder basado en la teoría de los residuos cuadráticos
disposición de superficies reflectoras agregadas y la incorporación de difusión

a determinadas superficies.
Modulación de la forma de la sala
La cantidad de energía lateral que recibe cada espectador depende de

las características acústicas (absorción y difusión) y geométricas de cada
superficie límite. Comparemos un auditorio de planta rectangular –el
Musikverein de Viena– con otro de planta en abanico –el Aula Magna de
Caracas (figura 17).
La planta rectangular provee gran cantidad de energía lateral sobre la
platea, mientras que la planta en abanico dirige casi toda la energía hacia el
fondo de la sala. Pese a esta ventaja acústica de las salas de planta rectangu-
lar, la planta en abanico fue (y es) una de las más empleadas. Los motivos
son de sencilla comprensión: permiten ubicar una cantidad mucho mayor de
espectadores.
Un buen ejemplo de forma no convencional con las paredes moduladas
para optimizar el factor de espacialidad se puede ver en la planta del auditorio
de Kirishima en Japón (figura 18), diseñado por Yoichi Ando.
82
a)
b)
Figura 17. Musikverein de Viena (a) y Aula Magna de Caracas (b)
83
Figura 18. Planta del auditorio de Kirishima
Otro elemento geométrico que se puede modificar con el fin de obtener

mayor cantidad de energía lateral es el cielorraso (figura 19). El auditorio de
Kirishima emplea planos de diferentes orientaciones a fin de obtener bajos
valores de iacc (Ando, 1998).
En otro caso, el del Tokyo Opera City Concert Hall, con diseño de Leo
Beranek, se apela al uso de un cielorraso “a dos aguas” de inclinación extrema
(figura 20).
Incorporación de superficies reflectoras
Una alternativa a lo anterior, útil cuando la geometría límite de la sala resul-

ta inadecuada, es la instalación de superficies reflectoras que redistribuyan
la energía temprana generando un aumento en el factor de espacialidad. Lo
habitual en estos casos es colocar reflectores individuales dirigidos estratégi-
camente. Las posibilidades de diseño son muchas. En las figuras 21 y 22 se
pueden apreciar dos ejemplos característicos. El primero es el Christchurch
Town Hall en Nueva Zelanda, que fue diseñado en su origen por Harold
Marshall con los reflectores ya incorporados.
84
Figura 19. Cielorraso del auditorio de Kirishima
Figura 20. Tokyo Opera City Concert Hall
85
Figura 21. Reflectores que aportan energía lateral en el Christchurch Town Hall
Figura 22. Gran reflector sobre el escenario en el kkl de Lucerna
Un segundo ejemplo lo provee el kkl de Lucerna, que también fue concebido

desde el tablero de dibujo por Russell Johnson con el gran reflector que se ve
en la figura 22 sobre el escenario.
El tamaño y la disposición de los reflectores determinan el ancho de
banda de la energía reflejada. A causa del fenómeno de difracción, solamente
86
las señales cuya longitud de onda resulte menor que el tamaño del reflector
serán afectadas por este. En otros términos, cada reflector actúa como un filtro
pasaaltos cuya frecuencia de corte es función de su tamaño. Es posible com-
binar varios reflectores pequeños en forma de red de difracción para obtener
frecuencias de corte más bajas que las que se consiguen con un único reflector
de gran tamaño.
Agregado de difusión
Se puede mejorar la cantidad de energía lateral y por lo tanto la sensación de

“especialidad” perceptual agregando difusión a superficies que, de otro modo,
producirían reflexiones especulares puras y correlacionadas. Por ejemplo, es
posible mejorar notablemente una sala con planta en abanico colocando
elementos difusores en sus paredes laterales, tal como se puede apreciar en el
ejemplo de la figura 23.
También es posible eliminar ciertas reflexiones especulares que agregan
excesiva energía en el plano medio del espectador colocando elementos difuso-
res. En la figura 24 se pueden ver los difusores que eliminan las reflexiones del
cielorraso en la Beethovensaal de Bonn, diseñada por Meyer y Kuttuff. Este tipo
de tratamiento, dirigido a aumentar la espacialidad del campo acústico, se inspi-
ra directamente en los trabajos alemanes sobre difusión de la década de 1970.
Como ejemplo extremo, en el Auditorium de Minneapolis se colocaron
grandes cubos –de varios metros de lado– en el cielorraso y en la pared del
fondo del escenario que actúan como difusores de banda ancha.
Figura 23. Agregado de difusión a una sala en abanico
87
Figura 24. Agregado de difusión al cielorraso de la Beethovensaal de Bonn
En cuanto a la difusión de banda media, además de los típicos difusores cal-

culados de acuerdo con la teoría de residuos cuadráticos que se pueden ver en
la figura 25, se han implementado numerosos dispositivos de diseño ad hoc
como el difusor fractal que tapiza las paredes del kkl de Lucerna cuyo detalle
se muestra en la figura 26.15
Dos ejemplos célebres
Como conclusión de este capítulo vamos a comparar dos auditorios para músi-
ca sinfónica muy diferentes que se destacan por su gran factor de espacialidad.
El primero es un exponente clásico de la arquitectura del siglo xix, el Grosser
Musikvereinsaal de Viena, diseñado por Theophil Ritter von Hansen e inau-
gurado en 1870, que se puede ver en la figura 27.
Las paredes paralelas, la profusión de ornamentos de una amplia variedad
de tamaños, el cielorraso alto y de gran difusión, nos indican la presencia de un
gran factor de espacialidad. Lo anterior, unido a un tiempo de reverberación
óptimo, ubica al Musikverein entre los tres mejores auditorios del mundo.
Sabine siguió este modelo, junto al del antiguo Gewandhaus de Leipzig, al
diseñar el Boston Symphony Hall.
El segundo ejemplo que vamos a presentar es la Philharmonie de Berlín
(figura 28). Producto de la colaboración entre Hans Scharoun y Lothar
Cremer, se inauguró en 1963 y es un claro ejemplo de la mejor arquitectura
de su tiempo.
15 Sobre fractales y difusores fractales, véase Basso (2005).
88
Figura 25. Difusores de Schroeder en el estudio de grabación del Conservatorio Gilardo
Gilardi de La Plata
Figura 26. Difusores fractales en el kkl de Lucerna
89
Figura 27. Grosser Musikvereinsaal de Viena
Figura 28. Philharmonie de Berlín
90
En este caso el gran factor de espacialidad se obtiene con elementos total-
mente diferentes a los del Musikverein. La sala presenta una profusión de
pequeñas paredes y frentes de bandejas, reflectores sobre el escenario y un
cielorraso de difusión de banda media que arman un campo acústico mucho
menos difuso y más determinístico que el de su par en Viena, pero de similar
efectividad.
El desafío de la acústica actual consiste en obtener los campos acústicos
apreciados por los oyentes al margen de la forma y del estilo arquitectónico
propuesto en cada caso. Quizá en un futuro no muy lejano se diseñe primero el
campo acústico y, sobre él se monte la arquitectura que mejor se le adapte.
91
Apéndice
Descripción de los parámetros citados
Para facilitar la ulterior consulta a otras fuentes especializadas de información,

detallamos aquí la definición de los parámetros acústicos mencionados en este
artículo.
Tiempo de reverberación (tr)
Es el tiempo, en segundos, que tarda la energía acústica de una sala en caer a

-6
10 (-60 dB) del valor existente al interrumpirse la fuente de señal. El concep-
to fue desarrollado por W. Sabine a principios del siglo xx. Es común describir
el tr en función de la frecuencia (en bandas de octava o de 1/3 de octava)
considerándose el correspondiente a 1.000 Hz como el de referencia cuando se
consigna un solo valor. La fórmula de Sabine para calcular el tr es:
tr = 0,16 V/A [s]
En esta expresión, V es el volumen cúbico del recinto [m3] y A la absorción

acústica total en sabinios métricos [m2].
Reverberación temprana (EDT, Early Decay Time)
Es el tiempo, en segundos, que tarda la energía acústica de una sala en caer los
primeros -10 dB desde el valor existente al interrumpirse la fuente de señal,
multiplicado por 6 (Atal, Schroeder y Sessler, 1965; Jordan, 1970).
Retardo de la reflexión principal (ITDG2)
Es el tiempo que transcurre entre la llegada del sonido directo y la reflexión

de mayor energía. Fue propuesto por Y. Ando en 1983 y se mide a través de la
respuesta al impulso de la sala.
Respuesta al impulso
La respuesta al impulso obtenida en cada oído del oyente fi (t) y fd (t) es el

resultado de la convolución entre la señal temporal emitida por la fuente
acústica pn (t) y las funciones de transferencia que tipifican el recorrido total
de ambas las señales con sus reflexiones gi (t) y gd (t):
92
fd (t) = pn (t) * gd (t)
fi (t) = pn (t) * gi (t)
Que al presentarse de manera discreta queda:

⎧ señal directa = A0 w 0 (t −∆t 0 ) = δ(t)
⎪
gd, i (t) ⇒ ⎨ reflexiones = An w n (t −∆t n )
⎪ respuesta al impulso de la cabeza = h (t)
⎩ d, i
∞
∴ f(d, i) (t) = ∑ pn (t) * An w n (t − ∆t n ) * hn (d, i) (t)
n= 0
Esta expresión es la base de casi todos los cálculos que se emplean en el pro-
cesamiento digital de señales o dsp.
Función de autocorrelación (φ(τ))
Se define como la correlación cruzada de la señal consigo misma. Resulta de

gran utilidad para encontrar patrones repetitivos dentro de una señal. Se la
define de acuerdo con la siguiente expresión:
∫
T
Φ (τ)=Tlim 0
h(t) h(t + τ)dt
→∞
en la que h(t) es la función acústica temporal y h(t + τ ) una copia de h(t)

desplazada un tiempo τ.
Amplitud equivalente de las reflexiones (A)
Representa la razón entre la amplitud equivalente de la señal reflejada total y

la amplitud de la señal directa. Fue desarrollada por Y. Ando en 1983 y se la
define por medio de la siguiente expresión:
1/ 2
A=
[∫ ∞
0,05
h 2 (t) dt ]
1/ 2
[∫ 0,05
0
h (t) dt]
2
en la que h(t) es la respuesta al impulso de la sala.

Se considera que la señal directa ocupa los primeros 50 ms de la señal
completa.
93
Fracción lateral de energía (LE)
Es un parámetro monofónico que compara la salida de un micrófono con diagra-

ma en forma de 8 (h8 2(t)) con la de un micrófono omnidireccional (h 2(t)):
∫
⎡ 0,08 h 2 (t) dt ⎤
8
LE = ⎢ 0,005 ⎥ 100%
⎣ ∫ 0 h 0 (t) dt ⎦
⎢ 0,08 2 ⎥
Coeficiente de correlación cruzada interaural (IACC)
Este parámetro es quizá el que mejor describe la difusión tridimensional de un

campo acústico. Se lo define por medio de la siguiente expresión:
∫
t0
h d (t) h i (t + τ) dt
0
Φd, i (τ ) = 1/ 2
{∫ t0
0
2
h d (t) dt ∫
t0
0
2
h i (t) dt }
IACC = máximo Φd, i (τ) para τ ≤ 1ms
en la que h(t)d es la respuesta al impulso en el oído derecho y h(t)i es la res-

puesta al impulso en el oído izquierdo.
Se considera un retardo máximo permitido τ de 1 ms porque ese es el
tiempo que le lleva a la señal acústica recorrer la distancia entre los dos
oídos.
Función de crecimiento de la energía
Es simplemente la suma acumulativa de energía acústica a medida que trans-

curre el tiempo τ.
ERF (τ )= ∫ 0 h 2 (t) dt
τ
Definición (Thiele, 1953)
Establece una relación porcentual entre los primeros 50 ms de la señal y la

señal completa.
94
D50 =
[∫0
0,05
h 2 (t) dt ] 100 %
[∫ ∞
0
h 2 (t) dt ]
Claridad a 80 ms y a 50 ms (Reichardt, 1974)
Es similar a la definición D50, pero considerando la relación entre los primeros

50 ms de la señal y el resto de la señal en decibeles. El tiempo de corte a 80 ms
se emplea para analizar señales musicales y el de 50 ms para palabras.
C 80 = 10log
[∫ 0
0,08
]
h 2 (t) dt
dB
[∫ ∞
0,08
h (t) dt ]
2
C50 = 10log
[∫ 0
0,05
h (t) dt ]
2
dB
[∫ ∞
0,05
h (t) dt ]
2
Relación señal /ruido (Lochner y Burger, 1961)
Para evitar la gran sensibilidad en el entorno del tiempo de corte existente en

la claridad de Reichardt, la relación S/R agrega una función de compensación
lineal suave a (t).
S /R = 10log
[∫ 0,095
0
a(t)⋅ h 2 (t) dt ] [ dB ]
[∫ ∞
0,095
h 2 (t) dt ]
⎧ 1 0 ≤ t ≤ 35ms
⎪ 1
a (t) = ⎨ − (t −95) 35ms ≤ t ≤ 95ms
⎪ 60
⎩ 0 t ≥ 95ms
Centro de tiempo (Dietsch y Kraak, 1986)
Es simplemente el baricentro temporal de la respuesta al impulso de la sala.
95
∫
τ
t ⋅ h 2 (t) dt
t c (τ) = 0
; tc =τlim
→∞ t c (τ)
∫
τ
h 2 (t) dt
0
Bibliografía
Ando, Y. (1983), “Calculation of subjetive preference at each seat in a concert

hall”, Journal of the Acoustical Society of America, vol. 74, pp. 873-887.
—— (1985), Concert Hall Acoustics, Berlín, Springer-Verlag.
—— (1998), Architectural Acoustics. Blending Sound Sources, Sound Fields, and
Listeners, Nueva York, Springer-Verlag.
—— et al. (1997), “Acoustic Design of a Concert Hall Applying the
Theory of Subjective Preference, and the Acoustic Measurement after
Construction”, Acustica & Acta Acustica, 83, pp. 635-643.
Arau-Puchades, H. (1988), “An Improved Reverberation Formula”,
Acustica.
Atal, B., M. Schroeder y G. Sessler (1965), Paper G32, Proceedings of the Fifth
International Congress on Acoustics, Liège.
Barron, M. (1993), Auditurium Acoustics and Architectural Design, Londres,
e&fn.
Basso, G. (1994a), “Escenarios para salas con bajo tiempo de reverberación y esca-
sa difusión: Mejora en el Coeficiente de Correlación Cruzada Interaural”, en
Actas del Primer Congreso Latinoamericano de Acústica, San Pablo.
—— (1994b), “Difusión en escenarios de salas con bajo tiempo de rever-
beración”, en Actas de la Séptima Jornada Argentina de Acústica y Audio,
Buenos Aires.
—— (1996), Elementos de acústica de salas, Santa Fe, Universidad Nacional
del Litoral,
—— (1997), “Relación acústica entre instrumentos, técnicas de ejecución
y salas para música” en Actas de la XI Conferencia Anual de la Asociación
Argentina de Musicología, Córdoba,
—— (2002), “Las salas como extensión acústica de los instrumentos musi-
cales”, en Actas del Encuentro Nacional 2002 de Investigación en Artes y
Diseño, eniad 2002.
—— (2005), “Orden generativo, fractales y música”, Revista del Instituto
Superior de Música UNL, Nº 10, Santa Fe.
—— (2006), Percepción auditiva, Bernal, Editorial de la Universidad Nacional
de Quilmes.
Beranek, L. (1962), Music, Acoustics, and Architecture, Nueva York, Wiley.
96
—— (1996), Concert and Opera Halls: How they Sound, Nueva York,
Acoustical Society of America.
—— et al. (2000), “Acoustical design of the opera house of the New National
Theatre, Tokyo, Japan”, Journal of the Acoustical Society of America, 107
(1), pp. 355-367.
Blauert, J. (1997), Spatial Hearing. The psychophysics of human sound localiza-
tion, Cambridge, mit Press.
Bregman, A. (1994), Auditory Scene Analysis, Cambridge, mit Press.
Chowning, J. (1999), “Perceptual Fusion and Auditory Perspective”, en
Cook, P. R. (ed.), Music, Cognition, and Computarized Sound, Cambridge,
mit Press.
Cox, J. T. y B. Shield (1999), “Audience questionnaire survey of the acoustics
of the Royal Festival Hall, London, England”, Acustica & Acta Acustica,
(85), pp. 547-559.
Eyring, C. F. (1930), “Reverberation Time in ‘Dead’ Rooms”, Journal of the
Acoustical Society of America.
Fitzroy, D. (1959), “Reverberation formulae which seems to be more accurate
with non-uniform distribution of absorption”, Journal of the Acoustical
Society of America.
Haas, H. (1951), “Uber den eingluss eines einfachechos auf die horsamkeit
von sprache”, Acustica, vol. 1. [trad. al inglés, (1972), “The influence of
a single echo on the audibility of speech”, Journal of the Audio Engineering
Society, vol. 20].
Hidaka, T. et al. (1995), “Interaural cross-correlation, lateral fraction, and
low and high frecuency sound levels as measures of acoustical quality
in concert halls”, Journal of the Acoustical Society of America, 98 (2), pp.
988-1007.
Jordan, V. L. (1970), “Acoustical criteria for auditoriums and their relation
to model techniques”, Journal of the Acoustical Society of America, 47, pp.
408-412.
Kuhl, W. (1954), “Uber Versuche zur ermitlung der Gunstigsten Nachhallaeit
Grossen Musikstudios”, Acustica, 4, pp. 618-634.
Morimoto, M. et al, (1994), “Relation between Auditory Source Width
in Various Sound Fields and Degree of Interaural Cross-Correlation:
Confirmation by Constant Method”, Applied Acoustics, 42, pp. 233-238.
Sabine, Wallace (1922), Collected Papers on Acoustics, Cambridge, Harvard
University Press [reimpresión: Dover, 1964].
Schoroeder, M. (1979), “Binaural dissimilarity and optimum ceilings for con-
cert halls: More lateral sound diffusion”, Journal of the Acoustical Society
of America, 65, pp. 958-963.
97
——, D. Gottlob y F. Siebrasse (1974), “Comparative study of European concert
halls: correlation of subjetive preference with geometric and acoustic para-
meters”, Journal of the Acoustical Society of America, 56, pp. 1195-1201.
Wallach, H. et al. (1949), “The Precedence Effect in Sound Localization”,
American Journal of Psychology, vol. 57.
98
Capítulo III
Técnicas de localización espacial de sonido con
altoparlantes usando indicios de intensidad y tiempo
Introducción
En los capítulos i y ii de este libro se han tratado los indicios (i.e., los rasgos
distintivos de la señal acústica) que utiliza el sistema auditivo para evaluar sus
características espaciales.
En este capítulo se tratarán diferentes técnicas para la simulación de los
indicios de intensidad y tiempo en señales acústicas para ser reproducidas con
sistemas de múltiples altoparlantes. Las técnicas que se tratarán no son todas
las existentes, pero se ha intentado cubrir los aspectos más básicos y corrien-
temente utilizados.1
Las aplicaciones y/o dispositivos tecnológicos que trabajan sobre la cua-
lidad espacial del sonido intentan imitar lo mejor posible aquellos rasgos de
la realidad sonora que sirven mejor a sus propósitos. Pero dado que no nece-
sariamente la imitación perfecta de la realidad conduce al resultado percep-
tivo más plausible, y que deben tenerse en cuenta cuestiones de eficiencia y
recursos involucrados, parece no existir una solución tecnológica perfecta. Sin
embargo, se puede afirmar que los numerosos desarrollos e investigaciones en
el tema han producido un considerable progreso en la efectividad perceptiva
de las tecnologías que actualmente se usan.
Las técnicas de dsp (Digital Signal Processing o procesamiento de señal
digital) que se emplean en la espacialización de sonido han sido y son
extensamente investigadas desde hace tiempo. El trabajo de John Chowning
(1971), quien es el primero en desarrollar un programa de computación para
espacialización de sonido, constituye una referencia inicial en esta área.
Afortunadamente existe una gran cantidad de investigación y desarrollo tec-
1 Algunas técnicas, como Ambisonics, no se tratarán en este capítulo, porque se desarrollan

in extenso en el capítulo v de este libro. Otras, como las basadas en datos espectrales binau-
rales (hrtf), tampoco se tratarán por no ser apropiadas para la simulación de localización
usando altoparlantes.
99
nológico muy bien documentados sobre el tema (véanse Moore, 1983, 1989
y 1990; Chowning, 1971; Dodge, y Jerse, 1985; Kendall et al., 1989; Moorer,
1979; Karpen, 1998 y Cetta, 2007, entre otros) a la que el lector puede recu-
rrir para ampliar lo que se expondrá.
Técnicas de espacialización basadas en indicios de intensidad
Si se conocen la ubicación espacial de una fuente sonora, sus características

direccionales y la ubicación del/de los posible/s oyente/s, se puede calcular la
cantidad de energía acústica entregada por esta fuente sonora y simularla con
un sistema de sonido que tenga un número de canales y una ubicación de sus
altoparlantes determinados.
Las técnicas que se tratarán a continuación intentan simular por medio
del escalamiento de la amplitud de la señal tres aspectos básicos: 1) la ubica-
ción angular de la fuente; 2) la distancia entre oyente/s y fuente acústica; y 3)
las características direccionales (o “directividad”) de la fuente acústica.
Simulación de la ubicación angular en dos dimensiones

por medio del panorámico de intensidad
Uno de los procedimientos más difundidos para lograr la localización angu-

lar se denomina intensity panning (panorámico de intensidad) y se basa en
la simulación del indicio denominado iid2 a través del escalamiento de la
amplitud de la señal que corresponde a cada canal de audio. Con esta estrategia
se pretende “engañar” al oyente intentando que crea que una fuente acústica
se encuentra en una ubicación en la que en realidad no se encuentra, a causa
de la combinación de la intensidad de las señales que emite cada altoparlante.
Por esta razón, se suele denominar “fuente fantasma” a la fuente sonora virtual
que crean los altoparlantes.
Para simular una fuente de sonido localizada en un ángulo determinado3
usando la técnica de panorámico de intensidad, la señal producida por la
fuente del sonido virtual debe ser distribuida entre pares de altoparlantes y
debe escalarse por dos valores de ganancia de manera proporcional a dicho
ángulo. La ley precisa que rige el cálculo de dichos valores de ganancia todavía
se sigue investigando, y hay autores (Pulkki, 2001) que piensan que no puede
2 Interaural Intensity Difference, o diferencia interaural de intensidad. Véase el capítulo i de

este libro.
3 No estrictamente cualquier ángulo, dado que cada técnica tiene sus limitaciones.
100
resolverse con una función simple. Algunas de las funciones más utilizadas
para el panorámico de intensidad son: la función lineal, la ley del seno y
la energía constante (también llamada ley de la tangente, o panorámico de
coseno/seno).
Es sencillo conjeturar lo que la función lineal realiza. Calcula la ganancia de

cada uno de los dos canales de audio de acuerdo con un ángulo Θ (expresado
en radianes) de la fuente virtual, usando las siguientes ecuaciones:
g1 = 1 - Θ / ΘM E. 1
g2 = Θ / ΘM E. 2
para Θ M <= π/2 y >=0.
La llamada ley del seno se basa en la siguiente ecuación:
g1 - g 2 sin(Θ s )
=
g1 + g 2 sin(Θ 0 ) E. 3
en la que ΘS es el ángulo de la fuente virtual y Θ0 es la mitad del ángulo

máximo de separación de los altoparlantes. Por lo tanto:
g1 sin(Θ 0 ) + sin(Θs )
=
g 2 sin(Θ 0 ) − sin(Θs) E. 4
Los valores de ganancia para cada canal que surgen de la ecuación anterior
deben ser normalizados para su uso práctico, ya que solo se establece la rela-
ción entre ellos. Para ese propósito se usa la siguiente fórmula:
p p p
g 1 + g 2 =1 E. 5
en la que es corriente que p tenga un valor de 1 (si se desea mantener la ampli-

tud constante) o de 2 (si se desea mantener la energía constante).
Una de las maneras más sencillas de realizar el llamado panorámico de energía

constante se basa en la siguiente identidad trigonométrica:
cos (Θ)2 + sin (Θ)2 = 1 E. 6
En este caso es fácil ver que, dado que la energía acústica equivale al cuadrado
101
de la amplitud, la suma de las ganancias de ambos canales elevada al cuadrado
será siempre igual a la unidad, conservando así la energía total entregada cons-
tante para cualquier ángulo. Es decir:
g1 (Θ)2 + g2 (Θ)2 = 1 E. 7
Por lo tanto, si asumimos que tenemos dos altoparlantes en ángulos de 0 y

π/2 radianes, la ganancia para cada canal deberá ser calculada de la siguiente
manera:
g1 (Θ) = cos (Θ) E. 8
g2 (Θ) = sin (Θ) E. 9
en donde Θ es el ángulo de posición de la fuente virtual, en el rango de 0 y

π/2 radianes.
Finalmente Chowning (1971) postula otra ley para el cálculo de las ganancias
de cada canal:
1 + tan(Θ − Θ max /2)
g (Θ) =1− E. 10
1 2
g 2 (Θ) = 1 + tan(Θ − Θ max /2) E. 11
en donde Θmax es el ángulo máximo de separación entre los parlantes.
En la figura 1 pueden observarse cuatro gráficos de la evolución de los valores

de ganancia para dos canales que corresponderían respectivamente a un alto-
parlante situado a 45° (derecha, canal 2) y a otro situado a 135° (izquierda,
canal 1) para un ángulo que varía entre 45° y 135°. Se asume que el oyente
está situado en el origen, enfrentándolos. Los otros dos canales muestran, res-
pectivamente, la energía total entregada (g12+g22) y la amplitud total (g1+g2)
desplegada por el par de altoparlantes. Los gráficos corresponden a cada una
de las funciones explicadas:
Existen muchos trabajos sobre evaluación de la efectividad perceptiva en
la localización espacial de estas y otras técnicas. En general, se puede decir que
siguen tres estrategias: 1) análisis de la realidad física, modelización matemática
y posterior análisis de su correspondencia con los procedimientos (West, 1998;
Bamford, 1995); 2) implementación de un modelo virtual de oyente mediante
la simulación de indicios auditivos espaciales muy robustos, al que luego se “ali-
menta” con las señales resultantes de cada técnica. La posterior evaluación de la
respuesta de este sistema tiene las ventajas de que las señales no están contami-
102
1
g(ch1)
0
1
g(ch2)
0
g(ch1)2 1
+ g(ch2)2
0
g(ch1) 1
+ g(ch2)2 0
Lineal Ley del seno (con p=1) Energía constante Chowning, 1971
Figura 1
nadas por las impresiones subjetivas de cada oyente y de que permite la experi-
mentación extensiva sin grandes costos e infraestructura (Pulkki, 1999); y 3) test
perceptivos realizados con oyentes (Guastavino et al., 2007; West, 1998).
Una de las debilidades de la técnica de panorámico de intensidad
mediante pares de altoparlantes es la falta de homogeneidad de la imagen
sonora que produce. En efecto, cuando la fuente virtual se ubica en el mismo
ángulo que un altoparlante, se obtiene una imagen sonora puntual y precisa,
dado que la energía sonora irradia solo de este altoparlante. Por otro lado,
cuando la fuente sonora virtual se ubica entre dos altoparlantes, la imagen
sonora es difusa, porque se produce por la suma de las señales que emiten. Las
técnicas que usan siempre todos los altoparlantes de un sistema4 poseen una
mayor homogeneidad en este sentido. Desde ya, es obvio que este problema
disminuye en la medida en que se usan más altoparlantes.
Otra de las debilidades del panorámico de intensidad, que es común a
todas las técnicas, es la que se deriva del efecto de precedencia.5 A causa de este
efecto, en la medida en que el/los oyente/s están alejados del punto ideal de
audición tienden a atribuir la ubicación de la fuente virtual al altoparlante
más cercano. La decorrelación de las señales de los diferentes altoparlantes
de un sistema mediante filtros todopaso (alpass) con distribución aleatoria de
las fases en varias bandas de frecuencia ayuda a sobrellevar este incoveniente
(Kendall, 1995).
Simulación de la distancia mediante indicios de intensidad
Las técnicas de panorámico de intensidad no tienen en cuenta la distancia

de la fuente al oyente.6 La distancia entre fuente virtual y oyente/s se puede
4 Por ejemplo, Ambisonics. Véase el capítulo v de este libro dedicado a esta técnica.
5 Véase el capítulo i de este libro.
6 En efecto, son técnicas de localización angular.
103
simular sencillamente escalando la amplitud de la señal de la fuente virtual de
manera proporcional a la distancia entre esta y el/los oyentes.7 Para tener en
cuenta la distancia, las ganancias de cada canal de audio en un sistema estéreo
pueden calcularse de acuerdo con las siguientes ecuaciones:
Ch1 = g1 (Θ) / (distancia + offset) E. 12

Ch2 = g2 (Θ) / (distancia + offset) E. 13
El término offset es necesario para prevenir los casos en que la distancia es

menor a la unidad (especialmente cuando es cero).
Investigaciones psicoacústicas (Stevens, 1970) han mostrado que la
simulación de los indicios de distancia es más efectiva si se usa un escalamien-
to diferente. Siendo este el caso, un exponente de escalamiento puede ser usado
para elevar el factor de distancia a una potencia mayor que uno, produciendo
así una función de amplitud más pronunciada (“exagerada”) en la medida en
que la fuente se acerca o aleja del oyente:
factor de distancia = (distanciaexponente) + offset E. 14
Por lo tanto, la ganancia para cada altoparlante, teniendo en cuenta tanto el

ángulo que forma la fuente como su distancia al oyente, debería ser calculada
de la manera siguiente:
Ch1 = g1 (Θ) / factor de distancia E. 15

Ch2 = g2 (Θ) / factor de distancia E. 16
Es posible extender el uso de los procedimientos explicados a sistemas de

altoparlantes ubicados en ángulos diversos del plano horizontal. Si bien son
posibles varias configuraciones, es corriente elegir aquellas que ubican los
altoparlantes a ángulos iguales y en puntos equidistantes del origen. Una
configuración típica muy usada es la llamada cuadrafonía, que consiste
en cuatro altoparlantes separados por ángulos de noventa grados (véase la
figura 2).
7Por supuesto, existen otras técnicas para simular la distancia entre fuente y oyente/s. Entre
ellas, la utilización de filtros para imitar la absorción de la humedad y el efecto de proximi-
dad. Además, en recintos cerrados, la proporción entre reverberación densa y señal directa
es un indicio muy robusto para la estimación de distancia. Tales recursos no serán tratados,
dado que exceden los objetivos de este capítulo. Véase al respecto: Cetta (2007), Di Liscia
(2004, cap. 9), Moore (1990, cap. 4) y Moorer (1979).
104
Dist = x*x + y*y
amp=
amp= sin(θ -45º) / Dist
cos(θ -45º) / Dist
(amp= 0)
Figura 2
Por ejemplo, el procedimiento de escalamiento de intensidad en dos dimen-

siones de acuerdo con la distancia y el ángulo horizontal, trasladado a cuatro
altoparlantes, consistiría en los siguientes pasos: a) determinar la distancia
entre la fuente y el oyente (generalmente se asume, por razones de simplici-
dad, que este está situado en el origen), y escalar la amplitud de la señal de
entrada de acuerdo con la distancia; b) determinar el ángulo entre la fuente
y el oyente (se asume, por razones de simplicidad, que este está situado en el
origen); c) determinar entre qué par de altoparlantes se encuentra ubicada la
fuente; d) escalar la amplitud del par de altoparlantes entre los que se encuen-
tra la fuente virtual de acuerdo con la técnica de intensity panning ya explicada,
usando alguna de las funciones que se han comentado anteriormente (lineal,
ley del seno, ley de la tangente, etc.) y poniendo especial cuidado en man-
tener el rango adecuado de los ángulos para cada caso; y e) poner en cero la
amplitud de los restantes altoparlantes.
La figura 2 clarifica lo antedicho tomando como base un espacio bidi-
mensional y una disposición de cuatro altoparlantes en un cuadrado con
ángulos de 45°, 135°, 225° y 315°, y usando el panorámico de coseno/seno
(energía constante):
La figura 2 también ilustra el cálculo de amplitud para la simulación de una
fuente sonora ubicada al frente, entre los altoparlantes i y ii (más cerca de i, a la
derecha), simbolizada con un círculo sombreado. Puede verse cómo la ganancia
105
de la señal para los altoparlantes i y ii se calcula de acuerdo con el ángulo entre
la fuente y el oyente (θ), y la distancia entre la fuente y el oyente (D).8 Por otro
lado, los altoparlantes iii y iv tienen ganancia cero para el directo en este caso.
Simulación de la ubicación angular en tres dimensiones

por medio del panorámico de intensidad
La extensión de la técnica del panorámico de intensidad a sistemas de alto-

parlantes ubicados en planos diferentes que el horizontal es perfectamente
posible. Por ejemplo, un sistema de ocho altoparlantes distribuidos unifor-
memente en tres dimensiones consistiría en ubicar a cada uno de ellos en los
vértices de un cubo imaginario. En este caso, habría que considerar “cuar-
tetos” de altoparlantes (en los vértices de cada una de las caras del cubo),
determinar entre qué cuatro parlantes se encuentra la fuente sonora virtual,
y aplicar las técnicas vistas en la sección anterior para escalar la ganancia de
estos. La simulación de la distancia se realiza de la misma forma ya explicada
en la sección anterior.
Otra posibilidad es la técnica llamada panorámico de amplitud basado en
vectores (Pulkki, 2001), que corrientemente se designa con la sigla vbap.9 Esta
técnica se puede usar también en arreglos bidimensionales de altoparlantes,
y su ventaja principal es que puede aplicarse con facilidad a disposiciones
irregulares de estos. Si se usa para disposiciones de altoparlantes en un solo
plano (bidimensionales), equivale a la aplicación de la técnica de panorámico
de energía constante ya explicada.
En tres dimensiones, vbap usa ternas de altoparlantes para distribuir la
señal a espacializar. Por supuesto, la fuente virtual solo puede ser ubicada en
el denominado triángulo activo, que no es otra cosa que el triángulo esférico
imaginario en cuyos vértices se ubican los altoparlantes del sistema. La figura
3 (basada en Pulkki, 2001) ilustra lo antedicho. En ella se pueden ver tres
altoparlantes (designados m, n y k) ubicados en los vértices de un triángulo
esférico, que es el que se denomina triángulo activo (marcado con líneas pun-
teadas). La fuente virtual se ubicaría en un punto de ese triángulo.
vbap trabaja con cuatro vectores-unidad cartesianos en tres dimensio-
nes. Tres de ellos apuntan a la dirección de cada uno de los altoparlantes
en tres dimensiones (ln, lm y lk , en la figura 3). La dirección de la fuente
8 Para simplificar, los ángulos se indican en grados. Dada la ubicación de los altoparlantes,
es necesario restarle al ángulo de ubicación de la fuente 45° para que esté en el rango de 0°
a 90°(0 a π/2 radianes).
9 Del inglés Vector Based Amplitude Panning.
106
Altoparlante k
Fuente
virtual
Altoparlante n
Altoparlante m
Oyente
Figura 3
virtual se define con un cuarto vector-unidad cartesiano (designado como p

en la figura 3). La dirección del panorámico de la fuente virtual surge de la
combinación lineal de los tres vectores correspondientes a los altoparlantes.
Presentado en forma matricial:
p = gnln + gmlm + gklk E. 17
pT = g Lnmk. E. 18
en donde gn, gm y gk son los factores de ganancia para cada altoparlante, g = [gn
gm gk] y Lnmk = [ln lm lk] T.
El vector g se puede resolver de la siguiente manera:
g = pT L-1nmk
⎡l nx l ny l nz ⎤
−1
⎢ ⎥
g = [ pn pm pk ] ⋅ ⎢l mx l my l mz
⎥
⎣ l kx l ky l kz ⎦
E. 19
107
Los valores del vector g deben normalizarse antes poder ser usados, esto se
realiza multiplicando cada uno de ellos por un escalar e, tal que:
1
e
g + g k2 + g m2
2
n
E. 20
Por ejemplo, tómese una configuración de tres altoparlantes y fuente virtual

que se ilustra en la figura 3 y supóngase que su ubicación en coordenadas
esféricas expresadas en grados es la siguiente:
Altoparlantes
Ángulo horizontal Ángulo de elevación
y fuente virtual
ln 45° 0°
lk 90° 45°
lm 135° 0°
p (fuente virtual) 90° 20°
La matriz Lnkm = [ln lk lm] T expresada en coordenadas cartesianas es:
Altoparlantes Coordenada x Coordenada y Coordenada z
ln 0,707107 0,707107 0
lk 0 0,707107 0,707107
lm -0,707107 0,707107 0
El vector pT(dirección de la fuente virtual), expresado en coordenadas carte-

sianas es:
Fuente virtual Coordenada x Coordenada y Coordenada z
pT 0 0,939693 0,34202
La matriz inversa de [ln lk lm] T, o sea L-1nkm, es:
108
0,707107 0 -0,707107
0,707107 0 0,707107
-0,707107 1,414214 -0,707107
Y la multiplicación del vector pT y la matriz inversa L-1nkm da como resultado

el vector g, que contiene las ganancias para cada uno de los altoparlantes:
gn gk gm
Valores “crudos” 0,422618 0,48369 0,422618
Valores normalizados 0,549658 0,629088 0,549658
Al normalizar los valores de ganancia de acuerdo con la ecuación 20, se

cumple que:
0, 49658 2 + 0,629088 2 + 0, 549658 2 ≈ 1
Cuando la técnica vbap se usa en un arreglo de muchos altoparlantes, cada

uno de ellos es tomado como un punto o nodo de una red. Se somete luego
esta red a un algoritmo de triangulación10 para determinar ternas de alto-
parlantes de una manera eficiente y, de acuerdo con la posición de la fuente
virtual, se aplica el procedimiento ya explicado para escalar la ganancia de
los altoparlantes que forman el triángulo activo en el que se encuentra. Por
ejemplo, la imagen que sigue muestra una aproximación a una esfera en tres
dimensiones a partir de una red (o malla) tridimensional de 144 nodos (pun-
tos espaciales).11 La fuente virtual se ubicaría en algún punto de esta esfera
teórica formada por altoparlantes y dentro de la que estarían ubicados los
oyentes. Si se asume que en cada nodo hay un altoparlante, entonces se puede
considerar la aplicación de vbap a las ternas de altoparlantes que surgen de la
triangulación de la red. La figura 4 marca con tres puntos negros uno de los
triángulos activos (en blanco) posibles.12
10 Los métodos de triangulación son intensamente investigados en la geometría analítica
y las ciencias de la computación. Según el autor de la técnica vbap (Pulkki, 2001), en su
implementación se usa el método de triangulación denominado greedy triangulation.
11 Lógicamente, solo una parte de estos es visible en la imagen.
12 Rigurosamente hablando, el triángulo que se ve en la figura sería una aproximación al
triángulo esférico que se denomina triángulo activo.
109
Figura 4
Con el objeto de superar la no uniformidad de imagen que conllevan las

técnicas de panorámico de intensidad que usan grupos (pares o ternas) de
altoparlantes, el autor de vbap desarrolló también un procedimiento que
permite distribuir una parte de la señal en los demás altoparlantes del sistema,
independientemente de si forman o no el triángulo activo. Esta porción de
señal es controlada por un coeficiente de dispersión que el usuario puede graduar
(Pulkki, 2001).
Simulación de la directividad de la fuente acústica mediante indicios

de intensidad
La directividad de una fuente acústica es la forma en la que emite o irradia

energía acústica en función de su orientación. El patrón de emisión de energía
acústica de una fuente involucra tanto a la amplitud de la señal acústica que
emite como a su espectro.13 En este capítulo solo trataremos las técnicas para
simular la amplitud de la directividad de las fuentes acústicas.
Para tener en cuenta la amplitud de la directividad de la fuente acústica
en dos dimensiones, y para dos canales de audio, deben usarse las siguientes
ecuaciones:
Ch1= |r(θ,α)| g1(Θ) / factor de distancia E. 21

Ch2= |r(θ,α)| g2(Θ) / factor de distancia E. 22
13 Para mayores detalles sobre la percepción de la directividad de las fuentes acústicas, véase
el capítulo i de este libro.
110
en donde r(θ,α) es la magnitud de un vector de radiación en la dirección θ de
una fuente acústica con orientación α.
A pesar de que la emisión de energía acústica de las fuentes acústicas
reales posee patrones muy complicados, puede aproximarse a través de diseños
esquemáticos expresados mediante ecuaciones. Por ejemplo, un patrón muy
conocido y usado, tanto en audio como en acústica, es el denominado cardioi-
de, junto con sus derivaciones en hipercardioide. F. R. Moore, en su programa
Space (Moore, 1983, 1989), propone modelar en dos dimensiones la radiación
hipercardioide de una fuente acústica a partir de la siguiente ecuación:
2
⎡ (back −1)|α −θ|⎤
r (θ,α) = ⎢1+ ⎥⎦
⎣ π E. 23
en la que r(θ,α) es la magnitud de la radiación hacia la dirección θ de una

fuente acústica que apunta hacia α, y back es el monto de radiación en el
sentido opuesto de α. Si se asigna valor cero a back, se producirá un patrón de
radiación hipercardioide, mientras que si se le asigna el valor de uno, se produ-
cirá un patrón de radiación omnidireccional. La figura 5 ilustra el pasaje de un
patrón de radiación omnidireccional hacia un patrón de radiación hipercardioide
a través de la ecuación 23 usando cinco valores para back: 1; 0,75; 0,5; 0,25 y
0. La fuente de sonido está ubicada en el origen del plano cartesiano y apunta
hacia la derecha, pero esto último se puede evidenciar sólo en la medida en
que su patrón de radiación se hace direccional.
La ecuación 23 puede usarse para calcular el monto de energía irradiada
por una fuente direccional en la dirección de un oyente o receptor hipotéti-
co. En la figura 6 se puede ver un receptor situado a 90º (simbolizado con el
pequeño círculo blanco) y una fuente de sonido direccional (back = 0 en la
Back= 1 Back= 0.75 Back= 0.5 Back= 0.25 Back= 0
Figura 5
111
α = 0, θ = 90 α = 90, θ = 90 α = 270, θ = 90
Figura 6
ecuación 23) que cambia su orientación en tres direcciones: 0º (apuntando

“hacia la derecha”), 90º (apuntando “hacia delante”) y 270º (apuntando
“hacia atrás”). La línea de puntos marca la dirección de la radiación a calcular.
La flecha señala el vector cuya magnitud se puede usar para escalar la ganancia
en la simulación de la directividad de una fuente sonora mediante la ecuación
23. En los dos últimos casos, la magnitud del vector es 1 y 0 respectivamente,
correspondiendo respectivamente a la dirección de la fuente coincidente con
la del oyente y con la dirección contraria.
La aplicación de la fórmula anterior con un valor de back = 0 en la confi-
guración de la izquierda (α = 0º, θ = 90º, π = 180º)14 de la figura 6 produce:
2
⎡ (back −1)|α −θ|⎤
r (θ,α) = ⎢1+ ⎥⎦
⎣ π
2
⎡ (back −1)|α − 90|⎤
r(90) = ⎢1+ ⎥⎦
⎣ π
⎡ (−1) 90|⎤ 2
r(90) = ⎢1+
⎣ π ⎥⎦
2
r(90) = [1+ (−90 /180)]
2
r(90) = [1− 0,5]
r(90) = 0,25
14 Por razones de simplicidad, los ángulos se indican en grados.
112
Para calcular la radiación en tres dimensiones es necesario tener en cuenta
tanto el ángulo horizontal (azimut) como el ángulo de elevación de la direc-
ción de la radiación. En algunos casos, resulta útil representar la direccio-
nalidad de las fuentes acústicas con el modelo de cuerpos rígidos, a través de
ecuaciones que expresen las coordenadas cartesianas de los puntos que cons-
tituyen su superficie. Por ejemplo, si se construye una variante arbitraria en
tres dimensiones15 de un patrón cardioide, sus coordenadas cartesianas surgen
de las siguientes ecuaciones:
x = cos(θ)cos(ψ) −π ≤ θ ≤ π E. 24
y = sin(θ)cos(ψ) −π /2 ≤ ψ ≤ π /2 E. 25
z = sin(ψ − c) c ≈ 0,5 E. 26
en las que θ y ψ son respectivamente los ángulos de azimut y de elevación que

permiten el cálculo de las coordenadas cartesianas. Las ecuaciones dan como
resultado un patrón de radiación cuyo centro se encuentra en el origen del
plano cartesiano y cuyo vértice está orientado hacia la derecha (x positivo).
Se ilustra en la figura 7.
Figura 7
15 El patrón cardioide en dos dimensiones ya analizado se puede proyectar a tres dimen-

siones simplemente rotando la forma en dos dimensiones alrededor del eje x. Aquí se usa
deliberadamente una variación arbitraria de este sólo como ejemplo de otra posibilidad.
113
Para calcular la amplitud de la radiación de una fuente acústica imaginaria con
las propiedades de directividad que surgen de esas ecuaciones, simplemente
basta con calcular la magnitud del vector que surge desde su centro (en este
caso, el origen) hasta un punto de su superficie indicado por los dos ángulos del
vector (azimut y elevación). Esto se hace muy sencillamente, ya que:
r(θ,ψ) = x 2 + y2 + z 2 E. 27
y conocemos los valores de x (ecuación 24), y (ecuación 25) y z (ecuación 26).

Si la fuente cambia de posición (i.e., se traslada) o de orientación (i.e.,
rota), su nueva posición se obtiene sumándole un vector de traslación a las
coordenadas cartesianas del centro de la fuente, y la nueva orientación se
obtiene multiplicando las coordenadas cartesianas de la fuente por una matriz
de rotación.
Otro ejemplo de implementación análogo al anterior lo constituye el
sistema DirectX,16 en el que se imita la directividad de las fuentes de sonido
usando el modelo geométrico del cono (Bargen y Donnelly, 1998).
En los casos que tratamos, las propiedades de radiación se calculan con ecua-
ciones, pero si se desea representar y calcular muy variados patrones de radia-
ción, aun arbitrarios (i.e., no correspondientes con el patrón de radiación de
ninguna fuente sonora real) y absolutamente asimétricos, se podrían definir
las propiedades de directividad de una fuente acústica a través de una serie de
puntos en un espacio tridimensional (una red o malla). Esto sería como mues-
trear un cuerpo rígido. Los valores de las coordenadas cartesianas normalizados
representarían la magnitud de la radiación en la dirección de cada uno de los
puntos que definen. Los valores intermedios se podrían aproximar por medio
de algún tipo de interpolación. Tal estrategia tendría la ventaja de adaptarse
al uso de archivos digitales de cuerpos rígidos en tres dimensiones de formato
estándar que, además, se pueden representar y procesar visualmente con faci-
lidad usando los programas adecuados.17
Otra posibilidad sería el modelado de la directividad de la fuente acústica
a través de ecuaciones esféricas. Aquí se considerarían el ángulo horizontal
y el de elevación, y el usuario podría prever una función de atenuación para
cada uno de ellos. Si tales funciones retornaran la unidad, el resultado sería
16 DirectX es una api (Advanced Programming Interface) para multimedia del sistema ope-
rativo MS Windows.
17 Por ejemplo, los archivos obj de Alias Wavefront que, en su forma más simple, definen
objetos gráficos a través de vértices indicados en coordenadas cartesianas y superficies que

se forman a través de la triangulación de los vértices.
114
una esfera (radiación omnidireccional). Valores cambiantes de acuerdo con
los ángulos podrían representar muy diversos patrones de directividad; este es
el enfoque que usa el entorno SoundScape (Wozniewski et al., 2007).
Finalmente se mencionará la posibilidad del cambio gradual de las carac-
terísticas de directividad de una fuente acústica. Si se cambia gradualmente el
parámetro back en la ecuación 23, por ejemplo, se puede lograr el paso gradual
de una fuente omnidireccional a una fuente hipercardiode.18
Técnicas de espacialización basadas en indicios de tiempo
El sonido se transmite a una velocidad constante que depende de la densidad

del medio. En términos sencillos, el tiempo t que le toma al frente de onda de
una señal acústica alcanzar un determinado punto a distancia d de la fuente
que la emite se calcula de acuerdo con la siguiente expresión:
t=d/c E. 28
en la que c es la velocidad de propagación del sonido.

Dada una fuente de sonido, es posible calcular su distancia respecto de
un determinado punto y simular su tiempo de arribo por medio de líneas de
retardo. Hay varias estrategias de implementación de estos datos que dan
lugar a diferentes indicios que pueden combinarse o no.
La distancia que existe entre dos puntos espaciales determinados por
medio de coordenadas cartesianas en tres dimensiones se calcula de acuerdo
con la siguiente ecuación:
D (x a , y a , z a , x b , y b , z b ) = (x a - x b )2 + (y a - y b )2 + (z a - z b )2 E. 29
en la que D es la distancia, xa, ya, y za son las coordenadas cartesianas que

definen la posición del primer punto, y xb, yb, y zb son las coordenadas carte-
sianas que definen la posición del segundo punto.
Se suelen usar los datos que surgen de las dos ecuaciones anteriores (28 y 29)
para simular: 1) el tiempo de arribo del frente de onda a un solo punto global
18El efecto en el oyente, sin embargo, será el de un cambio de intensidad, a menos que se
simulen los ecos de un recinto teniendo en cuenta la directividad de la fuente acústica y/o se
usen otros indicios espectrales. Véase la sección Simulación de las características de recintos
mediante indicios de intensidad y tiempo (p. 117 de este capítulo).
115
en el que se asume que está el/los oyente/s (Chowning, 1971); 2) el tiempo
de arribo del frente de onda a cada uno de los oídos de un oyente, denomina-
do también simulación de itd; y 3) el tiempo de arribo del frente de onda a
cada uno de los altoparlantes que se ubicarán en puntos determinados de un
recinto para simular una determinada situación de audición. Este último caso
se corresponde con el modelo realizado por F. R. Moore (1989 y 1983) en su
unidad de espacialización Space.
La ecuación 29 puede ser usada para calcular la distancia entre la fuente
virtual y el oyente, y la ecuación 28 para calcular el retardo que debe efec-
tuarse en la señal a los efectos de simular el indicio temporal de distancia. En
general, muchas implementaciones asumen que el oyente está situado en el
origen (x = y = z = 0), por lo que la distancia entre este y la fuente de sonido
se calcula de forma mucho más sencilla:
D = x 2 + y2 + z 2 E. 30
Cuando la fuente de sonido cambia de ubicación, la distancia –y el retardo–

deben ser recalculados. Dado que la trayectoria debe generar valores discretos,
en general se realiza este cálculo muestra por muestra y se usa algún método
de interpolación (usualmente interpolación lineal) para calcular los valores
intermedios de retardo. Asimismo, el hecho de que la fuente esté en movi-
miento produce (salvo en el caso en que la fuente se mueve con velocidad
uniforme en un círculo en cuyo centro se encuentra el oyente) diferencias de
velocidad relativa entre el oyente y la fuente y, por consiguiente, da lugar a un
cambio de frecuencia en la señal conocido como efecto Doppler.
En audio digital, para simular todos los efectos de retraso de una señal, se
usan las llamadas líneas de retardo.19 La forma más eficiente de implementarlas
usa la técnica que se denomina de buffer circular.
La técnica de buffer circular consiste en ir almacenando la señal de entrada
de a bloques en una región de memoria (buffer) con un tamaño determinado.
Cada muestra de la señal de entrada se almacena en una ubicación sucesiva
del buffer y, por medio de una “variable-contador”, se chequea la cantidad de
muestras entrantes. Cuando el contador llega a ser igual al tamaño máximo
del buffer, se lo pone en cero nuevamente y las muestras subsiguientes vuelven
a ser ubicadas sucesivamente desde el comienzo del buffer. Ya que la señal se
va “escribiendo” en el buffer circular, se puede “leer” en él la muestra necesa-
ria retrasada por el tiempo que se necesite, pero hay que tomar la precaución
de que el retardo no supere el tamaño del buffer. Más aun, se puede utilizar
19 Delay lines, en inglés.
116
el mismo buffer para leer la señal almacenada en él con diferentes retardos,
provistos del hecho ya mencionado de que estos no superen su longitud (véase
Moore, 1990, cap. iv).
La itd (diferencia interaural de tiempo) es un indicio que se produce por
el diferente tiempo de arribo de la señal acústica a los oídos del oyente cuando
la fuente de sonido se encuentra en una ubicación diferente del plano medio
(véase el capítulo i de este libro).
Tomando como base la medida de la distancia de un oído a otro en una
“cabeza promedio” (aproximadamente 20 cm) es muy sencillo calcular el
tiempo de arribo a cada oído de la señal acústica de acuerdo con su ángulo de
posición. Se trata solo de aplicar la ecuación 29 a dos puntos situados respec-
tivamente a -0,1 m y 0,1 m de la posición del oyente.
A pesar de ser un indicio muy contundente de ubicación espacial de soni-
do, la itd no es apta para su utilización en sistemas de altoparlantes porque la
posición de los oyentes y su propensión a mover la cabeza reducen completa-
mente su efectividad.20
Sin embargo, hay dos casos en los que la simulación de retardos no solo es
necesaria, sino inevitable. Uno es la simulación del efecto Doppler y el otro es
la simulación de los ecos tempranos,21 o primeras reflexiones de un recinto.
El efecto Doppler surge, como ya se mencionó (véase capítulo ii de este
libro), de la modificación dinámica de velocidad radial relativa a fuente acús-
tica y oyente. Para implementarlo se usa la misma técnica de buffer circular
ya explicada, pero respecto de un solo punto espacial en donde se supone
que está el oyente. Debe ser mencionado, por supuesto, que tal simulación es
rigurosa solo para el punto en donde se calcula.
Simulación de las características de recintos mediante indicios

de intensidad y tiempo
Introducción
Para simular las características de un recinto, es necesario tener en cuenta

su reverberación, que es el resultado de las numerosas reflexiones de la señal
acústica directa en sus elementos físicos. Se la suele dividir –por razones prác-
ticas– en dos fenómenos: primeros ecos y reverberación densa (Di Liscia, 2004).
20 La simulación de la itd es sumamente efectiva, sin embargo, cuando se usan auriculares

en vez de altoparlantes.
21 La simulación de ecos tempranos se trata más adelante en este capítulo.
117
Los primeros ecos son una colección de reflexiones que ocurre aproximada-
mente en los primeros 80 milisegundos a partir del momento en que comienza
la señal directa. Proveen información sobre el recinto y, parcialmente, sobre
la localización relativa de fuente y oyente, siendo especialmente significativo
el lapso entre el comienzo de la señal directa y el primer eco. Pasados los 80
milisegundos, aproximadamente, la colección de ecos es cada vez más densa,
y se percibe de manera estadística. A este otro fenómeno se lo denomina
habitualmente reverberación densa.22
En este capítulo se tratará únicamente la simulación de ecos tempra-
nos, dado que las técnicas que involucra tienen estrecha relación con las ya
explicadas.
Simulación de ecos tempranos
Cuando se conocen los datos referidos a las dimensiones, la geometría y la

constitución de un recinto, es posible calcular tanto el retardo como la ampli-
tud de las diversas reflexiones del frente de onda en sus paredes, techo y piso
respecto de un oyente ubicado en dicho recinto. Una de las estrategias para
imitar los primeros ecos se suele denominar acústica geométrica (Begault, 2000)
y consiste en considerar las diferentes reflexiones como rayos en direcciones
determinadas, en analogía con rayos de luz.
Existen varios métodos para el cálculo de las primeras reflexiones de
acuerdo con esta concepción. Uno de ellos es el llamado trazado de rayos.23
En el algoritmo básico, la fuente emite rayos de sonido que se reflejan en las
superficies de la sala y el oyente sigue aquellos que le llegan como reflexiones
audibles. En general, se usa el modelo de una esfera y se toma una cantidad
predefinida de rayos en direcciones distribuidas uniformemente que se supone
que emite la fuente acústica (Savioja, 1999). Se debe recordar aquí que, para
una simulación más eficaz, deben tenerse en cuenta las características direc-
cionales de la fuente sonora involucrada.24
Cuando se pretende simular una cantidad considerable de reflexiones
en tres dimensiones, el método de trazado de rayos es sumamente exigente
en tiempo de proceso y sólo puede realizarse con sistemas muy poderosos, o en
tiempo diferido.
22 Para más detalles sobre la acústica de recintos y su percepción, véase el capítulo ii de

este libro.
23 Ray tracing, en inglés.
24 Véase el punto referido a la simulación de la directividad de las fuentes acústicas en este
capítulo.
118
Para efectos musicales más prácticos25 y considerando una geometría
simple del recinto, la mayoría de las aplicaciones de audio para simulación
de localización y movimiento de una o varias fuentes acústicas en un recinto
implementan el llamado método de la imagen.26 Este método consiste en el cál-
culo de las primeras reflexiones que llegan al oyente clasificadas por orden (es
decir, las de primer orden son las que rebotaron una sola vez, las de segundo
orden dos veces, y así sucesivamente). A pesar de que se sabe que este método
no es completamente apto para la simulación precisa de la respuesta a impulso
de una sala, la aproximación que realiza es suficiente para obtener los ecos
que los oyentes utilizan para conjeturar la localización de la fuente acústica.
La figura 8 muestra las reflexiones de primer orden que surgen de una fuente
omnidireccional de acuerdo con el método de la imagen, con respecto a un
oyente situado en el origen de un plano en dos dimensiones. En este caso, se
obtiene un rayo por cada una de las paredes del recinto.
20
20
(8,12)
(8,8)
(12,8)
(-28,8)
(0,0)
(8,-28)
Figura 8
25 A diferencia del propósito de diseño acústico de salas, que requiere de una mayor preci-
sión en la imitación de fenómeno físico. Véase el capítulo ii de este libro.
26 Image method, en inglés. Véase Allen y Berkeley (1979).
119
El método de la imagen tiene también la ventaja de ser simple y, por consi-
guiente, más fácil de implementar. Consiste en rebatir la imagen de la sala
hacia la izquierda, la derecha, el frente, atrás, arriba y abajo (si se calcula en
tres dimensiones). La nueva posición de la fuente en tales imágenes tiene
una distancia y un ángulo en relación con el oyente que son equivalentes a
la reflexión del orden que corresponda. Si se desea calcular las reflexiones
de segundo orden, estas surgen de un nuevo rebatimiento de las imágenes de
las reflexiones de primer orden obtenidas, y así sucesivamente. En la figura
9 se muestran esquemáticamente en dos dimensiones las fuentes fantasmas
que se calculan para las reflexiones de primer y segundo orden del recinto,
oyente y fuente que se encuentran en el rectángulo central. El orden de las
reflexiones se marca con la intensidad del sombreado.
Las ecuaciones que permiten calcular la posición de las coordenadas
cartesianas de la nésima fuente virtual en tres dimensiones con el método de la
imagen (McGovern, 2004) son:
1−(−1)i
x i = (−1)i x s +[i + ]x r E. 31
2
1−(−1) j
y j = (−1) j y s +[ j + ]y r E. 32
2
1−(−1)k
zk = (−1)k zs +[k + ]zr E. 33
2
donde i , j y k son enteros que indican el número de fuente fantasma. Si algu-
no de ellos es 0, entonces las ecuaciones 31, 32 y 33 retornan la coordenada
cartesiana correspondiente de la fuente, mientras que si son negativos las
ecuaciones retornarán la coordenada cartesiana correspondiente a la fuente
fantasma en la pared opuesta. En estas ecuaciones, xs, ys, zs son las coordena-
das cartesianas de la fuente en el recinto, xr es la dimensión del recinto en la
dimensión x (ancho), yr es la dimensión del recinto en la dimensión y (largo)
y zr es la dimensión del recinto en la dimensión z (alto).
La distancia de dichas fuentes fantasmas (equivalentes a las reflexiones)
al oyente se puede calcular con la ecuación 28 o, si se asume que el oyente
está en el centro, con la ecuación 29.
Por supuesto, a medida que el orden de las reflexiones se incrementa, la canti-
dad de fuentes virtuales a simular crece de manera geométrica. La cantidad k
de reflexiones a calcular en tres dimensiones con el método de la imagen, en
función del orden n de estas surge de acuerdo a la siguiente ecuación (Varga,
2000):
120
((4n + 6)n + 8)n
k= E. 34
3
En la tabla siguiente se muestra una lista de la cantidad de reflexiones a
calcular desde n = 1 hasta n = 10 de acuerdo a la ecuación anterior. Puede
apreciarse claramente con el aumento de reflexiones el proceso de pasaje
progresivo desde ecos tempranos a reverberación densa por la progresiva
acumulación de estos. Es evidente también que el incremento geométrico de
la cantidad de reflexiones en función del orden torna casi imposible su simu-
lación en tiempo real más allá de un orden determinado. Por lo antedicho, la
mayoría de las aplicaciones suele dar al usuario la posibilidad de establecer el
valor máximo de n (orden de los ecos a calcular), o bien un valor de amplitud
que el programa puede usar como umbral mínimo para determinar cuántas
reflexiones debe calcular y simular.27
Figura 9
27 Alternativamente, se podría establecer un límite de tiempo máximo para los retardos de

las reflexiones, ya que, dependiendo de las dimensiones del recinto que se quiere simular,
al pasar un determinado orden de las reflexiones, sus retardos podrían fácilmente superar
el umbral de eco.
121
Orden (n) Reflexiones (k)
1 6
2 24
3 62
4 128
5 230
6 376
7 574
8 832
9 1.158
10 1.560
A través de las ecuaciones 31, 32 y 33 se pueden obtener las coordenadas

cartesianas de cada una de las fuentes fantasma que equivalen a cada una de
las reflexiones en las paredes, techo y piso de un recinto. Con los datos así
calculados, cada rayo se puede considerar una nueva fuente fantasma, y esta
se puede simular a través de las técnicas explicadas antes en este capítulo:
localización angular, distancia y directividad, como así también técnicas de
simulación de la distancia a través del retraso temporal.
Es interesante advertir que, si se simula la directividad de la fuente acús-
tica direccional, la amplitud de los ecos en función de su dirección se verá
significativamente afectada. Por ejemplo, en la figura siguiente se observa
una fuente hipercardioide apuntando hacia un oyente ubicado en el origen.
La radiación del sonido directo deberá calcularse en base al ángulo θ (el ángu-
lo entre el centro de la fuente y el oyente), pero la radiación de la primera
reflexión sobre la pared lateral derecha se deberá calcular a partir del ángulo
ϕ. Se puede comprobar que ϕ equivale a 2π - δ, siendo δ el ángulo entre el
oyente y la fuente fantasma que simula la reflexión.
Un posterior refinamiento incluiría el cálculo de un factor de atenuación
extra para simular la pérdida de energía inherente al material que recubre las
superficies reflejantes del recinto.28 Con este objetivo, puede establecerse un
28 Nuevamente debe advertirse que un cálculo y una simulación precisos de tal efecto debe-
rían incluir los cambios en el espectro de la señal en relación a la respuesta en frecuencia
y fase del material que recubre las superficies reflejantes y el ángulo de incidencia de la
122
Fuente
Reflexión
Oyente
Figura 10
escalar que representa un coeficiente de absorción. Si este escalar es igual a

la unidad, no habrá atenuación. Pero si es menor que la unidad, la señal que
corresponde a cada reflexión deberá ser atenuada por un factor que, de acuerdo
con McGovern (2004), podemos calcular tomando el coeficiente de reflexión
de las superficies, rw, y elevándolo al exponente n donde n =|i|+|j|+|k|.
Si los coeficientes de absorción de las paredes, techo y piso del recinto son
diferentes, entonces el cálculo del factor de atenuación es más complicado,
pero perfectamente posible.29
Finalmente se debe considerar que cuando la fuente virtual está en movi-
miento, el diseño de los ecos tempranos se modifica de acuerdo a su posición.
Esta modificación debe, por supuesto, ser calculada con la periodicidad nece-
saria.30 Como consecuencia de esto, tanto los valores de atenuación en ampli-
tud debidos a la distancia y dirección como aquellos debidos a la directividad
de la fuente cambiarán dinámicamente y deberán ser calculados y tenidos en
cuenta. Los valores de retraso de la llegada al oyente del rayo correspondiente
a cada eco cambiarán dinámicamente también, y darán lugar a corrimientos
de la frecuencia de las señales que representan a cada eco, de una manera aná-
loga al efecto Doppler que producen las diferentes velocidades radiales entre
fuente y oyente.31 Nuevamente, aquí habrá que usar los procedimientos de
buffer circular con interpolación que ya se explicaron para imitar los retardos
dinámicos que surgen de tal situación.
reflexión. Véase el capítulo ii del presente libro.

29 Para conocer las ecuaciones correspondientes, véase McGovern, (2004).
30 Se pueden calcular las posiciones de la fuente virtual y las correspondientes reflexiones a
cada muestra de audio, o bien a frecuencias menores y utilizar algún tipo de interpolación
entre los valores obtenidos.
31 Si bien, rigurosamente hablando, no se trata de efecto Doppler, la manera de concebirlo
e imitarlo es exactamente igual a la que se usa para la emulación del efecto Doppler en la
señal directa.
123
Conclusiones
Las técnicas tratadas hasta aquí son relativamente sencillas de implementar y

constituyen la base sobre la cual se desarrollan muchos dispositivos de espacia-
lización. Existe fuerte evidencia científica y práctica de que, si tales técnicas
se combinan adecuadamente con algunas otras que usan indicios espectrales
(tales como el filtrado dependiente de la distancia y el filtrado de las señales
reflejadas de acuerdo con los coeficientes de absorción de los materiales refle-
jantes), es posible producir una simulación de las características espaciales
bastante robusta. Además de ello, los dispositivos electrónico-digitales son
cada día más veloces y de mayor capacidad, permitiendo así el proceso de
mayor cantidad de señales y simulación de indicios.
Particularmente, sin embargo, todavía resta realizar mucha investiga-
ción y desarrollo para superar ciertas limitaciones de las técnicas tratadas.
Entre las principales de estas limitaciones se pueden mencionar: la falta de
uniformidad de la señal acústica difundida en los altoparlantes, la dificultad
de simular correctamente una fuente acústica en una ubicación muy próxima
al/a los oyentes, y la estrechez del “punto de audición ideal”32 para audiencias
numerosas.
Bibliografía
Allen, J. y D. Berkley (1979), “Image Method for Efficiently Simulating

Small Room Acoustics”, Journal of the Acoustical Society of America, pp.
912-915.
Bamford, J. S. (1995), An Analysis of Ambisonic Sound Systems of First and
Second Order, tesis de maestría, Ontario, Waterloo University.
Bargen, B. y P. Donnelly (1998), DirectX a fondo, Madrid, McGraw-Hill.
Begault, D. (2000), 3D sound for Virtual Reality and Multimedia (<http://human-
factors.arc.nasa.gov/publibrary/Begault_2000_3d_Sound_Multimedia.
pdf>).
Cetta, P. (2007), Un modelo para la simulación del espacio en música, Buenos
Aires, Educa.
Chowning, J. (1971), “The simulation of Moving Sound Sources”, Journal of
the Audio Engineering Society, N° 19.
Di Liscia, O. P. (2004), Síntesis y procesamiento de sonido y música a través del pro-
grama Csound, Bernal, Editorial de la Universidad Nacional de Quilmes.
32 Denominado comúnmente sweet spot por los ingenieros de audio.
124
Dodge, Ch. y T. Jerse (1985), Computer Music Synthesis, composition and per-
formance, Nueva York, Schirmer Books.
Guastavino, C. et al. (2007), “Spatial audio quality evaluation: comparing
transaural, Ambisonics and stereo”, Proceedings of the 13th International
Conference on Auditory Display, Montreal.
Karpen, R. (1998), “Space and Locsig Ugs”, en The Csound Manual (<http://
www.csounds.com/manual/html/locsig.html>, <http://www.csounds.
com/manual/html/space.html>).
Kendall, G. et al. (1989), “Spatial reverberation, discussion and demonstra-
tion”, en Mattews, M. y J. Pierce, Current Directions in Computer Music
Research, Cambridge, mit Press.
Kendall, G. (1995), “The decorrelation of Audio Signals and its impact on
Spatial Imaginery”, Computer Music Journal, vol. 19, Cambridge, mit
Press.
McGovern, S. (2004), A model for room acoustics (<http://www.2pi.us/rir.
html>, consultado el 20 de febrero de 2008).
Moore, F. R. (1990), Elements of Computer Music, Nueva Jersey, Prentice
Hall.
—— (1989), “Spatialisation of sounds over loudspeakers”, en Mattews, M. y
J. Pierce, Current Directions in Computer Music Research, Cambridge, mit
Press.
—— (1983), “A General Model for Spatial Processing of Sounds”, Computer
Music Journal, vol. 7, N° 3.
Moorer, A. (1979), “About this reverberation business”, Computer Music
Journal, vol. 3, Nº 2.
Pulkki, V. (2001), Spatial sound generation and perception by amplitude panning
techniques, Reporte N° 62, Universidad Tecnológica de Helsinki.
—— et al. (1999), “Analyzing virtual sound source attributes using a binaural
auditory model”, Journal of the Audio Engineering Society, 47 (4), pp.203-
217.
Savioja, L. (1999), Modeling Techniques for Virtual Acoustics, tesis doctoral,
Helsinki University of Technology, Finlandia (<http://www.tml.tkk.
fi/~las/publications/thesis/>, consultado el 20 de febrero de 2008).
Stevens, S. S. (1970), “Neural events and Phychophisical Law”, Science, 170.
Varga, I. (2000). “Spat3d Unit Generator”, The Csound Manual (<http://
www.csounds.com/manual/html/spat3d.html>).
West, J. (1998), Five-channel panning laws: an analytical and experimental com-
parison, tesis de maestría, Universidad de Miami.
Wozniewski, M. et al. (2007), “AudioScape: A Pure Data library for manage-
ment of virtual environment and spatial audio”, Pure Data Convention,
125
Montreal (<http://www.audioscape.org/twiki/pub/Audioscape/Audioscape
Publications/audioscape_pdconv07_final.pdf>).
126
Capítulo IV
Transformadas clásicas de la imagen estéreo.
Un análisis
Joseph Anderson
Introducción
El presente estudio es el resultado de dos búsquedas del autor en el arte del

sonido grabado, ambas relacionadas entre sí: en primer lugar como compositor
de música “acusmática” (Dhomont, 1996; Windsor, 2000), y adicionalmente
como ingeniero de grabación “purista” (Lipshitz, 1986). La recolección de
sonidos grabados, para su uso a modo de bloques constructivos de un nuevo
mundo sonoro, es una actividad muy importante dentro de la tradición britá-
nica de la música acusmática. Normalmente, el primer paso de una composi-
ción en esta modalidad es la improvisación alrededor de un par de micrófonos,
produciendo sonidos en el estudio. En la práctica, la elección de las técnicas
de microfoneo utilizadas (tipos de patrón y disposición) pueden de hecho
variar, pero el resultado será una grabación estereofónica. Si bien comenzar
con grabaciones estereofónicas de solo una pista puede, en términos de pro-
ducción, resultar más simple, el compositor acusmático diestro comienza con
tomas estéreo para que la base de la pieza a ser creada ya tenga plasmados los
atributos espaciales1 (Rumsey, 2002) presentes en las grabaciones de la impro-
visación inicial con los materiales de origen. De manera similar, al ingeniero
de grabación purista le interesa realizar grabaciones estéreo que capturen
exitosamente los atributos espaciales de un evento acústico, usualmente una
ejecución musical.
Cuando se trata de manejar las grabaciones resultantes, tanto el acusmá-
tico como el purista tienen un problema similar. El compositor necesita un
conjunto de herramientas para manipular los atributos espaciales de los soni-
dos recolectados, si este es uno de los parámetros a operar para crear sentido
–y para que, como es de esperarse, sea reconocida la habilidad del artista. Para
1 Estos incluyen ancho, profundidad, distancia, cualidad envolvente, espaciosidad, impre-

sión espacial, etcétera.
127
el ingeniero de grabación purista el asunto puede ser algo más correctivo.
Particularmente para grabaciones hechas en conciertos, en las que cuestiones
de puesta en escena y línea de visión pueden no siempre dar como resultado
grabaciones bien balanceadas, centradas, o de alguna manera bien representa-
das, la acción reparadora puede ser necesaria. El ingeniero de grabación puris-
ta puede necesitar re-apuntar, re-balancear o re-guiar el resultado, en esencia
“remezclando espacialmente”, para producir una grabación más apropiada y
utilizable. Al hacer mención del acusmático y el purista, la intención no es
acotar la audiencia para el análisis que sigue. Se podría suponer, idealmente,
que todos los profesionales del audio deberían estar familiarizados con las
técnicas que se discutirán, y particularmente, el ingeniero de masterización
y mezcla.
El propósito de esta discusión es revisar una variedad de transforma-
das clásicas de la imagen estéreo, y aunque estas no sean capaces de cubrir
necesariamente todas las características de una grabación estéreo calificables
como atributos espaciales, un rango de cualidades puede manejarse ergonó-
micamente.
Aunque varias de las transformadas que serán comentadas son conocidas
y muy utilizadas por los profesionales del audio, algunas de ellas no lo son, y
han sido catalogadas habitualmente como oscuras y misteriosas.
Las transformadas en sí se presentan en forma de variaciones de la ley
de panorámico seno-coseno, también mencionada en la literatura como ley de
panorámico tangente o ley estéreofónica de senos (Malham, 1998; Griesinger,
2002).
Inspirados por los “diagramas polares estéreo” de Julstrom (1991) que él
mismo utiliza para ilustrar la sensibilidad de un arreglo de micrófonos estéreo
coincidentes y la distribución del escenario estéreo resultante, los cambios
aplicados por las transformadas al campo estéreo son ilustrados mediante el
uso de figuras similares a las que muestra la pantalla de un goniómetro.2 La
intención, idealmente, es conducir “con mil palabras” al lector hacia una
comprensión intuitiva de la acción de las transformadas de imagen. Gran
parte de este trabajo es el resultado de la lectura y reflexión sobre el trabajo de
Michael Gerzon, y el objetivo es hacer un intento de ilustración y unificación
de algunas de sus discusiones sobre el tópico.
Por último, al cierre y sugiriéndose una lectura más profunda de Gerzon,
se tratará ligeramente la noción de transformadas de imagen dependientes de
la frecuencia.
2 Referido usualmente como medidor de fase estéreo.
128
Ley de panorámico seno-coseno y el dominio ms
Ley de panorámico
Muchos, si no la mayoría, de los novatos del audio comienzan su experiencia

con la imagen estéreo a través del uso de la ley de panorámico, ubicando un
sonido monofónico dentro un escenario estéreo. Al hablar de “estéreo”, esta
discusión hace referencia a un sistema estéreo de dos canales con dos alto-
parlantes ubicados frente al oyente en un arco, usualmente dispuestos a 60°.
Además, algunas de las impresiones de imagen que se describen en este texto
son claras solo a través de la reproducción con altoparlantes y en muchos
casos, si la señal estéreo se escucha con auriculares,3 no se perciben.
Toda mesa de mezcla y estación de trabajo de audio digital incorpora algún tipo
de ley de panorámico o panning para posicionar señales monofónicas en un esce-
nario estéreo; esto se logra mediante la distribución de la señal de entrada entre
los dos canales de salida de los altoparlantes. La ley de panorámico utilizada con
mayor frecuencia por las mesas estéreo es, tal vez, la ley de panorámico seno-
coseno, que aplica ganancias a la señal de entrada de la siguiente manera:
L pan = cos (45°− θp )M
R pan = sin (45°− θp )M E. 1
donde M es una señal de entrada monofónica y θp es el ángulo de panorámico

deseado. θp varía entre +45º para un panorámico total hacia el altoparlante
izquierdo y -45º para un panorámico hacia el altoparlante derecho. Asignar
0º a θp posiciona la señal de entrada M en el centro de la imagen resultante.
En sus acotaciones acerca de la conveniencia de la utilización de la ley seno-
coseno, Griesinger (2002) ha enunciado: “La ley seno-coseno tiene la ventaja
de mantener una energía constante mientras varía la posición aparente, y su
uso tiene una larga historia”. Esta energía constante con variación de posición
permite la percepción de un nivel de sonoridad constante con diferentes tipos
de señal de entrada.
Al ponerse en el lugar del ingeniero de grabación purista, es válido men-
cionar que la ley de panorámico seno-coseno puede también ser implementada
a través del uso de una técnica de microfoneo estéreo conocida como Blumlein
(Blumlein, 1931; Gerzon, 1976a; Lipshitz, 1986) o arreglo estereosónico (Clark,
3 El problema de la escucha de cualidades espaciales con auriculares tiene aspectos parti-

culares divergentes de la audición con altoparlantes y se considera mejor en el contexto de
las técnicas binaurales.
129
Dutton y Vanderlyn, 1958). Se utilizan dos micrófonos bidireccionales cruza-
dos; el micrófono que captura la parte izquierda de la escena apunta 45º hacia
la izquierda, y el encargado de capturar la parte derecha de la escena apunta
45º hacia la derecha, ambos respecto del centro. Esta técnica es muy recono-
cida por su capacidad de producir grabaciones vívidas, estables, enérgicas y
“objetivas”, ubicando al oyente en el espacio de la grabación.
El dominio MS
Mucha gente en la comunidad del audio asocia el dominio MS (middle-and-side o

mono-and-stereo) con la técnica de microfoneo estéreo ms (Dooley, y Streicher,
1982). Como ocurre con otras técnicas coincidentes, la técnica de microfoneo
ms es recomendable por muchas razones –fácil despliegue, imagen estéreo
vívida y precisa. Presentado en la patente de Blumlein de 1931, el dominio
ms no debería pensarse ligado a los micrófonos y la adquisición de sonido;4 el
dominio ms es simplemente una manera alternativa de representar o ver una
señal estéreo. Una señal estéreo “estándar”, compuesta por las señales izquierda
y derecha, es una señal estéreo en el dominio LR (left-right). Los dominios lr y
ms pueden considerarse dos caras de una misma moneda; un cambio en la señal
estéreo producido en uno de los dominios se ve reflejado en el otro.
La transformación del dominio lr al dominio ms se logra de la siguiente
manera:
M= 2
(L + R)
2
S = 2 (L − R)
2
E. 2
De manera similar, la transformación de ms a lr es:

L= 2
(M + S )
2
R= 2 (M − S )
2
E. 3
Estas dos transformadas son ortogonales; no se pierde información al mover-

se de un dominio al otro. Transformar una señal estéreo lr al dominio ms
mediante la ecuación 2 y luego al dominio lr nuevamente a través de la ecua-
ción 3 dará como resultado la señal estéreo original, sin modificaciones.
El panorámico de una señal de entrada mono por vía de la ley de panorámico
seno-coseno es realizado de la siguiente manera en el dominio ms:
4 Las transmisiones estéreo de fm son realizadas en el dominio ms.
130
M pan = cos (θp )M
Span = sin (θp )M E. 4
M, θp y el panorámico resultante son como en la ecuación 1 que aparece más

atrás, cuando la señal estéreo ms se transforma al dominio lr mediante la
ecuación 3. Nótese que el panorámico de una señal mono en el dominio ms
parece ser algo más simple que en el dominio lr, pero a expensas de trans-
formar el resultado al dominio lr. Veremos que esto ocurre con varias de las
transformadas a analizar; algunas son más convenientes de implementar en el
dominio lr, otras en el dominio ms.
La visualización de la relación entre los dominios lr y ms constituye un
punto importante para comenzar nuestro estudio. Aquellos que estén familia-
rizados con la lectura de goniómetros probablemente reconocerán el trazado
que muestra la figura 1. El eje lr es trazado en oposición al eje ms, con marcas
en los ángulos cada 15º e incrementos de 6 dB en las ganancias. El trazado
muestra tres señales mono, cada cual con una ganancia de 0dB, ubicadas a
+30º, 0º y -45º en una imagen estéreo resultante. Este trazado no es exacta-
mente lo que un goniómetro mostraría para las señales descritas. En primer
lugar, un goniómetro no es capaz de representar tres señales que ocurren de
manera simultánea y dar ángulos de azimut precisos para cada una, como se
muestran aquí. Por el contrario, para señales múltiples se mostrarían varias
figuras de Lissajous cuya variación depende de cada una de las señales y de sus
posiciones en el panorámico. En segundo lugar, incluso para una imagen esté-
reo consistente de una única señal mono posicionada, un goniómetro posee
limitaciones adicionales. No es capaz de representar polaridad; una señal
posicionada a +30º aparecerá de la misma manera que una ubicada a -150º.
Sin embargo, como puede verse en la ecuación 1, estas dos señales tendrán
polaridades opuestas; la representación de una imagen estéreo, idealmente,
tomará esto en cuenta.
Las ilustraciones utilizadas a lo largo de esta discusión adoptan un méto-
do de visualización del ángulo de panorámico y de la ganancia codificados a
través de los 360º completos: el ángulo de azimut como el desplazamiento
alrededor del círculo, y la ganancia como el radio desde el centro. La imagen
estéreo que muestra la figura 1 se construye fácilmente mediante el uso de
mezcladoras estéreo por hardware o software, ya que las tres señales mono son
posicionadas entre +45º y -45º (+L/R), a la izquierda y la derecha. La figura
2 ilustra una imagen estéreo con señales mono a 0 dB posicionadas de 0º a
-15º, con incrementos de 15º.
La construcción de esta clase de imágenes requiere un acceso directo a
131
la ley de panorámico seno-coseno dado que los elementos están posicionados
más allá de los +45º y -45º comúnmente establecidos como límites en las
mezcladoras pensadas para usuarios estándar (este punto se discute más ade-
lante). La señal exhibida en la figura 2 se usará como una señal identidad y las
transformadas a examinar en el resto de este trabajo serán ilustradas actuando
sobre esta señal estéreo.
Las transformadas estéreo
Rotación-panorámico estéreo
Mientras que la rotación no es habitualmente una de las primeras transfor-

madas estéreo con las que la mayoría de los practicantes del audio ha tenido
experiencia, comenzaremos aquí con ella. La rotación se construye fácilmente
a partir de la ley de panorámico seno-coseno, y veremos que el resto de las
transformadas a estudiar aquí pueden considerarse simples variaciones de
esta. La rotación puede ser vista como un verdadero algoritmo de panorámico
estéreo, dado que acepta una entrada estéreo y da como resultado una salida
estéreo. Actúa reposicionando los elementos en la imagen estéreo sin ajustar
sus ganancias relativas, al igual que el resto de las transformadas a examinar.
Mientras que la ley de panorámico seno-coseno se utiliza para posicionar una
señal mono, la rotación se usa para posicionar (o reposicionar) una señal
estéreo y debería considerarse como la operación equivalente al panorámico
para señales estéreo. Sorprende entonces, que mientras las mesas de mezcla
por hardware y software emplean el panorámico, muy pocas implementan la
rotación, el verdadero panorámico estéreo.
La forma más fácil de ver la relación entre panorámico y rotación es
comenzando por el dominio ms; la transformación de rotación estéreo se
implementa mediante el agregado de escalares al componente de entrada S
en la ley de panorámico ms de la ecuación 4:
Mrotate = cos (θr )M − sin(θr )S

Srotate = sin (θr )M + cos (θr )S E. 5
donde θr es el ángulo de rotación. Como sería de esperarse, una rotación

de +45º colocará lo que estaba en el centro de la imagen en el altoparlante
izquierdo, mientras una de -45º rotará lo que estaba en el centro hacia el alto-
parlante derecho. En el dominio lr, la rotación se implementa así:
132
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 1. Dominios lr y ms, con señales ubicadas en +30°, 0° y -45°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 2. Imagen estéreo con señales posicionadas de 0° a -15°, con incrementos de +15º
133
Lrotate = cos (θr )L + sin(θr )R
Rrotate = −sin (θr )L + cos (θr )R E. 6
Por supuesto que la rotación puede ser utilizada tanto creativa como correcti-
vamente. Es claro que, así como uno podría querer ubicar una señal monofóni-
ca en una mezcla estéreo, colocándola en un ángulo de azimut deseado, podría
querer hacer lo mismo con una señal estéreo, posicionándola dentro de una
mezcla estéreo. El uso de la rotación preserva la totalidad de las pistas vívidas
y la información espacial de una señal estéreo mientras se altera el azimut. Un
uso correctivo de la rotación podría ser la re-imagen de una grabación estéreo
para que un elemento previsto en el centro de la imagen, tal vez un cantante,
sea traído a esa ubicación.
Panorámicos más allá de +/-45º. Moviéndose más allá

de los altoparlantes
Cuando se presentó la ley de panorámico seno-coseno, el ángulo de panorámi-

co θp figuraba como restringido entre +/-45º. Si bien este rango es suficiente
para ubicar un sonido entre los altoparlantes, no hay nada en la ley de pano-
rámico que limite la elección de θp a estos valores. Uno puede tranquilamente
elegir un θp entre +/-60º o +/-90º o incluso +/-180º. Puede haber razones para
no hacerlo, particularmente si hay incumbencias respecto de la compatibi-
lidad de reproducción mono conveniente para transmisiones. De cualquier
manera, si uno apunta al estéreo y está interesado en la imagen estéreo, es útil
considerar lo que ocurre cuando se mueve más allá de +/-45º.
Aquellos que tienen experiencia con la técnica de microfoneo estéreo
Blumlein reconocerán las regiones desde +45º a +135º (+L a -R) y -45º
a -135º (+R a -L) como las regiones “fásicas”* del arreglo de micrófonos.
Esta cualidad de fase ha sido descrita como productora de una localización
vaga y ambigua, y para el ingeniero de grabación preocupado por la ilusión
estéreo precisa y convincente, es usualmente evitada. Estas regiones son
llamadas “fásicas” dado que la ley seno-coseno (y/o el arreglo de micrófonos
Blumlein) comienza a introducir señales a contrafase, o polaridad opuesta,
en el altoparlante opuesto. Apenas pasando los +45º (+L) –el altoparlante
izquierdo– la cantidad de señal a contrafase en el parlante derecho es mínima
* Phasey en el original en inglés. [N. de los T.]
134
–y dependiendo del material sonoro, puede parecer estar pasando el límite del
altoparlante izquierdo. Al incrementar aun más el θp el sonido puede parecer
moverse más allá del altoparlante, tornándose por lo general borroso, difuso
y ubicuo. Cuando θp es igual a +90º (+S) los parlantes izquierdo y derecho
son alimentados con señales que poseen la misma ganancia, pero polaridades
opuestas. Kendall (1995) ha descrito la impresión de tal señal como cercana
en apariencia al oyente. Para el autor, el sonido se siente ligeramente posicio-
nado detrás de la cabeza.
Volviendo a la rotación y aplicando un θr de 0º a la señal identidad de
la figura 2 obtendremos la señal de la figura 2. Este es el caso para todas las
transformadas a estudiar; aplicar 0º da como resultado una transformación
transparente. Aplicar una rotación de +7,5º, +15 y +30º dará como resultado
las señales ilustradas en las figuras 3, 4 y 5. Como puede verse en todas estas,
los elementos de la imagen identidad que estaban previamente entre +/-45º
(izquierda/derecha) están ahora rotados hacia regiones “fásicas”. Análogamente,
los elementos previamente en regiones “fásicas” están ahora entre +/-45º.
Veremos que todas las transformadas son similares en este aspecto, llevando
algunos elementos de regiones “no fásicas” a “fásicas” y viceversa.
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 3. Rotación +7,5°
135
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 4. Rotación +15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 5. Rotación +30°
136
Ancho
Junto con el balance la transformación de ancho5 es una de las transformadas

de imagen estéreo más familiares. En el dominio lr, la transformación de
ancho puede crearse modificando la ecuación para rotación (ecuación 6).
Para los escalares en el canal derecho, R, θr es reemplazado por -θr , dando
como resultado:
Lwidth = cos (θw )L − sin(θw )R
Rwidth = −sin (θw )L + cos (θw )R E. 7
Esto cambia la dirección de rotación aplicada al canal derecho. Más que rotar
al mismo tiempo L y R a través del escenario estéreo, R gira en la dirección
opuesta a L. Valores negativos de 0º a -45º estrecharán el ancho de la ima-
gen; este rango de valores rota L y R hacia el centro, resultando a -45º el
colapso de la imagen a mono, en el centro del escenario estéreo. La figura 6
ilustra la transformación del ancho de la señal identidad por -30º. Compárese
esta ilustración con la rotación de +30º de la figura 5. Nótese que la marca
que indica la localización de la transformación de la entrada +R para ambas
aparece en el mismo azimut, -15º. Esto no debería sorprendernos, sobre todo
si consideramos la discusión anterior. La entrada +L ha sido rotada -30º (en
sentido horario) mientras +R ha sido rotada +30º (en sentido anti-horario)
en la dirección opuesta.
Cotejando la señal identidad de entrada, pueden observarse otras caracte-
rísticas de la transformación de ancho. Junto con la compresión de elementos
hacia el centro, nótese los cambios de ganancia aplicados a los elementos de
la entrada. Para los elementos en +/-45º frontal, los cambios de ganancia son
mínimos, siendo el más significante cercano a un incremento de 2dB, aplicado
al elemento central de la imagen. Sin embargo, es más significativa la reduc-
ción de ganancia aplicada a los elementos en las regiones fásicas (entre +L/-R
y -L/+R) de la entrada. Los elementos ubicados en el eje S han tenido una
reducción de ganancia de casi 9 dB. Además, se han aplicado desplazamientos
de azimut a todos los elementos de la señal de entrada, excepto aquellos en
los ejes M y S.
En principio, el ancho de una imagen se verá incrementado con valores
positivos, aunque el resultado puede no ser tan simple como parece inicial-
mente. La figura 7 ilustra una transformación de +15º, que da como resultado
5 El autor ha visto referencias a la transformación de ancho como base estéreo, basamento

estéreo y control diferencial estéreo.
137
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 6. Ancho -30°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 7. Ancho +15°
138
el ensanchamiento del frente +/-45º del escenario estéreo. Puede verse que los
elementos de los ejes L y R han sido desplazados hacia la región fásica. Como
se dijo antes, según el material sonoro, estos elementos pueden parecer ahora
un poco más allá de los altoparlantes izquierdo y derecho. Adicionalmente,
lo que se encontraba en +/-30º ahora aparece en los ejes L y R.
La transformación del ancho en +30º da como resultado la señal ilus-
trada en la figura 8, produciendo una distorsión significativa de la imagen.
Quizá lo más notable es la ganancia aplicada a los elementos dispuestos en
el frente +/-45º del escenario; ahora los elementos en el eje M están casi 9
dB más bajos. Debido a los desplazamientos de azimut, los elementos están
comprimidos ahora hacia el eje S más que hacia el eje M, como era el caso
para un ancho de -30º. De la misma manera que para la transformación de
ancho de -30º, compárese la ilustración de un ancho de +30º con la de una
rotación de +30º (figuras 8 y 5). Nótese que los elementos que estaban a
+45º y +15º en la señal identidad ahora aparecen a +75º y +45º en ambos
resultados de las transformadas. Mientras estos dos elementos se encuentran
en el mismo azimut, la ganancia del elemento que ahora está a +45º, difiere
en 6 dB.
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 8. Ancho +30°
139
Probablemente, el ancho en el dominio ms sea la forma en que la mayoría de
los lectores han encontrado esta transformada:
Mwidth = 2 sin (45° − θw )M

Swidth = 2 cos (45° − θw )S E. 8
En este caso, parece que el ancho cambia el balance de M a S. Como hemos

comprobado, esto equivale a las rotaciones de L y R en direcciones opuestas.
Sin embargo, en la acción de cambio de ancho vista más atrás, el cambio de
las ganancias en los ejes M y S se vuelve muy explícito. Como la ecuación
8 presenta la transformada en los términos de la ley de panorámico seno-
coseno, la ganancia en M varía mientras el ancho cambia. Para anchos más
cerrados, con un θw igual a valores negativos hacia -45º, la ganancia en M
crece hacia los +3 dB. Para anchos más abiertos, con un θw hacia +45º, la
ganancia en M decrece hacia -∞ dB. La ganancia sobre M en la ecuación
8 puede ser normalizada a 0 dB para todos los valores de θw, y esta es la
manera en que aparece tradicionalmente la transformada de ancho. No obs-
tante, presentarla como ha sido vista en la ecuación 8 hace más evidentes
las rotaciones y las relaciones con las transformadas inspeccionadas en este
trabajo.
Balance
Tal vez la transformada de imagen estéreo más familiar es el balance, dado el

hecho de que por lo general se encuentra implementada en los dispositivos
de audio estándar. Puede pensarse como un simple intercambio del dominio
en que se aplica la transformada de ancho; luego veremos que este cambio de
dominio es también un modo práctico de crear otras transformadas. En el domi-
nio lr, el ancho opera rotando los ejes L y R hacia o desde el eje M. La misma
táctica puede ser aplicada a la rotación en el dominio ms. Para los escalares en
el canal lateral S, el θr en la ecuación 5 se sustituye por –θr , resultando:
M balance = cos (θb )M + sin (θb )S

Sbalance = sin (θb )M + cos (θb )S E. 9
La transformada de balance, entonces, es una rotación de lo que ha sido codi-

ficado en los ejes M y S hacia o desde el eje L. En el dominio lr el balance
aparece como:
140
L balance = 2 cos (45° − θ b )L
R balance = 2 sin (45° − θ b )R E. 10
El balance se presenta generalmente de esta manera, o en forma de ganancia

normalizada. Aquí, en la ecuación 10, los escalares que aparecen en L y R
parecen muy similares a aquellos que aparecen en M y S en la ecuación 8, y es
visible la relación cercana entre ancho y balance.
La figura 9 y la figura 10 ilustran la resultante de aplicar un balance de
+15º y +30º a la señal identidad. Como sucede con el ancho, no solo se modi-
fican los azimut de los elementos, sino que la ganancia también se ve alterada.
En el caso de un balance de +30º, los elementos entre +M y -S sufren una
disminución de ganancia, donde el elemento en el eje R es disminuido en
casi 9 dB. La ganancia sobre el eje L sube cerca de 2 dB. Comparando las ilus-
traciones de un balance de +30º y una rotación de +30º (figura 5) es posible
comprender mejor las distorsiones de azimut producidas por la transformada
de balance. Nótese que lo que estaba a 0º en la señal identidad aparece a
+30º en los resultados tanto de la transformada de balance como de rotación.
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 9. Balance +15°
141
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 10. Balance +30°
De manera análoga, el elemento previamente a -30º en la entrada aparece

ahora a 0º tanto en la ilustración de balance como en la de rotación. Aún
así, mientras la rotación mantiene invariante la ganancia de este elemento,
el balance la reduce en 6 dB. Por otra parte, es claro que mientras la rotación
desplaza los elementos a través del escenario estéreo, el balance mantiene los
elementos de los ejes L y R anclados en sus posiciones originales. Yendo en
la otra dirección, la figura 11 ilustra un balance de -30º, comprimiendo la
imagen hacia el eje derecho.
Panorámico medio
Junto con la asimetría, el panorámico medio6 o m-pan es una de las transformadas

de imagen menos conocidas, aunque ha aparecido en diversas mezcladoras por
hardware y software y en productos de masterización. Las transformadas tratadas
hasta ahora, rotación, ancho y balance, aplican una rotación a ambos ejes del
6 El autor también ha visto referencias al panorámico medio como panorámico central, mez-
cla de dirección y control de dirección.
142
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 11. Balance -30°
dominio lr o ms. En contraste, m-pan, junto al resto de las transformadas que

veremos, aplica la rotación a un eje solo. En el caso de m-pan, la rotación se
aplica al eje medio. Volviendo a la rotación en el dominio ms (ecuación 5),
para los escalares del canal lateral, S, θr es reemplazado por 0º, resultando:
Mm− pan = cos (θm )M
Sm− pan = sin (θm )M + S E. 11
M-pan es entonces una rotación de M, pero quedando S en su lugar.

Representar la transformada en el dominio lr es bastante menos elegante,
debido a lo cual, por razones estéticas, omitiremos la forma lr.
Las figuras 12 y 13 ilustran la consecuencia de transformar la señal iden-
tidad con un m-pan de +15º y +30º. Consideremos los resultados de m-pan a
la luz de la rotación y el balance, mediante la comparación de la ilustración
del m-pan de +30º con las de rotación y balance de +30º (figura 5 y figura
10). Obsérvese que el elemento codificado originalmente a 0º está ahora des-
plazado hacia +30º por todas estas transformadas, sin embargo hay diferencias
importantes en las distorsiones de ganancia y desplazamientos de azimut. Para
143
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 12. M-pan +15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 13. M-pan +30°
144
el mismo corrimiento de lo que estaba a 0º, m-pan realiza cambios de ganan-
cia mucho más bajos que los producidos por el balance, aproximadamente 3
dB menos en L en lugar de 9 dB. En comparación con la rotación, los cambios
de azimut de toda la señal se reducen, en tanto que el cambio se enfoca mayor-
mente en la modificación de lo que estaba en el centro de la imagen. Es por
estas razones que para ajustar un campo estéreo se prefiere, en algunos casos,
el algoritmo m-pan por sobre el balance y la rotación.
Asimetría
La asimetría7 es una transformada estéreo que fue siempre considerada oscura,

misteriosa y relativamente poco aludida. El autor encontró por primera vez la
asimetría en una herramienta de imagen estéreo por software disponible comer-
cialmente, y han sido las investigaciones orientadas hacia la comprensión de
esta transformada las que derivaron en el presente estudio de técnicas de ima-
gen provenientes de la ley de panorámico seno-coseno. La asimetría está ínti-
mamente relacionada con el m-pan, pero mientras m-pan rota el eje medio, la
transformada de asimetría rota el eje lateral, manteniendo al eje medio en su
lugar. Revisando la rotación en el dominio ms (ecuación 5), para los escalares
en el canal del medio, M, θr es reemplazado por 0º, resultando:
Masymmetry = M − sin (θa ) S

Sasymmetry = cos (θa ) S E. 12
El lector debería advertir una fuerte similitud entre las ecuaciones 12 y 11.
Como ocurre con m-pan, la representación de la asimetría en el dominio lr es
significativamente menos elegante, y por eso es aquí omitida.
La figura 14 y la figura 15 ilustran el resultado de la aplicación de la trans-
formada de asimetría a la señal identidad, con argumentos de +30º y +60º.
Comparando las figuras de asimetría y m-pan de +30º (figura 13) véase que
la asimetría mantiene, como era de esperarse, lo que estaba a +/-M anclado al
eje M. También obsérvense los nuevos emplazamientos de los elementos que
estaban en los ejes L y R. Para el mismo argumento, la asimetría y el m-pan
desplazan estos a un mismo azimut, pero con ganancias diferentes. La asimetría
y el m-pan de +30º mueven lo que estaba en el eje R a -30º, un desplazamiento
de +15º. Sin embargo, mientras la asimetría ha incrementado la ganancia de
este elemento en casi 2 dB, el m-pan ha dado como resultado una reducción
7 El autor también ha visto referencias a la asimetría como control de la estabilidad estéreo.
145
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 14. Asimetría +30°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 15. Asimetría +60°
146
de casi 3 dB. Luego de ver este desplazamiento de 15º de los elementos previa-
mente ubicados en los ejes L y R, puede ser provechoso para el lector revisar
estas dos ilustraciones en relación con la rotación de 15º de la figura 4.
Mas allá de las aplicaciones más obvias de la re-imagen, que implican
el re-acomodamiento de una imagen estéreo existente mientras el elemento
central se mantiene en el centro de la imagen, Gerzon (1990) ha sugerido una
cantidad de usos correctivos muy creativos para la asimetría. La discusión de
Gerzon es de interés para el ingeniero de masterización, a quien se le requiere la
producción de un resultado estéreo utilizable a partir de una grabación inicial
con problemas técnicos intermitentes en uno o ambos canales. Es de particular
interés la incorporación de dependencias de frecuencia y/o amplitud en el
algoritmo. Como se mencionó en la introducción, una breve enumeración
de las dependencias de frecuencia será explorada en la sección final de este
estudio. El lector interesado puede remitirse a las brillantes consideraciones
de Gerzon.
Panorámico izquierdo y derecho
Una discusión acerca de las transformadas de imagen estéreo no estaría com-

pleta sin una mirada sobre lo que correctamente podría ser descrito como las
dos transformadas con que los usuarios de mesas de mezcla estéreo están más
familiarizados. Dado que ya se encuentran implementados por usuarios de
estos dispositivos, estos dos procedimientos pueden no considerarse siquiera
merecedores del término “transformada”. Aun así es posible obtener una
mayor flexibilidad, utilizando un rango más amplio de valores a aplicar que los
usualmente permitidos por las mesas de mezcla. Confinados a las posibilidades
de las mesas por hardware, el panorámico izquierdo y el panorámico derecho, o
l-pan y r-pan, pueden ser implementados simplemente ajustando el panorámi-
co de un canal de entrada izquierdo o derecho. En la práctica, l-pan y r-pan
se utilizan habitualmente juntos para ajustar tanto el posicionamiento de los
elementos como el ancho de un campo estéreo.8
R-pan
La transformada de r-pan puede ser desarrollada desde la ecuación para la
8 Debe recordarse, de la discusión acerca del ancho, que la transformación de ancho puede
ser vista como el enlace de l-pan y r-pan juntos, asignando un valor negativo al ángulo de
rotación dado en R.
147
rotación en el dominio lr (ecuación 6). Para los escalares en el canal izquier-
do, L, θr es reemplazado por 0º, resultando:
Lr− pan = L + sin (θrp ) R

Rr− pan = cos (θrp ) R E. 13
La figura 16 y la figura 17 ilustran una transformada r-pan de la señal identi-

dad de +15º y +30º. Si agregamos la ilustración de r-pan de +15º a la compa-
ración del m-pan y la asimetría de +30º con rotación de +15º (figuras 13, 14
y 4) realizadas más atrás, comprenderemos algo más. Todas estas ubican lo que
estaba en el eje R a -30º. Como es de esperar, mientras el m-pan, la asimetría
y la rotación llevan lo que estaba en el eje L a la región fásica, r-pan fija el eje
izquierdo en su lugar. Consecuentemente, también difieren la imagen resul-
tante, las ganancias y la ubicación de los elementos.
Revísense las ilustraciones de r-pan de +30º y m-pan, balance y rotación
de +15º (figuras 17, 12, 9 y 4) prestando atención al elemento que estaba en el
eje M. Obsérvese que mientras la posición del elemento previamente ubicado
en el eje M está ahora a +15º en todas ellas, la distribución resultante y los
cambios de ganancia de los otros elementos han sido variados. El r-pan y el
balance mantienen lo que estaba entre +/-45º en la región no fásica, mientras
que el m-pan y la rotación, con ángulos variables, no lo hacen. Desde un
punto de vista de producción, estas transformadas dan diferentes opciones y
resultados creativos para la tarea de mover lo que se encontraba en el centro
hacia otro azimut.
L-pan
La transformada l-pan completa el conjunto. Como sería de esperarse, la ecua-

ción para l-pan puede ser derivada de la rotación en el dominio lr (ecuación
6). θr es reemplazado por 0º para los escalares del canal derecho, R, dando:
Ll − pan = cos (θ lp ) L
Rl − pan = −sin (θ lp ) L + R E. 14
Viendo las ecuaciones 13 y 14 no debería sorprendernos su semejanza respecto

de las ecuaciones 11 y 12, de m-pan y asimetría. Ambos conjuntos actúan de
la misma manera, rotando uno de los ejes de la señal de entrada tanto en el
dominio lr como en el ms.
148
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 16. R-pan +15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 17. R-pan +30°
149
En la ecuación 14 no hay nada que restrinja los valores asignados a
θlp para mantener lo que estaba previamente entre +/-45º en la región no
fásica. La figura 18 y la figura 19 ilustran el resultado de transformar la señal
identidad con un l-pan de +15º y +30º. En general, las mesas de mezcla por
hardware son incapaces de aplicar la transformada ilustrada aquí, porque sus
implementaciones de la ley de panorámico restringen al l-pan y al r-pan a la
región no fásica. Para un practicante creativo del audio esta restricción puede
ser limitadora e indeseable. Revisando las ilustraciones de l-pan y rotación
de +15º, y m-pan y asimetría de +30º (figuras 18, 4, 13 y 14) se ve que todas
estas transformadas ubican lo que estaba en el eje L a +60º. En este caso,
a diferencia de la rotación, l-pan cambia mínimamente la ganancia de los
elementos.
Dirección-abilidad*
Aunque el autor ha visto herramientas de imagen por hardware y software

implementadas como una cascada de varias de las transformadas vistas, debe-
ría ser evidente que tales disposiciones son de hecho redundantes, posible-
mente poco intuitivas, y potencialmente perjudiciales. Una útil excepción a
esta advertencia es ver que es imposible modificar las transformadas básicas
para que se vuelvan “dirección-ables”. La relación entre ancho y balance
es de “dirección-abilidad”: el ancho es a través de un dominio mientras el
balance es a través del otro. Cada una de las transformadas puede modificarse
para ser “dirección-able” rotando primero el azimut de interés hacia el centro
de la imagen, luego efectuando la transformada deseada, y finalmente rotan-
do el azimut de interés nuevamente a su posición original. La red (dominio
lr) que se muestra en la figura 20 ilustra la disposición descrita, con θr como
el azimut de interés y θi como el argumento de la transformada de imagen.
Los detalles de implementación (y simplificación) serán librados al lector,
pero la opinión del autor es que desplegar las imágenes de esta manera pre-
senta al usuario los métodos más ergonómicos para ajustar y dar forma a la
imaginería espacial de la señal estéreo. De hecho, todas las transformadas
presentadas hasta aquí son realizables a través de una única transformada de
imagen “dirección-able” (ej., ancho) seguida de una rotación. Esto se debe,
por supuesto, a que todas las transformadas son meras rotaciones de uno o
más ejes en uno de los dominios.
* Direct-ability en el original en inglés. [N. de los T.]
150
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 18. L-pan -15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 19. L-pan -30°
151
L Ldir-i
Rotar (-θr) Imagen (θi) Rotar (θr)
R Rdir-i
Figura 20. Agregado de “dirección-abilidad” a una transformada de imagen
Transformadas dependientes de la frecuencia
En la forma presentada, las transformadas resumidas antes son bastante

poderosas, y permiten a uno reformar y reubicar imágenes estéreo con fines
tanto creativos como correctivos. Pueden tomarse decisiones creativas res-
pecto del posicionamiento y la impresión, o efectuarse acciones correctivas
para resolver problemas con la imagen estéreo. Al agregar la selectividad en
frecuencia a estas herramientas, no debería olvidarse la contribución de las
implementaciones no dependientes de frecuencia. Evidentemente, agregar
discriminación de frecuencia a las transformadas vistas extiende el rango de
posibles intervenciones en la imagen, con resultados más predecibles en unas
que en otras.
La selectividad en frecuencia puede ser agregada, principalmente, a través
de la utilización de algún tipo de red de crossovers.* La red exacta puede variar.
En el caso más sencillo, puede imaginarse la separación de una señal de entra-
da en dos bandas de frecuencia, y la posterior transformada de una, mientras la
otra permanece intacta. La figura 21 ilustra la red descrita. Para un caso simple
como este, la red de crossovers debería (probablemente) ser ecualizada en fase,
de modo que la fase de la frecuencia del crossover sea equiparada en ambas
bandas. La muy conocida red de Linkwitz-Riley posee esta característica
(Bohn, 2005) y es por eso una elección razonable en este caso. Dependiendo
de la aplicación, también se pueden utilizar redes ecualizadas en fase más
complicadas. En algunos casos estos crossovers pueden ser implementados
como redes unitarias de retroalimentación (Gerzon, 1976b), aunque pueden
también emplearse redes fir. Esto no quiere decir, sin embargo, que las redes
no compensadas en fase no hayan sido utilizadas, en la práctica, para algunas
aplicaciones. En general, las redes de crossovers no compensadas en fase no son
recomendables, porque pueden introducir una distorsión de fase desagradable
en la señal estéreo resultante, lo que es usualmente indeseado.
*Se conserva su denominación en inglés, dado que es de uso corriente en la ingeniería de

audio de habla hispana. [N. de los T.]
152
La
Ra Imagen (θi)
L
Red de
crossover Lb
R Lxover-i
Rb
Rxover-i
Figura 21. Agregado de dependencia de frecuencia a una transformada de imagen
Ecualización espacial
Desde las investigaciones iniciales de lord Rayleigh acerca de la audición

(1907), ha habido conciencia de que diferentes mecanismos entran en juego
para la audición de frecuencias bajas y altas. Sin entrar en los detalles de
estos dos (o más) mecanismos, nuestro interés por la reproducción estéreo es
el resultado de que las frecuencias bajas en la imagen estéreo parecen exten-
derse a través de un ángulo más estrecho que las frecuencias altas; o, en otras
palabras, el escenario de baja frecuencia parece más estrecho que el de alta.
La patente de Blumlein de 1931 sentó las bases para un tipo de procesamiento
usualmente denominado “entremezcla estéreo”* (Clark, Dutton y Vanderlyn,
1958; Harwood, 1968; Gerzon, 1986). De entre estas técnicas, resulta de par-
ticular interés el proceso que Griesinger (1986) ha denominado ecualización
espacial, implementado por primera vez a mediados de la década de 1950
como parte del sistema estereosónico para balancear el ancho estéreo de los
escenarios de baja y alta frecuencia. A partir de nuestra breve discusión acerca
de la selectividad en frecuencias, pueden imaginarse sus posibles implemen-
taciones. Las frecuencias bajas y altas deben estar separadas, ser procesadas
en ancho de manera acorde y luego sumarse, dando lugar a una imagen que
parecerá tener el mismo ancho estéreo a través de los escenarios de alta y baja
frecuencia. El autor encuentra en el uso de una red Linkwitz-Riley de segundo
orden el crossover más conveniente, siendo ajustado el ancho del escenario
bajo, en lugar del alto. Griesinger (1986), Gerzon (1986, 1994) y Lipshitz
(1986), Lipshitz, Griesinger y Gerzon (1987) han discutido en detalle la ecua-
lización espacial y sus aplicaciones. El estudio de Gerzon es bastante largo e
* Stereo shuffling, en el original en inglés. La expresión alude a una mezcla “desordenada”

(shuffling) en analogía a cómo se mezcla un mazo de naipes antes de jugar. [N. de los T.]
153
informativo, a los lectores interesados se les sugiere consultar su clarificante
discusión de este tópico.
El autor considera a la ecualización espacial una parte indispensable del
juego de herramientas del ingeniero de grabación purista. En tanto admiradas
por su claridad y definición de imagen, las técnicas de microfoneo de punto
coincidente único son a menudo criticadas por su “falta de espaciosidad”
al compararlas con técnicas de micrófonos espaciados.9 Mediante el ensan-
chamiento del escenario de baja frecuencia, la imagen de una grabación
coincidente puede ser apropiadamente expandida, reteniendo aun la claridad
en definición de la imagen admirada en esta técnica y habitualmente perdi-
da en grabaciones no coincidentes. De manera similar, las imágenes estéreo
construidas en el estudio con señales mono posicionadas con potenciómetros
de panorámico pueden mejorarse a través de la aplicación de la ecualización
espacial, ensanchando la imagen y expandiendo un sentido de inmersión espa-
cial y estabilidad al emparejar los escenarios de alta y baja frecuencia. Es por
estas razones, y las de más atrás, que el autor se sorprende de la no inclusión
regular de la ecualización espacial como parte del conjunto de herramientas
estándar de las estaciones de trabajo de audio digital estéreo, particularmente
si se considera que esta técnica ha sido presentada en la literatura especializa-
da hace ya algún tiempo.
Dispersión estéreo
A pesar de la variedad de arquitecturas que han aparecido en la literatura

especializada, en sus orígenes, la dispersión estéreo puede ser considerada
como la aplicación de una rotación selectiva a una imagen estéreo. El objetivo
es ensanchar una imagen mediante la rotación o “dispersión” de frecuencias
de una entrada a través del escenario estéreo. En el caso más simple (y menos
efectivo), una entrada puede ser dividida en dos bandas, donde graves y agu-
dos son rotados entonces hacia ángulos opuestos. El resultado será una salida
en la que la imagen rota a través del escenario estéreo a medida que la fre-
cuencia aumenta. Para este ejemplo, nuestra percepción probablemente será
la de una imagen dividida y no fundida, más que la de una que ha sido ensan-
chada. Sin embargo, con las etapas de rotación dependiente de la frecuencia
suficientes (en el orden de las bandas críticas), la imagen parecerá fundida, y
sus elementos tomarán un ancho adicional. En particular, para sonidos mono
posicionados con potenciómetros de panorámico, estás imágenes pueden lle-
9 Lipshitz ha notado que la “espaciosidad” en técnicas no coincidentes es usualmente el

resultado de pistas de localización conflictivas, faltantes o confusas.
154
varse de simples imágenes puntuales a imágenes ensanchadas con una amplia
sensación de cuerpo.
La implementación inicial de Orban (1970) aplica un método que da
como resultado filtros cuyas fases no son coincidentes entre los canales L y
R.10 Es posible argumentar que tal configuración puede ser deseable, dado que
el objetivo es extender el ancho de una imagen de entrada y la incongruen-
cia de fase puede agregarse para una sensación de ensanchamiento. Se ha
argumentado contra este enfoque en especial debido al incremento “fásico”*
resultante en la imagen. Aun así, el autor ha encontrado al método de Orban
práctico y apto –con el debido cuidado– para una variedad de materiales
sonoros, especialmente si tenemos en cuenta su fácil implementación. Gerzon
(1992; 1997) ha demostrado un número de arquitecturas de red alternativas,
todas dispuestas a mitigar el aspecto fásico del enfoque de Orban. Tal vez la
más ingeniosa de ellas implica el uso de una red de retroalimentación unitaria
para crear una red de rotación dependiente de la frecuencia y compensada en
fase. El lector interesado puede referirse a la discusión detallada de Gerzon al
respecto.
Otras transformadas
Ciertamente, la imaginación es el límite para las aplicaciones creativas

dependientes de la frecuencia. Lo mismo podría decirse para tareas más
correctivas o de reparación. Esta clase de esfuerzos puede ser habitualmente
hallada en una etapa de masterización o posterior a una grabación en sitio,
donde se ha obtenido una mezcla estéreo pero los elementos originales no
están ya disponibles para armar una nueva mezcla estéreo. Como ejemplo
de esto, imagine una grabación estéreo con un cantante en el centro del
escenario estéreo y un platillo hi-hat que ha sido colocado en un azimut
del panorámico estéreo que es considerado ahora incorrecto o inapropiado.
Una primera idea podría sugerir el uso de una rotación dependiente de la
frecuencia, dividiendo la imagen en agudos y graves, o mejor aún, una red
de crossovers seleccionando solo el rango de frecuencias ocupado por el
platillo. El rango elegido podría entonces ser rotado al azimut deseado, corri-
giendo la posición del platillo en la imagen estéreo resultante. Una mayor
10 La implementación inicial de Orban está limitada a entradas mono. Sin embargo, con
el agregado de la rotación, Gerzon (1992) ha adaptado el método de Orban para entradas
estéreo.
* Phasiness en el original en inglés. [N. de los T.]
155
reflexión sobre este método sugerirá que el algoritmo de más atrás puede
no ser el ideal. Muy probablemente, la banda de frecuencias seleccionada
incluirá también sibilancia de la voz. Cuando el platillo no esté tocando,
enmascarando la voz, probablemente aparezcan separados los fricativos de
la voz, y en nuestro caso, corridos fuera de eje en relación al resto de la voz.
Por lo tanto, si bien esta intervención corregiría el platillo, introduciría otro
problema para la voz.
Pensando un poco más el resultado deseado, puede hacerse un método
más adecuado. En detalle, el problema es reposicionar el platillo seleccio-
nado por su rango de frecuencias, mientras se retiene la posición de la sibi-
lancia del cantante en el centro. Revisando las transformadas discutidas, la
tarea descrita coincide con la realizada por la asimetría. Más que para rotar la
banda seleccionada, la asimetría puede usarse para mover el platillo al tiem-
po que se mantiene la sibilancia vocal centrada y en su lugar. Se describen
aquí algunas opciones, pero la implementación de una red de selección de
frecuencias se dejará al lector. La más simple de ellas es el empleo de un par
de filtros pasabanda y rechazabanda, de amplitudes complementarias pero
no coincidentes en fase. Dependiendo de la cantidad de asimetría aplica-
da, la distorsión de fase adicional puede ser mínima y bastante aceptable.
Como segunda estrategia se podría elegir una aproximación de Linkwitz-
Riley, con pares de filtros pasabanda y rechazabanda dispuestos a la manera
Linkwitz-Riley. Tal tipo de red no induce distorsión de fase, por lo que
puede ser preferible en algunas circunstancias y considerarse una solución
más general. Más especulativamente, y aunque el autor no ha intentado
hacerlo, sería posible implementar el algoritmo deseado como una red de
retroalimentación unitaria. Si bien no es la más sencilla de las opciones,
dado que las redes de retroalimentación unitarias no son particularmente
intuitivas, esta aproximación podría ser una solución elegante, llevando a
un resultado no fásico, con cambios suaves y balanceados de la imagen a
través de la frecuencia.
Como uno esperaría, el conjunto de algoritmos de imagen discutidos más
arriba puede ser adaptado y modificado mediante una variedad de dependen-
cias de frecuencia, dando como resultado una amplia gama de oportunidades
creativas y reparadoras de imagen para el practicante del audio. Si bien solo
algunas pocas han sido discutidas en esta sección, muchas más son posibles y,
de hecho, deseables. Un cuidadoso examen y la consideración de los ajustes de
imagen disponibles en cada una de las transformadas seno-coseno por sí solas
puede, con el agregado de la selección de frecuencias, conducir al lector hacia
nuevas herramientas y métodos.
156
conclusiones
Más allá de la rotación en sí, hemos visto que las transformadas de imagen
estéreo clásicas aquí exploradas son meras modificaciones de la transformada
de rotación (panorámico seno-coseno para estéreo) en un dominio (lr o ms) u
otro. El ancho y el balance son equivalentes entre los dominios: el ancho rota
los ejes lr juntos, mientras que el balance hace lo mismo para los ejes ms. El
m-pan y la asimetría tienen correspondencia con l-pan y r-pan; el m-pan y la
asimetría rotan solo el eje M y el eje S, respectivamente, mientras que l-pan
y r-pan actúan sobre los ejes L y R como sus nombres lo indican. Además,
las transformadas de eje único (m-pan, asimetría, l-pan y r-pan) están, como
sería de esperarse, vinculadas cercanamente a las transformadas de dos ejes
(ancho, balance). El m-pan y la asimetría pueden pensarse como dos versiones
del balance, llevando a sus extremos los ejes ms juntos. La diferencia, en la
imagen final, tiene que ver con las posiciones de azimut finales de los ejes en
la imagen resultante. Por ejemplo, el balance con un θb igual a +45º reflejará
una imagen similar, salvo por el azimut resultante, a una asimetría con un θa
igual a -90º. Ambos devolverán la entrada L con una ganancia de +3 dB; sin
embargo, el balance mantiene a L en su lugar, mientras la asimetría ha dejado
a M fijo, dando como resultado a L en el medio de la imagen. Un m-pan con
el θm igual a +90º da como resultado a L en el eje S. Las mismas relaciones
guardan validez para el ancho, y l-pan y r-pan; y hemos mencionado que, en la
práctica (únicamente para estrechar), el ancho es implementado por usuarios
de mezcladoras estéreo por hardware o software habitualmente a través del
panorámico de los canales izquierdo y derecho en forma independiente.
Dado que las ecuaciones de cada una de las transformadas han sido pre-
sentadas, se ofrece al lector la oportunidad de implementar, escuchar e incor-
porar estas poderosas herramientas dentro de su práctica creativa con el audio,
ganando control sobre algunos de los atributos espaciales importantes codifi-
cados en una señal estéreo. Y si bien no ha sido investigada en detalle aquí,
se ha presentado la utilísima noción de “dirección-abilidad” de las imágenes
básicas, inspirando idealmente más experimentación y exploración. De modo
similar, han sido abordadas algunas instancias de aplicaciones que dependen
de la frecuencia, sugiriendo posibilidades para algunas intervenciones más
imaginativas y reparadoras de un escenario estéreo. Asimismo, y siendo dema-
siado numerosas para mencionarlas en detalle, las modificaciones adicionales
(ej., dependencia de amplitud, modulación regular o irregular, modulación
dependiente de amplitud y/o frecuencia, etc.) pueden sumarse para crear una
amplia variedad de efectos espaciales interesantes y atractivos al oído. ¡Todo
esto a partir de la humilde ley de panorámico seno-coseno!
157
Bibliografía
Blumlein, A. D. (1931), “Improvements in and relating to Sound-transmission,

Sound-recording and Sound-reproducing Systems”, Patente británica
394,325 [reimpreso en Eargle, J. (ed.) (1986), Stereophonic Techniques,
Nueva York, Audio Engineering Society, pp. 32-40].
Bohn, D. (2005), “Linkwitz-Riley Crossovers: A Primer”, RaneNote 160, Rane
Corporation (<http://www.rane.com/pdf/ranenotes/Linkwitz%20Riley%20
Crossovers%20Primer.pdf>, consultado el 6 de noviembre de 2007).
Clark, H. A. M., G. F. Dutton y P. B. Vanderlyn (1958), “The ‘Stereosonic’
Recording and Reproducing System”, Journal of the Audio Engineering
Society, 6 (2), pp. 102-117.
Dhomont, F. (1996), “Notes for Lés derives du signe”, Acousmatic, What is it?,
Montreal, Empreintes Digitales, imed 9608, cd, pp. 24-26.
Dooley, W. L. y R. D. Streicher (1982), “M-S Stereo: A Powerful Technique
for Working in Stereo”, Journal of the Audio Engineering Society, 30 (10),
pp. 707-718.
Gerzon, M. A. (1976a), “Blumlein Stereo Microphone Technique”, Journal of
the Audio Engineering Society, 24 (1), pp. 36, 38.
—— (1976b), “Unitary (energy-preserving) multichannel networks with
feedback”, Electronic Letters, 12 (11), pp. 278-279.
—— (1986), “Stereo Shuffling. New Approach –Old Technique”, Studio
Sound, 28 (7), pp. 122-130.
—— (1990), “Fixing It Outside The Mix”, Studio Sound, 32 (9), pp. 78, 81,
82, 85, 86, 88, 90, 93.
—— (1992), “Signal Processing for Simulating Realistic Stereo Images”,
Preprint No. 3423, 93rd Convention of the Audio Engineering Society, San
Francisco.
—— (1994), “Applications of Blumlein Shuffling to Stereo Microphone
Techniques”, Journal of the Audio Engineering Society, 42 (6), pp. 435-453.
—— (1997), “Stereophonic Signal Processor”, Unites States Patent 5,671,287.
Griesinger, D. (1986), “Spaciousness and Localization in Listening Rooms
and Their Effects on the Recording Technique”, Journal of the Audio
Engineering Society, 34 (4), pp. 255-268.
—— (2002), “Stereo and Surround Panning in Practice”, Preprint No. 5564,
112th Convention of the Audio Engineering Society, Munich.
Harwood, H. D. (1968), “Stereophonic Image Sharpness”, Wireless World 74,
pp. 207-211.
Julstrom, S. (1991), “An Intuitive View of Coincident Stereo Microphones”,
Journal of the Audio Engineering Society, 39 (9), pp. 632-649.
158
Kendall, G. S. (1995), “The Decorrelation of Audio Signals and Its Impact on
Spatial Imagery”, Computer Music Journal, 19 (4), pp. 71-87.
Lipshitz, S. P. (1986), “Stereo Microphone Techniques: Are the Purists
Wrong?”, Journal of the Audio Engineering Society, 34 (9), pp. 719-744.
——, D. Griesinger y M. A. Gerzon (1987) “Comments on ‘Spaciousness
and Localization in Listening Rooms and Their Effects on the Recording
Technique’ and ‘Stereo Shuffling. New Approach –Old Technique’ and
Authors’ Replies”, Journal of the Audio Engineering Society, 35 (12), pp.
1013-1014.
Malham, D. G. (1998), “Approaches to spatialisation”, Organised Sound, 3
(2), pp. 167-177.
Orban, R. (1970), “A Rational Technique for Synthesizing Pseudo-Stereo
from Monophonic Sources”, Journal of the Audio Engineering Society, 18
(2), pp. 157-164.
Lord Rayleigh (J. W. Strutt, tercer Barón de Rayleigh) (1907), “On our per-
ception of sound direction”, Philosophical Magazine, 13, pp. 214–232.
Rumsey, F. (2002), “Spatial Quality Evaluation for Reproduced Sound:
Terminology, Meaning, and a Scene-Based Paradigm”, Journal of the
Audio Engineering Society, 50 (9), pp. 651-666.
Windsor, L. (2000) “Through and around the acousmatic: the interpreta-
tion of electroacoustic sounds”, en Emmerson, S. (ed.), Music, Electronic
Media and Culture, Aldershot, Ashgate Publishing, pp. 7-35.
(Traducción al español de Juan Pampin y Hernán Kerlleñevich)
159
Capítulo V
El espacio acústico tridimensional y su simulación
por medio de Ambisonics
Dave Malham
Consideraciones fisiológicas
Para entender las formas en las que los compositores electroacústicos han
usado el espacio en la música, es apropiado considerar a la música en el espa-
cio o, más precisamente, a las tecnologías que se pueden usar para realizar los
deseos musicales del compositor. Para comprender cómo funcionan, resulta
útil revisar brevemente los mecanismos conocidos que los humanos usamos
para adquirir información acerca de las características espaciales de los campos
sonoros que nos rodean constantemente. Se debe señalar que la siguiente lista
no debe ser considerada como exhaustiva, dado que no es para nada claro que
nuestro actual nivel de conocimiento (hasta el 2007) se pueda considerar
completo.
Mecanismos de percepción de la dirección
Diferencias temporales de llegada entre los dos oídos. Una fuente sonora ubicada
en cualquier punto de una línea trazada desde el frente hacia arriba y hacia
atrás (el plano medio) producirá un frente de onda que llegará a los dos oídos
simultáneamente. Al mover la fuente afuera de esta línea, un oído comenzará
a recibir el frente de onda antes que el otro. Esto se conoce como diferencia
interaural de tiempo o ITD (Interaural Time Difference).* La diferencia mínima
entre los tiempos de llegada que puede ser percibida depende de la naturaleza
del sonido y varía entre 5 y 1,5 microsegundos (Begault, 1994, p. 44).
Diferencias de nivel entre los dos oídos. El sonido de una fuente a la izquierda
de la cabeza, por ejemplo, llegará directamente al oído izquierdo, pero será
*Por razones de práctica habitual en el área, en este artículo se usarán términos y siglas que
provienen de la denominación en inglés. [N. del T.]
161
difractado alrededor de la cabeza para alcanzar al oído derecho. Su amplitud
será menor en el oído derecho que en el izquierdo, como resultado tanto del
efecto de obstrucción de la cabeza como, en una menor medida, del efecto de
distancia extra recorrida. Esto se conoce como diferencia interaural de nivel o
ILD (Interaural Level Difference).
Diferencias en la respuesta a frecuencia. La forma de la cabeza y las partes exter-

nas de los oídos producen una respuesta dependiente de frecuencia que varía
de acuerdo con la posición del sonido y que es, en general, diferente para cada
oído. Esto se conoce como funciones de transferencia relativas a la cabeza o HRTF
(Head Related Transfer Functions) pero, estrictamente hablando, las hrtf tam-
bién incluyen las ild y las itd. Por esta razón se las designa a menudo respuesta
de frecuencia relativa a la cabeza o HRFR (Head Related Frequency Response) para
indicar que los componentes no dependientes de la frecuencia han sido igno-
rados. Para posiciones donde las ild o itd dan diferencias ambiguas o inexis-
tentes entre las señales de los oídos (tal como las señales en el plano medio) o
donde el oyente posee poca o nula audición en un oído, este es el mecanismo
sensor de posición principal si no se involucran movimientos de la cabeza. Es
también uno de los dos mecanismos principales para distinguir las fuentes de
sonido frontales de las fuentes traseras.
Movimientos de la cabeza. Nuestra habilidad para cambiar la posición de nues-

tra cabeza de tal manera que minimizamos el itd, ild y la diferencia entre las
hrfr en los dos oídos. Esta diferencia mínima está, o debería estar, en el punto
en el que estamos enfrentando directamente hacia (o en contra de) la fuente
sonora. Esto es también la base del otro (posiblemente principal) mecanismo
para la discriminación frente-atrás que constituye la percepción de la dirección
de cambio de las itd y las ild con movimientos de cabeza.
De estos mecanismos, el itd es “más importante” que el ild para sonidos de

baja frecuencia (<700Hz), el ild es más relevante para las frecuencias altas en
las que hay un contenido restringido de frecuencias bajas, y el itd también es
el indicio más fuerte para la ubicación de ruido de banda ancha (Macpherson
y Middlebrooks, 2002).
Mecanismos de percepción de la distancia
Los mecanismos precedentes tratan mayormente las posiciones angulares de

las fuentes de sonido. Nuestra habilidad en la determinación de la distancia
de una fuente sonora se basa en los siguientes indicios:
162
Reverberación. Es la proporción entre sonido directo y reverberado. En un
entorno razonablemente reverberado, la energía en el campo reverberado
permanece más o menos constante para todas las combinaciones de ubicación
oyente/fuente, lo que significa que para un nivel de fuente dado, la intensidad
de la reverberación permanece igual mientras que la intensidad de la fuente
disminuye con el incremento de la distancia. Es este factor en particular el
que dificulta la ubicación de un “objeto sonoro” más cerca que el altoparlante
más cercano en un sistema de difusión.
Reflexiones tempranas. El diseño de direcciones y retardos de las reflexiones

tempranas desde las superficies del entorno cambian en una forma que es
dependiente tanto de las posiciones del oyente como de las de la fuente de
sonido.
Intensidad. La intensidad se reduce con la distancia debido a la dispersión del

frente de onda.
Proporción de variación de la intensidad. Fuentes cercanas muestran mayores

variaciones en intensidad ante movimientos y/o giros de la cabeza, dado que el
cambio en la distancia constituye una fracción mayor del total de la distancia
a la fuente que en fuentes más lejanas.
Pérdida de altas frecuencias. Las frecuencias altas son progresivamente atenua-

das con la distancia, mayormente debido a la absorción de las moléculas de
agua en la atmósfera. Esto varía con los niveles de frecuencia y humedad, con
un pico máximo en xx% humedad.
Para fuentes sonoras con una silueta física (i.e., no la fuente puntual de sonido
hipotética, que no existe en la naturaleza, a pesar de que existen sus aproxi-
maciones cercanas), se producen cambios espectrales en la medida en que la
forma angular del objeto cambia (Malham, 2001).
Distorsión relacionada con el aire. Para altos niveles de presión sonora, el incre-
mento de la distorsión con la distancia de la fuente, que resulta de las diferentes
velocidades de propagación de los picos positivos y negativos de la onda de
presión (Czerwinski et al., 2000), es un indicio extra posible para la distancia
de la fuente.
r4JIBZEJGFSFODJBTJOUFSBVSBMFTEFOJWFM FTUBTTFJODSFNFOUBOFOMBNFEJEB
en que la fuente sonora se aproxima a la cabeza como resultado del hecho de
163
que la diferencia en distancia deviene una fracción mensurable de la distancia
total. Por ejemplo, la ild puede aumentar de 4 a 20 dB para una fuente a 90º
en la medida en que la distancia desde la cabeza disminuye de un metro a
pocos centímetros.
r&TUBTEJGFSFODJBTJOUFSBVSBMFTEFOJWFMTPONVDIPNÃTTFOTJCMFTBMPTNPWJ-
mientos de la cabeza cuando la fuente sonora está cerca de la cabeza, nueva-
mente como resultado de que la diferencia en distancia deviene una fracción
mensurable de la distancia total.
r)BZVOGJMUSBEPQBTBCBKPTFGFDUJWPEFMBTGVFOUFTDFSDBOBTBMBDBCF[B&TUP
resulta de una combinación de la sombra acústica de la cabeza para el oído
más lejano a la fuente sonora y la difracción en el oído más cercano.
r 6O FGFDUP DPOPDJEP DPNP paralaje acústico produce que algunas de las
características de altas frecuencias de la hrtf en el oído más cercano resul-
ten corridas en el azimut a causa del cambio en la relación geométrica entre
la fuente de sonido, el oído y el centro de la cabeza en la medida en que el
objeto se mueve desde el campo lejano al cercano. Este corrimiento puede ser
de 40º o más.
r 6O DBNCJP EF UJNCSF EFM TPOJEP EJSFDUP FO DPNQBSBDJÓO DPO FM TPOJEP
reverberado, como resultado del cambio de la respuesta a impulso que ocurre
cuando objetos con una superficie radiante mayor que la longitud de onda del
sonido que emiten se encuentran cerca del oyente.
La interpretación de muchos de estos indicios es, por supuesto, depende en

gran medida del conocimiento adquirido tanto acerca del espectro como de la
intensidad de la fuente sonora, circunstancia que debiera ser considerada cuan-
do se usan objetos sonoros muy manipulados o totalmente artificiales. Es sabido
que la intensidad como indicio de distancia constituye, en particular, un valor
muy dudoso, ya que experimentos en cámaras anecoicas (Nielsen, 1993) han
mostrado que los sujetos cometen errores de más del doble cuando son interro-
gados para estimar la distancia de una fuente sonora basándose puramente en
la amplitud. Hay algunos efectos posteriores en el campo cercano, cuya discu-
sión se puede encontrar en Brungart (Brungart, Durlach y Rabinowitz, 1999)
y en Kopčo (Kopčo, Santarell y Shinn-Cunningham, 2000). Se debe advertir
también aquí que estas no son las únicas maneras en las que el cuerpo adquiere
información sobre los sonidos y que algunos de los otros mecanismos percep-
tivos pueden también proveer indicios de dirección. Desafortunadamente,
164
a causa de las dificultades en el trabajo experimental en cuestiones como la
percepción a través de la cavidad del pecho o en mecanismos de conducción
de los huesos, hay pocos trabajos publicados en estos medios de recolección de
información acústica y sus posibles capacidades de discriminación direccional.
En vez de esto, a causa de la relativa facilidad con la que se pueden hacer
mediciones basadas en auriculares, casi todos los más importantes estudios
de audición direccional se han concentrado en información presentada en
auriculares. Experimentación informal realizada por el autor, sin embargo, ha
mostrado que dichos mecanismos de percepción de sonido no aurales necesitan
ser investigados más profundamente. En particular, hay una razón para creer
que la cavidad del pecho puede jugar un rol en la discriminación direccional de
bajas frecuencias y que la creencia sostenida comúnmente de que no podemos
determinar la dirección de fuentes usando frecuencias muy bajas, en donde la
diferencia de fase entre los dos oídos resulta muy pequeña, puede ser cierta solo
para presentaciones en auriculares. Si se probara, esto tendría serias implica-
ciones para sistemas de difusión en donde las frecuencias bajas se presentan a
través de un número limitado de altoparlantes de baja frecuencia (subwoofers),
o donde la reproducción se realiza únicamente con auriculares.
Cuestiones perceptivas
Los humanos poseen una holística e integrada capacidad de percepción direc-

cional de la cual los mecanismos de audición direccional descriptos antes
son solo una parte. Sin embargo, estos representan los mecanismos a los que
se debe amoldar cualquier sistema de audio que busca presentar sonido con
características espaciales. En la medida en que nos movemos hacia sistemas
que pueden presentar sonido en una forma “realista” (véase, no obstante, la
sección sobre “realidad”), necesitamos información acerca de qué es significa-
tivo perceptivamente para guiar los desarrollos.
Los estudios perceptivos del pasado se han concentrado largamente en el
sistema visual, habiéndose considerado ampliamente como el trabajo seminal
en este tema a lo publicado por Gibson un cuarto de siglo atrás (Gibson,
1979). Se realizaron originariamente intentos de extender este trabajo al sis-
tema auditivo directamente, pero resultó claro que esto no podía tener éxito
a causa tanto de las diferencias cualitativas (Lennox, Myatt y Vaughan, 2001)
como cuantitativas entre ambos. Estas diferencias incluyen:
r&TDVDIBSFTNÃTWFSEBEFSBNFOUFUSJEJNFOTJPOBM FOFMTFOUJEPFORVFQPEF-
mos oír cosas en todas las direcciones simultáneamente con solo variaciones
165
menores en sensibilidad, mientras que la vista se restringe a cerca de un cuarto
del espacio que nos rodea.
r/PQPEFNPTDFSSBSWPMVOUBSJBNFOUFOVFTUSBBVEJDJÓO QFSPMBWJTUBQVFEF
interrumpirse cerrando los ojos.
r-BNBZPSÎBEFMBTDPTBTRVFFTDVDIBNPTDPODJFOUFNFOUFTPOFOTÎNJTNBT
la fuente de sonido que escuchamos (aun a pesar de ecos muy intensos), pero
la mayoría de las cosas que vemos son, más o menos, reflectores pasivos, y
entonces estamos más concientes de las fuentes sonoras como participantes
activas de nuestro mundo.
r"EFNÃTEFMIFDIPEFRVFMBBVEJDJÓODPNQSFOEFVOFTQFDUSPNVDIPNÃT
ancho que el de la vista (aproximadamente diez octavas contra tres cuartos de
una octava), la audición la aventaja en el dominio temporal (con una capa-
cidad efectiva de resolución de 5µS en algunos procesos), en el que la vista
es bastante pobre, si bien es menos capaz que la audición en el dominio de la
frecuencia. La audición, sin embargo, es a menudo considerada como menos
capaz en el dominio de la frecuencia que la vista, que puede resolver cientos
de colores por octava. Seguramente, la audición no es tan capaz como la vista
en el dominio espacial.
r-BBVEJDJÓOFTTJHOJGJDBUJWBNFOUFNFOPTDBQB[RVFMBWJTUB DFSDBEFVO
de precisión (Ashmead, Le Roy y Odom, 1990), en proveer una estimación
exacta de distancia (Abrahams y Landgraf, 1990).
La investigación en percepción de audio, particularmente respecto de campos

de sonido tridimensionales, brinda datos útiles acerca de los factores en un
campo sonoro a los que los humanos asignan mayor significación. Para el
ingeniero que diseña un sistema de (re)producción estos datos son una fuente
importante acerca de en qué áreas debe concentrarse cuando trata de llegar
a un punto de equivalencia con la realidad. Para el compositor que desea usar
sonido espacial, pueden proveer una guía sobre cuáles gestos musicales pueden
ser realmente perceptibles (y bajo qué circunstancias) y, por consiguiente,
merecedores de ser considerados para propósitos compositivos. Esto es útil,
ya que es fácil forjarnos convicciones que no nacen de la práctica acerca de
qué podemos escuchar, basándonos en lo que podemos ver. Por ejemplo, en
el libro de Wishart de 1985, On Sonic Art, encontramos dibujos de un gran
número de posibles gestos espaciales diferentes (Wishart, 1985) cuando
muchos de ellos serían, en la práctica, indistinguibles unos de otros.
166
Resulta ampliamente, pero quizá erróneamente, aceptado que cuando
hablamos acerca de nuestra percepción de lo que llamamos realidad, el sen-
tido visual es el preeminente.1 Ciertamente, el sentido visual normalmente
tiende a ser considerado como “más importante” que el sentido de la audición.
Este autor sostendrá que este punto de vista representa una seria distorsión de
la realidad. Considere su sitio favorito al aire libre. Este puede ser, quizá, un
lugar junto al mar con luz solar centelleando desde las olas en frente de usted,
riscos escarpados detrás, los sonidos de las olas en la playa y las gaviotas arriba.
O tal vez sea una escena en un campo en donde le prestamos más atención a
la silueta de las sierras y el púrpura de los matorrales, con los puntos blancos
de las ovejas esparcidos en ellos. El sonido del viento moviéndose a través de
los matorrales, el balido de las ovejas y el canto plañidero del zarapito tienden
a estar en un plano secundario, tal como lo estaban las gaviotas en la playa.
Más aun, imagine esas escenas sin los sonidos. Sin estos, ellas ya no son más
una escena verosímil que vive y respira. Sin el paisaje sonoro correcto, pierden
mucho de su profundidad, transformándose solo en otra fotografía.
Esta pérdida de “realidad” que ocurre cuando el sonido está ausente o se
presenta inadecuadamente al oyente, es aun más pronunciada cuando la esce-
na es una realización artificial de la realidad. Sólo es necesario considerar lo
que ocurre cuando la banda de sonido se pierde en un film o en un programa
de la televisión para advertir que este es, de hecho, el caso. El corolario de
esto es que, al menos cuando estamos tratando de capturar/reproducir realidad
(sin importar lo que realmente sea), necesitamos esforzarnos para asegurar
que el grado de equivalencia con la realidad que consigamos sea tan alto como
sea posible. Si deseamos que un sistema produzca realidad sonora completa, es
obviamente necesario que todos los puntos de partida de la equivalencia con
la realidad en el sistema estén por encima de los umbrales relevantes de la per-
cepción. Por supuesto, como se mencionó antes, el/la compositor/a de música
electroacústica puede tener requerimientos específicos que involucran no solo
el uso de este criterio para los sonidos en su composición. Las necesidades
compositivas pueden de hecho ser para sonidos no reales, parcialmente reales
o aun hiper-reales (Field, 1998).
Cuando se trata con eventos musicales la importancia del elemento
visual puede ser disminuida o hasta ausente. Sin duda, como se discutió
antes, la ausencia de elementos visuales es menos problemática que la ausen-
cia de sonido cuando se intenta proveer un sentido de realidad. Después de
todo, estamos bastante acostumbrados a sonidos que no tienen una fuente
1 Excepto, posiblemente, para personas con una discapacidad significativa en su sentido de

la visión.
167
inmediatamente evidente a nuestros otros sentidos, así que esto no es per-
cibido necesariamente como inusual o engañoso. Las experiencias visuales
sin una fuente física que los acompañe, por el otro lado, son menos usuales
y percibidas como engañosas, posiblemente a causa de su asociación con
perturbaciones visuales durante la enfermedad. No obstante estos casos,
cuanto más capaces sean nuestros sistemas de difusión de sonido de imitar la
realidad, más opciones tendrán los compositores para explorar los elementos
espaciales en su música.
Dos puntos deben fijarse en la mente cuando se examina lo que la
investigación en percepción nos dice: primeramente que la investigación
en esta área está todavía largamente en sus primeros días, y que el desarrollo
de una suerte de aproximación holística que sea probablemente mejor en la
predicción del rendimiento de un sistema en condiciones que no sean las de
laboratorio es todavía objeto de considerable investigación. En particular,
los datos cuantitativos sobre los mecanismos perceptivos no son, ni de cerca,
tan amplios como los que provienen de la investigación de los mecanismos
subyacentes de adquisición de datos pero, no obstante ello, el trabajo es al
menos de utilidad cualitativa para diseñadores y compositores involucrados
en sonido tridimensional.
En segundo lugar, si el procesamiento off-line en tiempo no real es acepta-
ble, las técnicas de simulación acústica estándar, ampliamente disponibles, ya
producen imágenes acústicas que son tanto suficientemente detalladas como
suficientemente precisas en sus errores para estar cerca de los límites percep-
tuales. Sin duda, el mayor indicio de la irrealidad de las imágenes producidas
por estos sistemas es el hecho de que actualmente deben ser reproducidas como
una grabación, produciendo así una falta de interacción con el usuario. El área
donde hay mayor necesidad de la información que produzca la investigación
perceptiva la constituyen los sistemas en tiempo real, donde se necesita un
cierto grado de esquematización* por así decirlo (Lennox, Myatt y Vaughan,
1999) o simplificación de la imagen. Sin embargo, dada la creciente disponibi-
lidad de potencia de proceso digital, cabe preguntarse por cuánto tiempo más
esto seguirá siendo así. Lo que se puede decir es:
r&TGVOEBNFOUBMRVFTFQSPWFBBMPZFOUFEFJOEJDJPTDPOTJTUFOUFTP BMNFOPT
que la consistencia de los indicios sea similar a la que se obtendría en un
campo sonoro natural.
* Se usa en el texto original el neologismo cartoonification, que viene de la palabra inglesa

cartoon (en español, “dibujo animado”) cuya traducción textual es prácticamente imposible.
[N. del T.]
168
r%BEPRVFOVFTUSBFYQFSJFODJBFOFMNVOEPSFBMFTEFTPOJEPTFOVOFOUPS-
no, al menos la primera parte perceptivamente importante de la interacción
del sonido con ese entorno, i.e., las primeras pocas reflexiones, deben ser
modeladas.
r-PTPCKFUPTTPOPSPTSBSBNFOUF TJBMHVOBWF[ UJFOFOQBUSPOFTEFSBEJBDJÓO

omnidireccionales o se comportan como si fueran fuentes puntuales.
r%FCFIBCFSVOQBJTBKFTPOPSPEFUBMMBEPZDSFÎCMFFOTFHVOEPQMBOP EBEP
que el entorno acústico en el que normalmente existimos es complejo y
nuestros mecanismos perceptivos han evolucionado para tratar los aspectos
espaciales de un objeto sonoro en relación con dicho segundo plano.
Mientras que el cumplimiento de estos criterios es necesario para crear un

paisaje sonoro verosímil con los atributos de realidad aparente, algunos, o sin
duda todos, se pueden ignorar cuando se trata con lo que un compositor (o un
diseñador de sonido) puede desear hacer. Sin duda, la irrealidad sonora puede
ser más apropiada y muy bien estar en la verdadera naturaleza de lo que está
tratando de lograr musicalmente.
Ambisonics, sistemas de primer orden
El sistema envolvente Ambisonics es esencialmente una solución tecnológica

en dos partes al problema de codificar direcciones (y amplitudes) de sonidos
y reproducirlas en un sistema práctico de altoparlantes de una manera tal que
para oyentes centrales el sonido reproducido parezca correctamente ubicado.
Esto puede tener lugar en un escenario sonoro horizontal de 360 grados (sis-
temas pantofónicos) o en la esfera completa (sistemas perifónicos). El sistema
usa un conjunto de señales que se denominan formato B. En esta sección se
propone tratar solamente el sistema de primer orden, basado en las ideas que
propusieron originalmente Felgett (1972), Gerzon (1973), Cooper (Cooper y
Shiga, 1972), Gibson et al. (Gibson, Christensen y Limberg, 1972) y otros. En
tal sistema de primer orden, se necesitan tres canales para transportar el audio
en sistemas pantofónicos con un canal más agregado para sistemas perifónicos,
i.e., sistemas que consideran la altitud. Esta información codificada direc-
cionalmente usa una formulación de armónicos esféricos, que es un formato
eficiente que permite una fácil manipulación de campos sonoros complejos.
La reproducción requiere cuatro o más altoparlantes, según sea pantofó-
nica o perifónica, el tamaño del área, etc. El mínimo práctico es cuatro si se
169
trabaja sólo en el plano horizontal, y ocho si se requiere también altura. La
cuestión importante para señalar es que es innecesario considerar los detalles
reales del sistema de reproducción durante la grabación original o la síntesis,
con la única excepción de que se requiere un sistema de reproducción capaz
de representar la altura si la dimensión vertical es esencial. Si se siguen las
especificaciones del formato B, y asumiendo que se usen combinaciones de
altoparlantes y decodificador apropiadas, entonces la operación en diferentes
salas será tan similar como la acústica local lo posibilite. En todos los otros
aspectos las dos partes del sistema, codificación y decodificación, son comple-
tamente independientes.
Ecuaciones de codificación
En la versión más simple de Ambisonics, el concepto de esfera unidad es

importante. Cuando se realizan panorámicos con sonidos en el formato B, las
ecuaciones de codificación asumen implícitamente que los sonidos serán ubi-
cados en, o dentro de, una superficie esférica que rodea al oyente. Se le asigna
a esta superficie un radio teórico de 1. Nótese que si el sonido se mueve afuera
de esta esfera, i.e. si el radio excede 1, la información direccional no se deco-
dificará correctamente y los sonidos tenderán a “tirar” hacia el altoparlante
más cercano. Esto significa que las coordenadas de la fuente de sonido deben
obedecer la siguiente regla:
x 2 + y 2 + z2 ≤ 1 E. 1
en la que x es la distancia a lo largo del eje X (frente-atrás), y es la distancia

a lo largo del eje Y (izquierda-derecha) y z es la distancia a lo largo del eje Z
(arriba-abajo).2 Por supuesto, esta versión simple de Ambisonics no provee
explícitamente codificación de la distancia. Indudablemente se asume, como
se mencionó arriba, que todas las transformaciones ubicarán a los sonidos en
la superficie de la esfera unidad. Si se mueven “adentro de la esfera” (i.e. si la
parte izquierda de la ecuación 1 es menor que 1), la fuente sonora se volverá,
en general, cada vez más difusa.
Cuando una señal monofónica se ubica en la superficie de la esfera,
2 Nótese que la denominación convencional de los ejes en Ambisonics es la que se usa en

los estándares británicos y europeos para los efectos de vibración en el cuerpo humano, con
Z hacia arriba, X frente-atrás e Y izquierda-derecha, que es distinta de la notación mate-
mática de Z arriba, X izquierda-derecha e Y frente-atrás, como así también de las variadas
convenciones relacionadas con gráficos de computadoras.
170
entonces sus coordenadas se consideran en referencia con el centro frente,
según las siguientes expresiones:
x = cosθ cos φ
y = sinθ cos φ
z = sinφ E. 2
donde θ es el ángulo antihorario de rotación desde el centro y φ es el ángulo

de elevación arriba o abajo del plano horizontal.
Fuente
Ø
X
Frente θ
Y
Figura 1. Convenciones Ambisonics para los ejes y los ángulos
Estas coordenadas se pueden usar directamente para producir las señales de

salida del formato B (X, Y, Z y W), entonces:
W = (señal) × 0,707
X = (señal) × cosθ cos φ
Y = (señal) × sinθ cos φ
Z = (señal) × sinφ E. 3
El escalar 0,707 en W, a pesar de no ser matemáticamente riguroso, se deri-

va de consideraciones de ingeniería, o sea de la necesidad de asegurar una
distribución relativa de los niveles de la señal en los cuatro canales. Esto
es particularmente relevante cuando se toma sonido en vivo con un micró-
fono Soundfield o con campos de sonido sintetizados que contienen varias
fuentes. Estas señales, que comprenden el así llamado conjunto de formato
171
B Ambisonics, describen esencialmente las salidas que se obtendrían de un
conjunto de cuatro micrófonos coincidentes, uno omnidireccional (sensible a
la presión) y tres de figura en ocho (sensibles a la velocidad) que son mutua-
mente perpendiculares. Ya que esto es físicamente imposible, el micrófono
Soundfield (Gerzon, 1975a; Farrah, 1979) logra un resultado aproximado
muestreando el sonido en la superficie de una esfera, que es acústicamente
pequeña en relación, usando cuatro cápsulas sub-cardiodes y luego aplicando
un proceso para crear la salida de formato B.
La alternativa es posicionar sonidos individuales en un campo sonoro de
formato B usando mecanismos de panorámico basados en la ecuación 3, pero
nótese que no hay información implícita de distancia incluida en estas fórmulas.
En el pasado, los sonidos posicionados en formato B Ambisonics se ubicaban, o
bien en la superficie de una esfera “unidad”, o bien en el interior de esta.
En aquel momento, la mayoría de los experimentos en Ambisonics se
hicieron en el dominio analógico, que hacía difícil, por no decir imposible,
tratar efectivamente con los indicios de distancias más importantes tales
como el patrón de primeras reflexiones y la proporción entre sonido directo y
reverberado. Los indicios de distancia, si se usan, deben ser provistos por sepa-
rado con el mínimo tamaño de la esfera-unidad realmente determinado por
el tamaño del arreglo de altoparlantes final. Los campos de sonido naturales,
tales como los grabados por el micrófono Soundfield, no tienen, por supuesto,
el problema de sintetizar indicios de distancia pero existe todavía el problema
de reproducir correctamente sonidos cercanos. Se advirtió desde una época
temprana que si se hubieran implementado los controles Ambisonics digital-
mente, la situación hubiera cambiado (véase, por ejemplo, Malham, 1987).
Aun en el dominio analógico, una ley de ganancia relativa a la distancia
no se podría implementar fácilmente. Con la aparición de proceso digital
más accesible en la década de 1980, se le dio un nuevo ímpetu al desarrollo
de controles digitales Ambisonics. La naturaleza de la ley de ganancia que
se requiere fue investigada experimentalmente en 1990 por Clarke (1990, p.
43) y Hood (1990, p. 10) y fue implementada empíricamente por el autor en
1992 cuando se revisó el programa “Ambicont” de Clarke (Clarke y Malham,
1992)3. Anteriormente a la revisión, Ambicont sufrió el efecto (muy audible)
del cambio de signo súbito en los canales de primer orden en la medida en que
el sonido era “paneado”* a través del centro del campo sonoro. Previamente a
la revisión, el procedimiento operativo estándar para tratar con esto era correr
3 Ambicont fue escrito por Clarke (1990) para el actual controlador de Soundfield progra-
mable digitalmente desarrollado por el autor (Malham, 1984).
* En inglés, panned, término muy común en la ingenieria de audio, que indica el traslado
172
Figura 2. Arreglo de la cápsula del micrófono MkIII Soundfield
el plano en el que el movimiento se estaba realizando levemente del centro.

Esto fue formalizado por Dylan Menzies (Menzies, 1999, p. 91) al desarrollar
un algoritmo4 mejorado de distancia basado en sus estudios teóricos. El algo-
ritmo fue incorporado en su software Lamb (Menzies, 1999, p. 86).
Manipulaciones del campo sonoro
Es posible manipular con un relativo grado de facilidad campos sonoros com-

pletos que contengan muchas fuentes diferentes en posiciones diferentes, aun
los grabados naturalmente.
Las siguientes definiciones estándar5 acerca de la manera en que los
sonidos se mueven hacia posiciones nuevas se han adoptado para mantener
las ecuaciones coherentes y para minimizar la confusión que podría, también
gradual de una señal de audio entre varios canales mediante su multiplicación por una
función determinada y que proviene de la palabra inglesa panoramic (en español, “panorá-
mico”). [N. del T.]
4 Él acuñó posteriormente el término “W-panning” para esta concepción (Menzies, 2002).
5 En algunos libros se usa una notación diferente, relativa al uso en la industria aero-espacial.
En ella la rotación se refiere como yaw, el ladeo como roll y la inclinación como pitch.
173
fácilmente, ocurrir (los ángulos positivos de rotación son antihorarios o, por
convención, se usa la rotación hacia la izquierda).*
Una rotación se define como un movimiento circular en un eje predefi-
nido, normalmente el eje Z, siendo esto lo mismo que un movimiento anti-
horario en el plano horizontal. Un ladeo se define como una rotación en el
eje X. Esto es lo mismo que un movimiento antihorario en el plano vertical
(izquierda-derecha). Una inclinación se define como una rotación en el eje Y.
Esto es lo mismo que un movimiento antihorario en el plano vertical (frente-
atrás), i.e. cuando miramos a la izquierda.
Rotación
Z
Rotación
Ladeo
X Inclinación
Frente
Y
Figura 3. Manipulaciones del campo sonoro Ambisonics
Manteniendo estas definiciones en mente podemos, por ejemplo, rotar todo el

campo sonoro en el eje Z. Por simplicidad, considérese el caso de un campo sono-
ro consistente en una sola fuente de sonido con amplitud a ubicada en el plano
horizontal a un ángulo θ de la posición central frontal. Si δ es el ángulo por el
cual el campo sonoro es rotado desde su posición invariante, entonces las señales
de formato B derivadas usando la ecuación 3 son transformadas como sigue:
X ′ = (señal ) × cos(θ + δ)cos φ

Y ′ = (señal ) × sin(θ + δ)cos φ E. 4
donde X’ e Y’ son las señales de salida de formato B.
* Respectivamente rotation, tilt y tumble, en el original en inglés de este artículo. [N. del T.]
174
Simplificando:
X′ = (señal ) × cos φ (cosθ cosδ − sinθ sinδ)

Y ′ = (señal ) × cos φ(cosθ sinδ + sinθ cos δ) E. 5
Y sustituyendo en X y en Y:
X′ = X cosδ − Y sinδ
Y′ = X sinδ + Y cos δ E. 6
Los componentes W y Z resultan, por supuesto, invariantes por esta transfor-

mación, ya que la rotación es en el eje Z. Aplicando un procedimiento similar,
podemos derivar las siguientes ecuaciones para ladeo e inclinación:
Ladeo
W′= W
X′ = X
Y ′ = Y cosε − Z sinε
Z ′ = Y sinε + Z cosε E. 7
Inclinación
W′= W
X ′ = X cosδ − Z sinδ
Y′ = Y
Z ′ = X sinδ + Z cosδ E. 8
Estas ecuaciones se pueden combinar para ejecutar transformaciones tales

como una rotación-ladeo que producen una rotación angular del campo
sonoro de entrada completo en formato B hacia la izquierda por un ángulo δ
desde el centro-frente junto con un ladeo del mismo campo por un ángulo ε
del plano horizontal.
Rotación-ladeo
W ′= W
X ′ = X cosδ − Y sinδ
Y ′ = X sinδ cosε + Y cosδ cosε − Z sinε
Z ′ = X sinδ sinε + Y cosδ sinε + Z cosε E. 9
175
Cualquier combinación de estas operaciones es, por supuesto, posible, pero
el lector deberá estar advertido de que, a diferencia de muchas operaciones
matemáticas, las rotaciones no son conmutativas. En otras palabras, el orden
en el que las operaciones se realizan afecta la orientación final del campo
sonoro, ya que todas las operaciones se consideran con respecto a la posición
central de audición y no respecto del campo sonoro. Para comprender esto,
considérese qué ocurre cuando primero rotamos un dado y luego lo inclinamos
(figura 4).
Pero si inclinamos el dado primero y luego lo rotamos, obtenemos un
resultado final diferente (figura 5).
Además de estos movimientos de rotación, son posibles varias operacio-
nes, por ejemplo el reflejo (mirroring) y la dominancia.
Figura 4
Figura 5
Reflejo
El control original analógico para reflejo como se usa, por ejemplo, en la uni-
dad Audio+Design Pan-Rotate,6 consiste en un control rotatorio que permite
al usuario mover el campo sonoro de formato B desde la reproducción normal
a través de un campo sonoro cada vez más difuso, eventualmente alcanzando
un punto en donde no hay esencialmente información direccional. Emergería
desde esta región siendo cada vez menos difuso, pero con las fuentes de soni-
do en posiciones diametralmente opuestas a sus posiciones originales. Esto
6 La unidad Audio+Design Pan-Rotate tenía ocho entradas mono, cada una con su control
individual de panorámico (únicamente horizontal), siendo las salidas de formato B de las
ocho mezcladas para formar la salida.
176
fue raramente usado, ya que la cualidad difusa de las ubicaciones del sonido
entre los extremos no les gustó a la mayoría de los usuarios. Esto se debió a
las limitaciones de la tecnología de control analógica usada en esa época. Las
transformaciones en espejo se realizaron por medio de una inversión contro-
lable de los canales direccionales (X, Y, Z) de manera tal que sus ganancias
variaban desde +1 pasando por 0 hasta -1. Parcialmente a causa de que los
elementos de control en los panorámicos-rotaciones eran potenciómetros
normales y parcialmente a causa de que esto era más flexible, no se ejecutó
en el campo sonoro completo,7 sino por el contrario en cada control indivi-
dualmente. La operación se puede realizar mucho más fácilmente en el campo
sonoro completo en el dominio digital y, de hecho, se puede realizar en una
manera tal que mucho de la característica difusa se puede evitar. Ejecutando
la inversión a lo largo de un solo eje (digamos, el eje x) las fuentes en el plano
y-z perpendicular al eje x permanecen correctamente posicionadas aun en el
punto central. Esto sirve como un “ensanchador” de la percepción del oyente
del campo sonoro y los sonidos ya no se mueven a posiciones diametralmente
opuestas sino, en cambio, a posiciones directamente opuestas a sus posiciones
originales. Esto es, un sonido a la izquierda en el frente se mueve hacia la
izquierda atrás, uno a la derecha atrás se mueve a la derecha al frente y así,
sucesivamente.
Dominancia
La dominancia a veces es llamada control de “zoom” a pesar de que, de hecho,

no funciona exactamente de la misma manera que los familiares lentes de
zoom en una cámara fotográfica. La dominancia toma la forma de una trans-
formada Lorentz del campo sonoro, una operación corriente de la matemática
de la relatividad (Weinberg, 1972). Gerzon publicó tres diferentes variantes
sobre esto. La más reciente (Barton y Gerzon, 1992), provee dominancia hacia
adelante por medio de un énfasis Lorentz* usando las siguientes ecuaciones:
1
W ′= (λ + λ−1 )W + 8(λ − λ−1 )X
2
1
X′ = (λ + λ−1 )X + 2(λ − λ−1 )W
2
Y′ = Y
Z′ = X E. 10
7 Ya que esto hubiera requerido usar un costoso potenciómetro.

* Lorentz boost, en el original en inglés. [N. del T.]
177
Sin embargo, en el diseño original para controles de campo sonoro, en donde
se llamó control de ancho, se proveyeron las siguientes ecuaciones:
W ′ = W + 2λX
X′ = X + 2λW
Y′ = Y 1− λ2
Z′ = X 1− λ2 E. 11
Vale la pena notar, sin embargo, que la versión que se usa en el micrófono
Soundfield original no altera los canales Y y Z (Farrah, 1979). En cada caso,
el efecto es el incremento de la ganancia de los sonidos en el frente para λ > 1
y simultáneamente reducir la ganancia de los sonidos traseros, de esta manera
logrando que los que están al frente parezcan más cercanos y los que están
atrás más lejanos. A diferencia de los lentes de zoom ópticos, sin embargo,
la separación angular entre las fuentes frontales decrece y las fuentes traseras
se separan y, por supuesto, es sólo el indicio de distancia, que no es el más
importante, el que se manipula.
Ni la dominancia ni el reflejo están limitados a actuar solo en uno de los
ejes predefinidos del campo sonoro. En el caso más simple, es posible rotar
el campo sonoro (en tres dimensiones) de manera tal que el eje sobre el que
se desea operar quede alineado en frente-atrás antes de ejecutar la transfor-
mación que se requiera en ese eje. Aplicando luego una rotación inversa el
campo sonoro original será restituido a su orientación original y la acción del
proceso ocurrirá a lo largo del eje deseado en el campo sonoro. Una concep-
ción más directa sería, por supuesto, modificar las ecuaciones de dominancia
o reflejo directamente.
Ambisonics y la compatibilidad estéreo
Las señales de formato B Ambisonics no son compatibles estéreo, a pesar de

que con el procesamiento adecuado es posible generar el equivalente exacto
de la respuesta de un par cruzado de micrófonos. Esta concepción se usa, por
ejemplo, en el micrófono Soundfield ST250 para producir un par estéreo
tanto con patrones de polaridad como con ángulos intermicrófonos controla-
bles. Sin embargo, hay un sistema de dos canales doméstico (conocido como
uhj) que permite que mucha de la información horizontal de las señales W,
X e Y del formato B sea codificada en una matriz de manera tal que formen
una señal estándar de dos canales estéreo. La compatibilidad mono y estéreo
178
de las grabaciones uhj es muy buena, así que las grabaciones uhj bien hechas
realmente proveen una presentación bastante fina cuando se reproducen en
un sistema estéreo normal. Con un decodificador apropiado y cuatro o más
altoparlantes ubicados horizontalmente, virtualmente se puede lograr toda la
ejecución de un sistema completo de formato B horizontal (Gerzon, 1977a;
1977b).
Este método de codificación, conocido como codificación UHJ, se ha usado
para producir grabaciones Ambisonics compatibles con estéreo, cintas mag-
netofónicas y transmisiones de radio. Las señales X, Y y Z se transcodifican en
dos canales usando la siguiente transformada:
Derecho = (0,0928 − 0,255 j)X + (0, 4699+ 0,171 j)W − (0,3225 + 0,00855 j)Y
Izquierdo = (0,0928+ 0,255 j)X + (0, 4699 − 0,171 j)W + (0,3225 − 0,00855 j)Y
E. 12
en la que la presencia de la j multiplicando una señal se usa para indicar que

la fase de esta señal debe ser corrida por 90º en toda la banda de audio con
respecto a su versión “normal”.
A causa de la dificultad de proveer un corrimiento de noventa grados en
sí mismo dentro del dominio analógico, cada una de las tres señales debe pasar
por su propio par de redes de corrimiento de fase de banda ancha. Dentro de
cada par, un miembro está diseñado para producir un corrimiento de fase que
difiere en noventa grados de la salida del otro miembro del par en todas las
frecuencias de audio. Esto produce el efecto requerido de corrimiento de fase
de 90º entre las dos salidas, a pesar de que cada corrimiento de fase de salida
dé varias vueltas en la banda de audio. Dentro del dominio digital hay varios
algoritmos, como la transformada Hilbert, que se pueden usar para producir un
corrimiento directo de fase de noventa grados sobre un considerable ancho de
banda en un solo proceso. Desafortunadamente, parece que actualmente nin-
guna de las herramientas ampliamente disponibles pueden producir diseños
para dichas combinaciones, a pesar de que un diseño que se basa en ecuacio-
nes, publicadas en Electronics World (Gibson, 1996) como parte de una serie
que cubre el diseño de SSB (Single Side Band) outphasers, sí ofrece una simple
ecuación para el diseño de un filtro FIR (respuesta a impulso finita) con las carac-
terísticas que se requieren. El diseño que se presenta en el artículo se orienta
a la banda relativamente angosta de los canales de voz ssb, pero se lo puede
extender fácilmente a la banda más ancha y respuesta optimizada que se nece-
sita en audio profesional. Esto, sin embargo, viene al costo de una extensión
considerable de la longitud del filtro, de 32 coeficientes en el original a varios
179
miles a causa de la más alta frecuencia de muestreo y la respuesta en bajos
sumamente extendida. En el pasado, esto lo hacía impropio para la operación
en tiempo real, como en la implementación producida en la década de 1990
por el Dr. Ambrose Field usando una computadora sgi Origin, que era varias
veces más lenta que el tiempo real. Sin embargo, las modernas computadoras
son más que suficientemente rápidas para hacer esto en tiempo real, a pesar de
que la necesidad de uhj ha desaparecido en gran medida con el advenimiento
de medios de distribución multicanal como el dvd.
La codificación uhj, al menos en su versión de dos canales, no puede
preservar toda la información del campo sonoro horizontal, como puede verse
fácilmente de las consideraciones de la teoría de la información. Un diseño
cuidadoso tanto del codificador como del decodificador puede concentrar la
pérdida de información en la parte trasera de la imagen en donde hay menos
de lo que es espacialmente crítico (con la música más convencional, de todas
maneras). Esto deja lugar para mejorar la cualidad de la imagen en el área
frontal, que es más crítica.
El miembro básico (de dos canales) de la familia uhj puede ser suplemen-
tado con un tercer canal para remover las anomalías que resten para la repro-
ducción horizontal. Este puede ser de banda reducida sin degradar mucho las
cosas si es necesario por razones operativas, por ejemplo si se transmite la señal
usando modulación de sub-portadora en un transmisor de fm. Se puede añadir
un cuarto canal para proporcionar información de altitud. Las ecuaciones
para decodificar son tales que un decodificador para cualquiera de los niveles
siempre extraerá sólo la información que realmente usa de entradas de mayor
orden, permitiendo al sistema ser compatible “hacia arriba”.
Decodificando Ambisonics de primer orden
La decodificación de señales codificadas con Ambisonics generalmente invo-

lucra tanto matemáticas como psicoacústica. Sin embargo, aunque es cierto
que tales conocimientos son necesarios para optimizar el rendimiento de los
decodificadores de primer orden destinados a pequeños sistemas domésticos
con un área de audición y cantidad de altoparlantes limitados, las técnicas
psicoacústicas de optimización tienden a ser productivas cuando se aplican a
sistemas que cubren áreas más grandes (Malham, 1992). Las consideraciones
psicoacústicas que son más apropiadas para el diseño de decodificadores de
primer orden para pequeñas áreas en situaciones domésticas no serán trata-
dos en detalle, pero es importante estar al tanto de que, para tales decodi-
ficadores, las matrices decodificadoras son construidas según frecuencia de
manera tal que a bajas frecuencias (i.e., aquellas en la región en donde el
180
itd domina los procesos de audición espacial) hay alguna emisión anti-fase
de los altoparlantes opuestos a la ubicación de la fuente de sonido. Gerzon
dice en sus escritos sobre decodificación8 que esto provee un refuerzo extra de
los indicios posicionales para los oyentes centrales. Sin embargo, para áreas
más grandes como las salas de conciertos, la experiencia ha mostrado que es
mejor aplicar la concepción que ha sido alternativamente denominada como
en-fase (Malham, 1992) u opuestos controlados (Furse, [1]). En primer lugar,
se debe hacer notar que el diseño de un decodificador es considerablemente
facilitado si la distribución de altoparlantes es tan regular como sea posible.
Sin duda, hasta la aparición del así llamado diseño de decodificadores Vienna
(Barton y Gerzon, 1992) la mayoría de los diseños de decodificadores pre-
dicaba el uso de arreglos de altoparlantes consistentes de una distribución
regular de pares, con los altoparlantes de cada par montados en los finales
opuestos de una línea que cruza el centro del arreglo, en donde estaría la
posición de audición principal. Esto fue conocido como el teorema del par
diamétrico (Gerzon, 1977b). En general, esto significa que los altoparlantes
deben ser dispuestos en uno de los sólidos geométricos regulares, o bien en el
medio de sus caras, o en los vértices. Las configuraciones reconocidas inclu-
yen cuadrados y hexágonos regulares para el trabajo solo horizontal, con un
cubo siendo el mínimo práctico para el trabajo “con altitud”. Para arreglos
regulares de esta clase, el mínimo absoluto de altoparlantes es 2M + 1 en
sistemas solo horizontales y (M + 1)2 para sistemas con altitud, donde M es
el orden del sistema (Daniel, 2000, p. 179).
Sin embargo, existen considerables ventajas en usar más altoparlantes
que esto, para minimizar la influencia tanto de la posición de audición como
de las disparidades entre los altoparlantes y la acústica del recinto.
Para la decodificación en-fase, la entrada para cada altoparlante es sim-
plemente una combinación de las señales de formato B que corresponde a
la posición del altoparlante respecto del centro del arreglo. Esto se puede
expresar con la siguiente ecuación, en la que el altoparlante tiene un ángulo
antihorario α desde el frente y un ángulo de elevación β arriba o abajo del
plano horizontal:
Paltoparlante = W + k(X cosα cos β + Y sinα cos β + Z sinβ) E. 13
donde k es una constante que determina la respuesta direccional de la fuente y

que, tomando en cuenta el factor de 0,707 proveniente de la ingeniería para el
canal W, toma el valor de 0,707 para una respuesta direccional de la fuente car-
8 Véase, por ejemplo, Gerzon (1977b) o Barton y Gerzon (1992)
181
dioide que se necesita para la decodificación en-fase. Esto es óptimo tanto para
audiencias que puedan estar cerca de la posición de los altoparlantes como para
audiencias ubicadas fuera del arreglo de altoparlantes, dado que elimina cual-
quier posibilidad del fenómeno conocido como bounce-back* (Malham, 1992).
Bounce-back
Aun en un arreglo de altoparlantes apropiadamente dispuesto, el bounce-back

ocurre para oyentes muy lejos del centro, i.e., los que están cerca de una
posición de un altoparlante. Para decodificadores diseñados para proveer
rendimiento óptimo en el centro cuando una fuente de sonido se encuentra
en dirección de un altoparlante, este altoparlante deberá emitir un sonido de
intensidad I y el altoparlante opuesto deberá emitir un nivel algo más bajo
Iopp de sonido de polaridad inversa, al menos en frecuencias bajas.9 Cuando
un oyente se ubica a una distancia significativa del altoparlante opuesto a la
dirección de la fuente de sonido, de manera tal que la proporción I/Iopp , al ser
multiplicada por la proporción de pérdida ocasionada como resultado de la dis-
tancia a cada altoparlante L/Lopp se vuelve menor que 1, el sonido dejará de ser
percibido como proviniendo de la dirección correcta y parecerá provenir del
altoparlante más cercano. En arreglos que intentan servir para una gran área de
audiencia, entonces, la respuesta direccional de la fuente, en general, debe ser
ajustada para ser no más direccional que cardioide para todas las frecuencias.
Entonces, por ejemplo, para un arreglo cuadrado, solo horizontal de
altoparlantes, dispuestos como izquierda-frente (lf), derecha-frente (rf),
izquierda-atrás (lb) y derecha-atrás (rb), las señales son:
1
PLF = W + (X + Y )
2
1
PRF = W + (X −Y )
2
1
PLB = W + (−X + Y )
2
1
PRB = W + (−X −Y )
2 E. 14
* Literalmente “rebote-de-vuelta”, efecto que consiste en que la señal parece provenir del altopar-
lante opuesto diametralmente del que debería provenir. Se adoptó aquí directamente su denomi-
nación en inglés, dado que no existe traducción de uso corriente en español. [N. del T.]
9 Véanse las discusiones detalladas que siguen, sobre el diseño de decodificadores.
182
Y para un arreglo cúbico, las señales son:10
1 ⎛ 1 ⎞
PLFU = W + ⎜ (X + Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRFU = W + ⎜ (X −Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PLBU = W + ⎜ (−X + Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRBU = W + ⎜ (−X −Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PLFD = W + ⎜ (X + Y ) − Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRFD = W + ⎜ (X −Y) − Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PLBD = W + ⎜ (−X + Y ) − Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRBD = W + ⎜ (−X −Y ) − Z ⎟
2⎝ 2 ⎠ E. 14
En la práctica, se puede tolerar en los arreglos una cierta asimetría sin que cause
excesivos problemas. La experiencia ha mostrado, por ejemplo, que el arreglo
cuadrado puede variar desde un rectángulo con una proporción de ancho/pro-
fundidad de dos a uno, hasta un rectángulo con una proporción de uno a dos
sin que la imagen tenga serios problemas, provistos del hecho de que se hagan
los cambios apropiados a las ecuaciones de decodificación.
Una manera de compensar esta suerte de irregularidad es modificar la
señal de formato B antes de que alimente al decodificador de la disposición
regular correspondiente. Por ejemplo, si se alimenta un decodificador para una
disposición cuadrada con X e Y modificados como sigue:
X ′ = X 2 sinα
Y ′ = Y 2 cosα E. 16
10Los decodificadores que se basan en estas ecuaciones se pueden construir fácilmente, ya sea
con electrónica analógica simple o por software. Es aun posible usar una consola de mezcla con
ocho entradas y ocho salidas para implementar el diseño cúbico. Esto se realiza ingresando
183
es posible compensar razonablemente bien el uso de arreglos rectangulares en
donde el ángulo α de los altoparlantes frontales esté no más de ±15° fuera del
cuadrado (patente británica Nº 1.494.751).
De manera similar, para un arreglo cúbico se puede aplicar la siguiente
compensación:
X ′ = X 3 sinα
3
Y′ = Y cosα 2 sinβ
2
3
Z′ = Z cosα 2 cos β
2 E. 17
donde β es el ángulo vertical.

Las ecuaciones precedentes (16 y 17) corrigen irregularidades causadas
por desviaciones angulares de arreglos cuadrados o cúbicos, pero no errores en
la distancia entre los altoparlantes y el centro de los arreglos. Estos se pueden
acomodar de manera relativamente fácil si los altoparlantes están distribuidos
en pares diametralmente opuestos. En este caso, los altoparlantes más cerca-
nos pueden tener retardos y atenuaciones insertados en sus señales en una
manera tal que los sonidos de todos lleguen al centro al mismo tiempo y con
el mismo nivel para un sonido con la misma dirección que el altoparlante.
El sistema tenderá así a funcionar como si fuera completamente regular, al
menos para un oyente central y otros con razonablemente pequeñas desvia-
ciones (Gerzon, 1977b).
Un refinamiento posterior en el diseño del decodificador es necesario si
los altoparlantes están cerca del punto central. Los frentes de onda recons-
truidos devendrán cada vez más esféricos en la medida en que la frecuencia
baje, esencialmente por la misma razón que causa el aumento en las bajas
frecuencias cuando un micrófono direccional está cerca de una fuente sonora.
Este efecto se puede remover si los componentes direccionales están sujetos a
un filtro pasaaltos. Daniel establece la regla como (Daniel, Nicol y Moreau,
2003, p. 8):
1 r
Fmc (ω) E. 18
cada señal de formato B en dos canales de la consola, uno normal y el otro con la polaridad
invertida, disponiendo la ganancia del mezclador y la asignación de las señales de acuerdo
con las ecuaciones presentadas arriba y enviando a los altoparlantes las ocho salidas.
184
donde r es el radio del arreglo en metros, c es la velocidad del sonido y Fm
es la función de transferencia que afecta a los componentes Ambisonics de
orden m como lo define en su artículo y lo reproduce en la ecuación 32. Para
un sistema Ambisonics de primer orden, esto equivale a un filtro pasaaltos de
6 dB por octava que tiene una caída de -3dB en 53/r Hz (patente británica
Nº 2.073.556) así que, en el caso de arreglos de altoparlantes para el tamaño
de salas de conciertos, la frecuencia resultante tiende a ser tan baja que hace
innecesario tal filtro.
Criterios para una decodificación óptima
Gerzon define dos criterios principales para una decodificación óptima de

señales Ambisonics. Estos se basan en la noción de vectores de velocidad en
o debajo de frecuencias en las que el tamaño de la cabeza del oyente es
aproximadamente equivalente a la mitad de la longitud de onda del sonido, a
menudo consideradas como de 700 Hz, y vectores de energía arriba de esta fre-
cuencia, pero por debajo de 4.000 Hz.* Una explicación altamente abstracta
y matemática de las razones de la determinación de estas frecuencias se puede
hallar en Gerzon (1992).
Vectores de velocidad
De acuerdo con Gerzon, esta medida de la calidad de un decodificador corres-

ponde a la teoría de localización para la región de baja frecuencia de Makita11
y proporciona información acerca de cuán bien es estimulado el mecanismo
de las itd. Considérese el caso de un arreglo consistente en un anillo horizon-
tal de n altoparlantes en donde las distancias altoparlantes-oyente son todas
iguales y más grandes comparadas con la longitud de onda del sonido, con el
altoparlante i en un ángulo de azimut θi reproduciendo un nivel de sonido Li
de una sola fuente de sonido. La presión acústica en el centro del arreglo es
entonces simplemente:
n
P = ∑ Li
i=1 E. 19
* Respectivamente directional velocity vectors y directional energy vectors en el texto original.

[N. del T.]
11 Y. Makita (1962) postuló que mover la cabeza para minimizar las diferencias interaurales
en las frecuencias bajas constituye un mecanismo de audición direccional significativo, que

desde entonces lleva su nombre. Véase también Leakey (1959).
185
Si la contribución vectorial de cada altoparlante es:
⎛cosθ i⎞
svi = Li ⎜ ⎟
⎝sinθ i ⎠ E. 20
entonces podemos hallar el vector de velocidad rv tomando la suma de los vec-

tores que corresponden a los altoparlantes y dividiéndola por la presión P;
n
s vi )
rv = ∑ s vi
i=1 P E. 21
Para una fuente sonora natural (o un solo altoparlante), la longitud de rv será

la unidad, y su ángulo será el mismo que el de la fuente sonora. Esto será gene-
ralmente equivalente, en bajas frecuencias, a la dirección a la que giramos la
cabeza para enfrentar la fuente. En un decodificador Ambisonics optimizado
para un área pequeña con un adecuado número de altoparlantes, la longitud
de rv se puede igualar a la unidad para los oyentes centrales, a pesar de que
esto requiere componentes anti-fase.
Vectores de energía
Cuando las frecuencias que nos interesan involucran longitudes de onda que
son pequeñas comparadas con la cabeza, la suma de vectores de velocidad ya
no es aplicable, ya que los oídos responden preferentemente a las ild en esta
área. En este caso, de acuerdo con Gerzon, la suma de las contribuciones
de energía de cada altoparlante provee una buena indicación de la calidad de
reproducción.
La ganancia de la energía completa del sistema es:

n
2
E = ∑ (Li )
i=1 E. 22
Y, por un motivo similar, el vector de energía re se calcula:
re = ∑
n
( sei ) )
sei
i=1
E E. 23
186
La localización aparente del sonido dada por re es, de acuerdo con Gerzon,
válida para un oyente central en frecuencias arriba de 700Hz y por debajo de
4.000Hz y también para la situación en donde la suma vectorial de velocidades
es inválida en bajas frecuencias, por ejemplo cuando el oyente está desviado
del centro por un monto que es significativo para la frecuencia en cuestión.
Es fácil demostrar matemáticamente que la magnitud de re no se puede
igualar al valor óptimo de 1, a menos que un solo altoparlante emita sonido y
así, los sonidos de alta frecuencia en un arreglo Ambisonics de primer orden
nunca producirán tan buenos indicios de localización como los de baja fre-
cuencia. Sin embargo, si la decodificación es óptima, al menos no variará junto
con la posición de la fuente como lo hace en sistemas como el surround itu 5.1.
Esto explica ampliamente la tendencia observada en los sistemas Ambisonics
de volver los altoparlantes “invisibles”. Como “regla de pulgar”, la cantidad 1-|
re| es aproximadamente proporcional al grado de movimiento de la imagen en
la medida en que el oyente mueve su cabeza (Gerzon, 1992).
Maximizar |re | y lograr la condición |rv | = 1 se excluyen mutuamente.
Para un arreglo destinado a grandes áreas es deseable que |re | se maximice
a expensas de rv, ya que esto minimiza el bounce-back mientras que retiene
una buena imagen. Para arreglos grandes, con oyentes cercanos a los bordes,
la mejor y más fácil manera de lograr esto es la estrategia de la decodificación
en-fase ya discutida. No obstante, allí donde el área de audición resulta más
limitada, se puede obtener alguna ventaja al maximizar re, como lo discute
Jerome Daniel en Daniel, Rault y Polack (1998) y Daniel (2000). Munro
(2000) presenta un tratamiento algo más simple y claro de esta cuestión.
El efecto de la acústica del espacio de ejecución
La naturaleza acústica del espacio de ejecución puede tener un efecto signi-

ficativo en la operación de un arreglo Ambisonics de difusión (o, sin duda,
de cualquier otro). Existen dos áreas principales de interés, una relacionada
con efectos locales en un altoparlante específico, la otra relacionada con la
acústica integral.12
Efectos locales
En el diseño de decodificadores Ambisonics se asume que todos los altopar-

lantes funcionan de manera idéntica. Esto se necesita para asegurar que la
12La experiencia ha mostrado que ambos efectos tienden a causar más problemas en fuentes
de sonido estacionario que en las que se mueven dentro del campo sonoro.
187
reconstrucción del frente de onda se lleva a cabo correctamente en todas
las frecuencias. Cuando un altoparlante de un arreglo tiene una ganancia
acústica diferente a la de los otros, la reconstrucción del frente de onda
estará desviada. Si el error en ganancia acústica depende de frecuencia
(como podría ser cuando se usan diferentes tipos de altoparlantes) entonces
la desviación del frente de onda será dependiente de la frecuencia, causando
que las imágenes de banda ancha sean borrosas.13 El mismo efecto ocurre
cuando las superficies reflectivas cercanas a un altoparlante causan que los
sonidos de este alcancen la posición del oyente con retardos adicionales
produciendo filtrado significativo de tipo “peine” en la banda del sonido
que reproduce. Ambos efectos se pueden disminuir por medio del uso de
más altoparlantes, ya que la contribución de cada uno de ellos al frente de
onda final es menor.
Allí donde el espacio de ejecución sea problemático en términos de
superficies reflectivas, las dificultades pueden encararse de varias maneras,
por ejemplo, ubicando los altoparlantes a alguna distancia de tales superfi-
cies. Al ubicarlos suficientemente lejos se hace que el retardo tenga bastante
duración como para forzar los “dientes” del filtro-peine a estar más cerca el
uno del otro, lo que ayudará a reducir la audibilidad del efecto, y la pérdida
adicional de amplitud a causa del mayor recorrido reducirá la profundidad (y
altura) de los dientes, lo que también reducirá la audibilidad.
Fragmentar las superficies reflectivas en otras que sean aleatoriamente
difusas es otra posibilidad, a pesar de que esto sea difícil para una instalación
no permanente. Angelo Farina sugirió una alternativa en un correo electró-
nico del 18 de abril de 2002 al grupo Sursound (2), que es la de convolver
la señal de cada altoparlante con un fragmento breve, diferente para cada
señal (10 ms) de ruido con una envolvente exponencial. Esta estrategia,
que parece ser de interés potencial, para citar a Farina, “...vuelve aleatorias
las fases del sonido reproducido, y evita alteraciones dinámicas de fase* y
otros artefactos......”. Otras posibilidades incluyen el desarrollo de la técnica
del espejo acústico de tiempo invertido** que se usa, entre otras cosas, para
extender el rango de los sistemas de sonar (Kuperman et al., 1998). En los
sistemas de sonar de este tipo, se usa un arreglo aleatorio de transmisores
de sonar (a menudo implementado con un arreglo aleatorio de difusores,
tales como pequeñas esferas, enfrente del transmisor). Para disponer el sis-
13 Nótese que cuando todos los altoparlantes tienen las mismas características espectrales,
esto causa solamente un cambio de timbre y no una desviación del frente de onda.
* Phasiness, en el original en inglés. [N. del T.]
** Acoustic time reversal mirror, en el original en inglés. [N. del T.]
188
tema, un transmisor se ubica en el lugar en donde el rayo del sonar necesita
concentrarse, se usa para emitir un rayo de sonar de vuelta hacia el arreglo
transmisor principal y se mide la respuesta a impulso de cada uno de los
transmisores ubicados aleatoriamente en el arreglo. Esta respuesta a impul-
so incluye tanto los efectos de la aleatoriedad deliberada del arreglo como
aquellos de las reflexiones producidas por las obstrucciones a lo largo del
camino por la que el rayo viajó. Al disponer en reverso y reflejar la respuesta
a impulso para cada lugar focal del camino del transmisor y luego aplicarla
a la señal de ese transmisor, cuando el arreglo principal emite su rayo los
efectos aleatorios, incluidos los del entorno, son cancelados cuando todos
los rayos llegan al lugar focal. Esto tiene claras posibilidades para arreglos
de sonido surround, ya sea produciendo fuentes de sonido individuales (que
podrían, por ejemplo, ser posicionadas cerca de los asientos en el espacio de
audiencia) o para producir un arreglo de altoparlantes virtuales que está más
lejos de las paredes del lugar de ejecución (y, de esta manera, más inmune
a sus efectos) de lo que los altoparlantes pueden situarse físicamente. Una
concepción similar, que involucra el uso de los así llamados “spots acústi-
cos” que usan la naturaleza no lineal del aire a altas presiones sonoras para
rectificar (y por consiguiente detectar, como en un receptor de radio) rayos
de ultrasonido modulados en audio, ha sido sugerida por otro estudiante del
York Music Technology Group, Alex Cohen, en su proyecto final (Cohen,
1999).
Efectos globales
El efecto global principal se origina por la conocida dificultad que posee cual-
quier sistema de reproducción basado en altoparlantes de no ser capaz de pro-
ducir correctamente sonidos que aparenten estar más cercanos al oyente que
el radio de reverberación. El radio de reverberación se produce por la proporción
del sonido directo de un altoparlante y la reverberación que produce ese soni-
do en el espacio de ejecución en sí mismo. Esto se evita mejor teniendo una
acústica seca y ubicando los altoparlantes lo más cerca posible a pesar de que
estas medidas crean sus propios problemas. Espejos de reverso temporal y otras
estrategias relacionadas pueden tener un papel para representar en esto, como
también lo tiene la posibilidad de usar sistemas híbridos de auriculares y alto-
parlantes juntos, como se discutió en la sección sobre el realismo. Finalmente,
vale la pena destacar que nuevas ideas publicadas muy recientemente (Daniel,
Nicol y Moreau, 2003) parecen ofrecer una respuesta más directa al problema
de la producción de fuentes sonoras cercanas. Esto se discute brevemente en
la sección que sigue, sobre Ambisonics de orden más alto.
189
Sistemas Ambisonics de orden más alto
La versión simple del sistema Ambisonics hasta donde se describió puede

solo (re)crear un campo sonoro exacto en una ubicación central. Hay un
incremento gradual en el nivel de errores en la medida en que el oyente se
mueve del centro y en la medida en que la frecuencia aumenta (Bamford
y Vanderkooy, 1995). Sin embargo, si se implementa cuidadosamente, ha
demostrado funcionar en una manera razonablemente efectiva aun sobre
áreas bastante grandes (Malham y Orton, 1991; Malham, 1992; Vennonen,
1994). Para mejorar el área sobre la que se produce un error bajo en la
reconstrucción del campo sonoro se ha sugerido combinar Ambisonics con el
sistema Holofónico (Nicol y Emerit, 1999) o con la síntesis de campo sonoro
(Horbach y Boone, 1999). Desafortunadamente, estos acercamientos híbridos,
mientras que son interesantes por su propio derecho y quizá apropiados para
ciertas circunstancias específicas, carecen de la facilidad de implementación
y control que Ambisonics puede ofrecer. Es bien sabido que al incrementar la
complejidad de la descripción por medio del aumento del orden de los armó-
nicos esféricos que se usan en esta descripción se reduce el error para oyentes
que se encuentran fuera del centro (Bamford y Vanderkooy, 1995, Malham,
1999b) mientras que se retiene mucho de la facilidad de implementación y
control que tiene el primer orden de Ambisonics.
Armónicos esféricos
El artículo original de Gerzon de 1973 presentaba los armónicos esféricos

hasta el tercer orden en términos de coordenadas cartesianas (x, y, z) donde
x es el eje frente-atrás, y es el eje izquierda-derecha y z es el eje arriba-abajo.
Es su trabajo publicado posteriormente las definiciones se dan en coordenadas
polares, r, θ , φ, (lo que se ha transformado en norma para la definición de los
sistemas Ambisonics) y la notación es algo diferente. Esto nos ha dejado tanto
sin una terminología definida como sin una formulación de los armónicos
esféricos de los sistemas de orden más alto que sea consistente con la práctica
corriente de los de primer orden. La capacidad de los armónicos esféricos para
definir eficientemente una función en la superficie de una esfera (Kaplan,
1981) ha producido como resultado su uso extensivo en física y química.
Desafortunadamente, cada uno de los grupos involucrados –físicos, quími-
cos, matemáticos– que usan los armónicos esféricos tiene su estilo propio de
notación, de entre los cuales ninguno parece coincidir con el que se usa en
la práctica Ambisonics. La mejor y más consistente presentación parece ser
la de Daniel (2000) y, consecuentemente, ha sido la que se ha elegido para
190
constituir la base para la notación que se usa en este trabajo, excepto cuando
se indique algo diferente.
En esta notación, los armónicos esféricos se describen por la siguiente
ecuación:
⎧cos(nθ) if σ =1
Ymn
σ
(θ,φ) = Pmn (sinφ)⎨
⎩sin(nθ) if σ = −1 E. 24
donde Pmn es la función asociada semi-normalizada de Legendre de grado14 m

y orden n. Daniel llama a esto codificación SN3D Ambisonics (o SN2D en el
caso de variantes únicamente horizontales). Esto corresponde al primer orden
Ambisonics estándar, con la excepción del escalamiento de 0,707 aplicado a
W por razones de ingeniería que ya discutimos. Aunque existen argumentos
matemáticos significativos a favor del uso de esta formulación –generalmente,
la disponibilidad de funciones recursivas para generar Pmn (Press et al., 1997) y
así sucesivamente– este autor cree que hay razones de ingeniería del mundo real
que imponen que la versión llamada Max-Normalisation (MaxN) por Daniel
debería ser usada como la base para la expansión del sistema Ambisonics hacia
órdenes más altos. Esto es lo que se siguió en la versión Furse-Malham (FuMa),
con la inclusión del escalamiento estándar de 0,707 para el canal W. Se debe
advertir que las formulaciones de los armónicos esféricos preferidas matemáti-
camente suelen incluir factores de escalamiento que aseguran que el resultado
de la integración de cada armónico sobre la esfera sea 1. En la medida en que el
orden M de los armónicos se incrementa, el valor máximo para cada armónico
puede sufrir incrementos. En promedio esto no representa un problema para
campos difusos, pero cuando se trata con fuentes sonoras puntuales o cercanas
a lo puntual, como aquellas que se producen por panorámicos, esto puede
producir que las señales de los canales de más alto orden excedan la capacidad
de representación del canal físico por el que son transmitidas (o almacenadas).
Aun esto puede no representar un problema serio si todos los canales usan
representaciones de la señal en punto flotante, pero muchos sistemas usan
todavía enteros de 16, 20 o 24 bits. Las representaciones MaxN tienen factores
de escalamiento que se aplican a cada componente superior al componente
ceroésimo (W) de manera tal que el valor máximo que cada uno toma está limi-
tado a |1|. El factor para esto se puede obtener por inspección hasta el tercer
orden, pero luego deviene más difícil y requiere determinar la máxima para
14Aunque no es estrictamente correcta matemáticamente, ya que m es el grado y n el orden

de las funciones de Legendre, y a despecho de la confusión que esto pueda causar, es una
práctica aceptada referirse al orden M de los armonicos esféricos como m.
191
cada polinomio (ya sea matemáticamente o numéricamente) de manera explí-
cita y luego invertida. A diferencia de las funciones de Legendre, hasta donde
este autor conoce no se ha descubierto hasta ahora una fórmula recurrente
simple para generar los factores de escalamiento requeridos automáticamente.
Los factores para convertir la representación formal, matemática, SN3D en la
versión FuMa, que se usa en los sistemas prácticos de ingeniería, se muestran
hasta el tercer orden en la tabla 1 junto con las designaciones convencionales
de los canales a los que corresponden.
Tabla 1. Canales de Ambisonics formato B hasta el tercer orden
Factor
Orden m,n,σ Canal Definición SN3D Y
FuMa
X
Frente
0 0,0,1 W 1 1/√
2
1,1,1 X cosθcosø 1
1,1,-1 Y sinθcosø 1
1,0,1 Z sinø 1
192
2,0,1 R (3sin2ø -1)/2 1
2,1,1 S (√ 3/2) cosθsin(2ø) 2/√

3
2
2,1,-1 T (√ 3/2) sinθsin(2ø) 2/√
3
2,2,1 U (√ 3/2) cos(2θ)cos2ø 2/√

3
2,2,-1 V (√ 3/2) sin(2θ)cos2ø 2/√

3
3 3,0,1 K sinø(5sin2ø-3)/2 1
193
3,1,1 L (√3/8) sinθcosø(5sin2ø-1) √45/32
3,1,-1 M (√3/8) sinθcosø(5sin2ø-1) √45/32
3,2,1 N (√15/2) cos(2θ)sinøcos2ø 3/

√5
3,2,-1 O (√15/2) sin(2θ)sinøcos2ø 3/

√5
3,3,1 P (√5/8) cos(3θ)cos3ø √8/5
3,3,-1 Q (√5/8) sin(3θ)cos3ø √8/5
194
En general, el uso de la nomenclatura basada en letras para los nombres de
canal no se usa más allá del tercer orden, a pesar de que el alfabeto inglés
podría realmente albergar los nueve canales del cuarto orden. En su lugar, se
usa para designar a los canales el sistema m, n, σ. Este sistema, que se adoptó
por conveniencia tipográfica, es ligeramente diferente de la notación mate-
mática convencional porque σ no es un superíndice arriba de las otras dos.*
La rotación en el eje Z tal como se describe en la sección sobre Ambisonics
básico puede ser extendida fácilmente a estos órdenes más altos. Tanto Daniel
(Daniel, 2000, p. 165) como Furse (2) han publicado las matrices para primer
y segundo orden con ligeras diferencias en las convenciones. Ya que la tabla
1 cubre el tercer orden, las matrices de rotación hasta este orden se presentan
aquí. Ya que la matriz W es la matriz identidad bajo todas esas transformacio-
nes, es trivial y no se incluye.
Matrices de rotación
Para una rotación a lo largo del eje Z por un ángulo β, las matrices son como
sigue:
Componentes de primer orden

Orden de fila (entrada) X, Y, Z
Orden de columna (salida) X′, Y′, Z′
⎡cos β −sinβ 0⎤
⎢ ⎥
⎢sinβ cos β 0⎥
⎢⎣ 0 0 1⎥⎦ E. 25
Componentes de segundo orden

Orden de fila (entrada) R,S,T,U,V
Orden de columna (salida) R′,S′,T′,U′,V′
⎡1 0 0 0 0 ⎤
⎢ ⎥
⎢ 0 cos β −sinβ 0 0 ⎥
⎢ 0 sinβ cos β 0 0 ⎥
⎢ ⎥
⎢0 0 0 cos 2β −sin2β⎥
⎢⎣ 0 0 0 sin2β cos 2β ⎥⎦ E. 26
* El término en inglés es de uso corriente en la literatura y la práctica en habla hispana. Alude
195
Componentes de tercer orden
Orden de fila (entrada) K,L,M,N,O,P,Q
Orden de columna (salida) K′,L′,M′,N′,O′,P′,Q′
⎡1 0 0 0 0 0 0 ⎤
⎢ ⎥
⎢ 0 cos β −sinβ 0 0 0 0 ⎥
⎢ 0 sinβ cos β 0 0 0 0 ⎥
⎢ ⎥
⎢0 0 0 cos 2β −sin2β 0 0 ⎥
⎢0 0 0 sin2β cos 2β 0 0 ⎥
⎢ ⎥
⎢0 0 0 0 0 cos 3β −sin 3β⎥
⎢⎣ 0 0 0 0 0 sin 3β cos 3β ⎥⎦ E. 27
Ladeo e inclinación
Ya que, a partir del segundo orden, las formas de los armónicos involucrados
tanto en el ladeo como en la inclinación ya no son simples, generar las matrices
necesarias no es trivial. Derivar las matrices de segundo orden no es tan difícil,
a pesar de que requiere un monto significativo de manipulación de ecuacio-
nes trigonométricas para llegar a los resultados obtenidos por Furse o Daniel.
Sin embargo, el tercer orden y los más altos constituyen una tarea “bastante
intrincada”, por citar una página web (Simulgen Proyect a) relacionada con
el proyecto de investigación de la Unión Europea Simulgen Esprit. Uno de los
acercamientos investigados en este proyecto fue el uso de los armónicos esfé-
ricos para definir la iluminación direccional en sistemas de simulación visual
que tienen la misma necesidad de rotaciones arbitrarias. Allí se advierte que
no se había encontrado en 1995 la solución al problema de una generación
simple de las matrices de rotación que se requieren, pero que esto se había
resuelto en 2000, la fecha de la página web. Desafortunadamente, no se dan
más detalles ni en la página web ni en los documentos del proyecto disponi-
bles al público. Sin embargo, una búsqueda en la literatura de otro campo en
el que se usan los armónicos esféricos intensivamente, la físicoquímica, arrojó
como resultado un artículo de Choi, Ivanic, Gordon y Ruedenberg, (1999)
que presenta una fórmula recursiva estable para la rotación de los armónicos
esféricos que parece ser adaptable a las convenciones usadas en Ambisonics.
a la producción de componentes falsos (i.e., “alias”) como resultado de la imposibilidad

para representar componentes de la señal real que se encuentren más allá de la mitad de la
frecuencia de muestreo de un sistema. [N. del T.]
196
Dominancia
Daniel afirma (Daniel, 2000, p. 166), sin dar una prueba explícita, que no
es posible implementar el efecto de dominancia más allá del primer orden
usando la transformada Lorentz sin perturbar el proceso de reconstrucción
de la forma de onda. Cotterell (2002, p. 123) proporciona una demostración
numérica de esta afirmación en su tesis doctoral. Se requiere más trabajo para
hallar una transformada apropiada que provea esta útil función en los sistemas
de orden más alto. En su sección sobre este tema, Daniel sugiere buscar una
matriz de transformación lineal que se base en las relaciones entre las fun-
ciones de Legendre asociadas. Richard Furse, en una comunicación privada,
sugiere usar una aproximación numérica. Él ha desarrollado un método basado
en una plantilla de cálculo para investigar esta cuestión, pero al tiempo de este
artículo todavía no se han conducido tests de audición. Una posibilidad más
que vale la pena investigar sería muestrear espacialmente el campo sonoro
usando un número de puntos de muestreo lo suficientemente amplio para
evitar “aliasing”* espacial y luego producir un nuevo campo sonoro por re-
muestreo de los puntos usando una función de torsión apropiada.
Sistemas de orden más alto. desarrollos recientes
En un desarrollo reciente, Daniel, Nicol y Moreau (2003) ha propuesto

reformular el formato Ambisonics B (para eliminar la limitación implícita en
el hecho de que está restringido a la reconstrucción de ondas planas). Esta
restricción a ondas planas resulta en un sistema que no puede vérselas apropia-
damente con fuentes cercanas, especialmente cuando están dentro del arreglo
de altoparlantes. El enfoque de Daniel, Nicol y Moreau llega a esta propuesta
examinando la expresión de Fourier-Bessel para el campo de presión en una
superficie esférica que rodea un punto.
r ∞
p(r ) = ∑ j m j m (kr) ∑ BσmnYmnσ (θ,δ)
m= 0 0≤ n≤ m,σ = ±1
∞
+ ∑ j m h m (kr) ∑ AσmnYmnσ (θ,δ)
m= 0 0≤ n≤ m,σ = ±1 E. 28
Con el número de onda, k=2πf/c, jm(kr) son las funciones esféricas de Bessel
(primeras series) y hm(kr) son las funciones esféricas divergentes de Hankel.
197
La parte derecha de la primera línea de la ecuación es equivalente a la
actual formulación Ambisonics expresada en el dominio de la frecuencia
para fuentes externas al arreglo de altoparlantes. Si se asume una onda
plana, los coeficientes B se convierten en las ganancias de los componentes
armónicos esféricos. La segunda línea describe frentes de onda dentro del
arreglo. Estas son ambas intrínsecamente curvas y también dependientes de
la frecuencia.
Daniel y sus colaboradores avanzan en la derivación de dos fórmulas que

tomadas en conjunto describen fuentes de campo cercano a una distancia R
del centro:
Bσmn = S.FmR c (ω)Ymn

σ
(θ,δ) E. 29
m n
(m + n)! ⎛ − jc ⎞
FmR c (ω) = ∑ n ⎜ ⎟
n= 0 (m − n)!n!2 E. 30
⎝ ωR ⎠
donde S es el campo de presión en el centro, Yσmn son los armónicos esféricos

como se definen en la ecuación 24 y el filtrado F indicado por la ecuación 30
es una integración y, por lo tanto, tiene ganancia infinita en frecuencias bajas.
La imposibilidad de esto ha significado que esta formulación fuera ignorada
en el pasado. Sin embargo, ellos han avanzado al demostrar que el filtrado
de compensación para el frente de onda esférico que se discutió previamente
en el contexto de la compensación del efecto de los altoparlantes demasiado
cercanos a la posición de audición central (como se describe en la ecuación
18) puede combinarse con F cuando se codifica el campo sonoro. Esto pro-
duce el deseable efecto de que el filtrado ya no tiene una ganancia infinita
en bajas frecuencias. Con esta formulación, se podrían producir tanto fuentes
afuera como adentro del arreglo ya que se podrían (re)producir frentes de onda
cóncavos, planos y convexos. El precio a pagar sería que el tamaño del arre-
glo de parlantes debería ser conocido teóricamente al momento de codificar.
Afortunadamente, en la medida en que el tamaño del arreglo que se tuvo en
cuenta en la codificación sea conocido, es posible aplicar un filtro de compen-
sación antes de la decodificación para corregir la diferencia entre el tamaño
asumido y el usado actualmente. Este desarrollo es demasiado nuevo para que
el autor haya podido experimentar con él, pero tiene el potencial de enfatizar
la funcionalidad del sistema Ambisonics y de proveer nuevas oportunidades a
los compositores electroacústicos.
198
Bibliografía
Abrahams, R. A. y J. Z. Landgraf (1990), “Differential use of distance and

location information for spatial location”, Perception & Psychophysics, 47
(4), pp. 349-359.
Ashmead, D.H., D. Le Roy y R. D. Odom (1990), “Perception of relative
distances of nearby sound sources”, Perception & Psychophysics, 47 (4),
pp. 326-331.
Bamford, J. S. y J. Vanderkooy (1995), “Ambisonics sound for us”, Preprint
N° 4138 presentado en la 99° convención Audio Engineering Society,
Nueva York.
Barton, G. J. y M. A. Gerzon (1992), “Ambisonics Decoders for hdtv”,
Preprint 3345 de la 92° convención de Audio Engineering Society,
Viena.
Begault, D. R. (1994), “3-D Sound for Virtual Reality and Multimedia”,
Academic Press.
Brungart, D. S., N. I. Durlach y W. M. Rabinowitz (1999), “Auditory localiza-
tion of nearbysources II: Localization of a broadband source in the near
field”, Journal of the Acoustical Society of America, vol. 106, N° 4, pp.
1956-1968.
Choi, C. H., J. Ivanic, M. S. Gordon y K. Ruedenberg (1999), “Rapid
and Stable Determination of Rotation Matrices between Spherical
Harmonics by Direct Recursion”, Journal of Chemical Physics, 111, pp.
8825-8831.
Clarke, J. (1989), “A Real-time Ambisonics Soundfield Controller”, proyecto
final para el MA/Msc en Music Technology, Universidad de York.
—— y D. G. Malham (1992), “Control software for a programmable
Soundfield controller”, Proceedings de la Conferencia sobre Reproduced
Sound del Institute of Acustics, Windermere.
Cohen, A. (1999), “An investigation into Hyper-Dense Transducer Arrays”,
proyecto final para el MA/Msc en Music Technology, Universidad de
York.
Cooper, D.H. y T. Shiga (1972), “Discrete Matrix Multi-channel Stereo”,
Journal of the Audio Engineering Society, vol. 20, N° 5, pp. 346-360.
Cotterell, P. (2002), “On The Theory of the Second Order Soundfield
Microphone”, tesis de doctorado, University of Reading.
Czerwinski, E., A. Voishvillp, S. Alexandrov y A. Terekhov (2000),
“Propagation Distortion in Sound Systems - Can We Avoid It?”, Journal
of the Audio Engineering Society, vol. 48, N° 1/2, pp. 30-48.
Daniel, J. (2000), “Représentation de champs acoustiques, application à la
199
transmission et à la reproduction de scènes sonores complexes dans un
contexte multimédia”, tesis de doctorado, 1996-2000, Université Paris 6.
——, J. B. Rault y J. D. Polack (1998), “Ambisonics Encoding of Other
Audio Formats for Multiple Listening Conditions”, preprint 4795 de la
convención 105 de la Audio Engineering Society, San Francisco.
——, R. Nicol y S. Moreau (2003), “Further Investigations of High Order
Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging”,
presentado en la Convención 114 de la Audio Engineering Society,
Amsterdam.
Farrah, K. (1979), “The SoundField Microphone”, Wireless World, pp.
99-103.
Fellgett, P. B. (1972), “Directional Information in Reproduced Sound”,
Wireless World, vol. 78, pp. 413-417.
Field, A. (1998), entrevista en Austin, L. (2001), “Sound Diffusion in
Composition and Performance Practice II: An Interview with Ambrose
Field”, Computer Music Journal, vol. 25, N° 4, pp. 21-30.
Gerzon, M. A. (1973), “Periphony: With-height Sound Reproduction”,
—— (1975a), “The Design of Precisely Coincident Microphone Arrays for
Stereo and Surround Sound”, presentado en la Convención 50 de la
Audio Engineering Society, Londres.
—— (1975b), “Panpot and Soundfield Controls”, NRDC Ambisonics Technology
Report, N° 3.
—— (1977a), “Surround Sound Decoders”, Wireless World, (en 7 partes)
enero a agosto de 1977.
—— (1977b) “Design of Ambisonics Decoders for Multi Speaker Surround
Sound”, presentado en la Convención 58 de la Audio Engineering
Society, Nueva York.
—— (1992), “General Metatheory of Auditory Localisation”, Preprint 3306
de la convención 92 de la Audio Engineering Society, Viena.
Gibson, D. (1996), “Designing an ssb outphaser, part 2”, Electronics World,
vol. 102, N° 1722, pp 392-394.
Gibson, J. J. (1979), The Ecological Approach to Visual Perception, Boston,
Houghton Mifflin.
——, R. M. Christensen y A. L. R. Limberg (1972),“Compatible FM
Broadcasting of Panoramic Sound”, Journal of the Audio Engineering
Society, vol. 20, pp. 816-822.
Hood, T. (1989), “Investigation into the Ambisonics Surround Sound sys-
tem”, proyecto final para el MA/Msc en Music Technology, Universidad
de York.
200
Kaplan, W. (1981), Advanced mathematics for engineers, Reading, Addison-
Wesley, pp. 710-714.
Kopčo, N., S. Santarell y B. Shinn-Cunningham (2000), “Tori of confusion:
Binaural localization cues for sources within reach of a listener”, Journal
of the Acoustic Society of. America, vol. 107, N° 3, pp. 1627-1635.
Kuperman, W. A, W. S. Hodgkiss, H. C. Song, T. Akai, C. Ferla y D. R. Jackson
(1998), “Phase conjugation in the ocean: Experimental demonstration of an
acoustic time-reversal mirror”, Journal of the Acoustical Society of America,
vol. 103, N°1, pp. 25-40.
Leakey, D. M. (1959), “Some measurements on the effects of interchannel
intensity and time difference in two channel sound systems”, Journal of
the Acoustic Society of America, vol. 31, pp. 977-987.
Lennox, P. P., A. Myatt y J. M. Vaughan (1999), “From Surround to True
3-d”, presentado en la conferencia 116 de la Audio Engineering Society
sobre reproducción espacial de sonido, Rovaniemi, Finlandia.
Lennox, P.P., J. M. Vaughan y A. Myatt (2001), “3D Audio as an Information
Environment”, presentado en la conferencia 19 de la Audio Engineering
Society, Schloss Emlau, Alemania.
Macpherson, E. A. y J. C. Middlebrooks (2002), “Listener weighting of cues
for lateral angle: The duplex theory of sound localization revisited”,
Journal of the Acoustical Society of America, vol. 111, N° 5, pp. 2219-
2236.
Makita, Y. (1962), “On the directional localization of sound in the stereopho-
nic sound field”, EBU Technical Review, parte A N° 73, pp. 102-108.
Malham, D. G. (2001), “Spherical Harmonic Coding of Sound Objects - the
Ambisonics ‘O’ Format”, Proceedings de la Conferencia 19 de la Audio
Engineering Society, Schloss Elmau, Alemania, pp. 54-57.
—— (1987), “Computer Control of Ambisonics Soundfields”, preprint N°
2463, presentado en la convención 82 de la Audio Engineering Society,
Londres.
—— y R. Orton (1991), “Progress in the Application of Ambisonics. Three
Dimensional Sound Diffusion Technology to Computer Music”, ICMC
Montreal 1991 Proceedings, pp. 467-470.
Menzies, D. (1999), “New Electronic Performance Instruments for
Electroacoustic Music”, tesis de doctorado, Universidad de York, pp.
99-101.
Menzies, D. (2002), “W-panning and O-format, Tools for Object
Spatialization”, Proceedings de la 8° conferencia internacional sobre
Auditory Display, Kioto, Japón (<http://www.icad.org/websiteV2.0/
Conferences/ICAD2002/proceedings/29_DylanMenzies.pdf>).
201
Munro, G. (2000), “In-phase corrections for Ambisonicss”, Proceedings of
ICMC 2000, Berlín, pp. 292-295.
Nicol, R. y M. Emerit (1999), “3D-Sound Reproduction over an Extensive
Listening Area: a Hybrid Method Derived from Holophony and
Ambisonics”, conferencia 16 de la Audio Engineering Society sobre
reproducción espacial de sonido, Helsinki 1999, preprint N° 66819.
Nielsen, S. H. (1993), “Auditory Distance Perception in Different Rooms”,
Press, W. H., S. A. Teukolsky, W. T. Vetterling y B. P. Flannery (1997),
Numerical Recipes in C, Cambridge, Cambridge University Press, pp.
252-254.
Vennonen, K. (1994), “A Practical System for Three-Dimensional Sound
Projection”, en los anuarios del simposio de Computer Animation y
Computer Music, Synaesthetica ‘94, Australian Centre for the Arts and
Technology, Canberra, Australia.
Weinberg, S. (1972), Gravitation and Cosmology. Principles and Applications of
the General Theory of Relativity, Nueva York, John Wiley and Sons.
Wishart, T. (1985), On Sonic Art, York, Imagineering Press.
Furse, R. (1), "First and Second Order Ambisonic Decoding Equations"

(<http://www.muse.demon.co.uk/ref/speakers.html>, consultado el 14 de
noviembre de 2007).
www[2], <http://mail.music.vt.edu/mailman/listinfo/sursound>, consultado el
14 de noviembre de 2007.
Furse, R. (2), "Ambisonic Rotation Matrices" (<http://www.muse.demon.
co.uk/fmhrotat.html>, consultado el 14 de noviembre de 2007).
Simulgen Proyect (a), "wp1: First Pass Gloss y Global Illumination" (<http://
iiia.udg.es/Simulgen/Available/rs/Wp1/WP1.html>, consultado el 14 de
noviembre de 2007).
Simulgen Proyect (b), "Simulation of Light in GENeral Environments"
(<http://iiia.udg.es/Simulgen/>, consultado el 14 de noviembre de 2007).
(Traducción al español de Oscar Pablo Di Liscia)
202
Capítulo VI
Sistemas de sonido multicanal para la industria
audiovisual
Mariano Martín Cura
Introducción
Este capítulo tratará los sistemas de sonido multicanal más significativos de

la industria de imagen y sonido, comúnmente llamados sistemas de sonido
surround o envolvente.
Es importante marcar la diferencia entre las especificaciones y estanda-
rizaciones sobre la cantidad de canales y/o configuración de altoparlantes, y
los sistemas propietarios como Dolby Digital, dts, etc., cuya función principal
no solo es la distribución de canales, sino también la codificación, decodifi-
cación, tipo de soporte de almacenamiento y reproducción señales de audio
multicanal.
La mayoría de los sistemas que mencionaremos han sido desarrollados
para la industria audiovisual, en la que la relación del programa sonoro con la
acción proyectada en la pantalla es prioritaria, por lo que los canales surround
han sido pensados principalmente para efectos sonoros y ambientes acústicos
que acompañen al campo sonoro principal frontal.
Estandarizaciones de sonido SURROUND
Generalmente, las estandarizaciones de sonido surround especifican la canti-

dad de canales de reproducción y el tipo de parlantes o difusores a ser utiliza-
dos con su distribución correspondiente en la sala (por ej. 5.1 surround).
De esta manera, se deja al usuario la elección del sistema de creación o
representación del campo sonoro espacial: con una misma configuración de
canales se pueden implementar diferentes técnicas de espacialización como
las ya tratadas en este libro (panorámico de intensidad, hrtf, binaural,
Ambisonics, etcétera).
203
Especificaciones de canales
Las especificaciones de canales como 5.1, 7.1, etc., describen la cantidad de

canales discretos de reproducción, donde muchas veces estos canales alimen-
tan a más de un altoparlante. En este tipo de denominación el número que se
encuentra a la izquierda del punto especifica la cantidad de canales de rango
completo de audio y el que se encuentra a la derecha, la cantidad de canales
de rango limitado a bajas frecuencias de audio.
Sistemas propietarios
Las diferentes implementaciones de sistemas surround, por compañías como

Dolby, Sony o dts especifican la cantidad de canales, su distribución en la
sala, la forma de almacenamiento y transmisión de datos, especificaciones de
calibración de sala y otros. Con una misma configuración de canales, como
5.1, podemos encontrar diferentes sistemas propietarios.
En este capítulo solo se tratarán las diferentes configuraciones de sonido
surround y los sistemas propietarios más significativos para estas configuracio-
nes. Entre ellos, los tres sistemas propietarios más utilizados en la actualidad
por la industria del cine: Dolby Digital, dts y Sony sdds; los dos primeros con
una configuración 5.1 y el último, con una configuración 7.1.
Canal de efectos de baja frecuencia
El canal de efectos de baja frecuencia o lfe (Low Frequency Effects) fue

originalmente implementado para la reproducción específica de sonidos de
baja frecuencia en salas de cine. Este canal individual, limitado hasta los
120 Hz, está destinado a la reproducción de efectos especiales (tales como
explosiones y otros con bajas frecuencias extremas) que necesitan mayor
presión sonora y rango dinámico que el que pueden reproducir los canales
principales.
Sistema de administración de bajas frecuencias
En sistemas de audio hogareño, el difusor subwoofer no reproduce necesaria-

mente el canal de efectos de baja frecuencia o lfe. Generalmente se utiliza
un sistema de administración de bajas frecuencias que, con una red de filtrado
cruzado (filtros crossover) con una frecuencia de corte entre los 80 Hz y 160
Hz, se encarga de sumar los componentes de baja frecuencia de cada canal
principal con el canal de efectos de baja frecuencia, para ser reproducidos por
204
el subwoofer. Esta técnica no está estandarizada y depende específicamente de
la implementación de cada sistema en particular.
Sistemas multicanal matriciales
Es preferible almacenar y transmitir cuantos canales de audio sean necesarios

para una mezcla surround. Sin embargo, con el objeto de mantener la compa-
tibilidad con reproductores ya existentes o con los medios de almacenamiento
disponibles, se han desarrollado sistemas que representan la totalidad de la
mezcla en menos canales utilizando una codificación de matrices de señales.
Codificación perceptual
En los sistemas multicanal digitales es deseable el almacenamiento y trans-

misión de todos los canales discretos en resolución completa, formato pcm
(Pulse Code Modulation) (véase Pohlmann, 2002, caps. iii y iv) digital, pero
esto ocupa gran cantidad de espacio de almacenamiento o ancho de banda de
transmisión, entre 0,72 y 2 Mbps (mega bits por segundo), según la resolución.
Este ancho de banda es excesivo para la implementación en sistemas de cine,
televisión, sistemas hogareños y otros, por lo que se han desarrollado diferen-
tes técnicas de codificación de la señal digital para la reducción de la cantidad
de bits a almacenar y/o transmitir.
Estas técnicas de compresión de datos, utilizadas en los conocidos MP3,
Dolby AC3 (véase Pohlmann, 2002, cap. x) y otros, necesitarían un libro para
ser tratadas en profundidad. Podemos decir que se basan en analizar el espectro
de la señal a comprimir y, comparándolo con las características del enmasca-
ramiento que se produce en el sistema auditivo, codifican solo la información
perceptible al oído, logrando tasas de reducción de datos de hasta diez veces,
con un mínimo de pérdida de la calidad de audio. En los sistemas multicanal de
la actualidad, se utilizan diferentes implementaciones de estas técnicas.
Estéreo de tres canales (3-0 stereo)
La configuración estéreo de tres canales casi no se utiliza hoy, pero es la base

de varios sistemas multicanales. Utiliza tres canales: izquierdo, centro y dere-
cha ubicados equidistantemente del punto de escucha, como se puede ver en
la figura 1.
Tiene varias ventajas respecto del estéreo de dos canales. Primero, permi-
te una imagen frontal más ancha ya que el canal central posibilita una mayor
205
separación (+/-45º) entre los canales izquierdo y derecho. En los sistemas
surround de cinco canales los canales izquierdo y derecho se ubican a +/-30º
para tener compatibilidad con sistemas estéreo de dos canales. Segundo, el
canal central permite un punto de escucha más amplio ya que la imagen
sonora no colapsa tan fácilmente con el altoparlante más cercano. Tercero,
en su utilización en salas de cine donde el ancho de la pantalla hace inviable
la localización de una fuente virtual en el centro (estéreo de dos canales) el
canal central permite una buena localización de los diálogos en el centro de la
pantalla. Cuarto, la imagen central no sufre modificaciones espectrales como
en el estéreo de dos canales, ya que emana de una fuente sonora real.
Sonido cuadrafónico
En la década de 1970, la industria del audio hizo el primer intento de introdu-

cir en el mercado hogareño un formato surround con el sonido cuadrafónico.
Este sistema daba igual importancia a los campos sonoros frontal, lateral y
trasero, lo que era más que deseable para la producción musical, que en este caso
no estaba subordinada a su relación con una pantalla ubicada al frente. Ubicaba
cuatro canales, dos frontales y dos traseros, a distancia de 90º entre sí (ver figura
2). Esta distancia (superior a los 60º del estéreo) generaba problemas a la hora
de localizar fuentes virtuales entre dos altoparlantes contiguos. Corrientemente
se denominaba a esta deficiencia como “agujero en el medio”.
Este sistema extraía los cuatro canales tanto de una fuente estéreo matri-
cial o de una fuente discreta de canales. La falta de compatibilidad con el
equipamiento ya existente y entre los mismos sistemas cuadrafónicos hizo que
no prosperara y quedara en el olvido. Sin embargo, esta disposición de canales
se continuó utilizando fuera de la industria del audio comercial (por ejemplo,
en la reproducción de música electroacústica).
Surround de cuatro canales (3-1 stereo)
El sistema 3-1 stereo o LCRS surround utiliza la distribución estéreo de tres

canales ya mencionada y le agrega un canal monofónico que será el canal
de efectos o surround, que se asignará a los altoparlantes que se ubican a los
costados y atrás de los espectadores.
La figura 3 muestra la configuración típica en salas de cine. Con el obje-
to de lograr una mejor cobertura de las butacas, generalmente hay una gran
cantidad de parlantes surround alimentados por el único canal de efectos. En
algunos sistemas las señales que emiten cada uno de estos altoparlantes son
decorrelacionadas entre sí para lograr una imagen más difusa y espaciosa.
206
Figura 1
Figura 2
207
En los sistemas hogareños el canal surround monofónico generalmente
alimenta a dos difusores ubicados en posiciones similares a la configuración
5.1 que se describirá más adelante.
La mayor limitación de este sistema es la imposibilidad de lograr un buen
campo sonoro envolvente, ya que para esto se necesitaría al menos distintas
señales a los costados de los espectadores.
Dolby stereo optical. Dolby surround pro logic
A mediados de la década de 1970 los laboratorios Dolby introducen el for-

mato Dolby Stereo Optical (véase Dolby Laboratories Technical Library,
s/f), utilizando la configuración lcrs surround para la reproducción de sonido
envolvente en salas de cine. Este sistema tiene la particularidad de almacenar
los cuatro canales de la mezcla en dos canales ópticos en la película, a través
de una matriz 4-2-4. En las primeras versiones se utilizaba un sistema de reduc-
Figura 3
208
ción de ruido Dolby A (véase Dolby Laboratories Technical Library, s/f), que
en las más recientes fue reemplazado por Dolby sr (véase Dolby Laboratories
Technical Library, s/f). El sistema Dolby Surround Pro Logic (véase Rumsey
2001, cap. iv) es una posterior adaptación al mercado hogareño, utilizando la
misma configuración lcrs y almacenando los cuatro canales con una matriz
4-2-4 en los dos canales analógicos de las cintas de video.
La matriz 4-2-4 de Dolby Stereo que se ve en la figura 4 codifica el canal
surround mono sumándolo fuera de fase (+-90º) en los canales izquierda y dere-
cha. El canal central es codificado sumándolo a los canales izquierdo y derecho
en fase. Al resultado de esta suma se lo llama Lt/Rt (“izquierda total y derecha
total”). De esta manera, en el proceso de decodificación, se puede separar el
canal surround de los canales frontales realizando una suma de las señales Lt/
Rt fuera de fase, extrayendo la señal de la diferencia estéreo. Al canal central
se lo decodifica sumando Lt/Rt en fase.
Figura 4
Figura 5
209
Al realizar la decodificación, con el objeto de corregir efectos secundarios
del proceso de codificación/decodificación (señales localizadas en el campo
frontal que parecen provenir del campo trasero) se realizan otros procesos,
como se puede ver en el diagrama de decodificación básica de la figura 5.
Además de realizar las sumas y restas de canales, al canal surround se lo limita
en banda de 100 Hz a 7 kHz y se lo retrasa entre 20 y 30 milisegundos (depen-
diendo de la distancia entre parlantes) aprovechando el efecto de precedencia
(véanse los capítulos i y ii de este libro) para que los receptores localicen la
señal de acuerdo al primer frente de onda recibido, por lo que las señales que
se encuentran en todos los canales tenderán a una localización frontal. De
esta forma se facilita la separación adelante/atrás entre canales. En los deco-
dificadores activos más avanzados se utiliza una matriz adaptativa que realiza
una serie de procesos con el objeto de determinar la localización de la fuente
dominante para poder selectivamente atenuar los canales menos importantes.
Por ejemplo, si la señal predominante es el diálogo en el canal central, se
atenuará la salida de los otros canales.
SURROUND de 5.1 canales (3-2 stereo)
El formato estéreo 3-2 o surround 5.1 es la configuración de canales más utili-

zada y estandarizada en estos momentos en aplicaciones de cine, televisión y
productos hogareños, y probablemente lo será durante bastante tiempo.
La configuración de canales 5.1 se encuentra estandarizada bajo la norma
itu-r bs.775 (International Telecomunications Union, 1993). Como se
puede ver en la figura 6, mantiene los tres canales LCR para la representación
del campo frontal con dos canales para la representación del ambiente o efec-
tos en estéreo, más un canal dedicado a efectos de baja frecuencia.
Esta configuración fue diseñada originalmente para las salas de cine, por
lo que la representación sonora frontal es la más importante, ya que se relacio-
na constantemente con la acción en la pantalla y los canales surround traseros
están destinados a representar al ambiente y efectos sonoros complementarios.
Es por esto que este sistema no permite una localización espacial de la fuente
sonora en 360º, principalmente debido a que la distancia angular entre los
altoparlantes no es igual y es particularmente muy grande entre los canales
traseros, produciendo un gran vacío en la imagen trasera del espectador. Sin
embargo, con sistemas de espacialización y procesamiento sofisticado, como
leyes de panorámicas avanzadas, Ambisonics u otras técnicas descriptas en
este libro (véanse los capítulos iii, iv y v), se puede lograr una buena aproxi-
mación a la representación de un campo sonoro envolvente.
210
Figura 6
El canal de efectos de baja frecuencia y el uso de subwoofers
Como señalamos al principio de este capítulo, el lfe (Low Frecuency Effects

Channel) (véase Rumsey 2001, cap. iv), o canal de efectos de baja frecuencia,
ha sido diseñado para reproducir señales de hasta 120 Hz que necesitan mayor
rango dinámico y presión sonora de la que pueden reproducir los altoparlantes
de los canales principales.
En los sistemas destinados al cine, este canal reproducirá efectos sonoros
como explosiones, rumbles o cualquier otro programa sonoro en función de las
decisiones realizadas en el proceso de mezcla. Cabe aclarar que no es obliga-
torio el uso de este canal y que en muchos casos, sobre todo para la mezcla de
música, es común trabajar en rango completo en los canales principales.
En los sistemas hogareños se utiliza una adaptación en la que se aprove-
cha el uso del subwoofer para reproducir bajas frecuencias y así poder disminuir
el tamaño de los difusores de los canales principales. Utilizando un sistema
de administración de bajas frecuencias con una red de filtrado cruzado, como
se puede ver en la figura 7, se suma al lfe el rango inferior a los 80-160Hz
(dependiendo del fabricante) de los canales principales.
211
Figura 7
Como el uso del canal de bajas frecuencias es similar en el formato 5.1 al que
se utiliza en los formatos que describiremos a continuación, en adelante se
hará referencia a la cantidad de canales de baja frecuencia de cada sistema.
Descripciones y asignación de pistas
La estandarización también propone el tipo de asignación de pistas a utilizar

en grabaciones 5.1 en los formatos de grabación y almacenamiento de ocho
canales (véase tabla 1). A pesar de que existen otras posibles configuraciones
es habitual mantener la asignación estandarizada.
Dolby Digital, Dolby Pro Logic II
Dolby Digital (véase Dolby Laboratorios Technical Library, s/f) es el sistema

de Dolby para el fomato 5.1. La versión para el formato de cine en 35 mm
se llama Dolby Digital Optical (véase Dolby Laboratories Technical Library,
s/f), ya que la información digital de audio se almacena de forma óptica entre
los orificios de arrastre de la película de 35 mm, permitiendo mantener la pista
estéreo óptica (con audio analógico), como se puede ver en la figura 8. Esto se
hace para mantener la compatibilidad con salas que no estén preparadas para
la reproducción en 5.1 y para que la pista estéreo sirva de copia de seguridad
en los casos en que no se pueda acceder a la información surround y así con-
mutar en la reproducción de forma automática entre una mezcla y la otra.
Este sistema incluye la codificación Dolby AC-3 (véase Pohlmann, 2002,
cap. x) que utiliza técnicas de reducción de datos en base a filtros perceptuales
para lograr resoluciones de entre 32 kbit/seg y hasta 640 kbit/seg para cada
canal mono. El resultado final es un único flujo de datos digitales con los seis
canales de audio discretos para su posterior decodificación.
212
Tabla 1. Asignaciones de pistas para surround 5.1
Pista Señal Comentarios Color
1 L Izquierda Amarillo
2 R Derecha Rojo
3 C Centro Naranja
Efectos de baja frecuencia

Canal de efectos
4 LFE adicionales, señal de Gris
de baja frecuencia
subwoofer opcional
-3 dB en caso de surround
5 LS Surround izquierdo Azul
mono
-3 dB en caso de surround
6 RS Surround derecho Verde
mono
Preferentemente señal
Libre para uso de intercambio
7 izquierda de una mezcla Violeta
de audio
estéreo
Preferentemente señal
Libre para uso de intercambio
8 izquierda de una mezcla Marrón
de audio
estéreo
Figura 8
213
La versión para el mercado consumidor de Dolby Digital utiliza la misma
codificación AC-3 pero con un decodificador Dolby Pro Logic II (véase Dolby
Laboratorios Technical Library, s/f), que incorpora parámetros de control
específicamente diseñados para salas hogareñas y mantiene compatibilidad
con la codificación por matrices de Dolby Pro Logic.
DTS
El sistema dts (Digital Theater Systems) (véase Rumsey 2001, cap. iv) es otra
implementación del formato 5.1 para salas de cine. En él se utilizan técnicas
de compresión de audio destructivas para lograr un rango de frecuencias de
transferencia de entre los 32 kbit/seg hasta los 4.096 Mbit/seg (un poco
mayor que en Dolby Digital) y con frecuencias de muestreo de hasta 192
kHz, permitiendo también técnicas de compresión no destructivas. Es por
esto que en teoría permite configuraciones de mayor calidad de audio que
Dolby Digital, pero en la práctica las configuraciones más utilizadas son
equivalentes.
En la película de 35 mm el sistema dts graba una pista de sincronía al
lado de la pista estéreo óptica (Dolby Stereo) y utiliza un reproductor de
audio específico, externo al proyector, con las pistas de audio. De esta manera
se puede editar una misma película en multiformato, con los tres sistemas
surround para cine: Dolby Digital, dts, sdds (que se detallará más adelante)
y la pista estéreo analógica Dolby Stereo. Ya que estos sistemas se almacenan
en diferentes sectores de la película de 35 mm, permiten una compatibilidad
casi universal con las salas de cine actuales.
Para el mercado consumidor este sistema puede ser utilizado en las edi-
ciones de dvd (véase Pohlmann, 2002, cap. xi) y realizar la reproducción en
5.1 con el correspondiente decodificador. Cabe aclarar que la mayoría de los
reproductores hogareños pueden decodificar tanto dts como Dolby Digital.
Surround de 6 canales. Dolby stereo 70 mm
A fines de la década del setenta Dolby realizó una adaptación del sistema
Dolby Stereo Optical (con formato 3-1 stereo) a salas de gran tamaño con
pantallas anchas para mejorar la representación del campo sonoro frontal,
agregando dos canales en el frente con posiciones intermedias entre el canal
central y los laterales y un canal mono surround.
En la figura 9 se puede observar la distribución de los canales izquierda,
centroizquierda, centro, centroderecha, derecha y surround.
214
CI CD
surround
Figura 9
El almacenamiento de estos canales se realizaba de forma magnética junto con

la película en el formato de 70 mm.
Surround de 6.1 canales
El formato 6.1 surround agrega a la configuración 5.1 un canal surround tra-

sero como se puede ver en la figura 10, quedando la siguiente asignación de
canales: l, c, r, ls, bs, ls, lfe. De esta manera se mejora la representación
del campo sonoro envolvente, permitiendo la localización puntual de fuentes
en el campo trasero. Al tratarse de un solo canal trasero, no se puede lograr
separación izquierda-derecha de forma adecuada.
Dolby Digital Surround EX
El sistema Dolby Digital Surround EX (véase Dolby Laboratories Technical

Library, s/f) utiliza la configuración 6.1 que se puede ver en la figura 10, con
215
Figura 10
la misma tecnología de codificación AC-3 en seis canales y, para el séptimo

(el canal surround trasero), utiliza una codificación por matrices en el que éste
se codifica junto con los canales surround izquierdo y derecho. De esta manera
el sistema utiliza seis canales discretos de almacenamiento.
Dolby Pro Logic IIx
El sistema Dolby Pro Logic IIx (véase Dolby Laboratories Technical Library,
s/f) es la última versión hasta la fecha de la familia de decodificadores hogare-
ños Pro Logic; utiliza la misma configuración de canales 6.1 que se puede ver
en la figura 10 y está destinado a decodificar mezclas estéreo y 5.1, y transfor-
marlas en la configuración 6.1.
DTS-ES
El sistema dts-es utiliza la configuración de canales 6.1 que se puede ver en

la figura 10, la misma tecnología de compresión de audio destructiva y alma-
216
cenamiento que dts y almacena de forma discreta los siete canales de audio.
Este sistema generalmente se lo encuentra en dvd y no se ha utilizado para
salas de cine.
El primer formato 7.1 de la industria fue un derivado del 5.1 que se adaptó
para salas de grandes tamaños con pantalla anchas (widescreen) en las que la
localización de la fuente sonora frontal se perjudicaba por la distancia entre los
altoparlantes de los canales frontales. Para solucionar este problema se agregan
dos canales ubicados en centroizquierda y centroderecha como se puede ver en
la figura 11, y los canales surround y de efectos de baja frecuencia mantienen la
misma distribución que en el formato 5.1.
En la actualidad, existe un segundo formato 7.1 que hasta el momento
tiene más aceptación en productos del mercado hogareño. Es una derivación
del formato 5.1 pero con dos canales extras para surround trasero y derecho, de
CI CD
Figura 11
217
manera que la configuración es: izquierda, centro, derecha, surround izquierdo,
surround derecho, surround trasero izquierdo, surround trasero derecho, efectos
de baja frecuencia (l, c, r, ls, rs, bsl, bsr, lfe), como muestra la figura 12.
De esta manera se mejora uno de los principales problemas del formato
5.1, que era la gran separación entre los canales surround, lo que permite una
mejor representación del campo sonoro envolvente.
En las diferentes implementaciones en sistemas propietarios de este for-
mato, puede haber diferentes modos de reproducción específicos para música
o cine, en los que es necesario reorganizar la ubicación de los altoparlantes en
la sala.
Sony SDDS
El sistema sdds (Sony Dynamic Digital Sound) (véase Rumsey, 2001, cap. iv) es
el tercero de los sistemas más utilizados en las salas de cine. Está especialmente
diseñado para salas grandes en las que el ancho de la pantalla es demasiado
Figura 12
218
extenso para el sistema 5.1. La distribución de los 7.1 canales que se puede ver
en figura 11 es l, lc, c, rc, r, ls, rs, lfe (izquierda, centroizquierda, centro,
centroderecha, derecha, surround izquierdo, surround derecho, canal de bajas
frecuencias), que permite una mayor precisión en la localización espacial de
las fuentes sonoras en el campo sonoro frontal.
Se utiliza el sistema de reducción de datos Sony atrac (véase Pohlmann,
2002, cap. xii), que codifica los ocho canales con una compresión de aproxi-
madamente cinco veces. El almacenamiento del sdds se realiza de forma
óptica entre los orificios de arrastre de la película de 35 mm opuestos a los
utilizados en Dolby Digital.
Dolby Digital Plus
Dolby Digital Plus (véase Dolby Laboratories Technical Library, s/f) utiliza la
configuración básica 7.1 que se puede ver en la figura 12 (l, lc, c, rc, r, ls,
rs, lfe). Es una evolución del Dolby Digital con AC-3 en la que se utilizan
técnicas de compresión de audio destructivas para conseguir tasas de trans-
ferencia de hasta 6 Mbps (mega bits por segundo) en un solo flujo de datos
digitales con ocho canales discretos de audio, permitiendo así mayor calidad
de codificación que su predecesor.
En el formato hd dvd (dvd de alta definición) se utiliza con una tasa de
3 Mbps y en el Blue-ray Disc de 1,7 Mbps. Es soportado por la nueva interfaz
hdmi (High-Definition Media Interface) para interconectar audio y video de
alta calidad en un solo cable.
Este formato, que ha sido adoptado para transmisiones de televisión de
alta definición, video por cable y satelital, es uno de los posibles formatos a ser
estandarizados y adoptados masivamente para este tipo de aplicaciones.
Dolby Digital True HD
Dolby Digital True hd (véase Dolby Laboratories Technical Library, s/f) uti-
liza la configuración básica 7.1 que se puede ver en la figura 12 (l, lc, c, rc,
r, ls, rs, lfe).
Utiliza una nueva técnica de compresión de audio no destructiva, que al
realizar la decodificación permite obtener la señal original sin ninguna pérdi-
da de calidad. Soporta una tasa de transferencia de hasta 18 Mbps y resolución
de audio de rango completo a 24 bits 96 kHz de frecuencia de muestreo. Si
bien permite más canales para el formato hd dvd y Blu-ray Disc, utiliza ocho
canales de audio y es también soportado por la interfaz hdmi (High-Definition
Media Interface).
219
DTS-HD
El formato dts-hd utiliza la configuración básica 7.1 que se puede ver en la

figura 12 (l, lc, c, rc, r, ls, rs, lfe). Sin embargo, tiene varios tipos más de
configuración de altoparlantes en los que se enfatizan en cada modo la locali-
zación frontal, trasera, efectos en altura y otros. Los tipos de configuración se
pueden elegir de acuerdo a la aplicación, sala o efecto deseado.
dts-hd utiliza un sistema de codificación no destructiva de alta calidad
con una tasa de transferencia de hasta 24,5 Mbps para el formato del Blu-ray
Disc y 18,0 Mbps para el hd dvd. Permite así el almacenamiento y transferen-
cia de ocho canales de audio de rango completo a 24 bits 96 kHz de frecuencia
de muestreo sin pérdida de información.
El formato 10.2 fue desarrollado por Tomlinson Holman, el creador de thx. Si

bien es promocionado como el futuro de la reproducción espacial de sonido,
todavía no ha sido adoptado como estándar.
Este sistema toma la configuración 5.1 (International Telecomunications
Union, 1993) y agrega mejoras con canales adicionales. La distribución de los
doce canales discretos que se puede ver en la figura 13 es la siguiente:
r$JODPDBOBMFTGSPOUBMFTJ[RVJFSEBBCJFSUB J[RVJFSEB DFOUSP EFSFDIB EFSF-

cha abierta.
r5SFTDBOBMFTsurround: surround izquierdo directo, surround trasero, surround
derecho directo.
r%PTDBOBMFTEFCBKBGSFDVFODJBlfe izquierdo, lfe derecho.
r%PTDBOBMFTEFBMUVSBJ[RVJFSEBBMUP EFSFDIBBMUB
Esta configuración permite la localización espacial de la fuente sonora en 360º

en el plano horizontal. Si bien los canales en altura no permiten localizar una
fuente en tres dimensiones en 360º (serían necesarios tantos canales en altura
como los ubicados horizontalmente), permiten una aproximación a la locali-
zación vertical en el campo sonoro frontal. Este sistema aprovecha muy bien
los canales surround y los de altura para lograr, por medio de retrasos tempo-
rales, una mejor representación de los reflejos tempranos de una sala acústica.
Los canales de baja frecuencia se utilizan como canales dedicados a efectos o
con administración de bajos, en donde todos los canales izquierdos utilizan el
subwoofer izquierdo y todos los canales derechos el subwoofer derecho, o una
220
Figura 13
combinación de los dos modos. Si bien las frecuencias graves son omnidirec-
cionales, la decorrelación de estas frecuencias otorga una mejor separación
izquierda-derecha y una mayor sensación de espacialidad.
El formato surround de 22.2 canales (24 canales discretos) es utilizado en

el sistema de súper alta definición de video japonés Super High Definition
Video, desarrollado por nkh Science & Technical Research Laboratorios.
La configuración de parlantes está organizada en tres capas, con la siguiente

asignación de canales (véase figura 14):
r$BQBBMUB DBOBMFT
J[RVJFSEB DFOUSP EFSFDIB surround izquierdo, centro
techo, surround derecho.
r$BQBNFEJB DBOBMFT
J[RVJFSEB DFOUSPJ[RVJFSEB DFOUSP DFOUSPEFSFDIB
derecha, surround izquierdo, surround derecho, surround trasero izquierdo,
surround trasero centro, surround trasero derecho.
r$BQBCBKB DBOBMFT
J[RVJFSEB DFOUSP EFSFDIB
rlfe (2 canales): lfe izquierda, lfe derecha.
221
Figura 14
thx
thx (véase Rumsey, 2001, cap. iv) no es un formato surround sino un sistema
de control de alta fidelidad de reproducción de sonido para salas de cine, par-
lantes multimedia, consolas de video juego y sistemas de sonido de autos.
El sistema fue desarrollado por Tomlinson Holman para Lucasfilm; la
sigla thx viene de Tomlinson Holman Experiment.
El objetivo principal del sistema para su uso en cine es el de asegurar una
calidad de reproducción de sonido lo más parecida posible a las que se utiliza-
ron en el proceso de mezcla de la película. Para lograr este propósito thx otorga
certificaciones de salas en las que se cumplen las especificaciones requeridas,
que deberán ser evaluadas periódicamente por personal certificado por thx.
Estos requerimientos son de dos tipos: 1) equipamiento utilizado para la
reproducción sonora: diseño de parlantes, crossovers, amplificadores, etcétera.
thx proporciona una lista de fabricantes y productos certificados; 2) la acús-
tica de la sala, con especificaciones de diseño como piso flotante, paredes no
paralelas (para reducir ondas estacionarias), paredes con tratamiento acústico
(para controlar reflejos), tipo de reverberación y ruido ambiente, estrictas
condiciones de insonorización, etc. Cabe destacar que thx no publica las
especificaciones referidas a la acústica de salas, sino que certifica a profesio-
nales, que a su vez se encargarán de la certificación de las salas.
mpeg
Las estandarizaciones mpeg (Moving Pictures Expert Group) (véase Pohlmann,

2002, cap. x) son muy utilizadas para la representación en baja tasa de bits de
señales de audio y video en aplicaciones multimedia y otras.
222
El formato mpeg-1 es de dos canales de audio, mientras que el mpeg-2
permite información multicanal. Existen dos versiones de mpeg-2: el bc
(backwards compatible), que permite la compatibilidad con mpeg-1, y el aac
(Advanced Audio Coding, o codificación avanzada de audio) que no permite
tal compatibilidad.
Los formatos y algoritmos surround mpeg no han sido implementados con
mucho éxito en aplicaciones del mercado consumidor, cine y televisión, ya
que formatos como el Dolby AC-3 han resultado más populares en la indus-
tria. Sin embargo la estandarización para dos canales como el mpeg-1 Layer
3 (el formato MP3) ha sido ampliamente adoptada en la gran mayoría de los
productos hogareños.
mlp
mlp (Meridian Lossless Packing) (véase Pohlmann, 2002, cap. xi) es un siste-
ma de compresión no destructiva de audio multicanal, que Meridian Audio
licencia a través de Dolby Labs.
Fue especificado para el dvd-Audio con el objeto de poder almacenar
mezclas multicanal de hasta seis canales en alta resolución, de hasta 192 kHz
en 24 bits sin perder calidad. Con esta tecnología el audio, una vez decodi-
ficado, es exactamente igual a la señal original, no como en los procesos de
compresión destructiva como Dolby Digital, mpeg, etcétera.
dvd-audio
El dvd-a (véase Pohlmann, 2002, cap. xi) es un formato de almacenamiento

digital para la distribución de audio de alta calidad en el soporte de dvd,
propuesto por el dvd Forum y apoyado por la mayoría de las compañías dis-
cográficas y distribuidoras del sector. Posee una amplia variedad de canales,
frecuencias de muestreo, resolución en bits y otras características adicionales.
Los primeros productos comerciales y ediciones musicales en este formato apa-
recieron en el año 2000. Hasta la fecha no ha ganado gran parte del mercado
debido a la competencia existente con el Super Audio cd (sacd). Por esto,
ninguno de los dos formatos ha podido masificar la distribución de ediciones
musicales de alta calidad.
El dvd-a ofrece muchas posibles configuraciones, de uno a seis canales
audio de rango completo y resoluciones desde 44.1 kHz a 192 kHz de frecuen-
cia de muestreo y 16 a 24 bits, como las que se pueden observar en la tabla 2.
223
Tabla 2
16-, 20- o 24-bit
44,1 48 88,2 96 176,4 192

kHz kHz kHz kHz kHz kHz
Mono (1.0) Sí Sí Sí Sí Sí Sí
Estéreo (2.0) Sí Sí Sí Sí Sí Sí
Estéreo (2.1) Sí Sí Sí Sí No No
Estéreo + mono surround

Sí Sí Sí Sí No No
(3.0 o 3.1)
Cuadrafónico (4.0 o 4.1) Sí Sí Sí Sí No No
3-Estéreo (3.0 o 3.1) Sí Sí Sí Sí No No
3-Estéreo + mono surround

Sí Sí Sí Sí No No
(4.0 o 4.1)
Surround (5.0 o 5.1) Sí Sí Sí Sí No No
El audio almacenado es codificado en formato lpcm (Linear Pulse Code

Modulation) (véase Pohlmann, 2002, caps. iv y v) sin comprimir o comprimi-
do de forma no destructiva con Meridian Lossless Packing (mlp). La transfe-
rencia de datos máxima es de 9,6 Megabits por segundo. La combinación de
canales y resolución no puede exceder esta tasa de transferencia, por lo que es
posible almacenar sin comprimir mezclas 5,1 en 96 kHz /16 bits o 48 kHz/24
bits y estéreo en 192 kHz/24 bits. Para almacenar mezclas de seis canales en
96 kHz/24 bits es necesario realizar una codificación mlp.
En un mismo dvd-a se puede tener más de una mezcla en diferentes reso-
luciones, por ejemplo una estéreo a 192 kHz/24 bits y una 5,1 a 96 kHz/24 bits.
Asimismo, pueden elegir diferentes resoluciones entre canales, por ejemplo en
una mezcla surround, los canales frontales a 192 kHz/24 bits y los surround a
48 kHz/16 bits u otras combinaciones posibles.
Para mantener compatibilidad con reproductores de cd es posible editar
un dvd-a híbrido en el que uno de los layers (capas) del disco almacene una
versión estéreo a 44,1 kHz a 16 bits y otro (generalmente del otro lado del
disco DualDisc) con la edición de alta fidelidad.
224
Super audio cd
El sacd es un formato de almacenamiento de audio digital de alta resolución,

propuesto en 1999 por Sony y Philips. Permite la edición de audio en estéreo,
multicanal o ambos. El soporte físico del sacd (a pesar de su nombre) es en
realidad un dvd de 4,7 o 8,5 Gb.
El sacd codifica el audio en el formato dsd (Direct Stream Digital) (véase
Pohlmann, 2002, cap. ix) a una frecuencia de muestreo de 2,8224 Mhz a 1 bit de
resolución, obteniendo una calidad de audio similar a pcm de 192 kHz/24 bits.
Existen tres tipos de sacd:
Híbrido: el más popular de los tres. En un dvd de 4,7 GB, en su primera capa
o layer almacena una edición de cd “Red Book” (compatible con casi todos
los reproductores existentes de cd) y en el segundo layer la edición de alta
definición, en estéreo o multicanal, y la resolución de audio dependerá de la
cantidad de tiempo a almacenar. Generalmente un disco híbrido puede alma-
cenar una hora de audio en su capa de cd a 44,1 kHz/16 bits y una hora en 5,1
en dsd con una resolución similar a pcm de 48 kHz/24 bits.
Single-layer (capa única): en un dvd de 4,7 GB un sacd con la configuración

deseada de mezcla estéreo, multicanal o ambas con diferentes resoluciones
posibles para cada una y sin capa de cd.
Dual-layer (capa doble): en un dvd de 8,5 GB, sin capa de cd, con carac-
terísticas idénticas al single-layer, pero con casi el doble de capacidad de
almacenamiento. Permite más cantidad de minutos de audio, más canales,
mayor resolución o la combinación deseada. Este tipo de sacd es muy poco
utilizado.
Otros formatos multicanal
En este capítulo se han descripto la mayoría de los formatos y sistemas de

sonido envolvente para la industria audiovisual. Pero es necesario aclarar que
ha habido muchos otros desarrollos, como el sistema Fantasound que Disney
utilizó en la película Fantasía en 1938-1940, que fue la primer película con
sonido surround, o sistemas desarrollados por Lexicon, Circle Surround, las
implementaciones específicas en las sala imax y otros.
Para otro tipo de programas sonoros, como la reproducción o interpreta-
ción en vivo de música, teatro, instalaciones multimediales, etc., es común
225
que en el proceso del diseño de puesta sonora del proyecto se implementen
configuraciones específicas de altoparlantes y se utilicen diferentes técnicas
de espacialización, como las detalladas en este libro, en función de las nece-
sidades de cada caso.
Bibliografía
Dolby Laboratories Inc., Technical Library (<http://www.dolby.com/techni-

callibrary.aspx?id=306>).
International Telecomunications Union, ITU-R BS.775 (1993) (<http://www.
itu.int>).
Pohlmann, Ken C. (2002), Principios de Audio Digital, Madrid, McGraw-Hill.
Rumsey, Francis (2001), Spatial Audio, Oxford, Focal Press.
226
Capítulo VII
El sonido multicanal en la composición acusmática

Robert J. Dow
Presentación
El compositor acusmático, cuya música queda fija en un soporte de grabación

y es compuesta con la conciencia de que será finalmente recibida a través
de altoparlantes, está naturalmente preocupado tanto por la percepción del
espacio musicalmente significativo, como por la forma en que se transmite y
se percibe su música dentro de un espacio de audición específico. Es tentador
creer en la fidelidad potencial de la reproducción sonora: la posibilidad de una
recreación sonora literal. Para muchos, la reproducción ideal de un trabajo
acusmático supone crear una relación transparente entre el sonido intencio-
nal y la experiencia sonora. En realidad, por supuesto, en una situación de
audición grupal, esto nunca puede ser completamente logrado.
El deseo de mayor control espacial, sin embargo, ha llevado a muchos
compositores acusmáticos lejos de la práctica normativa de usar reproducción
estéreo, y a renovar el interés por toda la gama de formatos de reproducción
de sonido multicanal. Estos incluyen el despliegue de múltiples altoparlantes
conformando matrices mono y/o estéreo múltiples, formatos estándar como el
Dolby 5.1, y muchos formatos experimentales, como Ambisonics y la síntesis
de campo de onda.*1El uso de formatos multicanal puede llegar a dar, prima
facie, más oportunidades al compositor que necesita diferenciación y detalles
espaciales. Pero, como lo ilustra el decepcionante desarrollo del diseño de
sonido para cine, su uso ingenuo puede producir el efecto opuesto: la falta
de claridad espacial.
Preámbulo
Quizás no sea sorprendente que algunos compositores acostumbrados a la

creación utilizando sonidos grabados deseen “fijar” también la ejecución de su
* Wave Field Síntesis (wfs), en el original en inglés. [N. del T.]
227
trabajo. El proceso de composición de música acusmática en un ambiente de
estudio es naturalmente reflexivo, dando lugar tanto a la impresión de estar
trabajando directamente con el sonido, como a la sensación de que “lo que se
oye es lo que se obtiene”. Además, el producto final del trabajo en el estudio
es algo que es “fijado” en un medio particular. En el caso de un medio digital,
el sonido es representado por una cadena de números que pueden ser copiados
exactamente una y otra vez: la intención del compositor ha tomado forma
absoluta, transformándose en un original cuidadosamente producido y capaz
de ser clonado, al menos en apariencia.
La reproducción de sonido tiene, a primera vista, potencial para la
fidelidad: la recreación literal del sonido dentro de un espacio específico de
reproducción. La reproducción ideal de un trabajo acusmático consiste, para
muchos, en establecer una relación transparente entre el sonido intencional
(presumiblemente, lo experimentado por el compositor en el estudio) y el
sonido real experimentado por la audiencia. El actual y renovado interés en
la reproducción multicanal es impulsado parcialmente por el deseo de crear
esta transparencia.
No obstante, como James Lastra ha señalado, cada sonido es:
[...] espacio-temporal específico o, en un amplio sentido del termino, histórico.

Dado que un sonido es inseparable del tiempo y el espacio de su produc-
ción, cada sonido llega a ser un evento irrepetible –un evento distinguible
de todos los otros (Lastra, 1992).
De hecho, la conocida existencia de un sweet spot*2dentro de un espacio

de ejecución particular implica usualmente la coexistencia de muchas más
posiciones de escucha menos ideales. Esto, a su vez, indica que durante la
ejecución de una pieza específica de música acusmática, puede haber un rango
ilimitado de diferentes “versiones” simultáneamente emitidas a la audiencia,
que se escuchan de acuerdo con las posiciones en el auditorio.
Por otra parte, la representación fija de la composición como, por ejem-
plo, en cinta o disco, se ejecuta por medio de una instancia particular de su
tecnología de reproducción y su espacio de reproducción. Diversas caracte-
rísticas de la tecnología usada para la reproducción pueden ser percibidas en
el sonido y, de hecho, el equipamiento puede seleccionarse a causa de estas
características particulares, para ajustarse a un determinado gusto o a un con-
junto de normativas prácticas. Por supuesto, esto es más notorio cuando el
* El término es de uso habitual en la ingeniería de audio. Alude al punto o zona de audición

ideal de un espacio acústico. [N. del T.]
228
equipo no es de la calidad suficiente como para reproducir eventos estructura-
les importantes dentro de la composición, pero aun efectos más sutiles pueden
cambiar la percepción de la música por parte del público.
La acústica de un auditorio puede, naturalmente, tener un efecto inmenso
en la recepción de un sonido reproducido, particularmente en lo que respecta
a detalles espaciales grabados. Es importante saber que esto produce, frecuen-
temente, una tensión entre la yuxtaposición de un espacio virtual (planeado)
y un espacio real (ejecutado), y el movimiento de objetos sonoros dentro de
estos espacios. Esto se observa más frecuentemente cuando una fuente con
un alto grado de reverberación en la grabación (sea real o artificial) es repro-
ducida en un espacio altamente reverberante, lo cual es una buena razón en
contra de la práctica sorprendentemente común de tratar la totalidad de una
composición acusmática ya terminada con un cierto nivel de reverberación
artificial, para crear la impresión de un espacio virtual cohesivo. No obstan-
te, hacia el otro extremo, una grabación de un evento sonoro de una fuente
cercana en un espacio “seco”, sonará distante y reverberante si es reproducida
y escuchada respectivamente en los extremos opuestos de una gran catedral,
por ejemplo. De esta manera, es imposible componer con la esperanza de crear
algún sentido de espacio absoluto.
Ejecución
La ejecución (difusión) de una composición acusmática es el acto de su reali-

zación. No hay original: en lugar de reproducir una copia, la difusión aspira a
recrear el trabajo acusmático para una instancia espacio-temporal específica,
y por lo tanto, como apuntó Smalley, “este se convierte en el acto final, el
más crucial de todos” (Smalley, 1986). Mirada de manera puramente técnica,
la difusión ofrece la posibilidad de cambiar en tiempo real continuamente la
dinámica, el volumen (muchos versus pocos altoparlantes), la coloración del
sonido y el rango espectral (por el uso de diferentes tipos de altoparlantes), el
emplazamiento y la articulación espacial dentro del espacio de ejecución. De
qué forma pueden ser modificados estos parámetros depende, por supuesto, del
sistema de difusión que se esté usando.
En este punto vale la pena enfatizar que la difusión no es simplemente
formar la mejor presentación de algo absoluto y fijado. Difusión es ejecución
y, como tal, no es simplemente promulgar las intenciones del compositor, ni
dar relieve a las estructuras aparentes de la música. La ejecución, incluyendo
la de música acusmática, tiene que ser analítica en el sentido de adivinar y
reaccionar a estas intenciones y estructuras pero, lo que es más importante,
229
debe ser intuitiva y, en cierta medida, espontánea: una fuerza creativa en
su propio derecho. Como lo ha expresado Nicholas Cook, la aplicación de
estos enfoques analítico e instintivo a la música es casi como “crear una
chispa a través de la yuxtaposición de dos polos eléctricos opuestos” (Cook,
1999).
La difusión artística puede tomar riesgos jugando con las expectativas de
la audiencia y, de hecho, puede optar por hacer caso omiso a las tácticas de
difusión sugeridas por los compositores. Por ejemplo, gestos cortos, energé-
ticos y rápidos como aparecen en el comienzo de la obra Shortstuff, de Pete
Stollery (1993), sugerirían automáticamente a la mayoría de los ejecutantes
acusmáticos una articulación rápida y enérgica de estos gestos dentro un espa-
cio de ejecución tridimensional, enfatizando su forma natural y trayectoria,
que crean un sentimiento de excitación y energía. Siendo un artista expe-
rimentado de la difusión, Stollery casi seguramente compuso esta obra con
la expectativa de que esto ocurriría, y cabe señalar que Shortstuff es, incues-
tionablemente, un trabajo que puede parecer muy plano en el estudio y muy
vivo si se ejecuta correctamente en una sala de concierto: es un trabajo que
requiere ejecución. Sin embargo, otros enfoques de la ejecución de Shortstuff
pueden simplemente ignorar estas expectativas. Un ejecutante puede decidir,
en otra ocasión, luchar en contra de la evidente estructura de la obra. Estas
interpretaciones pueden revelar otras facetas de la música, tal vez menos
evidentes, presentando una comprensión más profunda de esta a través de la
intervención del ejecutante.
Formatos
Al contemplar los diferentes formatos de reproducción, se debe recordar que

las necesidades del ingeniero de grabación no son necesariamente las del
compositor o ejecutante de música acusmática. No es común para la música
acusmática limitarse a la mera reproducción de una experiencia sonora cono-
cida, aunque de hecho esto pueda formar parte de su intención artística. Esto
no significa minimizar el problema de producir buenas grabaciones: a menudo
se requiere mayor habilidad para crear un sentido de realidad o autenticidad
que de irrealidad.
Hoy en día existen numerosos formatos de reproducción, todos con
sus propias ventajas y desventajas, y no es la intención de este documento
explorarlos en su totalidad. Los formatos tratados en lo que sigue son los
más comúnmente utilizados por los compositores acusmáticos en la actua-
lidad.
230
Estereofonía con dos altoparlantes
Incluso con la aparición y reaparición de un gran número de formatos de

reproducción multicanal, el 2-0 estereofónico (o simplemente “estéreo”) es el
formato elegido por muchos para la composición de música acusmática. No
hay duda de que esto se debe parcialmente a que los recursos de reproducción
estéreo de alta calidad son relativamente fáciles de disponer y de menor costo
comparados con sus equivalentes multicanales. Sin embargo, es importante
señalar que si bien se han realizado un gran número de experimentos con
respecto a las posibilidades de ejecución de trabajos acusmáticos multicanal,
actualmente la práctica de la ejecución acusmática está firmemente basada en
la reproducción estéreo.
Los buenos sistemas de difusión estéreo en manos de buenos ejecutantes
pueden evitar algunos de los conocidos problemas del estéreo sin difusión: por
ejemplo, ofrecen la posibilidad de abarcar más audiencia (“sweet spots” más
grandes) con menos “agujeros espaciales”, dan más posibilidades de cambios
reales en las perspectivas espaciales (el sonido no se limita a una simulación
en un solo plano) y el sonido puede tanto "envolver" a la audiencia como
moverse alrededor de ella.
Sin embargo, vale la pena reiterar que la intención de la difusión estéreo no
es mejorar o perfeccionar la reproducción estéreo sino esencialmente “recom-
poner el trabajo acusmático para una situación espacio-temporal particular”
(Dow, 2003). La difusión estéreo es más efectiva cuando un trabajo es pensado
teniendo en cuenta su difusión en estéreo, y cuando el uso del espacio se aborda
de manera “orgánica” antes que “arquitectónica”, por usar la distinción de Jonty
Harrison (1999). El emplazamiento absoluto de objetos sonoros dentro de sus
espacios compuestos asociados no es importante aquí. Por el contrario, lo que es
importante son las relaciones e interacciones dinámicas tanto entre los objetos
sonoros individuales, como entre los objetos sonoros y su contexto espacial
percibido. Este último comprende la superposición del espacio compuesto y del
espacio de escucha (el espacio virtual y el real, respectivamente).
Por lo tanto, para el compositor acusmático, la limitación del estéreo,
incluso del estéreo con difusión, no debe considerarse en términos de una
inadecuada fidelidad espacial, como tan a menudo lo es. Lo que no puede
ofrecer el estéreo es la articulación de clases particulares de relaciones, tanto
entre objetos sonoros discretos y espacios sonoros discretos como entre objeto
sonoro y espacio sonoro. Por ejemplo, controlar la separación espacial de
un contrapunto de materiales de naturaleza similar puede ser dificultoso o
imposible de realizar. Uno de los muchos “trucos” de los compositores acus-
máticos con respecto a la difusión es la creación de una separación espectral
231
y/o dinámica entre los sonidos, que facilita su separación espacial durante la
difusión. Sin embargo, esto limita las posibilidades de interacción espacial que
el compositor puede explorar.
En la música acusmática rica en espacialización, el uso de solo dos canales
(particularmente en un espacio de ejecución típico) a menudo no es suficiente
para transmitir la suntuosidad espacial de la imagen sonora; sin embargo la
distribución de esta imagen en múltiples altoparlantes no necesariamente
lleva a la formación de una imagen sonora coherente y simplemente mayor.
Por el contrario, las múltiples imágenes tienen tendencia a distorsionar y
borronear la imagen general, creando una percepción más difusa.
Estéreo 3-2 (5.1 canales envolventes)
El creciente interés y la disponibilidad de sistemas 5.1 hogareños han produ-

cido, naturalmente, un cierto interés en este formato por parte de los com-
positores acusmáticos. Se asume que la esperanza es que tal sistema de sonido
envolvente puede dar una mayor flexibilidad en la articulación espacial en
situaciones en las que antes solo se podía contar con un sistema estéreo.
También es importante la existencia de versiones estándar en estéreo 3-2
las cuales, en teoría, pueden dar al compositor expectativas específicas de un
arreglo de altoparlantes correctamente dispuesto.
El 5.1, diseñado y pensado para usarse en el cine comercial y hogareño
y, en consecuencia, principalmente con la idea de un escenario de sonido
frontal, usa un estéreo 2-0 convencional con la adición de parlante central
(izquierda, derecha y centro) y dos canales secundarios traseros, que fueron
pensados originalmente para dar soporte al sonido ambiente, la “sensación
de sala” y los efectos especiales.13El canal central permite que el diálogo se
focalice correctamente detrás de la pantalla sin la distorsión tímbrica que
una imagen estéreo 2-0 puede producir. En teoría, también podría permitir la
creación de un escenario sonoro frontal más amplio, cubriendo el “agujero en
el medio”. Sin embargo, el estándar 5.1 envolvente tiene los altoparlantes de
izquierda y derecha localizados a +/-30° para ser compatible con estéreo de dos
canales y, por lo tanto, no usa esta posibilidad.
El ángulo de los altoparlantes “envolventes” (±110°) causa que su
proyección sea más lateral que trasera. El ángulo de los altoparlantes, por
lo tanto, se establece para lograr un compromiso con un sonido envolvente
que sea tanto lo suficientemente lateral para envolver al oyente de manera
efectiva, como lo suficientemente trasero para permitir que los efectos sean
1 Para más detalles de la 3.2 estéreo, véase, por ejemplo, Rumsey (2003, pp. 86-94).
232
“paneados”*4detrás de él. Vale la pena advertir que, aun cuando se usan
altoparlantes adicionales paralelos a los envolventes, tal como esta permitido
en el estándar itu (para proporcionar suficiente cobertura envolvente en
espacios más grandes y distribuidos uniformemente entre los ±60° y ±150°),
en el estándar envolvente 5.1 no hay altoparlantes dispuestos directamente
detrás de la audiencia.
Para el compositor acusmático, el sistema 5.1 de canales envolventes
tiene numerosos defectos graves, en particular cuando utiliza un material
espacialmente rico. El estándar 5.1 no fue concebido teniendo en mente
una producción precisa de imágenes en 360°, y la desigual distribución de
los altoparlantes (y, de nuevo, la disposición de altoparlantes envolventes
suplementarios y paralelos en el estándar) hacen difícil conseguirla. Hay, por
supuesto, varias técnicas de microfoneo que se han propuesto para hacer gra-
baciones en un formato más o menos adecuado para reproducirse en sonido
envolvente 5.1 aunque, a menos que se use un método Ambisonics utilizando
un micrófono Soundfield, hay que recordar que ninguna de estas técnicas es
particularmente portable, haciendo que la grabación ambiental y otros tipos
de grabación in situ sean prácticamente imposibles.25En general, sin embargo,
las imágenes de arreglos 5.1 son inevitablemente mejores entre los altoparlan-
tes del frente, bastante pobres en los traseros, y decididamente variables en los
costados (Rumsey, 2003).
Estas técnicas pueden ser adecuadas para la reproducción de imágenes
sonoras relativamente estables (grabaciones de música, sonido de películas,
etc.), particularmente donde la mayor parte de la información sonora rele-
vante es frontal, pero para el compositor acusmático, que desea tanto poder
procesar estas grabaciones como manipular sus cualidades espaciales, las gra-
baciones multicanales destinadas a la reproducción 5.1 son excepcionalmente
difíciles de utilizar. En cambio, muchos de los compositores que trabajan en
5.1 confían en materiales originales basados en grabaciones fiables de dos
canales estéreo o aun mono, que son luego manipuladas espacialmente con
distintos grados de éxito en el escenario 5.1, usando leyes de panorámico y
reverberación artificial.
Si se utilizan señales estéreo, el altoaltoparlante del centro es frecuente-
mente visto como un problema. En este caso, en términos de imagen, no hay
ninguna señal grabada asignada a este altoparlante por lo que, o se vuelve
redundante, o su señal se deriva de alguna manera de los canales de la derecha
* Castellanización de la expresión inglesa panning, término de uso corriente por parte de los
ingenieros de audio de habla española. [N. del T.]
2 Véase, por ejemplo, Theile (2001).
233
y de la izquierda (si bien esto puede generar buenos resultados si se ejecuta
apropiadamente, produciendo, por ejemplo, una imagen sonora central más
estable).36Más aun, este altoparlante central requiere de un uso muy cuida-
doso: puede volverse fácilmente demasiado prominente, y tanto puede realzar
la imagen estéreo frontal como también destruirla, particularmente si se le
asigna una señal decorrelacionada.
Si el altoparlante central es esencialmente ignorado, el compositor se
queda con un sistema cuadrafónico no uniforme, que es como, desafortuna-
damente, el sistema 5.1 es usado por algunos compositores. La forma irregular
del arreglo de altoparlantes y sus anchos ángulos laterales hacen que sea bási-
camente imposible el panorámico estéreo uniforme, y esto puede tentar a los
compositores a tratar a los objetos sonoros de manera monoaural, conduciendo
a que su movimiento percibido se ubique en la periferia del sistema 5.1, y que
suenen muy a menudo localizados como si estuvieran “en” el altoparlante.
En términos de rendimiento, el sistema 5.1 presenta problemas similares a
los otros sistemas multicanal (por ejemplo, octofonía). Dado que usualmente no
hay en 5.1 una imagen real ni coherente, esta no puede ser manipulada con sen-
satez como una imagen estéreo en un arreglo estéreo múltiple. Los compositores
que se interesan tanto por el 5.1 como por la proyección sonora, tienen ten-
dencia a difundir la imagen frontal derecha/izquierda normalmente, dejando los
altoparlantes del centro, los traseros y los de los lados fijos para aquellos “efectos
especiales” que no pueden ser logrados fácilmente a través de la difusión (por
ejemplo, movimiento circular o aleatorio y separación adelante/atrás genuina).
Pueden usarlos también para dar énfasis al ambiente envolvente, o para crear
una fuente central separada del resto del sistema de difusión allí donde tenga
sentido (por ejemplo, texto y otros materiales vocales grabados).
Finalmente, cabe señalar que el canal lfe (efectos de baja frecuencia), limi-
tado a una banda de hasta 120 Hz, realmente no tiene cabida en la composición
de música acusmática ni, ciertamente, tampoco en su interpretación. Como los
otros cinco canales son de banda completa, la utilización de este canal parece
tener poco sentido, particularmente cuando un apropiado sistema de manejo de
bajos es utilizado, como es de rigueur en sistemas de difusión profesionales.
Octofonía
Recientemente ha habido un renovado interés en los sistemas de reproducción

de 8 canales, que se debe indudablemente, al menos en parte, a la disponibi-
lidad de placas de sonido de 8 (o más) canales a bajo precio, y a la inmediatez
3 Véase, por ejemplo, Gerzon, (1992).
234
provista por programas como max/msp, pd y Supercollider para la creación de
señales multicanal y para el procesamiento espacial. La configuración de alto-
parlantes más común es la de un círculo uniforme alrededor de la audiencia,
con los altoparlantes espaciados uniformemente a intervalos de 45°, ya sea
tanto con altoparlantes centrales al frente y atrás (es decir, puestos a 0°, ± 45°,
± 90°, ± 135° y 180°: conocida a veces como configuración en “doble diaman-
te”) o la misma configuración rotada a 22,5° para lograr un frente plano (es
decir puestos a ± 22,5°, ± 67,5°, ± 112,5° y ± 157,5°: conocida a veces como
configuración en “cuatro pares”).
Sin embargo, el actual repertorio acusmático no se limita a estos formatos
uniformes; indudablemente la variedad de formatos de 8 canales existentes
requiere que el compositor sea bastante específico en las instrucciones de
difusión de la obra, tanto acerca de la disposición de los altoparlantes, como
en sus expectativas de reproducción. Streams (1999) de Jonty Harrison, por
ejemplo, usa cuatro pares de altoparlantes estéreo ubicados en diferentes pla-
nos espaciales (“principal”, “ancho”, “atrás” y “distante”). Esto facilita la posi-
bilidad de hacer fluir la imagen sonora entre diferentes perspectivas estéreo
y permite una fácil integración con las actuales configuraciones de difusión
estéreo, creando así algún potencial de ejecución. Los principales objetivos
de los arreglos de 8 canales regulares son, por el contrario, permitir tanto un
panorámico uniformemente balanceado de los objetos sonoros alrededor de la
audiencia, como una distribución sonora uniforme que posibilite envolverla
por completo.
Los sistemas de reproducción octofónicos ofrecen un cierto grado de flexi-
bilidad y su uso puede ser abordado de diversas maneras. La configuración en
doble diamante puede ser considerada como un sistema de múltiples planos 3-0
estéreo, donde el altoparlante central compensa el ángulo relativamente gran-
de formado entre los altoparlantes “derecho” e “izquierdo”. En la situación más
simple, esto podría consistir en un sistema estéreo 3-0 frontal y uno trasero, con
compensación lateral. Sin embargo, este arreglo permitiría también la proyec-
ción de múltiples y simultáneas imágenes estéreo, como también panorámicos
estéreo graduales en tres canales.
La distribución de “cuatro pares” parece ser, en cierta medida, más un
sistema de difusión estándar de dos canales con pares delanteros y traseros, y
dos pares laterales. El panorámico de dos canales estéreo puede lograrse fácil-
mente, aunque el ancho de la imagen es en realidad demasiado estrecho como
para producir una buena imagen estéreo. Sin embargo, un material original
estéreo 2-0 puede ser tratado como lo sería en un sistema de difusión de dos
canales, particularmente si el arreglo regular es deformado parcialmente, ajus-
tando el ángulo de los pares delanteros y traseros para lograr una mejor imagen
235
(tendiendo hacia ±30° y ±150°), y ajustando los pares laterales delanteros y
traseros para que actúen más como altoparlantes “de ancho” y “laterales”. Una
imagen frontal más amplia puede, por consiguiente, ser lograda combinando
los altoparlantes “principales” y “de ancho”, y el movimiento de una imagen
desde el frente hacia atrás puede ser realizado vía los altoparlantes “laterales”.
Para el intérprete de música acusmática, la difusión de piezas de 8 canales
tiene dificultades similares a las ya descritas para el sistema envolvente 5.1,
a menos que estén diseñadas teniendo en mente algún tipo de difusión no
estándar (por ejemplo, nuevamente, Streams), aunque al menos no existen las
dificultades asociadas con la forma irregular de la disposición 5.1. Los experi-
mentos que utilizan múltiples arreglos octofónicos (supuestamente como una
extrapolación del uso de múltiples pares de altoparlantes en muchos sistemas
de difusión) han tendido a concentrarse en el movimiento dentro del espacio
de audición, utilizando trayectorias sonoras encuadradas, circulares y, hasta
cierto punto, más variadas: no existe aquí una percepción real de una imagen
sonora, con su espacio asociado y compuesto, articulándose en el espacio de
audición. Sin duda, este tipo de sistemas hace muy difícil la creación de una
ilusión con la solidez aural requerida para una difusión exitosa, particularmen-
te si la música investiga un material espacialmente rico.
Ambisonics
El enfoque del sistema de grabación y reproducción Ambisonics consiste en

muestrear y reconstruir frentes de onda en un punto. La importancia de esto es
que la reproducción es a la vez homogénea (no hay ninguna dirección tratada
preferencialmente) y, hasta cierto punto, coherente (la imagen permanece
estable si el oyente cambia de posición dentro del sistema). Con adecuados
medios de grabación y reproducción, puede producir una verdadera imagen
sonora tridimensional. Existen numerosas técnicas de microfoneo disponibles
al menos para las grabaciones Ambisonics de primer orden. La más simple de
estas técnicas es utilizar un micrófono especializado SoundField, que produce
una señal tridimensional, la cual se conoce como formato B (B-format) y consta
de cuatro componentes (llamados W, X, Y y Z). La ventaja de los micrófonos
Soundfield es que se dispone de una versión portátil, que hace completamente
factibles grabaciones in situ de entornos y de otros sonidos con riqueza espa-
cial, generalmente imposibles de obtener en un estudio, aunque, por supuesto,
también es necesario un grabador portátil de 4 canales para grabar la señal de
formato B (asumiendo que las tres dimensiones sean requeridas).
Para reproducir el frente de onda, la señal de formato B es decodificada
usando una matriz específica para el arreglo de altoparlantes en uso. Esto con-
236
siste normalmente en un arreglo simétrico de 4 o más altoparlantes en pares
aunque, en teoría, es posible también decodificar la señal para arreglos no
simétricos, como el sistema envolvente de 5.1 canales. Si el componente de
altura debe ser decodificado, se necesitarán también altoparlantes por arriba
y abajo de la audiencia. Lo que es especialmente útil, es que el compositor
puede producir un trabajo en formato B que luego puede ser decodificado en
cualquier sistema Ambisonics, incluyendo el arreglo de 8 canales, actualmen-
te muy usado, ya sea en la configuración de “doble diamante” como en la de
“cuatro pares”. Esto es especialmente interesante para los compositores que
utilizan material espacialmente rico, ya que Ambisonics no solo puede recrear
la experiencia completa de estar en un lugar determinado, sino que también
lo puede hacer de una manera que no es completamente dependiente de una
determinada configuración de reproducción.
Desafortunadamente Ambisonics tiene algunas serias limitaciones, par-
ticularmente en términos de la interpretación de música acusmática. Puesto
que esta técnica recrea el campo de onda en un punto particular del espacio, el
sweet spot es particularmente pequeño, aunque se pueden usar varios métodos
para que esto sea menos problemático, de hecho la experiencia de escucha
“fuera de eje”, aunque no sea exactamente la ideal, es ciertamente tolerable.
La imagen es fija, esto quiere decir que al menos con los sistemas existentes,
no tenemos la posibilidad de mover imágenes alrededor del oyente en tiempo
real y, de esta manera, difundir un trabajo en Ambisonics.
En términos del primer problema, con sistemas Ambisonics de más alto
orden, que tienen componentes adicionales de dirección, se puede crear una
codificación direccional mejorada, cubriendo una mayor área de escucha en la
reproducción. Sin embargo, no hay un micrófono diseñado actualmente que
pueda grabar en formato Ambisonics de segundo orden, lo que es una dificultad
para los interesados en usar grabaciones espacialmente ricas. Algunos composi-
tores que usan Ambisonics de segundo orden (como Natasha Barret) sintetizan
estas señales artificialmente, ya sea de grabaciones en formato B o estéreo. Por
ejemplo, de la misma manera que en la síntesis de campo de onda (véase más
adelante), se pueden crear fuentes de sonido estéreo virtuales dentro de las
fuentes Ambisonics (imagine usar un micrófono Soundfield para grabar un
sonido estéreo emitido por dos altoparlantes en un espacio particular).
Síntesis de campo de onda (WFS)
La síntesis de campo de onda (wfs por su denominación en inglés, Wave Field

Synthesis) es un contrincante relativamente nuevo en el mundo de los forma-
tos de sonido multicanal, y está causando una gran excitación en este momen-
237
to, particularmente en el ámbito del sonido para cine. Como Ambisonics,
wfs también intenta recrear un campo de onda particular, pero lo hace a lo
largo de un área en vez de en un punto. Su sistema de reproducción utiliza un
arreglo (que puede ser lineal o circular) de pequeños altoparlantes que actúan
como fuentes puntuales que en combinación recrean el campo de onda.
wfs no sufre el mismo problema de cobertura limitada que Ambisonics. Sin
embargo, es esencialmente imposible grabar el campo de onda de un espacio
dado con la misma facilidad con que se realiza en Ambisonics utilizando el
micrófono Soundfield, dado el tamaño de muestra que se requiere.
En lugar de ello, las técnicas actuales de wfs: a) graban el sonido directo
de cada fuente de audio (i.e., los tratan como una fuente puntual usando un
micrófono direccional); b) graban las reflexiones tempranas de cada fuente
y c) graban la reverberación del espacio sonoro. Estas grabaciones son luego
“combinadas” en la reproducción para dar la impresión del sonido en un
espacio particular. Los sonidos pueden ser localizados extremadamente bien
dentro del espacio de reproducción, aunque puede haber problemas si la
fuente sonora se encuentra ubicada exactamente donde un miembro de la
audiencia está sentado: en este caso el sonido se siente como si en realidad
estuviera en el centro de la cabeza de uno, lo que puede ser muy perturbador.
Se están desarrollando sistemas que permiten a los sonidos-fuente moverse en
el espacio en tiempo real, o sobre trayectorias programadas.
El principal problema para el compositor acusmático, muy preocupado
por supuesto por el carácter intrínsecamente espacial de su material-fuente, es
que dicho carácter espacial no puede ser realmente grabado, sino que puede
ser únicamente sintetizado. También se debe tener en cuenta que se necesitan
tantos canales grabados como sonidos puntuales sean manipulados en el espa-
cio, aunque es posible crear estéreo virtual (o, sin duda, 5.1 u otros formatos
multicanales) dentro del campo de onda, como ocurría con las grabaciones
Ambisonics. De este modo, se podrían tener grabaciones estéreo emitidas, por
así decirlo, por pares de altoparlantes virtuales.
Conclusiones
La compleja naturaleza del sonido dentro de los espacios y las limitaciones de

la tecnología actual no permiten la grabación y reproducción ideal del soni-
do. La reproducción sonora es un compromiso y, debido a esto, el compositor
acusmático no puede esperar el pleno control espacial una vez que su trabajo
no es escuchado desde la que presuntamente es la posición ideal de escucha:
su puesto en el estudio de producción original. La difusión, incluso en estos
238
apasionados tiempos de refinados sistemas de altoparlantes multicanales,
aún tiene un rol importante como mediador entre la creación artística y su
recepción.
De los formatos investigados en este artículo, el estéreo parece todavía
ofrecer el mejor compromiso entre ser capaz de representar información
espacial sobre un área relativamente grande y ofrecer oportunidades reales de
ejecución. Ambisonics y wfs no son completamente capaces de ofrecer esto
todavía, pero en el futuro podrían ofrecer mucho más.
Agradecimientos
El autor desea agradecer a la Junta Investigadora de Arte y Humanidades en la

financiación de esta investigación. También está en deuda con el Dr. Joseph
Anderson de la Universidad de Hull, por su ayuda y asesoramiento.
Bibliografía
Cook, N. (1999), “Analysing Performance and Performance Analysis”, en

Cook, N. y M. Everist (eds.), Rethinking Music, Oxford, Oxford University
Press, pp. 239-261.
Dow, R. J. (2003), “Sound Diffusion and the Sonic Image”, Diffusion, sep-
tiembre, pp. 2-6.
Gerzon, M. (1992), “Optimum Reproduction Matrices for Multispeaker
Stereo”, Journal of the Audio Engineering Society, 40: 7/8, julio/agosto, pp.
571-589.
Harrison, J. (1999), “Imaginary Space –Spaces in the Imagination”, en
Proceedings of the Australasian Computer Music Conference, Victoria
University of Wellington, pp. 7-15
Lastra, J. (1992) “Reading, Writing and Representing Sound”, en Altman, R.
(ed.), Sound Theory, Sound Practice, Nueva York, Routledge, pp. 65-86.
Rumsey, F. (2003), Spatial Audio, Oxford, Focal Press, pp. 86-94.
Smalley, D. (1986), “Spectro-Morphology”, en Emmerson, S. (ed.), The
Language of Electroacoustic Music, Londres, Macmillan, pp. 61-93.
Theile, G. (2001), “Multichannel Natural Music Recording Based on
Psychoacoustic Principles”, en Proceedings of the Audio Engineering Society
19th International Conference, junio de 2001, pp. 201-229.
(Traducción al español de Oscar Pablo Di Liscia y Esteban Calcagno)
239
Capítulo VIII
La interpretación de la espacialización electroacústica:
atributos espaciales y esquemas auditivos*
Gary S. Kendall
La interpretación artística y el análisis de la espacialización electroacústica

han sido raramente tratados de una manera que permita su aplicación a múl-
tiples composiciones. Abundan en la bibliografía histórica descripciones de
las bases técnicas de la espacialización y de las formas en que los compositores
las han empleado en composiciones específicas. Más recientemente, en el
dominio de la música “acusmática”, Denis Smalley ha ayudado a adoptar un
enfoque más general e inclusivo. Este enfoque emergió primero en el contexto
expositivo de la “espectromorfología” presentado por Smalley (1986; 1997) y
fue luego extendido a través de su tratamiento independiente del concepto
de espacio-forma (2007). De manera similar al trabajo de Smalley, este trabajo
es parte de un esfuerzo por crear un marco conceptual para la interpretación
y el análisis de la espacialidad en la música electroacústica. Esta propuesta
complementa al trabajo de Smalley en varios aspectos. Es importante destacar
que la perspectiva de este artículo está fuertemente moldeada por la psicología
perceptiva y cognitiva. Muchas de las ideas aquí expresadas están basadas en
investigación empírica y otras han sido inspiradas por la teoría perceptiva y
cognitiva. Además, este trabajo mantiene una relación inmediata con las téc-
nicas y las prácticas de espacialización en sí mismas. De hecho, las técnicas de
espacialización son consideradas cruciales a la hora de dar forma al contenido
espacial artístico en el dominio electroacústico.
La situación de la espacialización en la música electroacústica es semejante

a la de la síntesis del sonido, en el sentido en que la experiencia del mundo
natural provee una inspiración importante, tanto para la creación como para
la investigación. La capacidad de la música electroacústica para manipular
*Partes de este capítulo fueron tomadas del artículo “The Artistic Play of Spatial Organization:
Spatial Attributes, Scene Analysis and Auditory Spatial Schemata”, publicado en las actas de la
2007 International Computer Music Conference, Copenhage, Dinamarca.
241
señales de audio crea un contexto en el cual pueden ocurrir interacciones
singularmente complejas entre la audición espacial y otros dominios de la
percepción y la cognición. Esto es particularmente cierto cuando los composi-
tores electroacústicos juegan con los fundamentos de la organización espacial
en la música, manipulando los agrupamientos perceptivos y los esquemas
espaciales. El audio espacial, y en particular el audio espacial de la música
electroacústica, es un campo artístico que a menudo pone de relieve las con-
venciones espaciales del mundo natural, ya sea distorsionándolas o violándo-
las. Con el fin de apreciar el entrecruzamiento de límites y convenciones de
esta interacción artística, nuestros conceptos y nuestro vocabulario deberían
estar bien alineados con los procesos perceptivos y cognitivos del oyente.
Atributos espaciales
El contexto de la música electroacústica
A primera vista, la clase de fenómenos espaciales experimentados por un

oyente pueden parecer obvios. Cuando la música es ejecutada con instru-
mentos acústicos en un ambiente acústico, una descripción a nivel físico por
sí misma debería proveernos de una guía razonable sobre la experiencia del
oyente, porque tenemos una gran abundancia de experiencias compartidas
sobre el mundo físico. La sensación del oyente de estar en un mundo físico
espacial es una construcción mental informada profundamente por la expe-
riencia del mundo físico. En la música electroacústica, la experiencia acústica
de la vida cotidiana ha sido a menudo un punto de referencia, pero la tec-
nología de reproducción electrónica amplía el alcance y la complejidad de la
espacialidad de una manera radical. Generalmente, una descripción a nivel
físico (ubicación de los altoparlantes, etc.) provee solo una guía rudimentaria
para las apreciaciones espaciales del oyente, que son en esencia inmateriales y
efímeras. La música electroacústica generalmente ha carecido de un vocabula-
rio que abarque esta gama expandida de las percepciones del oyente.
Investigaciones recientes sobre la percepción pueden ayudarnos a comen-
zar a construir nuestro vocabulario. La mayoría de las investigaciones con-
cernientes a la espacialidad en la música electroacústica pueden encontrarse
en la bibliografía de dos disciplinas: 1) la investigación sobre la percepción
y la cognición en la audición espacial y 2) la investigación aplicada sobre la
reproducción sonora. Una línea de investigación particularmente relevante
comienza en la literatura de la audición espacial con el estudio de la impresión
espacial asociada con la (percepción) acústica subjetiva de las salas de concier-
242
to (Barron y Marshall, 19891). Este evoluciona en el estudio interrelacionado
del ancho aparente de la fuente y el envolvimiento del oyente* (Ando, 1998;
Griesinger, 1997).
Estos atributos de la percepción espacial fueron estudiados inicialmente
en el contexto de la acústica de salas de concierto y, más recientemente, en el
de la reproducción sonora en sistemas surround.
En la acústica subjetiva de la reproducción electrónica, Zacharov y
Koivuniemi (2001) y Rumsey (2002) aportan profundos argumentos y la cla-
sificación de numerosos atributos perceptivos del espacio.
Berg y Rumsey (2003) toman en cuenta más de 30 términos que pueden
ser clasificados en 17 categorías. Estos trabajos han considerado en profun-
didad cuestiones relacionadas a los atributos espaciales y su terminología
asociada.
Si bien es cierto que hay mucho que se puede extraer de estas investi-
gaciones, la diferencia entre los contextos considerados en ellas y los de la
música electroacústica es profunda. Por una parte, la acústica de la sala de
concierto y el sonido reproducido por altoparlantes son a menudo segmen-
tados conceptualmente en sonido directo, reflexiones indirectas y reverbe-
ración. Esto se refleja en una terminología que puede separarse en términos
relacionados con la fuente y aquellos vinculados al ambiente acústico. Pero
es de destacar que la música electroacústica no se limita al modelo fuente-en-
ambiente. Además, hay diferencias profundas en lo que respecta a la materia
sonora. Esto es particularmente importante por dos razones: las percepciones
espaciales son definidas en parte por el contenido de las fuentes sonoras
(Mason, 2002; Mason, Brookes y Rumsey, 2005a) y los compositores electro-
acústicos no están limitados a fuentes acústicas preexistentes. ¡Los composi-
tores electroacústicos no tienen solamente la libertad de diseñar sonidos que
dan soporte específico a efectos de espacialización, sino que pueden también
explorar ámbitos acústicos que pueden derribar la validez ecológica!
Atributos espaciales y análisis de la escena auditiva
En una argumentación particularmente fructífera, Rumsey (2002) considera

las características espaciales del sonido en el marco del análisis de la escena
auditiva (Bregman, 1990). Sostiene que los atributos espaciales “deberían ser
* La expresión original en inglés es listener envelopment, que se ha traducido también como

“envuelto por el campo acústico” o “sensación de estar rodeado por el sonido”. Se adopta
aquí la traducción de “envolvimiento del oyente”, dado que existe en el español y responde
de manera más precisa al concepto que el autor desea transmitir. [N del T.]
243
claros y preferiblemente unidimensionales” (en otras palabras, deberían repre-
sentar una sola idea perceptiva). Las cualidades espaciales tienen que ver con
la tangibilidad de los aspectos tridimensionales del sonido, incluyendo propie-
dades como ancho y distancia. Es de destacar que Rumsey1 distingue las cua-
lidades espaciales de las cualidades de los espacios, esto es, de las propiedades
de las salas (u otros espacios). Los atributos de los espacios han incluido tradi-
cionalmente propiedades como la reverberación y vivacidad.* La confluencia
de estas categorías no ha sido examinada en la evaluación subjetiva de salas de
concierto y sistemas de reproducción de audio, donde se asume que las fuentes
sonoras están contenidas en sus ambientes (y, de hecho, la argumentación de
Rumsey está dirigida hacia tales ajustes típicos de la reproducción).
Esta confluencia de categorías es esencialmente un desfasaje entre la
acústica física y la perceptual.
Así, por ejemplo, si trasladamos totalmente nuestra orientación a la
organización auditiva del oyente, y observamos que el sonido indirecto de las
reflexiones tempranas influye en la percepción auditiva de la fuente, enton-
ces, ese sonido indirecto es esencialmente parte de la audición de la señal de
la fuente, tanto como el sonido directo. Y, a partir de este punto, debemos ser
particularmente claros sobre la separación entre la señal acústica (con todos
sus componentes acústicos) y la imagen percibida de la fuente (con todas sus
características perceptivas del espacio).
La separación de estas categorías es particularmente útil en música elec-
troacústica, donde el modelo fuente-sonora-en-ambiente, es solo una de muchas
posibilidades en el tratamiento espacial.
Habiendo realizado una clara distinción entre las características espaciales
respecto de otras propiedades del sonido en el espacio, Rumsey se dedica a
examinar las cualidades espaciales en el contexto del análisis de la escena audi-
tiva. Creando un marco organizativo para evaluar la clase de reproducción de
sonido que le interesa, Rumsey propone cuatro niveles de organización que son
comunes en la experiencia de la escucha de música grabada: fuente, ensamble,
sala y escena. Estas etiquetas están pensadas para ser categorías generales de
organizaciones jerarquizadas, más que simplemente tipos de fuentes acústicas.
En la figura 1 se ilustra cómo interactúan estos cuatro niveles de organización
con el atributo espacial de ancho. En el nivel más bajo de organización, una
fuente individual tiene “ancho”. En el nivel superior siguiente de organización
y agrupamiento, un ensamble de fuentes tiene “ancho de ensamble”. Tal agru-
pamiento depende de las particularidades de la escena y, por ejemplo, podría
1 Todas las notas subsecuentes referidas a Rumsey se corresponden con Rumsey (2002).
* Liveness en el original en inglés. [N. del T.]
244
Ancho de la fuente
Ancho del ensamble
Ancho del recinto
Escena
Figura 1. El atributo espacial de ancho con niveles jerarquizados de organización dentro de

una escena auditiva (según Rumsey, 2002)
estar integrada por la sección de violines, la familia de las cuerdas o la orquesta

entera. En el siguiente nivel superior de organización para la música grabada,
podemos hablar de ancho de la sala y más allá de eso, del ancho de la escena
auditiva completa. Este enfoque basado en la escena aísla el “qué” del “dónde”,
y elimina la confusión conceptual inherente a la consideración de los atributos
espaciales sin tener en cuenta los agrupamientos auditivos.
Podemos proponer ahora una terminología espacial para ser aplicada a los
niveles jerárquicos relevantes de la organización auditiva. Rumsey propone que
todos los atributos espaciales sean limitados a 5, tres atributos “dimensionales”
y dos “inmersivos”. Las tres características dimensionales –ancho, distancia y
profundidad– pueden ser producidas por una fuente individual, un ensamble,
una sala o escena (aunque es improbable que una fuente sonora individual
pueda producir profundidad). Rumsey menciona que está omitiendo la altura;*
asumimos que se debe a que se enfoca en sistemas de reproducción sin eleva-
ción, pero también omite algunos otros aspectos de la dirección –aunque los ha
comentado en otra investigación (Mason, R., T. Brookes y F. Rumsey, 2005a;
Rumsey, 1999). Nosotros añadiremos la dirección en nuestra lista de caracte-
rísticas espaciales.2 La categoría de atributos espaciales inmersivos de Rumsey
* Se trata de una referencia a la dimensión espacial y no a la musical, de altura tonal o

“pitch”. [N. del T.]
2 Vamos a tratar la dirección como un único atributo de la percepción a pesar de que su represen-
tación geométrica requiere de dos dimensiones. El papel dominante del eje izquierda-derecha es
considerado luego, al examinar el rol de la percepción de la agrupación.
245
abarca el dominio de la percepción espacial auditiva descrito por términos
interrelacionados tales como impresión espacial, “espaciosidad” (spaciousness)
y “envolvimiento”. Dentro de este marco de análisis de la escena, Rumsey reco-
mienda la adopción de solo dos términos: envolvimiento y presencia. Propone
que el término “envolvimiento” designe a la experiencia de encontrarse rodea-
do por el sonido de múltiples fuentes sonoras, o de un campo difuso, como
el de la reverberación. Estos tipos de “envolvimiento” son llamados “relativo
a las fuentes” y “ambiental”, respectivamente. Rumsey ha propuesto reciente-
mente que el término “presencia” designe a la “sensación de estar dentro de
un espacio (cerrado)”. Adoptaremos la terminología completa de Rumsey (con
nuestro pequeño agregado) en aras de la coherencia y postergaremos el análisis
del uso del término “presencia” para próximos trabajos. Nuestra terminología
resultante puede resumirse entonces del siguiente modo:
Atributos dimensionales: ancho (individual/ensamble/sala/escena), distancia

(individual/ensamble/sala/escena), profundidad (individual en casos especia-
les/ensamble/sala/escena), dirección (individual/ensamble/sala/escena).
Atributos inmersivos: envolvimiento (ambiental/relativo a las fuentes), pre-

sencia.
La figura 2 muestra las relaciones espaciales de estos términos. Cada nivel de

organización en la escena puede ser caracterizado por los atributos dimen-
sionales, pero solo ciertas situaciones dan lugar a los de envolvimiento o
presencia.
Estos atributos espaciales son propiedades de los eventos perceptivos
en la escena auditiva. Los procesos de formación de eventos perceptivos y
agrupamientos auditivos proveen un nivel de aprehensión que es rico en
percepciones, pero carente de significación cognitiva y de sentido. En este
nivel, los eventos pueden tener características espaciales y aun así no estar
vinculados al concepto de ambiente del oyente. Es importante destacar que
este es también el nivel en el cual la organización espacial comienza a tener
un papel significativo para el arte. Tales sonidos pueden producir una especie
de sentido intrínseco que precede a la comprensión, algo semejante al sentido
mítico.3 Por ejemplo, fuentes sonoras de origen misterioso, fuentes que no
podemos identificar, tienen un particular poder para afectarnos profundamen-
te debido a que invocan categorías relativamente abstractas de fuente y origen
3 Un tipo diferente de sentido mítico se produce cuando escuchamos sonidos cuyas fuentes
tienen connotaciones míticas, tales como el océano o el bosque.
246
Ancho
Profundidad
Distancia
Dirección
Envolvimiento
Oyente
Figura 2. Atributos espaciales para los niveles de la escena auditiva (según Rumsey, 2002)
que solo presagian sentido. Esta es la verdadera esencia del placer producido
por lo acusmático. En un sentido análogo para el espacio, hay sonidos de
localización espacial misteriosa (por ejemplo, campos espaciales difusos) que
pueden afectarnos porque invocan niveles preracionales y míticos de nuestra
experiencia espacial.
Esquemas auditivos espaciales
Esquemas auditivos espaciales
Los esquemas auditivos espaciales son los patrones recurrentes a través de los
cuales comprendemos el comportamiento del sonido en el espacio. Estos esque-
mas son aprehendidos y reforzados principalmente por la experiencia cotidiana
del ambiente espacial. En la vida cotidiana, todas nuestras capacidades senso-
riales contribuyen a conformar nuestros esquemas espaciales básicos (Johnson,
1987) y, por lo tanto, los esquemas auditivos espaciales pueden entenderse
mayormente como proyecciones de esquemas espaciales multimodales dentro
del dominio auditivo. El esquema general de objeto da lugar al esquema audi-
tivo de fuente. El esquema general de colección da lugar al de ensamble.
Ambos poseen atributos y comportamientos espaciales típicos. También es
importante destacar que los esquemas auditivos espaciales nos ayudan a dar
247
sentido y significación a la experiencia espacial. Con los esquemas musicales,
tratamos de comprender las organizaciones musicales que estamos percibiendo.
Con los esquemas espaciales, tratamos de comprender el espacio de los acon-
tecimientos espaciales que estamos percibiendo. La construcción de sentido se
realiza en forma simultánea con la reducción de la complejidad perceptiva.
Generalmente se reconoce que la localización del sonido tiene una
influencia débil en la escena auditiva. Por esta razón, los esquemas espaciales
tienen un papel particularmente importante en la escucha espacial, porque los
esquemas le dan coherencia a información espacial que de otro modo podría
resultar vaga o incompleta. Los esquemas espaciales son particularmente
importantes para la reproducción de audio cuando no hay otra información
sensorial que pueda colaborar con el contenido auditivo espacial. Nuestro
esquema espacial de trayectoria da coherencia a efectos de movimiento
que de otro modo podrían ser muy frágiles. Además, el sonido incorpóreo de
la reproducción de audio es interpretado frecuentemente en un marco que es
específico a este contexto. Por ejemplo, la disposición espacial de fuentes en
una típica canción pop en estéreo no tiene ningún sentido físico. Aceptamos
esta disposición espacial como un modismo de la reproducción de audio, un
modismo musical-espacial. La naturaleza inmaterial de la reproducción de
audio permite al arte auditivo espacial explotar los esquemas espaciales de la
vida cotidiana.
Análisis de la escena en función de los esquemas auditivos espaciales

según Rumsey
El marco jerárquico de Rumsey, que agrupa las nociones de fuente/ensamble/

sala/escena, pretende ser utilizado en la evaluación subjetiva de la reproduc-
ción de audio de grabaciones de música acústica. Y, mientras que el conteni-
do de la música electroacústica puede ser muy disímil, la noción de niveles
jerárquicos de organización, desde lo micro a lo macro, parecería ser bastante
válida para casi todo tipo de música. Sin embargo, la focalización que hace
Rumsey en el contenido de audio típico complica su propio marco, debido a
que en forma inadvertida socava la noción de una simple organización micro-
a-macro. El paso de “ensamble” a “sala” no es solamente un salto al siguiente
nivel superior de agrupamiento; es un paso esquemático que es normativo solo
en el campo de la música acústica, donde los instrumentos están efectivamen-
te en espacios cerrados.
Hay dos cuestiones que se ponen de manifiesto cuando se considera el
marco propuesto por Rumsey en el contexto de la música electroacústica. La
primera es la naturaleza situacional de estas categorías típicas. Por ejemplo,
248
puede haber situaciones en las que no haya una clara delimitación entre
fuente y conjunto, esto es, entre la percepción de una o varias fuentes. Luego,
también, la simulación de la “sala” puede lograrse a partir del tratamiento
de una señal acústica con un algoritmo de reverberación. En el caso en que
la señal de la fuente original es omitida, la salida del reverberador deviene
esencialmente una fuente en sí misma. El sentido original de la distinción
entre fuente, ensamble y sala se diluye. En segundo lugar, la impresión de
“sala” que tiene el oyente es algo distinto del tratamiento de una señal acús-
tica: es una comprensión que el oyente adopta en respuesta a la experiencia
auditiva. “Sala” es parte de nuestra comprensión cognitiva tomada de los
esquemas espaciales auditivos de sala. Dependiendo de las circunstancias, el
oyente puede o no invocar el esquema de sala durante el proceso de com-
prensión de la escena auditiva. En algunas circunstancias podemos imaginar
que la comprensión de “sala” es automática y afín a la segregación de estratos
basada en esquemas (Berg y Rumsey, 2003). En otras circunstancias, “sala”
puede bien ser una inferencia basada en información acústica incompleta
o fragmentaria. No es la percepción de las relaciones jerarquizadas la que
determina las categorías.
Entonces, ¿qué queda de la idea original de una organización jerarquizada
de relaciones espaciales? Claramente, la percepción del oyente de relaciones
espaciales jerárquicas depende de circunstancias tangibles, las particularidades
de la escena auditiva. Para la música electroacústica, los elementos en una
estructura jerárquica no están limitados a priori a un conjunto de categorías
relacionales. Una descripción completa del contenido espacial y sus implica-
ciones en un contexto artístico puede llegar a ser muy compleja. Los esquemas
espaciales auditivos pueden ser deformados o aun violados. Nuestra habilidad
para describir y categorizar estas interacciones complejas depende de tener
conceptos y terminología claros de tal manera que podamos reconocer el
entrecruzamiento de límites y la disrupción de normas espaciales en el inter-
juego artístico.
El juego artístico con la organización espacial
Juego con el agrupamiento perceptivo
En la música electroacústica hay a menudo un juego con el agrupamiento

perceptivo que afecta tanto a la identificación de fuentes como a sus atributos
espaciales. Este juego está guiado, típicamente, por la perturbación en el nivel
de la formación de eventos perceptivos, perturbación que puede afectar tanto
249
a los mecanismos de agrupamiento como a los de localización. Hay numerosas
técnicas que crean tales perturbaciones, técnicas que pueden ser manipuladas
para ajustar el grado de disrupción y, de este modo, permitir la exploración
de límites perceptivos. Si bien pueden ser conceptualmente diferentes, estas
técnicas a menudo producen resultados similares. Con el fin de describir
adecuadamente los cambios en las características espaciales que se asocian a
estas técnicas, necesitamos distinguir cuatro marcos de referencia asociados
a la palabra “fuente”. Primero está la “señal-fuente”, que es la señal acústica
o una representación de la señal acústica. Segundo, está la “imagen-fuente”
tangible, la “fuente” que tiene atributos espaciales en la escena auditiva. Está
la “fuente conceptual”, el objeto que el oyente identifica con la fuente, inde-
pendientemente de sus atributos espaciales (“fuente conceptual” es entendida
aquí del mismo modo que el concepto de Smalley [1986] de consolidación de
la fuente).* Finalmente, se encuentra el esquema espacial del oyente, “fuen-
te”. La imagen-fuente, más allá de si es aprehendida como una o muchas
fuentes conceptuales, es habitualmente un estrato auditivo; de qué manera el
juego artístico reordena la organización perceptiva del oyente es algo que se
discute a continuación.
Técnicas tipo 1. Vamos a considerar primero la clase de técnicas que perturba

la identidad de la señal-fuente dividiéndola en partes. Estas partes pueden ser
separadas sobre la base del tiempo o del espectro (o de ambos). Un ejemplo
básico de una técnica temporal es el proceso de “granulación”, que perturba
el orden temporal de la señal-fuente acústica. Un ejemplo básico de técnica
espectral sería el phase vocoding,** que altera la organización espectral de la
señal-fuente acústica. Ambas técnicas involucran separar la fuente en múl-
tiples partes, manipularlas y luego reensamblarlas para producir un resultado
(por supuesto, hay muchos más modos de usar estas herramientas). El resul-
tado puede abarcar desde la reconstrucción exacta de la señal-fuente acústica
hasta la construcción de algo esencialmente nuevo. La fuente conceptual del
oyente puede abarcar tanto desde la fuente conceptual original a una nueva
fuente como a múltiples fuentes nuevas. También es importante destacar que
en ambos casos existe la posibilidad de ensamblar el resultado en una o varias
ubicaciones espaciales.
Consideremos el campo bidimensional de posibilidades de combinación
del ancho de la imagen-fuente y el número de fuentes conceptuales creadas
∗Source bonding en el original. [N. del T.]

∗∗Se ha conservado la denominación original en inglés, dado que es de uso habitual. [N.
del T.]
250
Grande
ENSAMBLE
Imagen-fuente
Chica FUENTE
Fuente conceptual
Una Múltiple
Figura 3. Campo bidimensional de posibilidades para las combinaciones de imagen-fuente

y de fuente conceptual, creadas a través de la acción del agrupamiento perceptivo
por el juego con el agrupamiento perceptivo (véase la figura 3). En el caso

en el que la fuente acústica es perfectamente reconstruida y posicionada en
una sola ubicación, hay una fuente conceptual y una fuente perceptiva que
le corresponde. Esto coincide con las características de fuente. En el caso en
el que la manipulación de la señal-fuente da lugar a múltiples fuentes con-
ceptuales posicionadas en una sola ubicación espacial, el resultado es el de
múltiples fuentes conceptuales, asociadas como una única imagen-fuente. (Si
se produce un borroneo entre una o varias fuentes conceptuales, podría surgir
una ambigüedad respecto de si hay una o más imágenes-fuente con los mismos
atributos espaciales.) En otro caso, si hay múltiples fuentes conceptuales y sus
partes componentes están espacialmente dispersas, entonces la distribución
espacial tiende a sostener una multiplicidad de imágenes-fuente organizadas
como un ensamble. Un ejemplo de esto es una nube granular espacialmente
dispersa (Truax, 1999; Kim-Boyle, 2007).
Lo más interesante, en el caso en que la identidad de la señal-fuente es
mantenida como una fuente conceptual pero sus componentes están espa-
cialmente dispersos, es que hay una clara competencia entre organizaciones
perceptivas. El grado en que los componentes espacializados se separan del
todo (y se aproximan a múltiples imágenes-fuente) determina un amplio
abanico de combinaciones de percepción espacio/fuente. En un extremo del
continuum está la posibilidad de una imagen fuente con un ancho espacial
incrementado. En el otro, está la posibilidad de múltiples imágenes-fuente
251
asociadas con una fuente conceptual única (algo que la organización cogni-
tiva puede combatir). En el medio, están las borrosas fronteras entre fuente/
ensamble y una/muchas imágenes fuente. Un ejemplo particular es el caso en
el que bandas de frecuencia de la señal son sistemáticamente distribuidas
en el espacio, dando lugar a la percepción de una singular/múltiple, fuente/
ensamble, distribuida/s en el espacio (Torchia y Lippe, 2004; Kim-Boyle,
2007). La síntesis granular y el phase vocoding pueden ser manipulados para
crear estas posibilidades en toda la gama de opciones entre imagen-fuente y
fuente conceptual.
Técnicas tipo 2. Existe otro tipo de técnicas que a menudo dan lugar a este
juego con los límites. Este segundo tipo de técnica involucra la ruptura de
la formación de eventos perceptivos a través de la manipulación de la infor-
mación binaural y es, por lo tanto, una técnica que básicamente afecta los
atributos espaciales a lo largo del eje lateral izquierda-derecha. Una conocida
técnica de grabación nos brinda un ejemplo sencillo. Imaginemos que se gra-
ban dos interpretaciones vocales idénticas. Una difiere de la otra solamente
por micro variaciones. Si una de las grabaciones es paneada al parlante de
la izquierda y la otra al de la derecha, el resultado es que se perciben dos
instancias de la misma grabación, una en cada lado. Las diferencias de las
micro variaciones impide la creación de una imagen espacial única. Esta es
una situación extrema en la cual hay una fuente conceptual y dos imágenes-
fuente. Típicamente, las diferencias entre las señales recibidas en cada oído
provocan que la imagen-fuente se ensanche (la medida del ancho puede vin-
cularse directamente a la medida de la similitud entre las señales que llegan
a los oídos, a menudo expresada como el coeficiente de correlación cruzada
interaural).
Hay numerosas maneras de crear microvariaciones que den lugar a
diferencias binaurales y cada una de ellas se puede lograr mediante el proce-
samiento de una señal-fuente para crear múltiples versiones, o sintetizando
múltiples señales-fuente en forma directa. El modo en que las múltiples
señales-fuente son creadas es inmaterial. Creando pequeñas diferencias de
frecuencia estáticas o diferencias de fase estáticas entre las señales-fuente
se obtiene una única fuente conceptual con una imagen-fuente ensanchada
(Kendall, 1995; Potard y Burnett, 2004; Vaggione, 2001). Las diferencias
de frecuencia dinámicas (tales como el jitter o el vibrato) proporcionan un
modo particularmente efectivo de manipular las relaciones entre fuentes
conceptuales e imágenes-fuente. En el caso en que múltiples señales-fuente,
con diferencias de frecuencia dinámicas, sean asignadas a una sola ubicación
(y no creen diferencias binaurales constantes) la magnitud de las diferencias
252
de frecuencia determinará la posición de la fuente conceptual a lo largo de un
continuum que va de una a varias, mientras mantiene una sola imagen-fuente.
Un ejemplo convencional de esto es el chorusing en un solo canal. En el caso
en el que múltiples fuentes estén dispersas espacialmente (de modo tal que
creen una diferencia dinámica binaural en los oídos del oyente), entonces
habrá una imagen-fuente ensanchada, con una o más imágenes conceptuales.
En el caso en el que las diferencias dinámicas de frecuencia sean de una mag-
nitud suficiente, la imagen-fuente ensanchada se fragmentará en múltiples
imágenes. El particular poder que tiene el vibrato para afectar el agrupamiento
auditivo es bien conocido a partir de una demostración de Steve McAdams y
Roger Reynolds (McAdams, 1984; McAdams y Bigand, 1993). Aquí, el vibra-
to sincronizado para los armónicos pares en un canal y los impares en el otro
lleva al oyente a percibir una única imagen sonora. Cuando el vibrato en cada
canal es progresivamente desincronizado, el oyente gradualmente empieza a
percibir dos imágenes auditivas. Al igual que en el campo bidimensional de
posibilidades de la figura 3, la figura 4 representa la asociación del cambio
de tamaño de la imagen-fuente y el número de fuentes conceptuales. Una
representación más completa se muestra en la figura 4b, en la que se agrega un
tercer eje para captar el número variable de estratos auditivos.
Atributos inmersivos
Hasta aquí, discutimos el impacto de estas dos categorías de técnicas de proce-

samiento en el atributo espacial de ancho, aunque otros atributos espaciales,
como el de distancia y profundidad también son afectados. Cuando Rumsey
formula la pregunta sobre cuándo el ancho de una fuente se vuelve de una
magnitud tal como para crear “envolvimiento”, está apuntando a una relación
entre los atributos espaciales dimensionales e inmersivos. Cuando se crean
imágenes sonoras que rodean al oyente, las técnicas del primer tipo tienden a
crear un “envolvimiento relativo a las fuentes”∗, mientras que las técnicas del
segundo tipo tienden a crear “envolvimiento ambiental”. Estas últimas están
íntimamente relacionadas a la reverberación artificial y a las condiciones bajo
las cuales el oyente percibe inmersión en un campo reverberante (Mason,
2002). De hecho, podemos ver la reverberación multicanal como otra técnica
de procesamiento del segundo tipo, que produce una imagen que puede ir de
angosta a ancha, con una única fuente conceptual. La figura 5 ilustra cómo
los resultados de la reverberación y el chorusing pueden ser representados en el
campo bidimensional de posibilidades.
∗ Source-related envelopment, en el original. [N. del T.]
253
Grande
Imagen-fuente Vibrato
McAdams/Reynolds
Chica
Fuente conceptual
Una Múltiple
(a)
Grande
Vibrato
McAdams/Reynolds
Imagen-fuente
Chica
Una Múltiple
Uno Fuente conceptual
Estratos
Múltiples Dos imágenes
(b)
Figura 4. El rango de posibilidades asociadas con la demostración de vibrato de MacAdams/

Reynolds: a) representación en dos dimensiones y b) representación en tres dimensiones
En el contexto de una escucha cotidiana los campos sonoros inmersivos son

principalmente experimentados como parte del fondo acústico. Estamos
permanentemente rodeados por un aluvión de sonido que aprendemos a
ignorar, mientras dirigimos nuestra atención a los eventos del primer plano
acústico. Una forma importante en la que la manipulación de los atributos
254
Grande multi-channel multi-channel
Imagen-fuente reverb chorusing
Chica mono mono
Fuente conceptual
Una Muchas
Figura 5. Los resultados de la reverberación y chorusing considerados en el campo bidimen-

sional de posibilidades
inmersivos puede originar contenido artístico es a través de la perturbación

de las asociaciones espaciales normales entre fondo y primer plano. Esto puede
ocurrir cuando el primer plano acústico es en sí mismo de tipo inmersivo. Así
también, el proceso cotidiano de agrupamiento perceptivo y de formación
de eventos es relativamente constante de un momento a otro. Y aunque los
cambios dinámicos en las técnicas de los tipos 1 y 2 no han sido directamente
estudiados aquí, debería ser evidente que la perturbación del agrupamiento
perceptivo puede modificarse a través del tiempo. El campo bidimensional
de posibilidades puede ser recorrido transversalmente en forma dinámica. El
contenido artístico es creado por la manipulación dinámica de atributos espa-
ciales que son típicamente estáticos –por ejemplo, haciendo que un sonido
angosto devenga ancho e inmersivo. Tanto la puesta en primer plano de cam-
pos sonoros inmersivos como la lenta manipulación dinámica de agrupamien-
tos perceptivos son aspectos importantes de numerosas obras electroacústicas,
especialmente de aquellas dedicadas a la composición de paisajes sonoros.
Juego con los esquemas auditivos espaciales
Un buen ejemplo de un esquema espacial general con una representación

auditiva es la contención. Construimos nuestra comprensión de la conten-
ción a través de una interacción con el mundo que involucra a todos nuestros
sentidos. Este proceso incluye la experiencia de objetos moviéndose hacia
dentro o saliendo hacia fuera de otros objetos que tienen su respectivo espacio
255
interno, un espacio que puede contener a otro objeto. Lo que hemos aprendido
sobre la contención como esquema auditivo es que un objeto con un espacio
interno que contiene un objeto sonoro transforma a ese objeto dependiendo
de las características del contenedor. Más aun, una sala es una especie de con-
tenedor, un tipo particular de contenedor que puede contener tanto al oyente
como a los objetos sonoros. Una sala transforma el sonido de modo diferente
que otros contenedores, en parte debido a que también produce un sentido de
inmersión para el oyente cuando este se encuentra dentro de la sala. Estos
conceptos se representan gráficamente en la figura 6.
El juego artístico con los esquemas auditivos espaciales en la música
electroacústica puede realizarse de muchas formas. Una manera análoga a los
ejemplos anteriores es la manipulación de las expectativas normales. La viola-
ción de esquemas espaciales auditivos tiene el efecto de dirigir la atención del
oyente hacia un contenido resaltado por relaciones inusuales o inesperadas.
De esta manera, el dominio de la perturbación deviene tema para la expresión
artística. Por ejemplo, consideremos la posibilidad del oyente de estar dentro
de un contenedor que no sea una sala (el juego entre espacio abierto y espacio
contenido es un elemento central en la obra de Denis Smalley, Empty Vessels
(2000), en la cual el punto de vista del oyente está alternativamente en un
espacio abierto o dentro de un enorme maceta de jardín). Consideremos
también la posibilidad de que un oyente perciba el sonido de una fuente pro-
viniendo de una dirección determinada y el sonido de la sala que contiene a la
fuente llegando desde otra dirección. Estas posibilidades están representadas
gráficamente en la figura 7.
a)
b)
Figura 6. Esquemas auditivos espaciales: a) representación de la contención y b) represen-

tación de sala
256
a)
b)
Figura 7. Violaciones de los esquemas auditivos espaciales: a) violación de contención y b)

violación de sala
Conclusión
Uno de los aspectos más importantes que diferencian a la música electroacús-

tica respecto de la acústica es el rango expandido de su paleta espacial. En
el nivel más inmediato de apreciación, esta paleta espacial es un producto
directo de la tecnología de reproducción sonora. En un nivel de apreciación
más sofisticado, es el producto de la interacción entre la tecnología y la
respuesta del oyente al contenido espacial auditivo. Hemos tratado formas
importantes en las cuales la espacialidad de la música electroacústica mani-
fiesta un sentido artístico al re-formar y reformular los patrones normativos de
la experiencia espacial. Y hemos examinado específicamente las posibilidades
de sentido espacial creadas por la perturbación del agrupamiento perceptivo y
la violación de los esquemas espaciales. De esta forma, hemos provisto medios
adicionales para interpretar y analizar el amplio arte de la espacialidad en la
música electroacústica. También esperamos haber abierto la puerta a nuevas
posibilidades en el arte espacial auditivo.
Agradecimientos
El autor quiere agradecer especialmente a Mauricio Ardila por las muchas dis-
cusiones profundas sobre inmersión y audio espacial que ayudaron a inspirar
el presente artículo.
257
Bibliografia
Ando, Y. (1998), Architectural Acoustics: Blending Sound Sources, Sound Fields,

and Listeners, Nueva York, Springer-Verlag.
Barron, M. y A. H. Marshall (1981), “Spatial impression due to the early
reflections in concert halls: The derivation of a physical measure,”
Journal of Sound Vibration, 77(2).
Berg, J. y F. Rumsey (2003), “Systematic Evaluation of Perceived Spatial
Quality”, Actas de la 24º Conferencia internacional de la Audio Engineering
Society.
Bregman, A. S. (1990), Auditory Scene Analysis: The Perceptual Organization
of sound, Cambridge, mit Press.
Griesinger, D. (1997), “The psychoacoustics of apparent source width, spa-
ciousness and envelopment in performance spaces”, Acustica, 83.
Johnson, M. (1987), The Body in the Mind: The Bodily Basis of Meaning,
Imagination, and Reason, Chigago, University of Chicago.
Kendall, G. (1995), “The Decorrelation of Audio Signals and Its Impact on
Spatial Imagery”, Computer Music Journal, 19 (4).
Kim-Boyle, D. (2007), “Spectral and Granular Spatialization with Boids”,
presentado en seamus 2007 National Conference, Ames, Iowa.
Mason, R. (2002), Elicitation and measurement of auditory spatial attributes in
reproduced sound, tesis de doctorado, University of Surrey.
Mason, R., T. Brookes y F. Rumsey (2005a), “Frequency dependency of the
relationship between perceived auditory source width and the interaural
cross-correlation coefficient for time-invariant stimuli”, Journal of the
Acoustical Society of America, 117 (3).
Mason, R., T. Brookes y F. Rumsey (2005b), “The effect of various source
signal properties on measurements of the interaural crosscorrelation
coefficient”, Acoustical Science and Technology, 26 (2).
McAdams, S. (1984), “Spectral Fusion, Spectral Parsing, and the Formation
of Auditory Images”, disertación doctoral, Stanford University.
—— y E. Bigand (1993), Thinking in Sound: The Cognitive Psychology of
Human Audition, Oxford, Oxford University Press.
Potard, G. e I. Burnett (2004), “Decorrelation Techniques for the Rendering
of Apparent Sound Source Width in 3D Audio Displays”, Proceedings of
the 7th International Conference on Digital Effects.
Reynolds, R. (1982) “‘Archipiélago’ para conjunto instrumental y sonidos
generados por computadora”, (disponible en el cd “Roger Reynolds/ The
Paris Pieces”, Neuma 450-491).
Rumsey, F. (2002), “Spatial Quality Evaluation for reproduced Sound:
258
Terminology, Meaning, and a Scene-based Paradigm”, Journal of the
Audio Engineering Society, 50 (9).
—— (1999), “Subjective Evaluation of the Spatial Attributes of Reproduced
Sound”, Proceedings of the Audio Engineering Society 15th International
Conference.
Smalley, D. (2000), Program notes to Empty Vessels included in the compact
disk About Sources/scenes, IMED 0054, empreintes DIGITALes, 2000.
—— (2007), “Space-form and the acousmatic image”, Organised Sound, 12
(1).
—— (1986),“Spectromorphology and structuring processes”, en Emmerson,
S. (ed.), The Language of Electroacoustic Music, Basingstoke, Macmillan
Press.
—— (1997), “Spectromorphology: explaining sound-shapes”, Organised
Sound, 2 (2), Cambridge, Cambridge University Press, pp. 107-126.
Torchia, R. y C. Lippe (2004), “Techniques for Multi-Channel Real-Time
Spatial Distribution Using Frequency-Domain Processing”, Proceedings of
the 2004 Conference on New Interfaces for Musical Expression.
Truax, B. (1999), “Composition and diffusion: space in sound in space”,
Organised Sound, 3 (2).
Vaggione, H. (2001), “Composing Musical Spaces By Means of Decorrelation
of Audio Signals”, Addendum of the Conference on Digital Audio Effects.
Zacharov, N. y K. Koivuniemi (2001), “Unravelling the Perception of Spatial
Sound Reproduction”, Proceedings of the Audio Engineering Society 19th
International Conference.
(Traducción al español de Martín Liut)
259
Capítulo IX
Descentramiento y concreción del espacio
en la música del siglo XX
Pablo Fessel
Introducción
La localización de la música –el hecho de que esta, considerada como acon-

tecimiento, ocurra siempre en un espacio determinado– permaneció, durante
buena parte de su historia, como un atributo exterior al fenómeno, propio de
la representación, pero ajeno a la inmanencia estética. El espacio se volvió
una variable compositiva en el siglo xx, y es a partir de allí que obras como las
compuestas por Giovanni Gabrieli para la catedral de San Marcos, o el Finale
de la Sinfonía N° 6 de Gustav Mahler, se constituyen en antecedentes, expre-
sión de una historia intermitente. Pero esos antecedentes, precisamente por su
condición ocasional, no alcanzan a explicar la emergencia del espacio como
materia compositiva en la música del siglo xx. Esa irrupción podría pensarse
como exteriorización de un espacio inmanente de la música. Esta posibilidad
da lugar a una pregunta por las condiciones que rigen el pasaje del espacio
inmanente al espacio físico. El concepto de textura podría operar como un
concepto de pasaje: su desarrollo en la música de concierto del siglo xx permi-
te establecer un vínculo conceptual entre estos dos órdenes del espacio.
El espacio inmanente
Durante siglos el espacio de la música fue representado a partir de una ana-

logía con el lenguaje.1 Su conformación descansaba en el principio de la
1 La primera formulación de la analogía entre la música y el lenguaje en la tradición occidental

parece encontrarse en un tratado anónimo del siglo ix denominado Musica Enchiriadis. Allí se
establecen dos paralelos importantes. Uno es el de los sonidos de la música con las letras-sílabas
de la voz hablada; el otro es el de la cláusula musical con la estructura oracional. Véase Powers
(1980, p. 49).
261
sucesividad. La música disponía sus materiales en forma sucesiva, al igual que
el discurso lo hace con las oraciones de que se compone. La linealidad se cons-
tituyó así en la organización básica de ese espacio musical. La polifonía no
hizo más que complicar esa representación, sin alterarla en sus fundamentos.
La música polifónica estaba concebida como resultado de una “superposición”
de líneas.2
La progresiva racionalización de las simultaneidades sonoras que resul-
taban de tales superposiciones expuso la insuficiencia de esa representación
y derivó en una revalorización del antiguo paradigma pitagórico.3 Pero el
espacio de la música sólo se dejó regir bajo los principios de la matemática
al precio de su reducción a los atributos abstractos de la altura musical. Así,
durante el período tonal, la racionalidad del espacio descansó en una regula-
ción de las relaciones entre los sonidos simultáneos basada en sus relaciones
de altura. El concepto de acorde resumía, en su carácter abstracto, la logici-
dad del espacio musical.
Mientras la tonalidad conservó su naturalidad aparente o su actualidad
histórica, el espacio de la música mantuvo una condición unitaria. La tonali-
dad no sólo aseguraba un cierto grado de cohesión de los diversos momentos
formales en el tiempo de la obra, sino que también cohesionaba, integraba
su simultaneidad. La identificación de la tonalidad como una segunda natu-
raleza, esto es, el reconocimiento de su carácter histórico y convencional, a
comienzos del siglo xx, posibilitó un descentramiento del espacio musical.
Este perdió la referencia a un elemento organizador unitario.
Paralelamente a su descentramiento, un proceso contemporáneo modi-
ficó el espacio de la música en otro aspecto y de modo no menos profundo.
Mientras la música se ordenó sobre la base de alguna forma de tematismo, el
espacio tuvo el carácter de una dimensión secundaria de la estructura musi-
cal, derivada de una disposición de materiales concebidos con anterioridad a
aquel. Su conformación concreta estuvo considerada en la teoría de la música
occidental hasta avanzado el siglo xx como un problema de escritura. El aban-
dono del tematismo haría posible concebir el espacio como una dimensión
inmediata, como un atributo del mismo material. El concepto de textura se
constituyó en el pensamiento del siglo xx como uno de los conceptos centra-
les de ese espacio musical descentrado y concreto.
2 Véase la definición de la polifonía como pluralidad de melodías diferentes en el tratado

Summa Musicae (c. 1200), de Johannes. Cf. Gerbert (1784).
3 Para una exposición resumida de la contraposición entre un paradigma lingüístico y un
paradigma matemático en la historia de la teoría de la música, véase Neubauer (1992).
262
La crisis en el sistema de categorías estilísticas
La formulación del concepto de textura en la teoría de la música se correspon-

de con un proceso que se manifestó tanto en el plano de la composición como
en el de la reflexión musical.
Hasta el siglo xx, la representación teórica de la simultaneidad musical
estaba definida por una orientación predominantemente tipológica. Un con-
junto relativamente reducido de categorías estilísticas –de acuerdo con la deno-
minación de Guido Adler (1973)–, entendidas como designación de diferentes
modalidades de escritura musical, daba cuenta de una diversidad de conforma-
ciones de la simultaneidad.4 Esa noción de escritura representa un vestigio de
la antigua concepción retórica de la composición, que entiende la ideación del
material en una primera instancia, como inventio, y la escritura en una segun-
da instancia, como parte de la dispositio.5 El espacio, entendido ahora como
resultado de la disposición del material –incluidas las decisiones relativas a sus
determinaciones tímbrica, registral, etcétera–, en este pensamiento tipológico,
se configuraba en este segundo momento, el momento de la escritura.
A comienzos del siglo xx se desarrollaron formas nuevas de componer la
simultaneidad musical que no se dejaban representar con las categorías esti-
lísticas tradicionales. Este desarrollo iría a repercutir sobre la representación
teórica del espacio musical en el sentido de una expansión del conjunto de
categorías estilísticas, tanto con la incorporación de categorías nuevas como
con una pérdida de especificidad de las categorías tradicionales, dada por las
continuas y fugaces redefiniciones de que fueron objeto.6 La pretensión de
representar conformaciones del espacio musical ajenas a la cultura occiden-
tal, introducidas contemporáneamente a la conciencia europea, supuso un
impacto adicional sobre el sistema de categorías.7 De este modo ese sistema,
que llegó a sustentar el esquema de una filosofía de la historia de la música,8 se
4 La definición de categorías tales como polifonía, homofonía, heterofonía, o puntillismo,

en términos de categorías de escritura musical no hace más que poner en evidencia la
falta de conceptos correspondientes a la esfera del fenómeno. La descripción, carente de
herramientas en el plano del objeto, se vuelve sobre el procedimiento, respecto del cual el
resultado sonoro debiera ser un mero reflejo.
5 Cf. Bonds (1991).
6 Basta revisar la meticulosa reconstrucción de las conceptualizaciones de la polifonía en
el HMT y el New Grove (ambas de Wolf Frobenius) para comprobar el alcance de estas
redefiniciones. Véase Frobenius (1980; 2001).
7 Véase Fessel (2007c).
8 Según el cual la música occidental habría evolucionado de la monofonía a la polifonía,
y de esta última a la homofonía armónica. Para una versión de este esquema, cf. von
Helmholtz (1863).
263
debilitó y terminaría por fragmentarse. La aproximación categorial dio lugar a
una aproximación conceptual, fundada en el concepto de textura.
La textura
El término “textura” designa cierta forma de discontinuidad en la conti-

nuidad. La etimología del término, así como su sentido corriente, ofrecen
paráfrasis de su concepto. La etimología lo deriva de una noción de tejido o
entramado.9 Esta derivación subraya uno de los aspectos relevantes del concep-
to de textura, que alude a su carácter compositivo: la textura resulta de alguna
forma de multiplicidad.
El sentido corriente del término le asigna dos atributos fundamentales.
El primero corresponde al orden de lo visual. La textura puede ser entendida
como una cualidad vinculada con la apariencia concreta de una superficie,
con independencia de sus atributos formales o de color.10 El acento recae en
la cualidad material de la superficie. Esta cualidad se resiste, en este sentido,
a una transposición al plano del lenguaje verbal como no sea sobre la base
de categorías vinculadas al orden de lo táctil. De aquí se deriva un segundo
aspecto del concepto de textura en su sentido corriente: la textura puede ser
entendida como una propiedad de los objetos mismos, aprehensible mediante
el tacto.11
El término “textura” se incorporó al vocabulario técnico de la música
en lo que aparentan ser dos sentidos disímiles, pero que se corresponden en
realidad con una focalización unilateral sobre uno de los dos elementos que
designan el concepto, la discontinuidad o la continuidad. Un primer sentido
se aplica a la constitución de la simultaneidad musical, a la representación de
su disimilitud. La textura se identifica con conceptos como el de estratifica-
ción y se presenta como forma de la simultaneidad. El concepto entra en este
sentido en una serie histórica junto con –o, más precisamente, en sustitución
de– categorías como las de polifonía, homofonía, heterofonía, entre otras. El
segundo sentido se aplica a la designación de una clase históricamente pre-
cisa de materiales musicales. Esa designación coloca a la textura junto con
9 Del latín tĕxtum, tejido, y texĕre, tejer. Cf. Corominas (1991).

10 Esta cualidad se encuentra destacada asimismo en ámbitos como los de la percepción
visual o la fotografía. Cf. Gibson (1950); Reed y Jones (1982, p. 94); Gardner (1972, pp.
40-59); y Moor y Moor (1996). Esa condición concreta de la textura es constitutiva tam-
bién del empleo del término en el ámbito de la crítica literaria, donde la textura designa el
material verbal mismo, anterior a su estructuración narrativa. Véase Baßler (1994).
11 Para una concepción eminentemente táctil de la textura musical, cf. Clifton (1983).
264
una serie de conceptos como los de motivo, tema y material. Los materiales
caracterizados como texturas tienen como uno de sus atributos esenciales el
de no existir con anterioridad al espacio musical en el que se encuentran. A
diferencia del motivo y el tema, susceptibles de una disposición en la simul-
taneidad musical –en la voz superior, en el comes, o repartidos en la textura
como en la durchbrochene Arbeit, por mencionar sólo algunas posibilidades–,
el espacio que despliega la textura representa uno de sus mismos atributos.12
En esta concepción, la textura alude al contenido concreto de la simultanei-
dad y se identifica con conceptos como los de material y sonoridad. El con-
cepto de textura se revela así como un concepto antinómico, una antinomia
dada por la contraposición entre una concepción formal y una concepción
material de la textura.
Emancipación de la textura
La diferenciación que instaura el concepto de textura entre una acepción

ligada a la constitución de la simultaneidad y otra ligada al material es indi-
sociable de desarrollos precisos de la textura en la música de concierto en el
siglo xx. Se trata, por una parte, del desarrollo de un alto grado de disociación
en la simultaneidad musical, así como, por otra parte, de la realización de una
significativa integración y concreción.
El primer proceso encuentra una manifestación temprana y radical a
la vez en la música de Charles Ives. Obras como The Unanswered Question,
Central Park in the Dark, Decoration Day, Over the Pavements, compuestas en
la primera década del siglo xx desarrollan una acentuada individuación en la
textura. Los elementos que la conforman se desarrollan en forma autónoma
hasta tal punto que se independizan de la totalidad, la cual integran, pero que
ya no los rige. Resulta así una textura estratificada y heterogénea. La estra-
tificación se constituye como un elemento alegórico, como una condición
inorgánica de la textura.
Dos elementos permiten situar esta música como un puente para pensar
una continuidad estética entre el espacio inmanente y el espacio físico. Por una
parte se presenta, en obras como Central Park in the Dark o Decoration Day, un
12 Se consuma así una inversión en la relación entre “tema” y espacio, inversión que la
textura, entendida como designación de un material musical, da por sentada. La ubicación
del concepto de textura en una serie junto con los de sujeto, motivo y tema no lo vuelve un
concepto temático, en el sentido de que la textura, entendida como material, no está ligada
necesariamente con la elaboración temática. La serie sujeto-tema-motivo-textura designa
elementos vinculados al orden de lo particular en la obra musical.
265
fenómeno de enmascaramiento textural, que se podría entender incluso con
categorías pictóricas, como un estrato que cubre a otro –en una idea etimoló-
gicamente más literal del enmascaramiento. Se revela aquí una concepción
del espacio vinculada a una ilusión de proximidad, en la cual un material se
ubicaría delante de otro, al que oculta. Se trata sin duda de términos figurados,
pero esta representación del espacio se aproxima ya conceptualmente a la
figuración del espacio físico. La textura estratificada, por otra parte, asociada a
una individuación de los elementos que componen la totalidad, representa una
precondición para la incorporación del espacio a la música, en la medida en
que el espacio físico de la música tradicional cuenta como totalidad, y por eso
mismo se cancela en cuanto tal. Ese espacio es todavía homogéneo, y en ese
sentido indistinto. La operación compositiva del espacio presupone en cambio
una disociación al interior de ese campo espacial. Es allí donde se puede ubicar
ese punto de unión entre la textura estratificada, basada en la individuación
de los elementos que la componen, y la disociación del espacio, que permite
operar con él como una dimensión compositiva.
El segundo proceso de desarrollo de la música de concierto en el siglo xx
se manifiesta de forma inequívoca en la música de György Ligeti, compues-
ta luego de su contacto con los compositores seriales ligados al círculo de
Darmstadt. La generalización de la serie en la música de estos compositores
había terminado por producir una indiferenciación interválica, contradic-
toria con el principio serial. A la dispersión de la textura característica del
serialismo de la década de 1950, Ligeti contrapone una textura compleja pero
en última instancia integrada, próxima a una idea de masa.13 Una individua-
ción análoga a la de la estratificación resulta en este caso del abandono de
los principios abstractos para la conformación de la simultaneidad musical.
La textura entendida como sonoridad se encuentra ligada a un pensamiento
concreto de los materiales. El tratamiento matérico de la sonoridad, como
“sustancia” de la simultaneidad, se ubica aquí en primer lugar.14
Los dos procesos tienen, en última instancia, un origen común. Ambos
representan consecuencias disímiles de la crisis y disolución de la tonali-
dad. En efecto, la incorporación de niveles crecientes de disonancia en la
estructura acórdica en la música del siglo xix terminaría por desdibujar las
oposiciones tonales.15 Una de las consecuencias de esta indiferenciación
acórdica estará dada por el detrimento del papel del acorde como regulador
13 Para un análisis textural de Apparitions, obra que marca una articulación en la producción
compositva de Ligeti, véase Fessel (2007b).
14 Sobre este punto véase Fessel (2007a).
15 Esta interpretación histórica se encuentra desarrollada en Hualpa (1985).
266
de una simultaneidad integrada. La indiferenciación acórdica determina,
indirectamente, una individuación de los estratos que conforman la textura.
Esa individuación puede interpretarse así, en la música de Ives, como una
crítica inmanente de la condición vinculante de la simultaneidad dada por
la tonalidad.
Una indiferenciación análoga operada sobre la categoría del intervalo
terminaría por neutralizar el carácter distintivo de la serie en la música cen-
troeuropea de la década de 1950. La indiferenciación estructural que Ligeti
interpreta como fatalidad del serialismo conducirá a las texturas integradas
características de su propia música desde la década de 1960. En esa indiferen-
ciación, que terminaría por alcanzar a la misma abstracción del pensamiento
musical, se concentra la crítica de Ligeti al desarrollo del serialismo durante
la década de 1950. Como en Ives, la indiferenciación se vuelve, dialéctica-
mente, individuación. En el caso de Ligeti, la individuación de las sonorida-
des es tal que su carácter interválicamente equivalente se vuelve irrelevante.
No se trata sólo de que la distinción entre consonancia y disonancia haya
sido neutralizada. El intervalo como categoría –su naturaleza abstracta–
pierde toda sustancia en una música que destaca el carácter concreto de sus
sonoridades.
Se establece así un notable paralelismo en los desarrollos de la textura
en uno y otro caso. Su conformación representa una expresión, disímil e
históricamente distante, de procesos similares de indiferenciación e indivi-
duación creciente. La crítica de la idea de totalidad por la individuación y
de los principios abstractos por la concreción textural son las expresiones
más claras de nominalismo en el proceso histórico que Jonathan Dunsby
caracterizó, no sin algo de énfasis, como “emancipación de la textura” (véase
Dunsby, 1989).
Hacia una estética de la heterogeneidad y de la concreción
Distintas posibilidades de la textura –las texturas estratificadas de Ives, así

como las texturas complejas e integradas de Ligeti– parecen coincidir en un
punto elusivo: la crítica de nociones afirmativas como las de determinación,
unidad y abstracción de las construcciones musicales. Ese punto señala una
posible dirección para una estética de la textura: se trataría de dilucidar la
racionalidad tanto de la simultaneidad desintegrada como de la concreción,
más allá de su valor negativo como crítica de la integración arbitraria o de
una abstracción unilateral.
Una estética de la concreción tendría que cuestionar la primacía de la
267
estructura, esto es, de la inclusión de los elementos individuales en un entra-
mado funcional, por sobre los atributos concretos del material musical, como
fundamento de su valor estético.16 Se trataría, en otras palabras, de funda-
mentar la racionalidad de una autosuficiencia del material. Por su parte, esa
primacía de las relaciones funcionales sobre la materialidad de las sonoridades
representa una negación del momento de genuina multiplicidad contenido
en el concepto de textura; hace de tal multiplicidad una forma mediata de la
unicidad. Una estética de la heterogeneidad textural podría apoyarse asimis-
mo en una legitimación de la autosuficiencia, dirigida ahora a los estratos que
componen la textura desintegrada.17
No se trataría tanto de negar la pretendida imposibilidad de una ver-
dadera relación entre cosas de distinta naturaleza como de desplazar el foco
de la mirada hacia un plano de especulación que pudiera sustraerse de la
centralidad del concepto de relación, sin relegar por ello los elementos a la
condición de los objetos inertes. La disposición, un atributo capital de la textu-
ra heterogénea, y la materialidad de la textura producen una significativa con-
fluencia desde un punto de vista estético. Ambos suponen un desplazamiento
del concepto de relación, fundado en propiedades abstractas, a la condición
situada, ubicada en un tiempo y un espacio musicales precisos, de la textura
en su particularidad.
Son justamente esos dos atributos, la estratificación y la concreción de la
textura, los que permiten establecer una asociación entre el concepto de tex-
tura y el espacio físico, entendido como objeto compositivo. La estratificación
implica pensar la textura en términos de una disposición de los materiales, y
es precisamente en la idea de disposición que se establece un vínculo con el
espacio. La disposición de las fuentes sonoras en el espacio real de audición
conlleva su descentramiento, la idea de que ese espacio ya no cuenta como
totalidad, sino que se puede concebir como un espacio segmentado y múltiple.
La concreción, por su parte, permite asimismo una transposición al plano del
espacio: a diferencia de la música de concierto tradicional, que presupone
un espacio abstracto, indistinto, la incorporación del espacio físico al diseño
compositivo implica un cierto grado de particularización del espacio en el que
la música acontece.
16 Una discusión a propósito de la música informal se encuentra en Borio (1993) y en Fessel

(2007a).
17 Una estética de la inorganicidad textural alcanzaría también a algunos estilos de jazz,
los que reclaman de la estética algo más que la identificación de un individualismo a

ultranza.
268
Bibliografía
Adler, G. (1973), Der Stil in der Musik, Walluf, Sändig.

Baßler, M. (1994), Die Entdeckung der Textur. Unverständlichkeit in der Kurzprosa
der emphatischen Moderne 1910-1916, Tübingen, Max Niemeyer.
Bonds, M. E. (1991), Wordless Rhetoric. Musical Form and the Metaphor of the
Oration, Cambridge, Harvard University Press.
Borio, G. (1993), “Überlegungen zu Struktur und Textur”, Musikalische
Avantgarde um 1960. Entwurf einer Theorie der informellen Musik, Laaber,
pp. 92-101.
Clifton, T. (1983), Music as Heard. A Study of Applied Phenomenology, New
Haven, Yale University Press.
Corominas, J. (1991), Diccionario crítico etimológico Castellano e Hispánico,
Madrid, Gredos, vol. v, pp. 450-451.
Dunsby, J. (1989), “Considerations of Texture”, Music & Letters, 70/1, pp.
46-57.
Fessel, P. (2007a), “Textura y postserialismo: la discusión sobre el material
musical en György Ligeti y Helmut Lachenmann”, Pauta. Cuadernos de
teoría y crítica musical, 101, pp. 53-66.
—— (2007b), “Forma y concreción textural en Apparitions (1958-59) de
György Ligeti”, Revista del Instituto Superior de Música, 11, pp. 49-86.
—— (2007c), “From stylistic categories to the concept of texture. Changes in
the representation of simultaneity in the music thinking of the early 20th
century”, presentado en el 18vo. Congreso de la Sociedad Internacional
de Musicología, Zürich.
Frobenius, W. (1980), “Polyphon, polyodisch”, en Riethmüller, A. (ed.),
Handwörterbuch der Musikalischen Terminologie, Stuttgart, Steiner.
Frobenius, W. (2001), “Polyphony”, en Stanley Sadie (ed.), The New Grove
Dictionary of Music and Musicians, Londres, Macmillan, vol. 20, pp.
74-83.
Gardner, H., (1972), “On Figure and Texture in Aesthetic Perception”,
British Journal of Aesthetics, 12, pp. 40-59.
Gerbert, M. (1784), Scriptores ecclesiastici de musica sacra potissimum, iii, 239a;
y Huglo, Michel (1993), “Organum décrit, organum prescrit, organum
proscrit, organum écrit”, en Polyphonies de tradition orale. Histoire et traditions
vivantes: Actes du colloque de Royaumont, 1990, Paris, Creaphis, pp. 14 y ss.
Gibson, J. (1950), The Perception of the Visual World, Boston, Houghton
Mifflin.
Hualpa, S. (1985), “Armonía”, La Plata, Universidad Nacional de La Plata,
mimeo.
269
Moor, A. y J. Moor (1996), “Photography”, en Turner, J. (ed), The Dictionary
of Art, London, Macmillan, vol. 24, p. 651.
Neubauer, John (1992), La emancipación de la música. El alejamiento de la
mímesis en la estética del siglo XVIII, Madrid, Visor.
Powers, Harold (1980), “Language Models and Musical Analysis”, Ethno
musicology, 24/1 p. 49.
Reed, E. y R. Jones (eds.) (1982), Reasons for Realism, Hillsdale, L. Erlbaum.
Von Helmholtz, H. (1863), Die Lehre von den Tonempfindungen als physiologi-
sche Grundlage für die Theorie der Musik, reeditado en 1968 en Hildesheim,
por Georg Olms, p. 396.
270
Capítulo x
Integración de la música al espacio virtual
Pablo Cetta
Algunas construcciones musicales pueden ser entendidas como el resultado de

una sucesión o superposición de gestos, movimientos plenos de significación,
cuya organización proviene de las características, direccionalidad y compor-
tamiento de los elementos que las constituyen. Como tales, estos desplaza-
mientos tienen lugar en un espacio multidimensional que les es propio, y que
vamos a denominar el espacio interno de la música.
La música en general es inseparable de su espacio interno. Su aprovecha-
miento es recurrente a lo largo de la historia, y se manifiesta principalmente
asociado al concepto de textura, si bien en épocas más recientes aparece vin-
culado más fuertemente al concepto de timbre.
Aun en los casos más elementales esto se pone claramente de manifiesto.
El contorno melódico de una pieza monódica da cuenta del espacio interno. La
partitura representa tres aspectos, la trayectoria, la velocidad y la aceleración.
La altura se desplaza y la densidad cronométrica se asocia indefectiblemente
a la velocidad del movimiento. Si la dinámica varía, se pone en juego una
nueva dimensión. Si los eventos se repiten aceleradamente pero la altura no
cambia aparece una nueva medida del movimiento, y así en orden creciente al
considerar el grado de tonicidad, las articulaciones, la riqueza del espectro, las
evoluciones dinámicas de los eventos sonoros, el timbre, en definitiva.
Una escucha analítica nos guía a la percepción de diversos parámetros
que se articulan trazando distintas trayectorias; una escucha más integradora,
al reconocimiento de uno o más objetos que cambian de forma en un espacio
n-dimensional.
Estas afirmaciones, que pueden parecer simplistas, no pretenden de
ningún modo explicar lo que la música es, sino más bien tratan de establecer
un punto de partida para explorar posibles nexos entre el espacio sonoro y
el espacio de representación de los sonidos. Apuntan a la fusión del espacio
interno y el espacio externo con el propósito de dar sentido a la composición
musical centrada sobre la localización espacial del sonido.
271
Gran parte de las obras compuestas desde fines de la década de 1940 hasta
principios de la década de 1960 se caracterizaron por la búsqueda de una inte-
gración de los parámetros musicales partiendo de la organización de la altura
en series dodecafónicas. Tal es el caso de Three Compositions for Piano (1947)
de Milton Babbitt, donde el compositor deriva de una serie pancombinatoria
la dinámica, los ritmos, los intervalos de ataque de las notas, el orden de las
acentuaciones y la densidad polifónica, anticipándose al racionalismo extremo
de Modo de valores e intensidades (1949) de Olivier Messiaen. Es aquí donde
comienza un nuevo camino de intentos de formalización absoluta de la música,
basado como es bien sabido en las creaciones de la Segunda Escuela vienesa.
Más hacia fines del período en cuestión, basta con observar la primera
y la última página de la Klavierstücke IX (1961) de K. Stockhausen, para
determinar la resultante de la composición de fuerzas que allí operan. El autor
propone una trayectoria que parte de un nivel máximo de periodicidad (un
acorde repetido 140 veces) para finalizar con un alto grado de aperiodicidad
(acciacaturas rápidas ubicadas aleatoriamente dentro del compás), con los
desvíos intermedios necesarios que le permiten construir el discurso musi-
cal. El concepto de periodicidad se proyecta a la vez sobre otros parámetros,
estableciendo comportamientos cíclicos del registro, de la dinámica, de las
articulaciones y de la densidad polifónica. Las notas del acorde repetido
conforman las componentes complejas de un espectro en evolución, que va
del ff al pppp, mientras que las frecuencias de movimiento de los parámetros
citados se establecen, en cambio, fuera del registro audible, permaneciendo en
el dominio temporal. Todo esto es discernible a partir de la descomposición
de los movimientos de los parámetros en ejes del espacio multidimensional, o
como una totalidad que transforma de manera muy sutil y compleja el timbre
y el espacio interno de la obra, a partir de movimientos periódicos de distinta
frecuencia. Resulta clara, además, la influencia que en este período ejerce
la música electrónica sobre la composición instrumental. Diversos procesos
propios de la síntesis y la transformación del sonido (uso de filtros, de envol-
ventes, modulación en frecuencia o amplitud, etc.) se trasladan al ámbito de
la creación para instrumentos tradicionales.
Nuevos intentos de integración de los parámetros musicales surgen a
mediados de la década de 1970, a partir de la identificación de las com-
ponentes de la música con las componentes del sonido. Este movimiento,
denominado “espectralista”, encuentra sus antecedentes inmediatos en la
música de Boulez y Stockhausen, pero también en los procesos graduales pro-
pios del minimalismo, y en las paradojas psicoacústicas planteadas por Ligeti.
Así es como Gérard Grisey propone la resíntesis instrumental del sonido del
trombón en Partiels (1975), logrando una fusión íntima de la altura, de la
272
intensidad y del tiempo, tal como aparecen en la naturaleza misma del sonido.
El efecto de zoom temporal, necesario para la reconstrucción mecánica de las
delicadas variaciones de estos parámetros, podría convertirse en clave de una
posible exteriorización del espacio interno de la música.
En este último período también vemos que la incorporación de técnicas
electroacústicas incrementa la riqueza espacial del timbre. En Gondwana
(1980), Tristan Murail resintetiza espectros generados por frecuencia modu-
lada, creando así sonoridades inusuales para la orquesta. Los gestos de la
introducción son claros, doce ataques que modulan gradualmente en espectro,
y cuyas envolventes dinámicas parten de la imitación de una campana hasta
llegar a una trompeta.
Vemos, entonces, que los eventos sonoros, al igual que las estructuras
musicales, se desenvuelven en un espacio propio e interno, delimitado por
los parámetros que los caracterizan. Algunas propiedades de ese espacio son
observables a través de los movimientos de un intérprete o un director de
orquesta, que transforma y exterioriza los recorridos inscriptos en la partitura
en gestos visibles.
En relación al espacio externo, sabemos que si bien la disposición de
fuentes sonoras en el ámbito de representación acompaña a la música desde
sus orígenes –partiendo del canto antifonal o responsorial, pasando por la
policoralidad practicada en San Marcos en el siglo xvi–, es en la década de
1950 donde comienzan a utilizarse fuentes sonoras aparentes como resultado
de la utilización de dispositivos tecnológicos en la música. Gesang der Jünglinge
(1955-1956) de Stockhausen, concebida originalmente para cinco grupos de
parlantes distribuidos en las esquinas y en el techo del auditorio, es la primera
obra electroacústica que explora las posibilidades de la localización espacial
del sonido.
A partir de allí, ocurre una proliferación de obras instrumentales, electro-
acústicas y mixtas que exploran las propiedades del espacio, así como también,
el desarrollo de sistemas de simulación de fuentes aparentes en entornos vir-
tuales mediante el uso de parlantes.
El tratamiento de la localización espacial del sonido en la composición,
siguiendo esta idea de división del espacio en la música, puede concebirse
como una exteriorización del espacio interno, y a la vez, como una interio-
rización del espacio externo. Esto significa que las trayectorias espaciales se
desarrollan en relación a los recorridos interiores del sonido, o bien, que los
parámetros del sonido y la música pueden ser alterados por la trayectoria de
las fuentes virtuales. Distinguimos, entonces, dos casos posibles.
Para el primero, exteriorización del espacio interno, partimos del análisis
del sonido a espacializar. Este proceso, que puede ser realizado en tiempo real,
273
comprende la detección de algunos parámetros, cuyas magnitudes se trasladan
en proporción sobre los ejes de coordenadas del espacio virtual. De este modo,
la altura puede asociarse al eje vertical (eje z), el nivel de tonicidad de los
sonidos al eje x, y la intensidad al eje y. Otras variables fácilmente asimilables
son la duración de los eventos, la densidad cronométrica, la densidad polifóni-
ca o la riqueza del espectro. Cualquier variación de estas magnitudes se refleja
en un desplazamiento de la fuente en el espacio.
Un mismo fragmento sonoro puede realizar trayectorias bien distintas,
pues depende de la terna de parámetros y el sistema de coordenadas elegido
(cartesianas o esféricas). En cualquier caso, existe un marcado correlato entre
las transformaciones de los eventos sonoros y su distribución espacial. Y al
existir dos o más fuentes, la espacialización nos ayuda a apreciar y comparar
la materia sonora de cada una de ellas, a “visualizar” sus diferencias a partir de
las distintas trayectorias que se establecen.
Veamos un ejemplo. Existe un modo de representación de la altura, uti-
lizado en psicoacústica, en el cual los grados cromáticos se distribuyen bajo la
forma de una espiral ascendente, y donde las notas de igual nombre coinciden
verticalmente. La espacialización de este modelo conduce a una registración
espacial de la altura, pues cada grado ocupa un lugar fijo en el espacio virtual.
Si ejecutamos una escala cromática de cuatro octavas, el sonido del instrumen-
to define una trayectoria que gira cuatro veces, a la vez que asciende. Resulta
interesante observar lo que sucede con la velocidad de desplazamiento de la
fuente en relación a la interválica de un fragmento musical, pues si en lugar de
ejecutar una escala cromática interpretamos una escala por tonos, la velocidad
del movimiento se duplica. En una situación más compleja, los intervalos que
se suceden linealmente se manifiestan en el espacio como transformadores
de la velocidad, mientras que la direccionalidad melódica determina el sen-
tido de giro. Siguiendo el mismo criterio, podemos incorporar la dinámica al
modelo, de modo que influya en el diámetro de la espiral. Nuevamente aquí,
la superposición de dos o más fuentes conduce a la percepción de una imagen
sonora del contrapunto que resulta muy efectiva.
Cuando se trata de detectar los parámetros del sonido que ingresan a la
computadora, la programación del entorno de procesamiento en tiempo real
requiere ciertas consideraciones. En este último ejemplo, que el sistema rea-
lice las interpolaciones necesarias frente a cambios bruscos de altura, o tome
decisiones cuando el grado de tonicidad de los sonidos es muy bajo.
En general, es necesario desarrollar previamente un modelo eficaz para
el posicionamiento de las fuentes, basado en transformaciones geométricas,
cualquiera sea el sistema de espacialización utilizado. Encuentro apropiado,
en particular para otras aplicaciones que veremos más adelante, un modelo
274
basado en dos vectores solidarios, ambos de longitud variable. El primero parte
del origen de coordenadas, ubicado en el centro del espacio virtual, y llega
hasta un punto definido por su magnitud, un ángulo de azimut y un ángulo
de elevación. El segundo, unido al extremo del primero, define su posición a
partir de las mismas tres variables, como si se tratara del satélite de un planeta
en movimiento. Esto permite lograr desplazamientos complejos y fácilmente
controlables, donde una o más fuentes –satélites– rotan sobre sus ejes a la vez
que se desplazan en conjunto.
Aun más, teniendo en cuenta que la exteriorización del espacio interno
de determinados fragmentos musicales puede ser aprehendida rápidamente
por el oyente, la rotación y la traslación sobre los tres ejes de la imagen acús-
tica completa brinda una riqueza todavía mayor. En relación al ejemplo de
registración espacial de la altura, la espiral gira o se desplaza, siguiendo una
trayectoria prefijada, o bien de acuerdo al comportamiento de otras caracte-
rísticas presentes en la música.
En relación a la interiorización del espacio externo, la composición del
espacio transforma al sonido. Partimos ahora de una trayectoria establecida
de algún modo, que puede o no depender del comportamiento de la música.
El movimiento se descompone sobre los tres ejes de coordenadas y estos valo-
res, convenientemente escalados, modifican tres aspectos sonoros elegidos.
Veamos un ejemplo, los valores x, y y z de un recorrido afectan a la frecuencia
de corte, al ancho de banda y a la ganancia de un filtro aplicado a uno o varios
objetos sonoros. La trayectoria puede ser externa a la música o bien, a fin de
establecer un correlato, ser extraída del registro, del ámbito y de la dinámica,
respectivamente, del fragmento musical compuesto a partir de esos objetos.
Los usos compositivos que surgen de estas ideas son muy variados. Si bien
buscamos un vínculo fácilmente perceptible entre música y espacio, es posible
establecer diferencias que enriquezcan el discurso a partir de procedimientos
simples como la imitación, aumentación o disminución, y retrogradación de
las relaciones entre los recorridos internos de la música y las trayectorias de las
fuentes virtuales, o incluso, de las dimensiones o características acústicas del
espacio virtual.
Es posible lograr una interiorización eficaz del espacio externo a partir de
comparar el tiempo subjetivo de un fragmento musical con las dimensiones
del espacio virtual. Desde el punto de vista perceptual, al aumentar el espacio,
la sensación de transcurso del tiempo parece disminuir. Esta idea, considerada
a través del tema que nos ocupa, puede justificarse a través de diversas causas,
una es la acción de la reverberación, que disminuye la resolución temporal.
Otra surge en relación a los primeros ecos, los intervalos entre los tiempos de
arribo de las primeras reflexiones aumenta a medida que el espacio crece.
275
Al citar ese breve recorrido histórico, caracterizado por una búsqueda
de integración de los parámetros musicales, hice mención del efecto de zoom
temporal aplicado al análisis de un sonido para su posterior resíntesis instru-
mental, utilizado por los espectralistas. Podríamos partir del mismo principio
con el propósito de establecer un nexo entre las cualidades del espacio virtual
y las relaciones temporales de una pieza musical. Si efectuamos un aumento
considerable de las dimensiones del espacio, aumentan en proporción las
diferencias en los tiempos de llegada de las reflexiones. El cambio de escala
trae aparejado un cambio en la percepción, pasamos de mínimas diferencias
temporales, que favorecen la localización, a tiempos de ataque expresables en
términos de ritmo musical.
Estas transformaciones en el modo de percibir el sonido ocurren de muy
variadas formas. Es bien sabido que si utilizamos una línea de retardo con
realimentación con un tiempo muy breve el sonido se transforma a nivel
espectral, si aplicamos en cambio un tiempo mayor percibimos un fenómeno
similar al eco. Algo parecido ocurre al aumentar gradualmente la frecuencia
de un generador de pulsos, al principio oímos sonidos breves separados por
un determinado intervalo de tiempo, luego un único sonido cuya altura
varía con la frecuencia. La diferencia en la percepción de eventos repetidos
a bajas frecuencias y a frecuencias “audibles” sirvió como punto de partida a
Stockhausen en su intención de establecer una relación coherente entre la
altura de los sonidos y sus duraciones, aplicable a la composición musical.
La técnica de producción de ritmos a partir del análisis de las reflexiones
permite generar secuencias modulatorias interesantes y variadas, de acuerdo
a la trayectoria establecida. La ampliación gradual del espacio virtual lleva,
a partir de cierto punto, a la percepción de una célula rítmica susceptible de
ser resintetizada mediante instrumentos convencionales. Y en tal sentido, las
dimensiones del ambiente se manifiestan como un indicador de tempo.
Para alcanzar este propósito de forma rápida y efectiva diseñé un pro-
grama de computación cuyas variables de entrada son las dimensiones de un
ambiente tridimensional y la trayectoria de una fuente virtual que reproduce
un sonido impulsivo. Este programa devuelve en tiempo real una secuencia
de células rítmicas, que resultan de capturar periódicamente el estado de las
reflexiones a intervalos especificados por el usuario, fácilmente trasladables
a notación musical ya que las diferencias entre los tiempos de ataque son
cuantizadas a un mínimo valor elegible. Los datos obtenidos conforman un
material útil en la composición de procesos graduales. En estos, la trayectoria
de la fuente se relaciona de un modo firme con las estructuras temporales que
establecen el orden de los eventos sonoros de un fragmento musical.
Otros modos de exteriorizar el espacio interno de la música se relacionan
276
con el tratamiento de la textura. Los mayores indicios que revelan al sistema
perceptual la posición de una fuente ocurren durante el ataque del sonido. Es
por eso que nos resulta difícil detectar las sucesivas posiciones de un sonido
largo, y no iterativo, que se encuentra en movimiento. Y una forma creativa
de capitalizar esta dificultad es a través de la fragmentación de eventos conti-
nuantes, proceso que se basa en la distribución espacial de gránulos extraídos
de varias copias del sonido original. La suma de todos los gránulos y su con-
centración en un punto, aplicando las envolventes adecuadas, reconstruye el
sonido. La distribución de los gránulos en el espacio crea, por otra parte, una
textura de interés musical. Para lograr esto, es importante contar con varias
fuentes virtuales que puedan moverse de forma combinada, concentrarse en
un punto o distribuirse gradual y aleatoriamente sobre una parte o la totali-
dad de la superficie de una esfera que rodee al oyente. La integración de la
música al espacio se manifiesta de forma perceptible si la exteriorización de
los comportamientos musicales determina los recorridos o formas descritas
por las fuentes. La duración de cada gránulo, el tipo de envolvente dinámica
establecido, y la densidad de la nube de eventos permiten, a la vez, mutar de
una distribución espacial a una transformación tímbrica que modifica sustan-
cialmente la naturaleza del sonido original.
Una variante posible, partiendo del modelo antes descrito para el posicio-
namiento de fuentes virtuales –basado en dos vectores solidarios controlados
por transformaciones geométricas– es la generación de volúmenes sonoros.
Para ello, partimos de una figura geométrica tridimensional –un cubo por
ejemplo– y ubicamos en cada uno de sus vértices una fuente. La ubicación del
primer vector es la misma para todas las fuentes, parte del origen de coordena-
das y su extremo alcanza el centro del cuerpo elegido. El segundo vector parte
del centro y se dirige al vértice que corresponde, para cada una de las fuentes.
Esto permite una traslación y rotación en conjunto de todos los vértices, como
si se tratara de una forma que se desplaza y gira sobre sí misma. Cada fuente
posee un sonido característico, que proviene de distintos instrumentos, o ver-
siones transformadas tímbricamente del mismo instrumento. De este modo,
la rotación del cuerpo se percibe acústicamente, el objeto virtual nos muestra
sus facetas y sus cualidades materiales, que asociamos con las características
texturales propias de cada sonido o estructura sonora.
Haciendo uso de nuestra imaginación, a fin de llevar esto más lejos aún,
podríamos pensar que quien se desplaza y rodea al objeto es el oyente, como
si se tratara de una verdadera escultura sonora. Tendríamos así la posibilidad
de modificar el tiempo de lectura de ese objeto, y detenernos en aquello
que transmite de acuerdo a nuestro propio tiempo interno. El interés crece,
obviamente, frente a la presencia de diversos objetos interrelacionados y dis-
277
tribuidos en el espacio virtual, y a la de otros eventos cuyo tiempo y espacio
no dependen de nuestra voluntad perceptiva.
Diversos programas de espacialización y composición asistida, así como
parte de las ideas aquí expuestas, han sido la base de la composición de mi
obra Interiores (2004), escrita para flauta, oboe, saxo alto, clarinete bajo y
piano, con procesamiento electrónico del sonido en tiempo real. Tanto la
parte de procesamiento como las aplicaciones de composición asistida fueron
creadas en el entorno Max-msp.1
Las tareas de programación comienzan con el diseño y desarrollo de
varias unidades de localización espacial del sonido basadas en la técnica
Ambisonics,2 con decodificación en ocho canales y parlantes dispuestos en
los vértices de un cubo. El modelo incorpora el diseño del ambiente virtual, el
cálculo y la reproducción en tiempo real de las primeras reflexiones, y la absor-
ción del aire en función de las distancias recorridas. Continúa luego con la
programación de objetos destinados a la generación de trayectorias definidas
en coordenadas cartesianas y esféricas, y a la aplicación de transformaciones
geométricas a diversas fuentes que se mueven en conjunto, utilizando coorde-
nadas homogéneas.
La detección de los parámetros musicales se realiza con diversos progra-
mas orientados a la exteriorización del espacio interno. La altura, la duración
de los sonidos, el grado de tonicidad, la densidad de los eventos, se constitu-
yen en variables de la espacialización. Otras unidades de procesamiento, en
cambio, realizan transformaciones tímbricas de los sonidos instrumentales, y
sirven a la interiorización del espacio externo.
Objetos destinados a la registración espacial de la altura y la generación
de volúmenes virtuales, procesos antes mencionados, junto a la armonización
de determinados sonidos utilizando conjuntos de grados cromáticos, se inte-
gran al programa principal de procesamiento en tiempo real.
Los programas de composición asistida, por otra parte, se utilizan para el
control de la altura en la obra, y para la construcción de secuencias rítmicas
derivadas de los intervalos de ataque del sonido directo y de las primeras
reflexiones.
La obra se divide en 17 secciones, con una duración total aproximada de
25 minutos.
Desde el punto de vista de la notación musical, la escritura de esta pieza
exhibe por momentos cierto grado de flexibilidad en el aspecto temporal, lo
1 <http://www.cycling74.com/products/maxmsp>.
2 <http://www.york.ac.uk/inst/mustech/3d_audio/welcome.html>. Véase, además, el capí-
tulo v de este libro.
278
cual apunta a una mayor libertad y naturalidad en la interpretación, aprove-
chando la posibilidad de tratamiento en tiempo real. Según se observa en la
figura 1, la articulación entre los constituyentes del gesto musical depende
en gran medida de la acción del director, y a simple vista podemos imaginar
trayectorias asociadas a los desplazamientos que ocurren en el espacio interno
de ambos fragmentos.
En esta sección, las articulaciones de los acordes, enmarcadas por el
piano, son cada vez más complejas y variadas. Aumenta gradualmente la
rugosidad de los acordes tenidos, partiendo de sonidos lisos hasta llegar a los
trinos y trémolos. La estructura de alturas es también modulante. El tipo de
distribución espacial de los eventos se realiza por registración espacial de la
altura, y luego por simulación de los primeros ecos, en un ambiente virtual
que crece en dimensiones.
La organización de la altura de toda la pieza se establece a partir de la
utilización de conjuntos de grados cromáticos (pcs, por pitch class sets). Del
análisis de las características de los conjuntos surgen clasificaciones orientadas
a la generación de similitudes, oposiciones o transformaciones entre campos
de altura. En el caso de los conjuntos formados por cuatro sonidos, por ejem-
plo, una clasificación posible surge en relación al grado de asociación respecto
al sistema tonal –acordes de séptima, tríadas con notas agregadas, acorde
bimodal, conjuntos cuyos subconjuntos son acordes por terceras, acordes por
cuartas, fragmentos de escalas reconocibles– o disociación respecto a este
sistema, ordenados por sus características propias.
Las relaciones entre los campos de altura se regulan en función al nivel
de consonancia de cada conjunto. La determinación del grado de consonancia
Figura 1
279
puede establecerse por varios métodos, pero básicamente tiene en cuenta la
cantidad y calidad de las clases interválicas presentes en cada grupo, y la dis-
posición vertical u horizontal de sus sonidos en el registro. En el ordenamien-
to se comparan todos los conjuntos, pero también se establecen subcategorías
de acuerdo a la ausencia de uno o más intervalos en particular, la cantidad de
clases interválicas presentes, la cantidad de transposiciones o inversiones no
redundantes, etcétera.
Considerando este método de organización, la registración espacial de la
altura, y en consecuencia las trayectorias asociadas a los distintos giros meló-
dicos, no solo depende de la direccionalidad y la duración de cada nota, sino
también de la interválica lineal que cada fragmento presenta. A intervalos
más amplios, mayor es la velocidad de desplazamiento de la fuente, por lo cual
es posible especular con la disposición de los pcs en el registro y con sus per-
mutaciones, a fin de controlar la velocidad y la aceleración de los recorridos
sonoros. La figura 2 ilustra de algún modo este fenómeno, que trae aparejado
la percepción del contrapunto en términos espaciales.
El piano, en esta misma sección, ejecuta una secuencia de acordes modu-
lante en consonancia, cuyo ritmo proviene de las relaciones temporales entre
los ecos de un espacio particular, en relación con la posición de la fuente virtual
en ese ámbito (en este caso la reproducción del sonido del instrumento, que
va rotando alrededor de la sala). Luego de este fragmento y eliminado el plano
contrapuntístico, el piano permanece solo continuando la secuencia de acordes.
Se perciben claramente aquí las características modulatorias de la sucesión de
ritmos provenientes de la imitación de los primeros ecos (véase la figura 3).
Por otra parte, el sector M de la obra, rítmicamente muy preciso, presenta
otra instancia de exploración de las primeras reflexiones. En el 6/4 de la figura
Figura 2
280
4 se observa una resíntesis del comportamiento de los primeros ecos, propios
del ambiente simulado. Significa que el comportamiento “natural” de la sala
virtual es luego imitado por los ataques de los instrumentos.
Figura 3
Figura 4
281
Aquí también se trata de un proceso gradual, pues a partir de M, el espa-
cio virtual crece en dimensiones –lo cual se aprecia al escuchar el comporta-
miento de las reflexiones para cada ataque de los vientos– hasta alcanzar un
punto en el cual se produce la resíntesis mencionada.
Pero volviendo al tratamiento de la altura, cuando varios instrumentos
monódicos ejecutan simultáneamente las notas de un conjunto, cada soni-
do se diferencia por su timbre, por el modo de ejecución empleado y por la
ubicación de cada instrumentista en el escenario. Cualquiera de estas carac-
terísticas puede ser transformada aplicando el procesamiento adecuado. Pero
es posible, además, simular la producción de varias alturas organizadas con
un único instrumento monódico, transportando aquella que ejecuta a otras
distancias, y aplicando a cada nota un tratamiento tímbrico diferenciado y
una ubicación particular en el espacio.
Para la implementación de este proceso programé un objeto de control que
genera los índices de transposición a utilizar. Estos índices son calculados para
conjuntos de grados cromáticos de tres y cuatro elementos, cuya denominación
se especifica en una de sus entradas. Si elegimos el pcs 4-15, por ejemplo, e
informamos al programa que la nota ejecutada corresponde a la posición de la
contralto, al tocar un do, es posible obtener do#, mi y fa#, que completan el
conjunto antes mencionado en las tres voces restantes. El objeto calcula una
transposición posible y decide si lo invierte o no, por lo cual, en cada inter-
pretación de la misma nota escuchamos un acorde con la misma estructura
interválica pero transpuesta, invertida, o permutada de formas distintas.
Las transposiciones del sonido de un mismo instrumento presentan un
nivel de coherencia mucho mayor que en el caso de varios instrumentos eje-
cutando las notas de un acorde. Obviamente la relación de las componentes
espectrales es la misma para todas, pero desplazada en frecuencia. Esta carac-
terística genera una integración de los sonidos que guía a la percepción de un
único espectro, por lo cual este tratamiento de la altura produce resultados
más bien tímbricos. El efecto se potencia en la combinación de estos acordes-
espectros con el tratamiento interválico de las fundamentales.
Con el propósito de generar acciones musicales variadas, recurrimos a un
objeto que detecta si la nota supera en duración un cierto umbral. Solo en ese
caso la operación de armonización es llevada a cabo. Esto permite la ejecución de
giros rápidos –adornos, por ejemplo– sin armonización y detenciones, donde la
armonía aparece a través de un crescendo programado. La distribución espacial de
estas acciones complementa el efecto buscado. La figura 5 muestra un fragmento
solista donde se aprecian los puntos de detención que dan lugar a la armonización.
Los acordes que se producen poseen la misma interválica que los giros melódicos,
estableciéndose así cierta coherencia entre el aspecto horizontal y vertical.
282
Figura 5
Algo similar ocurre al comienzo de la obra. Aparece aquí una transformación

en el grado de tonicidad de los sonidos, que es enfatizada a través del filtrado
de las bandas de ruido que producen los instrumentos de viento. El sonido
instrumental se procesa a partir de un banco de filtros pasabanda, cuyas
frecuencias de corte se corresponden con las frecuencias de las notas que
conforman una sucesión de pcs, que modulan de disonancia a consonancia.
La figura 6 muestra este pasaje inicial. Al igual que en la transposición por
pcs, cada banda que resulta del filtrado puede ubicarse en distintas posiciones
del espacio virtual.
La modulación en grado de tonicidad se traslada posteriormente a la parte
de piano, pero como una modulación en términos de consonancia-disonancia
(conjuntos de grados cromáticos 4-1, 4-4, 4-12, 4-13, 4-16, 4-18 y 4-27, man-
teniendo el do como sonido común en el bajo). El principio de este proceso se
observa en la misma figura 6. Hacia el final se aplica la fragmentación de los
acordes tenidos que resultan.
En relación con el tratamiento espacial de la textura, vimos la posibilidad
de generar volúmenes que se desplazan y giran sobre sí mismos. En el sector D de
Interiores los vientos, con y sin procesamiento, se ubican en los vértices de una
forma geométrica que rota sobre sus ejes y a la vez se traslada. A fin de generar
un tipo de textura localizable en términos de espacialización, los instrumentos
producen giros de cuatro sonidos, repetidos a gran velocidad (por momentos
también se aplica fragmentación). Las relaciones interválicas de los giros repe-
tidos modulan, partiendo del conjunto de grados cromáticos 4-1, hasta llegar
por orden sucesivo al 4-22. La rapidez de cada grupo se indica de acuerdo a tres
niveles: v-1, v0 y v1, para evitar las coincidencias rítmicas. El piano, por otra
parte, se desenvuelve en un plano independiente, pero al mismo tiempo articula
los ataques de los vientos. La escritura de esta sección (véase figura 7) manifiesta
cierta libertad desde el punto de vista temporal. La unión efectiva de las partes
depende en gran medida de la interpretación del piano y del director.
283
Figura 6
La obra finaliza con una reexposición variada de las técnicas expuestas. En

la figura 8 se observa un fragmento cercano al final que combina registración
espacial de la altura y generación de volúmenes.
Al realizar un ordenamiento intuitivo de diversos objetos, es en cada
uno de ellos donde encontramos el modo, de acuerdo con las característi-
cas materiales, formales y funcionales de cada elemento en relación con el
contexto. Así como es posible atribuir una duración particular a un acorde
dentro de una sucesión, debido al grado de tensión y relevancia que presenta
en relación con el resto, también es posible atribuir una trayectoria a un
sonido o conjunto de sonidos, considerando sus cualidades y los recorridos
interiores que los caracterizan. Pero, como siempre ocurre, la dificultad apa-
rece al intentar la formalización de estas acciones, incluso cuando a veces
284
Figura 7
Figura 8
puedan parecer elementales. Si a esto sumamos que en la mayoría de los casos

donde los procesos se realizan en tiempo real resulta imposible predecir el
futuro, notamos inmediatamente la complejidad del problema. Lo que aquí
he manifestado no pretende resolver la integración del espacio en la música.
Es simplemente el punto de partida que permitió la composición de una pieza
musical en particular. La vinculación de los aspectos temporales y espaciales
de la música, la exploración de su espacio interno en relación al espacio
externo, la creación de programas que hagan posible una música interactiva
basada en las decisiones de un oyente, proponen desafíos nuevos, y deben ser
profundizados en el futuro.
285
Bibliografía
Cetta, P. (2004), “Principios de estructuración de la altura empleando con-

juntos de grados cromáticos”, en Altura-timbre-espacio, Cuaderno Nº 5
del Instituto de Investigación Musicológica “Carlos Vega”, Buenos Aires,
educa, pp. 9-35.
—— (2004), “Modelos de localización espacial del sonido y su implemen-
tación en tiempo real”, en Altura-timbre-espacio, Cuaderno Nº 5 del
Instituto de Investigación Musicológica “Carlos Vega”, Buenos Aires,
educa, pp. 269-291.
—— (2007), Un modelo para la simulación del espacio en Música, Serie Tesis
de doctorado, Instituto de Investigación Musicológica “Carlos Vega”,
educa.
286
Capítulo XI
Música para sitios específicos: nuevas correlaciones
entre espacio acústico, público y fuentes sonoras
Martín Liut
Las obras musicales y de arte sonoro creadas para sitios específicos han puesto
de relieve la multiplicidad de relaciones posibles que pueden establecerse,
no solo entre el público y las fuentes sonoras, sino entre ambos y el espacio
acústico en el que transcurren las performances.
En Occidente la situación de concierto se homogeneizó a partir del predo-
minio del modelo de teatro a la italiana, con el público enfrentado a los músicos.
A su vez, la composición musical se llevó a cabo sobre la idea de una escritura
para lo que podríamos denominar espacios acústicos genéricos. Salvo excepcio-
nes, los compositores de la era moderna han escrito sobre el supuesto de que sus
obras serían interpretadas y escuchadas en salas, teatros o iglesias de diferentes
ciudades, cuyos espacios acústicos pueden tener cualidades diferentes pero carac-
terísticas esenciales similares. Un ejemplo de ello es el tiempo de reverberación.
Si se compone una obra sacra, se contempla el hecho probable de que la obra
tenga que lidiar con un tiempo de reverberación mayor que el de una sala de
concierto, ya que probablemente será interpretada en una capilla o iglesia.
La creación para sitios específicos, por el contrario, toma nota desde su
génesis de las particularidades topológicas del espacio a ser utilizado. Ya se
trate de espacios dados o construidos ad hoc, una característica saliente de
este tipo de obras es que promueven diferentes vínculos entre la música y el
espectador. Estos pueden ser, además, variables. De hecho, muchas de estas
obras contemplan y fomentan la opción de una escucha móvil, no estática,
durante su transcurso.
El presente artículo se propone analizar los diferentes tipos de vínculo
entre espacio acústico, fuentes sonoras y público que promueven las creacio-
nes para sitios específicos. Se tomarán como base para la discusión las primeras
consideraciones taxonómicas propuestas por los compositores Iannis Xenakis
y Llorenç Barber, y las propias. Se ofrecerán luego algunos ejemplos de obras
realizadas en la ciudad de Buenos Aires que permitirán reunir los diferentes
aspectos estudiados.
287
Se trata de una temática nueva para el campo de la composición, que
admite diferentes tipos de soluciones, en función de las premisas estéticas del
autor de la obra. Los casos de Xenakis y Barber son, en este sentido, paradig-
máticos: compartiendo el interés por la composición para sitios específicos,
sin embargo, sus obras difieren notablemente en su resultado sonoro debido a
su adscripción a paradigmas estéticos diferentes. El primero se basó en mode-
los estadísticos y estocásticos para construir texturas de alta complejidad. El
segundo toma como modelo el minimalismo y las ideas de Cage y Satie, como
la no-narratividad y la repetición de mínimos materiales. En el caso de insta-
laciones e intervenciones sonoras también la estética determina estrategias y
herramientas diversas, aun en puestas sonoras similares en su diseño.
Sonidos específicos y arquitectura aural
Entendemos por arte para sitios específicos a aquellas creaciones que toman
en cuenta en forma integral el espacio elegido para su presentación. Integral
implica no solo atender a los aspectos topológicos del espacio sino, también,
a su carga simbólica, su relación con el uso cotidiano que tiene por parte de
la comunidad que lo transita, circula o habita, su historia y el imaginario
asociado a él. Como señala Omar Corrado: “Tocar el espacio de la ciudad es
entrar en contacto con una zona rica y conflictiva del hacer humano. Allí se
anudan las vicisitudes de lo privado y lo público, de la historia y el presente,
de la cultura y la política de una ciudad que es, también, los poderes que la
representan” (Corrado, 2001).
Planteado en estos términos, queda claro por qué no se consideran aquí
los espectáculos masivos realizados al aire libre de músicas originalmente
pensadas para su recepción en recintos cerrados. Se trate de música clásica
o popular, lo habitual en esos casos es, amplificación mediante, intentar que
la señal acústica que se genere llegue con la mejor claridad perceptiva a los
oyentes. Para lograrlo, los ingenieros de sonido tratan de disimular la evidente
diferencia entre la acústica típica de, por ejemplo, un estadio de fútbol respec-
to de una sala de conciertos. En estas situaciones, el espacio acústico, más que
un tema, es un problema, algo que se padece y se intenta neutralizar.
En el capítulo ii de este libro, Gustavo Basso analiza la acústica de recin-
tos dedicados a la música, los que han producido con los siglos una especie de
“normalización” en el modo de la generación y recepción del hecho musical:
la acústica de estos espacios es una extensión de los instrumentos, pero no
suele ser estructurante de las obras interpretadas. Por el contrario, la realiza-
ción de experiencias artísticas sonoras en espacios no convencionales puede
288
ayudar a tomar conciencia sobre las características acústicas particulares en sí
de un determinado punto de la ciudad.
Los investigadores Barry Blesser y Linda-Ruth Salter (2006) denominan
“arquitectura aural” a las particularidades acústicas que posee un espacio
determinado:
El compuesto de numerosas superficies, los objetos y las geometrías en

un entorno complejo, crea una arquitectura sonora. […] Para ilustrar que
somos conscientes de la arquitectura sonora, consideremos la posibilidad
de desplazar a los sonidos familiares a entornos desconocidos. […] En cada
espacio, incluso si las fuentes sonoras se mantuvieran sin cambios, se modi-
ficarán debido a la arquitectura aural. Cada espacio tiene una arquitectura
sonora.1
La arquitectura aural no es, como ya señalamos, el único aspecto a tener en

cuenta cuando se utiliza un espacio público urbano para la creación artística.
El espacio público como espacio en principio no-artístico, arranca a la pro-
ducción musical de sus históricos recintos, que le garantizaban su autonomía
artística, y la enfrenta a un diálogo complejo con una red simbólica que
excede el campo del arte para llegar a lo sociopolítico. De todos modos estos
aspectos no serán analizados aquí más que tangencialmente, para no salirnos
del marco general que plantea el presente libro.2
La ubicuidad del sonido promueve una problemática particular y nove-
dosa para la producción musical y el arte sonoro para sitios específicos. Por
lo pronto, se trabaja en locaciones que no cuentan con estudios acústicos
previos, sino, a lo sumo, controles de polución sonora.3 Tampoco existen
estudios sistemáticos sobre el diseño de puestas sonoras que puedan explotar
al máximo el potencial acústico de un espacio determinado.4
1 Blesser y Salter ofrecen varios ejemplos de “traslado” de fuentes a contextos no habitua-

les: escuchar en medio del desierto el sonido del tráfico de una gran ciudad, escuchar una
orquesta sinfónica en medio de la selva, o más simple, el cambio que se produce entre cantar
bajo la ducha, en el baño, y cantar en el living.
2 Sobre las diferentes corrientes del arte para sitios específicos, en particular norteameri-
canos, véase Kwon (2004). Sobre la relación entre espacio público y sonido véase aa. vv.
(2005).
3 Mayoritariamente son de tipo cuantitativo. Un caso de análisis cualitativo destacable es
se puede apreciar en López Barrio y Carles (1997).

4 El programa Teatro acústico, de la Universidad Nacional de Quilmes, incluye un proyecto
denominado, precisamente, “Innovación en puesta sonora”, que pretende sistematizar este

aspecto esencial de la producción de nuevas performances complejas.
289
Por otra parte, los estudios realizados hasta el presente en torno de la
percepción de la ubicación espacial de fuentes sonoras están lejos de poder
predecir lo que ocurrirá en estos campos acústicos complejos (véase Basso,
¿???), en los que se suelen utilizar múltiples fuentes de emisión y zonas de
recepción notablemente diferenciadas en sus cualidades.
Los primeros ensayos teóricos para el campo de la creación sonora para
sitios específicos se produjeron alrededor de las obras cercanas a las artes
visuales expandidas como las instalaciones sonoras. Desde el terreno musical,
a través de escritos de compositores como Iannis Xenakis y Llorenç Barber.
Público y fuentes sonoras
El compositor de origen griego y nacionalizado francés Iannis Xenakis (1922-

2001) fue uno de los pioneros en la realización de obras multimedia por fuera
de la sala de concierto. Gracias a su doble condición de músico y arquitecto,
se ocupó de crear ámbitos específicos para sus obras y otras realizadas en
colaboración. Fue parte del proyecto del Pabellón Philips, una construcción
realizada para la Exposición Universal de Bruselas de 1958. Xenakis tuvo a su
cargo la construcción del edificio, a partir de unos bocetos de su maestro Le
Corbusier, quien a su vez se hizo cargo de la realización visual, consistente en
una proyección de diapositivas y juegos lumínicos. En forma simultánea, más
de un centenar de parlantes emitieron el Poema electrónico, obra electroacús-
tica realizada por Edgard Varese.
Luego de esta experiencia inaugural Xenakis controló él mismo todas las
variables de las performances, en una serie que denominó “Polytopes”, presen-
tada en espacios de mediana escala hasta monumentales.5 En casos como el
Dyatope (1978), encargado para celebrar la inauguración del Centro Georges
Pompidou de París, diseñó un espacio semipermanente en el parvis del museo
vanguardista, dentro del cual se presentaba una obra que combinaba el uso de
cientos de parlantes y rayos láser.
A partir de esta experiencia, Xenakis realizó un breve análisis de las nue-
vas correlaciones que se establecen entre público, fuentes sonoras y espacios
acústicos (Xenakis, 2001).
5 Xenakis presentó estas obras en otras exposiciones internacionales, como las de Montreal
(1967) y Osaka (1970). En espacios al aire libre estrenó Persépolis en el Irán gobernado por
el Sha Reza Palevi (1971) y en Micenas en la Grecia que emergía de la dictadura (1978).
También realizó un polytope en las termas romanas de Cluny, en París, en 1974. Sobre estas
obras, sus implicancias estéticas y políticas, véase Harley (1998), pp. 55-65.
290
Xenakis distingue cinco grupos de cuestiones: la dimensión de la perfor-
mance, las relaciones espacio-temporales, la naturaleza de las fuentes, el tipo
de receptáculo (de espacio) y la tecnología. Nos centraremos en el segundo
punto.
Xenakis plantea que se pueden dar al menos cinco tipo de relaciones
espacio-temporales entre el público y las fuentes, entendidas estas últimas en
un sentido amplio.6
1. Las fuentes se encuentran delante del público de modo frontal. Se trata
de la tradicional situación en teatros “a la italiana”.
2. Las fuentes se encuentran en el centro y el público las rodea. Esta
situación, según recuerda el propio Xenakis, se da en una arena, un ring, un
hipódromo, estadios. La sala de la Filarmónica de Berlín, construida durante
la era Karajan, permite que el público rodee a la orquesta, incluso por detrás:
no es el mejor lugar para escuchar música sinfónica, pero sí para ver de frente
al director ubicado en el podio.
3. Las fuentes están alrededor del público que se encuentra en el centro.
El dispositivo surround del cine y el home theater son la versión comercial de
un tipo de dispositivo utilizado en muchas instalaciones sonoras y en con-
ciertos de música electroacústica multicanal, que permiten la ubicación y el
desplazamiento virtual de fuentes sonoras en el espacio. Las obras Persepphassa
para seis percusionistas del propio Xenakis, o Gruppen, para tres orquestas, de
Stockhausen, ofrecen este planteo con fuentes sonoras acústicas.
4. Las fuentes y el público se encuentran entremezcladas. Xenakis ofrece
como ejemplo un paseo por la ciudad, tradición iniciada por el movimiento
canadiense de los Soundscapes7 (Murray Schaffer y Barry Truax, entre otros),
experiencia que también se llevó a cabo en las calles de Montevideo, gracias
a la iniciativa de Daniel Maggiolo. Xenakis menciona sus obras Terretektorh y
Nomos Gamma, en las que músicos y públicos comparten el mismo espacio.
5. Relación lineal. Xenakis denomina de este modo a la situación propia
de un desfile militar, procesión religiosa o el paso de una carrera de bicicletas.
En ellas, el público se encuentra inmóvil a ambos lados de la acera, mientras
las fuentes sonoras atraviesan la calle. Eine Brise, del argentino Mauricio
Kagel, explora esta posibilidad. Se trata de una pieza para 111 ciclistas,
munidos de cornetas y timbres, que pasan raudamente delante del público,
emitiendo sonidos, silbidos y susurros.
Una sexta opción es alguna posible combinación entre las 5 mencionadas
anteriormente.
6 Que puede implicar tanto un instrumentista como un parlante, o un dispositivo lumínico.

7 En castellano, paisajes sonoros.
291
Como bien señala Xenakis, estas combinaciones no se ven alteradas
sustancialmente si las fuentes, el público, o ambos están estáticos o en movi-
miento. Sin embargo, es particularmente relevante para comprender no solo
el aspecto topológico de la relación entre fuente y público, sino el modo en
que el público en particular percibirá la música u obra de arte sonoro.
El estatismo o movimiento del espectador determinan modos de escucha
radicalmente diferentes y que deben considerarse al momento mismo de la
creación. Para ampliar este aspecto, apelaremos al compositor catalán Llorenç
Barber.
En movimiento
Por definición, una obra sonora presentada en un espacio público plantea dos
problemas en torno a la situación del público. El primero supone aceptar la
enorme divergencia perceptiva que habrá de la obra, según los múltiples pun-
tos de escucha del espacio seleccionado para su presentación. Mientras que las
salas de concierto tienden idealmente a buscar una escucha similar, sin impor-
tar la ubicación del público, el espacio público, no pensado para la difusión
sonora “artística”, se impone en su diversidad como campo complejo.
La composición de música para ciudades, como las que viene desarro-
llando Llorenç Barber (España, 1948), impone una renuncia al control sobre
las infinidad de variables que ponen en juego espacios acústicos complejos y
públicos dispersos en él. Estas obras proponen un dilema, un juego de búsque-
da “detectivesca”, en palabras del propio compositor catalán. ¿Dónde debe
ubicarse el público? ¿Debe quedarse quieto o deambular? La segunda cuestión
es radicalmente innovadora respecto de la situación de concierto tradicional,
en el que la escucha está asociada a la contemplación estática.
Barber ocupa un lugar destacado en el campo de la producción musical
en espacios públicos. Con sus “conciertos de ciudades” se propone generar
hechos artísticos valiéndose de las fuentes sonoras naturales (i.e., sin media-
ción de la amplificación) con que se encuentre en cada ciudad o pueblo donde
es convocado. Particularmente fructífera le ha resultado la frecuente presencia
de campanarios en los centros urbanos a los que ha acudido. También ha
incluido bandas de pueblo, fuegos de artificio, y bocinas antiaéreas y de buques
cuando así lo ha podido.
Barber define a este tipo de obras como música plurifocal: “Multiplicidad
de focos sonoros que participan en cada concierto: tantos campanarios o
grupos instrumentales como existan en cada ciudad” (Lopez Cano, 1997). La
consecuencia para la composición es que se tiene una disposición casual de
292
los focos sonoros. Esto requiere un estudio urbano acústico del campus sónico:
disposición y morfología de plazas, calles, avenidas, altura general de los edi-
ficios que puedan interferir el desplazamiento del sonido.
La dimensión de estos conciertos varía de escala notablemente. Pueden
transcurrir en una plaza de toros como en su Alberomundo en Alicante; en
torno a un grupo de manzanas del casco histórico de ciudades tan disímiles en
su traza como Madrid, Buenos Aires, Pollenza o Alcalá, hasta un valle, como
el de Innsbruck, que reúne un conjunto de pueblos vecinos entre sí, pero dis-
tantes a kilómetros unos de otros.
La escala de las performances puede proponer al espectador, según Barber,
tres tipos de audición: estática: el público sube a techos o balcones o se aposta
en los cruces de calles; panorámica: el público sale del casco urbano donde se
realiza el concierto para subir a montañas, colinas o miradores panorámicos
de las carreteras; y peripatética: el público deambula por las calles de la ciudad,
atiende los ecos y rebotes, se sumerge en los tubos sonoros en que se convier-
ten algunas calles estrechas.
La ubicación de cada escucha, así como el tipo de audición que este elija,
reorganiza por completo, una y otra vez, la estructura espacial de la obra.8
Zonas de audición
La categorización de Barber aporta el reconocimiento de un elemento que es

nuevo para la recepción de la música, como lo es el de una escucha “móvil”,
por parte de los espectadores. Esto implica una situación dinámica durante
el transcurso de una obra musical o sonora, que escapa al control de su o sus
creadores. Siguiendo los términos de Barber, un espectador puede, en forma
sucesiva, adoptar escuchas estáticas, focalizadas o panorámicas. De este modo,
la versión final de una obra dependerá del recorrido que trace el espectador.
El compositor sólo podrá, en todo caso, estudiar como hipótesis esos posibles
caminos durante el proceso de composición.
Naturalmente, este tipo de configuraciones se imponen como un nuevo
tema a la hora de la creación misma de las obras: en las instalaciones en
espacios públicos y en particular aquellos realizados al aire libre, se debe pen-
sar en un tipo de espectador en una actitud activa, que determina y define
múltiples puntos de escucha posibles en el tiempo. Y, por lo tanto, múltiples
versiones “finales” de la obra. El compositor deberá asumir la imposibilidad
de controlar cómo será la audición de la obra en cada uno de los múltiples
8 López Cano (1997, p. 137).
293
puntos de escucha. Por el contrario, en la sala de concierto, se piensa en una
zona restringida de audición “ideal” para lograr trayectorias sonoras de mayor
refinamiento y precisión.
Por otra parte, una sala de conciertos separa la obra de la “realidad” de
una manera tajante, pero esa frontera no existe al aire libre. En espacios abier-
tos se produce una zona de transición (que puede abarcar unos pocos metros
hasta varias cuadras) en la que el espectador va sumergiéndose paulatinamen-
te en la intervención sonora, que se mezcla con el paisaje sonoro propio del
lugar. Aquí el tipo de materia sonora utilizada en las obras será determinante
para producir una separación tajante con el entorno acústico cotidiano. O,
por el contrario, producir una mimesis con él. También es determinante, y de
un modo no menor, el grado de preaviso del espectador o potencial especta-
dor, respecto de la ocurrencia de performance.
La ausencia de límites en este tipo de obras genera, creemos, un nuevo
tópico a tener en cuenta en el proceso de composición: se trata de la clasifica-
ción y posterior estudio de diferentes zonas de audición. El compositor deberá
hacer una cartografía de las mismas y establecer qué tipo de correlaciones se
podrán estableces entre las fuentes sonoras y el público.
Los límites de cada zona de audición serán claros o difusos, dependiendo
del tipo de arquitectura aural involucrada en cada caso.
En principio, mencionaremos cuatro tipos de zonas de audición: 1) ideal;
2) de transición o intercambio; 3) residuales, o no previstas; y 4) neutras/no
artísticas.
Se entiende por zona “ideal” a aquella en la cual el compositor o artista
sonoro tiene un control lo más eficiente posible sobre las variables en juego
en materia de emisión y recepción de la información sonora. Esta zona se
corresponde, en principio, con la zona de audición dentro de una sala de
conciertos “tradicional”.
La zona de transición o intercambio es aquella en la que la energía sonora
de la obra, instalación o performance compite o dialoga con el caudal propio
del espacio a ser intervenido. Se trata de una zona que puede ser particular-
mente móvil y dinámica, ya que depende de las relaciones de energía entre
ambos. En espacios abiertos, la transición puede abarcar desde unos pocos
metros hasta varias cuadras, en las que el espectador va sumergiéndose paula-
tinamente en la obra sonora.
Las características de este tránsito (un crossfade a escala natural) se modi-
ficarán según el tipo de materia sonora involucrado, tanto de la intervención
como del paisaje circundante, como así también del grado de preaviso del
espectador o potencial espectador.
Si la intervención se nutre de sonidos similares a los del paisaje sonoro
294
circundante, se puede producir una total mimetización, lo que llevaría a una
especie de “suma cero”, una paradoja cageana. También puede crear espe-
jismos sonoros, como los de escuchar una Plaza de Mayo repleta de gente,
cuando se trata en verdad de una reproducción amplificada.
Las zonas “residuales” pueden ocurrir en algunos espacios públicos abier-
tos a los que llega la información sonora de un modo particularmente transfor-
mado o disociado de la acción visual que lo provocó. Citamos como ejemplo
el caso de la performance que con el grupo Buenos Aires Sonora realizamos
en la zona de Puerto Madero, en la ciudad de Buenos Aires. La performance
consistió en la transformación del Puente de la Mujer, un puente peatonal
diseñado por el arquitecto valenciano Santiago Calatrava, en un instrumento
musical. Por las dimensiones del lugar, y para reforzar la asociación entre la
zona en la que se generaban las señales acústicas y el sistema de amplificación,
se decidió girar el puente de modo tal de ubicarlo en forma paralela a uno de
los malecones, donde estaría ubicado el público. En esa dirección se ubicaron
todas las columnas de sonido disponibles, que estaban sobre el mismo puente.
Hacia la otra orilla, lo que se escuchó fue la señal que se reflejaba en unos
silos de la ribera opuesta y la pared de piedra del malecón. La señal sonora
hacía un recorrido lo suficientemente extenso como para que se disociara de
la señal visual de la acción musical, además de modificar notablemente la
calidad espectral del audio (había, por caso, fragmentos en los que se emitían
voces cuya inteligibilidad se perdía por completo).
Las zonas ciegas, neutras o “no artísticas” son aquellas en las que la
instalación sonora o performance, por efecto de la distancia o algún tipo de
elemento corpóreo, no se escucha, aunque pueda llegar a ser visible. En el caso
de espacios abiertos esto puede ocurrir, por ejemplo, en el caso de que haya
viento con una velocidad suficiente como para desviar la propagación lineal
de la señal acústica.
En la mayoría de las obras en espacios no tradicionales conviven estas zonas
de un modo dinámico y dependiente del tipo de arquitectura aural presente.
Veamos algunos ejemplos. En la instalación Mayo, los sonidos de la plaza9
se dispuso un círculo octofónico de parlantes en el centro de la Plaza de Mayo
de Buenos Aires, cuyo diámetro era de alrededor de 70 metros. Esta confi-
guración suponía contar con una zona de escucha ideal, en la que no solo se
podían superponer múltiples fuentes sonoras gracias a la cantidad de salidas
9Producción del grupo Buenos Aires Sonora, fue comisionada por la Ciudad de Buenos
Aires para el año del casco histórico, 2003. Tiene una duración de 64 minutos. Se estrenó
en la Plaza de Mayo el 5 de julio de 2003, y se volvió a presentar el 9 y el 16 de septiembre
de 2006. Más información sobre esta obra en : <www.buenosairessonora.blogspot.com>
295
independientes, sino también trabajar el espacio acústico en forma integrada
virtual, como en el sistema surround propio del cine.
No se trató de una elección meramente técnica sino estética. Para la obra
se pretendía lograr un efecto inmersivo en el espectador, el que, por ejemplo,
debía, a través del sonido, sentirse dentro de una de las tantas manifestaciones
masivas ocurridas en la historia de la plaza principal de la vida política argen-
tina, mientras escuchaba, proviniendo del balcón de la Casa de Gobierno, los
discursos de los diferentes dirigentes que allí hablaron.
De todos modos, debido a la energía sonora involucrada y a la falta de
límites arquitectónicos, los sonidos de la obra se podían percibir con claridad
en toda la plaza. Y, según las variantes producidas en el tráfico circundante
(no se cortaron las calles aledañas durante la performance) la obra podía perci-
birse hasta dos o tres cuadras a la redonda. En ese límite, la conciencia sobre
el hecho artístico dependía totalmente de la información previa que tuviera el
transeúnte: si se trataba de un paseante ocasional y desinformado, la informa-
ción acústica que recibía podía, por ejemplo, llevarlo a la conclusión de que
en la Plaza de Mayo estaba ocurriendo una manifestación política real, y no la
recreación que proponía la obra.
El viernes 18 de octubre de 2002, entre las 19.30 y las 21, el compositor
Nicolás Varchausky realizó una intervención sonora de la Torre Monumental
(ex Torre de los ingleses), en Retiro, Buenos Aires.
En el día y la hora de mayor movimiento de personas y vehículos que
tiene esa zona de la ciudad, el tradicional reloj se transformaría, según
Varchausky en un “atalaya sonoro [...] que duplicará, restituirá y señalará los
sonidos que ocurren en la realidad”.10
Para lograrlo, el compositor ubicó cuatro columnas de sonido en sendas
ventanas ubicadas en cada una de las cuatro caras del monumento, a aproxima-
damente 15 metros de altura. Para cada cara-parlante de la torre, Varchausky
asignó diferentes materiales sonoros, tomados de la ciudad, en los que la voz
es la protagonista. Así, la cara oeste, que apunta hacia la avenida Figueroa
Alcorta y la barranca de Retiro, recibió en forma directa la grabación de un
pastor evangelista que suele predicar en la plaza Once. En la cara sur, que da
al hotel Sheraton, se escucharon las comunicaciones de la onda de radio de
las policías Bonaerense y Federal. Hacia el Este, zona de Aduana y portuaria,
reprodujo grabaciones de diversos músicos callejeros de la calle Florida.
Como los parlantes no eran visibles, se generaba una zona de confusión:
las voces que se escuchaban correspondían a un “aquí y ahora” (particular-
mente con la grabación correspondiente al predicador evangelista), pero
10 Entrevista a Nicolás Varchausky, La Nación, suplemento Espectáculos. 18/10/2002.
296
no se podía identificar con precisión el lugar de donde provenían. Esta
performance permitió comprobar una vez más que las características de la
zona de transición, esa que va de lo “real” a la “obra”, dependen no solo
del tipo de materia sonora involucrada (tanto de la intervención como del
paisaje circundante), como así también del grado de preaviso del espectador
o potencial espectador.
En Será Buenos Aires, el concierto citadino presentado por Barber en el
casco histórico de la ciudad de Buenos Aires, la difusión previa de carácter
masivo jugó un rol decisivo para, a la vez, convocar y prevenir a los paseantes
sobre la situación performática. Una vez más la zona de transición tuvo una
ubicación y tamaño diferente en función del preaviso o no del espectador. Es
una cuestión problemática y no menor: ¿se trata de que el público se tope con
la obra o que sea convocado?
Hay que recordar que la ocupación del espacio público, aunque sea acota-
da en el tiempo es una tentación para el mundo político. Como señala Omar
Corrado, quien participó de la experiencia como uno de los “campaneros” de
la obra de Barber:
Todo parece al fin igualarse en el carrusel de fatigados megaeventos preten-

didamente culturales que alimentan el marketing político. Nos esforzamos
por otorgarnos una comprensión del concierto que reponga su caudal de sen-
tido. Nos decimos entonces que lo que aquí se ofrece es una interpelación
sonora que desbanca la hegemonía de lo visual, tiene la fragilidad y la suti-
leza de lo efímero; apropiárselo es aceptar perderse, naufragar, reconquistar
un lugar degradado, negado, usurpado. Así, en la experiencia que no pasa sin
dejar huellas, los públicos resignifican los hechos a la medida de sus aspira-
ciones y necesidades [...] divergentes de la intencionalidad del poder.
Barber es consciente de esta dualidad y, al respecto, prefiere valerse de los

medios masivos y del poder político para que sus espectáculos lleguen a la
mayor cantidad de personas y no interpelar a espectadores casuales.
Conclusiones
Espacio, fuentes sonoras y público reconfiguran su interrelación en forma

dinámica cuando se trata de obras musicales o de arte sonoro pensadas para
sitios específicos, por fuera de las tradicionales salas de conciertos. Esa situa-
ción dinámica modifica radicalmente el proceso de composición, y la consti-
tución “final” de la obra pierde su “clausura”.
297
La composición debe incluir desde su génesis un estudio de la arquitectura
aural del espacio a ser intervenido, ya que desconocerlo puede llevar al fracaso
de la obra misma en lo que hace a su difusión y su recepción. El compositor
también debe renunciar a la idea de obra cerrada y bajo control.
La obra pierde casi inevitablemente su antiguo estatuto de existencia
como un todo “orgánico” y cerrado, para dar paso a una constelación de
posibles versiones finales que están representadas por las trayectorias y ubica-
ciones de cada uno de los espectadores.
El público es interpelado por las obras en espacios no tradicionales. Puede
continuar con el viejo hábito de la escucha estática, pero ya nadie asegura un
lugar ideal de escucha. En muchos casos, además, las obras invitan a un tipo
de audición “peripatética”, que fomenta recorridos individuales y activos en
la construcción de sentido alrededor de la obra percibida.
Por último se debe recordar que todas estas nuevas situaciones nada dicen
sobre el resultado sonoro de las obras en sí: mientras que Xenakis prefiere, por
ejemplo, configuraciones texturales de tipo estadísticos, como los trabajos con
clusters, nubes de sonido, etc., Barber apela a herramientas técnicas prove-
nientes del minimalismo para construir sus obras. La repetición de elementos
simples no es tan solo una cuestión operativa, esto es, de practicidad para
hacer sonar su música plurifocal. También es para Barber un comentario al
aire libre sobre su idea de una música no narrativa. Dice Corrado sobre Será
Buenos Aires, la versión porteña de su concierto de ciudad: “El fluir sonoro se
organiza en la sucesión de un número reducido de morfologías de base, que
reaparecen, con distintas modificaciones, en distinto orden, para señalizar
el transcurrir”.11 Estos materiales son recurrentes a lo largo de la obra, estas
morfologías “se encuentran fuertemente estructuradas en su textura, duración
y relación de éstas con el espacio. La consecuencia es una música no discursi-
va, hecha de bloques estáticos, en la que se perciben los ecos del pensamiento
temporal de Satie, Cage y el minimalismo”.12 Esta opción, sin embargo es
producto de una elección estética, que no es la única posible, aun dentro del
mismo dispositivo por él propuesto.
En el caso de la intervención de Nicolás Varchausky hay un espíritu
duchampiano en su decisión de no manipular las grabaciones emitidas en cada
cara de la torre de los ingleses. Prefiere hacer foco en el objeto en sí mismo,
ayudar a dirigir una mirada, que comentar desde el montaje dicho material.
Por el contrario, en la intervención de la Plaza de Mayo hay una idea de diá-
logo con el relato histórico-político disparado desde los documentos sonoros
11 Corrado (2001).
12 Corrado (2001).
298
históricos. Una vez más, se trata de decisiones basadas en premisas estéticas
diferentes, que resuelven, sin embargo, problemas comunes: el del diálogo
entre fuentes sonoras, público y arquitectura aural.
Bibliografía
aa. vv. (2005), Espacios sonoros, tecnopolítica y vida cotidiana. Aproximaciones

a una antropología sonora, Barcelona, publicación del Festival Zeppelin
2005.
Blesser, B. y L. R. Salter (2006), Spaces Speak, Are You Listening?: Experiencing
Aural Architecture, Massachusets, mit Press.
Corrado, Omar (2001), “Glosas desde mi espadaña”, inédito.
Harley, A. M. (1998), “Music of Sound and Light: Xenakis Polytopes”,
Leonardo, vol. 31, N° 1, pp. 55-65.
Kwon, M. (2004), One place after another. Site-specific art and locational identity,
Massachussets, mit Press.
López Barrio, I. y J. L. Carles (1997), La calidad sonora de Valencia: espacios
sonoros representativos, Valencia , Fundació Bancaixa.
López Cano, R. (1997), Música plurifocal: conciertos de ciudades de Llorenç
Barber, México, jgh
Varchausky, N. (2002), entrevista publicada en La Nación, 18 de octubre.
Xenakis, I. (2001), “Espaces et sources d’audition et de spectacles”, en Solomos,
M. (ed.), Présences de Iannis Xenakis, Paris, Centre de Documentation de
la Musique Contemporaine.
299
Capítulo XII
Espacio y materia, de lo auditivo a lo corporal.
Apuntes sobre la composición de UOM y Entanglement
Juan Pampin
Introducción
La relación entre espacio y materia sonora ha sido una de las problemáticas

centrales de mi trabajo compositivo. Fue desde el interior del sonido, desde sus
intersticios, explorando esas micro-relaciones o micro-espacios, que comencé
a vislumbrar los vestigios de una nueva poética espacial. La investigación de
las cualidades espectrales del sonido, que empecé a realizar más sistemática-
mente a mediados de la década de 1990, fue el comienzo de este camino, y el
ciclo para percusión y sonidos electrónicos compuesto entre los años 1996 y
2000, el laboratorio para su realización.1 Surgió de la composición de este ciclo
de obras un marco estético con cimientos tecnológicos en el análisis espectral
y las técnicas espaciales Ambisonics2 que sirvió de sustrato para la realización
de otros proyectos, como UOM (2001) para sonidos electrónicos 3D, que es
analizada desde una perspectiva estética y tecnológica en este capítulo. Este
marco teórico y estético abrió también las puertas a la exploración de nuevos
territorios artísticos, donde el trabajo con el sonido y el espacio exceden el
campo de la música y se proyectan hacia lo que podríamos denominar arte
sonoro.3 Parte de mi trabajo en este campo ha estado ligado a la extensión
del sonido más allá de los límites de la audición, transformando la experiencia
sonora en algo físico, yendo desde lo auditivo hacia lo corporal. La segunda
parte de este capítulo está dedicada a Entanglement (2008), una instalación
sonora telemática que es el resultado más reciente de esta exploración.
1 El ciclo está compuesto por las obras Métal Hurlant (1996), Toco madera (1997), Skin
Heads (1998) y On Space (2000). Una nueva versión de On Space fue realizada en 2005
para la grabación del ciclo por el ensamble de percusión Les Percussions de Strasbourg, en
Estrasburgo, en enero de 2006.
2 Para una presentación detallada de Ambisonics, véase el capítulo v de este libro.
3 La definición de arte sonoro es problemática, en particular en su relación con la música.
Este tópico excede el marco de este libro; para una introducción al tema se sugiere la lectura
de LaBelle (2006).
301
uom
Mientras el ciclo de percusión indagaba en la relación material entre ins-

trumentos y sonidos electrónicos, y su articulación con el espacio,4 UOM
(2001) –para sonidos electrónicos 3D– se enfoca en la problemática espacial
desde la perspectiva de la materia sonora electroacústica en su estado puro
y su relación con el espacio físico que la articula. Compuesta especialmente
para una fábrica metalúrgica,5 UOM establece también –desde su mismo títu-
lo– una relación política con el espacio de su ejecución, con el cual resuena
semántica y materialmente. Su título, UOM, refiere tanto al acrónimo del
sindicato de obreros metalúrgicos de Argentina (Unión Obrera Metalúrgica)
como a la onomatopeya en la que esta sigla se ha constituido para mucha
gente, con una pérdida casi total de su sentido histórico y político (de ahí
la eliminación en el título de los puntos que designan sus iniciales). La obra
explora de manera alegórica el sonido del metal, usando muestras digitales
de este material desplegadas en el espacio en forma granular como repre-
sentación de lo metálico sin masa, apelando a su esencia sonora “pura”, no
contaminada.6 La distancia entre lo representado y su representación, de
alguna manera similar a la existente entre los trabajadores metalúrgicos y su
gremio, constituye el núcleo semántico de la obra, que se completa con el
uso del texto del capítulo 10 de ¿Quién mató a Rosendo? de Rodolfo Walsh,7
que narra el asesinato del dirigente de la uom, Rosendo García, a manos de
gángsters de su propio gremio, en medio de una pelea con militantes de base
del sindicato en 1966.8
4 Para un análisis de este ciclo de obras, y en especial de On Space, véase Di Liscia (2005).
5 UOM fue compuesta para la fábrica metalúrgica impa de Buenos Aires, y fue parte de “La
estrella federal”, concierto eléctroacústico presentado en ese espacio junto al compositor
Nicolás Varchausky en septiembre de 2001.
6 Lo puro aquí se refiere más a la condición acusmática del material sonoro que a un purismo
estilístico. Como se verá más adelante, esta distinción es importante puesto que el material
de la obra alude, alegóricamente, a la imposibilidad de hallar dicha condición de pureza en
la política, la cual parece reclamar siempre un grado de contaminación en su praxis.
7 Este capítulo del libro fue elegido no solo por ser el nudo de la narración de los hechos
que hace Walsh, donde describe las acciones posteriores al asesinato de Rosendo García,
sino también por sus múltiples alusiones al sonido. Por ejemplo, Walsh dice que tras caer al
piso derribado por un disparo, Rosendo “oyó el resto de los tiros que zumbaban sobre él”, y
más tarde, cuando cesó el tiroteo, “lo rodeó el tropel de pasos fugitivos”. También podría-
mos imaginar a Rosendo oyendo claramente la dirección del balazo que lo derrumbó y así
preguntarse “quién a su espalda, qué cuenta arreglada”. Si bien ninguna de estas referencias
sonoras fueron usadas de manera explícita en UOM, sí permitieron imaginar el paisaje sonoro
de la masacre, aludido en forma poética en el final de la obra.
8 Hecho jamás esclarecido por la policía argentina e investigado a fondo por el propio
302
Especificidad
Si bien UOM puede ser considerada una obra autónoma, que puede ejecutarse
en cualquier entorno sin dejar de funcionar musicalmente, es indudable que
su construcción en función de un espacio específico marcó su materialidad
y arquitectura musical. Su versión original, estrenada en la fábrica metalúr-
gica impa de Buenos Aires, fue creada para “resonar” de manera simbólica
y sonora con ese espacio fabril. Con este propósito en mente, di forma a un
material que pudiera desplegarse al interior del espacio de la fábrica de manera
“parasitaria”, aprovechando al máximo sus cualidades simbólicas y acústicas,
apelando a las múltiples conexiones semánticas que el oyente pudiera realizar
inmerso en ese sonido en ese lugar.9 El uso de un dispositivo electroacústico
Ambisonics dio soporte a esta estrategia, permitiendo crear un entorno sonoro
inmersivo dentro de la fábrica y la ilusión de que dichos sonidos pertenecían
a su paisaje sonoro.10 Otro aspecto de la obra relacionado con su especificidad
de sitio es la referencia a la uom y a su historial político a partir de la cita del
libro de Walsh, que en el contexto político y social en que la obra fue presen-
tada (septiembre de 2001) apuntaba claramente a la crisis de representación
política del gobierno de la Alianza, y a la vez a un problema central de la
democracia argentina posdictadura. De algún modo, uom como sonido, como
onomatopeya, funcionó como pre-eco trágico del estallido por venir.11
Walsh, en el que también murieron Domingo Blajaquis y Juan Zalazar, militantes de base
de la uom de Avellaneda.
9 El siguiente pasaje de la crítica de UOM que Federico Monjeau escribió para el diario Clarín
apunta a este efecto simbólico que plantea la obra: “La obra de Pampin trabaja con un mate-
rial que hoy también resulta dramáticamente referencial: un sonido de fundición, que crece
y se hace progresivamente más complejo [...] En términos concretos (en el extenso sentido
de esta palabra) dicho sonido no es más que una síntesis digital que nada tiene que ver con
el sonido de una fundición, pero que al ‘resonar’ en el espacio de la fábrica parece volverse
‘dramáticamente referencial’”. La versión completa de la crítica de Monjeau puede hallarse
en el archivo digital del diario Clarín, <http://www.clarin.com/diario/2001/09/07/c-00601.
htm>.
10 Esta estrategia fue reforzada también por la localización del espacio del concierto dentro
de la fábrica, que forzaba a los oyentes a subir en un montacargas y atravesar las instalacio-
nes, rodeados de maquinarias y pilas de metal, antes de escuchar la obra.
11 Fueron múltiples e inesperadas las reacciones que generó este aspecto de la obra, inclu-
yendo la reedición de debates políticos al interior de la uom (en particular respecto del rol
de Augusto Vandor en el asesinato de Rosendo García) que generaron una fuerte tensión
entre la conducción política de impa y los artistas, que casi resulta en la cancelación de los
conciertos. Por obvias razones de pertinencia y espacio me abstengo de allanarme aquí en
esta dimensión de la obra que probablemente demandaría un artículo en sí misma.
303
Dispositivo
La figura 1 muestra el dispositivo electroacústico usado para difundir UOM;12

los parlantes aparecen nombrados por su ubicación en referencia a puntos
cardinales, los triángulos en el centro del dispositivo representan la ubicación
del público, dividido en cuatro grupos de nueve asientos cada uno apuntando
a un punto cardinal distinto (n, s, e, o). Desde una perspectiva ambisónica,
este dispositivo funciona como dos sistemas bidimensionales imbricados, uno
formado por los parlantes no, ne, se, y so, y otro por los parlantes n, s, e, o,
estos últimos elevados a unos cuatro metros del piso.
0
30 330
60 300
90 270
120 240
150 210
180
Figura 1. Planta del dispositivo de difusión de UOM
12 El dispositivo electroacústico usado para difundir UOM fue consensuado con el compo-
sitor Nicolás Varchausky, quien en principio propuso una disposición en estrella de ocho
parlantes para su obra La Bonaerense/La Federal, que junto con UOM conformó el concierto
“La estrella federal” (título que hacía referencia a esta disposición de parlantes). La pro-
puesta original de Varchausky fue modificada levemente para adaptarse a la reproducción
Ambisonics de UOM, que requiere una distribución homogénea de las fuentes sonoras. Esta
modificación también ayudó a resolver algunos problemas de efecto de precedencia del
arreglo original.
304
Estos dos sistemas de parlantes funcionan de forma independiente, cada uno
de ellos con ecuaciones de decodificación adaptadas a su morfología.13 Esta
característica del dispositivo, con dos sistemas bidimensionales en lugar de
uno tridimensional, plantea un problema para la localización de sonidos con
ángulos de elevación intermedios (entre ambos sistemas), puesto que la señal
Z no pudo ser usada en la codificación en formato B.14 Para resolver este pro-
blema, fue necesario desarrollar ecuaciones de codificación modificadas que
tuvieran en cuenta el ángulo de elevación de los sonidos; este es el sistema de
ecuaciones utilizado para la codificación:
1
Wl = s ⋅ cos(γ ⋅ π 2)⋅
2
X l = s ⋅ cos(γ ⋅ π 2)⋅ cos(α)
Yl = s ⋅ cos(γ ⋅ π 2)⋅ sin(α)
1
Wu = s ⋅ sin(γ ⋅ π 2)⋅
2
X u = s ⋅ sin(γ ⋅ π 2)⋅ cos(α)
Yu = s ⋅ sin(γ ⋅ π 2)⋅ sin(α)
donde W1, X1, Y1 y Wu, Xu, Yu son las señales de formato B correspondientes a
los sistemas bidimensionales de parlantes, inferior y superior respectivamente;
s es la señal mono a codificar, α el ángulo de azimut (0 a 360 grados), y γ el
coeficiente de elevación (0 a 1). Nótese que para un valor de γ de 0 las señales
del sistema superior serían eliminadas, utilizando el sistema inferior ecuacio-
nes estándar de codificación en dos dimensiones. Un valor de γ de 1 derivaría
en la situación opuesta, con el sistema inferior eliminado y el superior uti-
lizando ecuaciones estándar de codificación bidimensional. Con valores de
γ entre estos límites, la energía de la señal a codificar sería repartida entre
ambos sistemas, codificando la fuente con igual intensidad en ambos sistemas
con un valor de γ de 0.5. Durante la difusión de la obra, cada una de las seña-
les de formato B es decodificada para su arreglo de parlantes correspondiente
usando matrices de decodificación estándar:15
13 Esto se debe a que no forman un poliedro Ambisonics estándar, que hubiese requerido
una distribución cúbica de los parlantes.
14 Para una presentación en detalle de la codificación Ambisonics en formato B, véase el
capítulo v de este libro.

15 Para una presentación en detalle de la decodificación Ambisonics de primer orden, véase
el capítulo v de este libro.
305
⎡ 1 1 ⎤
⎢ 1 ⎥
2 2
⎢ 1 1 ⎥ ⎡1 1 0⎤
⎢ 1 − ⎥ ⎢ ⎥
2 2 1 0 1⎥
L =⎢ ⎥ U =⎢
⎢ 1 1 ⎥ ⎢ 1 −1 0 ⎥
1 − −
⎢ 2 2 ⎥ ⎢ ⎥
⎢ ⎥ ⎣ 1 0 −1 ⎦
1 1
⎢ 1 − ⎥
⎣ 2 2 ⎦
La matriz L contiene los coeficientes de decodificación del arreglo de parlan-

tes inferior, las columnas corresponden a los escaladores de las señales W, X,
e Y del formato B bidimensional, y las filas a los parlantes no, so, se, y ne
respectivamente. La matriz U contiene los coeficientes de decodificación para
el arreglo de parlantes superior (n, o, s, y e).
Otra característica importante de este dispositivo es la distribución de
los asientos evitando un “frente” o escenario, reforzando el efecto de inmer-
sión buscado para la obra. Esta disposición del público, con cuatro grupos de
asientos apuntando cada uno a un punto cardinal distinto, facilita también
la escucha estereofónica puesto que la mayor parte de los oyentes se encuen-
tra enfrentado a un grupo de dos parlantes del sistema inferior. Si bien esta
afirmación parece contradecir la premisa de evitar una escucha frontal, en
la práctica sucede lo contrario, puesto que esta disposición mejora notable-
mente la estabilidad de la imagen sonora y por consiguiente la ilusión de
inmersión.16
Espacio y materia
El material sonoro de UOM es mayormente sintético, con la excepción de

algunos sonidos que aparecen hacia el final de la obra y que provienen del
procesamiento de grabaciones realizadas con un micrófono Ambisonics.17 La
composición fue realizada por estratos espectrales a partir de la resíntesis y
16 Podríamos agregar que por más que trabajemos con un sistema Ambisonics, los parámetros
perceptivos de escucha de los oyentes seguirán siendo estereofónicos, y por consiguiente una
buena decodificación dependerá en gran medida de la creación de una imagen estereofónica
estable, sin la que sería muy difícil crear la ilusión de inmersión. Para una presentación en
detalle de técnicas estereofónicas, véase el capítulo iv de este libro.
17 El micrófono utilizado para estas grabaciones fue un Soundfield ST250. Para más infor-
mación acerca de los micrófonos Soundfield, véase el capítulo v de este libro.
306
granulación de un sonido de cualidades sonoras metálicas.18 El rango audible
de frecuencia fue dividido en 25 bandas correspondientes a las bandas críticas
de audición o la escala Bark,19 el sonido sintético fue procesado en forma indi-
vidual en cada banda usando un sistema de granulación en el cual cada grano
es codificado en formato B en forma independiente.20 La dispersión angular de
cada banda espectral fue controlada con un sistema de distribuciones estadísti-
cas, que permitió dar forma espacial a los flujos granulares concentrándolos en
ciertos puntos del espacio o esparciéndolos de manera difusa. El diagrama de
bloques de la figura 2 muestra un canal del sistema de síntesis y espacialización
usado en la obra.
Figura 2. Sistema de síntesis y espacialización usado en UOM
18 La fuente de la mayor parte de estos sonidos sintéticos fue el análisis espectral realizado
con el programa ats (Pampin, 2004) de un sonido de gong proveniente de mi obra para
percusión y sonidos electrónicos Métal Hurlant (véase Di Liscia, 2005).
19 El sistema de análisis ats, utilizado para la obra, está basado en este modelo psicoacústico.
Una presentación detallada de este sistema de análisis puede verse en Pampin (2004). La
escala Bark y su relación a las bandas críticas fue introducida por E. Zwicker (1961). Una pre-
sentación más detallada y profunda de este tema puede hallarse en Zwicker y Fastl (1990).
20 Este procedimento es similar al utilizado en la sección “North” de On Space, la cual fue
compuesta a partir de un material metálico muy similar al del comienzo de UOM; la principal
diferencia es que mientras que en On Space el procedimiento de espacialización está basado
en un pricipio de transfomación de la señal Ambisonics de formato B (véase “Dominancia” en
el capítulo v de este libro), en UOM la espacialización fue realizada durante la codificación
misma de cada grano, generando texturas de mucha mayor densidad. Para una presentación
del sistema de espacialización usado para On Space véase Di Liscia (2005).
307
La primera mitad de la obra presenta una construcción por capas usando este
sistema, en la cual sucesivos estratos espectrales van cubriendo gradualmente el
espacio hasta esparcirse en todas direcciones a la manera de una niebla granular.
La figura 3 muestra diagramas polares de dispersión angular correspondientes a
cuatro momentos de la primera parte de la obra. La figura 3a, correspondiente
al comienzo, muestra un estrato que conforma una distribución espacial de tipo
hipercardioide apuntando hacia el Norte (0 grados). Espectralmente, este estra-
to está constituido por bandas de frecuencia de 16 a 20 Bark (cubriendo algo
más que una octava de 3.150 Hz a 7.700 Hz).21 La figura 3b, correspondiente
a dos minutos de la obra, muestra un incremento en la dispersión angular del
estrato anterior (A), que describe ahora una distribución espacial de tipo car-
dioide rotada 60 grados hacia el Este (300 grados en el diagrama polar). El eje
central de la distribución angular de este estrato (A) es usado como referencia
para la generación de nuevos estratos. En este gráfico pueden verse diagramas
polares correspondientes a otros dos nuevos estratos: B, con bandas espectrales
de 14 a 15 Bark (2.320 Hz a 3.150 Hz), y C, con bandas espectrales de 21 a 22
Bark (7.700 Hz a 12.000 Hz). Ambos estratos presentan distribuciones espacia-
les hiper-cardioides ubicadas a ±45 grados respecto del eje de referencia (estrato
A). La figura 3c, correspondiente a cuatro minutos de la obra, muestra las distri-
buciones espaciales de cinco estratos, puede verse que los estratos presentes en
el diagrama anterior (A, B y C) continúan aumentando su dispersión angular y
rotando en sentido contrario a las agujas del reloj (el eje de referencia, estrato
A, se encuentra ahora en 240 grados), se agregan a ellos dos nuevos estratos:
D, con bandas espectrales de 9 a 13 Bark (1.080 Hz a 2.320 Hz), y E, con una
banda espectral correspondiente a 23 Bark (12.000 Hz a 15.500 Hz); ambos
estratos conforman distribuciones espaciales hiper-cardioides a ±135 grados
respecto del eje de referencia (estrato A). La figura 3d muestra el estado de las
distribuciones espaciales de los distintos estratos hacia el final de la primera
parte de la obra (seis minutos); puede verse que la dispersión angular ha llegado
a su mayor punto en el estrato A, cubriendo casi por completo la circunferencia
espacial, y describiendo un patrón cuasi omnidireccional. Aparecen en este
gráfico dos nuevos estratos: F y G con bandas espectrales de 8 Bark (920 Hz a
1.080 Hz) y 24 Bark (15.500 Hz a 20 KHz) respectivamente, ambos describen
distribuciones espaciales hiper-cardioides a ±135 grados respecto del eje de refe-
rencia (que se encuentra ahora en 180 grados). Estos siete estratos abarcan un
total de dieciséis bandas críticas (cerca de cuatro octavas y media). A la par de
este proceso, en el cual los diversos estratos espectrales van revelándose gradual-
21Nótese que los valores en Bark indican la frecuencia central de las bandas críticas en
cuestión, y los valores en Hertz su ancho de banda.
308
mente y ocupando el espacio, cada uno de ellos sigue una evolución temporal
diferente, consistente en cambios lentos (no lineales) de amplitud y densidad
granular. Perceptivamente, esta evolución temporal insinúa la cadencia de una
respiración, donde los cambios que suceden en el interior del sonido se reflejan
en su superficie como paulatinos cambios de brillo e intensidad.
(a)
0
30 330
60 300
90 270 A
120 240
150 210
180
(b)
0
30 330
60 300
A
90 270 B
C
120 240
150 210
180
Figura 3. Diagramas polares ilustrando la dispersión angular de los diferentes estratos

espectrales (a, b, c, d, e, f y g) de la primera parte de UOM. a) comienzo de la obra, b) 2
minutos, c) 4 minutos, d) 6 minutos
309
(c)
0
30 330
60 300
A
B
90 270 C
D
E
120 240
150 210
180
(d)
0
30 330
60 300
A
B
C
90 270 D
E
F
G
120 240
150 210
180
Transformación
Este proceso de apropiación del espacio a partir de estratos granulares es

extendido gradualmente en altura usando el sistema de parlantes superior,
llegando a cubrir el espacio en sus tres dimensiones hacia el final de la pri-
310
mera mitad de la obra, después de nueve minutos. A partir de allí las ocho
bandas críticas inferiores (de 0 a 7 Bark) son introducidas paulatinamente
y serán la base para la construcción del clímax y la articulación formal más
importante de la pieza, en la cual el sonido, hasta ahora morfológicamente
indefinido (similar al rumor de una maquinaria metálica), irá creciendo en
volumen hasta tomar la forma de una máquina de escribir. Esta transfor-
mación morfológica cumple una doble función: por un lado presenta una
metáfora sonora, mutando una máquina en otra (de la “fundición”22 a la
máquina de escribir), transfigurando el paisaje sonoro de la fábrica en el
espacio íntimo de la narración escrita del texto de Walsh. Por otro lado,
esta transformación marca también un cambio drástico en la difusión del
material sonoro, pasando de una textura difusa y envolvente, a una con
capas de sonidos claramente articulados y de localización espacial precisa,
creando la ilusión de que la máquina de escribir emerge de la niebla metálica
que la precede, develando así la presencia del narrador. La figura 4 muestra
un sonograma que comprende esta transformación y el crecimiento gradual
de energía que la antecede.
Figura 4. Sonograma del minuto 10 al 17 de UOM
22Siguiendo la descripción de Monjeau. Es significativo también que en su crítica, Monjeau

describa este proceso de transformación como un “fundido”.
311
Puede verse en el sonograma que la transformación fue realizada por bandas,
mutando gradualmente las siete bandas de 14 a 21 Bark (que abarcan aproxi-
madamente dos octavas de 2.320 Hz a 9.500 Hz). A la par de esta mutación
espectral, un nuevo material aparece en el extremo superior del espectro cer-
cano a los 18 KHz, descendiendo luego en forma continua hasta los 13 KHz
y ocupando por completo la banda correspondiente a 23 Bark (de 12.000 Hz
a 15.500 Hz). Este material, una textura que en principio podría asimilarse
al sonido de un cristal roto, no es más que una decomposición del sonido de
la máquina de escribir, tomando solo parte de sus ataques y filtrándolos en el
registro indicado luego de someterlos a una granulación de altísima densidad.
Este proceso, que toma forma espacial en tres dimensiones, tiene una dura-
ción apenas superior a un minuto y culmina con la articulación normal de la
máquina de escribir cubriendo el total del espectro.
Después de esta transformación, en el final de la obra, los materiales irán
gradualmente dividiéndose en dos capas espaciales, una asignada al arreglo
de parlantes superior, con la máquina de escribir (ya articulada normalmen-
te) y restos de la textura metálica de la sección precedente que desaparecen
gradualmente, y otra asignada al arreglo de parlantes inferior con el texto de
Walsh narrado por una voz velada. Además de estar separadas en altura, estas
dos capas presentan también un contraste en su difusión espacial: la voz tiene
un carácter omnidireccional, mientras que la máquina de escribir, grabada
con un micrófono Ambisonics y casi sin procesamiento hacia el final de la
obra, presenta una imagen espacial clara que deja translucir el recinto en el
que fue grabada. La intención aquí fue la de superponer un espacio interno a
uno externo: la voz, que parece susurrar desde el interior de nuestras cabezas
(su carácter omnidireccional la vuelve también omnipresente), y la máquina
de escribir, que con su articulación revela el espacio físico en el que se escribe
el texto.
Reflexiones
El marco teórico y estético desarrollado para UOM, como así también su

implementación tecnológica, dejaron las puertas abiertas para la exploración
de nuevos territorios artísticos. En particular el concepto de flujo espectro-
granular y la posibilidad de ajustar sus patrones de dispersión espacial a partir
de distribuciones estadísticas me permitió vislumbrar nuevas posibles formas
de trabajo espacial con el sonido. Durante los años que siguieron a la compo-
sición de UOM mi interés en lo espacial se centró en la relación entre el sonido
y el cuerpo. Mis trabajos en esta nueva dirección –que exceden el campo de
la música y se proyectan hacia lo que podríamos llamar el arte sonoro (véase
312
LaBelle, 2006)– buscan la extensión del sonido más allá de los límites de la
audición, como una manera de transformar la experiencia sonora en algo
físico.
A nivel tecnológico, el trabajo con Ambisonics continuó siendo central
en esta búsqueda, tanto por sus posibilidades de control perifónico del sonido
como por sus capacidades de inmersión, pero no resultó suficiente para lograr
trascender la “esfera” creada por los parlantes. 23 Fue el trabajo con ultrasonido
lo que me permitió crear flujos espaciales altamente localizados que trascien-
den los límites del espacio virtual creado por los parlantes e ingresan al propio
espacio físico, yendo de una concepción puramente auditiva del espacio a una
que involucra lo corporal. La instalación sonora Entanglement (2008) fue el
primer trabajo artístico de dimensiones realizado con esta tecnología. En la
sección siguiente se presentan en detalle los componentes conceptuales y téc-
nicos de este trabajo, en particular los relacionados a las nociones de espacio
y cuerpo.
Entanglement
Mi trabajo más reciente, Entanglement (2008),24 extiende la noción de flujo

espacial introducida en UOM al propio espacio físico. El concepto de esta
instalación está relacionado con la idea de inmersión y dispersión sonora
tanto en una dimensión auditiva como corporal. La obra también extiende el
concepto de espacio (sonoro y físico) creando un entorno o medio ambiente
que es habitable en dos sitios distantes en simultáneo.
Entanglement fue encargada conjuntamente por el 911 Media Arts Center
y la galería soil de Seattle para su muestra “Simultaneity”. Haciendo uso
de una concepción telemática, la obra traza una línea sonora que atraviesa
la ciudad y disecta físicamente los espacios de ambas galerías, ubicadas en
extremos opuestos del downtown de Seattle. Esta línea –creada localmente
con ultrasonido y proyectada remotamente a través de internet– es una frágil
23 Véase la definición de sistema perifónico y el concepto de esfera unidad en el capítulo v

de este libro.
24 Instalación sonora telemática realizada en colaboración con Eunsu Kang y Joel Kollin,
ambos estudiantes de doctorado del Center for Digital Arts and Experimental Media de
la Universidad de Washington. El título de la obra posee múltiples significados en inglés
(enredo, vínculo, red, etc.) que tornan difícil una traducción literal al castellano. Podríamos
decir que el título hace referencia a la manera en que la percepción auditiva de los partici-
pantes de la obra queda atrapada en una red interactiva que involucra también a su cuerpo,
vinculándolo con el de otros participantes a la distancia.
313
construcción acústica que es solo perturbada por los visitantes de la instala-
ción, quienes con sus cuerpos pueden bloquear –en forma total o parcial– su
flujo sonoro continuo. La interacción física con este flujo sonoro tiene como
resultado la dispersión de sus partículas granulares en todo el espacio de la
galería, produciendo localmente un estado acústico inmersivo. Al mismo
tiempo, una sombra acústica, resultante del bloqueo parcial o total del flujo, es
proyectada telemáticamente en el otro sitio, produciendo una discontinuidad
sonora. Podríamos decir que Entanglement explora la idea de “tele-ausencia”
(en lugar de “tele-presencia”, véase Ascott, 1990; 2003) usando un canal
acústico virtual para proyectar remotamente una presencia inmaterial de sus
visitantes.
Lugar
Uno de los objetivos principales de Entanglement fue la creación de un espa-

cio continuo, un “lugar” que atravesara linealmente la ciudad.25 Para ello,
en lugar de acentuar las diferencias entre los espacios de ambas galerías,
la elección fue unificarlos en forma visual y sonora, volviéndolos com-
plementarios y así producir una sensación de ambigüedad sonoro-espacial
en los visitantes. Esta concepción sonoro-espacial se apoya en un diseño
arquitectónico homogéneo de ambos sitios, evitando una distinción binaria
o didáctica entre ellos.
A grandes rasgos, el diseño plástico del espacio consiste en dos estruc-
turas espejadas ubicadas en los extremos de cada sala (véase figura 5).26
Ambas estructuras fueron construidas con un material flexible que permitió
darles formas orgánicas para quebrar la planta cúbica de las salas. Una de las
estructuras (figura 5a) contiene un canal circular de aproximadamente 50
cm de diámetro y 1 m de profundidad que alberga un transductor de ultraso-
nido (véase la sección siguiente); la otra estructura, enfrentada a la primera,
presenta una topología más irregular (figura 5b) y contiene un micrófono
oculto que capta los sonidos emitidos desde la primera.27 La instalación se
completa con un arreglo de 6 parlantes distribuidos alrededor del recinto,
ocultos a los ojos de los visitantes.
25 Este concepto de lugar debe ser entendido como unidad espacial. Esta idea es muy cercana
a la que Juan José Saer presenta en su literatura y está apoyada en su concepto de “zona”.
Sobre este tema se recomienda la lectura de Premat (2002).
26 El diseño de estas estructuras fue realizado en gran parte por Eunsu Kang.
27 El micrófono capta además una señal de ultrasonido que es usada como parámetro de
control. Esto se explica en detalle en las secciones siguientes.
314
Figura 5. Imágenes de la instalación: a) estructura con emisor ultrasónico, b) estructura
con receptor (micrófono)
Al entrar a uno de los sitios de la instalación, inmersos en una casi total

oscuridad, los visitantes apenas pueden ver las estructuras que, iluminadas
tenuemente, presentan formas orgánicas difíciles de discernir.28 Las formas
completas de las estructuras irán revelándose con el paso del tiempo, a medi-
da que los visitantes adapten su visión a la oscuridad. Durante este lapso de
adaptación visual, cuya duración depende de cada persona, la experiencia de
la instalación es casi completamente sonora y física, teniendo los visitantes
que valerse de sus oídos y su cuerpo para explorar el espacio. A medida que el
entorno visual se revela dinámicamente, varios aspectos del entorno sonoro
también lo hacen, dependiendo de los movimientos de los participantes y de
su interacción con el flujo sonoro.
Flujo
La metáfora natural de un río, o un arroyo, podría servir para describir el medio

ambiente de la instalación. Un flujo sonoro continuo y altamente localizado
28 El diseño de iluminación de ambos sitios fue realizado por Joel Kollin.
315
atraviesa longitudinalmente a ambos sitios. Este flujo es creado a partir de un
haz de ultrasonido proyectado desde uno de los extremos de la sala. Una de las
propiedades del ultrasonido es que, debido a su largo de onda (aproximadamen-
te 1,7 cm o menor), tiene un patrón de radiación altamente direccional, como
puede apreciarse en el diagrama de radiación polar de la figura 6.
Creando patrones de interferencia (o batidos) en el rango del ultraso-
nido pueden generarse sonidos dentro del rango audible y aprovecharse las
características del ultrasonido para construir transductores de audio altamente
direccionales.29 Por ejemplo, dos sonidos sinusoidales de 40 y 41 KHz respec-
tivamente, transmitidos desde una misma fuente acústica con alto nivel de
presión sonora (mayor a 100 dB SPL) pueden producir un sonido diferencial
audible y altamente localizado de 1 KHz (y otro inaudible de 81 KHz). Una
manera sencilla de producir este efecto con una señal de audio de banda ancha
(no sinusoidal) es usando una portadora ultrasonora (a 40 KHz, por ejemplo)
que sea modulada en amplitud por la señal de audio a reproducir. Por cada
componente en la señal de audio se producirán bandas laterales alrededor de
la portadora creando copias en espejo del espectro del sonido en el rango del
ultrasonido. Una vez transmitida esta señal compuesta a través de un trans-
ductor ultrasonoro, el aire actúa como demodulador haciendo audible la señal
de audio moduladora.30 Además de su alta concentración espacial de energía,
produciendo solo un área estrecha dónde el sonido es perceptible, este tipo de
haz sonoro tiene también la particularidad de ser altamente reflectivo. Esta
otra característica del ultrasonido es aprovechada en la obra para crear la ilu-
sión de que las partículas granulares que constituyen el flujo sonoro refractan
del cuerpo de la persona que lo interrumpe, esparciéndolas en el espacio de la
instalación. La siguiente sección se refiere a este aspecto de la obra.
Perturbación
Como hemos visto, el estado natural de la instalación es el de un flujo sonoro

continuo que atraviesa el espacio físico de ambos sitios. Los sonidos emanados
por el transductor de ultrasonido producen un flujo de sonidos granulares de alta
29 Los efectos no lineales producidos en el aire por ultrasonido de alto nivel fueron estu-
diados en la década de 1960 por P. Westervelt (Westervelt, 1963), quién acuñó el término
arreglo acústico paramétrico para describir este tipo de transductor. Para una historia detallada
del arreglo acústico paramétrico se recomienda la lectura del artículo de divulgación publica-
do por la empresa atc (Croft y Norris, 2001).
30 Debe notarse que este esquema de modulación tiene algunos problemas de distorsión
espectral debido a la intermodulación de las bandas laterales. Para una discusión en detalle
acerca de métodos de modulación más eficientes ver Barbagallo, Kleiner, y Sarti (2008).
316
0
20 340
0
40 320
-6
60 -12 300
-18
80 -24 280
-30
100 f = 40KHz 260

d = 1m
120 240
140 220
160 200
180
Figura 6. Diagrama polar de radiación de un transductor de ultrasonido para una frecuen-

cia de 40 KHz a 1 m de distancia. El gráfico muestra un patrón de radiación hipercardioide
abarcando un ángulo cercano a 40 grados
densidad que solo es percibido cuando se lo atraviesa.31 Una vez dentro del área
afectada por el flujo sonoro, el cuerpo del participante actúa como un objeto
perturbador, difractando parte de las partículas granulares, bloqueando así su
trayectoria hacia el otro sitio en forma total o parcial. De esta manera, una per-
turbación local del flujo sonoro produce una remota, cambiando las condiciones
acústicas del otro sitio. Podríamos decir que desde la perspectiva del otro sitio, la
perturbación local del flujo sonoro es percibida como una sombra acústica: una
presencia acusmática fantasmagórica (véase la sección siguiente).
Desde un punto de vista técnico, la ilusión de perturbación es crea-
da mediante la interacción de un haz ultrasónico y un sistema de sonido
Ambisonics. El haz ultrasónico emitido desde un lado del recinto es captado
por un micrófono en el extremo opuesto del mismo. La amplitud del haz es
analizada por un agente informático que produce una señal de control, utili-
zada para medir el nivel de interrupción del flujo sonoro. Esta métrica es apli-
cada a múltiples parámetros del sistema, produciendo un intercambio sonoro
entre el haz ultrasónico y el arreglo Ambisonics. Por ejemplo, al atravesar los
límites del área cubierta por el flujo sonoro, el cuerpo del participante produce
31 Al entrar a uno de los sitios, los participantes pueden oír solo un rumor de este sonido,
mayormente debido a su refracción. La relación de nivel entre este reflejo y el sonido direc-
to (medido dentro del haz de ultrasonido) es de al menos 70 dB.
317
una discontinuidad en la señal de control; según el nivel de esta disconti-
nuidad un mayor o menor número de partículas granulares son emitidas por
el sistema Ambisonics, produciendo una ilusión de difracción e inmersión.
También el patrón de dispersión y la densidad de estas partículas granulares
es controlado con este parámetro, yendo de un patrón cardioide con alta den-
sidad granular (complementario al flujo sonoro) a un patrón omnidireccional
con baja densidad, para niveles de perturbación bajos y altos respectivamente.
Este sistema de control multidimensional usa un mapeo paramétrico no lineal
que controla a su vez un reverberador artificial para crear la ilusión de un cam-
bio dinámico del tamaño del recinto. La figura 7a muestra la señal de control
para diferentes niveles de bloqueo del flujo sonoro. La figura 7b muestra la
curvas de correspondencia de los diferentes parámetros del sistema en función
de la señal de control. La curva a controla la densidad granular del sonido, el
rango de este parámetro va de 10 granos/seg (a = 0) a 100 granos/seg (a = 1).
La curva b controla la dispersión angular de los granos, el patrón polar de la
dispersión está dado por la siguiente ecuación:
y(θ)= b + (1− b)⋅ cos(θ)
que resulta en un patrón omnidireccional para un valor de b de 1, y un patrón

cardioide para un valor de b de 0. La curva c controla el nivel de reverberación
(el rango de este parámetro fue calibrado de manera independiente en cada
sitio). Finalmente la curva d controla el número de partículas granulares que
son emitidas por el sistema Ambisonics. Puede verse a partir de esta curva
que este sistema permanece en silencio si el flujo es continuo (d = 0), y llega a
su máxima intensidad cuando el flujo es interrumpido por completo (d = 1).
Cuando el nivel de interrupción del flujo sonoro traspasa un cierto
umbral (A en el gráfico 7a), el sistema envía un mensaje al otro sitio a través
de internet. Este mensaje es usado por el sistema remoto para comenzar un
proceso de transformación que acompaña la interrupción del flujo sonoro,
acentuando la ilusión de una sombra acústica (véase la sección siguiente).
Un mensaje diferente es enviado cuando la señal de control vuelve a superar
un cierto umbral (b en el gráfico 7a), indicando que el flujo ha sido reesta-
blecido y terminando el proceso de transformación remoto. La presencia de
participantes activos en ambos sitios puede producir un alto nivel de com-
plejidad en los cambios acústicos del entorno. Dependiendo de los niveles
de perturbación tanto locales como globales, el sistema reacciona de manera
diferenciada teniendo en cuenta el nivel de actividad y el tiempo dispensado
a la interacción, premiando acciones prolongadas que invitan a la exploración
corporal y auditiva.
318
(a)
0.8 B
nivel del flujo
0.6 flujo continuo

flujo semi-continuo
bloqueo parcial
0.4 bloqueo total
0.2 A
0 5 10 15 20 25
tiempo (s)
(b)
0.8
0.6 a
mapeo
b
c
0.4 d
0.2
0 0.2 0.4 0.6 0.8 1

nivel del flujo
Figura 7. a) Señales de control para diferentes niveles de bloqueo del flujo sonoro; b) cur-
vas de correspondencia paramétrica en función de la señal de control: a. densidad granular,
b. dispersión angular, c. nivel de reverberación, d. nivel del sistema Ambisonics
319
Teleausencia
Mediante la exploración del espacio acústico de uno de los sitios, los partici-
pantes transforman el paisaje sonoro de la instalación tanto local como remo-
tamente. Su presencia en uno de los sitios es transferida al otro a través del
sonido o, más precisamente, del silencio, mediante la interrupción del flujo
sonoro continuo, creando una sombra acústica. La obra explora el principio
de “teleausencia” mediante el uso de un canal acústico virtual que proyecta
esta presencia incorpórea de los participantes de un sitio a otro a través de
internet.
Técnicamente, este sistema telemático consiste de un agente de emisión
de audio por internet que transmite el sonido capturado por un micrófono
usando un canal dedicado. Este canal es sintonizado por un agente de recep-
ción en el sitio remoto; el sonido recibido a través de la red es decodificado,
procesado y luego emitido por el transductor ultrasonoro local. Debe notarse
que solo si el haz es bloqueado completamente en ambos sitios –creando una
sombra acústica en espejo– se abrirá en el sistema un canal de comunicación
bidireccional, intercambiando el sonido de ambos sitios a través del flujo
ultradireccional.32 Esta nueva capa del sistema, que solo es revelada en situa-
ciones especiales, es extremamente delicada ya que al menor movimiento de
los cuerpos fuera del área de incidencia del flujo sonoro el sistema tenderá a
retornar a su estado de equilibrio, cerrando el canal de comunicación. Este
componente interactivo involucra el cuerpo de los participantes de manera
radical, ya que solo forzando la interrupción del flujo sonoro, quebrando el
fluir con su cuerpo, y permaneciendo inmóviles a ambos lados del canal,
podrán los participantes atravesar la distancia acústica que los separa y esta-
blecer comunicación.
Conclusiones
Entanglement constituye lo que Jack Burnham definió como un sistema

abierto (Burnham, 1974), el cual se cierra solamente con la acción de los
participantes, quienes funcionan como agentes interactivos revelando las
múltiples capas del mismo. El sistema de la obra es autónomo, tiene un estado
de equilibrio o reposo y una red de múltiples patrones de reacción. Si bien
32Este canal es a su vez afectado por líneas de retardo que simulan la distancia “acústica”
entre ambos sitios, introduciendo un retardo temporal similar al que ocurriría si pudiéramos
proyectar nuestra voz a dos kilómetros de distancia.
320
esta red tiene un número limitado de componentes, la interacción local y
remota, aislada o simultánea, vuelven al sistema impredecible en términos de
su comportamiento: estando la interacción de los participantes con el medio
ambiente de la instalación basada en la retroalimentación del sonido entre
ambos sitios, pueden emerger del sistema estados acústicos imprevistos. Este
es un punto importante de destacar, el cual está relacionado directamente
con el título de la obra, que hace referencia a la manera en que la percepción
auditiva de los participantes se encuentra atrapada en una red interactiva que
involucra también su cuerpo: no hay manera de separar el acto de oír del acto
de enmascarar y viceversa.
Es interesante comparar este sistema abierto con el sistema cerrado que
constituye UOM, en el cual los oyentes no tienen una participación activa:
su presencia física es necesaria pero no central en la construcción de la obra
como lo es en el caso de Entanglement. Podríamos decir que UOM es una obra
musical con una narrativa espacial de sitio específico, es decir que su conte-
nido material resuena política y acústicamente con su espacio de ejecución
(la fábrica metalúrgica). Esta narrativa espacial difiere de la de Entanglement,
donde la propia experiencia espacial de los participantes se ve continuamente
sometida a modificaciones a través de un lazo de retroalimentación interac-
tivo, que involucra tanto lo auditivo como lo corporal. Es importante notar
también que hay algo paradójico en esta interacción: en nuestro intento por
oírlo, nuestro cuerpo perturba o destruye el flujo sonoro que es eje del sistema,
transformando en el mismo acto la acústica del espacio de audición.
Por otra parte, ambas obras están basadas en la transformación dinámica
del espacio y la materia, utilizando materiales y procedimientos electro-
acústicos muy similares pero en escalas temporales totalmente diferentes.33
Mientras que UOM presenta una arquitectura material y espacial que se articu-
la gradualmente a lo largo de dieciocho minutos, las articulaciones morfológi-
cas de Entanglement suceden en una escala temporal más cercana a la cadencia
de nuestros movimientos corporales, revelando transformaciones sonoras más
lentas cuando la interacción con el sistema es prolongada o si el participante
decide mantenerse estático bloqueando el flujo central de la obra.34 De esta
33 Los materiales de base utilizados para Entanglement provienen de objetos de vidrio y cerá-
mica destruidos a martillazos. A diferencia de los sonidos metálicos de UOM, estos sonidos
pierden completamente su identidad material al ser transformados digitalmente, siendo
imposible reconocer su origen, solo conservando algunas de sus características morfológicas
y su contenido espectral global.
34 Este aspecto del sistema fue utilizado de manera extensa en una segunda versión de la obra
producida para el museo Ssamzie Space, en Corea. En esta versión, los participantes que
bloqueaban el flujo sonoro por un largo período de tiempo eran recompensados con una muta-
321
manera lo formal está también ligado a lo corporal y a lo físico, y no solo a
lo auditivo.
Desde un punto de vista técnico, el trabajo en simultáneo con ultrasonido
y Ambisonics permitieron la construcción de un sistema que es mayor a la
suma de sus partes. La alta granularidad espacial que permite el uso de un haz
de ultrasonido fue combinada con la capacidad de inmersión de Ambisonics
y sus posibilidades de control de la direccionalidad del sonido para crear un
sistema dinámico que pudiera transformar rápidamente el espacio acústico
en función de la interacción de los participantes de la instalación. La inte-
gración de ambas tecnologías permitió también homogeneizar la experiencia
acústica de la obra: la refracción de partículas granulares en los cuerpos de
los participantes fue acentuada por reflejos tempranos presentes en el sistema
Ambisonics; también los cambios de dispersión angular fueron dramáticamen-
te acentuados por la transición de un sistema de reproducción al otro. Podría
pensarse en maneras de extender este campo de integración entre ambas
técnicas para la creación de entornos interactivos de mayor granularidad espa-
cial, utilizando múltiples haces de ultrasonido en simultáneo con un sistema
Ambisonics de segundo o tercer orden.35 Además de una mayor agudeza en la
reproducción espacial, un sistema como este –en combinación con un sistema
de control similar al usado en Entanglement– permitiría una partición más
fina del espacio físico, utilizando los haces ultrasonoros para la detección del
movimiento y la localización de los participantes. Nuestros presentes trabajos
de investigación están dedicados a indagar en las posibilidades artísticas de
este tipo de sistemas.
Bibliografía
Ascott, R. (2003), Telematic Embrace: Visionary Theories of Art, Technology,

and Consciousness by Roy Ascott, Berkeley, University of California
Press.
—— (1990), “Is There Love in the Telematic Embrace?”, Art Journal, 49:3,
Nueva York, College Arts Association of America, pp. 241-247.
ción gradual del sonido que terminaba inundando el espacio por completo con una textura
de gran densidad e intensidad.
35 De esta manera podrían alinearse aun más los patrones polares de radiación de ambos sis-
temas de reproducción. Para una descripción de los sistemas Ambisonics de segundo y tercer
orden, y sus ecuaciones de codificación y decodificación, véase el capítulo v de este libro.
322
Bamford, J. S. (1995), “An Analysis of Ambisonic Sound Systems of First
and Second Order”, tesis de maestría, Waterloo University, Ontario,
Canadá.
Barbagallo, M., M. Kleiner y A. Sarti (2008), “Modulation and Demodulation
of Steerable Ultrasound Beams for Audio Transmission and Rendering”,
Proceedings of the 11th International Conference on Digital Audio Effects
(DAFx-08), Espoo, Finlandia.
Blauert, J. (1997), Spatial Hearing, Cambridge, mit Press.
Blesser, B. y L. R. Salter (2007), Spaces speak, are you listening?: Experiencing
aural architecture, Cambridge, mit Press.
Burnham, J. (1974), “Systems Esthetics”, Great Western Saltworks, Nueva
York, George Braziller.
Croft, J. J. y J. O. Norris (2001), Theory, History, and the Advancement of Parametric
Loudspeaker, (libro blanco del) American Technology Corporation (atc)
en <http://atcsd.com/pdf/HSSWHTPAPERRevE.pdf>.
Di Liscia, O. P. (2005), “Los modos de vínculo de la espacialidad del sonido
con la poiesis de la música electroacústica”, tesis doctoral, Facultad de
Humanidades y Artes, Universidad Nacional de Rosario.
Forsyth, M. (1985), The Architect, The Musician, and the Listener from the
Seventeenth Century to the Present Day, Cambridge, mit Press.
Kahn, D. (1999), Noise, Water, Meat: A History of Sound in the Arts,
Cambridge, mit Press.
Kendall, G. S. (1995), “A 3-D Sound Primer: Directional Hearing and Stereo
Reproduction”, Computer Music Journal, 19:4, Cambridge, mit Press.
—— (1995), “The decorrelation of Audio Signals and its impact on Spatial
Imaginery”, Computer Music Journal, 19:4, Cambridge, mit Press.
LaBelle, B. (2006), Background Noise: Perspectives On Sound Art, Nueva York,
Continuum International.
Malham, D. G. (1998), “Approaches to Spatialisation”, Organized Sound, 3:2,
Cambridge University Press.
—— y M. Anthony (1995), “3-D Sound Spatialization using Ambisonic
Techniques”, Computer Music Journal, 19:4, Cambridge, mit Press.
Pampin, J. (2004), “ATS: A System for Sound Analysis, Transformation,
and Synthesis Based on a Sinusoidal Plus Critical Band Noise Model”,
Proceedings of the 2004 International Computer Music Conference, Miami,
International Computer Music Association.
——, J. S. Kollin y E. Kang (2007), “Applications of Ultrasonic Sound Beams
in Performance and Sound Art”, Proceedings of the 2007 International
Computer Music Conference, Copenhagen, International Computer
Music Association.
323
——, O. P. Di Liscia, W. Moss y A. Norman (2004), “ATS User Interfaces”,
Proceedings of the 2004 International Computer Music Conference, Miami,
International Computer Music Association.
Premat, J. (2002), “Saer fin de siglo y el concepto de lugar”, Foro hispánico,
vol. 24, Rodopi.
Rumsey, F. (2001), Spatial Audio, Oxford, Focal Press.
Schulz, B. (2002), Resonances: Aspects of Sound Art, Heidelberg, Kehrer
Verlag.
Tschumi, B. (1996), Architecture and Disjunction, Cambridge, mit Press.
Walsh, R. (1969), ¿Quién mató a Rosendo?, Buenos Aires, Tiempo contem-
poráneo.
Westervelt, P. J. (1963), “Parametric Acoustic Array”, Journal of the Acoustical
Society of America, vol. 35, N° 4, abril de 1963.
Wishart, T. (1985), On Sonic Art, York, Imagineering Press.
Zwicker, E. (1961), “Subdivision of the audible frequency range into critical
bands (Frequenzgruppen)”, Journal of the Acoustical Society of America,
vol. 33, N° 2, febrero, p. 248.
—— y H. Fastl (1990), Psychoacoustics Facts and Models, Berlín, Springer.
324
325
326
colofón
327
328

Musica y Espacio

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Musica y Espacio

Caricato da

Copyright:

Formati disponibili

Música y espacio:

ciencia, tecnología y estética

Música y espacio: ciencia,

Joseph Anderson / Gustavo Basso / Pablo Cetta /

© Gustavo Basso. 2009

Esta edición de 1.000 ejemplares se terminó de imprimir en

Capítulo I. Audición espacial de sonido: conceptos básicos y estado

Representación geométrica del espacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Percepción auditiva del ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Capítulo III. Técnicas de localización espacial de sonido

Capítulo IV. Transformadas clásicas de la imagen estéreo. Un análisis

Consideraciones fisiológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Capítulo VI. Sistemas de sonido multicanal para la industria audiovisual

Capítulo VII. El sonido multicanal en la composición acusmática

Atributos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

Capítulo IX. Descentramiento y concreción del espacio en la música

Capítulo x. Integración de la música al espacio virtual

Sonidos específicos y arquitectura aural . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

Capítulo XII. Espacio y materia, de lo auditivo a lo corporal.

Joseph Anderson (Escuela Scarborough de Electroacústica, Artes y Nuevos

Gustavo Basso (Facultad de Bellas Artes, Universidad Nacional de La Plata,

Pablo Cetta (Facultad de Artes y Ciencias Musicales, Universidad Católica

Mariano Cura (Universidad Nacional de Quilmes. Área de Artes

Oscar Pablo Di Liscia (Universidad Nacional de Quilmes. Área de Artes

Robert Dow (Escuela de Artes, Cultura y Medio Ambiente, Universidad de

Pablo Fessel (conicet; Universidad de Buenos Aires, Argentina). Es inves-

Martín Liut (Universidad Nacional de Quilmes. Universidad de Buenos

Dave Malham (Centro de Investigación en Música, Universidad de York,

Juan Pampin (Centro de Artes Digitales y Medios Experimentales, Universidad

Utilizamos la información espacial del sonido constantemente en nuestra vida

Representación geométrica del espacio

En este capítulo, el espacio tridimensional se representará mediante una esfera

Figura 1. Los tres planos esféricos

Se usará la denominación indicios de ubicación espacial para hacer referencia a

Indicios relativos a la localización angular

Previamente a su tratamiento debe aclararse que, en general, se producen dos

ITD (diferencia interaural de tiempo)

La diferencia interaural de tiempo (itd) consiste en la diferencia en el tiempo

1 A modo de ejemplo célebre, véase Blauert (1983).

Figura 2. Pérdida de efectividad de la itd a alta frecuencia por confusión de fase. El

2 Se considera aquí una cabeza de tamaño promedio (aproximadamente 23 cm de diámetro).

Si denominamos r al radio de la cabeza, la diferencia de recorrido d es:

En la figura 4 se puede ver el gráfico de las diferencias temporales de llegada

Ángulo horizontal desde el frente (azimut)

Figura 4. Diferencia interaural de tiempo (itd) en función del azimut

La diferencia interaural de intensidad (iid) consiste en la diferencia de inten-

Ángulo horizontal desde el frente (azimut)

Figura 5. Diferencia interaural de intensidad (iid) en función del azimut θ y de la frecuencia

Ya se mencionó que una cabeza humana promedio se puede aproximar a una

Indicios espectrales: hrtf (funciones de transferencia relativas a la cabeza)

Como ya se mencionó, cuando la fuente acústica está ubicada en cualquier

Diferencias espectrales monoaurales

En 1969 Butler sugirió que el pabellón auricular provee información sobre

La información provista por el pabellón auricular, dado su tamaño –unos 27

Indicios espectrales binaurales

Detección angular en fuentes móviles: La habilidad para percibir el movimiento

Indicios relativos a la distancia

Intensidad del sonido

La intensidad acústica disminuye o aumenta proporcionalmente con el cuadra-

Proporción entre la señal reverberada y la señal directa

Cuando una fuente acústica se encuentra en un recinto cerrado, además de su

6 Este tema se trata en detalle en el capítulo siguiente.

Absorción de altas frecuencias

Debido a la absorción de los gases y la humedad del aire, la energía acústica