Sei sulla pagina 1di 3

THE USE OF HEAD-AND-TORSO MODELS

FOR IMPROVED SPATIAL SOUND SYNTHESIS


ABSTRACT

This paper concerns the use of a simple head-and-torso model to correct deficiencies in the low-
frequency behavior of experimentally measured head-related transfer functions (HRTFs). This so-
called “snowman” model consists of a spherical head located above a spherical torso. In addition
to providing improved lowfrequency response for music reproduction, the model provides the
major low-frequency localization cues, including cues for low-elevation as well as high-elevation
sources. The model HRTF and the measured HRTF can be easily combined by using the phase
response of the model at all frequencies and by “cross-fading” between the dB magnitude
responses of the model and the measurements. For efficient implementation, the exact snowman
HRTF is approximated by two time delays and two first-order IIR filters. Because the poles are
independent of the location of the virtual source, this supports a simple real-time implementation
that allows for arbitrarily rapid head and source motion.

1. INTRODUCTION

Many systems for spatial sound synthesis employ experimentally measured head-related transfer functions
(HRTFs). Unfortunately, it is both time-consuming and experimentally difficult to measure HRTFs accurately. Low-
frequency measurements are particularly problematic, partly because large loudspeakers are required, and partly
because even good anechoic chambers reflect longwavelength sound waves. The use of windowing to eliminate
room reflections also modifies the response to low frequencies. Without low-frequency compensation, music
synthesized with HRTFs often sounds “thin” and lacking in bass. Ad hoc methods for boosting the bass can improve
the sound quality, but such compensation can disturb localization cues. Finally, most HRTF-based systems are not
able to convincingly position virtual sound sources at very low elevations.

The low-frequency performance of HRTF-based systems can be significantly improved by the judicious use of
theoretical HRTFs derived from simple models. The simplest of these is the classical spherical-head model [1, 2]. It
provides the low-frequency interaural time delay (ITD) and the interaural level difference (ILD), which are the two
most important cues for azimuth. The spherical head model all by itself does not provide any elevation cues, and
sounds synthesized using this model alone are weakly externalized and sometimes experienced as being elevated.

This paper describes a simple model that accounts for the contributions of the torso as well as the head to the
HRTF. This so-called “snowman model” is based on approximating both the head and the torso by rigid spheres.
The effect of these spheres on sound waves is in turn approximated by simple signal-processing modules. These
modules consist of two frequency-independent time delays and two fixed-pole, variable-zero, first-order IIR filters.
The time delays account for the propagation of sound across the head and the reflection by the torso for sounds at
high elevation. The filters accounts for head shadow for sources on the contralateral side and for torso shadow for
sources at low elevation. We show how this filter model can be used to compensate experimentally measured
HRTFs to produce virtual auditory sources that have a natural sounding bass response while retaining good source
localization cues.

We begin by reviewing some of the observed characteristics of HRTFs that are caused by the torso and that have
been explained and simulated by a simple headand-torso geometric model. We then present the exact HRTF for the
snowman model at all elevations. This HRTF indicates the major modes of behavior that occur as the elevation
ranges from overhead to underneath. A snowman filter model is then developed by building upon a filter model for
a single sphere and by analyzing the combined geometry of the two spheres that compose the snowman. Filter
implementation and applications are briefly discussed, with emphasis on the low-frequency compensation of
measured HRTFs.
DISCUSSION AND CONCLUSIONS

The snowman model is a simple and natural generalization of the spherical-head model that provides insight and
useful approximations to the HRTF, principally at low frequencies. By including the torso reflection and torso
shadow, the model adds useful elevation cues. A full HRTF model would also provide pinna cues, which are very
important when the source contains significant energy above 3 kHz. However, even without pinna cues, the head-
and-torso model provides limited but useful control over the apparent elevation of the source, particularly when
the source is away from the median plane. For sources above the horizontal plane, torso reflections provide useful
elevation cues. For sources at low elevations, the low-frequency effects of torso shadow — effects that occur below
700 Hz and that have often been ignored in previous HRTF studies — are important for imparting a sense that the
source is located down below the listener. Such low-elevation cues are also important for proper rendering of floor
reflections from nearby elevated sources. The simple snowman head-and-torso model reveals the nature and
magnitude of such elevation cues.

However, models based on spheres exhibit bright spots that are at best weak phenomena in human HRTFs.
Thus, the proposed filter-model approximation exploits the insight that sphere models provide, but does not
attempt to replicate the bright spots seen in the snowman HRTF. The filter model that was developed has several
advantages: (a) it is very efficient, (b) it preserves the important azimuth and elevation cues of the snowman
model, (c) it allows for arbitrarily high angular resolution, (d) it can respond to rapidly moving sources, (e) it can
be adapted to individual listeners, and (f) it provides a good sounding low-frequency response. Because the model
lacks pinna features, used alone it provides only a primitive HRTF. However, as a component of a more elaborate
structural HRTF model [17], it contributes localization cues and provides a fundamental approach to the proper
design of the low-frequency portion of the HRTF. Such a model can also be used to correct for lowfrequency
deficiencies in experimentally measured HRTF data. By providing both insight and simple implementation
techniques, the snowman filter model is a useful addition to the methods for generating spatial sound.

RESUMEN
Este artículo se refiere al uso de un modelo simple de cabeza y torso para corregir las deficiencias en el
comportamiento de baja frecuencia de las funciones de transferencia relacionadas con la cabeza (HRTF) medidas
experimentalmente. Este modelo llamado "muñ eco de nieve" consiste en una cabeza esférica ubicada sobre un
torso esférico. Ademá s de proporcionar una respuesta de baja frecuencia mejorada para la reproducció n de
mú sica, el modelo proporciona las principales señ ales de localizació n de baja frecuencia, incluidas las señ ales para
fuentes de baja elevació n y de alta elevació n. El modelo HRTF y el HRTF medido se pueden combinar fá cilmente
mediante el uso de la respuesta de fase del modelo en todas las frecuencias y mediante "desvanecimiento cruzado"
entre las respuestas de magnitud dB del modelo y las mediciones. Para una implementació n eficiente, el muñ eco de
nieve HRTF exacto se aproxima por dos demoras y dos filtros IIR de primer orden. Debido a que los polos son
independientes de la ubicació n de la fuente virtual, esto admite una implementació n simple en tiempo real que
permite un movimiento arbitrariamente rá pido de la cabeza y la fuente.

1. INTRODUCCIÓ N
Muchos sistemas para la síntesis espacial del sonido emplean funciones de transferencia relacionadas con la cabeza
(HRTF) medidas experimentalmente. Desafortunadamente, es a la vez lento y experimentalmente difícil medir con
precisió n los HRTF. Las mediciones de baja frecuencia son particularmente problemá ticas, en parte porque se
requieren altavoces grandes y en parte porque incluso las cá maras anecoicas buenas reflejan ondas de sonido de
onda larga. El uso de ventanas para eliminar los reflejos de la habitació n también modifica la respuesta a las bajas
frecuencias. Sin compensació n de baja frecuencia, la mú sica sintetizada con HRTF a menudo suena "delgada" y
carece de graves. Los métodos ad hoc para aumentar los graves pueden mejorar la calidad del sonido, pero dicha
compensació n puede alterar las señ ales de localizació n. Finalmente, la mayoría de los sistemas basados en HRTF
no pueden posicionar de manera convincente las fuentes de sonido virtual a elevaciones muy bajas.
El rendimiento de baja frecuencia de los sistemas basados en HRTF puede mejorarse significativamente mediante
el uso juicioso de los HRTF teó ricos derivados de modelos simples. El má s simple de estos es el modelo clá sico de
cabeza esférica [1, 2]. Proporciona el retraso de tiempo interaural de baja frecuencia (ITD) y la diferencia de nivel
interaural (ILD), que son las dos señ ales más importantes para el acimut. El modelo de cabeza esférica por sí solo
no proporciona ninguna señ al de elevació n, y los sonidos sintetizados usando este modelo solo se exteriorizan
débilmente y, a veces, se experimentan como elevados.

Este artículo describe un modelo simple que explica las contribuciones del torso y la cabeza al HRTF. Este llamado
"modelo de muñ eco de nieve" se basa en aproximar tanto la cabeza como el torso mediante esferas rígidas. El
efecto de estas esferas sobre las ondas sonoras se aproxima a su vez mediante simples mó dulos de procesamiento
de señ ales. Estos mó dulos constan de dos retardos de tiempo independientes de la frecuencia y dos filtros IIR de
primer orden, de polo fijo y variable. Los retrasos de tiempo explican la propagació n del sonido a través de la
cabeza y la reflexió n del torso para sonidos a gran altura. Los filtros representan la sombra de la cabeza para las
fuentes en el lado contralateral y la sombra del torso para las fuentes a baja elevació n. Mostramos có mo este
modelo de filtro se puede utilizar para compensar los HRTF medidos experimentalmente para producir fuentes
auditivas virtuales que tienen una respuesta de graves que suena natural y al mismo tiempo conservan buenas
señ ales de localizació n de fuente.
Comenzamos revisando algunas de las características observadas de HRTF que son causadas por el torso y que han
sido explicadas y simuladas por un modelo geométrico simple de dolor de cabeza y torso. Luego presentamos el
HRTF exacto para el modelo de muñ eco de nieve en todas las elevaciones. Este HRTF indica los principales modos
de comportamiento que se producen cuando la elevació n varía de arriba a abajo. Luego se desarrolla un modelo de
filtro de muñ eco de nieve construyendo sobre un modelo de filtro para una sola esfera y analizando la geometría
combinada de las dos esferas que componen el muñ eco de nieve. La implementació n y las aplicaciones del filtro se
discuten brevemente, con énfasis en la compensació n de baja frecuencia de los HRTF medidos.

DISCUSIONES Y CONCLUSIONES
El modelo de muñ eco de nieve es una generalizació n simple y natural del modelo de cabeza esférica que
proporciona informació n y aproximaciones ú tiles al HRTF, principalmente a bajas frecuencias. Al incluir la
reflexió n del torso y la sombra del torso, el modelo agrega señ ales de elevació n ú tiles. Un modelo HRTF completo
también proporcionaría señ ales pinna, que son muy importantes cuando la fuente contiene energía significativa
por encima de 3 kHz. Sin embargo, incluso sin señ ales de pinna, el modelo de cabeza y torso proporciona un
control limitado pero ú til sobre la elevació n aparente de la fuente, particularmente cuando la fuente está lejos del
plano medio. Para las fuentes sobre el plano horizontal, los reflejos del torso proporcionan señ ales ú tiles de
elevació n. Para las fuentes a bajas elevaciones, los efectos de baja frecuencia de la sombra del torso, efectos que
ocurren por debajo de 700 Hz y que a menudo se han ignorado en estudios anteriores de HRTF, son importantes
para transmitir la sensació n de que la fuente se encuentra debajo del oyente. Tales señ ales de baja elevació n
también son importantes para la representació n adecuada de los reflejos del piso de fuentes elevadas cercanas. El
modelo simple de cabeza y torso de muñ eco de nieve revela la naturaleza y magnitud de tales señ ales de elevació n.
Sin embargo, los modelos basados en esferas exhiben puntos brillantes que son, en el mejor de los casos,
fenó menos débiles en los HRTF humanos.
Por lo tanto, la aproximació n propuesta del modelo de filtro explota la informació n que proporcionan los modelos
de esfera, pero no intenta replicar los puntos brillantes vistos en el muñ eco de nieve HRTF. El modelo de filtro que
se desarrolló tiene varias ventajas: (a) es muy eficiente, (b) conserva las señ ales importantes de acimut y elevació n
del modelo de muñ eco de nieve, (c) permite una resolució n angular arbitrariamente alta, (d) puede responden a
fuentes que se mueven rá pidamente, (e) se puede adaptar a los oyentes individuales y (f) proporciona una buena
respuesta de baja frecuencia de sonido. Debido a que el modelo carece de características de pinna, solo se usa para
proporcionar un HRTF primitivo. Sin embargo, como componente de un modelo de HRTF estructural má s
elaborado [17], contribuye a las señ ales de localizació n y proporciona un enfoque fundamental para el diseñ o
adecuado de la porció n de baja frecuencia del HRTF. Dicho modelo también se puede utilizar para corregir las
deficiencias de baja frecuencia en los datos de HRTF medidos experimentalmente. Al proporcionar informació n y
técnicas de implementació n simples, el modelo de filtro de muñ eco de nieve es una adició n ú til a los métodos para
generar sonido espacial.

Potrebbero piacerti anche