Sei sulla pagina 1di 57

FONTICA Y FONOLOGA DE LA LENGUA ESPAOLA

FONTICA PERCEPTIVA - ADDENDA

Victoria Marrero

Dpto. Lengua Espaola y Lingstica General Facultad de Filologa Universidad Nacional de Educacin a Distancia

FONTICA PERCEPTIVA ADDENDA

Quedan rigurosamente prohibidas, sin la autorizacin escrita de los titulares del Copyright, bajo las sanciones establecidas en las leyes, la reproduccin total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografa y el tratamiento informtico, y la distribucin de ejemplares de ella mediante alquiler o prstamo pblicos

Victoria Marrero
UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA Depsito legal: M-2001

FONTICA Y FONOLOGA DE LA LENGUA ESPAOLA

FONTICA PERCEPTIVA ADDENDA

ndice
TEMA 1. INTRODUCCIN................................................................................. 4 1.1. La descodificacin del habla .................................................................. 4 1.2. Tareas y etapas en la descodificacin lingstica .................................... 5 1.3. Las caractersticas del habla y la descodificacin ................................... 6 1.4. Relaciones entre percepcin y produccin.............................................. 14 TEMA 2. LA AUDICIN ................................................................................... 16 2.1. Introduccin .......................................................................................... 16 2.2. Anatoma y fisiologa del sistema auditivo............................................. 16 2.3. Psicoacstica ......................................................................................... 28 TEMA 3. PERCEPCIN Y COMPRENSIN ...................................................... 33 3.1. Introduccin.......................................................................................... 33 3.2. Modelos de percepcin del habla ........................................................... 36 3.3. Comprensin ......................................................................................... 39 TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN........... 44 4.1. Introduccin .......................................................................................... 44 4.2. La percepcin de las vocales.................................................................. 47 4.3. La percepcin de las consonantes........................................................... 49 4.4. La slaba como unidad perceptiva .......................................................... 50 4.5. La percepcin del acento ....................................................................... 52 4.6. La percepcin de la entonacin .............................................................. 53 BIBLIOGRAFA................................................................................................... 55

TEMA 1. INTRODUCCIN _____________________________________________________

TEMA 1. INTRODUCCIN

1.1.

LA DESCODIFICACIN DEL HABLA

La esencia de la comunicacin verbal es la transmisin de una informacin (o una intencin comunicativa) desde el cerebro del hablante al cerebro del oyente por medio de la seal hablada. Para ello, como sabemos, es necesaria la participacin de numerosos elementos. La fontica articulatoria se ocupa de algunos de los que intervienen en la formacin de los sonidos1; la fontica acstica analiza su transmisin por medio de la onda sonora; la fontica perceptiva2 tiene como meta estudiar cmo la seal que entra en el odo del receptor se convierte en un mensaje lingstico. En general, la percepcin se define como la experiencia producida a partir de una estimulacin de los sentidos (Goldstein, 1992); nos centraremos aqu en lo que ocurre cuando el sentido estimulado es el odo, y el estmulo es el habla.
Especialmente influyentes en la investigacin sobre percepcin del habla han sido los estudios sobre la 3 visin, un sistema sensorial paralelo, desarrollados por David Marr . El paradigma actual que posiblemente ms incide en las relaciones entre visin y descodificacin auditiva es el Modelo de Percepcin de Lgica Difusa (Fuzzy Logical Model of Perception), desarrollado a lo largo de los ltimos aos por Dominic Massaro (Massaro, 1998). Su base metodolgica es la percepcin bimodal (tambin llamada efecto McGurk, en honor a uno de sus descubridores), en la cual visualmente se nos presenta un estmulo, y auditivamente otro. Por ejemplo, sobre una cinta de video en la que se ve a una persona emitiendo /pa-pa/, se sustituye la banda sonora por /na-na/. Los sujetos perciben /ma-ma/, tomando rasgos del estmulo auditivo (la nasalidad) y rasgos del estmulo visual (el lugar de articulacin). El autor interpreta este tipo de resultados como prueba de que la percepcin del habla es una forma ms de reconocimiento de modelos, cuyos principios de funcionamiento actan de la misma forma sea cual sea el estmulo, y el sistema sensorial estimulado. Se tratara de un principio universal, segn el cual los seres humanos integramos la informacin desde todas las fuentes disponibles (visual , auditiva, olfativa, tctil...), para construir algoritmos ptimos que nos permitan construir y percibir categoras. Si una de las fuentes de informacin nos ofrece datos ambiguos, la otra tomar un papel preponderante para nuestra decisin sobre la naturaleza del estmulo. En la obra citada se recogen datos de nios, comparados con jvenes y ancianos, hablantes de distintas lenguas, y ante diferentes tareas: en todos los casos, se considera que vara la capacidad para obtener informacin, pero no su procesamiento. Sin embargo, el mismo efecto McGurk ha sido interpretado en sentido contrario por Liberman y Mattingly: sera una prueba ms de la existencia de un mdulo especficamente lingstico (y no auditivo), y por tanto compatible con cualquier sentido desde donde pueda llegar la informacin.

La descodificacin del mensaje puede parecernos un proceso muy sencillo: omos los sonidos tal como se pronuncian; hay una relacin directa entre el estmulo y la percepcin, de modo que asignamos directamente la informacin semntica a la seal acstica. Sin embargo, ciertas experiencias de nuestra vida cotidiana pueden hacernos ver algunas de las dificultades inherentes a esa operacin: ante una lengua desconocida y lejana dnde se establecen las fronteras entre
Aunque no suele aludir al proceso cognitivo previo que subyace o antecede a los movimientos articulatorios. Tambin denominada auditiva. En cuanto a la terminologa, preferimos el calificativo anterior, porque es ms amplio (la audicin es un mecanismo ms especfico que la percepcin); pero, como se ver ms adelante, necesitamos un trmino an ms comprehensivo, que englobe los procesos de audicin, percepcin y comprensin: la descodificacin. 3 Sobre las influencias de Marr en los estudios sobre el habla y la audicin puede consultarse el primer captulo de Cooke, 1993.
2 1

TEMA 1. INTRODUCCIN _____________________________________________________

palabras? Qu nos indican las pausas? Qu caractersticas de ese continuo que llega a nuestros odos son particulares del locutor, y cules son generales? Cules estn ligadas a ese hecho concreto de habla, y cambiaran ante un ritmo ms lento, o ante una situacin diferente? Realmente, no estamos ante una simple traslacin, sino ante una actividad compleja, tanto desde el punto de vista fisiolgico (la onda sonora ha de pasar del aire a un medio lquido, para luego convertirse en estimulacin elctrica) como cognitivo (implica la toma de decisiones, la comparacin entre una seal entrante y otras almacenadas en la memoria). El receptor, al que tradicionalmente se asignaba un papel pasivo -tan acorde con ese trmino- tiene que participar activamente en el proceso, extrayendo unidades de un continuo fnico. Para lograrlo, dispone de datos provenientes de la seal, tanto de sus caractersticas intrnsecas como del contexto, al que tiene que atender, puesto que el significado de la seal vara segn los valores de elementos vecinos. Pero tambin utiliza informacin previa, independiente de la seal, almacenada en su memoria, de carcter lingstico, y tambin enciclopdico (su conocimiento del mundo). Todo ello le permite generar expectativas sobre el mensaje, anticiparse a l, completarlo, compensar los ruidos -en un sentido amplio- que puedan haberla distorsionado. En su origen, en los aos 50, las investigaciones en percepcin del habla tomaron como punto de partida la hiptesis de la relacin directa entre seal acstica y fonema. Los estudios iniciados en los laboratorios Bell y en los laboratorios Haskins (en ambos casos con fines aplicados) tenan como meta identificar los rasgos invariables que caracterizaban a cada uno de los fonemas. Para conseguirlo, Delattre, Liberman y Cooper utilizaron como metodologa el habla sinttica, comenzando por secuencias oclusiva-vocal. Pronto se dieron cuenta de que la tarea no sera nada fcil: no haba nada en el espectro de /p/ que claramente lo diferenciara de /t/ o /k/4; para colmo, el mismo estmulo (una banda de ruido) poda ser identificado como unidades diferentes segn la vocal que le siguiera ([pi], [ka], [pu]); los efectos del contexto y la coarticulacin, dieron lugar a la teora del locus (Quilis, 1999: 208-211). Esa inmensa diferencia entre la seal fsica acstica, por un lado, y el mundo perceptivo-cognitivo, por otro (Handel, 1993: 265) llev a Liberman a considerar invariable no la onda sonora, sino los movimientos articulatorios que la generaron: de ah surgi la teora motora de la percepcin del habla. Otros buscaron la invariabilidad en los niveles superiores de procesamiento de la seal: en el cerebro. Volveremos ms adelante sobre ello.

1.2.

TAREAS Y ETAPAS EN LA DESCODIFICACIN LINGSTICA

El oyente que intenta comprender un mensaje lingstico ha de realizar, fundamentalmente, tres tipos de tareas: en primer lugar, la segmentacin, dividir el continuo sonoro en unidades discretas. Para conseguirlo parece imprescindible acumular una serie de conocimientos sobre la organizacin segmental y suprasegmental de la propia lengua, algo que en el nio sucede a lo largo del primer ao de vida5, a pesar de que el habla dirigida a l apenas contiene un 20% de emisiones aisladas. Ms an: el nio ha de almacenar un patrn de sonidos que le permita reconocer las unidades en diferentes contextos, admitiendo al mismo tiempo el grado de variabilidad necesario para seguir identificando la unidad a pesar de ser emitida por diferentes hablantes, a diferentes velocidades, o con distintas entonaciones: es la normalizacin
4

Experimentos posteriores matizaron esta interpretacin; cfr. 4.3. Entre los 6 y 7 meses de edad parece que los bebs ya son capaces de reconocer una palabra que han aprendido de forma aislada si la encuentra en discurso continuado (Jusczyk, 1997: 99). Las estrategias que siguen para segmentar palabras son dependientes de la lengua: en ingls, como el acento es fijo, la aparicin de slaba tnica es indicio de comienzo de palabra (estrategia de segmentacin mtrica); a partir de ah consiguen extraer regularidades fonotcticas y alofnicas que se convertirn, a partir de los 10 11 meses, en una nueva fuente de conocimiento.
5

TEMA 1. INTRODUCCIN _____________________________________________________

E igualmente importante es llegar a agrupar esos elementos aislados (que no coinciden con el fonema del adulto, sino que son unidades ms amplias) en sintagmas y oraciones: la agrupacin. Todo ello sucede en tres etapas sucesivas. La primera fase de la descodificacin es la conversin de la onda sonora del habla en modelos de activacin de las fibras del nervio auditivo: se trata de un mecanismo pasivo y automtico (no interviene en l la voluntad del sujeto), bastante conocido en la actualidad, que nos permite discriminar sonidos: la audicin. En un segundo momento, esas representaciones neurolgicas son convertidas en unidades lingsticas, son segmentadas, clasificadas y categorizadas por el sistema nervioso central del sujeto, que toma un papel activo: es la percepcin. Los mecanismos mediante los cuales se llevan a cabo estas operaciones se conocen mucho menos: desde un punto de vista psicolingstico se habla de procesos (Belinchn, Rivire e Igoa, 1992; Berko y Bernstein, 1999); desde un punto de vista neuropsicolingstico se habla de activacin de reas cerebrales (Caplan, Manning...). El ltimo paso concierne a la interpretacin de los mensajes, a la asignacin de contenido gramatical, semntico y conceptual: se trata de la comprensin6 que tiene lugar, segn una visin clsica, en el eje vertical: flujo de-abajo-a-arriba (los que parten de la seal, y van extrayendo y abstrayendo informacin que se transmite hacia niveles superiores) o de-arriba-abajo (restricciones gramaticales y de significado, estrategias de anticipacin, de reposicin de la seal, etc., muy ligadas a procesos atencionales, cuyo fin es optimizar la descodificacin de la seal). En propuestas ms recientes, como los modelos conexionistas, se concibe la comprensin como un fenmeno mltiple, en el que los distintos niveles interactan simultneamente en varias direcciones. La mayora de los autores anan los procesos de comprensin y los de percepcin bajo la etiqueta nica de percepcin, empleada con frecuencia como archilexema, en referencia al conjunto de procesos que intervienen en la descodificacin. El mecanismo que nos permite determinar si dos estmulos son iguales o diferentes es puramente auditivo. El proceso mediante el cual identificamos esos estmulos como la vocal [i] o la vocal [e] es perceptivo. La diferencia entre uno y otro es considerable: en el primero priman las caractersticas fsicas de la seal; en el segundo es necesario el concurso de unos modelos mentales de /i/ y de /e/ que nos permitan tomar una decisin. Bebs con pocos meses de vida son capaces de lo primero, pero tardan uno o dos aos en acceder a lo segundo: nacemos, al parecer, con una capacidad general para el lenguaje que nos proporciona los medios necesarios para discriminar los posibles contrastes fonticos en cualquiera de las lenguas del mundo; desde el nacimiento -incluso antes, durante el periodo prenatal- la experiencia va reduciendo esas posibilidades para limitarlas a las ms frecuentes en el entorno del nio, en su lengua materna. De esta manera, a los 8 o 10 meses el beb pierde sensibilidad para contrastes que detectaba con semanas de vida, pero eran ajenos a la lengua de su entorno, y se van modificando los lmites iniciales entre las categoras, para ajustarlos a los estmulos que el nio oye con frecuencia (Jusczyk, 1997): se estn construyendo los mecanismos de percepcin - que posteriormente darn lugar a los de comprensin- a los que se irn supeditando los de audicin. 1.3. LAS CARACTERSTICAS DEL HABLA Y LA DESCODIFICACIN

El mensaje hablado presenta propiedades que dificultan su descodificacin, y otras que la facilitan. Las principales dificultades se relacionan con el concepto de variabilidad: la falta de
6

Aunque aqu la presentemos de forma tan simplificada, la nocin de comprensin es polismica, y alude a procesos muy distintos: comprender palabras es comparar y asociar estmulos externos con patrones internos, es un proceso paradigmtico; comprender oraciones es combinar elementos, pertenece al eje sintagmtico. Cfr. Belinchn, Rivire e Igoa, 1992: 363-370.

TEMA 1. INTRODUCCIN _____________________________________________________

correspondencia entre unidades lingsticas y rasgos fsicos de la onda sonora. Sin embargo, otras caractersticas, como la redundancia, contribuyen a allanar las tareas que el oyente ha de llevar a cabo para desentraar el mensaje: segmentacin, normalizacin, etc. 1.3.1. La variabilidad Hay muchos factores que inciden en la falta de correspondencia unvoca entre seal fsica y unidad lingstica. Algunos de los ms importantes son los efectos del contexto, las caractersticas del locutor, y el ritmo o tasa de habla. 1.3.1.1. Coarticulacin y otros efectos del contexto. En el continuo sonoro del habla, las influencias de unos sonidos sobre los adyacentes pueden ir desde un enmascaramiento total hasta leves variaciones de timbre. Los manuales de fontica y fonologa estn llenos de ejemplos. Algunos son sistemticos: la nasalizacin de vocales entre dos consonantes nasales, o entre pausa y nasal; la aparicin de los alfonos oclusivos de /p, t, k/ tras pausa o nasal (o /l/, en el caso de [d]). las diferentes realizaciones de /N/ y /l/, que se asimilan al lugar de articulacin de las consonantes siguientes. Otras constituyen fenmenos dialectales: Labializacin de [e] en [we] (Quilis, 1999: 173) Asimilaciones y disimilaciones en diptongos (Quilis, 1999: 189) Alteracin del timbre voclico como consecuencia del debilitamiento de /s/ (Quilis, 1999: 280) Consonantizacin de [u] ante /l, r/ (Quilis, 1999: 192) Palatalizacin de [n] y [l] seguidas de [ ] (Quilis, 1999: 242-243 y 325), etc. La conciencia que los hablantes tenemos sobre estas modificaciones en la articulacin de los sonidos (y en la onda sonora resultante) puede ser nula -especialmente en el caso de las alteraciones sistemticas; en las dialectales, slo solemos ser conscientes en la medida en que el dialecto nos es ajeno, o conocemos otros modelos-. Y, sin embargo, los cambios fsicos son enormes: el sonograma correspondiente a una [b] oclusiva y el que obtenemos de [$] son radicalmente distintos:

SONOGRAMA 1.

Estas imgenes7 nos muestran cmo la seal sonora correspondiente a [b] y [d] se asemejara mucho ms a [p] o [t] que a [$] o [*]. Sin embargo, los hablantes de espaol establecemos desde los primeros meses de edad unas fronteras perceptivas que resaltan ciertos detalles de la seal y atenan otras de sus caractersticas.

SONOGRAMA 2

Adaptadas del Curso prctico de fontica y fonologa por ordenador (Marrero, Quilis, Santos y Prez, 1993)

TEMA 1. INTRODUCCIN _____________________________________________________

De hecho, se ha comprobado que sobrecompensamos en nuestros procesos de percepcin: los bajos formantes de [u], por ejemplo, inducen un descenso en las frecuencias de fricacin de una [s] siguiente; en espaol, eso no tendra ms consecuencias que las dialectales (la realizacin predorsal se percibira como apical), pero en ingls puede marcar la diferencia entre /s/ y //. Los hablantes adaptan sus expectativas sobre las caractersticas acsticas de los sonidos, en funcin del contexto: si antecede una vocal grave, ser previsible que la fricacin tambin disminuya sus frecuencias. Incluso hasta el punto de que la correccin perceptiva llega a doblar el cambio que realmente se da en la seal (Handel, 1993: 297). A pesar de todo lo dicho hasta aqu, el contexto aporta otros elementos a la descodificacin que compensan las dificultades derivadas de la coarticulacin: la ayuda en niveles superiores al fonema, como la slaba, una unidad de procesamiento que contribuye a facilitar la segmentacin (y cuyos tiempos de reaccin son inferiores a los del fonema); las reglas fonosintcticas de la lengua; las claves gramaticales, toda la informacin semntica y el resto de los elementos que comentaremos al hablar de la redundancia. Como consecuencia, [algunos experimentos han mostrado que] las palabras son ms inteligibles cuando se escuchan en el contexto de una oracin gramatical que cuando se presentan como tems de una lista de palabras inconexas (Goldstein, 1992: 437). 1.3.1.2. La variacin ligada al hablante. Las tareas de normalizacin. El habla de cada uno de nosotros es, muy probablemente, nica en el mundo8. A ello contribuyen, en primer lugar, las dimensiones de nuestro aparato fonador: la longitud y la masa de las cuerdas vocales, y la longitud de las cavidades supraglticas tienen una gran repercusin sobre las caractersticas acsticas del habla: las cuerdas vocales largas, con mayor masa, se asocian a un F0 bajo (ms bajo en los hombres que en las mujeres, y ms en stas que en los nios). Pero tambin repercute la implantacin de los dientes (o su ausencia), la flexibilidad de la lengua, el estado de nuestras cuerdas vocales, asociado a menudo a hbitos como fumar o beber, y a profesiones como la docente; en resumen, nuestra voz es el resultado de la interrelacin de mltiples factores, a los que se suman los que caracterizan nuestra habla, como el dialecto y el estrato social al que pertenecemos. Sin embargo, al mismo tiempo, todos tenemos un amplio margen de variabilidad en nuestras emisiones: segn la situacin en la que nos encontremos, el mbito de uso, el ritmo que imprimamos al mensaje, la actitud que adoptemos, y otras muchas variables: el habla susurrada, por ejemplo, es una muestra de alejamiento completo de los parmetros que los manuales nos ensean sobre fontica. Incluso el habla dirigida a los nios presenta alteraciones importantes en factores como la frecuencia fundamental, las duraciones, las pausas, etc. (Anula, 1998: 36). El resultado de todo ello es que un mismo mensaje emitido por dos hablantes distintos puede variar enormemente; y sin embargo, distintos mensajes de distintos oyentes pueden asemejarse. Cuando nos situamos en el papel de receptores, una de las tareas ms importantes para descodificar el mensaje es normalizar todas las diferencias no significativas; de este modo identificaremos, en primer lugar, el mensaje, y en segundo lugar a nuestro interlocutor9.

Existe toda una disciplina que se basa en esta hiptesis: la acstica forense, cuyo fin es identificar a los hablantes con fines jurdicos. El papel de un lingista, como perito judicial, ira ms all del estricto anlisis acstico, puesto que tambin los rasgos dialectales y sociolectales contribuyen a individualizarnos (Quilis, 2000). Puede encontrarse informacin al respecto en la pgina web de la Sociedad Espaola de Acstica Forense (http://www.seaf.es). 9 La normalizacin perceptiva parece estar presente en un punto muy temprano de la infancia (Jusczyk, 1997: 68) Este autor refiere los resultados de una investigacin con nios de 1-4 meses a los que se presentaban vocales emitidas

TEMA 1. INTRODUCCIN _____________________________________________________

Los mecanismos mediante los cuales compensamos las diferencias entre hablantes no se conocen en su totalidad. Se han dado varias explicaciones al fenmeno de la normalizacin: - Por una parte, se ha propuesto la existencia de un mecanismo de escalado, mediante el cual somos capaces de decidir a qu unidad corresponde un estmulo teniendo en cuenta sus diferencias relativas con otros estmulos de la misma procedencia, emitidos por el mismo sujeto (aunque la [a] de un nio pueda tener el F2 ms cercano a la zona habitual de [e] la identificamos como [a] por su diferencia con las dems vocales de ese mismo nio). En el caso de las vocales, las mayores distancias pueden encontrarse entre los nios y los hombres: los primeros suelen presentar unas frecuencias formnticas -no slo la fundamental- un 50% ms altas que las de los segundos, aunque esas diferencias no son homogneas para todas las vocales en todos los contextos. Tradicionalmente se ha credo que los oyentes establecamos un campo mximo de dispersin, el mayor rango posible de variacin en las vocales, a partir de los valores de las unidades situadas en los extremos del tringulo voclico: /i, a, u/. Sin embargo, algunos experimentos (Shankweiler, Strange y Verbrugge, o Parker y Diehl, citados por Handel, 1993: 299) han mostrado que entrenar a los oyentes con estas vocales extremas no mejoraba las tasas de identificacin, y que, por otra parte, se lograba identificar estmulos donde se haba suprimido la vocal, dejando slo las transiciones. Consecuentemente, se ha sugerido que la clave puede estar precisamente en las transiciones de los formantes voclicos cuando cambian hacia las consonantes del entorno: seran ellas las que nos permiten crear un mapa con las resonancias previsibles para el tracto vocal de cada hablante. En cuanto a las consonantes, Mann y Repp (1980) combinaron un ruido sinttico, que podra corresponder a una fricativa, con vocales naturales de locutores masculinos y femeninos. Los jueces interpretaron la fricativa en funcin de la vocal, y asignaron diferentes etiquetas al mismo estmulo segn se combinara con vocales de hombre o de mujeres. - Por otra parte, ciertos detalles del sistema auditivo parecen estar encaminados a amortiguar este tipo de diferencias individuales, al menos las que tienen lugar en frecuencias superiores a 1000 Hz, donde el sistema auditivo presenta escasa resolucin frecuencial, pero una mejor resolucin temporal (lo cual implica mayor capacidad para captar modificaciones de la duracin, pero menor sensibilidad para diferencias en frecuencias). En definitiva, parece claro que conseguimos mantener, desde edades sorprendentemente tempranas10, una constancia perceptiva para los sonidos del lenguaje sin la cual no podramos llevar a cabo con xito la identificacin de los significados de las palabras. 1.3.1.3. El ritmo de habla. La velocidad de elocucin -conocida como tasa de habla, una traduccin directa del ingls speech rate- suele medirse en el nmero de sonidos emitidos por unidad de tiempo. Existen grandes diferencias al respecto entre lenguas, entre dialectos y entre hablantes. Se calcula que la media es de 10-12 unidades por segundo, aunque la mxima podra alcanzar los 40-50 (OShaughnessy, 1990). Las variaciones de ritmo afectan especialmente a las oposiciones basadas en la duracin, como ocurre con la distincin sordo / sonoro en ingls, que depende, como decamos, de una medida temporal: el periodo que tardan las cuerdas vocales en comenzar a vibrar para la vocal siguiente, a partir de la barra de explosin (el VOT o Tiempo de Inicio de Sonoridad): cuanto menor es ese
por distintos hablantes; los bebs fueron capaces de ignorar las diferencias entre ellos, y responder -mediante el mtodo del giro de cabeza operativo- a las distintas vocales. 10 Aunque los seres humanos no somos los nicos en conseguirlo: los perros tambin normalizan las diferencias entre hablantes, para obedecer la misma orden de distintos emisores.

TEMA 1. INTRODUCCIN _____________________________________________________

tiempo, ms sorda se percibe la consonante. Sin embargo, estas medidas temporales no son absolutas, sino relativas a la duracin total de la emisin, y a la duracin de la slaba en la que esa consonante se encuentra inserta: una misma transicin de 40 msg puede interpretarse como lenta (lo cual da lugar a la percepcin de [wa]) o como rpida ([ba]), segn la duracin total de la slaba (Miller y Liberman11). Por otra parte, sus efectos no son lineales, y un aumento en la tasa de habla no siempre acorta los sonidos del continuo fnico: las oclusiones de las africadas, por ejemplo, han de aumentar su duracin en habla rpida (OShaughnessy, 1990)12. Las diferencias estilsticas que distinguen, por ejemplo, el habla de laboratorio y nuestras emisiones espontneas tambin generan cambios considerables en los sonidos del lenguaje: Harmegnies y Poch (1992), en un estudio sobre el sistema voclico espaol (considerado habitualmente como prototipo de sistema estable) encuentran que el estilo espontneo genera una tendencia hacia la neutralizacin (menor espacio entre el primer y el segundo formantes), y mayor variabilidad en las realizaciones, algo calificado por los autores como desorganizacin del sistema fontico F1/F2, y que atribuyen a la tendencia a la hipoarticulacin13 propia del nuestras emisiones habituales. Convertirse en un perceptor fluido de una lengua particular requiere la capacidad para manejar todas estas fuentes de variacin en la seal, de modo que no interfieran en los procesos de identificacin de los signos lingsticos que les corresponden. 1.3.2. Factores que facilitan la descodificacin. En el habla, como decamos anteriormente, existen muchos elementos que nos ayudan a descodificar los mensajes. Empezaremos por el nivel mnimo de anlisis, el de las claves acsticas que identifican cada rasgo distintivo, cada segmento o cada suprasegmento. El acento, por ejemplo, reside en la accin combinada de tres elementos: frecuencia fundamental, duracin e intensidad. En espaol (segn Enrquez, Casado y Santos, 1988), la clave ms importante es la primera, los movimientos del F0. Sin embargo, cuando stos se hallan comprometidos por otras funciones (como las entonativas) es la duracin la que toma el papel predominante; y si ninguna de las anteriores est disponible, los hablantes -oyentes- espaoles recurriremos a la intensidad para detectar la slaba tnica. Necesitamos integrar esas tres fuentes de informacin para identificar el mensaje, incluso en los casos en que puedan entrar en conflicto, generando un elemento ambiguo: en un enunciado como Cntaras? es posible que la frecuencia fundamental sea ms alta en la [a] tona final que en la [] inicial; sin embargo, distinguiremos esa pregunta de otra como Cantars? gracias a una duracin anormalmente larga de aquella primera [a]: un rasgo la frecuencia fundamental- ha sido compensado por el otro la duracin-, con el fin de mantener el percepto original; es lo que se conoce como intercambio de claves. El valor de cada clave depende del valor de las dems, y todas han sido producidas simultneamente; a menudo pertenecen a clases fnicas distintas (temporales y
11

Some effects of later-occurring information on the perception of stop consonant and semivowel Perception and Psychophisics, 25, 457-465. 12 En espaol, un ejemplo de las variaciones de ritmo (o tempo) es el que caracteriza algunas hablas: el discurso de la mujer grancanaria se caracteriza: a) por el empleo de un tempo ms rpido que el hombre; b) por ser ms acusada la diferencia en la duracin de las slabas entre los fragmentos de enunciados de tempo rpido y lento (Quilis, 1997: 487). La influencia de la duracin en la percepcin de las consonantes lquidas ha sido tratada por Garca Jurado, Guirao y Rosso (1991). 13 La diferencia entre el habla hiperarticulada (muy cuidada) y el habla hipoarticulada (relajada) se debe a Lindblom, que ha elaborado toda una teora al respecto. Alamn (1999) tambin la toma como punto de partida, en un interesante trabajo sobre la percepcin de palabras y pseudopalabras en condiciones de baja intensidad.

10

TEMA 1. INTRODUCCIN _____________________________________________________

espectrales, como en el ejemplo anterior), pero se colocan en la misma escala perceptiva: se integran (Handel, 1993). Durante un tiempo, las relaciones de intercambio se creyeron especficas del habla; as lo indicaban los resultados de un experimento realizado en 1981 por Best, Morrongiello y Robson. Crearon unos estmulos consistentes en tonos puros con dos claves contrastadas; a unos sujetos se les dijo que se trataba de sonidos de habla, y a otros que eran estmulos artificiales. Las relaciones de intercambio (e integracin de ambas claves) slo se dieron en los sujetos que crean encontrarse ante estmulos verbales; los del otro grupo no integraban las dos claves, y atendan slo a una o a la otra. No obstante, en experimentos posteriores se han encontrado muestras de intercambio de claves ante estmulos no lingsticos, lo cual quiz indique que se trata de un fenmeno perceptivo general, dependiente de principios psicoacsticos. Sin embargo, desde una perspectiva ms general, es la redundancia la gran simplificadora de las tareas de descodificacin: La redundancia es una propiedad de las lenguas, de los cdigos y de los sistemas de signos que se origina por una serie de reglas superfluas, que contribuyen a facilitar la comunicacin, a pesar de todos los factores de inseguridad que puedan surgir. Quilis, 1999: 14 La comunicacin est sujeta a multitud de imponderables que pueden poner en peligro la transmisin correcta de la informacin. Esos elementos que dificultan la comunicacin se denominan ruidos, y pueden ser de tipos muy diversos: - peculiaridades articulatorias en el emisor, tanto dialectales, como sociolectales o individuales (por ejemplo, cualquier tipo de trastorno lingstico de produccin), que influyan en la codificacin del mensaje; - el receptor puede estar condicionado por factores puntuales (distraccin, cansancio) o continuos (como las deficiencias auditivas) que le dificulten la descodificacin; - el propio cdigo presenta en ocasiones ambigedades: te espero en el banco, se trata de sentarnos o de realizar una operacin financiera? - el canal a travs del cual se transmite el mensaje puede tambin presentar ruidos, en este caso ruidos en su sentido ms habitual (borrones, si el canal es el papel, interferencias si es el telfono, o simplemente ruido ambiente).
Desde la dcada de los 50, el estudio de los efectos del ruido sobre la descodificacin del mensaje (la inteligibilidad) ha estado muy relacionado con el concepto de ndice de Articulacin, creado por Paul Fletcher para cuantificar la importancia de cada banda de frecuencias en la inteligibilidad global de un sonido, una secuencia de sonidos o una lengua. El espectro del habla se divide en siete bandas, cada una de las cuales tiene un peso determinado en la inteligibilidad total de una lengua: Centro de la banda (Hz) 125 Ingls Hngaro 3% 2% 250 15% 13% 500 29% 18% 1000 28% 22% 2000 17% 22% 4000 8% 20% 8000 0 3%

Inteligibilidad parcial en octavas sin ruido ambiente; adaptado de Tarnczy, 1986: 262 El ruido puede afectar de diferente manera a unas lenguas y a otras, en funcin de las variaciones que pueden verse en la tabla anterior: el porcentaje medio de inteligibilidad del hngaro es del 54,7%, frente al del ingls, que sera del 51,4% (Tarnczy, 1986: 262). Es muy interesante, en este sentido, el modo en que el ruido nos afecta segn el estmulo sea en nuestra lengua materna o en una segunda lengua: el procesamiento de la seal verbal se ve mucho ms afectada por

11

TEMA 1. INTRODUCCIN _____________________________________________________ el ruido si intentamos descifrar un cdigo que no es nuestra primera lengua (incluso en el caso de sujetos con buen dominio de la segunda, como los bilinges tardos) (Mayo, Florentine y Buus, 1997). Los efectos de las prdidas auditivas (en un experimento en el que se simularon mediante manipulacin del espectro) tambin parecen afectar ms a la inteligibilidad del habla cuando se encuentra en entorno ruidoso que cuando se presenta en silencio (Baer y Moore, 1993). DePaolis, Janota y Franck (1996) estudiaron la influencia de las bandas crticas en la inteligibilidad de tres tipos de estmulos: palabras, frases y discurso continuado. Segn sus resultados, en ingls es la banda de 2000 Hz la que ms contribuye a la descodificacin del mensaje. Pero casi ms interesante que ese dato concreto fue la confirmacin de que la redundancia afecta al peso relativo de cada una de esas bandas: en discurso continuado, cuando la redundancia es mayor, las diferencias entre ellas se amortiguan.

La defensa de la lengua contra todas esas agresiones que puede sufrir es la redundancia: el mensaje presenta ms informacin de la estrictamente necesaria para su decodificacin Ahora bien, para calcular cunta informacin transmite un mensaje es necesario tomar en consideracin el concepto de probabilidad, dependiente del nmero de alternativas posibles:: ELEFANE Cuntos elementos pueden ocupar el "vaco"? Cuntas alternativas existen para ese elemento? Slo una (t): su probabilidad de aparicin es del 100%, y la informacin que transmite es igual a cero; si esa t desaparece, el mensaje no sufre ninguna merma: su nivel de redundancia es total. Muy distinto sera el caso de SOA. El nmero de elecciones posibles es mucho mayor: la informacin que transmita el elemento perdido crece proporcionalmente, y en la misma medida disminuyen su probabilidad y su nivel de redundancia14: :alternativas - probabilidad : informacin - redundancia Todo lo anterior podra llevarnos a considerar la redundancia como un elemento 'parsito' de los sistemas de comunicacin. Sin embargo, es un mecanismo de defensa, como veamos al principio, absolutamente imprescindible: "En los contextos lingsticos, redundante no significa en modo alguno "superfluo" y la redundancia no implica que algo pueda ser desatendido. Todo lo contrario, en la moderna teora de la comunicacin, la redundancia es un concepto muy importante, y los fenmenos redundantes son extremadamente relevantes." Malmberg, 1974: 172 "Las necesidades prcticas de la comunicacin exigen que la forma lingstica sea ampliamente redundante, constantemente y en todos los planos." Martinet, 1978: 224. "Algn grado de redundancia es de hecho deseable en cualquier sistema de comunicacin. La razn se debe a que, cualquiera que sea el medio empleado para transmitir informacin, est sujeto a diversas perturbaciones fsicas imprevisibles que destruyen o distorsionan parte del mensaje, y as inducen a la prdida de informacin. Si el sistema estuviera libre de redundancia, la informacin perdida sera irrecuperable" Lyons, 1971: 71.
Algunos datos tcnicos: el contenido informativo de una seal fontica es aproximadamente de 5 5.5 bits. Puesto que el ritmo de habla es de unas 10-12 seales por segundo, la capacidad informativa del habla es de 50-60 bit/sg. El contenido informativo de una frase corta alcanza los 500 bits. Si nuestro cerebro funcionara como un ordenador, el cerebro del receptor y el del emisor deberan tomar al menos 2500 = 10150 decisiones durante ese tiempo para codificar y descodificar la informacin, respectivamente. Estos datos indican cunto ms rpido realiza el cerebro su trabajo de evaluacin y cunto ms eficazmente que un ordenador. Tarnczy, 1986: 256.
14

12

TEMA 1. INTRODUCCIN _____________________________________________________

El exceso de informacin se extiende a todos los niveles del lenguaje15, desde el fontico, donde se ha calculado que si preservamos slo el 1-2% de la amplitud del habla se puede reconocer entre el 80 y el 90% de las palabras, o que si eliminamos todas las frecuencias por encima y por debajo de 1800 Hz se identifica el 67% de las slabas (OShaughnessy, 1990), al fonolgico: o el morfosintctico: y hasta el semntico - pragmtico: imrescindible uno ni salt content no por mucho , amanece

La redundancia es una caracterstica del cdigo, pero existe una capacidad en los receptores que la complementa: lo que en audiologa se ha conocido tradicionalmente como suplencia mental, y en psicolingstica como restauracin de fonemas (Warren, 197016). El sistema de la descodificacin humana es capaz de restituir unidades que no han sido percibidas (bien porque no llegaron a emitirse, bien porque han sido vctimas del ruido durante su transmisin, tanto por causas naturales como experimentales), hasta el punto de que el oyente est completamente convencido de haberlas percibido. Siguiendo con nuestros ejemplos anteriores, si eliminamos la [p] de imprescindible (o segmentos mucho ms largos, hasta de 120 msg, como una [s], e incluso grupos enteros de sonidos), y hacemos or el estmulo resultante a un grupo de sujetos, todos la habrn odo; incluso desvelndoles la manipulacin, continuarn oyndola. Si esa palabra estuviera inserta en una frase, al pedirles que localicen el segmento cortado, es probable que lo siten en una de las fronteras de esa palabra, pero no en su interior. Es ms, si el corte lo introducimos en soa, nuestros sujetos adecuarn el mecanismo de restauracin hasta encontrar en el contexto oracional siguiente una o varias palabras que les ayuden a decidir entre las distintas alternativas para el elemento desaparecido (cfr. Bond y Garnes, 1980: cuando la seal acstica es ambigua, los oyentes recurren a toda la informacin semntica y gramatical que el entorno pueda proporcionar para identificar el mensaje). Al experimento inicial de Warren17 siguieron otros en los que la tarea de los sujetos era justamente detectar errores de pronunciacin. Un segmento se sustitua por otro, dando lugar a secuencias fonotcticamente permitidas en la lengua, pero sin significado. El estmulo se insertaba en una narracin breve, y se peda a los oyentes que pulsaran un botn en cuanto percibieran un error. Los resultados son muy interesantes: los cambios en oclusivas se detectaban mejor que en fricativas, las sustituciones de lugar de articulacin tambin resultaban ms evidentes que las de sonoridad, y en comienzo de palabra los errores se detectaban tres veces mejor que al final18. En este proceso de deteccin de los errores se observ que, con frecuencia, los sujetos repetan el estmulo auditivo en voz alta, a la mayor brevedad posible, y corrigiendo el error. Esta tarea de seguimiento mostraba los efectos de la restauracin no slo a nivel fonolgico, sino tambin sintctico y semntico, en frases como la secretaria introdujo el papel en la mquina y se dispuso a escribir la hacia, cuya ltima palabra era sustituida por carta (Belinchn, Igoa y Rivire, 1992: 347, aunque la traduccin al espaol hace que la similitud entre esos dos estmulos sea muy pequea).
15

Factores extralingsticos, como nuestro conocimiento del mundo, del hablante, del tema de conversacin, etc. tambin contribuyen a hacer redundante ciertas partes del mensaje.
16

Perceptual restoration of missing speech sounds Science, 167, 392-395. En l, este autor elimin la [s] de la palabra legislature en la frase Los gobernadores del estado se reunieron con sus respectivas legi*laturas antes de la convocatoria del pleno del congreso (en ingls en el experimento).
17 18

Berko y Bernstein, 1999: 154, citando trabajos de Cole (1980).

13

TEMA 1. INTRODUCCIN _____________________________________________________

Todos estos resultados ponen en evidencia la intervencin en la descodificacin de informacin lingstica de orden superior, no presente en el estmulo que llega al sistema auditivo del receptor, sino procedente de su cerebro, de las unidades all almacenadas (procesos de arriba abajo). Esta informacin impone restricciones automticas e inconscientes en la identificacin del mensaje entrante, de tal manera que optimiza enormemente su comprensin.

1.4. RELACIONES ENTRE PERCEPCIN Y PRODUCCIN Las tareas de seguimiento que mencionbamos en el prrafo anterior nos dan pie para introducir uno de los temas ms apasionantes en el campo de la fontica perceptiva: las relaciones entre los mecanismos que nos permiten emitir mensajes y las que nos permiten comprenderlos. Por una parte, se trata de dos sistemas perifricos evolutivamente muy distintos, con organizaciones diferentes, que han podido desarrollarse de forma ms o menos independiente, e incluso sujetos a presiones contrapuestas: el sistema articulatorio tiende, por la ley del mnimo esfuerzo, hacia la mayor neutralizacin posible, a generar todos los sonidos del modo ms prximo y similar (como correspondera a la mxima pronunciabilidad). Sin embargo, se ve frenado en esa tendencia por la necesidad de mxima discriminabilidad que imprime el sistema perceptivo, para el cual lo ideal sera que los sonidos se diferenciaran lo ms posible. Las lenguas naturales son un compromiso entre ambos extremos, hasta llegar a lo que se considera contraste suficiente (Lindblom, 1992). El que la seal de entrada de uno sea la seal de salida del otro los condena a ser compatibles. Las relaciones entre ambos sistemas son evidentes19: desde los primeros meses de vida, las caractersticas de las producciones balbuceantes reproducen rasgos de la lengua que el nio percibe de sus cuidadores20, y la capacidad para percibir contrastes ajenos a los estmulos que recibe se va perdiendo a medida que transcurren esos meses (Jusczyk, 1997). De hecho, segn algunas propuestas, sera precisamente la necesidad de coordinar ambos sistemas, interrelacionando las unidades de percepcin y las de produccin, la que obligara a estos aprendices de hablantes a crear representaciones abstractas, generalizando los rasgos ms relevantes de ambas: el fonema21, una unidad ms global que el sonido, y la fonologa, un nivel de anlisis capaz de reunir elementos provenientes de la percepcin con otros generados durante la produccin. En una primera etapa, el beb tratara simplemente de casar los sonidos producto de su juego vocal con los que escucha a su alrededor. La asignacin de significado a esos modelos de sonidos constituira la segunda etapa de este lazo entre percepcin y produccin. El deseo de ser entendidos nos empuja a buscar esa coordinacin entre ambos sistemas. Puesto que las unidades de produccin son mejor conocidas que las de percepcin, se han utilizado en muchos experimentos sobre identificacin de sonidos (de hecho, esta es la base de casi
19

Algunas de las teoras sobre la percepcin que veremos ms adelante han tomado como punto de partida esta relacin entre lo que percibimos y lo que producimos: la teora motora, por ejemplo, mantiene que no somos capaces de descodificar un sonido hasta que no creamos una representacin de los movimientos articulatorios que le corresponderan (cfr. cap. 3, apartado. 20 En la historia de los estudios sobre adquisicin del lenguaje ha habido una larga polmica a este respecto, iniciada con las propuestas de Jakobson sobre la discontinuidad entre el balbuceo y las primeras palabras del nio. Para el lingista praguense, se tratara de dos etapas sin relacin entre s, la primera obedecera a leyes universales, comunes a todas las lenguas, mientras que la segunda ya sufrira las restricciones particulares de cada lengua. Esta concepcin se ha ido rebatiendo con el tiempo, y hoy en da parece probado que el balbuceo presenta caractersticas propias en cada lengua, y que se trata de un entrenamiento imprescindible para emisiones posteriores con significado, sin rupturas entre la etapa prelingstica y la lingstica, precisamente creando lazos entre produccin y percepcin (Fry, 1966). 21 Esta idea fue defendida por Bever en el modelo de Principios y Parmetros generativista, aunque otros investigadores la han retomado desde diferentes perspectivas.

14

TEMA 1. INTRODUCCIN _____________________________________________________

todos los estudios sobre fontica perceptiva). Los rasgos que ms se han tenido en cuenta son, en el dominio frecuencial, - la distribucin de la energa a lo largo del espectro (sobre todo los formantes con frecuencias comprendidas entre 200 y 5600 Hz, que es donde reside el mayor peso informativo del habla); - la frecuencia fundamental, - los armnicos ms intensos. En el dominio temporal se ha prestado especial atencin a los efectos de la coarticulacin (trabajos de House, 1963, Klatt, 1973, Stevens, 1980, etc.). La intensidad, por ltimo, ha sido tomada en consideracin desde los aos 50 por autores como Lehiste y Peterson. Los rasgos distintivos, por ejemplo, a pesar de haber sido establecidos sobre bases articulatorias o acsticas, correlacionan bastante bien con las confusiones de fonemas, resultado de procesos perceptivos. Sin embargo, no hay ninguna evidencia de que se preserven en el camino desde el odo hasta el cerebro. Tambin los formantes de las vocales se han debatido mucho en estudios sobre percepcin. La razn es clara: los formantes resultan un medio adecuado para describir la distribucin espectral de los sonidos (y su modificacin produce variaciones perceptivas inmediatas; basta subir el F1 para percibir una vocal como ms abierta, y si bajamos el F2 notaremos que retrasa su lugar de articulacin). Esta informacin sobre frecuencias s se ha demostrado que resulta preservada por el sistema auditivo, hasta llegar al cerebro (como veremos ms adelante), por lo que la informacin formntica podra participar en las representaciones mentales que originan los fonemas. Sin embargo, hay elementos contrarios a esta posibilidad: la variabilidad entre formantes de una misma vocal de un mismo sujeto, por ejemplo, incompatible con la idea de una representacin abstracta comn para todas ellas. Volveremos sobre esta cuestin al hablar de la percepcin de las vocales. En conclusin, es posible que los procesos de comprensin y produccin hayan evolucionado de forma paralela en el ser humano, de modo que slo han sobrevivido los mejores elementos desde ambas perspectivas: sonidos que se producen fcilmente y adems se perciben con un esfuerzo mnimo, diferencindose de forma consistente de los dems sonidos de la lengua, y asemejndose suficientemente entre distintas emisiones o distintos hablantes. En definitiva, una seleccin natural que reduce a 35-40 elementos distintivos la infinidad de sonidos articulables por el aparato fonador humano: el sistema perceptivo habra actuado como factor dominante en la evolucin del lenguaje (O Shaughnessy, 1990).

15

TEMA 2. LA AUDICIN _____________________________________________________

TEMA 2. LA AUDICIN

2.1.

INTRODUCCIN

Terminbamos el tema anterior con una reflexin acerca de la relacin entre los procesos de percepcin y los de produccin; podemos comenzar ste, dedicado al funcionamiento del sistema auditivo, de forma anloga: la produccin verbal y los mecanismos auditivos probablemente han evolucionado de forma paralela, aprovechndose cada sistema de las propiedades del otro. El odo responde especialmente a aquellas frecuencias de la seal de habla que contienen la mayor parte de la informacin relevante para la comunicacin (las que estn en un rango aproximado de 200- 5600 Hz) OShaughnessy, 1990: 128. La gnesis del sistema auditivo ha sido debatida durante aos por los bilogos. Al principio se crea que su origen poda estar en una especie de clulas ciliadas22 presentes en las branquias de los peces, que les permiten detectar el movimiento del agua. Posteriormente se ha atribuido su desarrollo al crecimiento del sistema vestibular, responsable del sentido del equilibrio, y residente en los canales semicirculares del odo medio. En cualquier caso, se trata del ltimo de sistema sensorial desarrollado por los animales. Caracteriza a los vertebrados, que viven en tierra. Es posible que su funcin primera fuera la de ayudar a localizar presas, descubrir predadores o encontrar pareja; poco a poco fue especializndose hasta convertirse en un detector especialmente sensible para identificar y localizar sonidos producidos por otros animales, cuyas caractersticas son la brevedad y la variabilidad. Si los sonidos ms importantes para nuestra supervivencia se distinguieran por ser estables y duraderos, posiblemente nuestro sistema auditivo consistira en unos grandes pabellones auditivos, con capacidad para orientarse hasta la fuente sonora. Pero como sucede al contrario, necesitamos un rgano que detecte las variaciones de intensidad a altas frecuencias (para hacer frente a la variabilidad de la seal) y que resuelva eficazmente las superposiciones de sonidos (un efecto de la rapidez en las emisiones) (Handel, 1993). Hay dos perspectivas desde las que abordar el estudio del sistema auditivo: el punto de vista fisiolgico, que se centra en el estudio del funcionamiento de los rganos de la percepcin; y el punto de vista psicofsico, o psicoacstico, cuyo fin es establecer las relaciones existentes entre los estmulos y los perceptos, o elementos percibidos. Les dedicaremos el segundo y tercer apartado, respectivamente, de este tema.

2.2.

ANATOMA Y FISIOLOGA DEL SISTEMA AUDITIVO

Este punto, la interseccin entre la fontica y un rea de la anatomofisiologa, podra desarrollarse en un nivel de detalle muy superior al que aqu presentaremos. Hemos seleccionado slo sus aspectos ms relevantes para el desarrollo de los temas posteriores. No obstante, recomendamos a los lectores interesado la consulta a la bibliografa complementaria23.
Dentro de poco veremos qu es una clula ciliada; por ahora es suficiente con saber que se llaman as porque contienen un conjunto de bastoncillos diminutos (los cilios). 23 Un libro excelente, divertido y muy didctico es la obra de W. H. Perkins y R.D. Kent Functional Anatomy of Speech, Language and Hearing (publicado por Allyn and Bacon, y con varias ediciones; la mitad se dedica a la
22

16

TEMA 2. LA AUDICIN _____________________________________________________

El sonido, como todos sabemos, consiste en una serie de cambios en la presin del aire. Pero de qu manera puede nuestro cerebro utilizar estas ondas? Ser necesario traducirlas a otro tipo de energa que el sistema nervioso s consiga aprovechar: la energa elctrica. Por eso la audicin es un mecanismo muy variado. Comienza como un proceso acstico, con la llegada de la onda sonora al odo externo; se convierte despus en un proceso mecnico, cuando esa onda se transforma en movimiento de los huesecillos en el odo medio; luego se transmuta en un proceso hidrulico, en la cclea, cuyo medio acuoso cambia los movimientos anteriores en olas; por fin, en su etapa ms compleja, lo encontramos en forma de impulso nervioso, electroqumico, a su paso desde el rgano de Corti por el nervio auditivo hasta el cortex cerebral. Los rganos que intervienen en toda esta transformacin, altamente especializados, tienen la funcin de potenciar y proteger la seal que llega a ellos para que la cadena funcione de modo ptimo: que no se pierda ninguna informacin, pero que tampoco se enven seales innecesarias. Suelen establecerse tres reas en el estudio del sistema auditivo: 1. El odo, dividido en externo, interno y medio, es el encargado de esa transformacin, cuyo fin ltimo es codificar adecuadamente los cambios en frecuencia, intensidad y tiempo de la seal sonora. 2. Las vas auditivas convierten lo que en la cclea eran activaciones individuales de las clulas en patrones de actividad neuronal. En los distintos ncleos que conforman estas vas, encargadas de llevar la seal auditiva hasta la corteza del cerebro, se produce un enorme cantidad de interconexiones neuronales. Esto permitira la formacin de detectores ms complejos, capaces de descubrir y transportar propiedades abstractas de lo que hasta ahora eran sonidos (pero empezaran a convertirse as en fonemas). 3. El cortex o corteza auditiva, el estadio ms profundo y complejo de procesamiento. Su estudio se centra en la localizacin de funciones para cada hemisferio, y la posibilidad de especializacin (una zona especializada en el procesamiento de la msica, frente a otra dedicada al lenguaje, semntica frente a sintaxis, ritmo frente a armona); esta visin modular, defensora de la existencia de dominios diferentes y relativamente autnomos en el cerebro, se enfrenta a otras propuestas segn las cuales el cerebro se organizara en procesos horizontales (recordar, juzgar, comparar...), que actuaran sobre todo tipo de representaciones (lingsticas, musicales, visuales, olfativas...). 2.2.1. El odo El primer rgano del aparato auditivo es la oreja, el pabelln auditivo (pinna, en latn). Su forma peculiar, llena de huecos y protuberancias no es un capricho de la naturaleza: a pesar de que en el hombre no posee la movilidad de algunos animales, mantiene una leve funcin amplificadora (en frecuencias medias-altas) y, sobre todo, ayuda a la localizacin de los sonidos; en un experimento24 se rellenaron esos huecos, y se descubri que a medida que la oreja era alisada, se reduca la capacidad para identificar la fuente sonora. As pues, la oreja permite una localizacin en el eje lateral (izquierda / derecha), segn las diferencias temporales y de intensidad entre las seales
fisiologa del aparato fonador (con un captulo sobre acstica), y la otra mitad a la del auditivo. Slo sobre fisiologa auditiva, es un clsico la obra de J.O. Pickles: An Introduction to the Physiology of Hearing, publicado por primera vez en 1988 por Academic Press (aunque puede resultar ms inaccesible que el anterior para un principiante). En francs cumple un papel similar Audition, de Pierre Buser y Michel Imbert (Pars, Hermann, 1987). En espaol contamos con traducciones, adaptaciones, y con algunos captulos originales en manuales mdicos, como el de Gil Loyzaga y Poch Broto Fisiologa del sistema auditivo perifrico, en C. Surez (Coord): Tratado de Otorrinolaringologa y Ciruga de Cabeza y Cuello, Madrid, Proyectos Mdicos, 2000. O el de V. Palomar, Fisiologa del odo externo y medio, en Abell y Traserra (Eds.): Otorrinolaringologa, Barcelona, Doyma, 1992. 24 Gardner y Gardner, 1973 (citado por Goldstein, 1992).

17

TEMA 2. LA AUDICIN _____________________________________________________

que provienen de un odo u otro (sus irregularidades generan patrones de ecos, que caracterizan cada distancia y direccin); y tambin una localizacin en el eje central (delante / detrs; arriba / abajo), por un efecto de sombra sobre los sonidos que se encuentran detrs de la cabeza. En esencia, podemos afirmar que el pabelln auditivo se comporta como un colector de ondas sonoras Gil Lyzaga y Poch Broto, 2000: 765. El odo externo se completa con el conducto (o canal) auditivo externo (meatus), un tubo irregular y no rgido, de unos 25-30 mm de largo y 7 mm. de dimetro, que concluye en el tmpano. Las funciones de este canal son varias: protege la entrada al odo medio, gracias a la cera que contiene, y mantiene el tmpano y las estructuras del odo medio a una temperatura estable. Pero adems, funciona como un resonador, amplificando las ondas que coinciden con sus frecuencias de resonancia, y amortiguando las restantes. Dadas sus dimensiones, resuena mejor alrededor de 3.500 Hz, pero como es un pasillo ancho, su rango se ampla desde 2000 a 5000 Hz. La presin sonora en estas frecuencias puede llegar a multiplicarse por cuatro o seis (12 15 dB) desde el exterior hasta su llegada al tmpano.

FIG. 1.

Con la llegada de la onda al tmpano comenzamos la descripcin del odo medio, una pequea cavidad llena de aire, que bate varios rcords seos: est inserta en el hueso ms duro del cuerpo (el hueso temporal) y contiene los tres huesos ms pequeos del mismo: martillo, yunque y estribo. En l, las ondas sonoras, unos simples cambios en la presin del aire, se convierten en una vibracin mecnica. Esta conversin tiene lugar en la membrana timpnica, que se mueve 'empujada' por los cambios de presin que llegan desde el conducto auditivo25. Dicho movimiento se transmite a la cadena de huesecillos que compone el odo medio. El martillo, el yunque y el estribo aumentarn esas vibraciones. Pero para conseguirlo es muy importante que la presin del aire dentro del odo medio sea igual a la presin atmosfrica26; lo conseguiremos por medio de la trompa de Eustaquio, que lo provee de aire procedente de la rinofaringe27. Las funciones del odo medio son tres: 1) Aumentar la presin recibida del tmpano. Y por qu es esto necesario? Pues porque el destino final de esa vibracin mecnica es la cclea, y la cclea est rellena de lquido, no de aire. La densidad y la compresibilidad del lquido coclear es casi 4000 veces menor que la del aire. Si no dispusiramos de algn mecanismo para aumentar la presin, slo llegara al interior de la
En la membrana timpnica tiene lugar la primera y ms bsica separacin de frecuencias del odo: si la onda es grave, el tmpano vibra como un todo, pero en altas frecuencias, distintas partes de la membrana responden a distintas frecuencias. Por otra parte, tambin hay un control de la intensidad: si la onda que llega es demasiado amplia el tmpano se tensa, vibrando menos, y el estribo se separa de la ventana oval, impidiendo un dao en la cclea (cfr, prrafo siguiente). Aunque debe tratarse tambin de una cavidad aislada del exterior, porque de lo contrario, la vibracin procedente del conducto auditivo externo, "tropezara" con la del odo medio, y la primera podra ser cancelada, y no se transmitira al odo interno. 27 La trompa de Eustaquio normalmente est cerrada en el extremo nasal, y desciende del odo a la nariz, para evitar el paso de mucosidad al odo; sin embargo, es frecuente que esto suceda en los nios, porque tienen la trompa ms corta y recta (en cuyo caso se generan infecciones conocidas como otitis media). Determinadas contracciones de los msculos velofarngeos, como las que tienen lugar al bostezar o tragar, hacen que se abra el conducto y se nivele la presin.
26 25

18

TEMA 2. LA AUDICIN _____________________________________________________

cclea un 0,1% de la presin timpnica. El odo medio cuenta con varios elementos para conseguir compensar esa diferencia de impedancia28 entre el medio areo y el lquido: a) El ms importante es la diferencia de tamao entre la membrana timpnica y la puerta de entrada a la cclea (la ventana oval): la primera mide unos 55 mm2, y la segunda apenas 3,2; esa diferencia de rea (de 17 a 1) incrementa la presin unas 35 veces. b) En segundo lugar, la cadena de huesecillos produce una accin elevadora que aumenta tambin la presin sobre la ventana oval. Su disposicin en forma de palanca (y no en lnea recta) refuerza este efecto, duplicando la intensidad. La combinacin de todos estos recursos multiplica notablemente la intensidad que llegaba del tmpano29. 2) Proteger las delicadas estructuras del odo interno de ruidos excesivamente fuertes. El estribo est colocado en su sitio por un msculo, llamado estapedial (del latn stapedus, estribo), que tiene la gracia de contraerse de forma refleja cuando llega un sonido inferior a 1-2 KHz y con intensidad superior a 85-90 dB: es el reflejo acstico, algo parecido a la contraccin de la pupila ante luces muy intensas. Ese reflejo produce que la accin elevadora que mencionbamos en el apartado b) se convierta en una accin rotatoria, lo cual disminuye la presin unos 20 dB. Sin embargo, no tiene capacidad de accin ante ruidos sbitos, porque es un poco lento. Curiosamente, cuando hablamos podemos desencadenar en nuestro propio odo el reflejo acstico, quiz para evitar una carga excesiva del mecanismo auditivo mientras emitimos el mensaje (necesitamos focalizar nuestra atencin en la produccin30: OShaughnessy, 1990). 3) Filtro de paso bajo: los msculos del odo medio, al reducir la transmisin de los sonidos de bajas frecuencias, disminuyen el enmascaramiento que stos produciran sobre frecuencias ms altas, imprescindibles para la descodificacin; concretamente, se ha calculado que atenan aproximadamente 15 dB por octava, en la zona de 1000 Hz. Y llegamos as, con la intensidad multiplicada, aunque algo menos para las frecuencias bajas, al punto en que el estribo conecta con la ventana oval: la entrada a la cclea y al odo interno. En el odo interno o 'laberinto' encontramos, por un lado, los canales semicirculares, encargados de controlar el equilibrio, pero, sobre todo, la cclea (cuya forma ha dado lugar a que tambin se le llame 'caracol'), el rgano de la audicin por excelencia, que comienza, como hemos dicho, en la ventana oval, y termina, justo debajo, en la ventana redonda (aunque su salida no es sa, sino unas fibras nerviosas de las que hablaremos largo y tendido). Se trata de un tubo rgido, de unos 32-35 mm de largo y un grosor que va de 4 mm2 en la base a 1 mm2 en la punta o pice. Est enrollado sobre s mismo dos veces y media, y lleno de un lquido similar al fluido extracelular, la perilinfa, cuyo potencial elctrico es negativo31. En la cclea encontramos una subestructura flexible y hueca, la particin coclear, que la divide en dos rampas o escalas, la vestibular y la timpnica32. La particin coclear no es plana, sino hueca, tiene un techo (la membrana de Reissner), y un suelo, por el lado de la rampa timpnica, la membrana basilar. Su interior est relleno de un lquido viscoso como la gelatina, semejante al

28

La impedancia es la resistencia al paso de las vibraciones; si las impedancias de dos materiales son iguales, las vibraciones pasarn fcilmente de uno a otro. Si son diferentes (como es el caso que comentamos), se produce un desajuste de impedancias, y las vibraciones tienen dificultad para transmitirse: las que no lo consiguen son reflejadas y empiezan a viajar en direccin contraria, chocando con las que venan detrs (Pickles, 1988:5). 29 Las personas con lesiones en el odo medio necesitan incrementar la presin acstica entre 10 y 50 veces para lograr la misma capacidad auditiva de los normooyentes. 30 Otra muestra ms, en este caso fisiolgica, de la relaciones entre percepcin y produccin. 31 Su composicin es similar a la del fluido cerebroespinal, o a la del plasma sanguneo, muy abundantes en el cuerpo. 32 Ambas rampas se unen en el extremo del caracol o helicotrema, puesto que la particin coclear acaba un poco antes.

19

TEMA 2. LA AUDICIN _____________________________________________________

fluido que puebla el interior de las clulas, y con un alto potencial elctrico (muy positivo): la endolinfa33

FIG. 2.

La membrana basilar es el soporte del rgano de Corti, el elemento ms importante de la cclea, verdadero transductor auditivo, una diminuta central elctrica encargada de convertir el movimiento en descargas que activen las fibras nerviosas. El rgano de Corti contiene entre 15.000 y 30.000 receptores del nervio auditivo: las llamadas clulas ciliadas, de las cuales salen los haces de fibras que componen el nervio auditivo o coclear. Se llaman ciliadas porque cada una tiene una serie (entre 40 y 140) de pelitos o (estereo)cilios, con capacidad para producir pequeas descargas elctricas al rozar la membrana superior (tectorial), como veremos enseguida. Nuestro objetivo ha sido descubrir las diminutas clulas ciliadas. Para ello ha sido necesario un zoom progresivo, que nos llev, en primer lugar, a observar la divisin interna de la cclea; luego, a ampliar esa divisin para observar mejor el suelo de la misma, la membrana basilar; y, en una ltima ampliacin, inserto en esta membrana, localizar el rgano de Corti, alojamiento de las clulas ciliadas. La membrana basilar tiene una base (pegada a la ventana oval) muy fina y dura, mientras que su pice (en la circunvolucin ms alta) es cuatro veces ms ancho, y cien veces ms flexible. En la medida en que varan su forma y su ductilidad lo hace tambin su respuesta a las frecuencias del sonido: la parte estrecha y rgida est especializada en detectar sonidos agudos, mientras que la gruesa y elstica se reserva para los graves. El funcionamiento de la cclea comienza como un proceso hidrulico: los impulsos mecnicos transmitidos por el estribo a la ventana oval se transforman, en el medio acuoso coclear, en olas (la onda viajera o desplazante): como las paredes exteriores de la cclea son de hueso, y las particiones internas son flexibles, el movimiento genera una ola interior que se traslada a velocidad decreciente desde la base de la cclea hasta la punta (o pice), y va aumentando lentamente su amplitud, hasta llegar a un punto en el que se alcanza el mximo desplazamiento de la membrana, una regin especfica para cada frecuencia: se denomina frecuencia caracterstica, la que lo hace vibrar al mximo. Alcanzada sta, disminuye bruscamente.

FIG.3 y 3b

En realidad, lo importante de esta onda desplazante -que avanza desde la base y recorre esas dos circunvoluciones y media- no es que llegue al pice de la cclea, sino que empuje sobre la particin coclear, tirando de ella arriba y abajo. Este movimiento se extiende al rgano de Corti, y en la subida hace que los cilios rocen la membrana tectorial34: con cada una de esas
33

La endolinfa es un lquido muy especial; el nico punto del organismo donde puede encontrarse en el exterior de las clulas es la cclea. Su alto potencial elctrico generado por el bombeo de iones en la estra vascular- le permite funcionar como la batera que conduce el proceso de transduccin Pickles, 1988: 55. 34 Que es, recordemos el dibujo anterior, la cubierta superior del rgano de Corti.

20

TEMA 2. LA AUDICIN _____________________________________________________

mnimas flexiones del orden de una trillonsima de metro-, se genera un potencial elctrico que se propagar a lo largo del nervio auditivo35. Como adelantbamos lneas atrs, la base de la membrana basilar, fina y rgida, responde a las frecuencias ms agudas, mientras que el pice, ms grueso y mvil, responde a tonos graves, de bajas frecuencias36: esta especializacin de una zona para cada frecuencia es lo que se llama organizacin tonotpica, y la encontraremos no slo en la cclea37, sino tambin en todos los niveles de la va auditiva, hasta la corteza cerebral. Su resultado es conocido como selectividad frecuencial38, la capacidad del sistema auditivo para responder de modo selectivo segn la frecuencia del estmulo, para filtrar un estmulo frente a otros simultneos sobre la base de su frecuencia. A partir de estos datos se han dibujado mapas de la cclea, con sus diferentes frecuencias caractersticas, desde 20.000 a 60 Hz:

FIG. 4

Es interesante recordar, en este punto, otra representacin que nos resulta ms familiar, y cuyo objetivo es tambin reproducir, en cierto modo, el comportamiento del sistema auditivo (por eso se usa en ellos la escala logartmica): la carta de formantes, que refleja una compensacin tal, que los intervalos sonoros iguales que llegan a nuestro odo se representan por distancias iguales (Quilis, 1981, 154). Hemos adaptado el mapa de la cclea de la imagen anterior, representndolo sobre una lnea recta; a continuacin hemos calculado las proporciones de espacio auditivo que asignan a cada banda de frecuencias tanto la carta de formantes (en la primera columna), como el mapa de la cclea (en la segunda): Hz 200 500 500 1000 1000 2000 2000 4000 Carta de Formantes 5,5% 4% 31,3% 49,2% Mapa de la cclea 6% 19,6% 26,4% 40,6%

FIGURAS 5-6

Como vemos, grosso modo ambas representaciones coinciden, excepto en una banda de frecuencias: la que va de 500 a 1000 Herzios, que resulta muy minimizada en la carta de formantes, si la comparamos con el espacio que
35

La flexin de los cilios abre y cierra canales inicos: como el lquido endococlear es positivo y el intracelular es negativo, se producen unos cambios de potencial que se acaban transmitiendo a las fibras del nervio. Para un anlisis detallado del comportamiento electroqumico de los estereocilios, cfr, Gil Loyzaga y Poch Broto, 2000. 36 Slo los que tienen menos de 20 Hz no consiguen mover la cclea. 37 Hay varias teoras que explican el funcionamiento de la cclea: las ms importantes son la de Helmholtz, denominada de la resonancia y la de von Bksy, teora del lugar o de la onda viajera (que le vali el Nobel en 1961). Entre ambas se postularon la de Rutherford sobre la frecuencia y el principio de andanada de Weber. No entraremos en las diferencias entre ellas (cfr. Goldstein, 1992). Actualmente, se acepta la explicacin de von Bksy como mecanismo pasivo de la cclea, un primer filtro, que ha de completarse con los mecanismos activos, residentes en las clulas ciliadas externas (cfr. ms adelante). 38 Sobre las caractersticas, causas y consecuencias de la selectividad de frecuencias en la cclea y el nervio auditivo puede consultarse Moore (1986); especialmente interesantes son los captulos 5 (sobre sona, entonacin y duracin), y 7 (escrito por Rosen y Fourcin), que se dedica a la percepcin del habla.

21

TEMA 2. LA AUDICIN _____________________________________________________ ocupa en la organizacin tonotpica de la cclea; el 15% de espacio suplementario que le correspondera se asigna en la carta de formantes a la banda 2000-4000 (10%) y a 1000-2000 (5%). En la representacin del tringulo voclico (que es la utilidad ms importante de la carta de formantes) esta diferencia afectara sobre todo a los segundos formantes de /o/, /u/ y al primer formante de /a/.

Llegados a este punto, retomamos el funcionamiento mecnico de la cclea: la onda generada por los impulsos del estribo se va desplazando a lo largo de la membrana basilar, y cuando llega a su punto de mxima amplitud provoca la flexin de los cilios, y salta la chispa elctrica. En ese momento es muy importante tener en cuenta la existencia de dos tipos distintos de clulas ciliadas: las internas y las externas. La gran mayora -alrededor del 80%- son externas, pero apenas reciben inervacin: son las 3.000 5.000 clulas ciliadas internas las que reciben el 95% de las fibras del nervio auditivo. Este desequilibrio mantuvo perplejos a los investigadores durante un tiempo: cmo era posible tamao despilfarro? Para qu serva esa enorme cantidad de clulas ciliadas externas, si slo las internas enviaban mensajes hacia el cerebro? La respuesta la naturaleza raramente desperdicia sus recursos- se ha calificado como segundo filtro o mecnica activa de la cclea: aunque son las internas las encargadas de la transmisin al nervio auditivo, las clulas ciliadas externas determinan en gran medida qu es lo que se ha de transmitir, puesto que incrementan y afinan la selectividad de frecuencias39, generando un pico de respuesta mucho ms fino e intenso (con ganancias de hasta 70 dB sobre la vibracin de la membrana basilar). Esto es especialmente importante cuando el estmulo tiene una intensidad baja o media.

FIG. 7

As pues, una lesin de las clulas ciliadas internas supone una prdida moderada de la selectividad de frecuencias, mientras que una lesin en las clulas ciliadas externas supone la desaparicin total de dicha propiedad del receptor auditivo [...] Por todo ello se postula que las clulas ciliadas externas participan como mecanismo activo en la selectividad frecuencial del receptor auditivo (Gil Loyzaga y Poch Broto, 2000: 769)40.
Ya que hablamos de prdida auditiva, haremos una breve mencin a los tipos de hipoacusia ms frecuentes: si tienen lugar por una lesin en el odo medio (como ocurre en los casos de otoesclerosis, en los que la unin del estribo con la ventana oval se calcifica) se denominan prdidas conductivas, y se caracterizan por un decremento de la intensidad, pero sin alteraciones en frecuencias. Sin embargo, si el rgano daado es la cclea se habla de hipoacusia neurosensorial: es lo que ocurre en el caso de ingestin de productos ototxicos, como algunos antibiticos, en los casos de trauma acstico, por exposicin a ruidos altsimos, o por otras razones, como las genticas. En estas situaciones, se pueden encontrar desde lesiones que afecten slo a los cilios, hasta daos ms profundos, con destruccin de clulas ciliadas enteras en zonas ms o menos amplias. Las alteraciones producidas son ms complejas que en las prdidas conductivas, puesto que afectan no slo a las intensidades (con una extensin del fenmeno del reclutamiento), sino tambin a las frecuencias e incluso a la integracin temporal. Su solucin quirrgica tambin es mucho ms difcil, si no pasa por la insercin de unos electrodos que estimulen elctricamente la cclea (los implantes cocleares).

39

Por medio de un juego de contracciones rpidas y lentas que facilitan o bloquean la transferencia del estmulo hasta las clulas ciliadas internas (cfr. Gil Loyzaga y Poch Broto, 2000: 771). 40 En las clulas ciliadas externas se generan los microfnicos cocleares, unos patrones elctricos que se pueden registrar colocando electrodos en la cclea; son un reflejo tan fiel de la onda sonora que les dio origen que, cuando se amplifican a travs de un altavoz, son indistinguibles del sonido original (Perkins y Kent, 1986: 282).

22

TEMA 2. LA AUDICIN _____________________________________________________

La mecnica coclear activa y pasiva- explica satisfactoriamente la codificacin de la informacin sobre frecuencias altas (es la teora de la localizacin). Para los sonidos graves, el camino hacia el cerebro parece pasar por un mecanismo de codificacin complementario que tiene lugar en el nervio auditivo: las diferencias temporales entre los intervalos de activacin de las fibras nerviosas. Lo explica la teora de la andanada, o del tiempo, que veremos a continuacin. 2.2.2. El nervio auditivo El nervio auditivo es el octavo par craneal; se llama as porque est dividido en canales, que extraen informacin en paralelo sobre intensidad (nmero de fibras estimuladas), temporalidad (mdulo de descarga de cada fibra) y espectro (tasa de descarga). De la suma de las respuestas de todas las fibras se obtiene un neurograma con caractersticas comunes al espectro del sonido de procedencia. Como en la etapa anterior, y en las siguientes, las fibras del nervio auditivo son ms sensibles a una determinada frecuencia, ante la cual se activan a intensidades menores41: esta frecuencia caracterstica es la misma que la de la clula ciliada correspondiente en la cclea; incluso la selectividad de frecuencias parece ms fina en este nivel elctrico que en la mecnica pasiva coclear. Pero adems de responder a las mismas frecuencias, algunas fibras nerviosas se sintonizan en fase con la onda de la membrana basilar: slo se activan cuando la onda alcanza un determinado punto en su semiciclo (ocurre en frecuencias bajas). De esta manera se consigue un el segundo mecanismo al que antes aludamos para codificar la informacin sobre frecuencias.

FIG. 8

Por otra parte, la sincronizacin temporal permite un control automtico de la intensidad: los estmulos fuertes y suaves se traducen en activaciones a intervalos de tiempo similares (OShaughnessy, 1990). Y as creemos- se transmite tambin informacin sobre intensidad del estmulo. Las fibras del nervio auditivo se saturan42 a intensidades relativamente bajas: a 60 dB para tonos puros y 80 dB para sonidos complejos43. A partir de entonces, la respuesta del nervio se deteriora, porque se activan muchas fibras a la vez (fenmeno conocido como reclutamiento). Sin embargo, somos capaces de procesar sin problemas sonidos mucho ms intensos, de ms de 100 dB. Cmo es posible? La respuesta parece estar en ese factor tiempo, en la sincronizacin en fase con la onda viajera que recorre la cclea: los patrones temporales generados resisten bien las altas intensidades.

41

La relacin entre el umbral de intensidad y la frecuencia del sonido es la famosa curva de sintonizacin, en forma de V, de la fibra nerviosa. 42 El rango de activacin de estas fibras va desde 10-50 veces por segundo (que es la tasa de activacin aleatoria, en ausencia de estmulo; correspondera al estado inicial) hasta 300 activaciones/sg, a partir de entonces ya se produce saturacin por exceso de intensidad sonora. 43 Esa diferencia de 20 dB indica cmo el sistema auditivo est orientado hacia los sonidos naturales, que son siempre complejos.

23

TEMA 2. LA AUDICIN _____________________________________________________

Intensidades bajas Frecuencias bajas Frecuencias altas Tasas de activacin/selectividad f.

Intensidades altas Patrones temporales de activacin

Tasas de activacin/selectividad frecuencial en la cclea y el nervio auditivo

As pues, para las frecuencias bajas, en las que la mecnica coclear es menos eficaz, el nervio auditivo dispone de dos mecanismos que se complementan mutuamente: la proporcin de fibras que se activan ante un determinado estmulo (si la intensidad es inferior a 60-80 dB), o los intervalos de activacin entre ellas, que camino del cerebro se traducen en informacin sobre frecuencias44. Hay varios fenmenos que afectan al funcionamiento de las fibras en el nervio auditivo: 1. La adaptacin: cuando un estmulo es muy persistente, la fibra se cansa45, y reduce a la mitad su tasa de activacin (sobre todo al transcurrir 15-20 msg desde el comienzo, y a intensidades altas). Si el estmulo tiene un inicio gradual, con incrementos paulatinos de la intensidad como ocurre con las fricativas- la adaptacin tarda ms en producirse, pero si empieza abruptamente el caso de las oclusivas o las africadas- se llega enseguida al descenso de la actividad. Por eso se piensa que este mecanismo puede servir para enfatizar las transiciones de los sonidos (cfr. Quilis, 1999, 6.5.), y ciertas diferencias entre ellos, como los cambios sbitos de intensidad: en el caso de [ma], por ejemplo, tanto [m] como [a] tienen muchos componentes en bajas frecuencias; sin embargo, [a] tiene energa a frecuencias altas que no tiene [m]; las fibras de frecuencia caracterstica baja comienzan a activarse para [m], y cuando llega la [a], aunque tenga ms intensidad, estn en fase de descenso de su actividad: es la hora de las fibras con frecuencia caracterstica ms alta (lo cual resalta las diferencias entre ambos sonidos). 2. El enmascaramiento y la supresin de dos tonos: un tono simple produce slo excitacin, pero dos o ms tonos pueden interferir entre s, y generar tambin inhibicin de la respuesta anterior46, o un tono diferente a los dos estmulos iniciales (son los llamados productos de distorsin). En el caso de que un estmulo provoque mayores tasas de activacin que otro de su entorno, el primero acta como mscara que oculta los efectos del segundo; suelen ser los tonos bajos los que se apropien de la fibra, a expensas de los agudos. Puede afectar tanto al tiempo como a las frecuencias, y producirse de forma progresiva (de un sonido anterior sobre otro posterior) o regresiva (a la inversa). Estos fenmenos son muestra de no linealidad en la audicin ante sonidos complejos, insertos en un contexto: la percepcin de los sonidos del habla no es la simple suma de sus componentes; ni las intensidades ni las frecuencias que encontramos a su salida son iguales a las que haba a la entrada, por el camino han desaparecido algunos componentes y se han creado otros (cfr. 2.3.2)47.

44

Greenberg (1988) nos ofrece una distribucin ms detallada del esquema anterior: - Sonidos de baja intensidad y seales aperidicas en frecuencias altas (oclusivas y fricativas) -> tasa de activacin - Sonidos de baja intensidad y baja relacin seal/ruido en altas frecuencias -> tasa de activacin + sincronizacin - Sonidos sonoros (especialmente vocales), intensidades moderadas o altas, y baja relacin seal/ruido en bajas frecuencias -> sincronizacin. 45 Parece que, en realidad, se agota el transmisor qumico de la clula ciliada asociada a la fibra. 46 Es un fenmeno derivado del comportamiento no lineal de la cclea 47 Aunque esta respuesta no lineal pueda parecer un obstculo para la percepcin, en realidad tiene el papel contrario: el enmascaramiento produce una mayor selectividad frecuencial, afinan la curva de sintonizacin de la fibra nerviosa, al inhibir las respuestas que no coinciden con su frecuencia caracterstica. La supresin de dos tonos permite incrementar el contraste entre estmulos complejos, puesto que los picos de activacin producidos por las frecuencias dominantes se destacan respecto al entorno (Pickles, 1988: 266 y 103).

24

TEMA 2. LA AUDICIN _____________________________________________________

2.2.3. Las vas auditivas Nos ponemos as en ruta hacia el cerebro: "una vez que el camino auditivo de cada odo alcanza el cerebro, se organiza como dos sistemas de vas frreas paralelos circulando entre las mismas ciudades, aunque cada uno tiene sus propias terminales de pasajeros. El trfico neural puede circular por una lnea y otra a muchas terminales" (Perkins y Kent, 1986: 283): son las vas aferentes o centrpetas (las que suben) y eferentes o centrfugas (las que bajan). Continuando con la metfora, ese sistema de circulacin tiene dos rales en cada sentido: uno a la derecha del eje central del crneo y otro a su izquierda. La informacin preferente es la que proviene del odo contrario, la informacin contralateral, pero en muchas ocasiones se cruza y se integra con la ipsilateral (procedente del odo que se encuentra en el mismo lado de la cabeza). En definitiva, nos encontramos con el conjunto de interconexiones ms complicado de todo el sistema sensorial: el 70% de las vas son contralaterales, cruzan desde un odo a la corteza cerebral del lado contrario; el resto son ipsilaterales. Hay vas nerviosas que atraviesan todas las estaciones intermedias hasta llegar al cortex, mientras que otras se saltan algunos ncleos.
odonervio auditivoncleo coclearoliva superiorcolgulo inferiorcuerpo geniculado medio cortex auditivo

Y por qu toda esta complicacin? En comparacin con el sistema visual, el auditivo es mucho ms pobre en sus primeros estadios: la retina tiene 130 millones de receptores fotosensibles, mientras que la cclea slo cuenta con unos 15.000; el nervio visual est formado por un milln de fibras, frente al nervio auditivo, que se limita a otros 15.000. Sin embargo, al llegar al cerebro, ambos sistemas se equilibran: encontramos unos cien millones de neuronas, tanto en el cortex visual como en el auditivo. Esto es posible gracias a las vas auditivas, y su sinuoso y complejo camino hacia la corteza cerebral: en cada una de las estaciones intermedias se multiplica el nmero de neuronas, compensando as la pobreza inicial (Handel, 1993). Las vas auditivas mantienen la organizacin tonotpica de la cclea y del nervio auditivo: cada neurona tiene una frecuencia caracterstica, en la cual la intensidad necesaria para activarla48 es menor, tiene el umbral ms bajo. Por otra parte, a medida que avanzamos hacia la corteza cerebral, las neuronas tienden a responder mejor a las partes dinmicas del habla (transiciones, movimientos de los formantes, inicios, finales: puntos de cambio espectral). El ncleo coclear parece especialista en el tratamiento de la informacin sobre frecuencias, con especial sensibilidad, como decamos, a tonos que varen en intensidad y timbre; adems sus neuronas presentan mecanismos inhibitorios que permiten separar la seal del ruido e integrar la informacin sobre frecuencias transmitida tanto a travs de las tasas de activacin como de los patrones temporales de sincronizacin (Greenberg, 1988). En cambio, el complejo olivar (la oliva superior) se dedica a analizar preferentemente la localizacin de los sonidos, su direccin en el espacio. Ambas informaciones llegan entrecruzadas (ipsi y contralateralmente) al colgulo inferior, que juega un papel importante en muchos reflejos auditivos. Y, por fin, en el tlamo auditivo, el cuerpo geniculado medial enva todos estos datos multiplicados hasta la corteza cerebral (Handel, 1993; Pickles, 1988). Pero hasta aqu slo hemos mencionado las vas aferentes, el camino del odo al cerebro: el 98% de la circulacin se produce en este sentido. Sin embargo, unas 500 fibras nerviosas llevan impulsos neuronales desde el cerebro hasta el odo; su finalidad sera la de controlar el funcionamiento del odo: en parte se dirigen al msculo estapedial para producir el reflejo que protege la cclea de ruidos fuertes (cfr.2.2.1., odo medio), pero en parte van a las clulas ciliadas externas de la cclea, posiblemente con la finalidad de inhibir su respuesta a ruidos irrelevantes del
48

Por encima de su tasa de activacin aleatoria, que se produce en ausencia de estmulo.

25

TEMA 2. LA AUDICIN _____________________________________________________

entorno, dirigiendo la atencin hacia los sonidos importantes (Perkins y Kent, 1996: 285), y tambin contribuyendo a aumentar su selectividad frecuencial (cfr. 2.2.1. mecanismos activos de la cclea). 2.2.4. La corteza cerebral El cortex auditivo se compone de un ncleo 49 (calificado como primario, y organizado tonotpicamente), al que rodea un cinturn (el rea auditiva de asociacin). Las neuronas que lo constituyen se caracterizan por presentar unas respuestas muy complejas, tanto temporal como frecuencialmente; algunas parecen especialmente sensibles a determinadas caractersticas de los estmulos complejos; otras slo responden a un determinado tipo de ellos. Las investigaciones sobre su funcionamiento son escasas, y prcticamente todas proceden de experimentos con animales50. Pero stas son las hiptesis ms importantes (Pickles, 1988). La corteza auditiva es necesaria para: - el anlisis de sonidos complejos, - tareas auditivas que impliquen dificultad, - la localizacin del sonido (en el lado contralateral de la cabeza, fundamentalmente), y la atencin selectiva en funcin de esa posicin - la discriminacin de patrones temporales, - la memoria a corto plazo, cuando un estmulo ha de ser relacionado con otro posterior. Una de las funciones (hipotticas) ms interesantes de la corteza auditiva es la propuesta por Whitfield respecto a su papel en la formacin de conceptos auditivos (los fonemas, en terminologa lingstica) Pickles, 1988: 231. En definitiva, parece que aqu, en lo ms profundo del cerebro, ha llegado el momento de la integracin: toda la informacin que en las fases anteriores hubo que separar, clula a clula, fibra a fibra, neurona a neurona, es necesario volverla a unir, superponerla, con el fin de generar patrones complejos, en los que los datos de frecuencias, duraciones e intensidades converjan en un modelo con el que comparar estmulos posteriores: cuanto mayor sea el grado de complejidad de la estimulacin sonora y la informacin en ella contenida, mayor ser el grado esperable de implicacin del cortex en su procesamiento Durrant y Lovrinic, 1977: 134. Como decamos en la introduccin a este apartado, existen dos concepciones contrapuestas sobre la organizacin y el funcionamiento del sistema cognitivo: en mdulos autnomos, independientes y especficos para cada funcin? O existe una unidad en la mente humana, de modo que todos los procesos se interrelacionan, y actan conjuntamente para diferentes tareas, como sistemas distribuidos, o redes de clulas? No entraremos en ese debate aqu51. Bstenos sealar que, en lo concerniente al habla, parece existir un consenso acerca de que su percepcin y procesamiento se realizan en el rea de Wernicke52 del hemisferio dominante, aunque ambos hemisferios se encuentran activos durante el procesamiento lingstico (especialmente en las mujeres, que parecen tener conexiones interhemisfricas ms extensas que los hombres a travs del cuerpo calloso (Berko y Bernstein, 1999: 100)). En todo caso, el cortex puede reorganizarse, y si es
49 50

Situado, concretamente, en la circunvolucin de Heschl. Dada la metodologa de esos experimentos, no es extrao que escaseen: se entrena a un gato (porque tienen un sistema auditivo parecido al nuestro) en la realizacin de determinada tarea. Luego le extraen esa parte del cerebro, y, cuando vuelve en s, se observa si el animal es capaz de seguir haciendo la tarea en cuestin. 51 El paradigma del primer modelo es la obra de The modularity of mind, de Fodor (1983). Como estandarte de la segunda, Sopena y Sebastin proponen la obra de Anderson The Architecture of Cognition, publicada en el mismo ao. Los lectores interesados en lo concerniente al sistema auditivo pueden consultar el apartado 12.5 de Handel, 1993. 52 Situada en la parte posterior del lbulo temporal.

26

TEMA 2. LA AUDICIN _____________________________________________________

necesario (ante una lesin cerebral, por ejemplo), otras reas pueden desempear funciones correspondientes a las daadas. Quiz se trate de localizaciones preferidas, pero que pueden ser compensadas53. Sin embargo, la descodificacin de un mensaje va ms all de la recepcin de la seal: requiere tambin su identificacin. Y lo que nos permite descubrir el mensaje es la capacidad para reconocer modelos en esa informacin que llega al cerebro, segmentando el continuo fnico en unidades discretas. Nos encontramos ante una tarea compleja, en la que parecen intervenir capacidades innatas, junto a procesos de aprendizaje derivados del tiempo de exposicin a una lengua54. 2.2.5. La memoria y la descodificacin del habla. Con la llegada a la corteza auditiva acaba el recorrido del estmulo auditivo, desde el aire exterior hasta el cerebro. Y termina tambin la neurofisiologa del sistema auditivo55. Pero el mensaje no se puede interpretar hasta que no se compare la representacin resultante de todo ese proceso con otras unidades significativas, almacenadas previamente en nuestra memoria: slo cuando el resultado de la comparacin es positivo, podremos asignar significado al patrn sonoro. En la descodificacin del mensaje intervienen dos tipos de memoria: a) La memoria de corto plazo, inmediata, ecoica o auditiva, (que todas esas denominaciones recibe): dura 2-3 segundos, por lo que slo admite unidades breves, como las slabas. Se utiliza para poder aprovechar el contexto en caso de ambigedad; es posible que la informacin se almacene resumida, en forma de rasgos que la descodifiquen parcialmente56. Esta informacin acstica transitoria ha de grabarse en una forma fontica ms completa, en la memoria de largo plazo, para que no se pierda (OShaughnessy, 1990). b) La memoria de largo plazo, tarda o fontica: admite hasta siete slabas, porque tiene la funcin de alojar los patrones de sonidos hasta que, en el proceso de comparacin, se les asigne una categora, una etiqueta, y pasen al almacn lxico (almacenamiento acstico precategorial). c) La memoria semntica, por ltimo, es la permanente, el lugar donde residen las unidades lxicas, con todos sus rasgos aparejados, hasta el fin de nuestros das (si no sufrimos antes ningn deterioro cognitivo asociado al envejecimiento). Como vemos, el fonema no tiene un papel claro como unidad de almacenamiento. De hecho, hay indicios de que la identificacin de palabras no necesita normalmente una segmentacin fonolgica: tardamos ms en identificar fonemas que palabras, y si se inserta un ruido en el interior
53

Los estudios sobre las posibles funciones de los dos hemisferios son apasionantes: desde los casos ms dramticos de hemisferectoma (extraccin de un hemisferio), empleada como tratamiento contra la epilepsia en los aos 20, pasando por experimentos mucho menos agresivos en los aos 50 con anestesia de un hemisferio (test de Wada), o por tcnicas ingeniosas y nada invasivas, como la escucha dictica, hasta llegar a medidas actuales, como el electroencefalograma, los potenciales evocados, la tomografa por emisin de positrones, o la resonancia magntica funcional, que permite obtener imgenes bastante precisas del flujo sanguneo en el cerebro durante el habla (o cualquier otra actividad). Les recomendamos el resumen de Dingwall en Berko y Bernstein, 1991, cap. 2. 54 Greenberg, S.: "The ear as a speech analyzer" Journal of Phonetics, 16, 139-149 ,1988. Moore, B.C.J.: Frequency Selectivity in Hearing. New York, Academic Press, ,1986. 55 Para los lectores con inters o formacin computacional resultar muy interesante el modelo artificial de sistema auditivo presentado por Cooke (1993). 56 Se considera que tambin es necesaria algn tipo de memoria a corto plazo en el procesamiento sintctico. De ser as, su intervencin como salida del almacn lxico y entrada del analizador sintctico requerira la inclusin de rasgos semnticos (Sopena y Sebastin, 1991: 513-514). Sus caractersticas, en todo caso, parecen diferentes de la memoria ecoica o auditiva (Wingfield y Titone, en Berko y Bernstein, 1999: 283-285).

27

TEMA 2. LA AUDICIN _____________________________________________________

de una palabra, tendemos mucho a desplazarlo mentalmente hacia su inicio o su final (cfr.1.3.2. Factores que facilitan la descodificacin.). En cambio, la slaba parece perfilarse como una unidad importante en el procesamiento auditivo (cfr 4.4.) Los bebs, por otra parte, parecen almacenar en la memoria de largo plazo caractersticas rtmicas del habla: en un experimento llevado a cabo por DeCasper y Spence, varias madres en las ltimas 6 semanas del embarazo leyeron en voz alta un texto, dos veces al da. Al poco de nacer, se ley a los bebs ese texto, y otro desconocido. Los nios presentaron una preferencia significativa por el primero57. En cualquier caso, a partir de la seal espectral se activan las representaciones almacenadas en la memoria (unidades de significado) ms similares a la de la seal que llega. Informaciones de ms amplio alcance, como el contexto, la funcin gramatical, el significado de los elementos anteriores, etc., decantarn la seleccin. Pero eso ya pertenece al prximo captulo: no es audicin, sino percepcin y comprensin. 2.3. PSICOACSTICA

El estudio de audicin a travs de las respuestas subjetivas a los estmulos acsticos, especialmente en tareas de deteccin y discriminacin, es el objetivo de la psicoacstica, tambin llamada psicofsica auditiva58. Esta disciplina es un puente en el vaco que existe entre el estudio de la actividad neuronal, que hemos visto hasta ahora, y las investigaciones sobre identificacin de unidades que se presentarn en el prximo tema. En efecto, como hemos visto en el apartado anterior, la seal de habla que aparece en un sonograma no es idntica a la que llega a la corteza auditiva; entre ambas, el sistema auditivo ha podido suprimir algunos elementos o reforzar otros. Lo importante es descubrir cmo la seal percibida nos permite recuperar la seal emitida. La deteccin implica notar la presencia o ausencia de un estmulo, pero sin llegar a identificarlo; podemos detectar estmulos en funcin de su duracin, su intensidad y su frecuencia. En la discriminacin, lo que hacemos es comparar y buscar diferencias entre estmulos prximos. Siguiendo esta escala de complejidad creciente, el ltimo estadio es la identificacin, que requiere relacionar el estmulo que se nos presenta con una representacin que tenemos en la memoria, a la cual corresponde una etiqueta determinada59. Las tareas de identificacin conciernen a la percepcin, no a la audicin. 2.3.1. Umbrales El odo presenta unos lmites en su capacidad, tanto respecto a frecuencias como a intensidades. En cuanto a frecuencias, podemos or, por lo general, los sonidos entre 20 y 20.000 Hz. Por fuera de estos mrgenes tenemos los infrasonidos y los ultrasonidos.
57

Que se demuestra, en este tipo de experimentos, por un cambio en el ritmo de succin del chupete (que lleva un sensor instalado), o por lo que se llama giro operativo de cabeza: se vuelven hacia lo que llama su atencin (Jusczyk, 1997). 58 Si los estmulos utilizados para ello son lingsticos, y las categoras para el etiquetado tambin (por ejemplo, los fonemas, o las slabas), se habla de psicolingstica auditiva. 59 Por ejemplo, a 100 Hz podemos diferenciar sonidos que slo distan 1 Hz entre s. Pero seramos incapaces de sealar cul es el tono 106 Hz, 102 Hz, o 108 Hz. Otra muestra de la diferencia entre detectar e identificar se da en los casos de enmascaramiento: ante dos sonidos que interfieren entre s, reconocer una seal verbal requiere 10 o 12 dB ms de intensidad que los necesarios para simplemente detectarla. Hay un solo caso en el que no se cumple la ley de que detectamos ms de lo que etiquetamos: la percepcin categorial, que se ver en 3.1.1.

28

TEMA 2. LA AUDICIN _____________________________________________________

En cuanto a intensidades, de nuevo nos movemos entre dos extremos: el umbral de la audicin o umbral absoluto (la intensidad mnima necesaria para distinguir un sonido del silencio) y el umbral del dolor. Por debajo del primero no omos, y por encima del segundo la seal nos molesta. Cuando hablamos de comenzar a distinguir sonidos, nos referimos al umbral diferencial, la menor diferencia que puede se detectada entre dos estmulos60 (vase, ms abajo, el concepto de diferencia mnima perceptible). El umbral de la audicin vara en funcin de las frecuencias: las muy bajas requieren ms intensidad, las zonas ms sensibles van de 700 a 7000 Hz nos bastan de 0 a 3 dB-, y a partir de los 8000 Hz se vuelven a requerir mayores intensidades61. Cruzando todos estos datos, obtenemos lo que se ha denominado el campo de audicin, o rea de respuesta auditiva:

FIG. 9.

Como vemos en l, dos intensidades muy diferentes pueden producirnos la misma sensacin subjetiva de fuerza: oiremos muy bajito, prximo al umbral de audicin, un tono de 30 Hz slo cuando alcance los 65 dB; sin embargo, si el tono es de 1000 Hz, con apenas 0-2 dB tendremos la misma sensacin (en cambio, los 65 dB anteriores nos situarn a esta frecuencia en plena zona conversacional, un intensidad muy cmoda). Esto nos permite elaborar curvas de isofona, o contornos equisonoros (cfr, un poco ms abajo, sona):

FIG. 10

Si relacionamos estos datos con los correspondientes a la distribucin frecuencial de nuestros sonidos, podemos comprobar cmo la mayora de las seales del habla se sitan en la zona de ms sensibilidad auditiva. De hecho, en experimentos sobre inteligibilidad de habla filtrada y en entorno ruidoso, usando medidas como el ndice de Articulacin (cfr. 1.3.2. pgina 9) se ha descubierto que el rango de frecuencias que va de 200 a 5600 Hz es el que ms contribuye a la percepcin del habla: esa coincidencia con las regiones de mayor sensibilidad auditiva no parece casual, sino una muestra de la seleccin natural a que son sometidos tambin- los sonidos del lenguaje (como decamos en 1.4.).

60

Segn la ley de Weber (que lo descubri en 1830), hay una relacin directa entre esa cantidad y la intensidad del estmulo: el tamao del umbral diferencial es una fraccin constante del tamao del estmulo. En estudios ms recientes, la teora de deteccin de seales matiza que los criterios de respuesta influyen en la deteccin de estos pequeos cambios. Siguiendo con los principios clsicos, Fechner descubri, adems, que la sensacin crece de forma logartmica respecto al estmulo: la magnitud percibida es igual al logaritmo de la intensidad, multiplicado por una cifra constante (P = k log I). Dicho de otro modo, la sensacin crece en progresin aritmtica cuando la excitacin crece el progresin geomtrica. 61 Como hemos visto en el apartado anterior, la razn de estas diferencias empieza en el filtrado del odo externo y medio, y contina con la estructura de la cclea, que tiene gran cantidad de clulas ciliadas sensibles a estas frecuencias.

29

TEMA 2. LA AUDICIN _____________________________________________________

No hemos mencionado hasta el momento la intervencin de la duracin: tambin hay una relacin entre tiempo e intensidad, puesto que los sonidos inferiores a 0,3 sg requieren ms energa para ser percibidos (OShaughnessy, 1990). Nuestros umbrales varan a lo largo de la vida: en la vejez, es muy frecuente la prdida de capacidad auditiva (la presbiacusia), mientras que la bibliografa evolutiva indica que los nios tienen un umbral de audicin ms alto que los adultos (hasta 15-25 dB), tanto para tonos puros [...] como para el habla [...]. Algunas investigaciones han sugerido que los bebs de 6 a 8 meses tambin necesitan una relacin seal/ruido ms alta que los adultos para detectar el habla [...] y para hacer distinciones fonticas Jusczyk, 1997: 121.

2.3.2. Diferencias Mnimas Perceptibles Las diferencias mnimas perceptibles (DMP, traduccin de Just Noticeable Differences, JND) son unidades utilizadas desde Weber y Fechner para medir los umbrales de la audicin. Resultan importantes en estudios de percepcin (porque miden la capacidad de resolucin del odo y los lmites de la audicin) e ingeniera lingstica (porque definen con cunta precisin deben cuantificarse los parmetros del habla para la transmisin de datos).
Los procedimientos ms habituales para detectar las Diferencias Mnimas Perceptibles son dos: - el procedimiento AX (el ms frecuente), en el que al sujeto se le pregunta: el estmulo X y el estmulo A son iguales o diferentes? La respuesta diferentes se incrementa en el momento en que la diferencia entre A y X empieza a ser perceptivamente relevante. - el procedimiento ABX; la pregunta ahora es X es igual a A o igual a B? El nmero de identificaciones correctas aumenta a medida que A y X se distancian. En ambos casos, cuando se llega a un 75% de respuestas correctas se considera alcanzada la DMP, o umbral diferencial. Sin embargo, el segundo mtodo es ms difcil que el primero: se han de establecer dos comparaciones, y no slo una, lo cual ocupa ms la memoria auditiva62.

Veamos cules son las diferencias mnimas perceptibles, ya sea en intensidad, ya sea en frecuencia, ya sea en duracin; en definitiva, la resolucin del sistema auditivo: En frecuencias, somos capaces de percibir diferencias mnimas que van de 0,5 a 2 Hz, aunque se considera que por debajo de 1000 Hz, las DMP son de 1-3 Hz. El sistema auditivo acta como un conjunto de filtros superpuestos; estos filtros son ms estrechos en frecuencias graves y ms anchos en frecuencias agudas: son las llamadas bandas crticas (cfr. pg. 10 y siguiente). Hasta 500 Hz, el ancho de cada banda es de unos 100 Hz; esto nos permite manejar armnicos individuales, aunque a costa del tiempo: la respuesta es ms lenta (como ocurre en los sonogramas de banda estrecha). A 4000 Hz, el ancho asciende a 700 Hz, y se incrementa logartmicamente cada KHz; entonces, los armnicos se superponen y se suma toda la energa en el interior de la banda (de una forma similar a la transformada propia de los sonogramas de banda ancha). En total, tenemos 24 filtros de bandas crticas. Existe una medida perceptiva, que se llama escala de bark (1 bark = 1 banda crtica) o proporcin de banda crtica que relaciona las frecuencias acsticas y las frecuencias perceptivas.

62

Y esto, como veremos en el tema 3, favorece la aparicin de la percepcin categorial.

30

TEMA 2. LA AUDICIN _____________________________________________________

Los oyentes podemos variar el uso de las bandas, para adecuarlo a la tarea que nos propongamos (Espinoza-Varas, 1987, citado por Handel, 1993): si se trata de decidir sobre el timbre de un sonido, que afecta a un amplio rango de frecuencias, utilizaremos numerosas bandas crticas; si tenemos que decidir sobre un rasgo determinado, activaramos menos bandas; e incluso, en juicios sobre propiedades auditivas especficas, se supone que podemos reducir nuestra atencin a una sola banda crtica. El oyente vara el grado de integracin, efectuando un zoom que puede llegar a los mnimos detalles. En cuanto a intensidad, en el campo de audicin, de 0 a 110 dB, una persona que oiga normalmente puede detectar ms de 100 escalones. Desde que empezamos a or un sonido, hasta que su intensidad nos hace dao, habremos incrementado su amplitud en un factor de 10 millones. La sona o intensidad subjetiva parece depender de la actividad total del nervio auditivo. Puede obtenerse de forma bastante aproximada por medio de las bandas crticas: sumamos las contribuciones de las 24 bandas y los elevamos a 0.23 63. Se trata de una medida relativa, que se expresa en relacin a otra, bien sea el umbral de audicin, bien sea a partir de la frecuencia 1000 Hz: cunta intensidad necesita un tono de 1000 Hz para orse a la misma intensidad que el estmulo. Como se habr deducido de lo anterior (y ponen en evidencia las curvas de isofona que vimos ms arriba), la relacin entre dB (medida de la intensidad fsica) y sona (medida de la intensidad subjetiva) no es lineal: en intensidades fuertes, grandes incrementos fsicos slo producen moderados incrementos psquicos. Respecto a las duraciones, la resolucin temporal del odo se ha demostrado especialmente buena para estmulos de entre 10 y 100 msg, y de banda ancha, como son los caractersticos del habla. 20 msg es el tiempo caracterstico de integracin en el procesamiento auditivo; segn varios datos, el sistema auditivo posee una mayor sensibilidad natural para el rango que va de 40 a 60 msg64. Sin embargo, somos capaces de percibir en el habla diferencias ms breves, entre 10 y 40 msg, en funcin de: la duracin total del segmento (siguiendo la ley de Weber que exponamos en la nota anterior, hay una relacin directa entre ambas medidas); la posicin de la slaba dentro de la palabra (somos capaces de distinciones ms finas en slabas iniciales que en finales) la posicin de la palabra dentro de la frase (OShaughnessy, 1990). Tambin influyen otros factores, como la presencia de las transiciones, que acortan los tiempos de deteccin para las vocales. O la tarea a la que nos enfrentemos: identificar el orden en que se presentan los estmulos requiere tiempos superiores a los 200 msg.

Si combinamos los tres datos anteriores, la cifra de sonidos potencialmente discriminables por el odo humano es astronmica65. Sin embargo, ninguna lengua natural presenta ms de 90 fonemas. Una de las razones es la diferencia entre discriminar e identificar66: podemos detectar pequesimas diferencias entre estmulos, pero nuestra capacidad para almacenarlas en la memoria y etiquetarlas como unidades es mucho ms limitada.

63

0.23 es un factor de compresin que aparece tambin en otros fenmenos de percepcin sonora (OShaughnessy, 1990). 64 Esa sera la razn por la que distintas lenguas tenderan a contrastar categoras fonolgicas apoyndose en la informacin acstica contenida en cambios frecuenciales con duraciones en torno a los 50 ms Lpez Bascuas, 1997: 12. 65 Denes y Pinson estimaron, en 1963, que podemos diferenciar entre 300.000 y 400.000 tonos, teniendo en cuenta slo intensidad y frecuencia. 66 Otras causas tienen relacin con restricciones articulatorias (cfr. 1.4.).

31

TEMA 2. LA AUDICIN _____________________________________________________

Un ltimo concepto psicoacstico importante para comprender la audicin de los sonidos del lenguaje es el de enmascaramiento, que presentbamos en 2.2.2.: cuando la presencia de un estmulo interfiere con la percepcin de otro, decimos que el primero est enmascarando al segundo. Hay varios tipos: a) Segn el orden de presentacin de los estmulos, se habla de enmascaramiento simultneo (los dos a la vez, la energa de la mscara se superpone a la del modelo); progresivo o regresivo (la mscara interfiere con el procesamiento del modelo: intercepta la memoria, crea un referente incorrecto, le aade informacin...)67. b) Segn el tipo de estmulo utilizado: la mscara y el modelo pueden ser la misma clase de sonido (tono sobre tono68) o diferentes (por ejemplo, ruido / tono). c) Tambin puede variar la tarea a la que nos enfrentemos: slo sealar cundo se ha presentado el estmulo69, o llegar a identificarlo (cfr. nota 59). Muchos componentes de los sonidos lingsticos pueden actuar como mscara: la explosin de las oclusivas, las transiciones, incluso los formantes estables (cfr. ms detalles en Pickles, 1988: 103106).

El enmascaramiento progresivo produce curvas de sintonizacin psicofsicas muy similares a las fisiolgicas (en cambio, el simultneo genera curvas demasiado anchas, especialmente en frecuencias altas). Por eso se considera que las tcnicas de enmascaramiento no simultneo pueden proporcionar una medida razonable de la representacin neuronal del estmulo auditivo Pickles, 1988: 268. 68 Cuando la mscara y el modelo entran en la misma banda crtica (porque sus frecuencias son muy similares) el que posee ms energa domina la percepcin. 69 En estos casos, se habla de umbral de enmascaramiento, en referencia a la cantidad de energa que necesita el modelo para distinguirse de la mscara. En cambio, la cantidad de energa que necesita la mscara para interferir con el modelo nos sirve para obtener las curvas de sintonizacin psicofsica, que se consideran un reflejo de las curvas de sintonizacin neuronales, y por lo tanto, indican la selectividad de frecuencias del sistema auditivo.

67

32

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

TEMA 3.

PERCEPCIN Y COMPRENSIN

3.1.

INTRODUCCIN

La descodificacin del mensaje verbal requiere muchas etapas de anlisis. Hasta ahora hemos presentado la auditiva: el sonido se ha convertido en un patrn de excitacin neuronal, y se encuentra en el cerebro. Pero an estamos lejos de haberlo convertido en unidades lingsticas (fnicas, gramaticales o significativas), y de haberle asignado significado (lingstico y pragmtico). El anlisis auditivo ha de complementarse con el fontico, el fonolgico, el lxico, sintctico, semntico y pragmtico. Aunque para su exposicin resulte ms cmodo considerarlo un proceso serial, en el que las etapas se suceden progresivamente, proporcionando una representacin de la seal cada vez ms refinada, la realidad parece orientarnos ms hacia un procesamiento con momentos de anlisis en paralelo, con retrocesos a niveles anteriores, si resulta necesario recuperar informacin, mantenimiento en suspenso de otras etapas, a la espera de deshacer ambigedades... En definitiva, con la posibilidad de utilizar no slo la informacin que proviene de la seal, en su camino ascendente del odo al cerebro (procesos de abajo a arriba), sino tambin todos los modelos que se encontraban previamente almacenados en nuestra mente, y que nos permiten convertir la descodificacin en un mecanismo ms rpido y eficaz: los procesos de arriba abajo, en los que interviene el significado, la estructura fnica de la lengua, etc. simplificando la tarea de la descodificacin. Hay un fenmeno que ha marcado el desarrollo de hiptesis para explicar la descodificacin del lenguaje: la percepcin categorial, opuesta a la percepcin continua. 3.1.1 Percepcin continua y percepcin categorial Como veamos en el tema anterior, al hablar de las diferencias mnimas perceptibles, los seres humanos somos capaces de percibir una cantidad impresionante de diferencias entre estmulos; pero nos vemos mucho ms limitados a la hora de etiquetarlos. Sin embargo, en ocasiones muy determinadas, nuestra capacidad para discriminar se acerca mucho a nuestra capacidad para identificar: es lo que ocurre en un modo muy concreto de percepcin, que se ha calificado como categorial, pero tambin como fontica o psicolingstica, por oposicin al modo ms comn de percepcin, que sera el continuo, auditivo o sensorial. En general, categorizar significa colocar y ordenar objetos y eventos diferentes en un conjunto limitado de tipos o categoras; los elementos incluidos en cada una de ella se caracterizan por compartir una propiedad (que puede ser un rasgo fsico evidente, o puede ser una distincin muy sutil, o el resultado de una convencin), aunque difieran entre s en propiedades que, a efectos de esta clasificacin, resultan irrelevantes. Cuando se aplica al campo de la percepcin, el adjetivo categorial alude al fenmeno por el cual grandes cambios fsicos en un rango determinado (de tiempos, de frecuencias) no producen diferencias perceptivas (todos los estmulos se incluyen en la misma categora, y esas diferencias

33

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

son inexistentes para el oyente), mientras que unas diferencias muy pequeas en otro rango provocan un cambio drstico en la percepcin: se identifica el estmulo como una unidad nueva70. Vemoslo con algunos ejemplos. En las notas musicales, los tonos puros o algunos elementos del lenguaje como la entonacin o las vocales, a medida que cambia el estmulo vamos variando nuestra percepcin sobre l: en el paso de [a] a [i] podemos detectar elementos intermedios, con un timbre que comparte caractersticas de ambas vocales. Sin embargo, hay otro tipo de estmulos (consonantes, fundamentalmente) cuyas diferencias, aunque fsicamente sean graduales, se perciben de forma abrupta, slo tras alcanzar un punto crtico. Podemos manipular -mediante sntesis de voz- las transiciones que dan lugar a la percepcin de [b] o [d], varindolas paulatinamente. Esas modificaciones progresivas no producen ningn efecto en el oyente mientras no se alcanza un punto crtico; a partir de l dejaremos bruscamente de identificar el estmulo como [b] y comenzaremos a identificarlo como [d], sin pasos intermedios entre ambos estadios (es el efecto de frontera fonolgica): slo percibimos dos unidades (las mismas que podemos etiquetar, identificar), pero no toda la secuencia de matices intermedios, que desaparecen, por irrelevantes, de nuestra conciencia. Las diferencias fsicas entre los distintos subtipos de [b] o [d] pueden ser mayores que las que nos llevan a saltar de una categora a otra, pero sin embargo, no producen efecto hasta que no alcanzan ese determinado punto al que somos ms sensibles71: la discriminacin se basa en etiquetas de los sonidos, en categoras funcionales, no en propiedades acsticas de los sonidos, que resultan difciles de recuperar conscientemente. Estos dos modos de percepcin a menudo se han relacionado con la doble direccin de procesamiento en el lenguaje: en el de-abajo-a-arriba, basado en las caractersticas fsicas de la seal, la percepcin sera continua; en el de-arriba-abajo la seal se interpreta en funcin de categoras pre-existentes, y la percepcin se convierte en categorial. Es la percepcin categorial una forma empobrecida de descodificar? Aunque a primera vista pudiera parecerlo -es una forma simplificada de percibir, en el sentido de que desecha caractersticas de la seal que se consideran sutiles-, sin embargo, se trata ms bien de una forma de aumentar la eficiencia y velocidad del procesamiento del habla, conservando slo los contrastes que nos ayudan a identificar unidades, y minimizando incontables diferencias no pertinentes. Es un mecanismo de optimizacin: nos permite distinciones muy rpidas, que son las ms tiles en el discurso continuado. Sin ella, la conversacin normal no existira (Handel, 1993: 285). La percepcin categorial se consider, durante los aos 60 y 70, caracterstica de los sonidos lingsticos, frente al modo de percepcin ms general, que sera el continuo. Como explicacin unos recurran, como veremos al hablar de la teora motora (2.1.1.), a la gnesis de esos elementos (consonantes, como hemos dicho, que se articulan de modo discontinuo). Otros (Pisoni) consideraban que los rasgos acsticos que diferenciaban esos estmulos, pertenecientes a una misma categora, se perdan en el momento en el que la informacin se converta en representacin
sta es una forma algo imprecisa pero comprensible de definir la percepcin categorial . Formulado de un modo ms preciso, la percepcin categrica [categorial] exige que: a) las funciones de identificacin tengan una pendiente pronunciada (el punto de mxima pendiente corresponde a las fronteras entre categoras), b) las funciones de discriminacin han de tener un mximo global en el punto correspondiente a la frontera entre categoras, c) la discriminacin correspondiente a estmulos pertenecientes a una misma categora debe estar en torno al nivel de azar y d) las funciones de discriminacin deben poder predecirse a partir de las probabilidades de identificacin (cfr. Repp, 1984) Lpez Bascuas, 1994a: 38. 71 Se han hecho muchos experimentos sobre percepcin categorial utilizando como medida el Voice Onset Time (VOT), o Tiempo de Inicio de Sonoridad: el intervalo que transcurre, en la emisin de las oclusivas, desde que se libera el aire fonador, provisionalmente interrumpido, hasta que comienzan a vibrar las cuerdas vocales. Los tiempos largos se perciben como consonantes sonoras, y los cortos, como consonantes sordas. Pero, en la frontera entre unos y otros, bastan 10 milisegundos para modificar el percepto. En espaol, pueden consultarse los trabajos de A. Lpez Bascuas (1998a y 1998b).
70

34

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

fontica (lo cual se vea reforzado por experimentos en los que un mismo estmulo se perciba de forma continua cuando no se consideraba lingstico, y de forma categorial cuando el sujeto era informado de que se trataba de habla sinttica72). Al mismo tiempo, los experimentos con bebs de Eimas y sus colaboradores mostraban que desde los primeros meses de vida, los nios perciban esas sutiles diferencias. Todo ello llevaba a la conclusin de que se trataba de una dotacin innata en el hombre, que le predispona hacia el lenguaje desde antes de nacer, por medio de un detector de rasgos distintivos presente en el sistema auditivo. Sin embargo, desde entonces han ido apareciendo datos contrarios a estas hiptesis: Ha habido muestras de percepcin categorial en animales, como chinchillas, codornices o monos; aunque es cierto que han necesitado un periodo de entrenamiento, y presentan capacidades ms limitadas que las de los bebs (Jusczyk, 1997: 57). Tambin se han encontrado casos de percepcin categorial en sonidos musicales, en tonos puros o en vocales (Handel, 1993: 275). Un experimento con sujetos espaoles puede leerse en Lpez Bascuas et al. (1998b). El tipo de tarea al que nos enfrentemos tambin influye: el mtodo ABX (cfr. 2.3.2.), que ha sido el ms empleado, requiere un almacenamiento mayor en la memoria a corto plazo, que tiene unas limitaciones de espacio importantes, y quiz sea esto, y no el tipo de estmulo, lo que imponga la necesidad de simplificar la representacin (OShaughnessy, 1990). Por ltimo, cada rasgo distintivo puede depender de mltiples claves acsticas73, y variar segn los contextos. Todo ello introducira una variedad de detectores muy costosa e improbable. A la vista de lo anterior, se ha puesto de relieve, como alternativa, el papel de las discontinuidades auditivas para explicar la percepcin categorial: las propiedades temporales del sistema neuronal auditivo generan una cierta sensibilidad natural hacia determinados cambios en puntos temporales o frecuenciales; seran precisamente esas fronteras perceptivas innatas las que utilizaran los recin nacidos para categorizar contrastes lingsticos, sin equivalencia con categoras fonolgicas de ningn sistema lingstico concreto: los contrastes que en alguna lengua coincidan con esos lmites sern bien percibidas por los bebs, mientras que los ms alejados requerirn un reajuste de fronteras que se hara durante la adquisicin del lenguaje: los nios poseen cierta capacidad innata para discriminar muchas clases diferentes de contrastes verbales. En realidad, esta clase de descubrimientos nos lleva a considerar que los nios nacen con la capacidad de discriminar contrastes que puedan aparecer potencialmente en cualquiera de las lenguas del mundo [...]. Sin embargo, los resultados tambin indican que la experiencia contribuye a la fijacin de fronteras perceptivas para los hablantes fluidos de una lengua (Jusczyk, 1997: 56). Como vemos en la cita anterior, la explicacin puramente biologicista tambin encuentra bastantes argumentos contrarios: si las discontinuidades auditivas son iguales para todos los seres humanos, cmo se explica que los hablantes de ciertas lenguas puedan percibir continuadamente sonidos que para otros slo se identifican de modo categorial? Un caso especialmente significativo en este sentido es el de los sujetos multilinges: parece probado que son capaces de variar las fronteras perceptivas segn el cdigo que estn empleando (lo cual sera imposible si esos lmites fueran impuestos por el sistema nervioso).
72

Tambin los experimentos de percepcin doble se consideraron pruebas favorables a la existencia de un modo de procesamiento especfico para el habla: Liberman et al (1981) presentaron a una serie de sujetos unas slabas en las que la transicin del tercer formante se emita por un odo, y el resto de los componentes por el otro. Los sujetos oyeron dos perceptos: la slaba (percibida como habla) y un tono (percibido como no habla). La misma informacin acstica sera tratada por dos mdulos distintos: el lingstico, que manifiesta rasgos como la percepcin categorial; y el general (o de no-habla), insensible a esos efectos. Puede verse una revisin en Lpez Bascuas, 1994b. 73 Por ejemplo, la diferencia entre sonidos sordos y sonoros puede estar en la presencia/ausencia de vibracin glotal, pero tambin en la velocidad de las transiciones, o en el tiempo de inicio de sonoridad, como vimos en la nota 71.

35

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

En definitiva, parece que ms que hablar de sonidos categoriales / sonidos continuos, podemos considerar que las fronteras entre unos y otros no son rgidas, sino un continuo en el que sera adecuado considerar que algunos, como las vocales, son dbilmente categoriales, y otros, como las oclusivas, son fuertemente categoriales74. As pues, la percepcin categorial puede ser entendida como el resultado de un complejo conjunto de procesos perceptivos, en parte innatos, unidos a una disposicin adquirida durante el desarrollo del lenguaje (en la cual la atencin tambin jugara un papel importante: Handel,1993; Jusczyk, 1997); una respuesta adaptativa a un mundo perceptivo cambiante e impredecible, en el que muchas veces no es necesario afinar en ciertas percepciones, si no tienen correlatos significativos. Quiz la relacin entre sonidos lingsticos y percepcin categorial pueda entenderse en el sentido inverso: no es que sta haya sido desarrollada en funcin de aqullos, sino que los sonidos favorecidos a lo largo de la historia del lenguaje hayan sido los que mejor aprovechaban las caractersticas del sistema nervioso auditivo, lo cual les dotaba de mayor perceptibilidad75. 3.2. MODELOS DE PERCEPCIN DEL HABLA

Tenemos que retomar aqu el concepto de variabilidad -que presentbamos en el tema 1porque es el eje sobre el que giran las diferencias entre las principales teoras sobre la percepcin del habla: los autores que conceden poca importancia a las diversas fuentes de variacin sobre la seal, proponen modelos directos, en los que el estmulo sonoro proporciona toda la informacin necesaria para su identificacin; se centran en la bsqueda de invariantes acsticos: son los llamados modelos pasivos. En cambio, para los investigadores que consideran muy condicionante la variabilidad, resulta imprescindible la existencia de mecanismos intermedios que compensen esas distorsiones: es el caso de los modelos activos de la percepcin del lenguaje. En ocasiones, esos mecanismos se consideran articulatorios (es el caso de la teora motora); en otras, se atribuyen a las caractersticas del sistema auditivo. En relacin con lo anterior, si la seal acstica contiene suficiente informacin para identificar una unidad, sea lingstica, sea musical, es innecesario postular la existencia de un descodificador especial para el lenguaje. Pero si partimos de que el oyente tiene que actuar sobre esa seal, para homogeneizarla y poderla comparar con los modelos almacenados, el paso siguiente es definir el mecanismo capaz de hacerlo, y dotarlo de especificidad para una funcin: el anlisis del lenguaje. As pues, los modelos activos se suelen caracterizar por considerar que el ser humano dispone de mecanismos especializados para analizar los sonidos del habla, mientras que los modelos pasivos sostienen que utiliza con ese fin capacidades generales para el procesamiento de estmulos sonoros complejos. 3.2.1. Modelos activos 3.2.1.1. La teora motora En esta propuesta, formulada inicialmente por Liberman76, y reformulada por Liberman y Mattingly (1985) mantiene que todo hablante/oyente de una lengua dispone de unos patrones articulatorios que utiliza tanto para la produccin de los sonidos como para su percepcin. Hay un
74

Esta visin de fronteras difusas o borrosas entre categoras conecta con modelos lingsticos recientes, como las propuestas de la lingstica cognitiva, y algunas de sus aplicaciones en fonologa (Martnez Celdrn, 2001). 75 Puede consultarse Lpez Bascuas, 1994a, para una explicacin contraria; considera la percepcin categorial como muestra de la presencia de un mdulo encargado de tratar las seales de habla, con conocimiento general innato, capaz de seleccionar los parmetros relevantes para un idioma concreto en el transcurso de un tiempo muy limitado. En todo caso, su recorrido por los diversos experimentos y contraexperimentos al respecto es muy interesante. 76 Es un clsico el artculo de 1967 Perception of Speech Code, publicado con otros tres firmantes en la revista Psychological Review. Uno de esos cofirmantes era Cooper, investigador como Liberman de los Laboratorios Haskins. A ellos se sum Delattre para elaborar los trabajos que dieron lugar a la teora del locus (cfr. Quilis, 1999: 207-211)

36

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

acoplamiento (mapping, cartografiado) entre fonemas y gestos articulatorios: para identificar perceptivamente un estmulo tendramos que identificarlo antes articulatoriamente. Los gestos articulatorios se convierten as en las unidades mnimas de procesamiento, y se consideran abstracciones obtenidas a partir de los rasgos invariables77 que se necesitan para la articulacin de un sonido. Si esos gestos articulatorios se pierden durante la comunicacin (por coarticulacin, solapamiento, etc), los oyentes los reponemos, a un nivel cognitivo ms elevado, gracias a la intervencin de un mdulo innato y especializado: el descodificador fontico, cuya entrada es la seal hablada, y cuya salida es el conjunto de gestos articulatorios que idealmente lo originaron: Tanto la produccin del habla como la percepcin del habla son inherentemente motoras. [...] Los gestos motores [...] son, en s mismos, las unidades fonticas esenciales Liberman, 1996: 260. La percepcin categorial se considera tambin una prueba de la existencia de ese mdulo, y de las relaciones entre percepcin y produccin: como la articulacin de las consonantes es discontinua (no se pasa gradualmente de [b] a [d]; la intervencin de articuladores diferentes en un caso los labios y en otro la lengua- permite el paso rpido de uno a otro) su percepcin tambin es discontinua. La teora motora es la que mejor explica fenmenos como el intercambio de sonidos o la coarticulacin (la superposicin de rasgos correspondientes a sonidos sucesivos). Sin embargo, desde muy pronto fue criticada en uno de sus presupuestos bsicos: los anlisis electromiogrficos de los rganos fonadores (indicadores de su actividad muscular) indicaban que las contracciones articulatorias tambin variaban en funcin del contexto en el que apareciera un sonido: la invarianza de las rdenes motoras quedaba en entredicho78.

3.2.1.2. La teora del anlisis por sntesis En la propuesta de Halle y Stevens, el oyente produce inconscientemente una versin sinttica79 de la seal, basado en un anlisis basto, poco detallado, de la misma. Si ese modelo simplificado coincide con alguno previamente almacenado, se da por finalizado el proceso de identificacin. Si no es as, se realiza un anlisis ms fino, ms pormenorizado: los detalles de la seal slo se tienen en cuenta si resulta imprescindible. La teora del anlisis por sntesis se ha esforzado en explicar las diferencias inter e intraindividuales. Sin embargo, como hemos visto, la descomposicin que el sistema auditivo realiza sobre la seal dista mucho de ser simple e imprecisa: este modelo no da cuenta de muchos de los fenmenos documentados sobre procesamiento auditivo. 3.2.1.3. Las teoras auditivas Uno de los primeros investigadores que atribuy al sistema auditivo (concretamente al funcionamiento coclear) la capacidad para obtener correlatos auditivos invariantes de los rasgos distintivos acsticos fue Gunnar Fant. Modelos ms recientes, como el de Rosner y Pickering80,
77

Puesto que la seal fsica est sujeta a tantas fuentes de variacin, los autores buscaron en la articulacin el origen de la invarianza: los gestos articulatorios necesarios para emitir una [p] son independientes de que vaya seguida de [a] o de [u]. Sin embargo, como veremos ms adelante, no es cierto que la articulacin est exenta de variabilidad; pinsese, por ejemplo, en los alfonos de /N/. 78 Existe otra propuesta que otorga un papel primordial a los gestos articulatorios en la percepcin del habla (y que por ello ha recibido tambin estas mismas crticas): es la llamada teora realista directa, formulada por Fowler en 1986, siguiendo el modelo ecolgico de Gibson. No vamos a entrar en ella, porque sus propuestas parecen haber sido superadas en aos posteriores, y no haber alcanzado la misma repercusin que los dems modelos incluidos. Puede verse una sntesis en Lpez Bascuas, 1995**. 79 En el sentido de la ingeniera lingstica: la versin que hara un sintetizador de voz. 80 O el de Kingston y Diehl (1995), basado en la hiptesis de que las propiedades acsticas se codifican como propiedades perceptivas intermedias, integrando rasgos acsticos generados por diferentes articuladores.

37

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

retoman esta propuesta, y la desarrollan con ms detalle: el anlisis de la seal conllevara cinco fases (Lpez Bascuas, 1997: 15): a) anlisis frecuencial; b) procesamiento por medio de los filtros auditivos para la obtencin de un patrn auditivo de excitacin; c) incorporacin de los efectos de supresin d) transformacin de la intensidad en sona Al final de esta cuarta etapa, se obtendra un patrn auditivo de densidad sonora. El quinto paso, especfico para seales de habla, modificara el funcionamiento de los filtros auditivos para facilitar la localizacin de los formantes, generando un patrn fontico de densidad sonora. Lo ms interesante de este modelo (que no es tan conocido como los anteriores) es que integra dos elementos que se suelen considerar contrapuestos: el procesamiento auditivo y el procesamiento especfico para el habla. 3.2.2. Modelos pasivos: Lexical Access from Spectra (LAFS) Klatt, el autor de esta propuesta, mantiene que el oyente no segmenta la seal en fonemas para descodificarla, sino que genera directamente, desde el espectro sonoro, un candidato a palabra, realiza hiptesis lxicas partiendo de la informacin espectral (de ah la denominacin de la teora). Las unidades ms pequeas de las que disponemos en nuestro almacn mental son los difonemas, constituidos por secuencias vocal-consonante(s) o consonante(s)-vocal (con la transicin en su interior)81. Durante sus primeros aos de vida, el nio aprende todas las combinaciones difonmicas de su lengua, y las almacena en su mente como una inmensa red de unos 4000 estados y 6000 combinaciones posibles (incluyendo fenmenos inestables como la coarticulacin, la adicin o supresin de segmentos, etc.). Cuando el oyente descodifica la seal de habla, busca el camino que mejor corresponde al espectro recibido, ponderando ciertos factores significativos, como la variacin de la frecuencia fundamental segn el hablante, las diferencias entre los estados estables y los variables (transiciones), etc. El sistema, aun sin modificar su estructura, se adapta a cada hablante, a cada entorno, a cada acto comunicativo, por lo que no es necesario buscar rasgos invariables en la seal. Se ha criticado a esta propuesta por su alto coste de procesamiento, y la dificultad para probarlo experimentalmente. Sin embargo, los hallazgos recientes de modelos conexionistas para explicar la adquisicin del lenguaje (cfr. Aguirre y Mariscal, 2001) podran proporcionar algunos apoyos a este tipo de hiptesis82. 3.2.3. El modelo WRAPSA (Word Recognition and Phonetics Structure Acquisition), o cmo los nios aprenden a entender. Es la ms reciente de todas las explicaciones sobre la percepcin (fue presentada por primera vez en 1989, aunque su formulacin actual es de 1997), y se encuentra muy ligada a los estudios sobre las sorprendentes capacidades tempranas para percibir el lenguaje desde el nacimiento. Su autor es Peter W. Jusczyk. Su sistema se compone de cuatro etapas:
81

La secuencia /knsa/, por ejemplo, estara constituida por los siguientes difonemas: /ka/ /an/ /sa/; /tras/ sera la suma de /tra/ y /as/. 82 No podemos extendernos aqu sobre las caractersticas de tales modelos; slo indicaremos que se trata de redes neuronales (cuyo mecanismo de funcionamiento tiene las mismas bases que la de la propuesta de Klatt: son circuitos de ordenador), sometidas a un proceso de aprendizaje similar al que recibe el nio durante su infancia. Con determinadas restricciones de memoria, y la inclusin de un mecanismo de ponderacin y correccin de errores, la mquina pasa por las mismas etapas que los nios y llega a dominar el rasgo que se probaba (eso s, siempre se han analizado fenmenos aislados). Ms adelante, en 3.3.1., volveremos sobre los modelos conexionistas. El llamado TRACE tambin se ha aplicado a la percepcin del habla.

38

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

1) Anlisis auditivo: proporciona una descripcin de los rasgos espectrales y temporales de la seal de entrada (sea o no sea habla, los analizadores son los mismos); los rasgos extrados reflejan la organizacin inherente del sistema auditivo humano y son independientes de la lengua: se trata de elementos innatos. Los analizadores estn sintonizados por frecuencias, y extraen informacin sobre la presencia de ruido en esa banda, y su clase, duracin e intensidad, as como sus cambios temporales; las unidades temporales son de tipo silbico (aunque puedan no coincidir exactamente con la slaba del modelo); sin embargo, esta informacin desaparece rpidamente si no se graba; y en la seleccin de lo que tiene que grabarse s puede influir la lengua materna del nio. 2) Calibrado (weighting): dirige la atencin del nio hacia los rasgos identificados por los analizadores que son necesarios para procesar los contrastes entre palabras en una lengua particular. Se trata, en cierta forma, de una distorsin del espacio perceptivo, estrechando o ensanchando las distancias entre sonidos para ajustarlas a las caractersticas fonolgicas de la lengua materna (propiedades, frecuencia y distribucin de las unidades). El desarrollo de este sistema de calibrado83 permite al nio empezar a almacenar patrones de sonidos, y tambin proporciona el marco para percibir categorialmente el habla fluida 3) El principal componente del modelo tiene que ver con el proceso de extraccin de patrones desde la seal, que tiene lugar en la salida del esquema de calibrado. Este proceso refina la descripcin de la seal e intenta la segmentacin en unidades del tamao de una palabra (lo cual depende de cada lengua). El resultado es una descripcin que agrupa los rasgos prominentes en unidades silbicas marcadas prosdicamente (pero sin descender a segmentos fonticos). 4) Comparacin y almacenamiento de la representacin. Las representaciones anteriores (consideradas una prueba para la construccin del lexicn) se comparan con otras, previas, de palabras conocidas; si se obtiene un parecido grande entre la prueba y un subconjunto de rasgos almacenados correspondientes a una palabra del lexicn, entonces la prueba se clasifica como esa unidad; si no, es necesario un reprocesamiento. Estos dos ltimos modelos abordan aspectos relacionados con el acceso al lexicn, y la asignacin de significado, que nos sirven de puente para introducir el prximo apartado, dedicado a las etapas posteriores a la segmentacin fnica.

3.3. COMPRENSIN Hemos dejado los patrones sonoros en la corteza auditiva. Pero estamos lejos de terminar la descodificacin del mensaje; de hecho, no hemos hecho ms que comenzar, no hemos traspasado el nivel perifrico del procesamiento; an quedan por delante los niveles intermedios (procesos lxicos, sintcticos y semnticos) y el nivel central (interpretacin pragmtica e integracin discursiva) (Belinchn, Rivire e Igoa, 1992: 314). El anlisis detallado de todos ellos constituye un extenso e interesante campo de investigacin psicolingstica, cuyo conocimiento recomendamos a los lectores interesados84. Sin embargo, nosotros apenas entraremos en l: este es un material didctico dirigido a alumnos de fontica y fonologa, y el anlisis de otros niveles lingsticos desborda completamente nuestros
83

Que se desencadena cuando el nio ha almacenado una cantidad suficiente de ejemplares individuales, tantos que ya le resulte ms rentable cognitivamente ordenarlos y extraer modelos, que seguir almacenndolos de uno en uno. 84 Una lectura especialmente recomendable para iniciarse en este campo de investigacin es El abec de la psicolingstica, publicado por Alberto Anula en la editorial Arco-Libros (1998): sus 94 pginas presentan con amenidad y rigor los principales logros de la psicolingstica actual. Con la ventaja adicional para nosotros- de estar escrito por un lingista.

39

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

objetivos. A pesar de lo dicho, nos parece importante perfilar, siquiera en sus trazos ms gruesos, el camino que parecen seguir esos patrones sonoros, como colofn de los apartados anteriores, y para darle a este tema el final feliz que le suele corresponder cuando descodificamos los mensajes lingsticos. Dividiremos ese recorrido en tres etapas, relacionadas con tres unidades: la palabra, la oracin y el discurso. 3.3.1. Reconocimiento y comprensin de palabras Para asignar significado a los primeros patrones sonoros, podemos utilizar tres fuentes de informacin: la que proviene del estmulo (el propio patrn sonoro), la que proviene del contexto (para lo cual entra en juego la memoria inmediata), y la que tenemos almacenada previamente en nuestro cerebro (en este caso, la informacin lxica). En cuanto pensamos en ese almacn lxico, tendemos a imaginar una especie de diccionario mental, en el que a cada entrada tendran que corresponderle un conjunto de rasgos: fonolgicos (y ortogrficos, si consideramos la lectura), morfolgicos, de significado, etc. Veamos algunos de los interrogantes planteados para cada uno de ellos (Belinchn, Rivire e Igoa, 1992; Berko y Bernstein, 1999; Martn y Sigun, 1991): a) Informacin fonolgica: Es realmente necesaria? En algunos modelos de procesamiento, como el LAFS, que ya hemos visto, o los de acceso directo al lxico, que presentaremos ms adelante, se considera una etapa innecesaria. Sin embargo, la mayor parte de las propuestas la consideran como primera fase del procesamiento lingstico. Ahora bien, cules seran las unidades pertinentes en este nivel? El fonema? La slaba inicial? La slaba acentuada? La respuesta parece depender de las caractersticas de cada lengua: en casos como el del espaol, la slaba, combinada con el acento, parece el mejor candidato (cfr. 4.4. LA SLABA COMO UNIDAD PERCEPTIVA); en lenguas como el ingls, de acento fijo, la unidad ms rentable puede estar relacionada con la distribucin acentual. Sin embargo, tambin existen propuestas en las que el paso por esta etapa no requiere unidades lingsticas, sino simples medidas temporales (150 msg en el modelo de la cohorte, que se ver enseguida). b) Informacin morfolgica: almacenamos formas o lemas, tenemos una entrada para ni-, a la que luego se unen los sufijos (hiptesis del listado parcial), o almacenamos nio, nia, nios, nias (hiptesis del listado exhaustivo)? Los resultados de experimentos sobre tiempos de procesamiento para estmulos monomorfmicos / plurimorfmicos, en palabras y pseudopalabras indican que posiblemente optamos por soluciones mixtas, en funcin de las caractersticas de cada elemento: las palabras con morfologa compleja se almacenaran como races, a las que luego se aadiran los afijos; stos, y las formas ms simples y frecuentes (como las palabras funcin: preposiciones, artculos, pronombres, etc.) se almacenaran completos, sin descomponer; la morfologa flexiva (singular/plural; variaciones de nmero, tiempo y persona) se realizara aadiendo morfemas a las races, pero los resultados de la morfologa derivativa se almacenaran como unidades independientes. En definitiva, una solucin de compromiso entre la economa del procesamiento y la economa del almacenamiento, cuyas frmulas concretas estarn en funcin de las caractersticas morfolgicas de cada lengua. c) Informacin semntica: qu es el significado lxico? Para unos, la suma de una serie de rasgos mnimos (semntica componencial o estructural); para otros, la construccin de prototipos a los cuales las unidades se asemejan ms o menos (semntica cognitiva). Y cmo se representa la informacin semntica? Posiblemente como una red de elementos interconectados (Collins).

40

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

3.3.1.1. Los modelos de acceso al lxico La gran cuestin que enfrenta a las diferentes propuestas que abordan el reconocimiento de palabras es si el estmulo fnico se va comparando con las entradas lxicas de forma secuencial, ordenada, una por una, o si, por el contrario, ante la llegada del patrn sonoro se activaran al mismo tiempo varios candidatos, que se iran desechando a medida que avanza la descodificacin, hasta reducirse a uno. La primera propuesta (el modelo de bsqueda autnoma) se califica como serial, mientras que las segundas (que son tres) se consideran de acceso directo, paralelo o interactivo. Propuestas seriales: en el modelo de bsqueda serial o autnoma (creado por Forster, en 1976), hay tres vas para acceder al lxico: la fonolgica (a partir de un estmulo sonoro), la ortogrfica (si se trata de lectura85), y la semntica (a partir de su significado), utilizada para la produccin de palabras. En el primer caso, cuando llega el estmulo, se busca en un archivo perifrico (fonolgico, en nuestro caso), cuyas entradas estn ordenadas segn su frecuencia de aparicin en la lengua. En una fase posterior, una vez recuperada la forma de la palabra, se enlaza con un archivo principal, que ya contiene toda la informacin semntica y sintctica correspondiente. Este modelo explica, naturalmente, el efecto de la frecuencia y longitud de las palabras en su identificacin, tambin los retrasos en la deteccin de las pseudopalabras (porque requeriran activar todas las entradas del archivo), pero no es fcilmente aplicable al discurso continuado. Propuestas paralelas: la primera fue el modelo del logogn (Morton, finales de los 60): cada entrada lxica corresponde a un detector metafrico, el logogn: los logogenes son mecanismos contadores que se incrementan cada vez que se produce una entrada sensorial que coincide con alguna parte de la informacin que en ellos se encuentra representada (y que puede ser de tipo ortogrfico, fonolgico o semntico (Sopena y Sebastin, 1991: 499). Cuando llega una entrada, se ponen en marcha todos los logogenes compatibles con ella, y el que antes alcance su umbral de activacin (porque ha recogido suficientes evidencias sobre la equivalencia entre el estmulo y la palabra) enva la seal correspondiente al resto del sistema cognitivo86. Herederos de Morton son los modelos conexionistas actuales, entre los que destaca el de activacin interactiva de Rumelhart y McClelland (tambin llamado TRACE): los procesos cognitivos se simulan por medio de redes neuronales, con nodos de entrada, nodos de salida, y nodos ocultos, donde tiene lugar el procesamiento. Un nodo de entrada activa mltiples nodos ocultos, que atienden a distintas caractersticas del estmulo (hay un nivel de rasgos, otro fonolgico y otro lxico), en un juego de excitacin e inhibicin copiado del funcionamiento neuronal: cuanto mayor es la frecuencia de un estmulo, ms reforzadas resultan las conexiones que permiten identificarlo. El modelo de cohorte (Marslen-Wilson, aos 80) se ha calificado como mixto, porque propone dos etapas, una en paralelo y otra en serie. En nuestro caso resulta especialmente interesante, porque fue creado especficamente para el reconocimiento auditivo de las palabras. Los primeros segmentos del patrn sonoro activan, a su llegada a la zona de procesamiento lxico, un conjunto de palabras candidatas, en funcin de su coincidencia fnica; la informacin contextual o los segmentos posteriores de la palabra van reduciendo esa lista, de forma serial, hasta que llega un punto de unicidad, en el que se produce la identificacin de unvoca. Alcanzar ese punto requiere ms o menos tiempo segn las circunstancias: en palabras aisladas, por ejemplo, habr que esperar ms que en discurso continuado, porque no contamos con la
85

El acceso al lxico en la lectura es un tema que ha despertado bastante inters en las ltimas dcadas; se ha investigado mucho tambin en Espaa- sobre la posibilidad de que en este caso el cdigo de acceso sea ortogrfico, sin necesidad de conversin fonolgica. La respuesta parece estar condicionada por la mayor o menor transparencia ortogrfica de las lenguas (que facilitaran el recurso al nivel fonolgico), y el nivel de lectura del sujeto (los buenos lectores dependeran ms del acceso fonolgico) Sopena y Sebastin, 1991 y Garca Albea, 1991. 86 As se explican los efectos de la facilitacin contextual: ante una palabra ambigua, decidimos ms rpidamente su significado si en el contexto hay datos que nos inclinan hacia uno de ellos.

41

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

ayuda del contexto; las palabras poco redundantes requeriran tambin ms tiempo que las muy redundantes. En resumen, el patrn sonoro ha conseguido convertirse en una unidad lxica. A continuacin veremos cmo esa cadena de piezas lxicas se transforma en una estructura conceptual de relaciones entre elementos. 3.3.2. La comprensin de oraciones Descifrar una oracin, obviamente, no equivale a sumar sus componentes, sino que requiere descubrir el modo en que stos se relacionan, su estructura interna. Para ello, algunos modelos psicolingsticos87 consideran innecesario este estadio sintctico: el significado de las piezas lxicas, unidas a estrategias generales de procesamiento de la informacin, ms nuestro conocimiento del mundo, seran suficientes para utilizar el lenguaje para su fin comunicativo primordial: son las propuestas funcionalistas (representadas, entre otros, por Bates y MacWhinney). Por contraste, las corrientes que s consideran imprescindible un procesador sintctico, calificadas como formalistas88, proponen las siguientes operaciones (Belinchn, Rivire e Igoa, 1992): segmentacin: la oracin (o clusula) ha demostrado ser una unidad cognitiva consistente, como prueban tcnicas como la insercin de clics (que los oyentes desplazamos a los mrgenes interclausales) o el recuerdo. Asignacin de funciones a cada sintagma Establecimiento de las dependencias entre ellos Relaciones entre funciones sintcticas y funciones semnticas Incorporacin de la informacin indirecta, inferencial o pragmtica. Las dos grandes versiones del procesador gramatical humano han sido comparadas (por Aitchinson), con la hormiga y la liebre: para los primeros (como el modelo de satisfaccin de restricciones) funcionamos de modo laborioso, meticuloso y lento: durante el procesamiento sintctico de una oracin vamos generando todos sus posibles anlisis simultneamente89, y demoramos la toma de decisiones hasta disponer de toda la informacin. Los segundos, en cambio (como el modelo del sendero de jardn90, mejor traducido como modelo de va muerta), se decantan por un sistema ms rpido y econmico, que selecciona una sola interpretacin durante la descodificacin (siempre la ms sencilla); slo cuando encontramos evidencias de error en el contexto reconsideramos ese anlisis, y volvemos atrs (cfr. Igoa, 1995; Anula, 1998, ap. 3.2.3.).

Segn Igoa (1995) el estudio del componente gramatical del lenguaje se puede hacer desde tres perspectivas complementarias: la lingstica, o gramatical, se ocupara del estudio de la competencia: los principios tericos que rigen la construccin de enunciados lingsticos; la psicolingstica se encarga de la actuacin: las actividades mentales (procesos y representaciones) necesarios para construir cada enunciado real; la neurolingstica se encargar de establecer su representacin en la estructura del cerebro. 88 Los formalistas se suelen asociar a las propuestas modularistas (cfr. 2.2.4.), mientras que los funcionalistas se consideran ms interactivos en su concepcin sobre el funcionamiento del cerebro. Sin embargo, las fronteras entre unos y otros cada vez son menos rgidas, gracias a la aparicin de nuevas propuestas, que, desde un enfoque funcionalista, s consideran necesaria la existencia de un componente gramatical (es el caso del la Gramtica del Papel y la Referencia, o la Gramtica Funcional de Dik, entre otras (cfr. Marrero 2001). 89 Los modelos psicolingsticos de procesamiento sintctico han trabajado mucho con el anlisis de oraciones ambiguas 90 Traduccin directa del ingls garden path, que hace referencia a un tipo de oraciones sintcticamente ambiguas, en las que la interpretacin ms fcil lleva a un callejn sin salida que obliga a los oyente a reinterpretar la frase: el ladrn dispar al polica con los prismticos (ejemplo de Igoa, 1995: 380).

87

42

TEMA 3. PERCEPCIN Y COMPRENSIN _____________________________________________________

3.3.3. Comprensin pragmtica e integracin en el discurso Y llegamos as a los procesos centrales en la descodificacin. La asignacin de sentido pragmtico, a la que hemos aludido como ltima etapa, supone manejar los significados no literales, las inferencias, las relaciones entre lo tcito y lo explcito. La asignacin de significado a las unidades oracionales y supraoracionales va ms all de la estructuracin de sus contenidos. En muchas ocasiones es necesario aadir elementos que no eran manifiestos en el mensaje original; es lo que Belinchn, Rivire e Igoa califican como aspectos constructivos de la interpretacin de enunciados (1992: 457-459). Segn estos autores, en la comprensin del mensaje verbal, en primer lugar se realiza una reconstruccin del significado literal del mensaje. Si ste resulta inadecuado al contexto, el oyente realiza un segundo tipo de procesamiento, ms lento y consciente (cognitivamente controlado) en el que busca el sentido figurado. En cuanto a la incorporacin de las diferentes oraciones en una unidad comunicativa mayor, el discurso, uno de los modelos psicolingsticos ms conocidos, el de Walter Kintsch y Teun van Dijk, considera que los textos no se almacenan en la memoria como tales, en su forma literal, sino traducidos a ideas, que toman la forma de proposiciones91: la unin de un predicado con uno o varios argumentos. Segn el tipo de relacin que esos argumentos mantengan con el predicado, se les asigna un caso: agente, paciente, instrumento, objeto... Las proposiciones se almacenan de modo ordenado, segn una jerarqua basada en una regla de repeticin: primero se establece la proposicin principal (o macroproposicin), y a ella se subordinan todas las que contienen argumentos repetidos de la primera. Se obtiene as un grafo de coherencia, en funcin de los vnculos referenciales que contenga el texto: cuantos ms vnculos aparezcan, ms rico ser el grafo. Los elementos ms bsicos, situados en su parte superior, son los mejor recordados; segn algunos experimentos, las proposiciones principales, de nivel 1, eran recordadas en el 90% de los casos, mientras que las del ltimo nivel (el quinto) slo se recordaban en el 60% de ellos (Berko y Bernstein, 1999: 286-287; Belinchn, Rivire e Igoa, 1992: 481-489).

Concluimos aqu este recorrido por las ltimas etapas en el procesamiento del lenguaje, ya convertido en un conjunto de ideas abstractas, y muy alejado de aquellas primeras codificaciones neurolgicas de frecuencias, intensidades y tiempos. En el prximo tema, dedicado a los sonidos del lenguaje, volveremos a los niveles puramente fnicos.
91

Tanto los conceptos como las proposiciones son unidades abstractas de significado. Sin embargo, a diferencia de los conceptos, las proposiciones poseen valor de verdad, toda vez que entraan un acto de predicacin. Por esa razn se dice que mientras que las palabras representan conceptos, las oraciones representan proposiciones. Por otra parte, gracias a su carcter abstracto, las proposiciones representan el significado de manera amodal, esto es, con independencia del medio por el que se expresan e interpretan, sea ste un enunciado lingstico, una frmula matemtica o una imagen. Estas dos propiedades de las proposiciones, el valor de verdad y el carcter amodal, hacen de ellas un vehculo extremadamente til para representar nuestras creencias y pensamientos. Por ello [se] han adoptado [...] como formato universal de representacin del conocimiento humano, como una suerte de lenguaje de la mente. Igoa, 1995: 374

43

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN ____________________________________________________________

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN

4.1.

INTRODUCCIN

Los sonidos del lenguaje son acsticamente muy complejos: estn constituidos por una gran cantidad de ondas de frecuencias y amplitudes muy diversas, y sujetos a unos cambios temporales de grandes consecuencias para su funcionamiento. Como consecuencia, el estudio de los mecanismos que intervienen en su descodificacin es ms difcil que el anlisis de la respuesta a tonos simples. Sin embargo, y mientras no se demuestre lo contrario92, contamos con los mismos principios de funcionamiento en un caso y en otro: - comienzo y tasa media de activacin neuronal, en funcin de las frecuencias caractersticas: se tratara de un mecanismo especialmente implicado en la percepcin a intensidades bajas y en sonidos agudos, como las consonantes fricativas - el grado de sincronizacin en fase (con la onda de la membrana basilar) de las activaciones neuronales: este patrn temporal intervendra de forma destacada ante sonidos graves o con muchos componentes acsticos, como las vocales. Respecto al tiempo, se consideran muy importantes los inicios de los estmulos, puesto que en esos primeros milisegundos las fibras del nervio auditivo no han alcanzado los fenmenos de saturacin y adaptacin que alteran su capacidad de respuesta, afectada tambin por otros mecanismos, como el enmascaramiento, y la supresin de dos tonos. Como ocurre ante cualquier fenmeno inexplorado, las investigaciones sobre percepcin del lenguaje han partido de lo conocido, para relacionarlo con lo nuevo. As pues, se han buscado correspondencias entre los mecanismos de descodificacin y las caractersticas mejor establecidas del habla: los rasgos distintivos. En ocasiones, se han tomado como referencia las tradicionales clasificaciones articulatorias: lugar y modo de articulacin, sonoridad/sordez93 y oralidad/nasalidad. Experimentos con manipulacin del habla (suprimiendo o enmascarando determinadas bandas de frecuencia) han mostrado resultados como los siguientes (OShaughnessy, 1990, apartado 2.2): La manipulacin de frecuencias inferiores a 1000 Hz se traduce en confusiones en el rasgo de sonoridad94. A partir de esa frecuencia, en cambio, se ven afectados los lugares de articulacin que oponen, por ejemplo, labiales y dentales95.
92

Algunos investigadores son un tanto pesimistas en este sentido, y consideran que quiz nuestra representacin acstica del habla (basada en la distribucin de formantes y bandas de energa) es incorrecta y no permite elaborar esquemas consistentes de procesamiento del habla (Handel, 1993: 521). En todo caso, el fracaso de algunos trabajos ha demostrado que las medidas espectrales automticas, basadas en promedios globales de largos enunciados, no explican la percepcin subjetiva del habla, cuyas claves habra que buscar en la relacin entre las variaciones temporales del habla y la estructura lingstica del texto al que corresponden (Boves, 1984) 93 Este contraste en concreto es el utilizado por Kingston y Diehl (1995) para exponer su teora sobre la existencia de un nivel intermedio en la integracin perceptiva de las propiedades acsticas. 94 Recordemos que el componente ms grave del habla es la vibracin glotal, producida en las cuerdas vocales y responsable del contraste entre sonidos sordos y sonoros.

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

La superposicin de ruido de banda ancha afecta tambin a la identificacin de los lugares de articulacin (por su incidencia en la regin del segundo y tercer formantes), pero apenas conlleva errores de sonoridad. A este respecto, la reverberacin del sonido96 (eco de 800 milisegundos) tambin acta como ruido enmascarante, dificultando la percepcin de los lugares de articulacin. Conclusiones: a) Los rasgos ms robustos, ms resistentes son, por orden decreciente, modo, sonoridad y lugar. b) Los rasgos de modo residen en bajas frecuencias; los de lugar se encuentran fundamentalmente por encima de los 1000 Hz, y especialmente en la regin de los segundos formantes. c) La sonoridad se percibe a travs de la estructura de los armnicos97, que es ms fuerte en frecuencias bajas, pero se mantiene hasta los 3000 Hz. Como vemos, es muy difcil encontrar explicaciones partiendo slo de datos articulatorios: la distancia entre la clasificacin articulatoria y la percepcin es demasiado grande. Por eso nos parecen ms interesantes los experimentos que toman como base los rasgos distintivos acsticos. La relacin entre los rasgos distintivos acsticos y las bandas crticas de frecuencias (cfr. 2.3.2) fue establecida en un interesante trabajo de 1988, por Duggirala y sus colaboradores. Segn sus resultados, las frecuencias crticas para cada rasgo98 eran las siguientes: Nasalidad: 472 Hz Sonoridad: 758 Hz Gravedad: 1290 Hz Densidad: 1618 Hz Continuidad: 1800 Hz Estridencia: 2521 Hz.

Estos datos han sido confirmados en experimentos sobre el espaol con odos patolgicos: cuando un sujeto tiene afectada su capacidad para percibir sonidos agudos, las oposiciones peor identificadas son continuo/interrupto y estridente/mate (Marrero, Santos y Crdenas, 1993; Marrero y Martn, 2001). Terminaremos esta introduccin retomando el apartado 2.3.2: las Diferencias Mnimas Perceptibles, aplicadas esta vez a los sonidos del lenguaje, la psicoacstica del habla (O Shaughnessy, 1990: 157-159): 1) Frecuencias: en vocales sintticas, se ha comprobado que nuestra mayor capacidad de discriminacin se produce ante vocales estables, en las cuales podemos percibir variaciones de un 3-5% en los valores de frecuencia formntica. Sin embargo, en condiciones ms similares a las del habla natural (contextos de Consonante-Vocal-Consonante, con los correspondientes movimientos
Es razonable pensar en una relacin entre estos datos y los locus correspondientes a cada lugar de articulacin: para las oclusivas labiales est en 700 Hz, y para las dentales en 1800. Sin embargo, el locus de las oclusivas est mucho ms alto (a 3000 Hz) (cfr. Quilis, 1999: 210) 96 En un espacio abierto, el sonido viaja en lnea recta desde la fuente hasta el odo. Pero en espacios cerrados, una parte de las ondas rebotar contra las paredes, el techo, el suelo y los muebles, antes de llegar, de forma indirecta, al odo. La cantidad de sonido indirecto de un habitculo depende de la capacidad para absorber el sonido de los materiales que lo componen; se mide en tiempo de reverberacin, el necesario para que el sonidos decrezca hasta una centsima parte de su intensidad original. Si ese tiempo es muy largo (hay mucha reverberacin) las ondas provenientes de distintos puntos se solaparn a su llegada al odo, produciendo ese efecto enmascarante que mencionamos. 97 Recordemos que los armnicos son ondas simples, componentes frecuenciales menores que los formantes: cada formante est constituido por un conjunto de armnicos que ha sido reforzado a su paso por la cavidad oral. 98 Tomando como estmulos un test construido con pares mnimos opuestos por un rasgo distintivo, aplicaron el ndice de Articulacin para determinar la importancia relativa de las diferentes partes del espectro auditivo en la discriminacin de los rasgos distintivos acsticos. (Duggirala et al., 1988).
95

45

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

de los formantes) es necesario mover entre 9 y 14% el centro del formante99 para poder percibir alguna variacin. Si nos centramos en la frecuencia fundamental o F0, la sensibilidad se mutiplica (no en vano muchas funciones lingsticas primordiales residen en los movimientos de este primer armnico): basta un cambio de 0,3-0,5%, incluso menos de un Herzio en vocales abiertas100 de laboratorio! Sin embargo, en habla ms natural los cambios del F0 inferiores a 5 Hz, y 50 msg, son promediados durante la percepcin101. Tambin se ha indicado que percibimos con mayor exactitud las subidas del F0 que sus descensos. En un interesante trabajo sobre umbrales tonales en espaol peninsular, Fernndez Planas llega a la conclusin de que, aunque la diferencia mnima perceptible para los cambios frecuenciales en entonacin es de 1 semitono, en su uso lingstico ceirse al mnimo perceptible no debe ser funcionalmente rentable, necesitamos un poco ms de redundancia, para evitar que cualquier distorsin de la seal haga irrecuperable el mensaje. Por eso introduce el concepto de umbral funcional, establecindolo en 1,5 semitonos, la unidad mnima potencialmente relevante desde el punto de vista prosdico (Fernndez Planas, 2001) 2) Intensidades: Las diferencias mnimas perceptibles ms habituales son: - para el primer formante, el ms intenso y prominente perceptivamente, 1,5 dB; - para el F2, de unos 3 dB. Pequeos cambios de amplitud en frecuencias muy bajas (en la zona del primer y el segundo armnico) conllevan grandes diferencias perceptivas entre vocales prximas Las regiones entre formantes, en cambio, requieren alteraciones mucho mayores, de hasta 13 dB102. 3) Duraciones: los umbrales temporales para los sonidos del lenguaje son bastante breves, aunque varan de unos rasgos a otros: 10 msg de seal bastan para percibir, en vocales aisladas, un cambio en el lugar de articulacin; sin embargo, el rasgo tenso/laxo requiere al menos 30 msg. La percepcin de la sonoridad puede requerir tambin entre 20 y 30 msg. Y somos ms sensibles a las diferencias de duracin en vocales que en consonantes. Por otra parte, medidas temporales muy finas, como la sincronizacin en fase de los armnicos parece importante para percibir la calidad del habla, puesto que su manipulacin imprime ronquera o aspereza a los sonidos afectados. Sin embargo, las diferencias mnimas perceptibles para las transiciones103 (comienzos/finales de los sonidos) son de un 25-30% de los valores de referencia. Eso hace pensar que quiz slo manejemos dos categoras de transiciones: larga / breve.
La duracin parece una clave de enorme importancia para los nios con Trastorno Especfico de Desarrollo del Lenguaje, una alteracin que les impide desarrollar el lenguaje normalmente, a pesar de no tener ninguna otra patologa asociada (su inteligencia y audicin son normales): duplicando el tiempo de las transiciones, y haciendo ms lentos los intervalos entre slabas (en estmulos sintticos), estos nios consiguieron mejorar espectacularmente su discriminacin de pares mnimos, segn los resultados de Tallal y sus colaboradores, desde 1976.

99

Somos ms sensibles a las frecuencias centrales que a los anchos de banda: slo notamos las modificaciones de anchos de banda si superan el 20-40%, y si afectan a la intensidad (amplitud). Su variacin temporal afecta fundamentalmente a los fonemas nasales. 100 Como [a]; en las vocales abiertas el primer formante no interfiere con la frecuencia fundamental. 101 Diferencias en el F0 de menos de un cuarto de octava es improbable que sean tiles en la comunicacin lingstica Op. cit. Pg. 158 102 Los picos espectrales correspondientes al centro del formante tienen mucha mayor repercusin, a todos los efectos, que los valles de armnicos entre ellos, que pueden ser suprimidos o enmascarados sin grandes consecuencias. 103 Definidas como el tiempo que se tarda en pasar del 10 al 90% de la intensidad. Su valor medio en el habla oscila de 10 a 150 msg.

46

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

Aunque a lo largo de estas pginas hemos ido adelantando algunas informaciones relativas a los principales tipos de sonidos, recopilaremos la informacin ms importante sobre ellos en los apartados siguientes. 4.2. LA PERCEPCIN DE LAS VOCALES

La percepcin de las vocales se basa en su disposicin formntica: la situacin de los dos primeros formantes es suficiente para permitirnos identificar el timbre de cualquier vocal; para los diptongos parece importante el punto final del estado estable. Los formantes superiores se han considerado tradicionalmente los responsables de las caractersticas individuales del habla, y de su naturalidad. Sin embargo, el F3 tambin puede resultar imprescindible para algunas vocales de lenguas como el ingls, con muchas ms unidades que el espaol. Por otra parte, las vocales que tienen muy cercanos el F1 y el F2 se pueden identificar bien con un solo formante ancho en esa zona En los experimentos sobre percepcin de vocales se suelen utilizar sintetizadores de voz, en los cuales los sujetos pueden manipular la situacin de uno o dos formantes, para conseguir que la vocal sinttica se asemeje lo ms posible a un modelo determinado. El F1 siempre se sita en la zona adecuada, correspondiente al primer formante del modelo. El F2, sin embargo, en ocasiones se tiende a colocar en la frecuencia a la que el modelo presenta su tercer formante (aunque es cierto que se suele tratar de vocales y hablantes del ingls). Esto ha dado pie a pensar que la localizacin exacta del F2 puede ser el resultado de una operacin en la que intervienen los formantes segundo, tercero y cuarto, segn la resolucin en bandas crticas del odo. Cuando slo se les permite mover un formante, los sujetos lo colocan entre los dos primeros formantes, siempre que en el modelo no estn separados por ms de 3,5 bandas crticas. Si se trata de vocales anteriores y cerradas (F1 y F2 muy separados), lo colocan cerca de uno de los dos formantes. Ahora bien qu funcin tienen en las vocales las transiciones, y cul es el papel de los periodos estables? En experimentos con voz natural (como los realizados por Jenkins, Strange y Edman en 1983), se ha intentado responder a esta pregunta segmentando estmulos Consonante-VocalConsonante (CVC) en tres trozos: a) la transicin en CV; b) la vocal estable; c) la transicin en VC. Curiosamente, y en contra de lo que parecen indicar las Diferencias Mnimas Perceptibles104, se identificaban mejor los segmentos a) y c), las vocales durante las transiciones que en su momento estable (b) (OShaughnessy, 1990; Yeni Komshian en Berko y Bernstein, 1999: 135). Dos hiptesis se combinan para explicar el modo en el que esta informacin sobre frecuencias se transmite hasta el cerebro: - la tasa de activacin neuronal. El modelo ms simple propone que las frecuencias de los formantes se codifican gracias a la selectividad frecuencial del sistema auditivo; las fibras cuyas frecuencias caractersticas coinciden con las de los formantes son activadas, y las dems permanecen inactivas; a medida que se incrementa la intensidad del estmulo, aumentaran las proporciones de excitacin. Y as ocurre a intensidades bajas. Sin embargo, cuando sobrepasamos los 20-30 dB desde el umbral de audicin, la tasa de activacin de todas las clulas se va igualando, sea cual sea su frecuencia caracterstica. Las razones hay que buscarlas, fundamentalmente, en su
104

La solucin de esta aparente contradiccin posiblemente resida en la diferencia entre detectar e identificar (cfr. 1.2. TAREAS Y ETAPAS EN LA DESCODIFICACIN LINGSTICA), adems de en la oposicin entre habla sinttica y voz natural.

47

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

facilidad para la saturacin (cfr. el concepto de adaptacin, en 2.2.2. El nervio auditivo). Tambin puede influir la supresin de dos tonos (expuesta tambin en 2.2.): la gran energa del primer formante puede actuar como inhibidora sobre las fibras encargadas de codificar la informacin del F2105. - la sincronizacin temporal en fase. La teora de la descarga sostiene que las frecuencias de los formantes se extraen en el cerebro a partir de un patrn temporal: el obtenido de los intervalos entre picos de activacin. Cada fibra estara en fase con un armnico, y slo se activara cuando ese armnico llegara al mismo punto de su semiciclo. Como resultado, las amplitudes de esas ondas simples se transformaran en ndices de sincronizacin. El incremento de la intensidad no afectara e estos ndices106, ni tampoco la presencia de ruido, por lo que algunos investigadores lo consideran el mecanismo ms robusto para la codificacin neuronal de las frecuencias. Sin embargo, tiene limitaciones temporales y frecuenciales: al principio de la slaba las fibras se sincronizan con las frecuencias de cada formante, pero al cabo de 30 msg todas resultan dominadas por un componente frecuencial cercano a uno de los dos primeros formantes. Y por encima de 3-4 KHz tropezamos con el periodo de refraccin de la descarga neuronal (Handel, 1993: 514). Quiz la explicacin global est en el uso integrado de ambas fuentes de informacin. 4.2.1. La normalizacin en la identificacin de vocales Como ya hemos visto (1.3.1.2. La variacin ligada al hablante. Las tareas de normalizacin.), cada tracto vocal origina modelos espectrales y distribuciones formnticas diferentes; el oyente ha de realizar un proceso de normalizacin que le permita identificar como las mismas unidades sonidos que pueden diferir mucho entre s. Uno de los mecanismos que posiblemente utilicemos para conseguirlo es la relacin entre la frecuencia fundamental y los formantes: el habla de un nio, o el de una mujer, tienen un F0 elevado, que inconscientemente asociamos a formantes ms altos que los que corresponderan a un F0 masculino. Tambin el rea de dispersin voclica, el espacio delimitado por las vocales extremas del tringulo (en nuestra lengua /i, a, u/) proporcionaran una zona de referencia para situar las vocales intermedias107. El tercer formante, por ltimo, al ser relativamente estable para cada sujeto, tambin proporcionara una referencia sobre la que valorar la situacin del F1 y el F2. 4.2.2. Los efectos de la coarticulacin Ya que hemos dejado atrs la voz artificial, en situaciones naturales de habla, lo ms frecuente es que las vocales sufran los efectos del contexto: los formantes no suelen ser segmentos estticos, sino que estn en continuo movimiento desde los sonidos anteriores a los siguientes, con velocidades y direcciones dependientes de los lugares de articulacin de stos. En los experimentos sobre coarticulacin es habitual manipular fragmentos de habla natural: en secuencias CV, por ejemplo, se suprime la vocal, y se presenta a los oyentes slo la consonante, para comprobar si en ella permanece algn indicio de la vocal; o viceversa. Los resultados indican que los segmentos que tienden a la coarticulacin son aquellos para cuya
105

Sin embargo, hay que tener en cuenta que no todas las fibras nerviosas tienen la misma propensin a activarse: hay fibras con bajas tasas de activacin, que quiz jueguen un papel importante a intensidades altas. 106 Incluso los reforzara, porque a altas intensidades se suprime la sincronizacin de los armnicos entre formantes, y se mantiene slo la informacin formntica. 107 Aunque, como hemos visto ms atrs, el conocer esta rea no mejor, en algunos experimentos, la proporcin de identificacin de vocales.

48

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

emisin los rganos fonadores se mantienen en posiciones similares: las vocales anteriores son coarticuladas con consonantes anteriores, pero no con las posteriores, porque la lengua ha de realizar movimientos diferentes en el paso de una a otra.

En definitiva, todo indica que la percepcin de vocales humanas en discurso continuado depende de un anlisis auditivo complejo, que tiene en cuenta los movimientos de los formantes en unidades posiblemente superiores al fonema (quiz la slaba). 4.3. LA PERCEPCIN DE LAS CONSONANTES

La percepcin de las consonantes es siempre ms difcil que la de las vocales. Es probable que la razn para ello resida en la mayor riqueza en componentes armnicos de stas, as como en su mayor intensidad (6,6 dB en espaol, segn Albal y Marrero, 1995), y, en ocasiones, superior duracin108. Los estudios sobre percepcin de consonantes han prestado mucha atencin, desde sus inicios, a las oclusivas. Las razones son claras: el espectro de una oclusiva sorda es, en principio, lo ms simple que uno pueda imaginar como sonido lingstico: un silencio absoluto, seguido de una explosin de ruido. Sin embargo, su identificacin result, desde el primer momento, una caja de sorpresas: desde principios de los 60, Delattre, Liberman y Cooper sacaron a la luz unos experimentos donde mostraban que ni el silencio ni la explosin permitan distinguir entre s /p, t, k/, slo los movimientos de los formantes voclicos circundantes. Investigaciones posteriores, con estmulos ms semejantes a la voz natural que los rudimentarios mtodos de voz sinttica empleado en aquel entonces en los Laboratorios Haskins, pusieron de manifiesto que el ruido turbulento correspondiente al momento en que el aire sale bruscamente al exterior, tras el cierre oclusivo (conocido como barra de explosin), tambin puede jugar un papel. Las transiciones son esenciales para percibir la consonante cuando son muy lentas, y alejan la barra de explosin del centro del formante; sin embargo, cuando las transiciones son breves, como la explosin est ms cerca del pico espectral correspondiente al ncleo voclico, contribuye tambin de manera determinante a la identificacin de la consonante. Por ltimo, tambin se ha defendido la intervencin del factor tiempo: los primeros 10-20 milisegundos de una consonante oclusiva pueden proporcionar rasgos invariantes que permiten deducir su lugar de articulacin. En el fondo, subyacen siempre los mismos recursos neuronales, encargados de codificar duraciones, frecuencias e intensidades. Si consideramos los cuatro componentes sucesivos de una secuencia oclusiva-vocal, stos seran los mecanismos implicados en su percepcin: - la oclusin es descodificada gracias a la capacidad para discriminar entre duraciones109, unas medidas relativas a la longitud y las caractersticas de los sonidos del entorno; - la barra de explosin se analiza por medio de la integracin de la energa, la resolucin temporal y las bandas crticas en las que se site el ruido, aunque tambin se ver afectada por las caractersticas del entorno; - las transiciones formnticas, su duracin y su direccin, vienen determinadas, adems de por los tres elementos generales citados anteriormente (resolucin temporal, integracin y

108

Los experimentos con percepcin bimodal del habla (cfr. 1.1.) tambin muestran que la informacin visual no influye tanto en la identificacin de las vocales como en la de las consonantes (Massaro, 1998; cap. 6). 109 Tambin la percepcin de las lquidas cuenta con el factor tiempo como un elemento importante. Garca Jurado, Guirao y Rosso (1991) indican que para su identificacin es suficiente una cuarta parte de su duracin habitual, aunque sta vara mucho entre /r/ (ms breve) y /l/, en funcin de las posiciones silbicas.

49

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

bandas crticas), por el enmascaramiento simultneo que sus componentes de frecuencias bajas efectan sobre los de frecuencias altas. - la vocal estable, codificada en funcin de duraciones y frecuencias, como ya hemos visto, puede tener un papel doble en el contexto silbico: por una parte, puede funcionar como ancla perceptiva y ayudar a discriminar otras partes del estmulo; pero su propia riqueza de componentes armnicos puede enmascarar las transiciones, sobre todo si son cortas (Handel, 1993: 317-318). En cuanto a otro tipo de consonantes, las investigaciones sobre fricativas dibujan un panorama marcado por la diferencia entre la presencia de componentes en frecuencias altas, y su ausencia en frecuencias bajas. Como adems no suelen ser sonidos muy intensos (a excepcin de /s/), encajan bien en un modelo de percepcin basado en la selectividad frecuencial del sistema auditivo (o tasa media de descarga neuronal), que, recordemos, funcionaba mejor bajo esas dos condiciones. Si se diera, el problema de la saturacin por exceso de intensidad se solventara gracias a los patrones de activacin correspondientes al inicio de estas fricativas, cuyas caractersticas permiten diferenciarlas entre s (Handel, 1993: 515). Por ltimo, como se trata de sonidos sordos, el problema de la supresin de dos tonos que podra introducir la presencia de la barra de sonoridad, no tiene lugar. En cambio, el contexto s condiciona la percepcin de las fricativas: las vocales graves provocan un descenso en el ruido de la fricacin; cuando omos una [o], o una [u] a las que sigue una fricativa, esperamos un descenso en la frecuencia de la turbulencia correspondiente (OShaughnessy, 1990: 185). La nasalidad se traduce en un resonador suplementario en frecuencias bajas (250 Hz), que se extiende, por coarticulacin, a los sonidos sonoros adyacentes durante unos 50 msg. y el debilitamiento de las frecuencias altas. Otra de sus consecuencias es un ensanchamiento de los formantes, sobre todo del F1. La percepcin de la nasalidad est ligada a la lengua: los sistemas como el espaol, en los que no hay oposicin entre vocales basada en el rasgo oral/nasal, nos condicionan para percibir categorialmente las consonantes nasales, pero de forma continuada las vocales nasalizadas. Sin embargo, los hablantes de lenguas que disponen de fonemas voclicos nasales (como el francs), perciben de forma categorial tanto las vocales como las consonantes (segn experimentos con el hindi y el ingls) (OShaughnessy, 1990).
Las capacidades de discriminacin de los bebs respecto a las consonantes son tan sorprendentes como para el resto de los sonidos: desde los dos meses captan diferencias de lugar de articulacin como las que oponen [ba] y [ga], aunque las mismas diferencias acsticas en sonidos no lingsticos no producen en ellos ninguna reaccin. El contraste oral/nasal ([ba]-[ma]) tambin se distingue entre los 2 y los 4 meses, con deteccin de matices intermedios indicativos de una percepcin continua y no categorial. La oposicin entre laterales y vibrantes ([ra]-[la]), tan temprana como la anterior, en cambio s parece categorial desde el principio. Los resultados sobre fricativas, en cambio, han sido ms contradictorios, lo cual se interpreta como indicio de que las capacidades de los nios para distinguir este orden de fonemas es ms dbil que para otros (Jusczyk, 1997)

4.4. LA SLABA COMO UNIDAD PERCEPTIVA La slaba es una unidad ("la menor unidad posible de habla real", segn Gili Gaya) de carcter tanto articulatorio (un solo impulso de energa muscular), como acstico (mayor intensidad y sonoridad), como auditivo (mayor perceptibilidad) y psicolgico (tal es la conciencia que tenemos de ella que nios preescolares, personas analfabetas e incluso lesionados cerebrales son

50

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

capaces de silabear). Su papel en la percepcin del habla natural se ha puesto de manifiesto en muchas ocasiones. Psicoacsticamente, los cambios en la duracin de las slabas son ms perceptibles que los cambios en la duracin de los fonemas, si la slaba se mantiene constante. Adems, si una pseudopalabra presenta agrupaciones silbicas no permitidas por la combinatoria de la lengua, tardamos muy poco en identificarla como no-palabra. Fonticamente, muchos de los fenmenos coarticulatorios tienen lugar en su interior, por lo que puede resultar una referencia ms fiable para la segmentacin que el fonema. Desde la perspectiva neurofisiolgica, fenmenos como la adaptacin cambian la respuesta neuronal a estmulos verbales en el periodo de tiempo correspondiente a una slaba, disminuyendo los contrastes que se producen en su interior e incrementando los que tienen lugar en el paso de una slaba a la otra. Y desde el punto de vista evolutivo, incluso en los procesos de adquisicin del lenguaje, las slabas son unidades importantes para la codificacin de la informacin lingstica por los nios (Jusczyk, 1997: 127). Un equipo de investigacin formado por el francs Jacques Mehler, el espaol Juan Segu y otros colaboradores, ha realizado una amplia tarea de investigacin sobre el papel de la slaba en el procesamiento del habla. Partiendo de que los primeros segmentos de una palabra son decisivos para su identificacin, seleccionaron estmulos en los que los tres primeros fonemas eran iguales, pero las estructuras silbicas diferan: palacio / palmera. Se peda a los sujetos que detectaran, en ambos tipos, /pa/ y /pal/: los tiempos de respuesta de /pa/ eran mucho menores en palacio que en palmera; y a la inversa, /pal/ se detectaba mucho antes en palmera que en palacio. Incluso con pseudopalabras, se tardaba menos en detectar una slaba que su primer fonema. Y ya cuando la frontera silbica y lxica coincidan (el estmulo consista en una palabra monosilbica), los tiempos de respuesta eran los menores de toda la serie de experimentos. Todos estos resultados parecen, por tanto, confirmar que, al menos en el reconocimiento auditivo de palabras, la primera slaba constituye un serio candidato a la hora de establecer el cdigo de acceso al lxico Garca Albea, 1991: 477. Sin embargo, es necesario sealar que la estructura silbica es un rasgo muy ligado a las caractersticas de cada lengua110. El francs, lengua con la que se realizaron estas pruebas, tiene una estructura silbica ms homognea y transparente que otras como el ingls. Y qu ocurre en espaol? En las rplicas de estos experimentos en nuestro pas (por el mismo equipo, al que se uni Nuria Sebastin) se comprob la influencia del tipo de estmulo (en pseudopalabras no influa la segmentacin silbica) y de la tarea: tareas fciles, de simple deteccin, con respuestas rpidas, no presentaban ese efecto facilitador de la slaba; pero si la tarea se complicaba, requiriendo acceder al significado de los estmulos, s apareca el efecto de congruencia silbica, lo cual ha sido interpretado (Vigil-Colet, Prez Oll y Garca-Albea, 1998) como consecuencia de que la slaba representa su papel despus del acceso al lxico. La tarea de segmentacin de la palabra parece depender directamente de las propiedades fonolgicas de cada lengua. as, una lengua como el francs [o el espaol], que dispone de una estructura silbica regular, facilita que el proceso de segmentacin descanse sobre la slaba. Por el contrario, una lengua como el ingls, con una estructura silbica irregular o ms ambigua, lleva a cabo procesos de segmentacin ignorando la slaba como unidad de segmentacin. Anula (1998), 51.

110

Existe una tendencia universal a la slaba abierta, de tipo Consonante-Vocal, que determina uno de los procesos fonolgicos de simplificacin del habla ms habituales en la adquisicin del lenguaje y en los trastornos afsicos: la simplificacin de grupos consonnticos.

51

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

Hemos colocado entre corchetes la referencia a nuestra lengua en la cita anterior porque formulaciones recientes de la propia Sebastin (Sebastin-Galls, 1996) proponen el uso de unidades subsilbicas para la segmentacin del continuo fnico en espaol, concediendo especial importancia al acento, ya que la slaba tnica funcionara como ancla perceptiva para segmentar el continuo fnico111 y desencadenar el acceso al lxico. Lo cual nos viene muy bien para enlazar con el siguiente apartado. 4.5. LA PERCEPCIN DEL ACENTO

Tres claves acsticas se reparten la tarea de marcar el acento en las lenguas: movimientos del F0, duraciones e intensidad. Segn predomine uno u otro se suele hablar de los correspondientes tres tipos de acento: el de tono, el de duracin y el de intensidad: "a) Acento de intensidad, de sonoridad, dinmico o espiratorio. [...] Se obtiene produciendo un aumento de la intensidad -de la fuerza espiratoria- en la unidad acentuada, lo que se manifiesta acsticamente como un aumento de la amplitud de la onda. b) Acento tnico, musical, de altura, cromtico o meldico. Se logra introduciendo una variacin (generalmente un aumento) en el tono de la unidad que lo recibe. c) Acento de cantidad o cuantitativo. Supone una mayor duracin relativa de la slaba acentuada frente a las no acentuadas. Esta divisin, durante mucho tiempo insalvable, resulta hoy inexacta, por cuanto las investigaciones ms recientes han demostrado que el acento se materializa en muchas ocasiones mediante la combinacin de dos o tres de los parmetros indicados. Unas veces prevalecer uno de ellos; otras, en cambio, ser el propio efecto de la combinacin el que nos har sentir que la slaba est acentuada." Gil Fernndez, 1990, p. 130 Efectivamente, ms que tres tipos de acentos, podemos hablar de un nico rasgo suprasegmental que recurre a cada una de estas claves en funcin, en primer lugar, de las preferencias de la lengua, pero tambin de otros factores, como la entonacin (que puede comprometer la frecuencia fundamental para otras tareas), o la tasa de habla (que modifica las duraciones), etc. Esto ha sido comprobado por el mtodo de las claves en conflicto: se crean estmulos artificiales, sintticos, en los que, por ejemplo, la vocal ms intensa tiene la frecuencia fundamental ms baja. Si los oyentes identifican esa slaba como tnica, el factor responsable del acento ha sido la intensidad. Enrquez, Casado y Santos (1988) demostraron de este modo que en espaol el acento reside, primariamente, en la frecuencia fundamental; si sta no se encuentra disponible, recurrimos a la duracin112; slo en los casos en que ni F0 ni duracin pueden dar informacin se recurre a la intensidad.

111

Esta idea se enmarca en el contexto general de la llamada hiptesis de la transparencia acstica: las lenguas con una estructura fnica ms simple (como es el caso del espaol, que tiene slo cinco vocales, y pocas estructuras silbicas) se guan por una estrategia acstica para segmentar el habla (como prueba que los tiempos de respuesta para detectar sonidos en palabras o pseudopalabras sean similares). En cambio, las lenguas con poca transparencia acstica necesitaran el recurso a estrategias lingsticas para identificar elementos en el continuo fnico (en estos casos, se detectan antes los sonidos en palabras que en pseudopalabras). El grado de transparencia acstica parece estar relacionado con el nmero de vocales y de estructuras silbicas que admite una lengua, pero ste es un punto que requerira especificaciones mucho ms detalladas (que no se encuentran en el artculo de referencia, Sebastin-Galls, 1996). 112 En ingls, que tambin recurre a los movimientos del fundamental para marcar el acento, las vocales tnicas admiten un rango de variacin temporal (hasta 40 msg) superior a la media de los fonemas (10 msg), sin que los oyentes detecten algo anormal.

52

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________ La importancia de estos tres parmetros puede variar en sujetos con alteraciones del lenguaje: recientemente, un equipo de investigacin de la Universidad de Granada113 ha analizado el acento en la inteligibilidad del habla de nios deficientes auditivos. Segn sus resultados, la duracin no interviene en absoluto para la produccin del rasgo acentual en estos sujetos, porque el habla de los nios sordos es ms lenta en general, tanto para vocales tnicas como tonas. S consideran que la altura de la frecuencia fundamental es el factor prioritario, mientras que la intensidad tendra un papel secundario.

4.6.

LA PERCEPCIN DE LA ENTONACIN

La entonacin tiene tres funciones bsicas en el lenguaje: segmentar, resaltar y dar continuidad prosdica al discurso114. - Lingsticamente, a) distingue enunciados (lo saba frente a )lo saba? o lo saba!); b) integra las palabras en enunciados y c) delimita enunciados ('tres, por dos ms uno' [= 9] frente a 'tres por dos, ms uno' [=7]). - Socialmente, a) transmite informaciones sobre el individuo, como edad, sexo, etc. b) comunica caractersticas sobre el grupo al que pertenece: dialecto, nivel sociocultural... - Individualmente, es el vehculo esencial para la dimensin afectiva del lenguaje: nfasis, cortesa, mandato, confirmacin, exclamacin, y una casi infinita gama de emociones115.
La diferencia entre las funciones lingsticas y afectivas de la entonacin parecen tener un correlato neurolgico: Pell y Baum (1997) estudiaron la capacidad para discriminar diferencias de entonacin con funcin lingstica (declarativas / imperativas / interrogativas) y con funcin afectiva (enfado / tristeza / alegra) en un grupo de 29 sujetos: 10 con lesiones en el hemisferio izquierdo (afsicos o aprxicos); 9 con lesiones en el hemisferio derecho (hemipljicos o hemiparsicos) y 10 de control. Segn sus resultados, la discriminacin de la prosodia emocional de los sujetos con lesin cerebral no difera significativamente de la del grupo de control116. Sin embargo, en la prosodia lingstica se observ un comportamiento mucho peor en el caso de las lesiones de hemisferio izquierdo (LHI): la comprensin de rasgos suprasegmentales en sujetos con LHI est afectada por la funcin comunicativa de estos ndices en el habla [...] Los pacientes con LHI son sensibles a la carga lingstica del estmulo cuando procesan ndices suprasegmentales (pg. 97). El habla dirigida a los nios, por otra parte, se caracteriza, entre otras cosas, por una exageracin de los rasgos prosdicos, lo cual seguramente facilita al nio las tareas de segmentacin e identificacin de componentes sintcticos en el enunciado (Jusczyk, 1997: 144).

Como en el caso del acento, la frecuencia fundamental sus movimientos y su rango de variacin117- es la principal responsable de la variaciones entonativas, aunque la duracin y la
Snchez, A.; Carballo, G.; Mendoza, E. y Cruz, A.: El acento en la inteligibilidad del habla en nios con deficiencia auditiva. Comunicacin presentada en el VIII International Congress for the Study of Child Language. San Sebastin, 12-16 julio, 1999. 114 Esta continuidad prosdica es la que nos permite seguir una voz en contextos ruidosos. 115 Incrementos en el rango de movimientos del F0, por ejemplo, provocan que una voz cualquiera suene benevolente (al menos en ingls: OSaughnessy, 1990). Aunque para interpretar emociones en situaciones reales parece muy importante la integracin de la informacin visual (la cara de nuestro interlocutor) con la auditiva (su voz): cuando ambos estmulos presentan informaciones contradictorias, nuestra capacidad para identificar la emocin es ms baja que si se nos presenta la cara sola o la voz sola (Massaro, 1998, cap. 8). 116 Los autores mencionan que este resultado no coincide con trabajos previos; achacan la diferencia a la seleccin de sujetos: los de este estudio tener una lesin menos extensa, pero en casos de lesiones ms graves del hemisferio derecho s se ve afectada la discriminacin de la prosodia emocional. 117 En un estudio sobre la relacin entre variables acsticas y evaluacin perceptiva del habla, Boves seala que la variacin del F0 slo se percibe como agradable, expresiva o melodiosa cuando permanece dentro de un determinado rango, no muy amplio, y que ms que con grandes cambios en la frecuencia fundamental, estas apreciaciones se
113

53

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIN _____________________________________________________

intensidad pueden coadyuvar como claves secundarias. De hecho, la entonacin ascendente es mejor percibida que la descendente en estmulos de larga duracin; y las variaciones del F0 se tienen en cuenta en los fragmentos de mayor intensidad sonora, como suelen ser las vocales; los cambios en consonantes tienden a no ser tenidos en cuenta. El funcionamiento de la entonacin se expone detalladamente en Quilis (1999), y ya en la introduccin a este tema se han indicado las diferencias mnimas perceptibles desde el punto de vista prosdico, por lo que no incidiremos ms en ellas. Bstenos indicar, como conclusin a este apartado, que sus funciones gramaticales son un fuerte punto de enlace entre fonologa y sintaxis: en muchsimas lenguas los grupos entonativos tienden a coincidir con grupos sintcticos, aunque para marcar estas fronteras se anan con rasgos como la duracin silbica y las pausas (Jusczyk, 1997:140-142).

correlacionan con la manera en que pequeas variaciones se distribuyen en el texto, y lo apropiadas que resulten a la estructura sintctica y al significado semntico y pragmtico del mismo (Boves, 1984: 149 y 159).

54

BIBLIOGRAFA _____________________________________________________

BIBLIOGRAFA
Alamn, F. (1999): Aproximacin fontica a los procesos de integracin perceptiva de seales de habla de baja intensidad. Tesis doctoral. Universidad Autnoma de Barcelona. Albal, M.J. y V. Marrero (1995): La intensidad de los sonidos del espaol Revista de Filologa Espaola, LXXV, 105-132. Anula, A. (1998): El abec de la psicolingstica. Madrid, Arco Libros. Baer, T. y B.C.J. Moore (1993): Effects of spectral smearing on the intelligibility of sentences in noise. Journal of the Acoustical Society of America, 94 (3), 1229-1241. Bond, Z.S. y S. Garnes (1980): Misperceptions of Fluent Speech En Cole (Ed.): Perception and Production of Fluent Speech. Hillsdale, Nueva Jersey, Lawrence Erlbaum. Pp. 115-132. Boves, L. (1984): The Phonetic Basis of Perceptual Ratings of Running Speech, Utrecht, Foris Publications. Cooke, M. (1993): Modelling auditory processing and organization. Cambridge, Cambridge University Press. DePaolis, R.A., C.P. Janota y T. Franck (1996): Frequency Importance Functions for Words, Sentences and Continuous Discourse. Journal of Speech and Hearing Research, 39, 714723. Duggirala, V. et al. (1988): Frequency Importance Functions For A Feature Recognition Test Material, Journal of Acoustical Society of America, 83 (6), 2372-2382. Enrquez, E.V.; C. Casado y A. Santos (1988): La percepcin del acento en espaol. Lingstica Espaola Actual, XI, 241-269. Fernndez Planas, A.M. (2001): Umbrales tonales en el espaol peninsular. Comunicacin presentada en el II Congreso de Fontica Experimental. Sevilla, marzo 2001. Garca Jurado, M.A.; M Guirao y E. Rosso (1991): La influencia de la duracin en la identificacin de las lquidas En Hernndez et al. (Eds): El espaol de Amrica. Actas del III Congreso Internacional de El espaol de Amrica. Valladolid, Junta de Castilla y Len, pp. 393-403. Gil Fernndez, J. (1990): Los sonidos del espaol. Madrid, Sntesis. Goldstein, B.E. (1992): Sensacin y percepcin. Madrid, Debate. Greenberg, S. (1988): The ear as a speech analyzer. Journal of Phonetics, 16, 139-149. Handel, S. (1993): Listening. An Introduction to the Perception of Auditory Events. Cambridge, Massachusets, The MIT Press. Harmegnies, B. y D. Poch-Oliv (1992): A study of style-induced vowel variability: laboratory versus spontaneous speech in Spanish. Speech Communication, 11, 429-437.

55

BIBLIOGRAFA _____________________________________________________

Igoa, J.M. (1995): El procesamiento sintctico en la comprensin y la produccin del lenguaje. En M. Fernndez Lagunilla y A. Anula Rebollo: Sintaxis y cognicin. Introduccin al conocimiento, el procesamiento y los dficits sintcticos. Madrid, Sntesis, pp. 353-408. Jusczyk, P.W. (1997): The discovery of spoken language. Cambridge, Massachusets, The MIT Press. Kingston, J. y R.L. Diehl (1995): Intermediate properties in the perception of distinctive features values. En B. Connell y A. Arvaniti (Eds.): Phonology and Phonetic Evidence. Papers in Laboratory Phonology IV. Cambridge, Cambridge University Press, pp. 7- 27. Liberman, A.M. (1996): Speech: a Special Code. Cambridge, MIT Press. Liberman, A.M. e I.G. Mattingly (1985): The motor theory of speech perception revised. Cognition, 21, 1-36. Lindblom, B. (1992): Phonological units as adaptative emergents of lexical development. En Ferguson, C.A., L. Menn y C. Stoel-Gammon (Eds): Phonological development: Models, reseach, implications. Timonium, Md. York Press. Lpez Bascuas, L.E. (1994a): Procesamiento auditivo general y procesamiento especfico en la percepcin del habla (I): efectos derivados de la asignacin de fronteras perceptivas. Estudios de Psicologa, 52, 37-53. Lpez Bascuas, L.E. (1994b): Procesamiento auditivo general y procesamiento especfico en la percepcin del habla (II): efectos de integracin perceptiva. Estudios de Psicologa, 52, 5566. Lpez Bascuas, L.E. (1995**): Las teoras de la percepcin del habla: un anlisis crtico. Estudios de Psicologa, 19**, 45-57. Lpez Bascuas, L.E. (1997): La percepcin del habla: problemas y restricciones computacionales Anuario de Psicologa, 72, 3-19. Lpez Bascuas, L.E.; R.P. Fahey; J.E. Garca Albea y B.S: Rosner (1998a): Identificacin del orden temporal en sonidos de habla y de no-habla. Estudios de Psicologa ***, 195-209 Lpez Bascuas, L.E.; R.P. Fahey; J.E. Garca Albea y B.S: Rosner (1998b): Percepcin categrica -y discriminacin del orden temporal en sonidos de habla y de no-habla. Estudios de Psicologa ***, 211-226 Lyons, J.(1971): Introduccin en la lingstica moderna. Barcelona, Teide. Malmberg, B. (1974): Lingstica estructural y comunicacin humana. Madrid, Gredos. Marrero V. y Y. Martn (2001): Discriminacin auditivas de los rasgos distintivos acsticos en palabras aisladas: odos normales y patolgicos. Comunicacin presentada en el II Congreso Internacional de Fontica Experimental. Sevilla, *** Marrero, V. (2001): La Gramtica del Papel y la Referencia En Aguirre, C. y S. Mariscal: Cmo adquieren los nios la gramtica de su lengua. Perspectivas tericas. Madrid, UNED. Ap. 2.1. Marrero, V.; Santos, A. y Crdenas, M.R. (1993): Feature Discrimination And Pure Tone Audiometry. En Aulanko, R. Y Korpijaakko-Huuhka (Eds): Proceedings of the Third Congress Of The International Clinical Phonetics And Linguistics Association, 9-11 August 1993, Helsinki. University of Helsinki, Pp 121-128. Martinet, A.(1978): Elementos de lingstica general. Madrid, Gredos.

56

BIBLIOGRAFA _____________________________________________________

Massaro, D. (1998): Perceiving Talking Faces: From Speech Perception to a Behavioral Principle. Cambridge, MIT Press. Mayo, L.H.; Florentine, M. y S. Buus (1997): Age of Second Language Acquisition and Perception of Speech in Noise. Journal of Speech, Language and Hearing Research, 40, 686-693. Moore, B.C.J. (1986): Frequency Selectivity in Hearing. Londres, Academic Press. OSaughnessy, D. (1990, 1 ed. 1987): Speech Communication: Human and Machine. Reading, Massachusetts, Addison Wesley Pub. Comp. Pell, M.D. y R.S. Baum (1997): The ability to preceive and comprehend intonation in linguistic and affective context by brain-damaged adults. Brain and Language, 52, 411-436. Perkins, W.H. y R.D. Kent (1990): Functional Anatomy of Speech, Language and Hearing. Boston, Allyn y Bacon (1 ed. 1986). Pickles, J.O. (1988): An Introduction to the Phisiology of Hearing. Londres, Academic Press. Sebastin-Galls, N. (1996): The role of accent in speech perception. En Otake, T. Y A. Cutler (Eds.): Phonological Structure and Language Processing. Cross-Linguistic Studies. Berln, Mouton de Gruyter, pp. 171- 182. Tarnczy, T. (1986): Noise Interference with Oral Communications En Lara Senz y R.W.B. Stephens: Noise Pollution. John Wiley and Sons Ltd. Pp. 249-263. Vigil-Colet, A.; Prez-Oll, J. y Garca-Albea, J.E. (1998): El papel de la slaba en la percepcin del castellano. Psicothema, 10 (3), pp. 583- 595.

57

Potrebbero piacerti anche