Sei sulla pagina 1di 41

Semntica interpretativa y textometra

15
Semntica e interpretacin.
Tpicos del Seminario, 23. Enero-junio 2010, pp. 15-55.

Semntica interpretativa y textometra*


Bndicte Pincemin
CNRS

Universidad de Lyon
Traduccin de Sebastin Giorgi

Introduccin Este artculo es una reflexin y a la vez una exposicin de discusiones y de experiencias sobre la pertinencia del enfoque informtico textomtrico en relacin con los principios de la semntica interpretativa. La textometra se denomina tambin logometra o estadstica textual yes la forma actual de la lexicometra (Lebart et al., 2000). Propone procedimientos de ordenamiento y de clculos estadsticos para el estudio de un corpus de textos digitalizados. La textometra articula slidamente a estos procedimientos cuantitativos ciertos medios de recorridos y de interpretacin cualitativos, determinantes en cuanto a las posibles afinidades con una teora lingstica como la semntica interpretativa.

* Este texto participa en la reflexin realizada dentro del proyecto Textometra (http://textometrie.ens-lsh.fr/), por lo cual agradezco mucho a Evelyne Bourion, Carine Duteil-Mougel, Serge Heiden, Sylvain Loiseau, Damon Mayaffre, Cline Poudat y Mathieu Valette por sus atentas y constructivas relecturas, y por los matices importantes y las precisiones que ellos me han permitido aportar al artculo.

16

Bndicte Pincemin

La textometra no se confunde con la lingstica de corpus, si bien ambas fundan sus investigaciones en un corpus digital, cuya constitucin es determinante. Como su nombre lo indica, la lingstica de corpus persigue un objetivo de descripcin y de modelizacin de la lengua. La textometra, centrada en el texto, ha estado en contacto con diversas ciencias humanas (historia, literatura, ciencias polticas). Desarrollada en el seno de una comunidad cientfica interesada en el anlisis de datos textuales (ADT),1 se caracteriza especialmente por algunos clculos fundadores, estadsticos (las especificidades, las coocurrencias) o no (los segmentos repetidos, las concordancias), y acuerda un lugar primordial al retorno al texto, bien previsto por el programa, para interpretar las unidades (generalmente las palabras) seleccionadas por los clculos. Un estudio que utilice un acercamiento y herramientas textomtricos, y que aspire a observar y describir los fenmenos lingsticos en corpus, puede as inscribirse a la vez en la lingstica de corpus y en la textometra, sin que ninguna de las dos corrientes subsuma a la otra. La semntica interpretativa, teora lingstica desarrollada por Franois Rastier (Rastier, 1987; Rastier, 2001) nos llevar a recordar los principios cardinales para confrontarlos con las caractersticas de la textometra. Rastier ha sugerido algunas afinidades de su teora con tecnologas que operan actualmente (Rastier, 1991; Rastier, 2001; Rastier et al., 1994). Tambin explora y experimenta, ya sea en trabajos hechos en colaboracin con otros colegas o en la direccin de trabajos de investigacin, con algunas herramientas de programas computacionales aplicadas al corpus, pero no as para
1 Las Actas de las Jornadas Internaciones de Anlisis Estadstico de Datos Textuales (JADT) publican numerosas comunicaciones sobre cuestiones de teora textomtrica y sobre ejemplos de aplicacin variada, as como tambin acerca de comunicaciones que provienen de otros tipos de acercamiento al anlisis textual. Una edicin en lnea de esas Actas es accesible en el sitio Lexicometrica, [disponible en la pgina electrnica http://www.cavi.univ-paris3.fr/lexicometrica/], ms especialmente dedicada a la textometra.

Semntica interpretativa y textometra

17

la continuacin, la profundizacin y la sistematizacin de la reflexin sobre las formas de tecnologas apropiadas a un anlisis interpretativo. La tesina de Pri (1995) es una de las primeras reflexiones generales sobre este tema. En lo que se refiere al abordaje textomtrico,2 nos preceden publicaciones que elaboran los usos textomtricos en un contexto de semntica interpretativa, generalmente sostenidas por reflexiones tericas afines a nuestro tema (y estas experiencias nos sern muy tiles aqu), aunque pocas investigaciones se centran en las relaciones entre los fundamentos de la teora de Rastier y los principios del abordaje textomtrico, sino que proponen una reflexin de conjunto, una sntesis: tal es la cuestin que queremos abordar en este artculo. Nuestro procedimiento ser en cuatro tiempos. Desde un principio hay que dejar atrs los a priori negativos sobre la textometra, en cuanto a su compatibilidad con un acercamiento lingstico. Luego, el artculo invita a compartir el entusiasmo de los primeros descubrimientos primeros encuentros luminosos de la semntica interpretativa con la textometra y su consolidacin en una proposicin metodolgica para el anlisis temtico. El tercer tiempo es la parte medular de este artculo: tratar de comprender plenamente las afinidades de la teora semntica y de las herramientas provistas para el anlisis, volviendo a sus principios fundamentales, y tomar distancia con una visin englobante. Sobre esta base, el cuarto y ltimo tiempo puede abrir algunas perspectivas prometedoras. 1. Discusin de reducciones a primera vista comprometedoras 1.1. El texto, un saco de palabras? Para la textometra, el corpus est segmentado en unidades (habitualmente del tamao de las palabras): eso est relacionado
Otras tecnologas pueden aportar de manera complementaria a los anlisis de corpus en semntica interpretativa (cfr. nota 31), y otras teoras lingsticas pueden inspirar y guiar benficamente algunas prcticas textomtricas.
2

18

Bndicte Pincemin

con el procedimiento tcnico de indexacin, necesario para la aplicacin eficaz tanto de las funcionalidades de bsqueda de motivos como de clculo estadstico. El corpus puede estar estructurado en partes, tpicamente considerados textos. En ciertos programas computacionales3 es igualmente posible definir las vecindades locales utilizables para las bsquedas o clculos de coocurrencias. Primera observacin positiva: el texto no est tan desestructurado como se podra entender con la imagen de saco de palabras: La textometra moviliza (i) una contextualizacin global, (ii) una contextualizacin local, y registra (iii) la relacin de orden de las palabras segn la linealidad del texto. Se trata, de hecho, de no atribuir al conjunto del anlisis textomtrico lo que es momentneamente requerido para un clculo: as, un clculo estadstico de especificidades moviliza fuertemente las contextualizaciones globales, pero ignora las relaciones de sucesin inmediata de palabras; 4 otro clculo, de coocurrencias por ejemplo, puede considerar slo las vecindades locales e ignorar tanto el encadenamiento exacto de palabras como su contextualizacin global; un tercero, de segmentos repetidos, slo considerar los encadenamientos de palabras, sin consideracin para su contextualizacin global. No obstante, los resultados de estos clculos no deben interpretarse sin ayuda de metdicos retornos al texto, que permiten leerlo y observar directamente las vecindades, sucesiones y localizaciones completas de palabras. Las investigaciones actuales en textometra son particularmente sensibles al desarrollo de nuevos tratamientos que integran la dimensin sintagmtica del texto: topologa, basada
3 Las frases en Weblex (explotadas por el motor de bsqueda CQP), las secciones de Lexico 3, etc. 4 El recorte en partes puede tambin ser un medio de restituir, en una primera aproximacin, el desarrollo sintagmtico del texto (la tctica, en trminos de la semntica interpretativa), o el desarrollo cronolgico del corpus. Por ejemplo, Bourion (2001) propone un estudio de Pre Goriot (Pap Goriot) estructurado por su recorte en captulos.

Semntica interpretativa y textometra

19

en una modelizacin del desarrollo en series sucesivas; topografa, con el xito5 del mapa de secciones implementado en Lexico 3 (Mellet y Salem, 2009). Adems, no es porque en un momento dado el clculo se apoye en una segmentacin en unidades y un recorte en partes englobando esas unidades, que la eleccin de esas unidades y esas partes en textometra sea nica y predefinida.6 Si la opcin ms corriente consiste en estudiar el corpus a travs de su lxico, tambin se lo puede ver por la va de otras descripciones (p. ej. categoras gramaticales) y de otros planos (el morfema o su aproximacin por los tri-grams, alternancia de palabra, etc.). Asimismo, la variacin en la eleccin de la divisin (recorte del corpus en partes) es una forma de dar cuenta de categoras metatextuales y de caracterizaciones filolgicas (como el gnero, el autor, el perodo histrico), de variables situacionales significativas de la produccin de textos, como de estructuraciones intratextuales (p. ej. captulos). 1.2. Simples cadenas de caracteres El saco de palabras tendra no slo la debilidad de ser un saco, sino tambin la de no reunir incluso generalmente palabras (definidas de manera lingsticamente aceptables), simplemente unas cadenas de caracteres extradas de modo mecnico del corpus. De manera ms general, se trata primero de una constante pragmtica: en la prctica, el anlisis se basa en el material tex5 Aqu no hay un cuadro sinptico cientfico, pero podemos constatar fcilmente que los mapas de secciones son, por ejemplo, copiosamente movilizados en la seleccin de estudios (Salem y Fleury, 2008), reuniendo ejemplos de anlisis diversificados realizados con el programa Lexico 3. 6 Incluso si en ciertos programas la importacin del corpus supone la eleccin de una sola segmentacin en palabras (p. ej. Lexico 3) o de un slo recorte en partes (p. ej. Hyperbase), nada impide crear tantas bases textomtricas tantas versiones interrogables del corpus como uno desee, variando la definicin de unidades o de partes.

20

Bndicte Pincemin

tual digitalizado, pues aun si la apuesta es acceder a observaciones semnticas se manipula las cadenas de caracteres para estudiar los significados (Rastier, 2001: III.1.2). La textometra no pretende partir de significantes lexicales; antes bien, se basa en una segmentacin lingsticamente simple, aproximativa.7 Dicho de otra manera, relativiza la cuestin de la buena eleccin de las unidades iniciales. 8 Al hacer esto, adopta, segn nosotros, una posicin muy afn con la semntica interpretativa: porque si tolera la posible simplicidad de la representacin inicial9 es porque ella considera que las verdaderas unidades no se hallan al inicio sino al final de los tratamientos. Por la visin global que ellas integran, las estadsticas y otros recuentos dan muestra de las grandes regularidades que atraviesan el corpus y determinan as la redefinicin de las unidades locales. Concretamente, por ejemplo, es as como la tcnica de segmentos repetidos ha sido pensada desde los comienzos de la textometra (Lafon y Salem, 1983): rectificar y ajustar a posteriori, dado el corpus, segmentaciones iniciales inconvenientes. Algunas experiencias vertiginosas han demostrado tambin, en los hechos, la sorprendente robustez de los anlisis estadsticos.
7 Las segmentaciones clsicas propuestas en los programas computacionales de textometra estn definidas directamente en la cadena de caracteres, sobre criterios tipogrficos, desde luego, precisos y pertinentes pero no siempre en concordancia con las estructuras lingsticas. Evidentemente, si el corpus est enriquecido y presenta un anlisis en unidades, ste en principio puede explotarse por el anlisis textomtrico, en remplazo de, o en complemento de, una segmentacin de orden tipogrfico (esto depende de la implementacin del programa computacional). 8 A pesar de todo, es verdad que la comunidad textomtrica ha estado durante mucho tiempo atravesada por los famosos debates sobre la lematizacin previa de los corpus, ahora poco a poco superada con la coexistencia de la articulacin de varias descripciones (Mayaffre, 2005). 9 Sin embargo, no necesariamente es apropiado considerar todo anlisis inicial (Poudat, 2006). En particular, un anlisis irregular, de difcil interpretacin (opacidad de su mecanismo de produccin o de la significacin efectiva de las etiquetas) o no adaptado al corpus y a la objetividad de la investigacin compromete el rendimiento de los clculos textomtricos.

Semntica interpretativa y textometra

21

Brunet (2006b) imagina describir el corpus no solamente por sus grafas (las palabras en tanto que cadenas de caracteres entre dos blancos u otros caracteres separadores) o sus lemas, sino tambin a partir slo de sus etiquetas morfosintcticas (p. ej. ncms para nombre comn masculino singular, independientemente de la forma de este nombre), por las secuencias de categoras gramaticales entre dos puntuaciones (p. ej. pvdn para pronombre verbo determinante nombre), por las palabras descompuestas en secuencias de cuatro caracteres (p. ej. ventana, siendo representada por vent, enta, ntan, tana),10 por las grafas reescritas como sucesiones de consonantes y vocales (p. ej. tanto como santo, harto, largo, etc. devienen CVCCV).11 Ahora bien, globalmente, un anlisis factorial o arborescente aplicados a estos textos, representados de maneras tan diversas y a veces reductoras,12 hace destacar las mismas configuraciones de proximidades o de oposiciones entre s. Dicho de otra manera, independientemente de qu tan gastada y pobre sea la descripcin inicial, ciertas regularidades textuales son tales que pueden ser captadas por un tratamiento que explote plenamente la dimensin global del corpus. 1.3. Eliminacin frecuente de los hpax, que podran ser lugares de singularidades significativas Para aligerar los tratamientos estadsticos, un umbral mediante las frecuencias es practicada comnmente: por lo general, las palabras de dbil frecuencia y tambin las palabras gramaticales de alta frecuencia son apartadas del clculo. En el caso
10 Ejemplo del texto original ex. fentre tant reprsent par fen, ent, ntr, tre. [N. del T.]. 11 Ejemplo del texto original ex. tant comme sont, dans, sang deviennent CVCC. [N. del T.]. 12 Hasta el sentimiento de una representacin desnaturalizada: desencarnacin del texto, datos pervertidos, prdida [] irremediable (Brunet, 2006b).

22

Bndicte Pincemin

particular de los hpax (palabras de frecuencia 1) es incluso naturalmente favorable, en ocasiones, separarlos, ya que son de entrada no pertinentes si el clculo se apoya sobre las repeticiones. El umbral sobre las frecuencias permite el anlisis, con una rauda mirada, a las estructuras de conjunto. Sin embargo, por experiencia, no debera ser la nica mirada sobre el corpus, y exploraciones o clculos ms focalizados son la ocasin de reconsiderar las unidades apartadas en un primer tiempo. No obstante, no es seguro que las singularidades pertinentes para la descripcin lingstica correspondan necesariamente a las bajas frecuencias en el plano estadstico. En el proyecto Princip (Valette, 2004) se fija la atencin en las neologas, que en un principio suelen ser escasas, pero estn, de hecho, compuestas de morfemas que pueden estar, por el contrario, muy presentes en el corpus y que se manifiestan como mejores unidades de caracterizacin que el lxico.13 O incluso, detrs de la variedad de manifestaciones de un tema (Rastier, 1995) lexicalizaciones diversas, sintticas o difusas, etc. podramos encontrar una modelizacin nica y, por lo tanto, con bastante frecuencia solicitada bajo la forma de un conjunto de palabras isotopantes (que manifiestan juntas un sema comn), y realizndose por la coocurrencia de algunas de ellas ( cfr. el concepto de comunidad en Bommier-Pincemin, 1999). Recurrir a un diccionario smico sera una tcnica inversa para captar y amplificar las recurrencias de semas (Reutenauer et al., 2009). En pocas palabras, los elementos sobre los cuales estn fundadas las descripciones no son quiz tan raros ni nicos como pudiera parecer, incluso si las manifestaciones aparentes en el corpus son singulares.

El trabajo en el nivel morfolgico es tambin muy pertinente para el anlisis de la terminologa cientfica, con los procedimientos de conceptualizacin y de prstamo (Loiseau, 2006; Valette, 2006).

13

Semntica interpretativa y textometra

23

1.4. Tratamiento cuantitativo vs. cualitativo Los clculos textomtricos son, por supuesto, cuantitativos. Ahora bien, la semntica interpretativa no es una semntica formal en la cual el sentido se modelizara como un clculo. No obstante, un acercamiento cuantitativo puede encontrar una pertinencia si el volumen del corpus es consecuente.14 En primer lugar, la textometra explota especialmente los modelos estadsticos. Se mide la distancia entre una reparticin aleatoria de palabras y su comportamiento efectivo. El principio operatorio consiste entonces en considerar la lengua, y ms precisamente su uso manifestado en corpus, como regulada por limitaciones lingsticas, opuesto al azar (Lafon, 1980). Observamos, en efecto, que los clculos hacen reaparecer vnculos lexicales, sintcticos, semnticos (isotopas de la semntica interpretativa), 15 genricos (propio del gnero textual), estilsticos... Si los clculos son cuantitativos, el anlisis textomtrico integra una gestin cualitativa englobante. Antes de proceder al clculo, se trata en primer lugar de formular una problemtica de bsqueda, de construir un corpus pertinente, de determinar un punto de entrada apropiado y de variar eventualmente los sub-corpus de trabajo, de definir el tipo de tratamiento adaptado,
El lector humano es evidentemente el mejor intrprete de un texto, en comparacin con todo tratamiento automtico y mecnico, que nunca es una verdadera lectura. Las ventajas de la computadora son su rapidez de clculo y su memoria: el inters est en aprovecharlos para ayudar la lectura humana, sugerirle puntos de apoyo y pistas de investigacin cuando el volumen de los textos supera las capacidades cognitivas. 15 El concepto de isotopa est [...] basado en la nocin de redundancia de la informacin, es decir, en cierta manera, sobre un elemento cuantitativo. Si los rasgos de una isotopa no son directamente observables, puesto que son elementos del significado y no del significante, el carcter cuantitativo puede ser la base de su identificacin. Los conceptos descriptivos de la semntica interpretativa no son, por lo tanto, desarrollados para un marco metodolgico cuantitativo, pero ofrecen muchos puntos de articulacin para la interpretacin de datos cuantitativos (Loiseau, 2006: 30).
14

24

Bndicte Pincemin

de ajustarlo, llegado el caso: en resumen, se trata de formular diversas operaciones cualitativas determinantes. Y despus del clculo, es bien sabido que lo que se obtiene es un resultado, no una respuesta.16 Falta toda la parte de interpretacin, de cualificacin eventual de ciertos fenmenos, y de la progresin del anlisis al elaborar un recorrido interpretativo.17 Nada de eso es un dato en s, ni tampoco el resultado de un clculo. La automatizacin del clculo no condiciona en absoluto a un uso mecnico. 2. Experiencias positivas reveladoras Luego de haber apartado las objeciones que impiden considerar incluso el abordaje textomtrico, invitamos al lector a compartir los primeros descubrimientos de la textometra efectuados por la semntica interpretativa. 2.1. El contraste de un texto en relacin con un corpus de referencia Es necesario comenzar por mencionar la experiencia memorable, incluso para el mismo Rastier, de ver cmo el clculo de la diferencia-reducida pone en evidencia, en el texto de un relato de Maupassant, formas claves para su interpretacin:
[...] necesit diez aos para comprender la importancia del nmero diez en la novela de Maupassant titulada Toine (cf. el autor, 1989, lib. II, cap.V); en cambio, el test de la diferencia reducida [aplicada en el

16 El clculo siempre proporciona un resultado, aunque ste sea vaco; sin embargo, si est mal concebido o no entra en una gestin de anlisis metodolgico que le da sentido, el resultado no aporta ninguna respuesta, tan slo unos resultados ociosos y en general voluminosos. 17 [...] lo cuantitativo y lo cualitativo no se oponen de ninguna manera: slo un anlisis cualitativo puede hacer significativos los fenmenos cuantitativos notables (Rastier, 2001: VII.3.5).

Semntica interpretativa y textometra

25

marco de un corpus de referencia cuidadosamente constituido] me lo puso instantneamente ante los ojos y aun me permiti sacar provecho de una ocurrencia en la primera lnea que, lo confieso, se me haba escapado, a pesar de que ella hubiera reforzado mi propsito (Rastier, 2001: III.3.5 nota 1).

El clculo lo haba producido Bourion, con la ayuda de programas que ella haba concebido junto con Maucourt. 18
ON le connaissait DIX lieues aux environs le pre Toine, le GROS Toine, Toine-ma-FINE, Antoine Mchebl, dit Brlot, le CABARETIER de Tournevent. Il avait rendu clbre le HAMEAU enfonc dans un pli du vallon qui descendait vers la mer, pauvre HAMEAU PAYSAN compos de DIX MAISONS normandes entoures de fosss et d'arbres. Elles taient l, ces MAISONS, blotties dans ce ravin couvert d'herbe et d' ajonc, [...]

Figura 1 Principio del relato Toine de Maupassant, destacando en mayscula unas grafas especficas (diferencia-reducida >3, frecuencia en Toine >2) en relacin con un corpus de referencia de 350 novelas y relatos de 1830 a 1970 resultado de la base de datos Frantext (corpus descrito en Bourion, 2001).

18 Aunque al abrir la parte del artculo consagrado a la historia del descubrimiento de la textometra en el marco de la semntica interpretativa, la experiencia de Rastier no es en rigor inaugural, ya que Bourion haba emprendido ya de manera significativa una reflexin y algunas experimentaciones sobre el tema. Pero esta experiencia puede considerarse como una etapa que estimula y refuerza las investigaciones en el dominio.

26

Bndicte Pincemin

2.2. La coocurrencia al servicio de la descripcin temtica y semntica Luego vino rpidamente una puesta en relacin de conceptos tericos de isotopa (recurrencia de un sema) y de molcula smica (agrupamiento estable de semas) con un clculo de coocurrencia, experimentado inicialmente en el marco de estudios temticos sobre los sentimientos en la novela francesa (Rastier, 1995); luego retomado en otros contextos (Deza, 1999; Bourion, 2001; Valette, 2004; Poudat, 2006; Loiseau, 2006). Los pasos metodolgicos se sintetizan as:
Resumamos las principales etapas de una investigacin temtica asistida: (i) Eleccin de las hiptesis en funcin del objetivo general de la investigacin (un pre-anlisis estadstico puede guiar la investigacin de las hiptesis, pero la frecuentacin previa del corpus es indispensable para guiar las intuiciones). (ii) Investigacin de los co-ocurrentes por el mtodo estadstico de los diferenciales reducido o hipergeomtrico. (iii) Transformacin interpretativa de los co-ocurrentes en correlatos y constitucin de las redes temticas (esta etapa es facilitada si se practica una interrogacin simultnea en varios co-ocurrentes;19 cf. Bourion, 1995: I.2). (iv) Convalidacin de los resultados por cruce del anlisis temtico con el anlisis de otros componentes del mismo corpus, pro prueba en un corpus de control o por confrontacin con otras investigaciones temticas (Rastier, 2001: VII.3.4).

Lo que produce el clculo textomtrico es, entonces, los coocurrentes, en el plano de los significantes; y lo que se pretende es la obtencin de correlatos, en el plano de los significados. Pasamos de los primeros a los segundos por una interpretacin que reconoce la presencia de un rasgo semntico comn entre la o las palabras que sirven de inicio de la investigacin, y el coocurrente entonces calificable como correlato.
Los coocurrentes son elegidos en funcin de hiptesis sobre la variacin de lexicalizacin de los rasgos por observar.
19

Semntica interpretativa y textometra

27

Entre los coocurrentes, particularmente los coocurrentes a distancia reducida, se mezclan a los correlatos de palabras que estn en relacin fraseolgica: esto se ha observado en particular para el lxico de partes del cuerpo (para cur corazn: avoir cur importarle mucho algo a alguien, savoir par cur saber de memoria, etc.; para pied pie: de plain pied de una sola planta, faire le pied de grue estar de plantn, sur un pied dgalit en un pie de igualdad, etc.). Pero eso puede no ser tan negativo: por un lado, las locuciones son tanto ms fcilmente reconocibles e interpretables como el fenmeno es ahora bien conocido; ms sutilmente, y en particular en ciertos corpus, siempre es posible la desarticulacin de una locucin que vuelva a motivar semnticamente estos componentes sueltos. Ahora bien, ciertos ndices podran ayudar a distinguir las fraseologas y los correlatos posibles considerable valor de correlacin, en particular para las formas no lematizadas, y posicionalmente orientado (cfr. Bourion, 2001: 58); y la bsqueda de coocurrentes debe, pues, privilegiar un contexto no demasiado estrecho, del tamao del pargrafo (Rastier, 2001: VII.3.4; Deza, 1999: cap. 5). En las investigaciones de semntica interpretativa estos clculos de coocurrentes han sido equipados principalmente por dos programas: un programa informtico desarrollado en el INaLF por Maucourt, y la funcin Tema en el programa Hyperbase de Brunet. El programa Hyperbase (Brunet, 2006a) es uno de los ms difundidos en textometra, y, luego de su introduccin, la funcin TEMA ha confirmado su pertinencia. El programa de Mancourt merece aqu una exposicin rpida, ya que no ha conocido la misma difusin, y sobre todo ha sido desarrollado en el contexto de investigaciones explcitamente dirigidas en el marco de la semntica interpretativa, en una colaboracin del informtico con Bourion. Es movilizado repetidas veces en el volumen (Rastier, 1995), y encontramos una presentacin de su forma ms lograda en la tesis (Bourion, 2001). Este programa determina la lista de coocurrentes estadsticamente

28

Bndicte Pincemin

significativos de una palabra polo, segn la medida de la diferencia-reducida.20 Presenta el resultado bajo la forma de lista (organizada y ordenada en funcin del valor de la diferenciareducida y de la frecuencia), pero tambin fija los contextos de coocurrencia bajo la forma de concordancia, poniendo tipogrficamente de relieve los coocurrentes, y seleccionando las lneas de contexto en funcin de los coocurrentes.

ils s' ABATTIRENT , haletants , au pied d'un BUISSON incendi par les rayons du soleil couchant l' OMBRE s' ABATTAIT inerte et pied des ORMES lourde au

MAUP.cn 1881 FRAN.om 97

lie dernire de la clientle pieds du tentateur , voquait l' image fire ZOLA.BD conquise , ABATTUE aux et VENGERESSE de PRTRE se baissa vers *suzanne , pied du LIT , la releva , la MIT dans un toujours ABATTUE au d' ACAJOU , assez profondes , pieds de BRONZE et remplies d' une foule supportes sur deux de ces beaux vers le soir , *kai - *koumou pied des MONTAGNES dont les premiers ACCOSTA au CONTREFORTS TOMBAIENT n' ACCOSTA le rivage qu' pieds de l' ENDROIT qui faisait face au plusieurs milliers de point d' o les vtements taient pied du LIT , sous la moustiquaire . ACCROCHS au . ACCROUPIS au pied d' un MUR , trois hommes mangeaient du pain qu' 1883 MAUP.cn 1883 SUE.AG1831 VER.ecG 1868 VER.im 1874 MALR.ch 1933 PER.c 1965

La diferencia-reducida produce un valor numrico que mide el carcter no aleatorio de su coocurrencia. Se selecciona entonces una lista de coocurrentes significativos, conviniendo un umbral sobre el valor absoluto de la diferenciareducida.

20

Semntica interpretativa y textometra


. le gamin , ACCROUPI au pied du PARAPET , s' affairait manier sa pelle , le soleil ou sous la pluie , pied d' un SAULE , le cur battant , l' me ACCROUPIS au de la GRANDE CASE des pied d' un manguier , une ngrillonne douanes , ACCROUPIE au gmissait .

29
MART.Te 1940 MAUP.cn 1886 MILLE.B 1908

Figura 2 Ejemplo de documento producido por el programa de Maucourt: contextos de pie(s) de que contienen varios coocurrentes seleccionados por la diferencia-reducida, y ordenado alfabticamente sobre el coocurrente de izquierda ms prximo (Bourion, 2001, tomo II: 8).

El trabajo de descomposicin de tales extracciones de contextos se organiza reagrupando los contextos que realizan el mismo motivo semntico, el mismo tema, definible abstractamente como ciertos semas estructurados de manera actancial:
Cuando estudiamos los coocurrentes (plano de la expresin) para calificarlos eventualmente de correlatos del tema (plano del contenido), localizamos igualmente las relaciones casuales, lo que permite representar el tema como un grafo donde los nudos representan los componentes y las relaciones los primitivos (ergativo, acusativo, atributivo, dativo, benefactivo, instrumental, final, cfr. Rastier F., 1989: 62-65) (Bourion, 2001: 116).

La lectura de los contextos descriptivos de personajes y la localizacin de rasgos caractersticos comunes permite tambin abstraer sus roles bajo la forma de agonistas, es decir, un trabajo no solamente sobre el componente temtico del texto sino tambin sobre el componente dialctico, en el sentido de la semntica interpretativa.

30

Bndicte Pincemin

Los coocurrentes, como ndices potenciales de isotopas (Mayaffre, 2008) pueden tambin aprovecharse para contrastar semnticamente los lexemas a priori prximos. De esta manera, Deza (1999) estudia los coocurrentes respectivos de piedad, conmiseracin, compasin y misericordia en un corpus de novelas para caracterizar mejor su sentido efectivo en ese contexto. Loiseau (2006) muestra igualmente cmo el estudio de un concepto a travs de sus coocurrentes (p. ej. naturaleza en la obra del filsofo Deleuze) puede ayudar a delimitar a la vez su unidad de sentido y sus diversas acepciones. 2.3. Hacia la localizacin de pasajes Bourion (2001) sugiere una prolongacin en la localizacin de correlatos temticos a travs de una presentacin de resultado ms selectiva y ms flexible que las lneas de concordancia del programa Maucourt:
Queda por concebir programas que busquen automticamente partes de textos que comporten un nmero importante (y estadsticamente pertinente) de palabras relacionadas con el miedo (el campo lexical de estudio), y tambin de aquellas que hemos calificado como correlatos: Unas rfagas sealaran pasajes probablemente indexados sobre la isotopa del miedo (Bourion, 2001: 106).

Existe un clculo textomtrico llamado rfagas, pero es ms bien del lado de la funcin Frases-clave de Hyperbase (Brunet, 2006a) adonde habra que encontrar una primera realizacin de esta idea. Los lingistas de la semntica interpretativa conocen poco esa funcin, y por lo dems, sera posible revisar su concepcin (el clculo ha sido realizado por una sucesin de ajustes heursticos, sin haber tenido an la ocasin de un debate cientfico 21 ). Habra, sin embargo, en la concepcin de tal
Se asemeja, no obstante, al clculo de respuestas modales expuesto en (Lebart et al., 2000).
21

Semntica interpretativa y textometra

31

funcionalidad un espacio de colaboracin entre la semntica interpretativa y la textometra. Otra forma de localizacin de pasajes propuesta por la textometra consiste no en una extraccin selectiva, sino en una representacin grfica del conjunto del texto, con un indicador de densidad de correlatos en el transcurrir del texto. Ehrich (1995) dibuja as unos grafos que figuran las manifestaciones del tema ambicin en Pap Goriot (Balzac). La textometra ha concebido luego otra representacin adaptada a la percepcin de fuertes densidades de ocurrencia o de coocurrencias en el seno de un corpus: el mapa de secciones (Lamalle y Salem, 2002). Pero la cuestin del indicador que estara por construirse para medir esta densidad (integrando consideraciones no solamente de frecuencia sino tambin de diversidad, de especificidad, etc.), y la cuestin ms delicada de la delimitacin de un pasaje queda por trabajar, tanto en el plano terico como en el plano tcnico. De hecho, los desarrollos ulteriores de la semntica interpretativa han precisado el concepto de pasaje y sealado su importancia fundamental en la descripcin lingstica, reconocindola como signo que articula los planos del significado y del significante. Ahora bien, la localizacin de zonas densas en coocurrentes podra ser un punto de apoyo para la localizacin de pasajes:
Cuando se apoya sobre corpus de textos que pertenecen al mismo gnero y al mismo discurso que el texto analizado, el test de la diferencia reducida permite localizar agrupamientos de coocurrentes que son buenos candidatos para la constitucin de pasajes (Rastier, 2008).

2.4. La caracterizacin de textos y de gneros textuales El anlisis temtico mediante los coocurrentes puede ser puesto al servicio de la caracterizacin de textos. En el proyecto Princip (Valette, 2004) lo que est en juego es localizar y discriminar

32

Bndicte Pincemin

las pginas racistas y las pginas anti-racistas en internet. La textometra se ha movilizado para construir temas especficos para unos y para otros: para una lexa que pertenezca a un fondo isotpico comn, como inmigracin o extranjero, se buscan sus correlatos en el sub-corpus racista y en el anti-racista. Los sub-corpus se revelan tambin caracterizables por ndices de toda naturaleza, no solamente lexicales sino tambin morfolgicos y semiticos. La textometra ha permitido tambin observar concretamente la incidencia semntica del marco genrico, que ocupa un lugar determinante en semntica interpretativa. As por ejemplo, en un corpus de literatura francesa se ha evidenciado que la palabra amor no atrae los mismos correlatos y, por lo tanto, no construye las mismas isotopas ni los mismos temas si se encuentra en novelas o en poesas (Bourion, 2001: 42-47). Del lado de la novela se sealan contextos de uso tales como: amor platnico, inspirar (el amor/un amor...), amor exclusivo; e incluso, pasin, apasionado, celos, ambicin, dolor, orgullo, olvido, renunciamiento, revulsin, vanidad, egosmo . Y para la poesa: alegra, himen, himeneo, gneo, sonrojar, trampa, ruiseor, suspiro, entre otras. Los anlisis factoriales sobre los recuentos y medidas proporcionados por la sociedad Synapse en su corpus (Malrieu y Rastier, 2001; Beauvisage, 2000), han sido igualmente experiencias concluyentes que confirman la determinacin de lo global sobre lo local, y las interrelaciones transversas a los planos de descripcin. Estas experiencias de lingstica de corpus estn, sin embargo, al margen de la textometra, pues incluso si el anlisis factorial es un clculo practicado corrientemente en textometra, la ausencia aqu de retorno al texto (la sociedad Synapse no da acceso a sus fuentes) no permita hablar propiamente de una gestin textomtrica. Por el contrario, y con el mismo espritu, pero esta vez controlando el anlisis mediante retornos al texto, Poudat (2006) procede a la descripcin de un gnero textual, el del artculo cientfico de

Semntica interpretativa y textometra

33

lingstica francesa, segn los principios de la semntica interpretativa y recurriendo a procedimientos textomtricos disponibles en el programa DTM.22 La descripcin se apoya tanto en un anlisis lexical como en una descripcin morfosintctica, y explora diferentes planos, infratextuales (como la seccin) y supratextuales (el estilo del autor, el dominio...). Para describir los textos y los gneros, la semntica interpretativa propone interesarse en el componente temtico, pero tambin en otros tres componentes (dialctico, dialgico, tctico). Tomar en cuenta estos componentes diferentes es tan importante como su funcionamiento en interaccin. Las tesis de Loiseau (2006) y Poudat (2006) proponen nuevas maneras de movilizar los clculos textomtricos en el espritu de la semntica interpretativa, especialmente los diagramas de distribucin en diferentes planos, como aquel del texto o del pargrafo (diagramas tcticos y gamas de densidad) ( Cfr. Loiseau, 2006: 12.F.).

3. Connivencias de fondo Las experiencias precedentes han mostrado el carcter prometedor del abordaje textomtrico para una investigacin sobre el corpus, en el marco de la semntica interpretativa. Para confirmar la intuicin, nos proponemos ahora relevar de manera ms completa las adecuaciones esenciales entre la teora de la semntica interpretativa y los principios fundadores del mtodo textomtrico.

El software DTM est concebido y desarrollado por Lebart, y est difundido en la direccin http://www.dtm vic.com/. A dominancia estadstica, est especializado en los procedimientos de anlisis de datos (anlisis factorial, clasificacin...) y en las tcnicas matemticas de ayuda a la interpretacin de resultados.

22

34

Bndicte Pincemin

3.1. Lingstica y semntica La semntica interpretativa se interesa en el sentido. Segn ella, el sentido puede elaborarse a partir de ndices morfolgicos, sintcticos, fonticos, etc. Puede ser transversal a las categoras gramaticales, movilizar de igual manera una puntuacin, un aspecto verbal, un morfema, un perfil prosdico y rtmico, una tipografa o una compaginacin (Bourion, 2001; Malrieu y Rastier, 2001; Beaudouin, 2002; Valette, 2004; Loiseau, 2006). La textometra est en condiciones de tomar en cuenta descripciones de textos de toda naturaleza, incluso si estn poco explicitados por una codificacin del corpus. El enfoque semntico propuesto por la textometra est en total acuerdo con la demanda de de(s)-ontologa formulada por Rastier.23 Se trata de evitar todo presupuesto reductor; queremos, sobre todo, permanecer lo ms cerca del texto y no comenzar por estudiarlo a travs del prisma de una ontologa. As, desde sus comienzos, la textometra se convierte en una especialidad del tratamiento de las preguntas abiertas en las encuestas para evitar la post-codificacin de las respuestas (entre la encuesta y el anlisis) que borra variaciones de expresiones potencialmente significativas (Lebart et al., 2000).24 De igual manera, los programas computacionales de anlisis textual que proponen tratamientos estadsticos o cuantitativos algunas veces
En el plano experimental, Deza (1999) muestra especialmente cmo la canonicidad que se expresa en el corpus est desfasada con una representacin puramente referencial del mundo, con el ejemplo de la edad de los personajes en la novela francesa. 24 Un ejemplo dado por (Lebart y Salem, 1994: 169 y 188) a la pregunta: Cules son las razones que, segn usted, pueden hacer dudar a una mujer o a una pareja de tener un hijo? , las respuestas falta de dinero y razones financieras (o incluso el trabajo de la mujer y la mujer trabaja) seran a priori asimiladas a la misma respuesta por una post-codificacin; ahora bien, un estudio textomtrico que preserva estas formulaciones muestra que estas maneras de expresarse son significativamente correlativas a encuestados de categoras socio-profesionales muy contrastadas, y donde se reconocen matices importantes.
23

Semntica interpretativa y textometra

35

muy prximos a los tratamientos textomtricos, pero que comienzan por remplazar el texto por una representacin en trminos de categoras predefinidas (proyectando el texto sobre una ontologa), salen claramente del mtodo textomtrico. 25 La preocupacin sobre la fidelidad al texto se ha expresado vivamente incluso en el debate que atraviesa la comunidad textomtrica y que concierne a la lematizacin: Hay que segmentar, en verdad, el texto en formas grficas tal cuales?, o bien no es ms justo aplicar un pre-anlisis puramente morfosintctico que asimile todas las formas flexivas de una misma palabra en la entrada del diccionario correspondiente? Dicho de otra manera, elegimos contar y analizar independientemente flor y flores, es, ramos y ser?, o bien preferimos reconocer aqu slo los lemas flor y ser? La cuestin ha quedado largo tiempo abierta, pues si la lematizacin era seductora para desambiguar eficazmente numerosas homografas (p. ej. Un partido poltico vs. he partido), la atencin al texto haba revelado tambin que a menudo las diferentes flexiones eran portadoras de una semntica diferente, los plurales eran tpicamente ms concretos que los singulares (p. ej. le travail el trabajo vs. les travaux las obras, por ejemplo, pblicas) (Geoffroy, Lafon, Tournier, 1974). La semntica interpretativa comparte la sensibilidad de no aplastar estas distinciones, como lo muestra el estudio de Bourion sobre al pie de vs. a los pies de en un corpus de literatura francesa: el singular reenva a descripciones de localizacin, con un sema de /verticalidad/ (al pie de la montaa, etc.), mientras que la forma plural corresponde a escenas de
25 Entre los softwares que proponen un anlisis textual va una reduccin a categoras, y no trabajando sobre el texto mismo, podemos citar Tropes (que sin embargo implementa unos clculos de origen textomtrico como los rfagas) o el anlisis semntico liberado por Cordial (mientras que el componente analizador morfo-sintctico del mismo software puede muy bien preparar un corpus para un anlisis mediante un software textomtrico). El caso de Prospero es intermediario, en el sentido de que las categoras estn construidas por el utilizador uno no est sometido a un diccionario universal predefinido.

36

Bndicte Pincemin

imploracin ( arrojarse a los pies de alguien ), apelando esta vez a los semas /humano/ y /sentimiento/ (Bourion, 2001: 62). 3.2. Semntica de los textos 3.2.1. El lugar central de los textos en todas las etapas del anlisis textomtrico El primer objeto emprico de la lingstica no es la frase o la proposicin sino el texto. La realidad observada es en principio la de los textos, situada en las prcticas, y no en las frases recibidas independientemente del texto del cual son resultado. En los trminos de la semntica interpretativa, desarrollada luego en semntica de los textos, lo global determina lo local, si bien el anlisis de una frase, para ser justo y completo, requiere la consideracin de su contexto textual, ver intertextual el texto es as la unidad mnima del anlisis. Ya por su nombre, la textometra afirma tambin su adhesin a la unidad texto: la evolucin en la designacin de la lexicometra en textometra quiere expresar que el anlisis realizado no se limita al estudio del lxico, sino que se interesa, antes que nada, en la descripcin del texto en sus mltiples dimensiones. Desde su origen, la textometra trabaja naturalmente sobre corpus de textos integrales, por oposicin a las prcticas de corpus de frases o de fragmentos de textos. De hecho, la textometra es empleada tanto por lingistas como por investigadores de otras ciencias humanas (literatura, poltica, historia, filologa, etc.), cuyo objetivo es el de darse los medios de renovar la lectura de sus corpus, respetando los datos obtenidos. El textmetro conoce muy bien su corpus, cuando no, lo adquiere. Ya lo ha recorrido, en ciertos casos puede ya incluso haberlo ledo y reledo, y fuente o resultado de esta frecuentacin asidua? est a menudo unido a l. Ya que el acercamiento textomtrico es aquel de la curiosidad de una lectura renovada mediante la puesta en evidencia de regularidades todava

Semntica interpretativa y textometra

37

no percibidas. 26 La textometra es as complementaria de acercamientos como la bsqueda o el filtraje de informaciones, como los sistemas de pregunta-respuesta, donde el corpus es de alguna manera un reservorio, a veces constituido sobre la marcha por filtraje sobre algunos criterios como la presencia de ciertas palabras-clave, corpus reservorio cuyo conocimiento global importa poco, y cuyo papel es slo el de poder entregar algunos extractos al contenido pertinente, a menudo sin consideracin particular por la formulacin empleada y su contextualizacin completa. La textometra se caracteriza aqu de manera muy clara por su adhesin a los textos que componen su corpus, construido y estudiado por s mismo. En este sentido, Geffroy y Lafon (1982) haban tenido que subrayar, no sin humor, linscurit dans les grands ensembles 27 : la aplicacin de clculos textomtricos a los corpus demasiado grandes para tener un primer conocimiento interior, no superficial, como a los corpus donde los textos estn fundidos en algunas grandes categoras meta-textuales que ocultan la unidad de cada texto, apenas proporcionan anlisis significativos, pues la interpretacin de los resultados de los clculos es tan solo aproximativa y limitada, e incluso puede extraviarse. La importancia de los textos se materializa en la concepcin misma de los programas textomtricos. En Hyperbase , la hipertextualidad, masivamente empleada, es sistemticamente aprovechada para regresar al texto y visualizar las ocurrencias
De ah las connivencias notables con los estudios literarios (trabajos sobre las Flores del Mal (Baudelaire) de Viprey, sobre el teatro de Giraudoux de Brunet, etc.), la filologa (p. ej. interface de consulta de la Base de Francs Medieval) o la exgesis ( cfr. el inters del Centro Informtico y Biblia de la abada de Maredsous por un programa como Hyperbase). 27 Esta expresin es un juego de palabras en francs, ya que se presta a una doble lectura. A priori, podra tratarse de un tema debatido en la prensa, significando la violencia y la inseguridad en las zonas urbanas constituidas de inmuebles; pero aqu, en el contexto de estadsticas sobre las palabras, es reinterpretada para evocar los riesgos de error cientfico en el trabajo sobre los corpus demasiado grandes, del cual no se llega a conocer el contenido.
26

38

Bndicte Pincemin

en su contexto textual. La ergonoma de los programas prev siempre o una visualizacin de texto a los lados de la visualizacin de listas, de cuadros o de representaciones grficas, o una navegacin hipertextual, permitiendo un acceso inmediato a los contextos de ocurrencia elegidos.28 3.2.2. La contextualizacin como principio de anlisis y el papel determinante del corpus de referencia La textometra cuenta, sita, caracteriza las unidades en los contextos: as se detectan los lazos (morfolgicos, lexicales, sintcticos, semnticos...) entre unidades; se establecen igualmente similitudes entre contextos (tpicamente entre textos), que producen cartografas dibujando tipologas. Como se ha visto (en trminos de modelizacin), los contextos son tanto locales (coocurrencias, concordancias) como globales (especificidades, cartografa por anlisis factorial de correspondencias). Para la problemtica hermenutica, [el texto] es la unidad mnima (aunque no elemental). Un texto slo puede leerse en un corpus (Rastier, 2008). La comprensin del texto [...] procede por contextualizacin e intertextualizacin (Rastier, 2001: III.3.2). Esto se extiende a todas los planos, reformulndose en varios principios (Rastier, 2001: III.3.2): El principio de contextualidad (dos signos o dos pasajes de un mismo texto, colocados lado a lado, seleccionan recprocamente los elementos de significacin (semas)), el principio de intertextualidad (anlogo para dos pasajes de textos diferentes), y el principio de architextualidad, segn el cual todo texto colocado en un corpus recibe determinaciones semnticas y modifica potencialmente el sentido de cada uno de los textos que lo componen. Proporcionando una lectura no lineal (mediante la extraccin de contextos, la generacin de concordancias), la textometra juega fundamentalmente sobre los principios de contextualidad
28

Ver, por ejemplo, Heiden (2004) para el programa Weblex.

Semntica interpretativa y textometra

39

y de intertextualidad. De igual modo, las coocurrencias se han podido comprender como una forma de contextualizacin mnima en el espritu de la semntica interpretativa (Mayaffre, 2008). En cuanto al principio de architextualidad, el funcionamiento estadstico del corpus de referencia es una concretizacin: en efecto, todo texto incluido en el corpus aporta su contribucin a las frecuencias globales,29 y recprocamente se encuentra caracterizado en relacin con las frecuencias globales. La eleccin del corpus de referencia es determinante para el anlisis y condiciona completamente la interpretacin. La textometra permite ver un texto de manera completamente diferente segn el corpus sobre el cual es perfilado. El texto no tiene, pues, un contenido por extraer, una sola buena lectura sino tantos enfoques posibles como contextualizaciones pertinentes hay en el corpus. Por la va del corpus de referencia, lo global determina lo local, y el anlisis es la puesta en evidencia de formas que se destacan sobre un fondo (Rastier, 2001: I.4.2.). 3.3. Semntica interpretativa A un acercamiento ontolgico, emparentado con una forma de contemplacin (de lo que es), la semntica interpretativa opone una concepcin dinmica del sentido, una praxeologa, relativa a las prcticas contextualizadas. El sentido se construye en el transcurso de la lectura, familiarizada con un reconocimiento de formas, poco a poco delimitadas, e incluso evolutivas. Se trata de una actividad perceptiva, el gesto interpretativo se ajusta en funcin de limitaciones lingsticas recibidas del texto. As se
29 Tambin se puede trabajar con un corpus de referencia que no contiene el corpus de trabajo (cfr. Las especificidades exgenas en Hyperbase, calculadas en relacin al corpus literario Frantext), pero es un caso particular ms raro (casi no implementado por los programas de textometra) y a menudo ms discutible (estatus y cualidad del corpus de referencia, conocimiento preciso de su composicin y acceso a los textos, adecuacin y posibilidades de ajustamiento al corpus de trabajo).

40

Bndicte Pincemin

concibe la riqueza de sentido del texto, pero tambin su significatividad, no arbitraria, las limitaciones lingsticas impidiendo hacer decir cualquier cosa a un texto. El anlisis textomtrico procede igualmente de un enfoque construido: no se puede proporcionar un corpus, poner en marcha el programa, y recuperar el resultado como producto terminado. Por el hecho de su importancia determinante, la constitucin del corpus es una primera etapa que compromete elecciones interpretativas: los datos no estn precisamente dados (Rastier, 2008). La codificacin de ese corpus, y su puesta en correspondencia con la estructura de datos textomtricos (para definir las unidades, las tipologas, las divisiones, etc.) proceden igualmente de eleccin, en correspondencia con las hiptesis y expectativas interpretativas. Luego, se tratar de hallar un buen punto de entrada; de lanzar un clculo pertinente, comprendiendo los principios segn los cuales funciona; de calificar los resultados cuantitativos, con un flujo que siempre remite a tareas de lectura, de comprensin (recorrido de contextos, comparacin, reagrupamientos). La dinmica de la interpretacin se traduce una vez ms por la eleccin de un nuevo punto de entrada, de un nuevo contexto, o de un nuevo clculo, que a menudo es de hecho un ajuste del tratamiento precedente y encontramos muy concretamente la interpretacin como accin y como gesto que afina dinmicamente su trayectoria. Podemos reconocer en ciertos procesos textomtricos principios hermenuticos tradicionales, como el de los pasajes paralelos, que consiste en recurrir, para la comprensin de un pasaje oscuro, a la lectura de otro pasaje del mismo texto (o de un texto relacionado) que aborda el mismo tema. La delinearizacin y las reorganizaciones del texto facilitadas por la digitalizacin equipan eficazmente esta tcnica hermenutica de pasajes paralelos (Bourion, 2001: 116; Pincemin, 2006).

Semntica interpretativa y textometra

41

3.4. Semntica diferencial La semntica interpretativa se define como una semntica diferencial, por oposicin a las semnticas inferenciales o referenciales. Es, por esa razn, plenamente lingstica pues no est fundada en una realidad exterior, fsica o psquica incluso si permite comprender posteriormente la articulacin del texto con esas realidades de otro orden.30 3.4.1. El funcionamiento diferencial de las representaciones y los clculos textomtricos Formalmente, en el plano de los descuentos de frecuencias y otros clculos que de ah resultan, la textometra supone que de acuerdo a una tipificacin de unidades, que fija lo que se recuper del mismo (y se acumula en trminos de frecuencias) y lo que es diferente (y participa, por lo tanto, en el nmero de tipos), ya tenemos fundamentalmente una modelizacin que, en un momento dado, elige asimilar ciertas unidades y disimilar otras. La tipificacin, que regula ese juego de identificacin y de oposicin, es relativa al punto de vista elegido, que puede variar en el transcurso del anlisis al igual que, lingsticamente, las aproximaciones y las diferenciaciones evolucionan segn la activacin, la aferencia o la inhibicin de semas, dependientes ellos mismos en particular de las contextualizaciones. Luego, las estadsticas contrastivas propuestas en textometra han sido bien comprendidas como un mecanismo diferencial. Debido a que estas estadsticas ponen en evidencia lo que se aleja de la norma (definida por el corpus de referencia), ellas destacan los contrastes en un todo que hace sistema (Bourion, 2001: 18; Rastier, 2001: III.2.2).
Aqu se reenva al concepto de polos intrnsecos del texto y su participacin en la definicin de gneros textuales (Rastier, 2001: I.1.1).
30

42

Bndicte Pincemin

Pero tambin, siempre en los procedimientos textomtricos, y sin ir hasta procedimientos matemticos elaborados, un simple orden alfabtico de una lista del vocabulario, o un orden del contexto izquierdo o derecho de una concordancia, hacen tambin entrar en juego heursticamente en su lectura una percepcin diferencial: el ojo destaca los motivos recurrentes, acercados por el ordenamiento, y las variaciones en el interior o en las fronteras de estos reagrupamientos (Pincemin, 2006). 3.4.2. La atencin en la estructura y la dominacin de lo cualitativo La semntica interpretativa resulta de un acercamiento estructural de la lengua, en la lnea de los trabajos de Hjelmslev, Greimas, Pottier y Coseriu. Se trata de situar las unidades lingsticas unas en relacin con otras, en el interior del sistema que forman, y no por una cualificacin o una evaluacin que reenva a una realidad externa a la lengua. Esto vale tambin para la atribucin de una interpretacin: la semntica interpretativa no pretende asociar a un signo, una proposicin o un texto, su interpretacin, sino que busca las restricciones planteadas por la lengua y por su uso en el texto considerado para jerarquizar las lecturas posibles. Asimismo, ciertas medidas textomtricas corresponden a probabilidades o a valores estadsticos que permiten una cualificacin en trminos de significatividad estadstica; otras son simples descuentos de frecuencias, con ciertos valores particulares (como la frecuencia 1 del hpax); estas cifras son utilizadas como umbral de los resultados y para la determinacin de una seleccin (de palabras, de coocurrencias, etc.). Pero tambin, y sobre todo, son utilizadas para la clasificacin que inducen, el ordenamiento jerrquico que permiten operar. La prctica textomtrica consiste, entonces, luego de la generacin de una lista delimitada y ordenada por criterios cuantitativos, en trabajar ms cualitativamente sobre zonas de la lista: el inicio de la

Semntica interpretativa y textometra

43

lista que proporciona los elementos dominantes, como zonas intermedias (para observar los fenmenos ms matizados), incluso cercanos del umbral (para ajustar la seleccin). Dicho de otra manera, lo cuantitativo gua el anlisis, pero es un examen cualitativo (con retorno al texto, etc.) el que determina la interpretacin. 3.5. Semntica unificada La semntica interpretativa est unificada, en el sentido en que los principios diferenciales e interpretativos se observan en diferentes planos, tpicamente aquellos de la lexa, del perodo y del texto. Quizs tambin podramos situar bajo esta preocupacin unificadora el rechazo de las divisiones disciplinarias que separan puntos de vista no obstante complementarios e ntimamente articulados: sintaxis, semntica y pragmtica una semntica bien hecha integra consideraciones sintcticas y debe saber describir los fenmenos relegados a la pragmtica, filologa y hermenutica, y ms generalmente las artes y ciencias del texto sobre las cuales Rastier (2001) propone adoptar un punto de vista que abarca, por el hecho de su objeto en comn, el texto. La textometra se adapta muy naturalmente con la multiplicidad de planos y sus analogas de funcionamiento. De hecho, formalmente, la tcnica no exige ms que proporcionarle unidades o contenidos, repartidos (mejor, contextualizados) en los continentes. Poco le importa la naturaleza de esos contenidos y continentes, al lingista le corresponde determinar las unidades pertinentes, y de hacerlas variar como bien le parezca. Las unidades no son necesariamente las palabras; las entidades englobantes, no necesariamente los textos. Como lo hemos visto, las unidades utilizadas por el clculo no tienen pretensin lingstica, las unidades lingsticas/ hermenuticas son construidas, y lo que queremos sealar aqu es que esas unidades construidas pueden relevar de otros planos

44

Bndicte Pincemin

que el de las unidades que hayan servido al clculo. Claramente, la textometra se sita as del lado de los acercamientos textuales, pues ella no es simple malabarismo con signos predefinidos. Como lo muestran las experiencias de Brunet (2006b),31 si hay signo no es considerado en tanto tal, sino que es aprehendido al vuelo para un objetivo ms global, el de hacer destacar lneas de fuerzas; es decir, despejar las formas significantes. Un clculo basado en palabras puede as conducir a localizar semas (infralexicales, en el sentido en que una palabra es a priori portadora de varios semas) y a construir molculas smicas que representan un tema (supra-lexical, en el sentido en que su manifestacin puede ser difusa sobre todo un pasaje, ver todo un texto, y donde se presta a lexicalizaciones mltiples). Rastier hace hincapi en cmo, incluso trabajando en apariencia en el nivel lexical del corpus se captan de hecho, realidades de otro nivel:
Para progresar, la temtica debe rebasar el anlisis lxico [...]. La palabra a partir de la cual puede comenzar la investigacin temtica no es el objeto, a diferencia de una palabra-vedette que sera objeto de una investigacin lexicogrfica. Desde luego se va a buscar, utilizando los medios informatizados de asistencia, otras palabras y expresiones que sean co-ocurrentes. Una vez interpretadas, las co-ocurrencias para las que se habr identificado una relacin semntica sern considerados como correlatos, es decir, como lexicalizaciones complementarias de la misma molcula smica. La red de correlatos conecta las manifestaciones lexicales del tema. Pero se requiere poder discernir los mejores puntos de entrada en esa red: La vedette es slo uno de esos puntos de entrada que presume lexicalizar sintticamente el tema que se trata de describir Rastier (2001: VII.3.2).

Las experiencias de caracterizacin de textos o de gneros, basadas explcitamente en unidades no lexicales (medidas morfosintcticas del corpus Synapse, ndices semiticos del
Y la de otros antes que l; Salem, por ejemplo, haba tenido experiencias similares.
31

Semntica interpretativa y textometra

45

corpus Princip, etc.) han mostrado que las tcnicas estadsticas permiten captar regularidades significativas, aunque imperceptibles para una lectura sin la herramienta textomtrica. La textometra entonces formara parte de las tcnicas capaces de sumergirse en las dimensiones profundas del material textual:
Por ltimo, la oposicin humboltiana entre la forma interior y la forma exterior de los textos, que ha hecho correr tanta tinta entre los estilistas, podra recibir una nueva formulacin que la relativiza: la forma interior, lejos de ser un misterio esttico, est constituida por las regularidades hasta el presente imperceptibles de la forma exterior, la de la expresin, que los medios tericos y tcnicas de la lingstica de corpus permiten evidenciar en el presente. En otros trminos, el contenido de un texto no se reduce, desde luego, a una misteriosa representacin mental: un texto est hecho de dos planos, el de las formas semnticas y el de las formas expresivas, cuyo gnero, en particular, norma la puesta en correlacin. En el seno de cada plano se establecen relaciones forma/fondo de tipo gestltico, que permiten la percepcin semntica y fonolgica (Rastier, 2005).

La distincin de dos planos reafirma que la textometra puede hacer percibir las regularidades expresivas que participan en la construccin de formas semnticas, sin que por ello entregue directamente un sentido, extraer el contenido. La interpretacin permanece como parte integrante del anlisis textomtrico. 4. Perspectivas de aportes mutuos Actualmente la textometra suscita nuevas proposiciones y nuevos desarrollos, particularmente en torno de la realizacin colaboradora de una plataforma informtica abierta, agrupando las investigaciones y los desarrollos informticos de los principales equipos del dominio.32
Este proyecto llamado Textomtrie (http://textometrie.ens-lsh.fr/) es actualmente (2007-2010) financiado por la Agence Nationale de la Recherche (ANR06-CORP-029).
32

46

Bndicte Pincemin

4.1. Modelizacin de los textos y de los corpus El punto de vista de la semntica interpretativa anima a preservar y desarrollar la utilizacin de los corpus estructurados y etiquetados para la pluralidad de segmentaciones y de descripciones que ellos propician (Loiseau, 2006). En el mismo espritu, la logometra (Mayaffre, 2005), otra designacin reciente de la lexicometra (al igual que la textometra), afirma la pertinencia de una textometra capaz de trabajar sobre mltiples niveles lingsticos, y la semntica interpretativa forma parte de sus fundamentos lingsticos fuertes. La semntica interpretativa insiste tambin en la posibilidad de definir los sub-corpus de pertinencia enriquecida. Ella coincide con el retorno de los usuarios de programas de textometra, que constatan la necesidad de poder ajustar y redefinir un sub-corpus en el transcurso de los anlisis. Esta dinmica del corpus, en parte ya asumida en el programa Lexico 3, est inscrita en el cuaderno de especificaciones tcnicas de las nuevas aplicaciones textomtricas. La discusin est comprometida con la redefinicin de una modelizacin del texto. El modelo textomtrico tradicional est basado en una segmentacin de referencia sin necesariamente una valoracin terica asociad pero, a pesar de todo, en relacin con la cual todas las otras segmentaciones deben definirse. El punto de vista de la semntica interpretativa sostiene la proposicin de un modelo diferencial, en el cual el texto se despliega en el cruce de las dimensiones descriptivas adoptadas, afirmando as la apertura de la modelizacin (jams completa), y su carcter diferencial y unificado (que prescinde de introducir jerarquas entre las dimensiones descriptivas) (Pincemin, 2008). 4.2. Concepcin de funcionalidades La semntica interpretativa puede proponer unas pistas para comprender las funcionalidades textomtricas existentes indi-

Semntica interpretativa y textometra

47

vidualmente (p. ej. el anlisis de concordancias, en Pincemin, 2006). Puede renovar tambin la manera de considerarlas en su conjunto: por ejemplo la concepcin morfosemntica, que se apoya en la oposicin entre puntos regulares y puntos singulares (Rastier, 2001: I.4.2) podra sugerir un anlisis global de las funcionalidades textomtricas entre aquellas que captan regularidades, particularmente las repeticiones de lo idntico, y aquellas que delimitan singularidades. Las proposiciones de Bourion (2001), concretizadas en los programas realizados por Maucourt, han participado en el mejoramiento de ciertas funcionalidades (cruzamiento de concordantes con coocurrencias) y en la formulacin de innovaciones, como los cuadros sinpticos (que quedan por integrar en los programas actuales). Las investigaciones de Malrieu (2006) exploran la actualizacin del juego de los indicadores adaptados a los textos y los clculos apropiados a la descripcin de estructuras intratextuales. Loiseau (2007) desarrolla en los planos terico e informtico la explotacin de los corpus multianotados, para los anlisis que tomen en cuenta las unidades lingsticas de importancia y de diversas naturalezas, segn la idea rastieriana de semntica unificada, con mltiples posibilidades de contextualizacin. Su programa Corpus Reader opera por el momento unos clculos no especficamente textomtricos, pero explora una va en la cual la textometra podra extenderse. Por ltimo, es probable que el terreno de la anotacin dinmica del corpus, es decir el enriquecimiento del corpus por las interpretaciones que pueden servir de apoyo a los anlisis ulteriores, pueda interesar a la semntica interpretativa. Una colaboracin sobre este aspecto sera mucho mejor recibida que la actualizacin de una tal funcionalidad, y hacer que los usos asociados condicione an completamente su pertinencia (mal definida o mal aplicada, una funcionalidad tal puede volver totalmente inmanejable y no interpretable el corpus).

48

Bndicte Pincemin

4.3. Elaboracin de orientaciones metodolgica El trabajo en torno del anlisis temtico (Rastier, 1995) ha permitido, lo hemos visto, la elaboracin de un mtodo de bsqueda de correlatos para la construccin de molculas smicas representativas de temas. Las tesis de Bourion (2001) y Deza (1999) han proseguido y precisado esta reflexin metodolgica sobre el acceso semntico a los bancos textuales. Las de Poudat (2006) y de Loiseau (2006) las han extendido tomando en cuenta las posibilidades de enriquecimiento lingstico de los corpus, y considerando ms sistemticamente los cuatro componentes de la descripcin textual segn la semntica interpretativa: temtica, dialctica, dialgica y tctica. Si continuaran con el desarrollo de sus experiencias y de sus prcticas en los procedimientos textomtricos, los lingistas de inspiracin rastieriana podran contribuir con la elaboracin un conjunto que consistira de elementos metodolgicos33 fundados en un marco terico lingstico fuerte. Todas las etapas del recorrido textomtrico pueden ser clarificadas por una puesta en perspectiva terica y metodolgica: las consideraciones filolgicas relacionadas con la constitucin de un corpus inicial y su codificacin, la interpretacin semntica de las funcionalidades (concordancias, coocurrencias, cfr. supra), los mtodos de examen (como la organizacin de los contextos de concordancia en funcin de los semas actualizados), el encadenamiento de tratamientos. Estos aportes metodolgicos pueden ser asociados con la actualizacin de las interfaces.

Por ejemplo, la observacin de ritmos semnticos sugerida por Bourion (2001, vol. I: 47 y vol. II: 18-19).

33

Semntica interpretativa y textometra

49

Conclusin: perspectivas prcticas y tericas Otras tcnicas, otros clculos, podran ciertamente mostrar la pertinencia para el mtodo de la semntica interpretativa: si la argumentacin de este artculo es entusiasta, no quiere pretender, sin embargo, ni la exclusividad de la textometra como propuesta de respuesta informtica a la teora rastieriana 34 ni al carcter ideal de la textometra actual, que est de hecho todava en plena evolucin. Siendo as, es sorprende encontrar tantas connivencias de fondo entre los dos acercamientos, en torno a los fundamentos: texto, contextualizacin, intertextualidad y corpus, semntica diferencial, interpretacin y dinmica de la construccin del sentido. Aunque hay mucho inters en proseguir y profundizar las colaboraciones. La textometra podra ser la base de un entorno de lectura SAAS (Sistema de Ayuda al Anlisis Semntico), para retomar los trminos de Bourion (2001). El inters radica en aprovechar las posibilidades de lo digital para dotarse de herramientas de programacin que renueven los recorridos de lectura y los puntos de apoyo interpretativos. En este sentido, el estudio del potencial de la textometra para acompaar un acercamiento rastieriano de los textos releva plenamente de una reflexin sobre semntica e interpretacin: ella lo explora en un plano concreto, preciso y revelador. La experimentacin de esas nueEncontraremos unos ejemplos diversificados de perspectivas y de aplicaciones de software en relacin con la semntica interpretativa en el sitio Texto! (http://www.revue-texto.net/), especialmente en las secciones Dits et indits y Corpus et trucs. La mayora tiene relacin con la textometra, por su utilizacin de estadsticas textuales (Rossignol, Mauceri, Reutenauer...) o por el lugar central dado al anlisis cualitativo, semi-automatizado, tpicamente el de aplicaciones de anotacin y de visualizacin de semas y de recorridos (Beust, Tanguy, Thlivitis, Bnel, Perlerin, Roy...). Pero son tambin posibles otras vas menos cercanas, como el conexionismo o la programacin lgica con restricciones que han retenido la atencin por su afinidad con el carcter perceptivo de la semntica (Pri, 1995; Rastier et al., 1994).
34

50

Bndicte Pincemin

vas formas de lectura y de interpretacin no es una simple aplicacin, que es adems inevitablemente reductora, de la reflexin terica semntica: est en condicin de relanzarla y de renovarla, develndole realidades textuales o hermenuticas an no percibidas u olvidadas.

Referencias
ABLALI, Driss; Poudat, Cline (15-19 juin 2009). Smantique de corpus. Concepts fondamentaux et dialogue avec lADT , Ecole thmatique CNRS Mthodes Informatiques et Statistiques en Analyse de Textes, Besanon. BEAUDOUIN , Valrie (2002). Mtre et rythme du vers classique Corneille et Racine- , Paris : Champion, coll. Lettres numriques , 2. B EAUVISAGE , Thomas (2000). Exploiter des donnes morphosyntaxiques pour ltude statistique des genres. Application au roman policier , Mmoire de DESS, Centre de Recherche en Ingnierie Multilingue, INaLCO, Paris. B OMMIER -P INCEMIN , Bndicte (6 avril 1999). Diffusion cible automatique dinformations : conception et mise en uvre dune linguistique textuelle pour la caractrisation des destinataires et des documents, Thse de Doctorat, Linguistique, Universit Paris IV (Sorbonne). BOURION, Evelyne (1995). Le rseau associatif de la peur , in Franois Rastier (d.), Lanalyse thmatique des donnes textuelles : lexemple des sentiments, Paris : Didier, collection tudes de smantique lexicale, 107-145 [http://www.revuetexto.net/1996-2007/Parutions/Analyse-thematique/Bourion.pdf]. ___________ (soutenue le 14 dcembre 2001). Laide linterprtation des textes lectroniques, Thse de doctorat en Sciences du langage, Universit de Nancy II [http://www.revue-texto.net/ Corpus/Publications/Bourion/Bourion_Aide.html].

Semntica interpretativa y textometra

51

BRUNET , Etienne (2006a). Hyperbase, logiciel documentaire et statistique pour la cration et lexploitation de bases hypertextuelles. Manuel de rfrence. Version 6.0 (mai 2006). Laboratoire Bases, Corpus et Langage, UFR Lettres, Universit de Nice. ___________ (juin 2006b). Le corpus conu comme une boule , Corpus en Lettres et Sciences sociales : des documents numriques linterprtation, Actes du XVIIe Colloque dAlbi Langages et Signification, Albi, 10-14 juillet 2006, Carine DuteilMougel & Baptiste Foulqui (ds), et Texto!, vol. XI, n. 2 [http:/ /www.revue-texto.net/1996-2007/Parutions/Livres-E/Albi-2006/ Brunet.pdf]. E RLICH , David (1995). Une mthode danalyse thmatique. Exemples de lennui et de lambition , in Franois Rastier (d.), Lanalyse thmatique des donnes textuelles : lexemple des sentiments , Paris : Didier, collection tudes de smantique lexicale, 85-103 [http://www.revue-texto.net/1996-2007/ Parutions/Analyse-thematique/Erlich.pdf]. GEOFFROY, Annie; Lafon, Pierre et Tournier, Maurice (1974). Lindexation minimale - Plaidoyer pour une non-lemmatisation , E.N.S. de Saint-Cloud, 30 pages - Communication au Colloque sur lAnalyse des corpus linguistiques : Problmes et mthodes de lindexation maximale, Strasbourg, 21-23 mai 1973. ___________ (1982). Linscurit dans les grands ensembles. Aperu critique sur Le vocabulaire franais de 1789 nos jours dEtienne Brunet , MOTS, 5. HEIDEN, Serge (10-12 mars 2004). Interface hypertextuelle un espace de cooccurrences : implmentation dans Weblex , Actes des 7es Journes internationales danalyse statistique des donnes textuelles (JADT 2004), Grald Purnelle & al. (ds), Presse universitaires de Louvain, Louvain-la-Neuve (Belgium) [http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2004/pdf/ JADT_055.pdf]. LAFON, Pierre (1980). Sur la variabilit de la frquence des formes dans un corpus , MOTS, 1, 127-165.

52

Bndicte Pincemin

___________; Salem, Andr (1983). Linventaire des segments rpts dun texte , MOTS, 6. L AMALLE , Cdric; Salem, Andr (13-15 mars 2002). Types gnraliss et topographie textuelle dans lanalyse quantitative des corpus textuels , Actes des 6es Journes internationales dAnalyse statistique des Donnes Textuelles (JADT 2002), SaintMalo, Annie Morin & Pascale Sbillot (ds), Rennes : IRISA [http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2002/PDF2002/lamalle_salem.pdf]. L EBART , Ludovic et Salem, Andr (1994). Statistique textuelle : Dunod. LEBART, Ludovic; Salem, Andr et Bcue, Mnica (2000). Anlisis estadstico de textos, Lleida : Editorial Milenio. L OISEAU , Sylvain (1 dcembre 2006). Smantique du discours philosophique : du corpus aux normes. Autour de G. Deleuze et des annes 60, Thse de doctorat, Sciences du langage, Universit de Paris X Nanterre. ___________ (2007). CorpusReader : un dispositif de codage pour articuler une pluralit dinterprtations , Corpus , 6 [http:// corpus.revues.org/index1282.html]. MALRIEU, Denise (2006). Familles narratologiques et balisage du roman contemporain , Proceedings of the First International Conference of the Alliance of Digital Humanities Organisations , Paris: Centre Cultures Anglophones et Technologies de linformation, Paris IV. ___________ et Rastier, Franois (2001). Genres et variations morphosyntaxiques , Traitements automatiques des langues , 42 (2). MAYAFFRE, Damon (2005). De la lexicomtrie la logomtrie , LAstrolabe [http://www.uottawa.ca/academic/arts/astrolabe/ articles/art0048/Logometrie.htm]. ___________ (2008). De loccurrence lisotopie. Les cooccurrences en lexicomtrie , Syntaxe & Smantique, 9.

Semntica interpretativa y textometra

53

MELLET, Sylvie; Salem, Andr (ds) (2009). Topographie et topologie textuelles, Lexicometrica [http://www.cavi.univ-paris3.fr/ lexicometrica/numspeciaux/special9.htm]. MZAILLE, Thierry (1995). La couleur des sentiments chez Proust , in Franois Rastier (d.), Lanalyse thmatique des donnes textuelles : lexemple des sentiments , Paris : Didier, collection tudes de smantique lexicale [http://www.revue-texto.net/ 1996-2007/Parutions/Analyse-thematique/Mezaille.pdf]. PINCEMIN, Bndicte (2002). Smantique interprtative et analyses automatiques de textes : que deviennent les smes ? , Benot Habert (dir.), Dpasser les sens iniques dans laccs automatis aux textes, Smiotiques, 17, dcembre 1999. ___________ (juin 2006). Concordances et concordanciers -De lart du bon KWAC , Corpus en Lettres et Sciences sociales : des documents numriques linterprtation, Actes du XVIIe Colloque dAlbi Langages et Signification , Albi, 10-14 juillet 2006, Carine Duteil-Mougel & Baptiste Foulqui (ds) et Texto!, vol. XI, n. 2 [http://www.revue-texto.net/1996-2007/Parutions/ Livres-E/Albi-2006/pincemin.pdf]. ___________ (2008). Modlisation textomtrique des textes , Actes des 9es Journes internationales dAnalyse statistique des Donnes Textuelles (JADT 2008), Lyon, 12-14 mars 2008, Serge Heiden & Bndicte Pincemin (ds), Lyon : Presses Universitaires de Lyon, vol. II [http://www.cavi.univ-paris3.fr/lexicometrica/ jadt/jadt2008/pdf/pincemin.pdf] P OUDAT , Cline (20 juin 2006). Etude contrastive de larticle scientifique de revue linguistique dans une perspective danalyse des genres, Thse de doctorat, Sciences du langage, Universit dOrlans [http://www.revue-texto.net/1996-2007/Corpus/ Publications/Poudat/Etude.html]. PRI, Yannick (1995). Contribution une clarification des rapports entre Smantique Interprtative et Informatique , Mmoire de DEA, Informatique, Universit de Rennes 1 [http://www.revuetexto.net/1996-2007/Inedits/Prie95.pdf].

54

Bndicte Pincemin

R ASTIER , Franois (1987). Smantique interprtative , Presses Universitaires de France. Traduccin de Eduardo Molina y Vedia:Semntica interpretativa, Mxico: Siglo XXI, 2005. ___________ (1991). Smantique et recherches cognitives, Presses Universitaires de France. __________ (d.) (1995). Lanalyse thmatique des donnes textuelles : lexemple des sentiments, Paris : Didier, collection tudes de smantique lexicale. ___________ (2001). Arts et sciences du texte, Presses Universitaires de France. Traduccin de Enrique Balln Aguirre: Artes y ciencias del texto [en prensa]. ___________ (2005). Enjeux pistmologiques de la linguistique de corpus , in Geoffrey Williams (d.), La Linguistique de corpus , Rennes : Presses Universitaires de Rennes [http:// www.revue-texto.net/1996-2007/Inedits/Rastier/Rastier_ Enjeux.html]. ___________ (12-14 mars 2008). Que cachent les donnes textuelles ? , Actes des 9es Journes internationales dAnalyse statistique des Donnes Textuelles (JADT 2008), Serge Heiden & Bndicte Pincemin (ds), Lyon : Presses Universitaires de Lyon, vol. I [http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2008/ pdf/rastier.pdf]. ___________; Cavazza, Marc et Abeill, Anne (1994). Smantique pour lanalyse, Paris : Masson. REUTENAUER, Coralie; Valette, Mathieu et Jacquey, Evelyne (9-11 dcembre 2009). De lannotation smique globae linterprtation locale : environnement et image smiques dconomie relle dans un corpus sur la crise financire , Confrence ARCO Interprtation et problmatiques du sens , Rouen. S ALEM , Andr et Fleury, Serge (ds.) (2008). Explorations textomtriques , Lexicometrica [http://www.cavi.univ-paris3.fr/ lexicometrica/numspeciaux/special8.htm].

Semntica interpretativa y textometra

55

VALCESCHINI-DEZA, Nathalie (29 juin 1999). Accs smantique aux bases de donnes textuelles , Thse de doctorat, Linguistique, Universit de Nancy 2. VALETTE, Mathieu (22-25 juin 2004). Smantique interprtative applique la dtection automatique de documents racistes et xnophobes sur Internet , in Patrice Enjalbert & Mauro Gaio (ds) Approches Smantiques du Document Numrique, Actes du 7e Colloque International sur le Document Electronique et (version lgrement tendue) Texto! [http://www.revue-texto.net/ 1996-2007/Inedits/Valette/Valette_Princip.pdf]. ___________ (juin 2006). Observations sur la nature et la fonction des emprunts conceptuels en sciences du langage , Corpus en Lettres et Sciences sociales : des documents numriques linterprtation, Actes du XVIIe Colloque dAlbi Langages et Signification, Albi, 10-14 juillet 2006, Carine Duteil-Mougel & Baptiste Foulqui (ds). et Texto! , vol. XI, n. 2 [http:// www.revue-texto.net/1996-2007/Parutions/Livres-E/Albi-2006/ Valette.pdf].

Potrebbero piacerti anche