Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
La Sapienza
Facolt di Scienze, Demografiche e Attuariali Corso di Diploma di Laurea di Scienze Demografiche e Sociali
LAnalisi linguistica dei dati testuali: la storia di Simona Pari e Simona Torretta - dal rapimento alla liberazione -
CAPITOLO I - LANALISI STATISTICA MULTIDIMENSIONALE 1.1 - Levoluzione dello studio statistico della lingua
Linteresse degli statistici per gli aspetti quantitativi della linguistica non recente, soprattutto se si pensa a quello, pi attuale, dei linguisti verso la statistica. Anche se vi sono linguisti che ancora atterriscono alla vista di una formula e perfino di un semplice numero, bisogna tuttavia osservare che grazie ad una sempre pi stretta collaborazione tra linguisti e statistici e grazie alla maggiore capacit dei computers di codificare e riconoscere i caratteri dellalfabeto di un qualsiasi linguaggio naturale, negli ultimi anni sono stati ottenuti risultati sorprendenti. Il binomio qualit-quantit diventa quindi un binomio indispensabile per comprendere il linguaggio, e per meglio capire il mondo delle parole, del loro impiego in discorsi e delle lingue, necessario considerarli in una dimensione quantitativa. Gli studi sugli aspetti quantitativi della lingua hanno avuto una graduale evoluzione: dalla statistica linguistica (anni 60) si passati ad una lessicale (anni70) fino ad arrivare negli anni 80 alla statistica testuale e pi recentemente alla statistica lessico-testuale (anni 90). I primi studi quantitativi linguistici riguardavano la codifica di alcune regolarit della lingua ma la lingua difficilmente definibile come un universo statistico, piuttosto una massa informe di elementi in continua evoluzione, dove la difficolt quella di associare una qualche frequenza in senso statistico-probabilistico alle parole. Questo problema non si presenta su raccolte di testi o su spezzoni di lessici, gli studi sono stati allora rivolti ad insiemi di discorsi osservabili, generando un corpus concreto oggetto di studio1, che rappresenta per solo unattualizzazione di un lessico individuale. Con la statistica testuale si spostata lattenzione sulla testualit del contenuto di un corpus, sono state fatte analisi per forme (indipendenti dalla lingua), analisi dei segmenti ripetuti, di domande aperte, analisi non tradizionali (utilizzando migliaia di occorrenze) e analisi fattoriali su matrici. Solo di recente alcuni studiosi hanno riconosciuto lambiguit delle forme grafiche, proponendo soluzioni per integrare i due livelli quello testuale (con interventi di normalizzazione, lemmatizzazione e lessicalizzazione)2 con quello linguistico (con lapporto di meta-informazioni), individuando un tipo di analisi che possiamo definire lessico-testuale.
1 2
Gli studi stilometrici sullintera opera di un autore di E. Brunet ne sono un esempio per maggiori dettagli si rimanda nei successivi paragrafi
Un testo pu essere anche il prodotto della codifica di una fonte non testuale (musica, foto, gesti, ecc.). Ogni frammento delimitato da due separatori forti, tali separatori sono definiti da segni di punteggiatura, ma, per una buona segmentazione del testo devono essere usati ulteriori criteri che ci permettano di non scambiare dei punti (per esempio punti di migliaia [1.000.000] o punti di abbreviazioni [Sig. Rossi, C.E.E.]) come falsi indicatori di fine frase o di fine frammento. 5 I frammenti possono anche definirsi come insieme di enunciati caratterizzati da un senso compiuto 6 Sono considerati, ad esempio, separatori caratteri non appartenenti allalfabeto come lo spazio bianco (blank), la punteggiatura (,.:;?!), le virgolette, i trattini (-_|/), le parentesi ( {} () [] ) e ogni carattere speciale (&, %, $, #, @, , ecc) a secondo delle esigenze della ricerca.
4
Le unit elementari significative per lanalisi del contenuto possono essere: la forma grafica, intesa come una catena di caratteri compresa tra due separatori, ossia come ununit semplice testuale, che spesso pu risultare ambigua finch non si estende il concetto, ad esempio: <abito> pu significare sia <io abito> [verbo], sia <labito> [sostantivo]. il lemma7, lunit semplice lessicale, la forma canonica in cui si presenta un vocabolo ad esempio <andare> il lemma di varie forme grafiche quali <andavamo>, <andiamo>...Viene cos risolta lambiguit di alcune forme grafiche (la forma grafica <abito> se verbo diventa <abitare> se sostantivo rimane <abito>); pur tuttavia possono nascere altre ambiguit (ad esempio la forma canonica <essere> da sola pu nascondere due diversi lemmi: <essere_Verbo> e <essere_Nome> [lessere umano]).
7
Tale unit pienamente identificata se attribuita di categoria grammatica (per esempio: essere_V diverso da essere_N [forma canonica+categoria grammaticale])
il segmento, lunit composta da una sequenza di unit semplici. I segmenti possono essere: vuoti ossia composti da sole proposizioni grammaticali (<e di>, <con il>, <per la>), incompleti (< il>, <campo del>) e pieni ossia insiemi di sequenze significative (<buona volont>, <programma di governo>).
la politematica, unit composta con significato non composizionale. Le politematiche fanno parte dei poliformi, in altre parole tutte quelle sequenze di parole che esprimono un contenuto autonomo, per esempio <capo dello Stato> non il <promontorio della nazione> bens il <presidente della Repubblica>.
la lessia, unit minima indivisibile portatrice di significato. Pu essere sia semplice <Stato>, composta <socio-economico>, complessa <punto di vista>. la forma ridotta, unit semplice operativa (label di una radice lessematica). lidioma della comunit di appartenenza del parlante in un dato periodo storico che la componente dovuta al lessico della lingua; il contesto, ossia lambito o il genere concettuale del discorso, laspetto tematico e/o settoriale della terminologia. Il linguaggio diverso a seconda che si tratti di politica, di letteratura, ecc..;
la situazione, ossia la specifica condizione di enunciazione del discorso (o di stesura del testo), che riflette la modalit dinterazione fra colui che emette e colui che riceve il messaggio (esempio se il carattere del discorso pubblico o privato, formale o informale).
Fig. 1: La lingua
Con il termine contesto locale si indica un determinato insieme di parole adiacenti ad un termine prefissato (di solito si considerano 5-10 parole prima e 5-10 parole dopo il termine) che funge da polo (pivot). Lo studio dei contesti locali di una parola detto analisi delle concordanze. L'unit di contesto un frammento di testo che ha generalmente una lunghezza variabile (da 120 o 200 parole). Spesso corrisponde ad un enunciato (proposizione con un senso compiuto) altre volte ad una frase (proposizione con una rilevanza sintattica).
8 9
<casa> diversa da <case> o da <cane> i dizionari elettronici non contengono tutte le variabili linguistiche di una parola, per esempio la parola <disambiguazione> sulla Tre Cani non compare, ecco perch ogni inventario non sar mai completo
Fra quelli lessicomentrici, per i vocabolari si adotta spesso il criterio che ordina le forme per occorrenze decrescenti (in base alle classi di frequenza), ma anche per lunghezza di componenti (caratteri, parole), per ordine di presentazione dellunit nel testo e per qualsiasi altro valore quantitativo crescente o decrescente. Le misure lessicometriche di base sono: le occorrenze (assolute o normalizzate) il rango, ossia la posizione di un termine (entrata) in una lista; nei vocabolari per occorrenze decrescenti, ad esempio, un rango "elevato" indicato da un numero piccolo. la copertura del testo dato dal valore percentuale N(S)/N (dove N(S) esprime il numero delle occorrenze dovute allampiezza del vocabolario sopra il livello di soglia, mentre N il numero delle occorrenze del corpus stesso). Fig 2 Copertura lessicale
A Va
Db alta
Fonte: Scuola della Societ Italiana sui metodi per lanalisi testuale (2000) Dispense del corso S.I.S., tenuto a roma il 3-7 luglio del 2000
8
dove
1 n ( fi f )2 n i =1
alla radice quadrata della somma dei quadrati degli scarti delle frequenze normalizzate della parola nel subtesto i-esimo (frequenza parziale) dalla frequenza media. Il tutto diviso n (numero delle parti, o sub testi, del corpus) e f la frequenza media, pari alla frequenza normalizzata della parola nellintero corpus (uguale alla somma delle frequenze parziali di una parola nei subtesti diviso il numero di tali subtesti). Il massimo V (Vmax) vale n 1 e lo si ottiene quando tutte le frequenze parziali (frequenze
normalizzate della parola nel subtesto i-esimo) sono concentrate in un solo testo. V
nullo, invece, quando tutte le frequenze parziali sono equidistribuite (freq. parziali uguali tra loro). Si considera il rapporto
V Vmax
normalizzato nellintervallo 0-1. La dispersione D di una parola, quindi, il complemento ad 1 del coefficiente normalizzato di variazione10 della frequenza negli n subtesti in cui suddiviso il corpus, cio 1
V , ossia Vmax
D =1
V n 1
Si calcola quindi, per ciascun termine, lindice duso ponderando il numero assoluto delle sue occorrenze (F) con la dispersione, ossia
U=DF
Il Vocabolario di Base della lingua italiana (VdB), composto da 7000 lemmi circa.
<<Se usiamo le parole abbastanza semplici del vocabolario di base possiamo avere buone probabilit di essere capiti da chi ha fatto almeno la terza media>> [De Mauro, 1980]. Il VdB non un vero e proprio lessico di frequenza in quanto raggruppa i lemmi considerati solo secondo tre fasce diverse A fondamentale B alto uso C - alta disponibilit 2.000 parole (necessarie alle costruzioni comuni) 2.450 parole (fra le pi usate nel LIF) 2.300 parole (pensate da tutti ma poco scritte)
Il Vocabolario fondamentale della Lingua Italiana (VFLI), riunisce tre liste per un
totale di 1.500.000 occorrenze (2.725 lemmi circa) LIF FDI KBS Bortolini, Tagliavini, Zampolli, 1971 Juilland, Traversa, 1973 Katerinov, Boriosi, Sciarone, 1977
Il VFLI pone non pochi problemi di confronto e di compatibilit sia al suo stesso interno fra le liste sia con gli altri lessici per la categorizzazione di alcuni lemmi non disambiguati.
Il Lessico Fondamentale della Lingua Italiana (LFLI), di Giuseppe Sciarone; le fonti
sono romanzi e racconti, teatro, stampa, critica letteraria per un totale di 1.500.000 occorrenze. Il lessico riunisce tre liste di frequenza
10
Il complemento ad 1 del coeff. di variazione deriva dallesigenza di ottenere per ciascuna parola una misura di dispersione D allorquando si abbiano un egual numero di frequenze normalizzate nei vai testi.
10
Tale assemblaggio ha introdotto non pochi problemi di classificazione delle parole ad esempio Aggettivi e Participi: nel LIF <interessante> considerato forma verbale mentre <importante> come aggettivo, nel FDI le forme in <*a/e_nte> sono considerati partecipi presenti. In genere si pone molta attenzione alla funzione grammaticale e si tiene distinto Avv da Nome (ad esempio <domani> Avv [partir domani] diverso da <domani> Nome [non preoccuparti del domani]. Importante lattenzione data alloscillazione del numero di occorrenze come stima della frequenza sulla cui base sceglie di considerare come frequenza minima per il LFLI la soglia di 40 (variazione del 30%) corrispondente ad un uso minimo pari a 10.
Il Lessico Italiano di Frequenza (LIF), di Bartolini, Bavaglini, Zampolli 1971
formato da 500.000 occorrenze raccolte da testi scritti di teatro, romanzi, cinema, periodici e sussidiari.
Il VELI (De Mauro IBM 1989) composto da 26milioni di occorrenze di linguaggio
giornalistico - Domenica del Corriere - Europeo - Il Mondo - ANSA 3,6milioni di occorrenze 3,7milioni di occorrenze 7,0milioni di occorrenze 10,2milioni di occorrenze
Il LIP composto da 500.000 occorrenze formate da linguaggio parlato in 4 citt campione: Milano, Firenze, Roma, Napoli (125.000 per citt). E articolato in 5 diverse tipologie di linguaggio corrispondenti ad altrettanti tipi di discorso (100.000 per gruppo, di cui 1/4 per citt).
11
Gruppo A scambio bidirezionale faccia a faccia (conversazione casa, lavoro, scuola) Gruppo B scambio bidirezionale non faccia a faccia (telefono, registrazione radio e segreteria telefonica) Gruppo C scambio bidirezionale con presa parola non libera faccia a faccia (assemblee, dibattiti, incontri, interrogazioni, esami, interviste) Gruppo D scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie, conferenze, arringhe giuridiche) Gruppo E scambio unidirezionale a distanza su testo non scritto (trasmissioni televisive e radiofoniche)
Il Lessico Elementare (LE), Marconi Morgavi Ratti, 1994. E composto da 6.000 lemmi
determinati a partire da 1.000.000 di occorrenze circa, tratte da un corpus formato da testi di scrittura (temi di alunni delle scuole primarie) e di letture (libri per ragazzi).
Fondamentale dei Poliformi (FdP), Bolasco e Morrone 1998.
Il corpus Poliformi dal quale viene originato il FdP un ampio campione di linguaggio contemporaneo (4.136.487 occorrenze per un totale di 121.786 forme grafiche diverse). Dopo una pulizia sul vocabolario, che ha escluso numeri in cifre, alcuni nomi stranieri, non-parole e corretto varianti grafiche come maiuscole e accenti sbagliati, la lista di parole da Poliformi presenti in Taltac assomma a 85.300 occorrenze circa. La composizione del campione si suddivide in: Linguaggio Scritto (articoli di stampa tratti dal CDRom [1.514.000 occ.] di cui 254.000occ. sono articoli di cultura, 283.000 occ. articoli di fondo, 286.400 occ. articoli di politica e giustizia, 297.500 occ. articoli di economia e lavoro, 210.500 occ. articoli di informatica e saggi su temi di linguistica computazionale, 182.700 occ. articoli di cronaca e biografie; segue una parte di linguaggio scritto non ricavata dai CDRom [per un totale di 1.158.000 occ. pari al 28% del totale]).
12
Linguaggio Scritto Parlato (discorso parlamentare 184.000 occ.) Linguaggio Parlato-Scritto (racconti biografici: scambi epistolari e storie di vita sullemigrazione, in totale 367.800 occ.) Linguaggio Parlato (interviste non direttive a testimoni privilegiati, a clientela, a insegnanti, ad ascoltatori radio/tv per un totale di 386.400 occ. ed il lessico dellItaliano Parlato [corpus De Mauro] per un totale di 525.200 occ.)
LFdP contiene 3931 poliformi riconosciuti e categorizzata come locuzioni grammaticali (avv, agg, prep, cong, inter) o come forme idiomatiche, verbi frasali, politematiche, di cui 1.800 lemmatizzati con un uso superiore o uguale a 5. Il Lessico Economico Finanziario (LEF), Bolasco ed Elia ,2000. Il campione dei testi raccolti per costituire il LEF fondato sullincrocio di due dimensioni: Temi (Assicurazioni, banche mercati finanziari, commercio nazionale e internazionale, diritto finanziario, ..); Generi e Tipologie di linguaggio (italiano formale, tecnico-scientifico, burocratico, italiano standard, italiano informale). Le dimensioni del corpus di circa 1.839.518 occorrenze; il Vocabolario di circa 53.470 forme distinte. La parola di un vocabolario pu essere distinta e categorizzata attraverso differenti criteri: rispetto al suo ruolo nella frase, alla sua categoria grammaticale o ad altri criteri. Molto spesso si fa distinzione tra parole vuote e parole piene. Le prime sono le parole grammaticali o di legame (articoli, preposizioni, congiunzioni ed alcuni aggettivi) che non esprimono in s un contenuto dinteresse ai fini dellanalisi, ma hanno una funzione strumentale in quanto cardini di costrutti lessico-grammaticali11. Le seconde sono portatrici di tutti quei significati oggetto di studio, delle parti "sostantive" del contenuto di un discorso (nomi e aggettivi), delle sue modalit di enunciazione (avverbi) o di azione (verbi) e per questo sono dette anche parole principali. Inoltre due parole possono essere omografe e per questo avere lo stesso significante ma diverso significato (polisemia) (ad esempio <stato_S1> nellaccezione di istituzione distinto da stato <stato_S2> nellaccezione di situazione/condizione), oppure avere differente significante ma medesimo significato (sinonimia) (ad esempio <stupendo> e <splendido>, <abitanti> e <residenti>, <isolata> e <sperduta>).
11
Anche le parole grammaticali possono avere importanza nellinterpretare un testo. Ad esempio, il sovrautilizzo di preposizioni come <in> o <di> sottolinea il carattere descrittivo del discorso; una prevalenza di <non>, <per> e <con> sottolinea particolari intenzionalit del parlante, mentre quella dei <ma> e <se> evidenzia elementi legati ad incertezza.
13
Essa stabilisce che le parole di un vocabolario si distribuiscono in maniera tale che la frequenza (f) e il rango (r) di una parola sono inversamente proporzionali. Un suo classico esempio, fatto dallo stesso Zipf (cfr. Bolasco, 1999: 200) tratto da uno studio lessicale dell'Ulysses di Joyce (dal vocabolario di un corpus di 260.000 occorrenze): al rango al rango al rango al rango 10 100 la frequenza 2.653 la frequenza 265
Nota: dato che non tutte le frequenze possibili sono presenti in un vocabolario ed esistono, per il rango, gli ex aequo, la regola va intesa in senso statistico, ossia "in media", dal momento che occorre prendere, come valore di frequenza, un valore medio delle occorrenze delle parole appartenenti ad un certo intorno del rango considerato. Ampi dibattiti sulla validit di questa legge hanno fatto s che essa venisse espressa dalla seguente formula:
f ra = c da cui log(f) = - alog(r) + c
su di un grafico in coordinate
logaritmiche in cui y descrive il logaritmo della frequenza, x il logaritmo del rango mentre a ne indica la pendenza. Si pu considerare con buona approssimazione:
a = logN/logV
La pendenza funzione della cosiddetta ricchezza del vocabolario V che a sua volta dipende dalla dimensione del testo N.
12
14
Figura 1
G=
In termini empirici possibile osservare che per testi compresi fra 10.000. e 50.000 occorrenze di parole, il vocabolario V aumenta come la radice quadrata di N e G vale circa 22. Per lo stesso genere di testi il coefficiente angolare della retta di Zipf vale a = 1. 15. Si pu assumere anche - come una prima misura di ricchezza lessicale - la proporzione di parole diverse sul totale delle occorrenze: ossia V/N (noto anche come type/token ratio) oppure anche V1/V (V1 rappresenta linsieme delle parole che appaiono una sola volta - chiamate anche hapax mentre V rappresenta il totale di parole diverse).
15
Tabella 1 Esempio di vocabolario per occorrenze decrescenti (in forme grafiche con relativo rango) Rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Forma g. di una e un la che regione isola per non Sardegna pi i con da in ma le a molto si l il bella sono essere ha ancora Occ 293 217 214 197 194 184 149 147 114 113 112 104 101 89 87 83 82 78 71 68 67 61 60 56 52 50 48 45 43 Rango Forma g. 29 31 31 31 34 35 35 37 37 39 39 41 42 42 42 45 45 45 48 48 50 50 50 53 53 53 53 53 58 Terra Dal Disoccupazione Problemi Se Ci Della C Sviluppo Dei Stato Bellissima Deve Isolamento Lavoro Dell Delle Isolata Gli Soprattutto Bisogno Resto Sardi Ambiente Cui Dove Poco Troppo Al Occ Rango Forma g. 43 41 41 41 38 35 35 33 33 31 31 30 28 28 28 27 27 27 26 26 25 25 25 23 23 23 23 23 22 58 58 58 58 58 64 65 65 67 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 dei per possibilit potenzialit sempre come Italia occupazione bene potrebbe fare giovani perch classe anche alla abitanti bellezze economica ai aiuti agricoltura abbastanza acque oggi abbiamo abbandonate Occ 22 22 22 22 22 21 20 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
16
Le parole di un vocabolario, nella tabella sopra, sono state ordinate per frequenze decrescenti, partendo dalla parola con freqmax fino ad arrivare a quelle con freqmin ossia con una sola occorrenza (hapax) [Vedi anche pag.7].
Vfmax ,Vfmax-1,,V3,V2,V1
Insieme al valore di frequenza stato indicato anche il rango. In questo caso, dato che lordinamento per occorrenze decrescentiSi possono individuare tre fasce: le alte, le medie e le basse frequenze. - Il limite fra le alte e le medie frequenze si colloca subito sopra la prima parit: ossia la prima coppia di parole che occorrono lo stesso numero di volte (cio, in, Tabella 1 al rango della forma <ha>); - il confine fra medie e basse frequenze individuato dalla prima lacuna nel numero consecutivo di occorrenze crescenti (ossia in corrispondenza della parola <sardi> in Tabella 1). Nelle tre fasce si articolano progressivamente i diversi tipi di parole: parole "vuote parole strumentali, parole principali. La fascia delle alte frequenze quella in cui ogni parola ha un numero diverso di occorrenze da ogni altra. Generalmente composta all'incirca da 30 o 50 forme (a seconda delle dimensioni del corpus) e, fra queste, al pi 4 o 5 sono parole principali, mentre le altre sono parole grammaticali. La fascia delle medie frequenze si caratterizza per avere al suo interno parole con diverse condizioni sia di parit sia di numero di occorrenze (nella quale cio non tutte le possibili quantit di occorrenze sono presenti). La fascia delle basse frequenze possiede tutte le classi di frequenze decrescenti fino a V1 e contiene la stragrande maggioranza delle parole del vocabolario. Livello di soglia e tasso di copertura del testo Il livello di soglia quel valore di frequenza al di sotto del quale si assume che le parole abbandonate non siano rilevanti. Nota: Il rango corrispondente al livello di soglia esprime una stima del numero di dimensioni o variabili attive che definiscono i profili lessicali. Ai fini di un' analisi del contenuto del corpus, si riscontra empiricamente che un livello di soglia di frequenza, accettabile per selezionare le parole da studiare con tecniche multidimensionali, posizionato nei primi decili delle basse frequenze, ossia intorno ad un 10% o 20% delle parole appartenenti a tale fascia. Infatti, entro questo livello si trovano la
17
maggior parte delle articolazioni del linguaggio riguardanti le parole principali, quanto ad aggettivi e sostantivi (e verbi, ma in misura inferiore, date le loro numerose flessioni). In diversi studi si riscontrato, inoltre, che il limite corrispondente al primo decile delle basse frequenze corrisponde spesso al valore N/V13, mentre il tasso di copertura del testo, nell'intorno del primo decile delle basse frequenze, compreso fra il 70% (in testi di almeno 8.000 occorrenze) e l'80-85% (in corpus medi o medio-grandi)14 Dimensioni minime del corpus15 Ai fini di un'analisi statistica importante conoscere quali debbano essere le dimensioni minime di un corpus. Un criterio empirico che spesso si rivelato utile quello di osservare il rapporto V/N: se questo supera il 20%, il corpus non pu considerarsi sufficientemente esteso16. Questa regola vale a meno che il testo non contenga pi "idiomi" che si sovrappongono, com' il caso del linguaggio "globale" delle mailing list in Internet, infarcite di inglese. <<In generale, un corpus, ai fini di un'analisi su base statistica, considerato piccolo quando si aggira sulle 50 pagine convenzionali, corrispondenti a circa 15.000 occorrenze (100 Kbytes). di dimensione media intorno alle 150 pagine (45.000 occorrenze equivalenti a circa 300 Kb), medio-grande quando raggiunge le 100.000 occorrenze (pi di 300 pagine e circa 700 Kb)17. Quando il vocabolario di un corpus supera le 500.000 occorrenze (3 Megabytes, equivalenti a oltre 1.500 pagine) la sua estensione raggiunge la dimensione minima di un lessico. Affinch il suo vocabolario possa definirsi un lessico di frequenza occorre che il corpus sia ricavato da fonti eterogenee (tale da approssimare un campione di linguaggio) che le unit di testo siano i lemmi e che le loro frequenze siano espresse in indice d'uso>>[Bolasco, 1999: 204].
13
Valore medio delle occorrenze in un corpus che a sua volta rappresenta allincirca il 12% del vocabolario totale (dato dal valore V(s)/V) con un valore di frequenza compreso tra 7 e 12 a seconda che il corpus sia piccolo o grande. 14 Per ottenere quest'ultima percentuale di copertura in testi piccoli, occorre scendere al secondo decile delle basse frequenze. 15 S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999 16 Il tasso di accrescimento di un vocabolario decresce all'aumentare della dimensione del corpus. In un testo molto corto, ad esempio di sole 100 occorrenze, quasi tutte le parole sono diverse. Via via che il testo cresce in ampiezza, le parole diverse aumentano dapprima velocemente e poi sempre pi lentamente. Ci dipende molto anche dal tipo di testo considerato. 17 <<Una survey di 800-1.000 risposte non vuote ad una domanda aperta produce generalmente un testo compreso fra le diecimila e le ventimila occorrenze, a seconda dell'ampiezza delle risposte. Occorrono invece almeno 50 interviste libere di oltre mezz'ora di registrazione per riempire 100 pagine di testo trascritto. In sostanza, un testo che non raggiunga le 10.000 occorrenze possiede delle frequenze che nei valori bassi sono inattendibili statisticamente>>[Bolasco, 1999: 204]. 18
rispetto a testi
La forma testuale che corrisponde alla lessia, ovvero alla pi piccola unit portatrice di senso - non ulteriormente decomponibile - rilevabile in un corpus. lunit minima significativa del discorso che pu essere semplice (definita da una sola
18
evidente che una catena di caratteri non necessariamente una parola di senso. Per cui <carta> e <catra> sono due occorrenze di parole diverse ma <catra> non una parola dellitaliano: lo sarebbe dopo una correzione ortografica. 19 Di fatto ogni parola di un testo delimitata da spazi bianchi, mentre ogni frase dalla punteggiatura. 20 Il computer infatti legge ogni informazione linguistica come una sequenza di bytes ciascuna delimitata dai separatori inizio e fine. 21 Lobiettivo quello di individuare differenti universi lessicali e lo studio ha interessi terminologici. 19
parola: <cane>, <tavola>), composta (costituita da pi parole in via dintegrazione: <sangue freddo>) o complessa (individuata da una sequenza di parole fra loro connesse: <fare lo gnorri>, <dalla testa ai piedi>). Nellapplicazione dei metodi della statistica testuale e di analisi del contenuto si adottano unit di tipo misto, ora semplici, ora complesse che vengono appunto definite forme testuali. Cos una forma testuale potr essere sia un lemma (<scrivere>), sia una riduzione lessematica (ad esempio la radice <attual+> che fonderebbe <attuale>, <attualmente>, distinta da <attu+> frutto delle fusioni <attuare>, <attuazione>, <attuato>), sia un significante che rappresenti la fusione di ma sinonimie anche accertate un nel corpus (locuzione (<accordo$>=accordo+alleanza+patto),
poliforme
grammaticale o polirematica di contenuto: <in_corso>, <bilancia_dei_pagamenti> od una frase fissa idiomatica, identificabile come unentit (<andare_al_creatore>).
20
- grammaticale (lemmi diversi: <posto_Verbo> e <posto_Sostantivo>); - semantica (diverse accezioni di uno stesso lemma; <posto-Sostantivo> pu significare luogo, impiego, spazio, sedile, centro); - lessico-grammaticale isolando un poliforme (forze_politiche).
II. La fusione di forme che costituiscono degli invarianti semantici che pu riguardare:
21
- equivalenze semantiche (i raggruppamenti di forme diverse, individuanti tratti semantici o insiemi di sinonimi). Queste disambiguazioni o fusioni possono essere messe in atto con differenti strumenti. a) Lisofrequenza 22 Definiamo isofrequenza la condizione di equilibrio o di stabilit - in numero di occorrenze esistente fra alcune forme flesse di uno stesso lemma. Baster scorrere un vocabolario di un corpus secondo l'ordine alfabetico e ci si render conto del fenomeno23. Lipotesi che alla base di questo comportamento che tanto pi un termine usato con funzioni, significati o forme diverse, tanto pi probabile che esso accumuli un numero maggiore di occorrenze tali da procurare il fenomeno contrapposto alla isofrequenza: la non-isofrequenza. Quindi, se pur vero che l'esistenza dell'isofrequenza non pu, di per s, costituire la prova di un'equivalenza di significato nei termini coinvolti, al contrario, il riscontrare una non-isofrequenza costituisce spesso l'indizio di un utilizzo plurimo della forma in questione. Questa circostanza segnala pertanto lopportunit, vuoi di una disambiguazione, ad esempio estraendo una locuzione, vuoi di una fusione. Uno dei casi pi evidenti quello in cui una forma semplice parte integrante e fondamentale di un poliforme. Ad esempio si pu osservare nella seguente tabella che la flessione <tutto> assai pi frequente delle flessioni <tutta/e/i>. Il motivo semplice: perch la flessione al maschile singolare cumula alla funzione di aggettivo quella di avverbio spesso composto, cosa che non avviene per le altre tre.
22 23
S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999 Una misura elementare dellisofrequenza pu ottenersi dal rapporto di coesistenza fra le occorrenze di due flessioni DS=[f2-f1], essendo f2>f1 oppure mediante una differenza relativa IS=[(f2-f1)/ f1].
22
Tabella 2
Esempi di isofrequenze
NOMI CONCRETI (isofrequenti) libro libri zona zone 178 183 285 280
AGGETTIVI/AVV. /POLIFORMI (non isofrequenti) stesso 1571 lo stesso 503 stessa 906 buono 311 buon 635 buona 1038 buone 208 buoni 249
sviluppo 1725 (accezione) sviluppi 129 sistema 1570 (accezione) sistemi 367
materia 604 in materia 423 legittima materie 296 legittimo corso 1065 in corso 401 nel corso 306 corsi 288 leggendario leggendaria leggendari leggendarie
b) La selezione dei segmenti ripetuti24 Osservando un vocabolario di forme grafiche ci si accorge che molte parole comuni sono inspiegabilmente ai primi ranghi del vocabolario. Questa circostanza pu essere il riflesso della presenza di poliformi, in particolare quelli a contenuto prevalentemente grammaticale, che sono alla base della costruzione stessa del discorso. Si tratta soprattutto di locuzioni con funzione avverbiale (<in particolare>, <di nuovo>, <a casa>, <una volta>/<tempo fa>, <del tutto>, <alla fine>, <di fatto>), aggettivale (<a punto>, <a tempo determinato>, <in mano>, <alla mano>) o prepositiva (<fino a>, <in modo da>, <da parte di>, <rispetto a>), o di congiunzioni composte (<dal momento che>, <certo che>, <come mai>, <a condizione che>), di formule idiomatiche (<tutte queste cose>, < una cosa che>, <per cos dire>, <io credo>) o infine di alcuni verbi idiomatici con funzione ausiliare di verbi supporto (<rendersi conto>, <andar fatto>, <portare avanti>, <venir meno>, <dare vita>, <va bene/male>, <far parte>, <far fronte>, <fare presto/tardi>, <mettere a punto>, <prendere atto>). Tutti i componenti queste espressioni, viste come frasi fisse, risultano avere nel vocabolario di un corpus in forme grafiche, un numero di occorrenze alterato rispetto al solo uso ordinario, come parole
24
23
semplici con il loro significato elementare, diretto od originario. Disambiguare almeno alcune fra queste espressioni diventa necessario e, a volte, essenziale. Si riscontra, infatti, che tali poliformi hanno un comportamento (sotto il profilo semantico) assai diverso dalle parole semplici costituenti. Sarebbe allora interessante poter valutare quanto le occorrenze di un segmento incidono sulle occorrenze delle forme semplici che lo compongono. Per far questo esiste un indice, denominato IS25, costruito per selezionare alcune polirematiche di contenuto. L f segm IS = i =1 f fg i P
ove, date le L forme grafiche componenti il segmento, si pone a rapporto la fsegm (n occorrenze del segmento) a ciascuna ffg (occorrenze delle forme grafiche componenti), moltiplicando poi la somma di tutti questi quozienti per P, quantit che esprime il numero di parole piene presenti nel segmento26. Tale indice sempre positivo, si annulla quando il segmento composto solo da parole vuote27 ed ha il suo massimo pari a L2. Condizione questultima in cui tutte le occorrenze della forma singola sono date proprio dalla frequenza del segmento. Lindice IS28 appena visto ci d un aiuto per valutare lopportunit della lessicalizzazione consentendo di valutare limpatto della frequenza su alcune delle parole chiave coinvolte nel processo di trasformazione delle unit. La lessicalizzazione quel processo che porta a considerare un sintagma (o un qualunque raggruppamento di parole) come un solo elemento lessicale. In altri termini la lessicalizzazione consiste nella trasformazione del testo, dovuta al riconoscimento di una sequenza di forme grafiche, come una sola unit di senso o lessia. Ad esempio < capo dello
25 26
Questo indice ha il compito di far risaltare le parole pi significative scartando tutti i segmenti vuoti la ricerca automatica di tutti i segmenti ripetuti in un testo per costruzione ridondante: avviene infatti cercando tutte le sequenze identiche di qualsiasi lunghezza 2, 3, 4 o 5 parole. Per cui ad esempio avremo <punto di> <di vista> <punto di vista> <dal punto di vista> <sotto il punto di vista>. Occorre quindi eliminare la ridondanza e selezionare solo quelli pieni (polirematica) <punto di vista>, prendendo atto che l'ordine di grandezza della frequenza con cui essi occorrono assai inferiore a quello delle corrispondenti forme grafiche elementari. Comunque si apprezza la presenza di segmenti quando la loro frequenza superiore o uguale a 3 o 4 occorrenze. 27 Presupponendo di avere definito una lista di parole vuote, l'indice consente di scartare i segmenti vuoti o irrilevanti in termini di grado d'assorbimento; questi, generalmente, sono oltre l'80% dell'intero inventario 28 Esiste anche un altro metodo per isolare sistematicamente i poliformi di un testo. Esso si basa sul confronto dellinventario dei segmenti ripetuti di un corpus con una qualche lista significativa di poliformi, specifica di un settore o di un genere di linguaggio. Lintersezione delle due liste - quella del corpus e quella specifica consente di isolare i segmenti pieni. 24
stato> verr modificata in ununica unit lessicale <capo_dello_stato>29. Si prenda come esempio il seguente segmento. teste rasate con frequenza F =18 ed IS = 3,636, con numero di occorrenze della parola teste nel corpus pari ad f1 = 22 e con numero di occorrenze della parola rasate pari ad f2 = 18. Il valore di IS vicino al suo massimo rivela in effetti che vi un buon assorbimento della forma singola (pivot) da parte del poliforme che la contiene.
Tabella 3 Selezione dei poliformi secondo lindice IS
F 18 16 19 23 17 33 25 29 L 2 2 2 2 2 2 3 3 IS 3,636 3,113 2,804 2,799 2,723 2,620 2,491 1,235 Segmento teste rasate protezione civile v cumpr sporco negro palazzo chigi linea dura permesso di soggiorno centri di accoglienza f1 22 17 23 27 47 53 38 77 f2 f3 18 0 26 0 33 0 42 0 17 0 48 0 4.117 43 4.117 124
Legenda: F=frequenza; L= parole del segmento; IS=indice; f1 ,f2 ,f3 =frequenza della 1,2,3 parola del segmenti Fonte:da unanalisi dei titoli dei giornali sugli immigrati (Stoppiello,1998)
A questo punto, dopo lesame dei termini non isofrequenti e dopo lestrazione dei poliformi significativi possibile effettuare le disambiguazioni utili e le opportune lessicalizzazioni, trasformando cos il corpus in un testo leggibile in automatico non pi in forme grafiche bens in lessie.
c) Lindividuazione del linguaggio peculiare30 Lindividuazione del linguaggio peculiare pu essere vista come la ricerca dellinsieme minimo di parole massimamente rappresentativo del vocabolario che consente di ridurre le ambiguit presenti nel corpus. Si parte dal presupposto che le parole pi frequenti in un corpus (anche dette parole tema) non sempre sono parole chiave (peculiari, tipiche) del corpus stesso. Ove per parola chiave si intende una parola sovra/sotto-utilizzata rispetto alla sua frequenza standard nei normali
29 30
Il carattere _ underscore dovr essere cancellato dallelenco dei separatori. S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999
25
contesti duso. E si sceglie un modello di riferimento (rappresentato da un tipo di lessico)31 rispetto al quale calcolare il sovra/sotto-uso delle parole chiave. Cos facendo ci si affida ad un criterio che consente di selezionare le parole di un corpus non soltanto sulla base del loro pi o meno elevato numero assoluto di occorrenze. Tale criterio misura la peculiarit in termini di specificit sia positiva che negativa. La prima correlata con le parole pi frequenti, mentre la seconda con quelle cos rare da essere quasi assenti, forse perch volutamente evitate dal locutore. La misura di specificit, per ciascuna parola, allora data, ad esempio, dal seguente rapporto:
zi = f i f i* f i*
che costituisce uno scarto standardizzato della frequenza relativa, dove fi il numero di occorrenze normalizzate della i-esima parola nel corpus ed fi* il corrispondente valore nel lessico assunto come modello32, mentre la quantit al denominatore lo scarto quadratico medio della frequenza relativa. Come facile notare, questo rapporto pari alla radice quadrata dell'i-esimo contributo ad un chi-quadrato. In assenza di un modello di linguaggio di riferimento, si potrebbe lo stesso giungere allindividuazione delle parole chiave del corpus effettuando, in via preliminare, un'analisi delle corrispondenze sul corpus in forme grafiche, a soglia di frequenza elevata. Cos facendo si evidenziano sul primo piano fattoriale alcuni punti cardinali della struttura del contenuto. Si procede poi ad altre analisi, con soglie di frequenza via decrescenti, per scoprire quali siano le parole che restano stabili in queste simulazioni e quali siano i contenuti che si definiscono come sottocampi o dettagli semantici di tali punti cardinali. Cos facendo, si identificano i termini sui quali opportuno concentrare gli interventi di disambiguazione o di fusione. Nonostante siano stati appena descritti metodi e criteri per intervenire sul testo con una certa sistematicit, latteggiamento che occorrerebbe comunque assumere quello di procedere con parsimonia: alcuni interventi, infatti, potrebbero procurare pi danni che vantaggi (caduta di
Con la crescita delle potenzialit informatiche di calcolo, attualmente non difficile effettuare raccolte di testi per la messa a punto di liste di frequenza, assemblando stock sempre pi ampi (anche milioni di occorrenze) di materiali riguardanti periodi, generi e situazioni differenti (un tempo solo testi scritti, pi recentemente anche testi parlati). Queste liste permettono di costruire i cosiddetti lessici di frequenza: in pratica, dei vocabolari ordinati per numero decrescente di occorrenze, o meglio, secondo il loro rango in termini di frequenza d'uso. I lessici di frequenza possono essere utilizzati come modelli di riferimento per la valutazione del sovra/sottouso delle parole nel corpus oggetto di studio. 32 Tali quantit possono essere espresse anche in termini d'indice d'uso. Tale confronto tanto pi valido quanto pi il corpus connesso al lessico. 26
31
frequenza, frammentazione delle occorrenze e perdita della forma perch al di sotto della soglia di frequenza ecc..). Uno dei criteri fondamentali che guidano gli interventi sul testo consiste da un lato nel tendere a ridurre il numero delle unit lessicali da considerare per lanalisi e dallaltro nel cercare di aumentare il tasso di copertura del testo, a parit di numero di unit considerate33. Esiste un test in grado di legittimare la scelta di fondere/non fondere o disambiguare pi termini basato sulla ricostruzione - mediante simulazione - delle regioni di confidenza sul piano fattoriale34. Si considerano le parole che sarebbero oggetto di pretrattamento. Si effettuano le disambiguazioni e si analizza come questultime si comportano sul piano fattoriale. Se i loro punti producono regioni disgiunte, la loro disambiguazione legittima; si effettuano le fusioni e, come sopra, si studia il loro comportamento sul piano fattoriale. Se esse hanno regioni di confidenza fortemente incluse, evidente che una loro fusione sotto un unico lemma non inficerebbe lanalisi. In figura2 ed figura 3 si riportano alcuni esempi tratti dalle dispense del Prof. Bolasco da cui si evince come sia legittimo fondere le quattro voci del participio passato del verbo essere, mentre come sia inopportuno mischiare il singolare ed il plurale del nome politica.
Si ricorda che gli interventi riguardano circa un 10% delle forme del vocabolario da analizzare (che a sua volta potrebbe aggirarsi intorno al 12 % di V]). 34 Si sfrutta in pratica la propriet vicinanza=somiglianza dei punti sui piani. Le matrici sono matrici di frequenza <parole x subtesti>. 27
Con il termine specificit si intende indicare se e quanto una parola sia tipica o specifica di un sub-testo, nellambito di uno stesso corpus, o - pi in generale -quanto una forma sia specifica rispetto ad un qualche modello di linguaggio di riferimento. Una misura di specificit di una parola in un testo, di solito ottenuta a livello di forme testuali, viene calcolata a partire dalla tabella di frequenza che ripartisce le occorrenze totali di una forma del corpus nei vari sub-testi in cui essa occorre. Essa pu esser data semplicemente da: z = (x- xteor) x Si arriva a tale formula per il calcolo della specificit partendo da alcune semplici considerazioni. <<Come noto si possono indicare con: E(x) = n * p e x= n * p * q rispettivamente la media del numero assoluto di occorrenze di una parola e il suo scarto quadratico medio, ove p (e q) la probabilit, come frequenza relativa, dell'apparire della parola (e rispettivamente del suo non apparire) in un testo, ed n il numero di prove che si immagina di effettuare per ottenere la parola in oggetto.
28
Nel nostro caso n pari al numero totale di occorrenze nel sub-testo: ipotizzando ogni tranche di corpus della stessa dimensione, n costante in tutto il corpus. Questo schema teorico sottintende, nell'ipotesi di indipendenza fra eventi, che l'apparire delle occorrenze di una parola in ciascun sub-testo possa essere immaginato come un evento aleatorio, ove p appunto la probabilit di ottenere quella parola ogni n prove. Ogni qualvolta si ottiene una proporzione di occorrenze di molto superiore (o inferiore) a questa quantit np si pu supporre che ci non sia dovuto al caso ma piuttosto sia l'espressione di una qualche causa specifica. Ha senso allora voler misurare in termini di uno scarto relativo questa differenza. Tale scarto prender la forma seguente: z = (x- xteor) x Ora in ambito linguistico, la frequenza relativa p di una parola in un testo di fatto sempre bassissima, per cui, volendo semplificare il calcolo, possiamo esprimere x come x=
n * p, in quanto il prodotto di pq praticamente sempre uguale a p.
Ma il tal modo lo s.q.m. della frequenza assoluta di una parola pari alla radice quadrata della frequenza assoluta teorica. In questo senso lo scarto standardizzato [] assume la forma z = (x- xteor) >> [Bolasco,1999: 227] xteor Questo rapporto pu essere valutato utilizzando i criteri classici della significativit statistica con alcune considerazioni. <<[] Assumendo il corpus come una popolazione e ogni sua parte (sub-testo) come un campione, il modello distributivo di riferimento - per valutare in termini probabilistici il numero di occorrenze di una parola presenti in questo campione - quello di una legge ipergeometrica, legge vicina alla distribuzione multinomiale quando le frequenze relative sono molto piccole rispetto alla popolazione. Sotto particolari condizioni (frequenze assolute osservate non inferiori ad una certa frequenza) a sua volta quest'ultima ben approssimata da una variabile casuale normale. In pratica quando si stabilisce un livello di soglia minimo sul numero di occorrenze di una parola, per considerarla "in analisi", il calcolo delle specificit avviene attraverso un valore-test che confronta la frequenza relativa di una parola nella parte, con la corrispondente frequenza relativa nel corpus totale. Questo test effettuato sotto l'ipotesi di un'approssimazione normale, per cui possibile assumere i
29
classici limiti degli intervalli di confidenza di una variabile standardizzata z e assumere le regole ben conosciute della distribuzione di Gauss. Quando z all'incirca intorno allo zero ci significa che la parola presente nel sub-testo in proporzioni puramente aleatorie, ossia tanto quanto in media ci si pu aspettare. In tal caso la parola non significativa, quindi in qualche modo "banale", come dire che fa parte del vocabolario di base (necessario alla costruzione) del testo. Se z superiore, in valore assoluto, a 2 sappiamo che la sua presenza significativamente diversa da quella attesa (sotto una ben determinata ipotesi teorica, che quella dell'equidistribuzione e quindi di indipendenza, all'interno di un certo schema di estrazione e di un modello probabilistico di riferimento). Quindi il numero delle sue occorrenze significativo, sia in termini positivi che negativi. Nel primo di questi due ultimi casi si dir che il numero di occorrenze della parola in esame nel sub-testo supera largamente il valore atteso per puro effetto del caso e che la parola
caratteristica del testo (specificit positiva). Nel secondo caso si dir che la sua cos bassa
frequenza anch'essa significativa, per cui vi sar una qualche causa per la quale la parola non presente nel testo quanto ci si potesse aspettare. La parola si dice allora anticaratteristica o "rara" o anche mal rappresentata. Una selezione di parole con specificit positive S+ o negative S- consente di individuare alcuni tratti salienti del sub-testo, in modo da identificarne i principali contenuti>>35 Una estensione del criterio di selezione delle forme caratteristiche quello dellestrazione di frasi significative che consiste nellidentificare alcuni contesti locali che appunto contengono tali forme. Ci si basa sul principio che una frase tanto pi caratteristica quante pi parole ad alta specificit essa contiene. Pertanto se si considera di calcolare il valor medio dei valoritest delle parole che formano la frase, pi elevata questa quantit, pi significativa la
frase36. Con una semplificazione si pu immaginare di adottare come informazione il rango associato alle forme caratteristiche per ciascun sub-testo. Ovvero data la lista delle forme di un subtesto, secondo la loro specificit positiva decrescente, e consideratone il rango (ranghi bassi = alta specificit) si calcola il rango medio delle parole della frase. Se il rango medio piccolo vuol dire che essa contiene solo parole caratteristiche.
35 36
Naturalmente questa misura influenzata dal numero di parole, in quanto tende a privilegiare le frasi corte. Infatti, a parit di forme caratteristiche, ogni parola banale che si aggiunge nel calcolo tende ad abbassare la media
30
31
CAPITOLO II LE MATRICI
{frammenti x forme}, in cui in riga si hanno i frammenti di testo, da considerarsi come unit statistiche d'analisi (od "osservazioni") e in colonna si hanno le forme selezionate per lo studio, da considerarsi come variabili relative a ciascuna unit.
0 0 0 1 1 0 1 1 1 0 0 0
32
Dove le righe possono essere: singole risposte degli intervistati, le singole proposizioni, i singoli versi, i commi. Mentre le colonne sono costituite dalle unit lessicali selezionate dal vocabolario del corpus, espresso ora in forme grafiche, lemmi o segmenti, ora in forme miste (lessie, forme testuali). Le colonne della matrice costituiscono le informazioni elementari di ogni unit e sono quindi le componenti di un profilo lessicale, che sar oggetto dello studio. In ogni casella (i,j) della matrice riportato il numero di occorrenze dell'unit lessicale j-esima presente nell'osservazione i-esima. Di fatto questa matrice in prevalenza una tabella booleana (1 = presenza, 0 = assenza) poich solo raramente vi sono pi occorrenze di una stessa parola in un frammento. Sar comunque una matrice di tipo sparso, cio con oltre il 95% delle caselle nulle, poich ciascun frammento composto di qualche decina di parole, mentre l'ampiezza del vocabolario solitamente di diverse centinaia - se non migliaia - di unit lessicali. In questa matrice, si perde l'informazione relativa alla disposizione dei termini all'interno di ciascun frammento, mentre se ne conosce la loro combinazione. Ad esempio, il frammento <una casa bella veramente> coinciderebbe con <veramente una bella casa>. Tali "perdite d'informazione" sono tuttavia trascurabili rispetto al contenuto informativo dovuto alla combinazione dei termini stessi; se, al contrario, dovessero ritenersi fondamentali, non si dovr fare ricorso a questo genere di matrici. A questa matrice pu venire associata, per ciascun frammento, una serie di categorizzazioni (A, B, C, ... ) che registrano le modalit di altrettante variabili qualitative numeriche. Ad esempio, nel caso di un corpus di una raccolta di articoli di giornale (ogni articolo costituisce un frammento), possibile associare all'articolo categorizzazioni sull'autore (A), sulla posizione nella pagina (B), sull'argomento trattato (C) ecc. Si avr cos la seguente matrice delle variabili categoriali: AB C D 1 3 5 2 2 1 3 1 2 3 2 2 1 3 1 2
33
{forme x testi}, in cui si ha in riga il vocabolario selezionato allo scopo e in colonna i testi (o parti) secondo cui si considera suddiviso il corpus. Lunit lessicale quindi l'unit statistica d'analisi e il testo costituisce la variabile di studio. L'informazione statistica interna alla matrice la frequenza (numero di occorrenze assolute) con cui una parola (forma, segmento o lessia) ricorre in ciascun testo. Il profilo lessicale d'interesse spesso il profilo colonna, dal momento che si confronteranno i diversi testi sulla base della differente presenza (frequenza) delle parole. In ogni caso, la lettura diretta di tali profili richiederebbe di trasformare le occorrenze assolute in occorrenze normalizzate.
Testo Forma .
j T
1 2 3 i V(s)
Di Il Era
82 56 49 29 3
35 77 62 10 1
40 19 33 25 5
14 5 70 12 56 7
{forme x forme}, in cui sia le righe che le colonne descrivono il "vocabolario" prescelto. L'informazione statistica interna alla matrice una misura di similarit (espressa come sola presenza/assenza o come grado di correlazione) che registra il tipo o livello di co-occorrenza fra le forme, all'interno dei testi. Questa matrice pu venire utilizzata ad esempio per ponderare i profili colonna nelle matrici del tipo {frammenti x forme}. cosa madre cosa madre casa vita dare 1 0 1 0 0 0 1 1 1 1 casa vita dare 1 1 1 1 0 0 1 1 1 1 0 1 0 1 1
34
Secondo l'algebra matriciale, ogni riga o colonna di queste matrici rappresenta un vettore, descrivente il profilo lessicale, le tecniche utilizzate per l'analisi di tali matrici mirano alla sintesi o riduzione dei dati, attraverso lo studio della variabilit statistica. In particolare, le tecniche fattoriali - attraverso una riduzione del numero di variabili del fenomeno (vettori colonna) - producono delle nuove variabili sintetiche, in grado di ricostruire i principali assi semantici che caratterizzano la variabilit dei contenuti dei testo. Lanalisi delle corrispondenze la tecnica fattoriale utilizzata nel caso dei dati testuali. Essa visualizza le principali co-occorrenze fra parole presenti nel testo, sulla base della loro vicinanza nei piani cartesiani costituiti da coppie di assi fattoriali, ricostruendo in tal modo delle vere e proprie mappe del contenuto del testo, che forniscono spesso una rappresentazione globale del senso sottostante il discorso. Le tecniche di clusterizzazione e di segmentazione mirano, invece, a ridurre la quantit delle unit statistiche (vettori riga), producendone una classificazione multidimensionale in grado di definire delle tipologie attraverso le quali leggere simultaneamente le caratteristiche d'interesse. La cluster analysis, come famiglia d metodi di raggruppamento (gerarchici e non, scissori o aggregativi), consente di individuare classi di parole o di frammenti di testo, caratterizzati da una forte omogeneit interna, tale da poter ricostruire i principali "mondi lessicali" presenti nel corpus, ossia i differenti modi di parlare del fenomeno studiato, contenuto nei testo.37
37
35
dei problemi di studio. In altre parole, non si pu pensare di utilizzare un solo strumento per arrivare in fondo alla ricerca. Nel panorama in continua espansione, a tuttoggi possiamo citare i principali software. Alcuni tra i programmi contenenti tecniche lessicometriche e di statistica testuale figurano LEXICO, HYPERBASE, SPAD_T, SPHINX e ALCESTE. Fra i programmi di tipo strettamente linguistico sono da segnalare EULOGOS_ISL ed INTEX, ecc Infine tra i programmi di impianto lessico-testuale:ALCESTE, TALTAC, SPHINX.
36
37
Trattamento preparatorio, selezioni, lessicalizzazione TALTAC Information retrieval: Ricerca di concordanze in testo integrale
DBT, Nud-ist, TextPack
38
3.4 - SPAD-T
Lo Spad-T un software di origine francese orientato all'analisi statistica di un testo secondo un approccio lessicometrico. Lo Spad-T riconosce ogni parola di un testo come forma grafica, in altre parole come un elemento il cui tratto caratteristico l'apparenza grafica (parole tali e quali scritte nel testo: poich diverso da poich) e basa l'elaborazione: sulla tabella lessicale intera riferita al corpus oggetto di studio; sulla frequenza d'occorrenza delle parole del corpus; sul confronto fra "profilai lessicali delle differenti parti del corpus.
Lo Spad-T fornisce degli strumenti computazionali che trovano applicazione nella Statistica Linguistica: procedura NUMER: numerizzazione delle parole, calcolo della loro lunghezza e frequenza; procedura SEGME: generazione dei segmenti ripetuti; procedura MOTEX: generazione della tabella di contingenza. procedura CORTE: correzione del vocabolario. Attraverso la corte si possono cos effettuare sul testo delle operazioni di lemmatizzazione semplicemente facendo equivalere una forma grafica al proprio lemma; procedura SETEX: riduzione della soglia di frequenza. Le forme grafiche che ricorrono pi frequentemente del valore di soglia impostato saranno conservate. Non solo: la SETEX consente anche di impostare la lunghezza minima delle parole e delle risposte al di sopra della quale le parole o le risposte verranno considerate ai fini dell'analisi. procedura CORDA: concordanza delle parole; procedura MOCAR: individuazione delle parole o dei segmenti caratteristici; procedura RECAR: individuazione delle risposte caratteristiche; procedura APLUM: analisi delle corrispondenze semplici parole*testi o segmenti*testi; procedura ASPAR: analisi delle corrispondenze multiple risposte*parole o risposte*segmenti; procedura PARTI: creazione di cluster; procedura CLAIR: interpretazione dei fattori.
39
3.5 - ALCESTE
3.5.1 Obiettivo
L'analisi di Dati Testuali o statistici testuali la metodologia che mira a scoprire le informazioni essenziali contenute in un testo. ALCESTE un software di analisi di Dati Testuali, generato dal CNRS, col sostegno dell'ANVAR. Il software ALCESTE permette di analizzare automaticamente colloqui, domande aperte, indagini socioeconomiche, raccolte di testi diversi: opere letterarie, articoli di riviste, romanzi... e pu essere applicato in diversi campi quali la Linguistica, l'Analisi del discorso, l'elaborazione delle indagini, consigli in marketing, la Pubblicit, il Giornalismo,la Storia, la Sociologia, la Psicologia, il Diritto, la Medicina, la Ricerca documentaria... L'obiettivo di quantificare un testo per estrarne le strutture significative pi forti. Le ricerche hanno mostrato (J.P BENZECRI, M. REINERT) che queste strutture sono legate strettamente alla distribuzione delle parole in un testo e che questa distribuzione si abitua raramente al caso. Descrivere, classificare, assimilare, sintetizzare automaticamente un testo, tale l'interesse presente del software ALCESTE.
La Classificazione Discendente Gerarchica: questo metodo permette di frazionare il testo. Esso avvista le maggiori opposizioni esistenti tra le parole del testo e estrae classi di enunciati rappresentativi. Ha il vantaggio di non esigere conoscenze a priori sul testo da analizzare. Questo metodo la base del software ALCESTE
3.5.3 - Funzioni
Si tratta della prima tappa dell' elaborazione. Questa analisi permette di conteggiare i segmenti ripetuti del testo, le parole, radici e coppie di parole.
40
Analisi di default :
Questa analisi comprende due classificazioni successive (doppia classificazione) con un controllo di stabilit. L'analisi di default permette di estrarre la maggiore struttura del testo analizzato. I risultati ottenuti offrono all' utente le caratteristiche seguenti: le parole e frasi pi significative (il calcolo del 2), i segmenti ripetuti e le concordanze delle parole pi specifiche. L'analisi di default tipica del software ALCESTE ed caratterizzata da una grande pertinenza.
Questa analisi consiste nell'incrociare il testo con le variabili illustrative fuori testo quali una variabile "capitolo" nel caso di un libro oppure variabili quali "t", "sesso", "professione" per una serie di interviste.
Un testo talvolta composto di diverse parti (per esempio, un libro composto di capitoli, una rivista composta di articoli) che sono chiamate unit naturali. Dunque questa analisi permette di classificare automaticamente le unit naturali.
Questa analisi permette di ottenere una tipologia delle sequenze delle parole nel testo. Le classi ottenute sono caratterizzate dalle coppie di parole specifiche e i segmenti ripetuti associati.
41
3.6 - EULOGOS
EULOGOS - sistema lessicale integrato di analisi linguistica stato sviluppato a partire da una tesi di laurea [Mastidoro, 1991 ] svolta sotto la direzione di Tullio De Mauro. L'idea di base secondo la quale EULOGOS nato ha tre obiettivi: fornisce uno strumento per personal computer con un'interfaccia utente semplice e interattiva, attraverso la quale accedere a tutte le fasi e tutti i dati di una lemmatizzazione, dalla scansione del testo fino alla produzione delle liste; integrare nel lemmatizzatore un dizionario di macchina interattivo capace di gestire le particolarit morfologiche della lingua italiana e di differenziare lemmi e forme in vocabolari interni, a partire dai tre livelli del Vocabolario di base della lingua italiana [De Mauro, 1989]. Gestire anche lemmi complessi con la possibilit di includerli nelle liste pari dei lemmi semplici; tenere un collegamento stretto tra la revisione della lemmatizzazione e la manutenzione del dizionario di macchina, in modo da incrementare con il minimo sforzo il patrimonio lessicale e morfologico dei sistema. Allo stato attuale EULOGOS un programma per Windows che integra diverse funzioni: dizionario di macchina. Il dizionario di macchina (DM) di EULOGOS gestisce le
informazioni lessicali e morfologiche in base alle quali intervengono gli algoritmi di lemmatizzazione. - lemmatizzatore. La lemmatizzazione viene svolta a partire da un file in formato testo semplice. La funzione di lemmatizzazione consente di impostare alcune variabili specifiche (distinzione tra maiuscole e minuscole, ecc.), cosa che permette di tarare il comportamento dell'algoritmo rispetto alle caratteristiche specifiche dei corpus e alle esigenze di calcolo. generatore delle liste di frequenza. Con EULOGOS possibile ottenere liste di
frequenza differenziate partendo dallo stesso corpus, in modo da confrontare i risultati rispetto ai criteri di definizione della lista stessa Analizzatore dei segmenti ripetuti. Questa funzione, isola i segmenti ripetuti al livello
di occorrenza e al livello di lemma. Al livello di occorrenza, segnala segmenti di lunghezza e di frequenza maggiori o uguali a livelli di soglia variabili. Al livello di lemma, analizza il ricorrere di sequenze di forme di lemmi. In questo caso si pu definire se debbano coincidere solo i lemmi o anche le forme dei lemmi, perch la sequenza sia considerata tale.
42
3.7 - SPHINX
Con Sphinx si realizzano delle inchieste di gradimento e di qualit, dei test prodotti, degli studi di mercato. Con Sphinx, potrete organizzare questi studi. Dal questionario al rapporto, tre livelli di risposte:
Sphinx Primo: l'essenziale per tutte le vostre inchieste
Funzioni
Idea e pubblicazione del questionario Pubblicazione su Internet Inserimento delle risposte Spoglio, analisi statistiche e produzione del rapporto Edizione di pannello di controllo multimediale
Sphinx Plus2 aggiunge a Primo la possibilit dell'introduzione di dati esterni, della casualit e della flessibilit per ottenete un mezzo statistico di portata generale ed un potente sistema gestionale di inchieste in fila o in rete.
Funzioni
Apertura di ogni tipo di dati. Analisi multivariata, (analisi fattoriale,). Calcolo delle variabili informative, fusioni. Gestione avanzata delle inchieste in linee ed in rete
43
Lexica un attrezzo molto completo per gli studi qualitativi e l'analisi di dati testuali. Permette di avvicinarsi ad ogni tipo di testo: - Intervista non direttive, - discorso, - documenti, - database, - pagine Web...
Funzioni
Integrazione dei testi, produzioni di lessici e navigazione lessicale. Analisi sintattica e lemmatizzazione. Documenti cognitivi, termini lessicali specifici e classificazioni tematiche
44
3.8 TALTAC
TALTAC sta per Trattamento Automatico Lessico-Testuale per l'Analisi del Contenuto. E' una
libreria di programmi che consente il trattamento e l'analisi di un insieme di dati testuali secondo una logica di tipo lessicometrico, finalizzata all'analisi del contenuto di un testo. Tale approccio consente lo studio diretto di dati di natura linguistica, secondo i principi della "statistica testuale", in funzione di un'analisi automatica del testo. E' particolarmente indicato per testi di ampie dimensioni, ossia di centinaia o migliaia di pagine. Taltac nato con l'idea non di sostituire il software gi sviluppato per l'analisi di dati testuali sia in ambito statistico che linguistico, bens di realizzare la pi elevata integrazione possibile fra diversi livelli di analisi, ora lessicale ora testuale. Taltac convoglia in un unico ambiente misurazioni e risorse sia linguistiche, sia statistico-linguistiche ed aperto all'utilizzo degli altri pacchetti gi disponibili per la ricerca scientifica, in particolare quelli tipici dell'approccio lessicometrico (Spad, Lexico, Sphinx, Alceste, Hyperbase) e di quello lessico-grammaticale (Intex). Nel pacchetto, una particolare attenzione riposta nella preparazione e cura del testo, nella scelta delle unit di analisi pi significative, nella consultazione di linguaggi di riferimento.Uno dei principali obiettivi perseguibili con questo trattamento l'estrazione e la messa a punto di un "vocabolario utile" per l'analisi di contenuto espresso in forme testuali, ossia in unit lessicali di tipo misto capaci di cogliere le accezioni e i significati presenti nel corpus analizzato.
TALTAC permette di fare le seguenti operazioni: - La normalizzazione del testo agisce sullinsieme dei caratteri non separatori eliminando possibili fonti di sdoppiamento del dato. Ad esempio, le maiuscole non rilevanti (la, La), oppure uniformando nei limiti del possibile la grafia dei nomi propri, delle sigle, dei numeri e delle date che presentano una forte variabilit. - L'analisi accurata del vocabolario prevede il calcolo di una serie di misure e di indici statistici sul vocabolario e sulle sue classi di frequenza (cf. Bolasco 1999, p. 186-7) (es. gamma delle frequenze, indici di ricchezza lessicale, individuazione del livello di soglia di frequenza per l'analisi di contenuto).
45
- L' analisi dei segmenti utile per avere informazioni generali sulla ricchezza lessicale, sulle classi di frequenza, sulla soglia di frequenza minima per l'analisi del contenuto e sul
tasso di copertura del testo, nonch sulla quantit di parole in analisi nelle fasi successive di
studio con tecniche fattoriali - L' analisi lessicale a partire da una categorizzazione grammaticale del testo; possibile integrare la categorizzazione, etichettando in modo semi-automatico le parole ambigue o quelle automaticamente non riconosciute, con l'ausilio di un'analisi delle concordanze. Questo passo di analisi particolarmente utile ad individuare il nucleo del linguaggio peculiare del corpus (il "core" del vocabolario) e per porre le basi della selezione delle unit di analisi lessico-testuali, di cui si vuole indagare il contenuto e/o il comportamento nel discorso.Inoltre permette di approfondire l'analisi testuale puntando ad individuare alcuni tratti di tipo lessicale sul corpus oggetto di studio, a partire dal suo vocabolario, primo fra tutti il cosiddetto Tagging grammaticale. Non una fase appropriata a studi "veloci" sul corpus. Per un suo pieno utilizzo, questo step richiede anche l'interazione con altri software come Lexico ed Intex: pertanto una fase time-expensive. - Ad esempio, preferibile operare innanzitutto un Confronto con lessici di frequenza (laddove si disponga di un lessico d'uso di un linguaggio di riferimento) per evidenziare i lemmi sovra/sotto-utilizzati nel corpus (lemmi con elevato scarto standardizzato in valore assoluto). In tal modo si individuano i lessemi su cui concentrare le operazioni di disambiguazione. - Il calcolo della connessione lessicale fra due vocabolari di testi diversi di uno stesso Autore o di due corpus confrontabili fra loro, con relativa scomposizione nella parte comune e nelle parti "originali" per ciascun vocabolario. Fra le operazioni di tipo pi strettamente statistico, sono possibili calcoli su liste come il calcolo di rango, dispersione e uso, nonch il calcolo del sovra/sotto utilizzo di un termine mediante lo scarto standardizzato rispetto a un linguaggio di riferimento. - La creazione di un database di Sessione con l'acquisizione delle principali funzioni di Taltac da applicare a proprie liste personalizzate.
46
47
3.10 INTEX
INTEX un ambiente linguistico di sviluppo che include i dizionari e le grammatiche di grande-copertura ed analizza i testi di parecchie milioni di parole in tempo reale. INTEX include gli strumenti per generare ed effettuare le risorse del lessico, cos come le grammatiche morfologiche e sintattiche. INTEX usato da parecchi centri di ricerca. INTEX pu costruire lemmatizzazioni e gli indici di grandi testi che riguardano a tutti i tipi di modelli limitati della condizione. INTEX usato da oltre 200 laboratori come sistema di reperimento delle informazioni, per analizzare i testi letterari, per misurare le variazioni di lingua, per insegnare le seconde lingue ed in parecchie universit per insegnare la linguistica computazionale agli allievi laureati.
3.11 - LEXICO 3
Lexico3 l'edizione 2001 del software Lexico di cui la prima versione risale al 1990. Le funzionalit presenti fin dalla prima versione (segmentazione, concordanza, conteggi, specificit ed analisi fattoriali) sono state conservate e migliorate notevolmente. L'originalit principale di Lexico che permette all'utente di custodire la padronanza sull'insieme dei processi lessicometrici. Al di l della localizzazione delle uniche forme grafiche, il software permette di studiare nei testi. La ripartizione di unit pi complesse composte di sequenze di forma: segmenti ripetuti, coppie di forma in co-occorrenze, ecc. al contenuto spesso meno ambiguo delle forme grafiche di cui sono composte.
Principali novit: il principale miglioramento portato da questa nuova versione riguarda
l'architettura "oggetto" del programma. I differenti moduli che comunicano sono insieme oramai capaci di scambiare dei dati pi complessi (forme, segmenti ripetuti, co-occorrenze, ).
Costituzione di gruppi di forme:nuovi strumenti sono stati integrati e facilitano la ricerca di
tali insiemi di forme. La caratteristica delle differenti parti di un corpus per le forme che adoperano resa pi precisa nella presente versione per la possibilit di mettere in evidenza delle sezioni del testo.
48
4.1 Introduzione
In questa parte del lavoro sintende studiare, con un metodo statistico-linguistico, una raccolta di articoli di giornale. Questa fase di studio si basa sulle recenti metodologie statistiche di analisi dei dati testuali tipiche di una lettura automatica del corpus. Sono stati presi in considerazione 126 articoli (per un totale di 77046 occorrenze) del quotidiano La Repubblica38 che trattano gli avvenimenti che si sono succeduti in seguito al sequestro di Simona Pari e Simona Torretta. Lanalisi del contenuto di tali articoli qui sviluppata con lo scopo di evidenziare le caratteristiche del linguaggio utilizzato, nonch di misurare quantitativamente il peso di alcune tematiche prevalenti allinterno del corpus analizzato. Lo studio stato impostato suddividendo la storia del sequestro in quattro periodi. Nel primo periodo sono stati raccolti alcuni articoli che vanno dal giorno 07 al 19 settembre 2004 (lasso di tempo in cui viene preso in considerazione la prima fase del rapimento, dove gli inquirenti cercano di capire realmente chi siano i sequestratori e dove si analizzano le loro prime rivendicazioni), il secondo periodo raccoglie gli articoli che vanno dal giorno 20 al 27 settembre 2004 (fase in cui si procede ad analizzare le trattative39), il terzo si sviluppa sugli articoli redatti nel giorno 28 settembre 2004 (data della liberazione delle due Simone) ed il 4 ed ultimo periodo in cui vengono analizzati gli avvenimenti accaduti dal 29 settembre al 24 ottobre 2004 (dove vengono presi in esame i giorni successivi alla liberazione delle due italiane).
Utilizzato perch offre una panoramica completa della vicenda sulle due Simone (dal sequestro alla liberazione) 39 Precisamente il 21 settembre il gruppo legato ad Al Zarqawi smentisce di aver comprato le due Simone. Inoltre il 23 ed il 27 coincididono con due date, poi rivelatesi false, che annunciano la loro morte 49
38
Numero di articoli 40000 30000 20000 10000 0 I periodo II periodo III periodo IV periodo
Lelaborazione dei dati stata affrontata utilizzando un programma di statistica linguistica denominato Taltac. In generale, l'analisi svolta in TALTAC - grazie all'interazione, come input, con software linguistici (vedi Intex) e statistici (vedi Lexico o Spad_T) e a vari feedback sui dati (vedi concordanze) - permette di estrarre linformazione pi significativa dal corpus oggetto di studio40. Grazie a questo programma possiamo sviluppare unanalisi sistematica del contenuto di tutti gli articoli presenti nel quotidiano La Repubblica, con lobiettivo fondamentale di documentare il lessico praticato nei diversi articoli. Lo studio mira pertanto ad estrapolare cos le singole parole allinterno del corpus in considerazione del periodo e del momento sociale in cui sono inserite. Il vero problema dellanalisi automatica dei dati testuali quello della strategia di individuazione dellinformazione essenziale allinterno del testo e quindi quello della selezione delle unit dinformazione ritenute pi rilevanti per la ricostruzione del significato (Bolasco e della Ratta-Rinaldi, 2004; Poibeau, 2004). Le prime tappe di questa strategia danalisi sono state codificate dal software TALTAC con cui otteniamo41:
40 41
La normalizzazione preliminare del corpus, Le misure lessicometriche di base, Lidentificazione dei poliformi, Lindividuazione dei segmenti ripetuti, La disambiguazione, La lemmatizzazione, Il confronto con i lessici di frequenza per lestrazione del linguaggio peculiare.
Guida in linea TALTAC: Help di Taltac 1.0 Giuliano L.C. Lanalisi automatica dei dati testuali. Software e istruzioni per luso Ottobre 2004
50
Articolo della Repubblica" di Carlo Bonini 7 settembre 2004 Articolo della Repubblica" 3 ottobre 2004
51
Ma infine Tawhid wal Jihad, il gruppo guidato da Abu Musab Al Zarqawi (definito luomo del terrore perch a lui si legano la maggior parte delle decapitazioni avvenute in Iraq) ha negato di aver "acquistato" le due donne italiane. Una volta stabilita la loro identit44, anche con domande poste loro grazie all'intermediario, viene avviato un negoziato (scrive il Sunday Times). Nel frattempo Simona Pari e Simona Torretta vengono localizzate in una moschea a 64 chilometri da Bagdad. Il governo italiano ha a questo punto due opzioni: riavviare il negoziato o predisporre un raid delle forze speciali., questultimo stato escluso perch giudicato troppo rischioso. I rapitori si fanno sentire. Sono furenti per la fuga di notizie e accusano i mediatori di fare un gioco sporco. Il 28 settembre tutto pronto, l'aero in attesa, ma i rapitori tornano a farsi sentire. Quella storia dei soldi proprio non gli va gi. Non garantiscono pi nulla anzi dichiarano: "le due italiane in ostaggio non torneranno vive in Italia, torneranno solo come cadaveri". Fortunatamente si ha un epilogo positivo di tutta la vicenda con la liberazione di Simona Pari, Simona Torretta, Raad e Manhaz Bassam. Dopo la loro liberazione si torna a parlare di un ipotetico pagamento: c chi sostiene che, in tre giorni, viene raggiunto un accordo con cui Roma si impegna a versare 2,8 milioni di sterline (4,05 milioni di euro) come "denaro di protezione", altri che parlano di un milione di dollari, di cui mezzo milione versato prima della liberazione, il restante a liberazione avvenuta. Maurizio Scelli nega il pagamento del riscatto la croce rossa italiana un ente pubblico ed neutrale, non pu permettersi di dare 100 lire che non siano documentate ma rivendica il merito dell'impresa: "scusate e chi le ha portate a casa le ragazze?"
Secondo Maurizio Scelli (Commissario straordinario della Croce Rossa Italiana), il presunto ruolo di spie delle due volontarie sarebbe il motivo per cui i sequestratori le hanno condannate a morte.
44
52
Normalizzazione Normalizzazione
Analisi Vocabolario
Analisi segmenti
Lista da lessicalizzare
Estrazione dinformazione Analisi delle Specificit Confronto Lessici e liste Matrice forme x testi
Questo schema rappresenta il percorso condotto con TALTAC: definito il corpus oggetto di studio stato effettuato un pre-trattamento, la Normalizzazione, per eliminare le possibili fonti di sdoppiamento del dato. Successivamente viene visualizzato e analizzato il vocabolario del corpus per effettuare alcune misurazioni lessicometriche. In un secondo tempo si passa ad individuare sequenze di parole, ovvero segmenti ripetuti; dalla loro lista possibile visualizzare i segmenti pi significativi grazie allindice IS; inoltre possibile selezionare un insieme di segmenti da lessicalizzare, per trasformare nel testo le sequenze dinteresse in forme grafiche semplici, mediante lo spazio con il carattere _. TALTAC dispone, al suo interno, di risorse linguistiche che consentono di aggiungere accanto alle forme del vocabolario informazioni di tipo grammaticale e semantico. Queste meta-informazioni si sfruttano utilizzando le funzioni di annotazioni ed etichettatura (tagging). La procedura di tagging grammaticale confronta il vocabolario del corpus con il dizionario di TALTAC (DIZTALTAC), in questo modo possibile etichettare grammaticalmente le forme grafiche presenti nel vocabolario. La procedura di tagging non effettua una lemmatizzazione completa del corpus, ma si limita ad attribuire le forme non ambigue le categorie grammaticale e il lemma.
53
Il tagging semantico pu essere effettuato grazie alla definizione di dizionari di contenuto semantico allinterno del database di sistema. La versione 1.6.2.contiene un dizionario di circa 5000 forme flesse di aggettivi classificati come positivi o negativi45. Il confronto tra il vocabolario del corpus e questo dizionario consente di visualizzare e conteggiare gli aggettivi negativi o positivi presenti nel corpus. Una delle funzioni centrali di TALTAC lestrazione di informazione peculiare del corpus in una logica tipica dei Text Mining. Tale estrazione si ottiene utilizzando risorsa endogene o risorse esogene rispetto al testo in analisi. Le risorse endogene sono di fatto le variabili categoriali associate al testo, grazie alle quali possibile partizionare il corpus e calcolare le parole caratteristiche delle varie parti o sub-testi, attraverso lanalisi delle specialit. Le risorse esogene sono invece le liste di riferimento (lessici di frequenza) contenute nel database di sistema di TALTAC. Confrontando il vocabolario del corpus con il lessico di frequenza pi adeguato, possibile individuare il linguaggio peculiare del testo, nei termini sia delle unita lessicali sovra o sotto rappresentate (quelle cio che presentano maggiori o minori scarti duso in valore assoluto), che di quelle originali del testo (cio non presenti nel lessico di riferimento utilizzato. Anche i segmenti ripetuti individuati nel corpus possono essere confrontati con il lessico di poliformi.
45
54
Tabella 4 Misure lessicometriche del corpus suddiviso per periodi num. articoli
I periodo II periodo III periodo IV periodo 59 25 15 27 126
1
% articoli
46,82 19,84 11,91 21,43 100
N/V
4,97 4 3,53 4,01
V1 rappresenta linsieme delle parole che appaiono una sola volta - chiamate anche hapax mentre V rappresenta il totale di parole diverse
Il numero degli articoli varia notevolmente nei diversi periodi: dai 15 articoli nel III periodo, a quasi il doppio per il II e IV periodo (25 e 27 articoli), fino al quadruplo (59 articoli) nel I periodo.
Infine per quanto concerne le occorrenze totali risultano 35278 per il I periodo mentre sommate le occorrenze per gli altri tre periodi abbiamo 41714 (poco superiore alle occorrenze presenti nel I periodo)
55
Una prima misura di ricchezza lessicale (Frequenza media generale) N/V (noto anche come type/token ratio) dove risultano valori intorno al 4 (tasso leggermente inferiore 3,53 nel III periodo). Unaltra misura di ricchezza lessicale (Percentuale di hapax) (V1/V)*100 (il tasso risulta superiore nel III periodo [60,45], invece, rispetto alle nostre aspettative, risulta inferiore nel I periodo [56,58]). Il rapporto (V/N)*100 dellintero corpus 14,59%, non supera il 20% quindi pu considerarsi sufficientemente esteso.
56
46
57
58
ordinando, invece, lindice assoluto per valori crescenti si possono trovare ai primi ranghi i segmenti pi corti e poco interessanti da studiare.
47
tale Modulo identifica le sequenze di parole definite dallutente in un'apposita lista e le trasforma in forme grafiche semplici mediante la sostituzione dello spazio con il carattere _ (comunemente detto "underscore").
59
60
Vocabolario (TALTAC) V=Verbi 1947 2676 N=Sostantivi NM=Nomi Propri A=Aggettivi 3527 84 673 190 2180 O=Stranierismi J=Ambiguit altro
48 49
Aggiornamento guida TALTAC (2004, p.29) Due casi particolari:il campo lemma pu essere con una forma canonica se lambiguit_J proviene da due lemmi omografi (essere_N, essere_V); il campo lemma ripete le forma grafica a parit di categoria (capita: CAT_V pu derivare da due verbi [capire,capitare], quindi CAT non ambigua ma comunque corrisponde a due entrate)
61
IRRSAE DEL LAZIO (a cura di Massimo Radiciotti) - LAnalisi testuale dei messaggi di Sergio Bolasco (2001) 51 Articolo della Repubblica" 28 settembre 2004 62
50
delle italiane, fatto nella scuola di Beslan e un ringraziamento a quanti in Ossezia hanno ucciso donne e bambini52. Il verbo <tornare>, ha in totale 55 occorrenze di cui 21 nel primo periodo, che riguardano sia la morte di Enzo Baldoni (il governo si impegna a riportare in Italia il corpo di Baldoni), sia il missile caduto vicino alla scuola, proprio davanti alla sede dove lavorano le due Simone, in quella occasione, la madre di Simona Torretta, le ha detto pi volte implorandola di tornare in patria. Nel IV periodo le occorrenze del verbo <tornare> aumentano di nuovo e arrivano a 19 proprio ad indicare il desiderio delle due Simone, seppur ancora segnate da quanto a loro accaduto, di voler tornare in Iraq per continuare ad <aiutare> (38 occorrenze) le persone bisognose e sofferenti. Sempre ai primi posti della nostra tabella troviamo il verbo <incontrare> (33 occorrenze), che si riferisce soprattutto allincontro avvenuto il giorno prima del rapimento fra, le due Simone e Al Kubassi, componente del consiglio degli Ulema. Ci sono due versioni contrastanti a riguardo: Al Kubassi sostiene che le due ragazze si erano recate da lui perch non si sentivano pi al sicuro in quella terra, mentre le due volontarie sostengono che, il motivo della visita, era solo per mettere al corrente lui e tutti gli Ulema dei loro progetti e del loro lavoro in Iraq. Tutto lamore che le due italiane hanno per lIraq le ha portate a <scrivere> articoli, rapporti sulle loro attivit, e-mail ad amici e conoscenti, e a <parlare> di tutto quello che accade tra popolazione irachena. E significativo segnalare infine come alcuni verbi, che sembrano collegati al rapimento, compaiono agli ultimi posti della tabella originaria e, quindi, in questa tabella non sono riportati come, <rivendicare> con 14 <minacciare> con soli 5 occorrenze. occorrenze, <catturare> con 13 occorrenze,
52
63
Simona Torretta ha fatto arrivare a Roma una bambina irachena malata di leucemia perch potesse essere curata al San Camillo (proprio ad indicare che sia lei che lamica Simona Pari non hanno nulla a che <vedere> -17 occorrenze- con quello che succede in Iraq). Per finire sono stati fatti appelli per condannare ed isolare il terrorismo, inviti a liberare le due ragazze italiane che sono nelle mani dei rapitori in Iraq. Carlo Azeglio Ciampi e Silvio Berlusconi hanno incontrato il presidente della repubblica irachena Al Yawar, chiedendogli di fare il massimo per arrivare alla liberazione di Simona Pari e Simona Torretta, ma il capo dello Stato italiano ha fatto di pi: Carlo Azeglio Ciampi ha infatti <firmato> (13 occorrenze) un manifesto "contro il terrorismo e per la vita" insieme ai rappresentanti dei musulmani e delle musulmane d'Italia, ricevuti al Quirinale.
65
Cat. gram. V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V
Tabella 8 - vocabolario (con TAG grammaticale) ordinato secondo verbi e occorrenze decrescenti
forma grafica rapite parla chiesto sembra contatti liberate liberare parlato parlare aggiunto chiedere spiegato racconta diffuso resta capire arrivare spiega tornare arriva chiede mettere aiutare sapere vedere rispondere pagato raccontato rapito risposta chiedono scrive tiene credo incontrato lasciare passato ottenere ricevuto sentire appare annuncia aperto arrivata tenere prendere sostiene verificare Lascia Firmato 67 occ. tot. 70 37 35 32 32 31 30 30 30 26 25 25 22 22 21 21 20 20 20 19 19 18 17 17 17 17 16 16 16 16 16 15 15 15 15 15 14 14 14 14 14 14 14 13 13 13 13 13 13 13 Cat gramm. V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 37 18 15 18 12 5 17 10 11 6 11 11 5 7 12 11 11 12 10 6 7 11 14 11 6 3 1 6 10 7 6 5 6 3 8 6 3 6 8 8 8 1 8 2 7 3 6 4 7 8 17 8 3 6 11 4 8 4 5 6 3 2 2 10 3 5 5 2 1 5 4 4 1 2 6 3 0 2 3 5 4 3 3 6 3 5 2 3 2 2 2 4 4 2 3 4 6 5 4 3 5 0 3 2 3 14 2 2 3 11 2 3 7 2 0 2 3 2 1 3 1 1 0 1 2 2 4 1 1 0 1 3 2 2 2 0 5 3 2 0 2 5 1 7 1 1 0 2 2 1 11 11 14 6 6 8 3 14 11 3 9 9 8 3 6 3 1 4 8 5 7 2 2 3 3 9 11 7 2 4 5 4 4 4 2 4 4 2 2 4 2 4 1 2 2 5 1 2 0 1
Aggiornamento guida TALTAC (2004, p.30) Naturalmente tanto lo scarto ha un valore elevato tanto pi la forma pu essere considerata peculiare
valore del 2con 1 grado di libert e -value=0,05 Articolo della Repubblica " 8 settembre 2004 68
dobbiamo garantire - precisa Fini - lo svolgimento delle elezioni, per fare in modo che il popolo iracheno sia autogovernato in modo rappresentativo di tutte le identit culturali, etniche e politiche del paese57. Fra questi segnaliamo anche altri verbi pi legati direttamente al rapimento come <firmare>, <rivendicare>, <collaborare> che presentano anchessi uno scarto sulle occorrenze particolarmente ampio.
57
70
58
71
<Al Kubassi> (14 occorrenze) il componente del Consiglio degli Ulema che ha incontrato le "due Simone" luned 6 settembre, il giorno prima del rapimento. Se le informazioni raccolte da Al Aam sono attendibili, bisogna prendere in considerazione l'ipotesi che, <Al Rooz>, il direttore dell'autorevole quotidiano del Kuwait, sia il "mediatore", infatti, pubblicamente Al Rooz rilancia i messaggi dei rapitori, rassicura sulle condizioni degli ostaggi e infine propone le richieste necessarie per rimetterle in libert59. Un suo corrispondente a Bagdad, tale Fahm (che risulta avere le maggiori occorrenze nel II periodo), da circa due giorni, riceve dalla sua "fonte irachena", notizie sulle ragazze che lui riferisce ad Al Rooz, il quale decide se pubblicare o meno. La"fonte irachena", senza un nome e senza un volto, che si dice in contatto con il gruppo dei sequestratori e che, da quattro giorni alimenta le sue corrispondenze su un rapimento anomalo arrivato al suo ventiseiesimo giorno, ha aperto un canale che continua ad allargare, di cui il quotidiano "Al Aam" si fatto autorevole garante, proponendo, con il passare dei giorni, un quadro sempre pi nitido60. Inoltre, si pu osservare come il gruppo, che rivendica il rapimento delle 2 Simone legato al nome di <Al Zawahiri> (il chirurgo egiziano considerato il numero due di Al Qaeda61 e il braccio destro di Osama Bin Laden), occorre solo 8 volte rispetto al gruppo legato al nome di <Al Zarqawi> (estremista palestinese con passaporto giordano, luogotenente di Bin Laden in Iraq ed autore della maggior parte delle decapitazioni avvenute in Iraq) che occorre ben 48 volte e non direttamente collegato con il loro rapimento. Quindi, questo rapimento, in parte collegato al nome di <Osama Bin Laden> (15 occorrenze di cui solo 12 sono presenti nel I periodo), definito il signore del terrore62. Sono tutte tracce di una rafforzata pericolosit aggravata, se si d retta agli analisti israeliani, dalla consapevolezza che, Osama Bin Laden, pur al vertice dell'organizzazione, ormai "solo un punto di riferimento e, la sua eventuale cattura, non avrebbe pi una grande influenza" sui destini della partita perch, nel frattempo, si fatta avanti una nuova generazione di integralisti. Al Qaeda stata distrutta in Afghanistan e una buona parte della leadership stata eliminata o dispersa. Paradossalmente, la distruzione dell'organizzazione nel Paese dei Taliban complica e non risolve il problema perch quella distruzione crea nuove difficolt nella individuazione
59 60
Articolo della Repubblica" di Giuseppe DAvanzo 27 settembre 2004 Articolo della Repubblica" di Carlo bovini - 27 settembre 2004 61 Al Qaida un movimento paramilitare fautore del fondamentalismo islamico guidato dallo sceicco Osama bin Laden sotto la guida religiosa del mullah Omar. 62 Articolo della Repubblica" di Giuseppe DAvanzo 9 settembre 2004 72
della faccia non nota e clandestina dell'organizzazione che pu aumentare di effettivi con i nuovi adepti e con i veterani scappati dall'Afghanistan. "Se la pressione internazionale dovesse diminuire e il controllo sulle comunit della diaspora dovesse calare di tono - ha scritto il generale Fabio Mini ("La guerra dopo la guerra", Einaudi) si pu essere certi della ripresa dell'organizzazione". una conclusione accettata oggi anche dall'intelligence americana. Le agenzie Usa raccolgono informazioni che mostrano come "Al Qaeda non stata azzerata da uccisioni e arresti" come va ripetendo Bush. Al contrario, i dati in possesso dell'intelligence, secondo il New York Times, mostrano che "la rete terroristica ha un'inaspettata flessibilit e capacit di autorigenerarsi"63. Infine si pu osservare come il nome di <Enzo Baldoni> (persino pi del premier Silvio Berlusconi che viene definito dai rapitori vile), occorre ben 62 volte e si trovi ai primi posti a dispetto delle nostre aspettative come se, essendo unuccisione relativamente recente, ha pi importanza dellaltro ostaggio italiano ucciso in Iraq, Fabrizio Quattrocchi che viene nominato solo 11 volte. Potremmo presupporre che, queste notevoli differenze di occorrenze, sono giustificate forse dalla diversa collocazione politica dei due ostaggi uccisi e le motivazioni della loro presenza in Iraq. Infatti, la condizione di cooperante e volontario di Baldoni, lo qualifica come pi vicino alle posizioni di Repubblica rispetto a Quattrocchi, dichiaratamente di destra e con sospetto ruolo paramilitare a Bagdad. Altri due personaggi che hanno avuto un ruolo fondamentale nella liberazioni delle due Simone sono <Tareq Alani> e <Laila>, entrambi, hanno tutte le occorrenze nel IV periodo. Il primo responsabile degli affari politici e, di fatto, una sorta di ministro degli Interni. Lo stesso viene contattato dai sequestratori delle due Simone che dettano le condizioni per il loro rilascio. Per fare in modo che durante le trattative non sorgano incomprensioni, la Farnesina coinvolge Laila, un esponente dei servizi segreti italiani, per fare da interlocutore tra Tareq Alani e il governo italiano. L'obiettivo di questo rapimento naturalmente il governo italiano, "anello debole" della coalizione anglo-americana (e quindi di <Bush>), il pi fragile dei popoli europei. Quasi contemporaneamente al sequestro delle due Simone c stato il rapimento, conclusosi purtroppo con la loro uccisione avvenuta il 19 settembre, di tre ingegneri della Gulf Service Company, Jack Hensley, Kenneth Bigley e Eugene Armstrong (che di media hanno 18
63
73
occorrenze)64per mano del gruppo legato ad Al Zarqawi. Si temeva che il gruppo Tawhid wal Jihad annunciassero che, anche Simona Pari e Simona Torretta, erano nelle mani di Al Zarqawi (sarebbe stato lo scenario peggiore). Per fortuna il 21 settembre il gruppo 'Tawhid wal Jihad' smentisce il viceministro iracheno, e si affretta a negare ogni sua responsabilit. Una delle richieste che fanno i sequestratori riguarda il ritiro delle truppe italiane dallIraq. Si prodigato a favore di questa causa Massimo D'Alema (14 occorrenze) che, dall'aula di Strasburgo, ha lanciato un appello al governo iracheno e alle forze della coalizione, affinch, venisse sospesa la strategia delle bombe che "impediscono l'instaurazione di un clima favorevole al negoziato per la liberazione dei prigionieri". Infine dalla tabella n.10 si pu osservare che, i familiari di Simona Torretta, (Manuela, Laura e la madre Annamaria) sono pi presenti, almeno negli articoli della Repubblica, dei familiari di Simona Pari. Difatti, possiamo notare che, nella tabella dei nomi, i familiari di Simona Pari assumono dei valori di occorrenze sensibilmente minori, come se, la stessa terribile esperienza vissuta dalle due famiglie, coinvolga in maniera diversa gli animi dei loro cari.
64
Gli americani non trattano per salvare la vita dei loro ostaggi.
74
Tabella 10 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiForma grafica Simona Torretta Simona Pari Enzo Baldoni Silvio Berlusconi Franco Frattini Raad Al Zarqawi Manhaz Bassam Bush Maurizio Scelli Al Rooz Gianni Letta Carlo Azeglio Ciampi Laura Torretta Kenneth Bigley Jack Hensley Eugene Armstrong Luciano Pari Osama Bin Laden Fini al Kubassi Massimo D' Alema Manuela Torretta Fabio Alberti Fassino Quattrocchi Annamaria Torretta Nicol Pollari Al Zawahiri Bertinotti Stefio Tareq Alani Laila Al Yawar Achille Serra Cupertino Allawi Allah Kerry Powell Marco Pari Romano Prodi Valerio Occ. Tot. 226 201 62 57 52 50 48 40 35 34 30 27 25 24 20 18 17 16 16 15 14 14 13 13 12 11 10 9 8 8 8 8 7 7 7 6 6 6 6 6 5 4 4 Lunghezza 15 11 12 17 15 4 10 13 4 18 11 15 26 17 17 15 19 15 15 4 10 19 19 16 7 11 21 14 11 10 6 11 5 8 12 9 6 5 5 6 10 12 7 Cat. PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 gram. NM 90 42 36 58 NM 87 42 31 41 NM 43 5 2 12 NM 27 8 11 11 NM 42 7 2 1 NM 16 14 15 5 NM 15 27 2 4 NM 12 15 9 4 NM 24 9 0 2 NM 10 5 14 5 NM 0 12 13 5 NM 11 1 8 7 NM 13 0 5 7 NM 6 1 13 4 NM 7 10 0 3 NM 8 10 0 0 NM 8 9 0 0 NM 13 0 3 0 NM 12 2 2 0 NM 2 0 1 12 NM 11 3 0 0 NM 9 0 0 5 NM 10 1 1 1 NM 5 0 2 6 NM 10 0 0 2 NM 7 0 0 4 NM 4 1 1 4 NM 0 8 1 0 NM 4 1 3 0 NM 7 0 0 1 NM 6 0 0 2 NM 0 0 0 8 NM 0 0 0 7 NM 7 0 0 0 NM 1 0 3 3 NM 4 0 0 2 NM 3 3 0 0 NM 4 2 0 0 NM 3 3 0 0 NM 0 6 0 0 NM 5 0 0 0 NM 4 0 0 0 NM 0 0 0 4
75
76
Si legge: "Vogliamo dire che le due italiane in ostaggio non torneranno vive in Italia, torneranno solo come cadaveri". Le parole <guerra> e <pace> (che sembrerebbero avere una certa rilevanza nel corpus) occorrono rispettivamente 108 e 60 volte ma, ugualmente come altre parole, hanno solo 5 occorrenze nel 3 periodo. Insomma le due Simone sono contro la guerra di Bush a favore della pace e del <ritiro> delle truppe straniere dall'Iraq. "Sono donne di pace, liberatele", questa lappello rivolto ai rapitori. Il termine <morte> evidenzia la posizione dellItalia sulla guerra in Iraq "Abbiamo sempre detto con chiarezza, che anche le azioni militari devono evitare la morte di civili innocenti". Manuela Torretta, sorella maggiore di Simona Torretta, appena saputo che Simona stata rapita da un commando di iracheni, non si lascia travolgere dalla paura e afferma: "Lei ama quel popolo pi di ogni altra cosa al mondo. Non una missione la sua, ma una necessit di <vita> che le nasce dal pi profondo del cuore".
77
Tabella 11 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiLemma/Lessia Due Ragazzo Gruppo Italia Sequestro liberazione Governo Notizia Guerra Ponte Ostaggio rapimento fonte famiglia rapitore messaggio terrorismo sequestratore uomo richiesta informazione paese settembre presidente comunicato pace mondo persona video ultimatum bambino giornalista Palazzo Chigi musulmano vita popolo lavoro paura situazione appello opposizione morte politica prigioniero ritiro trattativa Numero di unit lessicali 1 4 2 1 2 1 1 2 2 1 2 2 2 2 1 2 1 1 2 2 2 2 1 2 2 1 1 2 1 1 1 2 1 1 1 1 1 2 2 1 2 1 1 2 1 2 Occ. Tot. 545 169 149 146 135 131 124 110 108 106 96 92 90 82 81 80 80 78 76 73 71 65 64 63 60 60 57 55 54 53 52 52 51 50 48 47 46 46 46 45 45 44 44 44 44 44 Cat. PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 Gram. N 230 125 65 125 N 63 29 28 49 N 62 46 20 21 N 80 19 24 23 N 84 31 5 15 N 51 16 33 31 N 63 20 5 36 N 30 30 38 12 N 66 14 5 23 N 54 25 14 13 N 43 25 15 13 N 50 17 9 16 N 22 44 14 10 N 42 6 24 10 N 24 12 17 28 N 36 31 5 8 N 59 8 0 13 N 21 18 8 31 N 33 18 4 21 N 29 25 6 13 N 36 26 5 4 N 39 12 1 13 N 21 14 14 15 N 39 4 7 13 N 14 34 10 2 N 33 9 5 13 N 42 4 3 8 N 21 9 5 20 N 27 22 0 5 N 34 14 4 1 N 31 9 1 11 N 25 7 9 11 N 30 12 4 5 N 24 16 4 6 N 19 3 3 23 N 22 8 1 16 N 26 10 1 9 N 17 1 3 25 N 27 8 1 10 N 36 4 5 0 N 25 0 7 13 N 22 14 2 6 N 24 6 3 11 N 14 17 10 3 N 14 14 2 14 N 9 4 12 19
78
65
79
Sicuramente vicino a Bagdad ma non un luogo dove in questi venti giorni ci sono stati bombardamenti66. Nella ricorrenza dell'11 settembre, le piazze italiane vengono "occupate" dagli aderenti all'Unione delle comunit e organizzazioni islamiche in Italia Ucoii (10 occorrenze, quasi tutte sono presenti nel I periodo), con fiaccole e presidi, per manifestare "la comune avversione al terrorismo e volont di pace". Possiamo inoltre osservare, a dimostrazione di quanto detto nel par. 6.3, limportanza che ha <Tawhid wal Jihad> il gruppo di Al Zarqawi (il quale smentisce il sequestro delle due Simone). Secondo le prime ricostruzioni un commando, il 7 settembre scorso, arrivato davanti all'ingresso della palazzina che ospita gli uffici di 'un ponte per...' e di Intersos, un'altra Ong italiana in Iraq, hanno rapito Simona Pari, Simona Torretta e Raad che lavorano per 'un ponte per...', e Manhaz Bassam, una donna operatrice di <Intersos> (14 occorrenze). In sostanza, dallo studio della tabella si constatato che, rispetto alla presenza di termini stranieri, questi hanno coinciso per lo pi con nomi propri di protagonisti, di testate giornalistiche, di sigle terroristiche o politiche la sola parola a significato pieno che, presenta una frequenza relativamente elevata, <intelligence> (35 occorrenze), entrata peraltro nel linguaggio comune anche prima e dunque indipendentemente dagli eventi esaminati.
66
80
Tabella 12 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiForma Grafica Iraq Bagdad intelligence Falluja Al Qaeda Kuwait Al Jazeera Tawhid wal Jihad Ansar Al Zawahiri Al Aam Intersos Qatar Jihad islamica Ucoii Dulemi Al Arabica Ansar Al Zarqawi Beslan company Sunday Times username Indymedia Islamic-Minbar global bipartisan Occ. Tot. 281 209 35 29 27 26 29 23 20 17 14 14 12 10 7 7 6 6 6 5 4 4 4 4 3 4 6 12 7 8 6 10 16 17 6 8 5 14 5 6 7 16 6 7 5 8 9 14 6 10 Lunghezza Cat. Gramm. O O O O O O O O O O O O O O O O O O O O O O O O O 151 95 15 14 25 9 14 6 10 0 5 12 8 7 0 6 4 6 3 1 3 1 2 3 2 59 42 12 8 1 6 2 12 6 7 5 0 4 0 0 1 2 0 3 0 1 0 1 0 0 21 22 4 1 0 5 5 1 3 10 4 1 0 3 0 0 0 0 0 0 0 0 1 0 0 50 50 4 6 1 6 8 0 1 0 0 1 0 0 7 0 0 0 0 4 0 3 0 1 1 PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4
81
Dalla lettura della tabella degli aggettivi si riscontra, come prevedibile, una notevole occorrenza dei vocaboli quali <italiano>, <iracheno>, <islamico>, <sunnita>, <francese>, <inglese> legati soprattutto alle persone che giocano un ruolo pi o meno importante in questa vicenda. Nel periodo delle massime trattative troviamo un uso frequente di alcuni aggettivi che si contrappongono nel significato quali; <autorevole> (10 occorrenze), <credibile> (13 occorrenze) come la testata giornalistica del Kuwait, Al Aam, che per tutta la durata del sequestro ha continuato a fornire indicazioni mirate e veritiere; di contro <inattendibili> (9 occorrenze), come i messaggi trasmessi tramite internet dove si proclama lesecuzione delle due italiane e sempre prontamente smentite dallintelligence. Laggettivo <militare> (27 occorrenze) trova ampia ripercussione in tutti i periodi. Inizialmente si ipotizza che i sequestratori abbiano condotto il rapimento con metodo ed addestramento militare, questo anche in considerazione delle armi da loro utilizzate e di tutte le modalit del sequestro. Successivamente se ne parla in relazione alle truppe militari che dovevano lasciare lIraq ed infine quando Silvio Berlusconi, dichiara che c' stata la possibilit di effettuare un blitz militare ma, l'operazione stata giudicata troppo rischiosa. ''Avendo individuato la sede con una <ragionevole> (6 occorrenze) approssimazione, in cui sono tenute prigioniere le due ragazze ostaggio, si sono profilate due strade per la loro liberazione che potevano essere confliggenti - ha spiegato il premier - c'era poi una terza strada, quella di un blitz militare, che per abbiamo accantonato perch stata considerata troppo rischiosa67. Un altro aggettivo su cui vogliamo soffermarci brevemente <detenuto> (21 occorrenze) di cui la maggior parte nei primi due periodi, rispettivamente 8 e 10 occorrenze. Questo dato sintomatico del fervente utilizzo del termine allorquando i sequestratori rivendicano la liberazione di tutte le donne <musulmane> (28 occorrenze) <detenute> in Iraq. Immediata la risposta del nostro governo che fa sapere che si prodigher per limmediata liberazione di tutte le donne musulmane
ingiustamente detenute nella carceri irachene.
Gli aggettivi quindi si evidenziano come uno strumento linguistico qualificante linformazione. Infatti, gli aggettivi che presentano le frequenze pi elevate, sono quelli che definiscono la provenienza, non solo geografica, ma anche e soprattutto politica degli attori principali, degli eventi sotto osservazione.
67
Tabella 13 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiLemma/Lessia italiano iracheno volontario arabo americano islamico politico sunnita musulmano militare umanitario religioso attendibile detenuto terroristico ucciso sequestrato inglese credibile immediato internazionale autorevole diritto orribile sedicente terribile delicato felice inattendibile successivo mediatico numeroso ragionevole rischioso cauto cupo decisivo dignitoso economico indiretto Numero di unit lessicali 4 4 1 4 3 3 2 2 1 1 2 2 2 1 3 1 1 1 2 2 1 2 1 2 2 2 2 3 2 3 2 3 2 2 2 3 1 2 2 3 Occ. Tot. 346 266 111 74 73 61 44 37 28 27 27 24 21 21 19 18 17 15 13 13 12 10 10 10 10 10 9 9 9 9 8 6 6 6 5 5 5 5 5 5 Cat. gram. A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 149 125 42 36 43 42 26 10 16 12 13 12 9 8 14 7 9 8 5 8 5 4 3 5 8 6 0 1 4 3 3 3 4 2 3 3 3 4 2 1 78 52 24 12 20 11 4 15 8 7 5 3 9 10 2 5 4 5 8 0 0 4 2 4 2 2 3 0 5 1 5 1 0 1 0 2 0 0 2 3 60 30 16 9 0 5 2 4 2 4 1 4 2 0 0 2 2 0 0 0 1 1 0 0 0 0 4 4 0 0 0 1 0 3 1 0 1 0 0 1 59 59 29 17 10 3 12 8 2 4 8 5 1 3 3 4 2 2 0 5 6 1 5 1 0 2 2 4 0 5 0 1 2 0 1 0 1 1 1 0
83
CAPITOLO VII - ANALISI DELLE SPECIFICITA 7.1 Estrazione delle parole caratteristiche
In relazione al fatto che, i sub-corpus relativi ai quattro periodi non si presentano in forma omogenea, sembrato opportuno procedere ad unulteriore analisi per evidenziare eventuali specificit connesse ai vari periodi di informazione ed ai relativi sub-corpus. Si definiscono peculiari, per lintero corpus, le unit che risultano avere un forte sovra/sottouso rispetto ad un modello di riferimento: queste vengono spesso dette anche parole chiave68. In concreto, la peculiarit misurata in termini di specificit intrinseca sia positiva che negativa. Di fatto ogni specificit positiva (sovra-utilizzo) di una parola o di una espressione equivale ad un uso superiore a quello atteso, valutato questultimo nellimpiego medio nel quotidiano preso come riferimento. Ogni specificit negativa di un termine equivale ad un sotto-utilizzo (o rarit del termine, fino ad arrivare anche alla sua totale assenza) rispetto al suddetto valore atteso. La tabella, sotto riportata, presenta le seguenti informazioni69
Le occorrenze totali. Un Campo Parole caratteristiche che indica se la parola originale (spec_orig), ossia utilizzata solo in un sub-testo, specifica (spec) se utilizzata in pi sub-corpus, oppure banale (banale).
Per ogni sub-testo sono inoltre presenti due campi. Il p-value che riporta la probabilit associata alle singole parole e il campo Specif che indica se si tratta di una specificit positiva o negativa.
68 69
Aggiornamento guida TALTAC (2004, p.42) Aggiornamento guida TALTAC (2004, p.42-43)
84
85
Possiamo analizzare altri due termini che emergono dalla tabella come <medico> e <pericolo>: per <medico> (8,79E-09) si intende sia il medico legale (Francesco Viglino) che studia la foto della salma si Enzo Baldoni, per cercare di scoprire la data della decapitazione, sia il gruppo Ansar Al Zawahiri (essendo Al Zawahiri un ex medico egiziano) che ha rivendicato il rapimento delle "due Simone". Mentre il termine <pericolo> (8,79E-03) indica il fatto che le "due Simone" non si sentivano in pericolo (hanno affermato ci durante un colloquio con Al Kubassi) Ricordiamo infatti che, le volontarie italiane, fanno parte dellorganizzazione umanitaria "un ponte per", operativa nella capitale irachena dal 91, dalla fine della prima <guerra> (1,30E-03) del golfo, con lo scopo "di promuovere iniziative di solidariet in favore della popolazione irachena, colpita dalla guerra e in opposizione all<embargo> (1,81E03) a cui il paese stato a lungo tempo sottoposto nel regime di Saddam Hussein. Con il termine <guerra> si intende anche il conflitto iniziato da <Bush> (4,89E-03) contro il popolo iracheno il 20 marzo 2003 dichiarando "In questo momento le forze americane della coalizione sono impegnate nelle prime fasi delle operazioni per disarmare lIraq, per liberare il suo popolo e per difendere il mondo da un grande pericolo.. Saddam Hussein il quale non si fatto scrupolo di collocare le sue truppe e mezzi militari tra la popolazione civile nel tentativo di utilizzare uomini, donne e bambini innocenti come scudi per i suoi militari."70 Bush crede fermamente nel legame "operativo" tra Osama Bin Laden (1,67E-02) e Saddam Hussein (1,85E-02 nel II periodo), legame mai dimostrato e nel possesso iracheno di armi di distruzione di massa (mai rintracciate). L'obiettivo di <Al Qaeda> (3,15E-07) di mettere sotto pressione gli anelli deboli della catena che si oppone al fondamentalismo islamico. Dal punto di vista politico, il ritiro dal terreno di un alleato della coalizione angloamericana il pi importante risultato ottenuto dai terroristi dall'inizio della guerra irachena". Il ragionamento chiaro anche se orribile: i terroristi, sequestrando "cooperanti" conosciuti e apprezzati a Bagdad, vogliono far sapere agli iracheni che, nessun occidentale, anche il migliore e pi antico amico del popolo iracheno, sar risparmiato dalla minaccia di una furia assassina. Chi collabora a qualsiasi titolo per il nuovo Iraq, per la sua ricostruzione, sia camionista, imprenditore, giornalista, cameriere, volontario in un impegno umanitario, rischia la morte.
70
Il testo integrale del discorso di Bush dopo linizio dellattacco il 20 marzo 2003- Corriere della Sera 86
questo il terribile messaggio del sequestro di Simona Torretta e Simona Pari. "E' un messaggio che gi si pu leggere nell'esecuzione dei dodici, umilissimi lavoratori nepalesi uccisi alla fine di un sequestro che non ha registrato nessuna richiesta, nessun proclama, nessun abbozzo di trattativa. Nulla., morte e basta,. orrore e basta"71. In questo periodo nonostante ha un p-value basso pari a 1,93E-02, il termine <fiaccolate> assume un significato importante visto che, in questi giorni, si commemorano gli attentati avvenuti alle Torri Gemelle ed alla Stazione di Madrid, mediante alcune manifestazioni con fiaccolate. Altra manifestazione importante stata organizzata dall'Ucoii72 per l11 settembre, con delle fiaccolate in varie citt dItalia "chiedendo ai musulmani e alle musulmane di parteciparvi". Un gesto che vuol "dare forza, ampiezza e profondit", alla richiesta di liberazione delle due volontarie italiane rapite in Iraq. Per finire abbiamo visto che, la specificit, pu essere anche negativa: risulta quindi interessante osservare come siano ai primi posti, e quindi sotto-utilizzati, i termini di <riscatto> <liberate> e <trattativa> (a dimostrazione del fatto che, in questo periodo, non ha ancora preso piede lidea del riscatto, e di uneventuale trattativa che porti alla liberazione delle due Simone). Si denota infine come il rapimento delle "due Simone", verificatosi a pochi giorni dal tragico epilogo del rapimento di massa a <Beslan> (8,79E-03), trasmetta maggiori angosce e preoccupazioni alle nostre coscienze.Il ricordo ancor vivo della tragedia e della strage nella scuola di Beslan, dove i terroristi hano ucciso strage di donne e babini, dipinge ancor pi gli avvenimenti di drammaticit. Il presidente Ciampi nelle sue dichiarazioni alla nazione ribadisce, qualora ce ne fosse bisogno, che, chi uccide bambini e prima di ucciderli nel corpo, imprime nei loro occhi il terrore e l'orrore, non uccide soltanto l'innocenza ma anche il futuro. Uccide perfino il fine che, quale che sia, ha determinato la scelta di mezzi cos mostruosi. I massacratori, uomini e donne, di Beslan hanno perso il diritto ad ogni prova d'appello e cos i loro capi e ispiratori73.
71 72
Articolo della Repubblica" di Giuseppe DAvanzo 8 settembre 2004 l'Unione delle comunit ed organizzazioni islamiche in Italia 73 Articolo della Repubblica" di Eugenio Scalfari 12 settembre 2004 87
Occ. tot.
52 80 27 45 18 57 20 23 62 10 10 10 10 35 24 9 9 36 18 12 15 102 33 8 8 17 14 11
Parole caratt.
spec spec spec spec spec spec spec spec spec spec_orig spec_orig spec_orig spec_orig spec spec spec_orig spec_orig spec spec spec spec spec spec spec_orig spec_orig spec spec spec
p-value
1,85E-07 2,53E-07 3,15E-07 2,19E-06 7,93E-06 1,41E-05 4,38E-05 4,68E-05 1,21E-04 3,74E-04 3,74E-04 3,74E-04 3,74E-04 5,12E-04 8,04E-04 8,24E-04 8,24E-04 1,05E-03 1,16E-03 1,29E-03 1,29E-03 1,30E-03 1,39E-03 1,81E-03 1,81E-03 2,15E-03 2,49E-03 2,61E-03
Specif
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
Occ.
42 59 25 36 18 42 18 20 43 10 10 10 10 26 19 9 9 26 15 11 13 62 24 8 8 14 12 10
p-value
Specif
p-value
Specif
p-value
6,43E-06
Specif
neg neg
2,03E-02 2,21E-02
neg neg
4,28E-03
9,55E-03
neg
1,36E-02
neg
3,61E-03
neg
4,34E-04
neg
5,73E-03
neg
88
Forma grafica sequestro Luciano Pari ama coordinatore Al Yawar abbastanza ultimatum Bush Europa agosto visita pacifisti volontariato Stati Uniti Usa ministro strategia presidente Capo dello Stato cooperanti Beslan associazioni medico isolare pericolo
Parole caratt. spec spec spec_orig spec_orig spec_orig spec_orig spec spec spec spec spec spec spec spec spec spec spec spec spec_orig spec_orig spec_orig spec_orig spec_orig spec_orig spec_orig
p-value
(PERIOD_1)
Specif
(PERIOD_1)
Occ.
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
3,70E-03 3,95E-03 3,99E-03 3,99E-03 3,99E-03 3,99E-03 4,69E-03 4,89E-03 5,25E-03 5,25E-03 5,25E-03 5,25E-03 5,25E-03 5,46E-03 6,67E-03 7,17E-03 7,17E-03 8,73E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos Pos Pos Pos Pos
65 13 7 7 7 7 34 24 9 9 9 9 9 17 22 12 12 38 6 6 6 6 6 6 6
2,01E-02
neg
4,49E-04
neg
4,92E-06 3,61E-03
neg neg
7,20E-03
neg
4,51E-03
neg
89
90
Possiamo osservare come i sostantivi <riscatto>, <liberazione> sono di nuovo sotto-utilizzati (come il periodo precedente). Infine si nota come il termine <Al_Qaeda> passa da un p-value positivo di 3,1E-07 nel I periodo ad un p-value negativo sia nel II periodo (2,10E-02) che nel IV periodo (4,30E-03). Un altro termine che ha addirittura un p-value negativo nel I periodo <margherite>. In questo periodo assume un significato particolare perch indica liniziativa promossa dalla Ong, il 25 settembre, per tenere viva lattenzione sui volontari rapiti a Bagdad. Lidea della margherita, come simbolo di pace, nasce da una lettera che Simona Pari aveva scritto ad unamica alla quale raccontava che, un pap iracheno, aveva regalato a lei e allamica Simona Torretta, due piccoli vasetti contenenti delle margherite accompagnate da queste parole:"La margherita lunico fiore che cresce nella terra salata, ha bisogno di poca acqua; voi dovete essere come questo fiore, continuate a fare il bene pur in condizioni avverse, abbiamo bisogno del vostro aiuto per realizzare un sogno di pace" Questo messaggio indica proprio la loro 'missione', che quella non solo di portare aiuti tra la popolazione irachena, ma anche di lavorare con loro, per questo vengono definite 'le donne della pace'.
91
Tabella 15 Analisi delle specificit (II periodo specificit positiva) Forma grafica
Al Zarqawi rivendicazioni comunicato forze comunicati fonti fonte comprate Pollari organizzazione della jihad giornale Tawhid wal Jihad Powell imperiale sorte video dio vuoto viva Annuncio Sito Eseguito Informazioni governo italiano Messaggio Jack Hensley
Occ. tot.
48 10 50 39 10 35 55 7 9 9 26 23 6 8 15 54 22 5 5 14 48 7 63 39 65 18
Parole caratt.
spec spec_orig spec spec spec spec spec spec_orig spec spec spec spec spec_orig spec spec spec spec spec_orig spec_orig spec spec spec spec spec spec spec
p-value
(PERIOD_1)
Specif
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
Occ.
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
3,73E-05
neg
1,33E-08 6,72E-08 9,29E-07 1,45E-06 3,14E-06 3,91E-06 8,29E-06 9,54E-06 1,48E-05 1,48E-05 1,55E-05 3,25E-05 4,97E-05 6,88E-05 7,93E-05 2,10E-04 2,33E-04 2,59E-04 2,59E-04 2,79E-04 2,82E-04 3,15E-04 3,70E-04 4,22E-04 6,30E-04 6,52E-04
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
27 10 25 21 9 19 25 7 8 8 15 12 6 7 10 22 12 5 5 9 20 6 24 17 24 10
1,55E-02
pos
3,47E-03
neg
92
Forma grafica
speranza corrispondente uccisione internet rivendicare triangolo attendibilit Kenneth Bigley Eugene Armstrong islamica sul terreno notte detenute democrazia americano richiesta carcerieri prigioni nelle mani di diffuso segnale Fahm jihad America ospedale sunniti
Occ. tot.
34 8 16 19 6 6 14 20 17 9 9 21 21 12 15 53 7 7 7 22 19 10 10 10 5 23
Parole caratt.
spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec
p-value
(PERIOD_1)
Specif
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
Occ.
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
1,88E-02 7,19E-03
neg neg
5,10E-04 7,55E-03
neg neg
1,72E-02
neg
7,82E-04 1,02E-03 1,09E-03 1,14E-03 1,42E-03 1,42E-03 1,84E-03 1,89E-03 1,93E-03 2,53E-03 2,53E-03 2,98E-03 2,98E-03 3,10E-03 3,27E-03 3,30E-03 4,04E-03 4,04E-03 4,04E-03 4,54E-03 5,04E-03 5,26E-03 5,26E-03 5,26E-03 6,21E-03 6,66E-03
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
15 6 9 10 5 5 8 10 9 6 6 10 10 7 8 19 5 5 5 10 9 6 6 6 4 10
93
94
collaboratore, Fahm (che nel periodo precedente, proprio nel "pieno" delle trattative, ha un pvalue di 5,26E-03), da circa due giorni, riceve dalla sua "fonte irachena" notizie sulle ragazze che riferisce ad Al Rooz, il quale decide se pubblicare o no. Dapprima la notizia che le due Simone sono "vive" e l'avviso ai naviganti di internet di considerare carta straccia la sequenza di comunicati che, a firma "Ansar al Zawhari" (i "seguaci di al Zawhari") le hanno date per decapitate a met della scorsa settimana (lo stesso gruppo, dopo, tornato a farsi vivo sul sito "www. alezah. com" ribadendo che le ragazze sono state uccise). Successivamente, quindi, i dettagli sulla loro prigionia come la richiesta di "cibi particolari" (frutta e yogurt) e la possibilit di potersi dissetare con "acqua minerale". Non ancora una prova incontrovertibile di esistenza in vita, ma certo un particolare di cui pu essere a conoscenza soltanto chi accanto alle due ragazze in questo momento (fino a pochi giorni prima, solo gli amici di Simona Pari sapevano che la ragazza vegetariana e dunque la sua predilezione per determinati cibi). Finalmente si giunge alla liberazione delle due Simone ed Al Rooz pu dar libero sfogo alle proprie emozioni, immediatamente contattata la Repubblica ed annuncia la liberazione delle due italiane, di Manhaz Bassam e Raad. Il direttore risponde anche a chi ha messo in dubbio il suo operato e lefficacia del suo contatto, gridando al telefono "Con tutto il rispetto per i vostri servizi segreti, salutali da parte mia e della mia fonte". Questa la sua risposta a quanto, neppure mezz'ora prima, l'intelligence italiana ha mandato in rete attraverso le agenzie di stampa: un "invito alla cautela, perch la fonte del quotidiano kuwaitiano ormai esaurita". Il rilascio dei quattro prigionieri stato <filmato> (6,21E-03) "da un ragazzo, esattamente un free-lance, che, con una telecamerina, ha ripreso il tutto e lha poi inviata ad Al Jazeera (anche se alcuni sostengono che ci pu essere un 'qualcosa di artefatto, una messa in scena') Infine Gianni Letta (p-value 5,30 E-0.3), sottosegretario di Stato, a cui Silvio Berlusconi ha affidato la delega sui servizi segreti, stato ringraziato pubblicamente dal Presidente del Consiglio il quale, ha sottolineato labilit del suo operato, evidenziando che "senza di lui non si sarebbe mai arrivati a questo risultato". A casa della famiglia Torretta il pomeriggio della liberazione c' anche Nahoto Takato, la volontaria <giapponese> (1,61E-03), sequestrata per otto giorni lo scorso aprile in Iraq, la quale dichiara:"Ero arrivata molto preoccupata - ha detto - ora sono felicissima. E' stata una giornata meravigliosa. Stavamo parlando quando giunta la notizia della loro liberazione e mi hanno chiesto se ero un angelo giapponese".
95
Parole caratt. spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec
p-value
(PERIOD_1)
Specif
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
Occ.
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
8,50E-04
neg
5,21E-03 9,30E-07
2,65E-03
neg
7,63E-21 2,39E-13 6,48E-10 1,54E-07 9,23E-07 1,45E-06 1,60E-06 4,02E-06 3,26E-05 3,73E-05 7,60E-05 8,93E-05 1,99E-04 3,97E-04 1,15E-03 1,15E-03 1,15E-03 1,22E-03 1,30E-03 1,61E-03 1,63E-03 1,86E-03 2,29E-03 2,73E-03 3,40E-03 3,50E-03 4,08E-03 4,30E-03
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
23 15 25 13 14 33 10 13 6 12 5 9 6 6 5 5 5 6 13 4 20 34 7 11 4 5 17 6
7,03E-03 2,10E-04
neg neg
9,04E-03
neg
2,41E-02
pos
2,27E-05 8,32E-07
pos neg
Occ. tot. 16 27 64 8 8 8 34 34 18 35 9 9 9 9 5 5 5 5 5 5 5 14 20 26 32 15
Parole caratt. spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec
p-value
(PERIOD_1)
Specif
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
Occ.
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
2,21E-02
Neg
noto riscatto trattativa sorella volontari emozione volontaria Achille Serra ringraziamento aspettavamo consegnate delinquenti balcone somma satellitare riservatezza Ong rappresentanti giornale prigioniere racconto
4,51E-06 6,74E-04
neg neg
6,27E-03
Neg
3,73E-05 1,53E-03
neg neg
1,55E-05
Pos
4,30E-03 5,30E-03 5,95E-03 6,21E-03 6,21E-03 6,21E-03 7,15E-03 7,15E-03 8,29E-03 8,74E-03 1,02E-02 1,02E-02 1,02E-02 1,02E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,16E-02 1,44E-02 1,55E-02 1,56E-02 1,59E-02
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
6 8 14 4 4 4 9 9 6 9 4 4 4 4 3 3 3 3 3 3 3 5 6 7 8 5
5,72E-06 1,12E-02
pos pos
2,35E-02
neg
4,12E-03
pos
97
98
In tutto ci un fatto particolare che a posteriori possiamo definire comico: "Quando sono salito sul <taxi> - dice M. Scelli - che ci avrebbe portato all' <aeroporto>, avevo la pistola in vista per cui il tassista, ritenendo che lo volessi rapinare, per la paura si messo ad urlare, poi, alla fine, resosi conto di quanto accadeva si tranquillizzato"75. Dalla visione della nostra tabella possiamo constatare che, un altro termine che assume un notevole p-value 4,07E-05, quello delle "elezioni". In questo periodo si ormai prossimi alle elezioni americane (2 novembre 2004) ed inoltre si inizia anche a parlare di quelle che verranno fatte in Iraq nel mese di gennaio e che come specifica Fini - sono importantissime perch avviano un processo democratico in assenza del quale impossibile per quel paese garantire libert, sicurezza e quindi la democrazia. Durante la prigionia le "due Simone" sono rimaste quasi sempre <bendate> (p-value 3,99E04) per questo motivo le due ragazze non sono state in grado di fornire indicazioni utili per il rintraccio dellubicazione del loro nascondiglio e per lidentificazione dei loro carcerieri. Questo per, per alcune persone, significa che forse i rapitori non avevano la volont di giustiziarle, altrimenti non si spiegherebbe il timore di mostrasi e di farsi riconoscere, mentre altri affermano che, le prigioniere, sono state bendate perch il Corano vieta agli uomini di rivalersi sulle donne. A favore dei rapitori, inoltre, vi anche la presenza dei termini quali <medicine> con un pvalue 4,32E-03 e <cibo> con un p-value 4,91E03, che sono stati sempre somministrati abbondantemente e nei momenti di necessit, come quando, Simona Torretta ha avuto un repentino innalzamento della temperatura corporea, la stessa riferisce che, stato gi deciso che, se la febbre fosse aumentata, sarebbe stata accompagnata in ospedale. Le prigioniere hanno sempre riferito, sin dalle prime dichiarazioni fatte sui quotidiani, di essere sempre state trattate bene con "rispetto" e "dignit", anche se ovviamente hanno avuto <paura> di essere uccise, timore che aleggiato sino a quando i rapitori hanno capito finalmente quale era il loro vero impegno in Iraq. Difatti, appena i sequestratori hanno capito che non erano spie, si sono prodigati nel fornire le loro <scuse> p-value 4,91E-03 inoltre, al momento del loro rilascio, per allietare il loro rientro in patria, le hanno persino fatto omaggio di dolci e di una copia del Corano (p-value 9,75E-04). A dimostrazione di quanto detto, al momento della loro liberazione, documentato con una piccola telecamera di un giornalista free-lance americano, le due Simone hanno immediatamente proclamato le seguenti parole "Shukran, shukran gesilan, ma salama (grazie,
75
grazie mille, arrivederci)" asserendo inoltre che non sono mai state maltrattate durante la loro prigionia. Non stato possibile per capire allindirizzo di chi fossero rivolte tali dichiarazioni; non si capisce, difatti, se sono dette allindirizzo di una persona che va loro incontro, e che quindi le ha aiutate nelle trattative per la loro liberazione, o se sono dirette a coloro che le hanno accompagnate sino a l. Le due ragazze, appena giunte in Italia, vengono accusate di non aver neanche ringraziato chi si era adoperato per la loro liberazione. Queste accuse vengono subito smentite da Simona Torretta che, in una prima conferenza stampa, dichiara: "Abbiamo ringraziato fin da subito il governo, maggioranza e opposizione, le istituzioni, tutte le parti che hanno collaborato all'esito positivo della nostra vicenda".. Ma una delle poche domande alle quali lei e Simona Pari rispondono nel corso di una conferenza stampa organizzata da "un ponte per..." al Teatro Ambra Jovinelli di Roma. Incontro poco chiarificatore: il combinato di stanchezza e segreto istruttorio circoscrive le dichiarazioni delle due volontarie a poche battute. Anche Simona Pari ci tiene ad esprimere apertamente la sua gratitudine, ringrazia anche lei "le forze politiche della maggioranza e dell'opposizione, le comunit musulmane e cristiane del mondo, la croce rossa italiana, il governo, e i bambini iracheni", spiega che lei e la sua compagna hanno "sempre cercato di riunire due mondi distanti" e sperano che "questo dialogo possa continuare"76. Per quanto riguarda lindirizzo politico delle due Simone possiamo dire che sono due militanti pacifiste di sinistra. Simona Pari tra l'altro una giornalista ed ha collaborato per anni con l'Unit. Entrambe hanno scritto dall'Iraq, paese in cui si trovavano gi da molto tempo prima dellinizio delle ostilit, diversi comunicati stampa contro la guerra e contro l'intervento italiano, schierandosi palesemente contro il programma del nostro Governo. Al momento della liberazione, le due Simone raccontano che avevano indosso <abiti> (pvalue 1,32E-02) arabi ed il volto coperto da un lungo velo <nero> (p-value 1,01E-02), il 'niqab', che ne impedisce lo <sguardo> (p-value 4,20E-04). . Il nome di <Ghareeb>, che ricordiamo era linterprete di Baldoni in Iraq, assume nella tabella un p-value di 1,41E-03, significativo far emergere le considerazioni contraddittorie che hanno di lui Maurizio Scelli che asserisce che era un doppiogiochista, palestinese spia degli israeliani", le "due Simone", secondo le quali Ghareeb, era un uomo generoso che veniva di
76
tanto in tanto a chiedere medicine per portarle ai malati e in questo slancio si prendeva anche dei rischi77. Il termine <paura> con un p-value di 6,31E-06 emerge quando si parla dellincontro delle due italiane con Al Kubassi, avvenuto il giorno prima che venissero rapite. Al Kubassi sostiene che, le due Simone , avevano paura e non si sentivano sicure, loro, invece, sostengono che vero che si erano recate da Al Kubassi, ma solo perch vogliono far conoscere agli Ulema i loro progetti ed il loro lavoro, Simona Torretta esclude che si sono mostrate preoccupate, aggiungeva solamente che hanno parlato della situazione caotica del Paese, ma non della loro paura. Hanno giocato un ruolo fondamentale per la liberazione delle "due Simone" <Tareq Alani> (9,07E07) e <Laila> (5,89E-05). Il primo responsabile degli affari politici del Consiglio delle trib irachene e, di fatto, una sorta di ministro degli Interni, mentre Abu Laila (forse il suo era un nome di copertura) un esponente dei servizi segreti italiani, nato in Libano e quindi buon conoscitore della lingua araba. I rapitori, accertatisi della totale estraneit delle "due Simone" ai fatti accaduti in Iraq, contattano Tareq Alani il 23 settembre confermando che hanno le due italiane, che sono vive e che vogliono liberarle. Iniziano cos le trattative per il loro rilascio, Tareq contatta la Farnesina e chiede che, affinch non via sia alcun equivoco, il suo interlocutore sia di lingua araba. Entra in scena a questo punto Laila che inizia una fitto colloquio con Tareq, i due riescono a stabilire con i sequestratori le condizioni per il rilascio delle italiane. I rapitori stabiliscono quattro condizioni (ritenute immediatamente accettabili dal nostro governo): bambini da curare negli ospedali italiani, partecipazione alla ricostruzione delle zone bombardate, stop ai raid aerei su Falluja e Ramadi e viaggio a Roma sullo stesso aereo delle due Simone di una delegazione del consiglio tribale che spieghi laltra faccia della guerra. La trattativa seppur avviata verso la migliore conclusione, ha rischiato di saltare allorquando il pi autorevole quotidiano del Kuwait riferisce di un pagamento di milione di dollari, come riscatto per la liberazione delle italiane. I rapitori a questo punto, furenti per questa fuga di notizia, a loro detta assurda, non garantiscono pi sulla liberazione delle due donne. Fortunatamente il 28 settembre si conclude positivamente lodissea delle due Simone, le stesse vengono imbarcate su un aereo diretto a Ciampino (1,01E-05) che le riporta in Italia.
77
In ultimo prendiamo in esame alcuni termini che nel IV periodo assumono un p-value negativo come <rivendicazione>, <gruppo> o <gruppi> ( che indicano coloro che le avevano rapite), <ostaggi> e <terrore>. Ormai in questa fase, che ricordiamo successiva alla liberazione delle Due Simone, vengono abbandonate tutte quelle terminologie "negative", che lasciavano presagire che le cose potessero precipitare con luccisione delle italiane.
102
Occ. tot. 58 17 11 13 36 10 12 34 44 13 19 15 94 25 7 6 16 21 8 10 10 10 10 10 48 5 13
Parole caratt. Spec spec_orig spec_orig spec spec spec_orig spec spec spec spec spec spec spec spec spec_orig spec_orig spec spec spec spec spec spec spec spec spec spec_orig spec
p-value
(PERIOD_1)
Specif
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
Occ.
(PERIOD_4)
2,84E-14
neg
1,18E-02
neg
6,27E-03
neg
7,15E-03
pos
1,63E-03
pos
8,92E-04
neg
2,12E-02 2,12E-02
neg neg
neg
2,06E-21 5,32E-11 2,25E-07 6,08E-07 8,64E-07 9,07E-07 2,26E-06 5,72E-06 6,31E-06 1,10E-05 1,10E-05 1,20E-05 2,27E-05 4,07E-05 5,89E-05 2,37E-04 2,77E-04 3,57E-04 3,99E-04 4,20E-04 4,20E-04 4,20E-04 4,20E-04 4,20E-04 4,62E-04 9,53E-04 9,75E-04
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
49 17 11 12 23 10 11 21 25 11 14 12 42 16 7 6 11 13 7 8 8 8 8 8 23 5 9
Forma grafica commissario Ghareeb sequestratori soldi racconto viaggio medicine dicevano ricordo processo taxi cibo scusa capito rischio parlato prigione nero trattativa elenco abiti elenco salve tre
Occ. tot. 7 7 78 10 15 15 8 8 8 8 8 6 6 16 11 11 30 9 14 89 7 7 7 7
Parole caratt. spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec
p-value
(PERIOD_1)
Specif
(PERIOD_1)
p-value
(PERIOD_2)
Specif
(PERIOD_2)
p-value
(PERIOD_3)
Specif
(PERIOD_3)
p-value
(PERIOD_4)
Specif
(PERIOD_4)
Occ.
(PERIOD_4)
6,04E-04 1,53E-03
6,25E-03
neg
1,41E-03 1,41E-03 2,69E-03 3,51E-03 4,12E-03 4,12E-03 4,32E-03 4,32E-03 4,32E-03 4,32E-03 4,32E-03 4,91E-03 4,91E-03 7,33E-03 7,54E-03 7,54E-03 7,87E-03 1,01E-02 1,02E-02 1,31E-02 1,32E-02 1,32E-02 1,32E-02 1,32E-02
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos
6 6 31 7 9 9 6 6 6 6 6 5 5 9 7 7 14 6 8 32 5 5 5 5
104
CONCLUSIONI
Dal punto di vista metodologico, i risultati mostrano che un ,corpus con queste caratteristiche, pu essere ben classificato a partire dalle parole chiave. Per questo lavoro abbiamo utilizzato articoli estrapolati dalla Repubblica, pubblicati dal giorno del rapimento sino alla liberazione delle due Simone, riguardanti le problematiche sorte intorno alle trattative che permetteranno di ottenere il rilascio delle due italiane. Ricordiamo brevemente che Simona Pari, Simona Torretta, Raad e Manhaz Bassam sono state rapite il 07 settembre mentre si trovano a lavoro allinterno del palazzo che ospita gli uffici di un ponte per.. e Intersos. Il loro sequestro desta immediatamente delle notevoli perplessit in quanto non ricalca la metodologia utilizzata nei precedenti rapimenti. I servizi segreti evidenziano subito le anomalie del sequestro, in quanto, i rapitori si sono presentati a viso scoperto, vestiti in maniera impeccabile, dotati di armi molto moderne78 e soprattutto non stato un attacco estemporaneo fatto in una pubblica via ma, allinterno di una struttura con degli obiettivi gi individuati precedentemente dato che, sanno gi i nomi delle vittime. L'obiettivo di <Al Qaeda> (3,15E-07) per questo sequestro di mettere sotto pressione gli
anelli deboli della catena che si oppone al fondamentalismo islamico. Dal punto di vista
politico, il ritiro dal terreno di un alleato della coalizione angloamericana il pi importante risultato ottenuto dai terroristi dall'inizio della guerra irachena". Il ragionamento chiaro anche se orribile: i terroristi, sequestrando "cooperanti" conosciuti e apprezzati a Bagdad, vogliono far sapere agli iracheni che, nessun occidentale, anche il migliore e pi antico amico del popolo iracheno, sar risparmiato dalla minaccia di una furia assassina. Dallo studio effettuato, emerge che, il flusso delle parole utilizzate dai vari giornalisti, si modifica con il trascorrere dei giorni e delle situazioni79. Le parole, riflettendo i mutamenti degli avvenimenti in corso, cambiano a secondo dei periodi in cui vengono presi in esame. Per esempio confrontando il linguaggio peculiare esaminato nel lasso di
78
In questo assalto sono stati utilizzati fucili automatici e a pompa, pistole con il silenziatore e manganelli elettrici, tuttaltra cosa rispetto ai rozzi kalashnikov dei mujaheddin utilizzati nelle precedenti azioni. 79 E.Aureli Cutillo e S. Bolasco Applicazioni di analisi statistica dei dati testuali- dicembre 2004. 105
tempo preso in esame80, si scopre come le forme grafiche con pi alta specificit positiva analizzata nel primo periodo, tra cui Franco Frattini, Enzo Baldoni, guerra, Bush, risultano sotto-utilizzati nei periodi successivi. Si ritiene che la spiegazione di questa inflessione sia da attribuire a diversi aspetti. Notiamo che, nel caso di Franco Frattini, le occorrenze diminuiscono sino a divenire negative in quanto, lo stesso, che ricordiamo in quel momento era Ministro degli Esteri, lascia lincarico e viene sostituto sulla poltrona dal ministro Fini (le occorrenze di Fini raggiungono il massimo del valore nellultimo periodo dove assumono un valore di 12 su un totale di 15). Per ci che concerne Enzo Baldoni si constatato che, la maggior parte delle sue occorrenze (43 su 62) sono presenti nel primo periodo, mentre, nei periodi successivi, si tende a dimenticarsene. Dallelaborazione si evidenziato inoltre che, anche il nome di Fabrizio Quattrocchi, anchesso barbaramente giustiziato, risulta avere lo stesso andamento di Enzo Baldoni anche se, le occorrenze di questultimo, raggiungono valori sensibilmente maggiori. Di entrambi, come detto, se ne parla soprattutto nel primo periodo (che va dal giorno 07 data del rapimento al 19 settembre) e nellultimo (che ricordiamo analizza il periodo successivo alla liberazione delle due Simone) dove, si ritorna a parlare della loro tragica fine che forse, con un impegno maggiore da parte del nostro governo e dellattivit di intelligence, poteva essere evitata. A tal riguardo, il 30 settembre, viene pubblicata sulla Repubblica una lettera scritta da Sandro, fratello di Enzo Baldoni, il quale si rivolge pacatamente al direttore della testata giornalistica, ed indirettamente alle Autorit Nazionali, per porre loro alcune domande lasciando chiaramente intendere che, un intervento ed un operato pi celere da parte del nostro governo, come quello realizzato per le due Simone, avrebbe potuto portare anche alla liberazione del proprio caro81.
80
Articoli che vanno dal 7 settembre al 24 ottobre (suddivisi i quattro periodi: dal 07 al 19 settembre, dal 20 al 27 settembre, il 28 settembre, dal 29 settembre al 24 ottobre.
Caro direttore, felici questi giorni anche per noi, contenti di rivedere le facce belle, pulite e sorridenti di Simona Pari e Simona Torretta, e di stringerci idealmente in un abbraccio ai loro familiari. Ma permetteteci, da cittadini qualsiasi di questo stato, di farci e fare pacatamente qualche domanda molto diretta. Perch nel caso di Enzo il governo italiano ha sonnecchiato cos a lungo e si dimostrato cos freddamente distaccato da una tragedia che anche in quel caso non aveva coinvolto solo una persona, ma un'intera nazione? Perch le opposizioni non sono riuscite ad andare oltre la polemica spicciola, invece di sollecitare l'immediata azione di tutte le altre forze politiche per una soluzione rapida del sequestro?
81
106
Ricordiamo che Simona Pari e Simona Torretta vennero rapite perch ritenute inizialmente facenti parte di una lista (p-value di 2,26E-06 nel IV periodo) di spie (pvalue di 5,32E-11 nel IV periodo), solo in un secondo momento, i rapitori presero coscienza del fatto che, le due donne, si occupavano solamente di volontariato. Questa nuova rivelazione, per, sembra non dare comunque la sicurezza della loro liberazione, in quanto i terroristi dichiarano che, chiunque sia alleato nella guerra con Bush, non sar risparmiato. In questo periodo, sia in America che in altre parti del Mondo, vengono fatte manifestazioni in memoria delle vittime delle Due Torri Gemelle, della strage di Madrid (l11, giorno dei due attentati, assume un p-value 7,93E-06) e del massacro di Beslan, (pvalue 8,79E-03), avvenuto, qestultimo, pochi giorni prima del rapimento delle due Simone, dove, migliaia di persone commemorano tutte le vittime delle stragi, unendosi simbolicamente, in una catena umana per tentare di debellare il flagello del terrorismo. Sulle informazioni ricevute dalle volontarie sulla loro permanenza nella prigione, Maurizio Scelli riferisce che, le ragazze non hanno mai avuto contatti con i sequestratori e che, a parte i primi momenti, dove sono state maltrattate verbalmente e minacciate della loro imminente esecuzione, sono state trattate molto bene (in conformit con i precetti della Sharia -la legge islamica-). Addirittura, un giorno Simona Torretta ha avuto la febbre altissima: le hanno fornito <medicine> (p-value di 04,32E-03)e le hanno detto che, se necessario, l'avrebbero portata in ospedale. Particolare stata la loro liberazione: durante le tante ore dattesa prima di poter incontrare Simona Pari e Simona Torretta, a Maurizio Scelli - sempre secondo il suo racconto - stata anche consegnata la <pistola> (p-value di 6,08E-07 nel IV periodo) che sarebbe dovuta servire per uccidere gli ostaggi. Secondo la versione di Simona Torretta la
Perch i servizi segreti hanno perso giorni preziosi minimizzando subito la questione della sparizione di Enzo Baldoni, addirittura dando notizie infondate su una sua presunta irresponsabile uscita dal convoglio della croce rossa italiana, quando lui era stato evidentemente catturato mentre era di ritorno a Bagdad assieme ai medici e agli infermieri con cui era andato a curare un gruppo di feriti iracheni? Perch dopo tutto questo tempo non si riesce ad avere il bench minimo indizio su che fine abbia fatto il corpo di un occidentale clamorosamente rapito e ucciso nella non immensa periferia di Bagdad? Insomma, abbiamo due governi, uno efficientissimo e uno completamente inaffidabile, cos come abbiamo due opposizioni e due servizi segreti? Pensiamo siano cose che molti altri italiani si chiedono, confusi anche da questa improvvisa e un po' sguaiata gara della nostra classe politica ad attribuirsi meriti e medaglie, mentre un mese fa era tutto un correre a nascondersi nei coni d'ombra disegnati dalle poltrone. Qualcuno pu rispondere? grazie. Sandro Baldoni
107
pistola ha solo un valore simbolico, di amicizia, di pace, di risentimento e conflitto finiti, come nella tradizione araba. I nuovi sviluppi e soprattutto la liberazione delle italiane, mettono in evidenza lutilizzo di nuovi termini, sotto-utilizzati negli altri periodi. Nello specifico possiamo notare come lipotesi del pagamento di un <riscatto> (p-value di 5,72E-06) che, seppur sino ad oggi non stato confermato da alcuna fonte, assume, nel terzo e soprattutto nel quarto periodo, un valore di specificit positiva, mentre, negli altri periodi, sotto-utilizzato. La liberazione delle due Simone si conclude con le <scuse> (p-value di 4,91E-03) da parte dei sequestratori che, per farsi perdonare di quanto accaduto e soprattutto in segno di conciliazione, fanno loro dono di una scatola contenente una copia del <Corano> (p-value di 9,75E-04 nel IV periodo) tradotta in inglese e di alcuni dolci per il di ritorno in Italia. Al momento del loro rilascio, ripresa con una piccola telecamera digitale da parte di un giovane giornalista free-lance americano, le due Simone hanno immediatamente proclamato le seguenti parole "Shukran, shukran gesilan, ma salama (grazie, grazie mille, arrivederci) asserendo, inoltre, che non erano state maltrattate durante la loro prigionia. Non stato possibile per capire allindirizzo di chi fossero rivolte tali dichiarazioni: se sono dette nei confronti di una persona che va loro incontro, e che quindi le ha aiutate nelle trattative per la loro liberazione, o se sono dirette a coloro che le hanno accompagnate sino a li. Per questo le due ragazze, appena giunte in Italia, vengono accusate di non aver neanche ringraziato chi si adoperato per la loro liberazione. Queste accuse vengono subito smentite da Simona Torretta che, in una prima conferenza stampa, dichiara: "Abbiamo ringraziato fin da subito il governo, maggioranza e opposizione, le istituzioni, tutte le parti che hanno collaborato all'esito positivo della nostra vicenda". Smentisce chi ha parlato di "ingratitudine" nei confronti del governo italiano. Anche Simona Pari ci tiene ad esprimere apertamente la sua gratitudine, ringrazia anche lei "le forze politiche della maggioranza e dell'opposizione, le comunit musulmane e cristiane del mondo, la croce rossa italiana, il governo, e i bambini iracheni", spiega che lei e la sua compagna hanno "sempre cercato di riunire due mondi distanti" e sperano che "questo dialogo possa continuare". Al di l dello studio, dei numeri e di tutte le analisi di laboratorio che si possono fare ai giorni doggi, penso che nessun programma possa realmente catalogare e definire le occorrenze del coraggio mostrato dalle due Simone. Nonostante tutto quello che hanno passato, le paure, i disagi ed il terrore di essere uccise, sentono lesigenza di ritornare in
108
quei luoghi di guerra per poter continuare ad aiutare chi realmente ne ha bisogno, al di l di ogni orientamento politico ma solo spinte dal sincero desiderio di umanit.
109
BIBLIOGRAFIA
BOLASCO S. Aggiornamento guida TALTAC BOLASCO S., BISCEGLIA B., BAIOCCHI F., - Estrazione automatica dinformazione di testi del
Mondo digitale Rassegna critica ICT anno III n.1 marzo 2004.
BOLASCO S. Analisi Multidimensionale dei dati Carocci, Roma. BOLASCO S. (1997 1998) Metodi per lanalisi statistica dei dati testuali dispense a.a. 1997-1998 Corso di Statistica III, Facolt di Economia, Scuola di Specializzazione di Metodi e Tecniche della Ricerca Sociale. CIPRIANI R., BOLASCO S. (1995) Ricerca qualitative e computer Franco Angeli, Milano CORRIERE DELLA SERA Il testo integrale del discorso di Bush dopo linizio dellattacco il
20 marzo 2003 Ricolfi L. (1997)La ricerca quantitativa NIS, Roma.
CUTILLO ENRICA A., BOLASCO S., - Applicazioni di analisi statistica dei dati testuali dicembre 2004. CUTILLO ENRICA A. (1996) Lezioni di Statistica Sociale I,II CISU, Roma. CUTILLO ENRICA A, GENNAI A. Guida alluso dello Spad-T GIULIANO L. Appunti del corso di Metodi Quantitativi per le Scienze Sociali a.a. 1996-1997 GIULIANO L. - Lanalisi automatica dei dati testuali. Software e istruzioni per luso Led on line (on line da ottobre 2004). Guida in linea TALTAC: Help di Taltac 1.0
110
IRRSAE DEL LAZIO (a cura di Massimo Radiciotti) LAnalisi testuale dei messaggi di S. Bolasco (2001) JADT (1995) III Giornata Internazionale di Analisi Statistica dei Dati Testuali, vol I e II - CISU, Roma JADT (1998) - http://www.cavi.univ-paris3/lexicometria/jadt/jadt1998JADT1998.htm JADT (2000) Actes des 5esJournes dAlyses statistique des Donnes Textualles - 9-11 Mars2000, M. Rajman & J.C. Chappellier, Ecole Polytechniquefdrale de ausanne SMELSER NEIL J. (1995) Manuale di Sociologia il Mulino, Bologna. S.I.S- (Scuola della Societ Italiana sui metodi per lanalisi testuale) Dispense del corso SIS - (tenuto a Roma il 3-7 luglio del 2000) TESI DI STABELLINI A., - Il lessico di Newsgroups di argomento religioso: lo studio di
quattro con applicazione dello Spad-T - (a.a. 1999-2000)
STABELLINI A. Spad-T .Software per lanalisi dei dati testuali Dispense didattiche per il corso di Metodi Quantitativi per le Scienze Sociali a cura di Luca Giuliano (a.a. 2000-2001)
111
ALCESTE - http//www.image.cict.fr/alceste.html EULOGOS Sistema lessicale integrato di analisi linguistica (JADT 1995) Nicola Mastidoro HYPERBASE http://134.59.31.3/~brunet/PUB/hyperwin/hypermenu.htm LEXICO - http://cavi.univ-paris3/ilpga/tal/lexicoWWW/index.htm Spad-T - Introduction SPAD Tintgr Version 1.5P.C,CISIA, Saint-Mand (France) SPHINX http//www.lesphinx-development.fr/ TROPES http//www.acetic.fr TALTAC http//www.taltac.it
112
SOMMARIO
CAP. I - LANALISI STATISTICA MULTIDIMENSIONALE
1.1 Levoluzione dello studio statistico della lingua..........p.3 1.2 Definizioni e concetti...........p.4 1.3 Vocabolario, lessico e dizionario......................................p.8 1.3.1 Lessici di Frequenza...........p.10 1.4 Aspetti di tipo quantitativo.............p.15 1.5 Dalla Linguistica alla Statistica......p.20 1.6 Il trattamento del testo............p.22 1.7 Lanalisi multidimensionale del contenuto.........................................p.29 1.8 Caratteristiche per l' applicazione dei metodi di statistica testuale.........................p.32
113
CONCLUSIONI.p.105 BIBLIOGRAFIA..p.119
114
115