Sei sulla pagina 1di 115

Universit degli studi di Roma

La Sapienza

Facolt di Scienze, Demografiche e Attuariali Corso di Diploma di Laurea di Scienze Demografiche e Sociali

LAnalisi linguistica dei dati testuali: la storia di Simona Pari e Simona Torretta - dal rapimento alla liberazione -

Relatore Prof.ssa Enrica Aureli Cutillo

Correlatore Prof. Luca Giuliano

Tesi di Laurea di Gentile Federica 004028605

Anno Accademico 2003/2004

Seduta del 7 aprile 2005


1

CAPITOLO I - LANALISI STATISTICA MULTIDIMENSIONALE 1.1 - Levoluzione dello studio statistico della lingua
Linteresse degli statistici per gli aspetti quantitativi della linguistica non recente, soprattutto se si pensa a quello, pi attuale, dei linguisti verso la statistica. Anche se vi sono linguisti che ancora atterriscono alla vista di una formula e perfino di un semplice numero, bisogna tuttavia osservare che grazie ad una sempre pi stretta collaborazione tra linguisti e statistici e grazie alla maggiore capacit dei computers di codificare e riconoscere i caratteri dellalfabeto di un qualsiasi linguaggio naturale, negli ultimi anni sono stati ottenuti risultati sorprendenti. Il binomio qualit-quantit diventa quindi un binomio indispensabile per comprendere il linguaggio, e per meglio capire il mondo delle parole, del loro impiego in discorsi e delle lingue, necessario considerarli in una dimensione quantitativa. Gli studi sugli aspetti quantitativi della lingua hanno avuto una graduale evoluzione: dalla statistica linguistica (anni 60) si passati ad una lessicale (anni70) fino ad arrivare negli anni 80 alla statistica testuale e pi recentemente alla statistica lessico-testuale (anni 90). I primi studi quantitativi linguistici riguardavano la codifica di alcune regolarit della lingua ma la lingua difficilmente definibile come un universo statistico, piuttosto una massa informe di elementi in continua evoluzione, dove la difficolt quella di associare una qualche frequenza in senso statistico-probabilistico alle parole. Questo problema non si presenta su raccolte di testi o su spezzoni di lessici, gli studi sono stati allora rivolti ad insiemi di discorsi osservabili, generando un corpus concreto oggetto di studio1, che rappresenta per solo unattualizzazione di un lessico individuale. Con la statistica testuale si spostata lattenzione sulla testualit del contenuto di un corpus, sono state fatte analisi per forme (indipendenti dalla lingua), analisi dei segmenti ripetuti, di domande aperte, analisi non tradizionali (utilizzando migliaia di occorrenze) e analisi fattoriali su matrici. Solo di recente alcuni studiosi hanno riconosciuto lambiguit delle forme grafiche, proponendo soluzioni per integrare i due livelli quello testuale (con interventi di normalizzazione, lemmatizzazione e lessicalizzazione)2 con quello linguistico (con lapporto di meta-informazioni), individuando un tipo di analisi che possiamo definire lessico-testuale.
1 2

Gli studi stilometrici sullintera opera di un autore di E. Brunet ne sono un esempio per maggiori dettagli si rimanda nei successivi paragrafi

1.2 Definizioni e concetti


Definiamo corpus una raccolta di testi3 (qualcosa di osservato, attualizzato quindi riscontrato, leggibile, ossia loggetto di studio), che possono essere letti secondo diversi punti dinteresse in funzione degli obiettivi prefissati dalla ricerca. Ogni differente lettura secondo diversi criteri genera, dal punto di vista della statistica testuale, un insieme di profili lessicali che costituiscono la base per lanalisi. Questa definizione di corpus applicabile a diverse fonti testuali (Schema 1). Per testo si intende convenzionalmente la raccolta di frammenti4 (frasi, proposizioni, enunciati, risposte) di dati testuali, ossia la raccolta di parole definite in un contesto dinteresse5. Le parole sono denominate occorrenze (ovvero ogni sequenza di caratteri di un alfabeto predefinito, delimitata da due separatori6). Sulla definizione di parole sono state fatte numerose discussioni, ma il problema della scelta dellunit di testo consiste nel decidere quale tipo di riconoscimento adottare per le occorrenze.

Un testo pu essere anche il prodotto della codifica di una fonte non testuale (musica, foto, gesti, ecc.). Ogni frammento delimitato da due separatori forti, tali separatori sono definiti da segni di punteggiatura, ma, per una buona segmentazione del testo devono essere usati ulteriori criteri che ci permettano di non scambiare dei punti (per esempio punti di migliaia [1.000.000] o punti di abbreviazioni [Sig. Rossi, C.E.E.]) come falsi indicatori di fine frase o di fine frammento. 5 I frammenti possono anche definirsi come insieme di enunciati caratterizzati da un senso compiuto 6 Sono considerati, ad esempio, separatori caratteri non appartenenti allalfabeto come lo spazio bianco (blank), la punteggiatura (,.:;?!), le virgolette, i trattini (-_|/), le parentesi ( {} () [] ) e ogni carattere speciale (&, %, $, #, @, , ecc) a secondo delle esigenze della ricerca.
4

Schema 1: tipi di corpus


Indagini direttive sul campus surveys qualitative con domande aperte interviste non direttive interviste a testimoni non privilegiati focus group storie di vita Raccolte di testi bibliografie scambi epistolari Documenti ufficiali rapporti umani, Istat, Censis, ecc. Analisi della Stampa Agenzie dinformazione Marketing: campagne pubblicitarie customer satisfaction Analisi documentaria information retrival in database dizionari specializzati analisi terminologica (lessici di frequenza) Discorso politico dichiarazioni programmatiche di governo discorsi parlamentari messaggi via mass-media, dibattiti comitati Studio di testi corti abstracts e progetti di ricerca-bibliografia manifesti messaggi messaggi internet traduzioni testuali di messaggi non testuali Fonte: Scuola della Societ Italiana sui metodi per lanalisi testuale (2000) Dispense del corso S.I.S., tenuto a roma il 3-7 luglio del 2000

Le unit elementari significative per lanalisi del contenuto possono essere: la forma grafica, intesa come una catena di caratteri compresa tra due separatori, ossia come ununit semplice testuale, che spesso pu risultare ambigua finch non si estende il concetto, ad esempio: <abito> pu significare sia <io abito> [verbo], sia <labito> [sostantivo]. il lemma7, lunit semplice lessicale, la forma canonica in cui si presenta un vocabolo ad esempio <andare> il lemma di varie forme grafiche quali <andavamo>, <andiamo>...Viene cos risolta lambiguit di alcune forme grafiche (la forma grafica <abito> se verbo diventa <abitare> se sostantivo rimane <abito>); pur tuttavia possono nascere altre ambiguit (ad esempio la forma canonica <essere> da sola pu nascondere due diversi lemmi: <essere_Verbo> e <essere_Nome> [lessere umano]).
7

Tale unit pienamente identificata se attribuita di categoria grammatica (per esempio: essere_V diverso da essere_N [forma canonica+categoria grammaticale])

il segmento, lunit composta da una sequenza di unit semplici. I segmenti possono essere: vuoti ossia composti da sole proposizioni grammaticali (<e di>, <con il>, <per la>), incompleti (< il>, <campo del>) e pieni ossia insiemi di sequenze significative (<buona volont>, <programma di governo>).

la politematica, unit composta con significato non composizionale. Le politematiche fanno parte dei poliformi, in altre parole tutte quelle sequenze di parole che esprimono un contenuto autonomo, per esempio <capo dello Stato> non il <promontorio della nazione> bens il <presidente della Repubblica>.

la lessia, unit minima indivisibile portatrice di significato. Pu essere sia semplice <Stato>, composta <socio-economico>, complessa <punto di vista>. la forma ridotta, unit semplice operativa (label di una radice lessematica). lidioma della comunit di appartenenza del parlante in un dato periodo storico che la componente dovuta al lessico della lingua; il contesto, ossia lambito o il genere concettuale del discorso, laspetto tematico e/o settoriale della terminologia. Il linguaggio diverso a seconda che si tratti di politica, di letteratura, ecc..;

Il discorso caratterizzato da un linguaggio le cui componenti sono:

la situazione, ossia la specifica condizione di enunciazione del discorso (o di stesura del testo), che riflette la modalit dinterazione fra colui che emette e colui che riceve il messaggio (esempio se il carattere del discorso pubblico o privato, formale o informale).

Fig. 1: La lingua

idioma situazione contesto continuum del linguaggio

Fonte: S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999

Con il termine contesto locale si indica un determinato insieme di parole adiacenti ad un termine prefissato (di solito si considerano 5-10 parole prima e 5-10 parole dopo il termine) che funge da polo (pivot). Lo studio dei contesti locali di una parola detto analisi delle concordanze. L'unit di contesto un frammento di testo che ha generalmente una lunghezza variabile (da 120 o 200 parole). Spesso corrisponde ad un enunciato (proposizione con un senso compiuto) altre volte ad una frase (proposizione con una rilevanza sintattica).

1.3 Vocabolario, lessico e dizionario


La dimensione (N) o lunghezza di un corpus data dal numero totale delle occorrenze (parole), mentre il vocabolario del corpus viene definito come la lista di parole diverse distinte fra loro8, ossia dal conteggio fatto sul discorso attualizzato. Il numero di parole diverse in un testo definisce 1'ampiezza del vocabolario (V). Vale la seguente relazione: V1+V2+V3++Vi++Vfmax= V con Vi numero di parole diverse che appaiono (o ricorrono) i volte (V1 rappresenta quindi linsieme delle parole che appaiono una sola volta V2 quelle che ricorrono due volte ecc.. Linsieme pu essere costituito anche da una sola parola) e fmax valore delle occorrenze della parola con il maggior numero di occorrenze del vocabolario. Il vocabolario di un corpus pu essere espresso in forme grafiche o in lemmi, quindi la sua ampiezza varia in base al modo in cui espresso il corpus. Con il termine dizionario si intende, invece, linsieme dei lemmi di una lingua raccolti in un unico inventario. Sono dizionari cartacei che recentemente sono stati sostituiti da dizionari elettronici (dove lutente il computer) e su cd-rom (dove lutente luomo) e questi ultimi sono degli inventari (in)completo9 di una lingua che comprendono, quindi, non solo i lemmi, ma anche le forme flesse [le voci declinate dei sostantivi o aggettivi, o quelle coniugate dei verbi], le forme composte, le locuzioni e le forme idiomatiche. Infine si definisce lessico 1'insieme teorico di radici lessematiche del discorso potenziale di un parlante o producibile in un ambito di settore, esprime la capacit (estensione) linguistica del parlante o del settore; quindi il lessico di un individuo il riflesso delle sue appartenenze socio-antropologiche, ovvero delle sue origini, dellesperienza e della cultura acquisita (ad esempio il lessico di un adulto diverso da quello di un bambino). Vocabolari, dizionari e lessici producono comunque delle liste di unit lessicali. I criteri di ordinamento delle entrate di una lista (o indice) sono: lessicografico, lessicomentrico. Fra quelli lessicografici quello pi consueto quello alfabetico, rispettivamente diretto (es. folle, gallo, palla, tagli) o inverso (es. palla, folle, tagli, gallo). Il primo utile, in vocabolari di forme grafiche, a ricostruire lemmi o lessemi, il secondo a raggruppare lessemi.

8 9

<casa> diversa da <case> o da <cane> i dizionari elettronici non contengono tutte le variabili linguistiche di una parola, per esempio la parola <disambiguazione> sulla Tre Cani non compare, ecco perch ogni inventario non sar mai completo

Fra quelli lessicomentrici, per i vocabolari si adotta spesso il criterio che ordina le forme per occorrenze decrescenti (in base alle classi di frequenza), ma anche per lunghezza di componenti (caratteri, parole), per ordine di presentazione dellunit nel testo e per qualsiasi altro valore quantitativo crescente o decrescente. Le misure lessicometriche di base sono: le occorrenze (assolute o normalizzate) il rango, ossia la posizione di un termine (entrata) in una lista; nei vocabolari per occorrenze decrescenti, ad esempio, un rango "elevato" indicato da un numero piccolo. la copertura del testo dato dal valore percentuale N(S)/N (dove N(S) esprime il numero delle occorrenze dovute allampiezza del vocabolario sopra il livello di soglia, mentre N il numero delle occorrenze del corpus stesso). Fig 2 Copertura lessicale

A Va

Vab/Va dizionario di riferimento Lessico di frequenza Db

Voc. corpus A bassa Va

Db alta
Fonte: Scuola della Societ Italiana sui metodi per lanalisi testuale (2000) Dispense del corso S.I.S., tenuto a roma il 3-7 luglio del 2000
8

1.3.1 Lessici di Frequenza


LAnalisi lessicale utile quando il vocabolario molto esteso (superiore alle 10.000 forme). Il confronto con modelli di linguaggio di riferimento (espressi in frequenza duso od occorrenze normalizzate) permette di estrarre il linguaggio tipico, ossia quella parte di vocabolario che ha una sua specificit intrinseca (peculiarit) e che riflette il contesto (largomento) e la situazione (il rapporto emittente-destinatario). I lessici di frequenza pi utilizzati sono: Lessico di Frequenza (LF), si tratta di un vocabolario ricavato da una raccolta molto ampia di testi con un calcolo di occorrenze in termini del cosiddetto USO. La raccolta vuol essere un campione di lingua di un determinato genere. Per avere un buon campione di linguaggio standard (italiano corrente contemporaneo), nel passato si faceva riferimento al genere letterario poi a quello giornalistico, fino a diventare sempre pi ampio basandosi, secondo Berruto, anche sullincrocio di alcune dimensioni fondamentali come formale/informale, scritto/parlato. Per effettuare confronti fra sub-testi del corpus si calcolano le occorrenze normalizzate (1 unit ogni 10milioni di occorrenze o 1milione o 100.000,); luso calcolato ponderando le occorrenze delle parole con una misura della loro dispersione nelle varie fonti (parti del corpus). Se la parola appare in tutti i tipi di testi del campione, ha una dispersione massima; se appare in un solo testo ha una dispersione minima. Si considera la variabilit delle frequenze normalizzate parziali V =

dove

1 n ( fi f )2 n i =1

lo scarto quadratico medio della frequenza che pari

alla radice quadrata della somma dei quadrati degli scarti delle frequenze normalizzate della parola nel subtesto i-esimo (frequenza parziale) dalla frequenza media. Il tutto diviso n (numero delle parti, o sub testi, del corpus) e f la frequenza media, pari alla frequenza normalizzata della parola nellintero corpus (uguale alla somma delle frequenze parziali di una parola nei subtesti diviso il numero di tali subtesti). Il massimo V (Vmax) vale n 1 e lo si ottiene quando tutte le frequenze parziali (frequenze

normalizzate della parola nel subtesto i-esimo) sono concentrate in un solo testo. V

nullo, invece, quando tutte le frequenze parziali sono equidistribuite (freq. parziali uguali tra loro). Si considera il rapporto

V Vmax

ovvero il coefficiente di variazione della frequenza,

normalizzato nellintervallo 0-1. La dispersione D di una parola, quindi, il complemento ad 1 del coefficiente normalizzato di variazione10 della frequenza negli n subtesti in cui suddiviso il corpus, cio 1

V , ossia Vmax

D =1

V n 1

Si calcola quindi, per ciascun termine, lindice duso ponderando il numero assoluto delle sue occorrenze (F) con la dispersione, ossia
U=DF

Il Vocabolario di Base della lingua italiana (VdB), composto da 7000 lemmi circa.

<<Se usiamo le parole abbastanza semplici del vocabolario di base possiamo avere buone probabilit di essere capiti da chi ha fatto almeno la terza media>> [De Mauro, 1980]. Il VdB non un vero e proprio lessico di frequenza in quanto raggruppa i lemmi considerati solo secondo tre fasce diverse A fondamentale B alto uso C - alta disponibilit 2.000 parole (necessarie alle costruzioni comuni) 2.450 parole (fra le pi usate nel LIF) 2.300 parole (pensate da tutti ma poco scritte)

Il Vocabolario fondamentale della Lingua Italiana (VFLI), riunisce tre liste per un

totale di 1.500.000 occorrenze (2.725 lemmi circa) LIF FDI KBS Bortolini, Tagliavini, Zampolli, 1971 Juilland, Traversa, 1973 Katerinov, Boriosi, Sciarone, 1977

Il VFLI pone non pochi problemi di confronto e di compatibilit sia al suo stesso interno fra le liste sia con gli altri lessici per la categorizzazione di alcuni lemmi non disambiguati.
Il Lessico Fondamentale della Lingua Italiana (LFLI), di Giuseppe Sciarone; le fonti

sono romanzi e racconti, teatro, stampa, critica letteraria per un totale di 1.500.000 occorrenze. Il lessico riunisce tre liste di frequenza
10

Il complemento ad 1 del coeff. di variazione deriva dallesigenza di ottenere per ciascuna parola una misura di dispersione D allorquando si abbiano un egual numero di frequenze normalizzate nei vai testi.

10

Lista Sciarone Lista Rotoloni Zampolli Lista Juilland Traversa

(VSI) ex Katerinov, Boriosi, Sciarone (KBS) (LIF) 1971 (FDI) 1973

Tale assemblaggio ha introdotto non pochi problemi di classificazione delle parole ad esempio Aggettivi e Participi: nel LIF <interessante> considerato forma verbale mentre <importante> come aggettivo, nel FDI le forme in <*a/e_nte> sono considerati partecipi presenti. In genere si pone molta attenzione alla funzione grammaticale e si tiene distinto Avv da Nome (ad esempio <domani> Avv [partir domani] diverso da <domani> Nome [non preoccuparti del domani]. Importante lattenzione data alloscillazione del numero di occorrenze come stima della frequenza sulla cui base sceglie di considerare come frequenza minima per il LFLI la soglia di 40 (variazione del 30%) corrispondente ad un uso minimo pari a 10.
Il Lessico Italiano di Frequenza (LIF), di Bartolini, Bavaglini, Zampolli 1971

formato da 500.000 occorrenze raccolte da testi scritti di teatro, romanzi, cinema, periodici e sussidiari.
Il VELI (De Mauro IBM 1989) composto da 26milioni di occorrenze di linguaggio

giornalistico - Domenica del Corriere - Europeo - Il Mondo - ANSA 3,6milioni di occorrenze 3,7milioni di occorrenze 7,0milioni di occorrenze 10,2milioni di occorrenze

Il Lessico dellItaliano Parlato (LIP), De Mauro 1993.

Il LIP composto da 500.000 occorrenze formate da linguaggio parlato in 4 citt campione: Milano, Firenze, Roma, Napoli (125.000 per citt). E articolato in 5 diverse tipologie di linguaggio corrispondenti ad altrettanti tipi di discorso (100.000 per gruppo, di cui 1/4 per citt).

11

Gruppo A scambio bidirezionale faccia a faccia (conversazione casa, lavoro, scuola) Gruppo B scambio bidirezionale non faccia a faccia (telefono, registrazione radio e segreteria telefonica) Gruppo C scambio bidirezionale con presa parola non libera faccia a faccia (assemblee, dibattiti, incontri, interrogazioni, esami, interviste) Gruppo D scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie, conferenze, arringhe giuridiche) Gruppo E scambio unidirezionale a distanza su testo non scritto (trasmissioni televisive e radiofoniche)

Il Lessico Elementare (LE), Marconi Morgavi Ratti, 1994. E composto da 6.000 lemmi

determinati a partire da 1.000.000 di occorrenze circa, tratte da un corpus formato da testi di scrittura (temi di alunni delle scuole primarie) e di letture (libri per ragazzi).
Fondamentale dei Poliformi (FdP), Bolasco e Morrone 1998.

Il corpus Poliformi dal quale viene originato il FdP un ampio campione di linguaggio contemporaneo (4.136.487 occorrenze per un totale di 121.786 forme grafiche diverse). Dopo una pulizia sul vocabolario, che ha escluso numeri in cifre, alcuni nomi stranieri, non-parole e corretto varianti grafiche come maiuscole e accenti sbagliati, la lista di parole da Poliformi presenti in Taltac assomma a 85.300 occorrenze circa. La composizione del campione si suddivide in: Linguaggio Scritto (articoli di stampa tratti dal CDRom [1.514.000 occ.] di cui 254.000occ. sono articoli di cultura, 283.000 occ. articoli di fondo, 286.400 occ. articoli di politica e giustizia, 297.500 occ. articoli di economia e lavoro, 210.500 occ. articoli di informatica e saggi su temi di linguistica computazionale, 182.700 occ. articoli di cronaca e biografie; segue una parte di linguaggio scritto non ricavata dai CDRom [per un totale di 1.158.000 occ. pari al 28% del totale]).
12

Linguaggio Scritto Parlato (discorso parlamentare 184.000 occ.) Linguaggio Parlato-Scritto (racconti biografici: scambi epistolari e storie di vita sullemigrazione, in totale 367.800 occ.) Linguaggio Parlato (interviste non direttive a testimoni privilegiati, a clientela, a insegnanti, ad ascoltatori radio/tv per un totale di 386.400 occ. ed il lessico dellItaliano Parlato [corpus De Mauro] per un totale di 525.200 occ.)

LFdP contiene 3931 poliformi riconosciuti e categorizzata come locuzioni grammaticali (avv, agg, prep, cong, inter) o come forme idiomatiche, verbi frasali, politematiche, di cui 1.800 lemmatizzati con un uso superiore o uguale a 5. Il Lessico Economico Finanziario (LEF), Bolasco ed Elia ,2000. Il campione dei testi raccolti per costituire il LEF fondato sullincrocio di due dimensioni: Temi (Assicurazioni, banche mercati finanziari, commercio nazionale e internazionale, diritto finanziario, ..); Generi e Tipologie di linguaggio (italiano formale, tecnico-scientifico, burocratico, italiano standard, italiano informale). Le dimensioni del corpus di circa 1.839.518 occorrenze; il Vocabolario di circa 53.470 forme distinte. La parola di un vocabolario pu essere distinta e categorizzata attraverso differenti criteri: rispetto al suo ruolo nella frase, alla sua categoria grammaticale o ad altri criteri. Molto spesso si fa distinzione tra parole vuote e parole piene. Le prime sono le parole grammaticali o di legame (articoli, preposizioni, congiunzioni ed alcuni aggettivi) che non esprimono in s un contenuto dinteresse ai fini dellanalisi, ma hanno una funzione strumentale in quanto cardini di costrutti lessico-grammaticali11. Le seconde sono portatrici di tutti quei significati oggetto di studio, delle parti "sostantive" del contenuto di un discorso (nomi e aggettivi), delle sue modalit di enunciazione (avverbi) o di azione (verbi) e per questo sono dette anche parole principali. Inoltre due parole possono essere omografe e per questo avere lo stesso significante ma diverso significato (polisemia) (ad esempio <stato_S1> nellaccezione di istituzione distinto da stato <stato_S2> nellaccezione di situazione/condizione), oppure avere differente significante ma medesimo significato (sinonimia) (ad esempio <stupendo> e <splendido>, <abitanti> e <residenti>, <isolata> e <sperduta>).
11

Anche le parole grammaticali possono avere importanza nellinterpretare un testo. Ad esempio, il sovrautilizzo di preposizioni come <in> o <di> sottolinea il carattere descrittivo del discorso; una prevalenza di <non>, <per> e <con> sottolinea particolari intenzionalit del parlante, mentre quella dei <ma> e <se> evidenzia elementi legati ad incertezza.

13

1.4 Aspetti di tipo quantitativo12


I linguisti quantitativi hanno individuato alcune regole naturali che sono alla base di ogni distribuzione di frequenza di parole utilizzate in un qualsiasi idioma. Legge di Zipf
f r = c (dove c =costante)

Essa stabilisce che le parole di un vocabolario si distribuiscono in maniera tale che la frequenza (f) e il rango (r) di una parola sono inversamente proporzionali. Un suo classico esempio, fatto dallo stesso Zipf (cfr. Bolasco, 1999: 200) tratto da uno studio lessicale dell'Ulysses di Joyce (dal vocabolario di un corpus di 260.000 occorrenze): al rango al rango al rango al rango 10 100 la frequenza 2.653 la frequenza 265

1.000 la frequenza 26 10.000 la frequenza 2

Nota: dato che non tutte le frequenze possibili sono presenti in un vocabolario ed esistono, per il rango, gli ex aequo, la regola va intesa in senso statistico, ossia "in media", dal momento che occorre prendere, come valore di frequenza, un valore medio delle occorrenze delle parole appartenenti ad un certo intorno del rango considerato. Ampi dibattiti sulla validit di questa legge hanno fatto s che essa venisse espressa dalla seguente formula:
f ra = c da cui log(f) = - alog(r) + c

ovvero lequazione di una retta (Vedi Figura 1)

su di un grafico in coordinate

logaritmiche in cui y descrive il logaritmo della frequenza, x il logaritmo del rango mentre a ne indica la pendenza. Si pu considerare con buona approssimazione:
a = logN/logV

La pendenza funzione della cosiddetta ricchezza del vocabolario V che a sua volta dipende dalla dimensione del testo N.

12

S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999

14

Figura 1

Coefficiente G di Guiraoud di ricchezza lessicale V N

G=

V = numero vocaboli diversi e N = numero di occorrenze.

In termini empirici possibile osservare che per testi compresi fra 10.000. e 50.000 occorrenze di parole, il vocabolario V aumenta come la radice quadrata di N e G vale circa 22. Per lo stesso genere di testi il coefficiente angolare della retta di Zipf vale a = 1. 15. Si pu assumere anche - come una prima misura di ricchezza lessicale - la proporzione di parole diverse sul totale delle occorrenze: ossia V/N (noto anche come type/token ratio) oppure anche V1/V (V1 rappresenta linsieme delle parole che appaiono una sola volta - chiamate anche hapax mentre V rappresenta il totale di parole diverse).

15

Fasce di frequenza di un vocabolario Si prenda come esempio la seguente tabella:

Tabella 1 Esempio di vocabolario per occorrenze decrescenti (in forme grafiche con relativo rango) Rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Forma g. di una e un la che regione isola per non Sardegna pi i con da in ma le a molto si l il bella sono essere ha ancora Occ 293 217 214 197 194 184 149 147 114 113 112 104 101 89 87 83 82 78 71 68 67 61 60 56 52 50 48 45 43 Rango Forma g. 29 31 31 31 34 35 35 37 37 39 39 41 42 42 42 45 45 45 48 48 50 50 50 53 53 53 53 53 58 Terra Dal Disoccupazione Problemi Se Ci Della C Sviluppo Dei Stato Bellissima Deve Isolamento Lavoro Dell Delle Isolata Gli Soprattutto Bisogno Resto Sardi Ambiente Cui Dove Poco Troppo Al Occ Rango Forma g. 43 41 41 41 38 35 35 33 33 31 31 30 28 28 28 27 27 27 26 26 25 25 25 23 23 23 23 23 22 58 58 58 58 58 64 65 65 67 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 dei per possibilit potenzialit sempre come Italia occupazione bene potrebbe fare giovani perch classe anche alla abitanti bellezze economica ai aiuti agricoltura abbastanza acque oggi abbiamo abbandonate Occ 22 22 22 22 22 21 20 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

Fonte: Bolasco, 1999: 190

Legenda: Fascia alta Fascia media Fascia bassa

16

Le parole di un vocabolario, nella tabella sopra, sono state ordinate per frequenze decrescenti, partendo dalla parola con freqmax fino ad arrivare a quelle con freqmin ossia con una sola occorrenza (hapax) [Vedi anche pag.7].
Vfmax ,Vfmax-1,,V3,V2,V1

Insieme al valore di frequenza stato indicato anche il rango. In questo caso, dato che lordinamento per occorrenze decrescentiSi possono individuare tre fasce: le alte, le medie e le basse frequenze. - Il limite fra le alte e le medie frequenze si colloca subito sopra la prima parit: ossia la prima coppia di parole che occorrono lo stesso numero di volte (cio, in, Tabella 1 al rango della forma <ha>); - il confine fra medie e basse frequenze individuato dalla prima lacuna nel numero consecutivo di occorrenze crescenti (ossia in corrispondenza della parola <sardi> in Tabella 1). Nelle tre fasce si articolano progressivamente i diversi tipi di parole: parole "vuote parole strumentali, parole principali. La fascia delle alte frequenze quella in cui ogni parola ha un numero diverso di occorrenze da ogni altra. Generalmente composta all'incirca da 30 o 50 forme (a seconda delle dimensioni del corpus) e, fra queste, al pi 4 o 5 sono parole principali, mentre le altre sono parole grammaticali. La fascia delle medie frequenze si caratterizza per avere al suo interno parole con diverse condizioni sia di parit sia di numero di occorrenze (nella quale cio non tutte le possibili quantit di occorrenze sono presenti). La fascia delle basse frequenze possiede tutte le classi di frequenze decrescenti fino a V1 e contiene la stragrande maggioranza delle parole del vocabolario. Livello di soglia e tasso di copertura del testo Il livello di soglia quel valore di frequenza al di sotto del quale si assume che le parole abbandonate non siano rilevanti. Nota: Il rango corrispondente al livello di soglia esprime una stima del numero di dimensioni o variabili attive che definiscono i profili lessicali. Ai fini di un' analisi del contenuto del corpus, si riscontra empiricamente che un livello di soglia di frequenza, accettabile per selezionare le parole da studiare con tecniche multidimensionali, posizionato nei primi decili delle basse frequenze, ossia intorno ad un 10% o 20% delle parole appartenenti a tale fascia. Infatti, entro questo livello si trovano la
17

maggior parte delle articolazioni del linguaggio riguardanti le parole principali, quanto ad aggettivi e sostantivi (e verbi, ma in misura inferiore, date le loro numerose flessioni). In diversi studi si riscontrato, inoltre, che il limite corrispondente al primo decile delle basse frequenze corrisponde spesso al valore N/V13, mentre il tasso di copertura del testo, nell'intorno del primo decile delle basse frequenze, compreso fra il 70% (in testi di almeno 8.000 occorrenze) e l'80-85% (in corpus medi o medio-grandi)14 Dimensioni minime del corpus15 Ai fini di un'analisi statistica importante conoscere quali debbano essere le dimensioni minime di un corpus. Un criterio empirico che spesso si rivelato utile quello di osservare il rapporto V/N: se questo supera il 20%, il corpus non pu considerarsi sufficientemente esteso16. Questa regola vale a meno che il testo non contenga pi "idiomi" che si sovrappongono, com' il caso del linguaggio "globale" delle mailing list in Internet, infarcite di inglese. <<In generale, un corpus, ai fini di un'analisi su base statistica, considerato piccolo quando si aggira sulle 50 pagine convenzionali, corrispondenti a circa 15.000 occorrenze (100 Kbytes). di dimensione media intorno alle 150 pagine (45.000 occorrenze equivalenti a circa 300 Kb), medio-grande quando raggiunge le 100.000 occorrenze (pi di 300 pagine e circa 700 Kb)17. Quando il vocabolario di un corpus supera le 500.000 occorrenze (3 Megabytes, equivalenti a oltre 1.500 pagine) la sua estensione raggiunge la dimensione minima di un lessico. Affinch il suo vocabolario possa definirsi un lessico di frequenza occorre che il corpus sia ricavato da fonti eterogenee (tale da approssimare un campione di linguaggio) che le unit di testo siano i lemmi e che le loro frequenze siano espresse in indice d'uso>>[Bolasco, 1999: 204].

13

Valore medio delle occorrenze in un corpus che a sua volta rappresenta allincirca il 12% del vocabolario totale (dato dal valore V(s)/V) con un valore di frequenza compreso tra 7 e 12 a seconda che il corpus sia piccolo o grande. 14 Per ottenere quest'ultima percentuale di copertura in testi piccoli, occorre scendere al secondo decile delle basse frequenze. 15 S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999 16 Il tasso di accrescimento di un vocabolario decresce all'aumentare della dimensione del corpus. In un testo molto corto, ad esempio di sole 100 occorrenze, quasi tutte le parole sono diverse. Via via che il testo cresce in ampiezza, le parole diverse aumentano dapprima velocemente e poi sempre pi lentamente. Ci dipende molto anche dal tipo di testo considerato. 17 <<Una survey di 800-1.000 risposte non vuote ad una domanda aperta produce generalmente un testo compreso fra le diecimila e le ventimila occorrenze, a seconda dell'ampiezza delle risposte. Occorrono invece almeno 50 interviste libere di oltre mezz'ora di registrazione per riempire 100 pagine di testo trascritto. In sostanza, un testo che non raggiunga le 10.000 occorrenze possiede delle frequenze che nei valori bassi sono inattendibili statisticamente>>[Bolasco, 1999: 204]. 18

1.5 - Dalla Linguistica alla Statistica


Base di partenza di ogni indagine statistica la selezione del collettivo. Il collettivo statistico in questo caso rappresentato dal corpus ovvero da una raccolta di testi (stock di materiale testuale), omogenea sotto qualche punto di vista. L unit statistica, ovvero lunit di osservazione, pu essere di tre tipi a seconda degli obiettivi, del tipo e del livello di analisi del corpus. L unit di testo, che corrisponde alla parola come forma grafica (grafia)18. lunit di analisi elementare per la lettura computerizzata di un testo: La parola, vista come <catena di caratteri di un alfabeto delimitata da due separatori che ne definiscono linizio e la fine>19, diviene loggetto del riconoscimento automatico (scansione) di un testo20. Il risultato finale la numerizzazione (ad ogni occorrenza diversa si associa un numero diverso) o lindicizzazione del corpus (ogni parola identificata da un codice identificativo e da un indirizzo - pagina, riga - che indica la sua collocazione nel testo). In taluni studi la forma grafica pu essere riletta successivamente come una specifica flessione di un lemma, in quel processo che prende appunto il nome di lemmatizzazione. Lunit di contesto che corrisponde ad ogni frammento di testo: sia esso una frase (proposizione sintatticamente indipendente), un enunciato (proposizione di senso compiuto), o una risposta individuale (al limite, costituita da una sola parola: <s>) o quant'altro sia da considerarsi unitario sotto qualche punto d'interesse. Ai fini di unanalisi automatica di un corpus, pu considerarsi come ununica unit di contesto anche un intero testo (un libro, un discorso, un articolo di giornale), oppure una sua parte (un capitolo, un paragrafo, un titolo): ovvero un qualsiasi raggruppamento pertinente di frammenti. Lunit di contesto lunit di analisi di studi basati sul confronto di frammenti del discorso al fine di individuare delle specificit o delle omogeneit diversi21.

rispetto a testi

La forma testuale che corrisponde alla lessia, ovvero alla pi piccola unit portatrice di senso - non ulteriormente decomponibile - rilevabile in un corpus. lunit minima significativa del discorso che pu essere semplice (definita da una sola

18

evidente che una catena di caratteri non necessariamente una parola di senso. Per cui <carta> e <catra> sono due occorrenze di parole diverse ma <catra> non una parola dellitaliano: lo sarebbe dopo una correzione ortografica. 19 Di fatto ogni parola di un testo delimitata da spazi bianchi, mentre ogni frase dalla punteggiatura. 20 Il computer infatti legge ogni informazione linguistica come una sequenza di bytes ciascuna delimitata dai separatori inizio e fine. 21 Lobiettivo quello di individuare differenti universi lessicali e lo studio ha interessi terminologici. 19

parola: <cane>, <tavola>), composta (costituita da pi parole in via dintegrazione: <sangue freddo>) o complessa (individuata da una sequenza di parole fra loro connesse: <fare lo gnorri>, <dalla testa ai piedi>). Nellapplicazione dei metodi della statistica testuale e di analisi del contenuto si adottano unit di tipo misto, ora semplici, ora complesse che vengono appunto definite forme testuali. Cos una forma testuale potr essere sia un lemma (<scrivere>), sia una riduzione lessematica (ad esempio la radice <attual+> che fonderebbe <attuale>, <attualmente>, distinta da <attu+> frutto delle fusioni <attuare>, <attuazione>, <attuato>), sia un significante che rappresenti la fusione di ma sinonimie anche accertate un nel corpus (locuzione (<accordo$>=accordo+alleanza+patto),

poliforme

grammaticale o polirematica di contenuto: <in_corso>, <bilancia_dei_pagamenti> od una frase fissa idiomatica, identificabile come unentit (<andare_al_creatore>).

20

1.6 - Il trattamento del testo


Vi sono diversi principi di normalizzazione attraverso i quali un testo viene trattato al fine di scegliere, nel sottoinsieme di parole scelte per lanalisi, quelle sulle quali intervenire per accrescerne il livello informativo. In poche parole nel trattamento del dato testuale viene ridotta lambiguit e migliorata la monosemia (univocit dei significati), cercando, nel contempo, di lasciare intatto il contenuto del testo con il suo sistema di variabilit dei significati. <<Pi in generale, il criterio fondamentale che alla base di ogni intervento sul testo si pu cos esprimere: conservare distinte nel testo le variazioni significative in termini semantici e fondere le forme che costituiscono degli invarianti semantici.>> [Bolasco, 1999: 213]. La lemmatizzazione di fatto un processo di trattamento del testo attraverso cui vi una trasformazione sistematica delle forme grafiche in lemmi. Ci risulta utile ed opportuno in alcuni casi (ad esempio per i verbi), in altri innocuo (aggettivi), mentre in altri ancora addirittura dannoso (basti pensare ad alcuni sostantivi per cui il plurale spesso indica dei referenti concettuali diversi dal singolare: comunicazione comunicazioni; <scienze della comunicazione> e <scienza delle comunicazioni>. Linguaggi e multimedialit nel primo caso ingegneria e progettazione dei servizi, di trasporto nel secondo. O ancora: paese paesi: l'uno il nostro paese, l'altro sta per le altre nazioni). evidente allora che sono necessari altri interventi capaci di massimizzare la ricerca del carattere monosemico delle parole di un corpus per valorizzarne laccezione interna pur rimanendo il pi possibile ancorati al contenuto del testo. La trasformazione delle forme grafiche in forme testuali fra questi. Nel passaggio dalle forme grafiche alle forme testuali si effettuano sostanzialmente due processi:
I. La disambiguazione ovvero la distinzione tra forme omografe-polisemiche che pu essere:

- grammaticale (lemmi diversi: <posto_Verbo> e <posto_Sostantivo>); - semantica (diverse accezioni di uno stesso lemma; <posto-Sostantivo> pu significare luogo, impiego, spazio, sedile, centro); - lessico-grammaticale isolando un poliforme (forze_politiche).
II. La fusione di forme che costituiscono degli invarianti semantici che pu riguardare:

- equivalenti grammaticali (le diverse flessioni di un aggettivo, o di determinate voci di un verbo);

21

- equivalenze semantiche (i raggruppamenti di forme diverse, individuanti tratti semantici o insiemi di sinonimi). Queste disambiguazioni o fusioni possono essere messe in atto con differenti strumenti. a) Lisofrequenza 22 Definiamo isofrequenza la condizione di equilibrio o di stabilit - in numero di occorrenze esistente fra alcune forme flesse di uno stesso lemma. Baster scorrere un vocabolario di un corpus secondo l'ordine alfabetico e ci si render conto del fenomeno23. Lipotesi che alla base di questo comportamento che tanto pi un termine usato con funzioni, significati o forme diverse, tanto pi probabile che esso accumuli un numero maggiore di occorrenze tali da procurare il fenomeno contrapposto alla isofrequenza: la non-isofrequenza. Quindi, se pur vero che l'esistenza dell'isofrequenza non pu, di per s, costituire la prova di un'equivalenza di significato nei termini coinvolti, al contrario, il riscontrare una non-isofrequenza costituisce spesso l'indizio di un utilizzo plurimo della forma in questione. Questa circostanza segnala pertanto lopportunit, vuoi di una disambiguazione, ad esempio estraendo una locuzione, vuoi di una fusione. Uno dei casi pi evidenti quello in cui una forma semplice parte integrante e fondamentale di un poliforme. Ad esempio si pu osservare nella seguente tabella che la flessione <tutto> assai pi frequente delle flessioni <tutta/e/i>. Il motivo semplice: perch la flessione al maschile singolare cumula alla funzione di aggettivo quella di avverbio spesso composto, cosa che non avviene per le altre tre.

22 23

S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999 Una misura elementare dellisofrequenza pu ottenersi dal rapporto di coesistenza fra le occorrenze di due flessioni DS=[f2-f1], essendo f2>f1 oppure mediante una differenza relativa IS=[(f2-f1)/ f1].

22

Tabella 2

Esempi di isofrequenze

NOMI CONCRETI (isofrequenti) libro libri zona zone 178 183 285 280

NOMI ASTRATTI (non isofrequenti)

AGGETTIVI (isofrequenti) grave gravi 289 265

AGGETTIVI/AVV. /POLIFORMI (non isofrequenti) stesso 1571 lo stesso 503 stessa 906 buono 311 buon 635 buona 1038 buone 208 buoni 249

sviluppo 1725 (accezione) sviluppi 129 sistema 1570 (accezione) sistemi 367

scolastica 131 scolastico 137 77 78 11 8 3 3

sentenza 282 sentenze 271 festa feste 131 13

materia 604 in materia 423 legittima materie 296 legittimo corso 1065 in corso 401 nel corso 306 corsi 288 leggendario leggendaria leggendari leggendarie

Fonte: Bolasco, 1999: 220

b) La selezione dei segmenti ripetuti24 Osservando un vocabolario di forme grafiche ci si accorge che molte parole comuni sono inspiegabilmente ai primi ranghi del vocabolario. Questa circostanza pu essere il riflesso della presenza di poliformi, in particolare quelli a contenuto prevalentemente grammaticale, che sono alla base della costruzione stessa del discorso. Si tratta soprattutto di locuzioni con funzione avverbiale (<in particolare>, <di nuovo>, <a casa>, <una volta>/<tempo fa>, <del tutto>, <alla fine>, <di fatto>), aggettivale (<a punto>, <a tempo determinato>, <in mano>, <alla mano>) o prepositiva (<fino a>, <in modo da>, <da parte di>, <rispetto a>), o di congiunzioni composte (<dal momento che>, <certo che>, <come mai>, <a condizione che>), di formule idiomatiche (<tutte queste cose>, < una cosa che>, <per cos dire>, <io credo>) o infine di alcuni verbi idiomatici con funzione ausiliare di verbi supporto (<rendersi conto>, <andar fatto>, <portare avanti>, <venir meno>, <dare vita>, <va bene/male>, <far parte>, <far fronte>, <fare presto/tardi>, <mettere a punto>, <prendere atto>). Tutti i componenti queste espressioni, viste come frasi fisse, risultano avere nel vocabolario di un corpus in forme grafiche, un numero di occorrenze alterato rispetto al solo uso ordinario, come parole
24

S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999

23

semplici con il loro significato elementare, diretto od originario. Disambiguare almeno alcune fra queste espressioni diventa necessario e, a volte, essenziale. Si riscontra, infatti, che tali poliformi hanno un comportamento (sotto il profilo semantico) assai diverso dalle parole semplici costituenti. Sarebbe allora interessante poter valutare quanto le occorrenze di un segmento incidono sulle occorrenze delle forme semplici che lo compongono. Per far questo esiste un indice, denominato IS25, costruito per selezionare alcune polirematiche di contenuto. L f segm IS = i =1 f fg i P

ove, date le L forme grafiche componenti il segmento, si pone a rapporto la fsegm (n occorrenze del segmento) a ciascuna ffg (occorrenze delle forme grafiche componenti), moltiplicando poi la somma di tutti questi quozienti per P, quantit che esprime il numero di parole piene presenti nel segmento26. Tale indice sempre positivo, si annulla quando il segmento composto solo da parole vuote27 ed ha il suo massimo pari a L2. Condizione questultima in cui tutte le occorrenze della forma singola sono date proprio dalla frequenza del segmento. Lindice IS28 appena visto ci d un aiuto per valutare lopportunit della lessicalizzazione consentendo di valutare limpatto della frequenza su alcune delle parole chiave coinvolte nel processo di trasformazione delle unit. La lessicalizzazione quel processo che porta a considerare un sintagma (o un qualunque raggruppamento di parole) come un solo elemento lessicale. In altri termini la lessicalizzazione consiste nella trasformazione del testo, dovuta al riconoscimento di una sequenza di forme grafiche, come una sola unit di senso o lessia. Ad esempio < capo dello

25 26

Questo indice ha il compito di far risaltare le parole pi significative scartando tutti i segmenti vuoti la ricerca automatica di tutti i segmenti ripetuti in un testo per costruzione ridondante: avviene infatti cercando tutte le sequenze identiche di qualsiasi lunghezza 2, 3, 4 o 5 parole. Per cui ad esempio avremo <punto di> <di vista> <punto di vista> <dal punto di vista> <sotto il punto di vista>. Occorre quindi eliminare la ridondanza e selezionare solo quelli pieni (polirematica) <punto di vista>, prendendo atto che l'ordine di grandezza della frequenza con cui essi occorrono assai inferiore a quello delle corrispondenti forme grafiche elementari. Comunque si apprezza la presenza di segmenti quando la loro frequenza superiore o uguale a 3 o 4 occorrenze. 27 Presupponendo di avere definito una lista di parole vuote, l'indice consente di scartare i segmenti vuoti o irrilevanti in termini di grado d'assorbimento; questi, generalmente, sono oltre l'80% dell'intero inventario 28 Esiste anche un altro metodo per isolare sistematicamente i poliformi di un testo. Esso si basa sul confronto dellinventario dei segmenti ripetuti di un corpus con una qualche lista significativa di poliformi, specifica di un settore o di un genere di linguaggio. Lintersezione delle due liste - quella del corpus e quella specifica consente di isolare i segmenti pieni. 24

stato> verr modificata in ununica unit lessicale <capo_dello_stato>29. Si prenda come esempio il seguente segmento. teste rasate con frequenza F =18 ed IS = 3,636, con numero di occorrenze della parola teste nel corpus pari ad f1 = 22 e con numero di occorrenze della parola rasate pari ad f2 = 18. Il valore di IS vicino al suo massimo rivela in effetti che vi un buon assorbimento della forma singola (pivot) da parte del poliforme che la contiene.
Tabella 3 Selezione dei poliformi secondo lindice IS
F 18 16 19 23 17 33 25 29 L 2 2 2 2 2 2 3 3 IS 3,636 3,113 2,804 2,799 2,723 2,620 2,491 1,235 Segmento teste rasate protezione civile v cumpr sporco negro palazzo chigi linea dura permesso di soggiorno centri di accoglienza f1 22 17 23 27 47 53 38 77 f2 f3 18 0 26 0 33 0 42 0 17 0 48 0 4.117 43 4.117 124

Legenda: F=frequenza; L= parole del segmento; IS=indice; f1 ,f2 ,f3 =frequenza della 1,2,3 parola del segmenti Fonte:da unanalisi dei titoli dei giornali sugli immigrati (Stoppiello,1998)

A questo punto, dopo lesame dei termini non isofrequenti e dopo lestrazione dei poliformi significativi possibile effettuare le disambiguazioni utili e le opportune lessicalizzazioni, trasformando cos il corpus in un testo leggibile in automatico non pi in forme grafiche bens in lessie.

c) Lindividuazione del linguaggio peculiare30 Lindividuazione del linguaggio peculiare pu essere vista come la ricerca dellinsieme minimo di parole massimamente rappresentativo del vocabolario che consente di ridurre le ambiguit presenti nel corpus. Si parte dal presupposto che le parole pi frequenti in un corpus (anche dette parole tema) non sempre sono parole chiave (peculiari, tipiche) del corpus stesso. Ove per parola chiave si intende una parola sovra/sotto-utilizzata rispetto alla sua frequenza standard nei normali

29 30

Il carattere _ underscore dovr essere cancellato dallelenco dei separatori. S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999

25

contesti duso. E si sceglie un modello di riferimento (rappresentato da un tipo di lessico)31 rispetto al quale calcolare il sovra/sotto-uso delle parole chiave. Cos facendo ci si affida ad un criterio che consente di selezionare le parole di un corpus non soltanto sulla base del loro pi o meno elevato numero assoluto di occorrenze. Tale criterio misura la peculiarit in termini di specificit sia positiva che negativa. La prima correlata con le parole pi frequenti, mentre la seconda con quelle cos rare da essere quasi assenti, forse perch volutamente evitate dal locutore. La misura di specificit, per ciascuna parola, allora data, ad esempio, dal seguente rapporto:
zi = f i f i* f i*

che costituisce uno scarto standardizzato della frequenza relativa, dove fi il numero di occorrenze normalizzate della i-esima parola nel corpus ed fi* il corrispondente valore nel lessico assunto come modello32, mentre la quantit al denominatore lo scarto quadratico medio della frequenza relativa. Come facile notare, questo rapporto pari alla radice quadrata dell'i-esimo contributo ad un chi-quadrato. In assenza di un modello di linguaggio di riferimento, si potrebbe lo stesso giungere allindividuazione delle parole chiave del corpus effettuando, in via preliminare, un'analisi delle corrispondenze sul corpus in forme grafiche, a soglia di frequenza elevata. Cos facendo si evidenziano sul primo piano fattoriale alcuni punti cardinali della struttura del contenuto. Si procede poi ad altre analisi, con soglie di frequenza via decrescenti, per scoprire quali siano le parole che restano stabili in queste simulazioni e quali siano i contenuti che si definiscono come sottocampi o dettagli semantici di tali punti cardinali. Cos facendo, si identificano i termini sui quali opportuno concentrare gli interventi di disambiguazione o di fusione. Nonostante siano stati appena descritti metodi e criteri per intervenire sul testo con una certa sistematicit, latteggiamento che occorrerebbe comunque assumere quello di procedere con parsimonia: alcuni interventi, infatti, potrebbero procurare pi danni che vantaggi (caduta di

Con la crescita delle potenzialit informatiche di calcolo, attualmente non difficile effettuare raccolte di testi per la messa a punto di liste di frequenza, assemblando stock sempre pi ampi (anche milioni di occorrenze) di materiali riguardanti periodi, generi e situazioni differenti (un tempo solo testi scritti, pi recentemente anche testi parlati). Queste liste permettono di costruire i cosiddetti lessici di frequenza: in pratica, dei vocabolari ordinati per numero decrescente di occorrenze, o meglio, secondo il loro rango in termini di frequenza d'uso. I lessici di frequenza possono essere utilizzati come modelli di riferimento per la valutazione del sovra/sottouso delle parole nel corpus oggetto di studio. 32 Tali quantit possono essere espresse anche in termini d'indice d'uso. Tale confronto tanto pi valido quanto pi il corpus connesso al lessico. 26

31

frequenza, frammentazione delle occorrenze e perdita della forma perch al di sotto della soglia di frequenza ecc..). Uno dei criteri fondamentali che guidano gli interventi sul testo consiste da un lato nel tendere a ridurre il numero delle unit lessicali da considerare per lanalisi e dallaltro nel cercare di aumentare il tasso di copertura del testo, a parit di numero di unit considerate33. Esiste un test in grado di legittimare la scelta di fondere/non fondere o disambiguare pi termini basato sulla ricostruzione - mediante simulazione - delle regioni di confidenza sul piano fattoriale34. Si considerano le parole che sarebbero oggetto di pretrattamento. Si effettuano le disambiguazioni e si analizza come questultime si comportano sul piano fattoriale. Se i loro punti producono regioni disgiunte, la loro disambiguazione legittima; si effettuano le fusioni e, come sopra, si studia il loro comportamento sul piano fattoriale. Se esse hanno regioni di confidenza fortemente incluse, evidente che una loro fusione sotto un unico lemma non inficerebbe lanalisi. In figura2 ed figura 3 si riportano alcuni esempi tratti dalle dispense del Prof. Bolasco da cui si evince come sia legittimo fondere le quattro voci del participio passato del verbo essere, mentre come sia inopportuno mischiare il singolare ed il plurale del nome politica.

Figura 2: Participio passato del verbo essere


33

Figura 3: Singolare/plurale del nome politica

Si ricorda che gli interventi riguardano circa un 10% delle forme del vocabolario da analizzare (che a sua volta potrebbe aggirarsi intorno al 12 % di V]). 34 Si sfrutta in pratica la propriet vicinanza=somiglianza dei punti sui piani. Le matrici sono matrici di frequenza <parole x subtesti>. 27

1.7 - Lanalisi multidimensionale del contenuto


Una volta raggiunto un buon livello del dato linguistico come dato statistico, ossia una volta ricercata una qualche approssimazione della monosemia per le parole significative ai fini dellanalisi, si procede allapplicazione delle tecniche statistiche per differenti livelli di analisi. Si possono individuare due livelli di studio. In un primo livello si affronta per cos dire uno studio esterno o verticale del testo: lanalisi di tipo lessicale perch linteresse si basa sulla terminologia utilizzata (vocabolario). Il risultato finale lanalisi delle specificit. In un secondo livello si fa ricorso a tecniche statistiche multidimensionali (ad esempio di tipo fattoriale) capaci di studiare il contesto generale delle varie co-occorrenze delle parole attraverso lo studio dei profili lessicali descritti dalle matrici dei dati, fino alla ricostruzione dei sintagmi fondamentali presenti nel corpus. Il risultato finale la ricostruzione dei principali modelli di comportamento del senso.

Specificit di forme e frasi in un testo

Con il termine specificit si intende indicare se e quanto una parola sia tipica o specifica di un sub-testo, nellambito di uno stesso corpus, o - pi in generale -quanto una forma sia specifica rispetto ad un qualche modello di linguaggio di riferimento. Una misura di specificit di una parola in un testo, di solito ottenuta a livello di forme testuali, viene calcolata a partire dalla tabella di frequenza che ripartisce le occorrenze totali di una forma del corpus nei vari sub-testi in cui essa occorre. Essa pu esser data semplicemente da: z = (x- xteor) x Si arriva a tale formula per il calcolo della specificit partendo da alcune semplici considerazioni. <<Come noto si possono indicare con: E(x) = n * p e x= n * p * q rispettivamente la media del numero assoluto di occorrenze di una parola e il suo scarto quadratico medio, ove p (e q) la probabilit, come frequenza relativa, dell'apparire della parola (e rispettivamente del suo non apparire) in un testo, ed n il numero di prove che si immagina di effettuare per ottenere la parola in oggetto.

28

Nel nostro caso n pari al numero totale di occorrenze nel sub-testo: ipotizzando ogni tranche di corpus della stessa dimensione, n costante in tutto il corpus. Questo schema teorico sottintende, nell'ipotesi di indipendenza fra eventi, che l'apparire delle occorrenze di una parola in ciascun sub-testo possa essere immaginato come un evento aleatorio, ove p appunto la probabilit di ottenere quella parola ogni n prove. Ogni qualvolta si ottiene una proporzione di occorrenze di molto superiore (o inferiore) a questa quantit np si pu supporre che ci non sia dovuto al caso ma piuttosto sia l'espressione di una qualche causa specifica. Ha senso allora voler misurare in termini di uno scarto relativo questa differenza. Tale scarto prender la forma seguente: z = (x- xteor) x Ora in ambito linguistico, la frequenza relativa p di una parola in un testo di fatto sempre bassissima, per cui, volendo semplificare il calcolo, possiamo esprimere x come x=
n * p, in quanto il prodotto di pq praticamente sempre uguale a p.

Ma il tal modo lo s.q.m. della frequenza assoluta di una parola pari alla radice quadrata della frequenza assoluta teorica. In questo senso lo scarto standardizzato [] assume la forma z = (x- xteor) >> [Bolasco,1999: 227] xteor Questo rapporto pu essere valutato utilizzando i criteri classici della significativit statistica con alcune considerazioni. <<[] Assumendo il corpus come una popolazione e ogni sua parte (sub-testo) come un campione, il modello distributivo di riferimento - per valutare in termini probabilistici il numero di occorrenze di una parola presenti in questo campione - quello di una legge ipergeometrica, legge vicina alla distribuzione multinomiale quando le frequenze relative sono molto piccole rispetto alla popolazione. Sotto particolari condizioni (frequenze assolute osservate non inferiori ad una certa frequenza) a sua volta quest'ultima ben approssimata da una variabile casuale normale. In pratica quando si stabilisce un livello di soglia minimo sul numero di occorrenze di una parola, per considerarla "in analisi", il calcolo delle specificit avviene attraverso un valore-test che confronta la frequenza relativa di una parola nella parte, con la corrispondente frequenza relativa nel corpus totale. Questo test effettuato sotto l'ipotesi di un'approssimazione normale, per cui possibile assumere i

29

classici limiti degli intervalli di confidenza di una variabile standardizzata z e assumere le regole ben conosciute della distribuzione di Gauss. Quando z all'incirca intorno allo zero ci significa che la parola presente nel sub-testo in proporzioni puramente aleatorie, ossia tanto quanto in media ci si pu aspettare. In tal caso la parola non significativa, quindi in qualche modo "banale", come dire che fa parte del vocabolario di base (necessario alla costruzione) del testo. Se z superiore, in valore assoluto, a 2 sappiamo che la sua presenza significativamente diversa da quella attesa (sotto una ben determinata ipotesi teorica, che quella dell'equidistribuzione e quindi di indipendenza, all'interno di un certo schema di estrazione e di un modello probabilistico di riferimento). Quindi il numero delle sue occorrenze significativo, sia in termini positivi che negativi. Nel primo di questi due ultimi casi si dir che il numero di occorrenze della parola in esame nel sub-testo supera largamente il valore atteso per puro effetto del caso e che la parola
caratteristica del testo (specificit positiva). Nel secondo caso si dir che la sua cos bassa

frequenza anch'essa significativa, per cui vi sar una qualche causa per la quale la parola non presente nel testo quanto ci si potesse aspettare. La parola si dice allora anticaratteristica o "rara" o anche mal rappresentata. Una selezione di parole con specificit positive S+ o negative S- consente di individuare alcuni tratti salienti del sub-testo, in modo da identificarne i principali contenuti>>35 Una estensione del criterio di selezione delle forme caratteristiche quello dellestrazione di frasi significative che consiste nellidentificare alcuni contesti locali che appunto contengono tali forme. Ci si basa sul principio che una frase tanto pi caratteristica quante pi parole ad alta specificit essa contiene. Pertanto se si considera di calcolare il valor medio dei valoritest delle parole che formano la frase, pi elevata questa quantit, pi significativa la

frase36. Con una semplificazione si pu immaginare di adottare come informazione il rango associato alle forme caratteristiche per ciascun sub-testo. Ovvero data la lista delle forme di un subtesto, secondo la loro specificit positiva decrescente, e consideratone il rango (ranghi bassi = alta specificit) si calcola il rango medio delle parole della frase. Se il rango medio piccolo vuol dire che essa contiene solo parole caratteristiche.

35 36

Bolasco, dispense anno accademico 1997-1998: 52

Naturalmente questa misura influenzata dal numero di parole, in quanto tende a privilegiare le frasi corte. Infatti, a parit di forme caratteristiche, ogni parola banale che si aggiunge nel calcolo tende ad abbassare la media

30

1.8- caratteristiche per l'applicazione dei metodi di statistica testuale


- ampiezza dei testi ricchezza vocab < 20% ripetitivit/originaIit - dimensioni tipiche 1 parola = 6-7 lettere in media (5-6 linguaggio elementare) 1 pagina = 300 parole/occorrenze: 2KB 1 testo piccolo = 50 pag.ovvero 15.000 occorrenze 100KB 1 testo "medio" = 150 pag. ovvero 45.000 occorrenze 300KB 1 testo "medio-grande" => 300 pag. ovvero 100.000 occorrenze 700KB 1 lessico = 500.000 occorrenze (oltre 3MB) pari ad oltre1700 pagine - 1 survey almeno 800-1000 interviste valide (con risposte non vuote alle domande aperte) - testi raccolti in un corpus di almeno 100 pagine: - dalle 50 alle 100 interviste libere di oltre mezz'ora - qualche centinaia di articoli a stampa

31

CAPITOLO II LE MATRICI

2.1- Tipi di matrici


Al fine di analizzarne la variabilit linguistica e la struttura, il corpus viene in genere studiato per frammenti (spezzoni brevi di testo: proposizioni elementari o enunciati, singoli documenti, risposte, e-mail ecc.) o per parti (sub-testi o raggruppamenti dei frammenti per attributi: cronologici, tematici, caratteristiche socio-demografiche ecc.). In questa prospettiva, assume interesse la frequenza delle parole nelle parti o nei frammenti. Infatti, uno studio del testo fondato su base quantitativa, consiste sempre nel confronto di diversi profili lessicali, ossia di altrettante sub-distribuzioni statistiche generate dall'insieme dette frequenze delle parole in ciascuna parte e/o frammento. In quest'ultimo caso spesso la quantit di occorrenze viene ridotta a semplice "presenza/assenza". Di fatto queste suddivisioni dei corpus danno luogo a matrici di tre tipi diversi: una matrice frammenti x forme; una matrice forme x testi; una matrice forme x forme

{frammenti x forme}, in cui in riga si hanno i frammenti di testo, da considerarsi come unit statistiche d'analisi (od "osservazioni") e in colonna si hanno le forme selezionate per lo studio, da considerarsi come variabili relative a ciascuna unit.

Fmax 1 Forma Framm 1 2 i n 1 1 0 1 1 1 1 0 di 2 3 il

F(s) V(s) Era

0 0 0 1 1 0 1 1 1 0 0 0

32

Dove le righe possono essere: singole risposte degli intervistati, le singole proposizioni, i singoli versi, i commi. Mentre le colonne sono costituite dalle unit lessicali selezionate dal vocabolario del corpus, espresso ora in forme grafiche, lemmi o segmenti, ora in forme miste (lessie, forme testuali). Le colonne della matrice costituiscono le informazioni elementari di ogni unit e sono quindi le componenti di un profilo lessicale, che sar oggetto dello studio. In ogni casella (i,j) della matrice riportato il numero di occorrenze dell'unit lessicale j-esima presente nell'osservazione i-esima. Di fatto questa matrice in prevalenza una tabella booleana (1 = presenza, 0 = assenza) poich solo raramente vi sono pi occorrenze di una stessa parola in un frammento. Sar comunque una matrice di tipo sparso, cio con oltre il 95% delle caselle nulle, poich ciascun frammento composto di qualche decina di parole, mentre l'ampiezza del vocabolario solitamente di diverse centinaia - se non migliaia - di unit lessicali. In questa matrice, si perde l'informazione relativa alla disposizione dei termini all'interno di ciascun frammento, mentre se ne conosce la loro combinazione. Ad esempio, il frammento <una casa bella veramente> coinciderebbe con <veramente una bella casa>. Tali "perdite d'informazione" sono tuttavia trascurabili rispetto al contenuto informativo dovuto alla combinazione dei termini stessi; se, al contrario, dovessero ritenersi fondamentali, non si dovr fare ricorso a questo genere di matrici. A questa matrice pu venire associata, per ciascun frammento, una serie di categorizzazioni (A, B, C, ... ) che registrano le modalit di altrettante variabili qualitative numeriche. Ad esempio, nel caso di un corpus di una raccolta di articoli di giornale (ogni articolo costituisce un frammento), possibile associare all'articolo categorizzazioni sull'autore (A), sulla posizione nella pagina (B), sull'argomento trattato (C) ecc. Si avr cos la seguente matrice delle variabili categoriali: AB C D 1 3 5 2 2 1 3 1 2 3 2 2 1 3 1 2

33

{forme x testi}, in cui si ha in riga il vocabolario selezionato allo scopo e in colonna i testi (o parti) secondo cui si considera suddiviso il corpus. Lunit lessicale quindi l'unit statistica d'analisi e il testo costituisce la variabile di studio. L'informazione statistica interna alla matrice la frequenza (numero di occorrenze assolute) con cui una parola (forma, segmento o lessia) ricorre in ciascun testo. Il profilo lessicale d'interesse spesso il profilo colonna, dal momento che si confronteranno i diversi testi sulla base della differente presenza (frequenza) delle parole. In ogni caso, la lettura diretta di tali profili richiederebbe di trasformare le occorrenze assolute in occorrenze normalizzate.
Testo Forma .

j T

1 2 3 i V(s)

Di Il Era

82 56 49 29 3

35 77 62 10 1

40 19 33 25 5

14 5 70 12 56 7

{forme x forme}, in cui sia le righe che le colonne descrivono il "vocabolario" prescelto. L'informazione statistica interna alla matrice una misura di similarit (espressa come sola presenza/assenza o come grado di correlazione) che registra il tipo o livello di co-occorrenza fra le forme, all'interno dei testi. Questa matrice pu venire utilizzata ad esempio per ponderare i profili colonna nelle matrici del tipo {frammenti x forme}. cosa madre cosa madre casa vita dare 1 0 1 0 0 0 1 1 1 1 casa vita dare 1 1 1 1 0 0 1 1 1 1 0 1 0 1 1

34

Secondo l'algebra matriciale, ogni riga o colonna di queste matrici rappresenta un vettore, descrivente il profilo lessicale, le tecniche utilizzate per l'analisi di tali matrici mirano alla sintesi o riduzione dei dati, attraverso lo studio della variabilit statistica. In particolare, le tecniche fattoriali - attraverso una riduzione del numero di variabili del fenomeno (vettori colonna) - producono delle nuove variabili sintetiche, in grado di ricostruire i principali assi semantici che caratterizzano la variabilit dei contenuti dei testo. Lanalisi delle corrispondenze la tecnica fattoriale utilizzata nel caso dei dati testuali. Essa visualizza le principali co-occorrenze fra parole presenti nel testo, sulla base della loro vicinanza nei piani cartesiani costituiti da coppie di assi fattoriali, ricostruendo in tal modo delle vere e proprie mappe del contenuto del testo, che forniscono spesso una rappresentazione globale del senso sottostante il discorso. Le tecniche di clusterizzazione e di segmentazione mirano, invece, a ridurre la quantit delle unit statistiche (vettori riga), producendone una classificazione multidimensionale in grado di definire delle tipologie attraverso le quali leggere simultaneamente le caratteristiche d'interesse. La cluster analysis, come famiglia d metodi di raggruppamento (gerarchici e non, scissori o aggregativi), consente di individuare classi di parole o di frammenti di testo, caratterizzati da una forte omogeneit interna, tale da poter ricostruire i principali "mondi lessicali" presenti nel corpus, ossia i differenti modi di parlare del fenomeno studiato, contenuto nei testo.37

37

S. Bolasco , Analisi Multidimensionali dei Dati Carocci Ed. 1999

35

CAPITOLO III I SOFTWARE

3.1 - I software utilizzati nella statistica testuale


Per sviluppare unanalisi automatica su dati testuali sono disponibili numerosi programmi o
pakage sia di tipo statistico che di tipo linguistico. In realt ciascuno di questi risolve alcuni

dei problemi di studio. In altre parole, non si pu pensare di utilizzare un solo strumento per arrivare in fondo alla ricerca. Nel panorama in continua espansione, a tuttoggi possiamo citare i principali software. Alcuni tra i programmi contenenti tecniche lessicometriche e di statistica testuale figurano LEXICO, HYPERBASE, SPAD_T, SPHINX e ALCESTE. Fra i programmi di tipo strettamente linguistico sono da segnalare EULOGOS_ISL ed INTEX, ecc Infine tra i programmi di impianto lessico-testuale:ALCESTE, TALTAC, SPHINX.

36

3.2 - principi di funzionamento di un software per l'analisi di testi


- riconoscimento automatico delle sequenze di caratteri (forme grafiche, segmenti ripetuti) - numerizzazione del corpus e identificazione dei testi e sub-testi - costruzione del vocabolario (inventario o indice generale delle parole presenti) parole piene: principali e strumentali, parole vuote - riduzione/selezione delle parole da analizzare mediante lemmatizzazione, disambiguazioni, sinonimi, parole vuote - costruzione di tabelle di frequenza per unit di testo (frammenti) o per sub-testi - confronto di profili lessicali a partire dalle tabelle di freq - estrazione di parole e di frasi caratteristiche (specificit positive e negative)

37

3.3 - Software - aspetti computazionali


Dizionari elettronici, industria della lingua Taggers sintattico-grammaticali Taggers semantici Lemmatizzatori Confronto con lessic/ldiz. di riferimento
Dela (F,S,C, settoriali), Intex, DBT Sphinx, Eulogos, Intex Tropes DBT, Labb, Ibm (Mancini) Hyperbase, Intex, TALTAC

Trattamento preparatorio, selezioni, lessicalizzazione TALTAC Information retrieval: Ricerca di concordanze in testo integrale
DBT, Nud-ist, TextPack

Vocabolari, specificit, concordanze

Lexico, Hyperbase, Sphinx

Analisi delle domande aperte, an. Esplorative Analisi del discorso

Spadt, Sphinx Discan, Alceste, Tropes

38

3.4 - SPAD-T
Lo Spad-T un software di origine francese orientato all'analisi statistica di un testo secondo un approccio lessicometrico. Lo Spad-T riconosce ogni parola di un testo come forma grafica, in altre parole come un elemento il cui tratto caratteristico l'apparenza grafica (parole tali e quali scritte nel testo: poich diverso da poich) e basa l'elaborazione: sulla tabella lessicale intera riferita al corpus oggetto di studio; sulla frequenza d'occorrenza delle parole del corpus; sul confronto fra "profilai lessicali delle differenti parti del corpus.

Lo Spad-T fornisce degli strumenti computazionali che trovano applicazione nella Statistica Linguistica: procedura NUMER: numerizzazione delle parole, calcolo della loro lunghezza e frequenza; procedura SEGME: generazione dei segmenti ripetuti; procedura MOTEX: generazione della tabella di contingenza. procedura CORTE: correzione del vocabolario. Attraverso la corte si possono cos effettuare sul testo delle operazioni di lemmatizzazione semplicemente facendo equivalere una forma grafica al proprio lemma; procedura SETEX: riduzione della soglia di frequenza. Le forme grafiche che ricorrono pi frequentemente del valore di soglia impostato saranno conservate. Non solo: la SETEX consente anche di impostare la lunghezza minima delle parole e delle risposte al di sopra della quale le parole o le risposte verranno considerate ai fini dell'analisi. procedura CORDA: concordanza delle parole; procedura MOCAR: individuazione delle parole o dei segmenti caratteristici; procedura RECAR: individuazione delle risposte caratteristiche; procedura APLUM: analisi delle corrispondenze semplici parole*testi o segmenti*testi; procedura ASPAR: analisi delle corrispondenze multiple risposte*parole o risposte*segmenti; procedura PARTI: creazione di cluster; procedura CLAIR: interpretazione dei fattori.

E nella Statistica Testuale:

39

3.5 - ALCESTE

3.5.1 Obiettivo
L'analisi di Dati Testuali o statistici testuali la metodologia che mira a scoprire le informazioni essenziali contenute in un testo. ALCESTE un software di analisi di Dati Testuali, generato dal CNRS, col sostegno dell'ANVAR. Il software ALCESTE permette di analizzare automaticamente colloqui, domande aperte, indagini socioeconomiche, raccolte di testi diversi: opere letterarie, articoli di riviste, romanzi... e pu essere applicato in diversi campi quali la Linguistica, l'Analisi del discorso, l'elaborazione delle indagini, consigli in marketing, la Pubblicit, il Giornalismo,la Storia, la Sociologia, la Psicologia, il Diritto, la Medicina, la Ricerca documentaria... L'obiettivo di quantificare un testo per estrarne le strutture significative pi forti. Le ricerche hanno mostrato (J.P BENZECRI, M. REINERT) che queste strutture sono legate strettamente alla distribuzione delle parole in un testo e che questa distribuzione si abitua raramente al caso. Descrivere, classificare, assimilare, sintetizzare automaticamente un testo, tale l'interesse presente del software ALCESTE.

3.5.2 Metodo utilizzato

La Classificazione Discendente Gerarchica: questo metodo permette di frazionare il testo. Esso avvista le maggiori opposizioni esistenti tra le parole del testo e estrae classi di enunciati rappresentativi. Ha il vantaggio di non esigere conoscenze a priori sul testo da analizzare. Questo metodo la base del software ALCESTE

3.5.3 - Funzioni

Analisi del vocabolario :

Si tratta della prima tappa dell' elaborazione. Questa analisi permette di conteggiare i segmenti ripetuti del testo, le parole, radici e coppie di parole.

40

Analisi di default :

Questa analisi comprende due classificazioni successive (doppia classificazione) con un controllo di stabilit. L'analisi di default permette di estrarre la maggiore struttura del testo analizzato. I risultati ottenuti offrono all' utente le caratteristiche seguenti: le parole e frasi pi significative (il calcolo del 2), i segmenti ripetuti e le concordanze delle parole pi specifiche. L'analisi di default tipica del software ALCESTE ed caratterizzata da una grande pertinenza.

Analisi di dati incrociati :

Questa analisi consiste nell'incrociare il testo con le variabili illustrative fuori testo quali una variabile "capitolo" nel caso di un libro oppure variabili quali "t", "sesso", "professione" per una serie di interviste.

Analisi delle unit naturali :

Un testo talvolta composto di diverse parti (per esempio, un libro composto di capitoli, una rivista composta di articoli) che sono chiamate unit naturali. Dunque questa analisi permette di classificare automaticamente le unit naturali.

Analisi delle coppie di parole :

Questa analisi permette di ottenere una tipologia delle sequenze delle parole nel testo. Le classi ottenute sono caratterizzate dalle coppie di parole specifiche e i segmenti ripetuti associati.

41

3.6 - EULOGOS
EULOGOS - sistema lessicale integrato di analisi linguistica stato sviluppato a partire da una tesi di laurea [Mastidoro, 1991 ] svolta sotto la direzione di Tullio De Mauro. L'idea di base secondo la quale EULOGOS nato ha tre obiettivi: fornisce uno strumento per personal computer con un'interfaccia utente semplice e interattiva, attraverso la quale accedere a tutte le fasi e tutti i dati di una lemmatizzazione, dalla scansione del testo fino alla produzione delle liste; integrare nel lemmatizzatore un dizionario di macchina interattivo capace di gestire le particolarit morfologiche della lingua italiana e di differenziare lemmi e forme in vocabolari interni, a partire dai tre livelli del Vocabolario di base della lingua italiana [De Mauro, 1989]. Gestire anche lemmi complessi con la possibilit di includerli nelle liste pari dei lemmi semplici; tenere un collegamento stretto tra la revisione della lemmatizzazione e la manutenzione del dizionario di macchina, in modo da incrementare con il minimo sforzo il patrimonio lessicale e morfologico dei sistema. Allo stato attuale EULOGOS un programma per Windows che integra diverse funzioni: dizionario di macchina. Il dizionario di macchina (DM) di EULOGOS gestisce le

informazioni lessicali e morfologiche in base alle quali intervengono gli algoritmi di lemmatizzazione. - lemmatizzatore. La lemmatizzazione viene svolta a partire da un file in formato testo semplice. La funzione di lemmatizzazione consente di impostare alcune variabili specifiche (distinzione tra maiuscole e minuscole, ecc.), cosa che permette di tarare il comportamento dell'algoritmo rispetto alle caratteristiche specifiche dei corpus e alle esigenze di calcolo. generatore delle liste di frequenza. Con EULOGOS possibile ottenere liste di

frequenza differenziate partendo dallo stesso corpus, in modo da confrontare i risultati rispetto ai criteri di definizione della lista stessa Analizzatore dei segmenti ripetuti. Questa funzione, isola i segmenti ripetuti al livello

di occorrenza e al livello di lemma. Al livello di occorrenza, segnala segmenti di lunghezza e di frequenza maggiori o uguali a livelli di soglia variabili. Al livello di lemma, analizza il ricorrere di sequenze di forme di lemmi. In questo caso si pu definire se debbano coincidere solo i lemmi o anche le forme dei lemmi, perch la sequenza sia considerata tale.

42

3.7 - SPHINX
Con Sphinx si realizzano delle inchieste di gradimento e di qualit, dei test prodotti, degli studi di mercato. Con Sphinx, potrete organizzare questi studi. Dal questionario al rapporto, tre livelli di risposte:
Sphinx Primo: l'essenziale per tutte le vostre inchieste

Funzioni

Idea e pubblicazione del questionario Pubblicazione su Internet Inserimento delle risposte Spoglio, analisi statistiche e produzione del rapporto Edizione di pannello di controllo multimediale

Sphinx Plus: l'analisi avanzata di tutti i vostri dati.

Sphinx Plus2 aggiunge a Primo la possibilit dell'introduzione di dati esterni, della casualit e della flessibilit per ottenete un mezzo statistico di portata generale ed un potente sistema gestionale di inchieste in fila o in rete.

Funzioni

Apertura di ogni tipo di dati. Analisi multivariata, (analisi fattoriale,). Calcolo delle variabili informative, fusioni. Gestione avanzata delle inchieste in linee ed in rete

43

Sphinx Lexica: la soluzione per tutte le vostre ricerche qualitative e quantitative.

Lexica un attrezzo molto completo per gli studi qualitativi e l'analisi di dati testuali. Permette di avvicinarsi ad ogni tipo di testo: - Intervista non direttive, - discorso, - documenti, - database, - pagine Web...

Funzioni

Integrazione dei testi, produzioni di lessici e navigazione lessicale. Analisi sintattica e lemmatizzazione. Documenti cognitivi, termini lessicali specifici e classificazioni tematiche

44

3.8 TALTAC
TALTAC sta per Trattamento Automatico Lessico-Testuale per l'Analisi del Contenuto. E' una

libreria di programmi che consente il trattamento e l'analisi di un insieme di dati testuali secondo una logica di tipo lessicometrico, finalizzata all'analisi del contenuto di un testo. Tale approccio consente lo studio diretto di dati di natura linguistica, secondo i principi della "statistica testuale", in funzione di un'analisi automatica del testo. E' particolarmente indicato per testi di ampie dimensioni, ossia di centinaia o migliaia di pagine. Taltac nato con l'idea non di sostituire il software gi sviluppato per l'analisi di dati testuali sia in ambito statistico che linguistico, bens di realizzare la pi elevata integrazione possibile fra diversi livelli di analisi, ora lessicale ora testuale. Taltac convoglia in un unico ambiente misurazioni e risorse sia linguistiche, sia statistico-linguistiche ed aperto all'utilizzo degli altri pacchetti gi disponibili per la ricerca scientifica, in particolare quelli tipici dell'approccio lessicometrico (Spad, Lexico, Sphinx, Alceste, Hyperbase) e di quello lessico-grammaticale (Intex). Nel pacchetto, una particolare attenzione riposta nella preparazione e cura del testo, nella scelta delle unit di analisi pi significative, nella consultazione di linguaggi di riferimento.Uno dei principali obiettivi perseguibili con questo trattamento l'estrazione e la messa a punto di un "vocabolario utile" per l'analisi di contenuto espresso in forme testuali, ossia in unit lessicali di tipo misto capaci di cogliere le accezioni e i significati presenti nel corpus analizzato.

TALTAC permette di fare le seguenti operazioni: - La normalizzazione del testo agisce sullinsieme dei caratteri non separatori eliminando possibili fonti di sdoppiamento del dato. Ad esempio, le maiuscole non rilevanti (la, La), oppure uniformando nei limiti del possibile la grafia dei nomi propri, delle sigle, dei numeri e delle date che presentano una forte variabilit. - L'analisi accurata del vocabolario prevede il calcolo di una serie di misure e di indici statistici sul vocabolario e sulle sue classi di frequenza (cf. Bolasco 1999, p. 186-7) (es. gamma delle frequenze, indici di ricchezza lessicale, individuazione del livello di soglia di frequenza per l'analisi di contenuto).

45

- L' analisi dei segmenti utile per avere informazioni generali sulla ricchezza lessicale, sulle classi di frequenza, sulla soglia di frequenza minima per l'analisi del contenuto e sul
tasso di copertura del testo, nonch sulla quantit di parole in analisi nelle fasi successive di

studio con tecniche fattoriali - L' analisi lessicale a partire da una categorizzazione grammaticale del testo; possibile integrare la categorizzazione, etichettando in modo semi-automatico le parole ambigue o quelle automaticamente non riconosciute, con l'ausilio di un'analisi delle concordanze. Questo passo di analisi particolarmente utile ad individuare il nucleo del linguaggio peculiare del corpus (il "core" del vocabolario) e per porre le basi della selezione delle unit di analisi lessico-testuali, di cui si vuole indagare il contenuto e/o il comportamento nel discorso.Inoltre permette di approfondire l'analisi testuale puntando ad individuare alcuni tratti di tipo lessicale sul corpus oggetto di studio, a partire dal suo vocabolario, primo fra tutti il cosiddetto Tagging grammaticale. Non una fase appropriata a studi "veloci" sul corpus. Per un suo pieno utilizzo, questo step richiede anche l'interazione con altri software come Lexico ed Intex: pertanto una fase time-expensive. - Ad esempio, preferibile operare innanzitutto un Confronto con lessici di frequenza (laddove si disponga di un lessico d'uso di un linguaggio di riferimento) per evidenziare i lemmi sovra/sotto-utilizzati nel corpus (lemmi con elevato scarto standardizzato in valore assoluto). In tal modo si individuano i lessemi su cui concentrare le operazioni di disambiguazione. - Il calcolo della connessione lessicale fra due vocabolari di testi diversi di uno stesso Autore o di due corpus confrontabili fra loro, con relativa scomposizione nella parte comune e nelle parti "originali" per ciascun vocabolario. Fra le operazioni di tipo pi strettamente statistico, sono possibili calcoli su liste come il calcolo di rango, dispersione e uso, nonch il calcolo del sovra/sotto utilizzo di un termine mediante lo scarto standardizzato rispetto a un linguaggio di riferimento. - La creazione di un database di Sessione con l'acquisizione delle principali funzioni di Taltac da applicare a proprie liste personalizzate.

46

3.9 - TROPES (L'analisi di discorso di alta classe alla portata di tutti)


Analizzare un insieme di testi scritti o orali, significa porre certe domande in funzione di alcuni obiettivi come, che cosa dice chi? a proposito di chi? ed in quale scopo? Rispondere a queste domande riportare questo insieme di testi all'essenziale, nelle condizioni ottimali di sicurezza, di codifica. Il risultato deve riflettere ci che stato detto e non il punto di vista del ricercatore. Tropes permette di garantire la qualit di analisi, portando un approccio semantico e pragmatico, garantendo la sicurezza delle interpretazioni grazie ad un'automatizzazione delle analisi stesse. Tropes permette inoltre di ottenere analisi riproducibili; due persone che studiano un stesso testo ed osservano la stessa tecnica di analisi otterranno risultati simili. Tropes divide chiaramente i risultati ottenuti dalla loro interpretazione. Questo presenta il vantaggio di permettere di interrogare le interpretazioni risalendo direttamente ai risultati primari.

47

3.10 INTEX
INTEX un ambiente linguistico di sviluppo che include i dizionari e le grammatiche di grande-copertura ed analizza i testi di parecchie milioni di parole in tempo reale. INTEX include gli strumenti per generare ed effettuare le risorse del lessico, cos come le grammatiche morfologiche e sintattiche. INTEX usato da parecchi centri di ricerca. INTEX pu costruire lemmatizzazioni e gli indici di grandi testi che riguardano a tutti i tipi di modelli limitati della condizione. INTEX usato da oltre 200 laboratori come sistema di reperimento delle informazioni, per analizzare i testi letterari, per misurare le variazioni di lingua, per insegnare le seconde lingue ed in parecchie universit per insegnare la linguistica computazionale agli allievi laureati.

3.11 - LEXICO 3
Lexico3 l'edizione 2001 del software Lexico di cui la prima versione risale al 1990. Le funzionalit presenti fin dalla prima versione (segmentazione, concordanza, conteggi, specificit ed analisi fattoriali) sono state conservate e migliorate notevolmente. L'originalit principale di Lexico che permette all'utente di custodire la padronanza sull'insieme dei processi lessicometrici. Al di l della localizzazione delle uniche forme grafiche, il software permette di studiare nei testi. La ripartizione di unit pi complesse composte di sequenze di forma: segmenti ripetuti, coppie di forma in co-occorrenze, ecc. al contenuto spesso meno ambiguo delle forme grafiche di cui sono composte.
Principali novit: il principale miglioramento portato da questa nuova versione riguarda

l'architettura "oggetto" del programma. I differenti moduli che comunicano sono insieme oramai capaci di scambiare dei dati pi complessi (forme, segmenti ripetuti, co-occorrenze, ).
Costituzione di gruppi di forme:nuovi strumenti sono stati integrati e facilitano la ricerca di

tali insiemi di forme. La caratteristica delle differenti parti di un corpus per le forme che adoperano resa pi precisa nella presente versione per la possibilit di mettere in evidenza delle sezioni del testo.

48

CAPITOLO IV INTRODUZIONE LAVORO TALTAC

4.1 Introduzione
In questa parte del lavoro sintende studiare, con un metodo statistico-linguistico, una raccolta di articoli di giornale. Questa fase di studio si basa sulle recenti metodologie statistiche di analisi dei dati testuali tipiche di una lettura automatica del corpus. Sono stati presi in considerazione 126 articoli (per un totale di 77046 occorrenze) del quotidiano La Repubblica38 che trattano gli avvenimenti che si sono succeduti in seguito al sequestro di Simona Pari e Simona Torretta. Lanalisi del contenuto di tali articoli qui sviluppata con lo scopo di evidenziare le caratteristiche del linguaggio utilizzato, nonch di misurare quantitativamente il peso di alcune tematiche prevalenti allinterno del corpus analizzato. Lo studio stato impostato suddividendo la storia del sequestro in quattro periodi. Nel primo periodo sono stati raccolti alcuni articoli che vanno dal giorno 07 al 19 settembre 2004 (lasso di tempo in cui viene preso in considerazione la prima fase del rapimento, dove gli inquirenti cercano di capire realmente chi siano i sequestratori e dove si analizzano le loro prime rivendicazioni), il secondo periodo raccoglie gli articoli che vanno dal giorno 20 al 27 settembre 2004 (fase in cui si procede ad analizzare le trattative39), il terzo si sviluppa sugli articoli redatti nel giorno 28 settembre 2004 (data della liberazione delle due Simone) ed il 4 ed ultimo periodo in cui vengono analizzati gli avvenimenti accaduti dal 29 settembre al 24 ottobre 2004 (dove vengono presi in esame i giorni successivi alla liberazione delle due italiane).

Utilizzato perch offre una panoramica completa della vicenda sulle due Simone (dal sequestro alla liberazione) 39 Precisamente il 21 settembre il gruppo legato ad Al Zarqawi smentisce di aver comprato le due Simone. Inoltre il 23 ed il 27 coincididono con due date, poi rivelatesi false, che annunciano la loro morte 49

38

Numero di articoli 40000 30000 20000 10000 0 I periodo II periodo III periodo IV periodo

Lelaborazione dei dati stata affrontata utilizzando un programma di statistica linguistica denominato Taltac. In generale, l'analisi svolta in TALTAC - grazie all'interazione, come input, con software linguistici (vedi Intex) e statistici (vedi Lexico o Spad_T) e a vari feedback sui dati (vedi concordanze) - permette di estrarre linformazione pi significativa dal corpus oggetto di studio40. Grazie a questo programma possiamo sviluppare unanalisi sistematica del contenuto di tutti gli articoli presenti nel quotidiano La Repubblica, con lobiettivo fondamentale di documentare il lessico praticato nei diversi articoli. Lo studio mira pertanto ad estrapolare cos le singole parole allinterno del corpus in considerazione del periodo e del momento sociale in cui sono inserite. Il vero problema dellanalisi automatica dei dati testuali quello della strategia di individuazione dellinformazione essenziale allinterno del testo e quindi quello della selezione delle unit dinformazione ritenute pi rilevanti per la ricostruzione del significato (Bolasco e della Ratta-Rinaldi, 2004; Poibeau, 2004). Le prime tappe di questa strategia danalisi sono state codificate dal software TALTAC con cui otteniamo41:

40 41

La normalizzazione preliminare del corpus, Le misure lessicometriche di base, Lidentificazione dei poliformi, Lindividuazione dei segmenti ripetuti, La disambiguazione, La lemmatizzazione, Il confronto con i lessici di frequenza per lestrazione del linguaggio peculiare.

Guida in linea TALTAC: Help di Taltac 1.0 Giuliano L.C. Lanalisi automatica dei dati testuali. Software e istruzioni per luso Ottobre 2004

50

4.2 - La storia: dal sequestro alla liberazione delle due Simone


Il 7 settembre scorso un commando armato f irruzione negli uffici della Ong "Un ponte per...", a Bagdad, e sequestra Simona Torretta (29 anni, romana) e Simona Pari (29 anni, riminese). Insieme a loro sono prelevati due colleghi iracheni che operano nel sociale, Raad Ali Abdul Aziz e Manhaz Bassam. Nel sito "Islamic-Minbar.com" un fantomatico gruppo, che si firma "Ansar Al Zawahiri" (di cui gli 007 italiani mettono in dubbio anche la reale esistenza), ne rivendica il rapimento ed il 10 f la sua prima richiesta: vuole un impegno dell' Italia a liberare immediatamente tutte le prigioniere musulmane nelle carceri dell'Iraq senza alcuna condizione in cambio di pochissime informazioni sui due ostaggi italiani. Il 12 settembre in un comunicato diffuso sul sito web 'Yaislah.org', f la sua seconda richiesta: vuole che il governo capeggiato dal vile Silvio Berlusconi ritiri i soldati italiani dall'Iraq, altrimenti eseguiranno la sentenza di Dio che sar lo sgozzamento, se Dio lo vuole, dei due ostaggi italiani. Si parlato di "fantomatico" perch, pur prendendo il nome dal numero 2 di Al Qaeda e braccio destro di Bin Laden, ovvero il chirurgo egiziano Ayaman Al Zawahiri, di questo gruppo fino a quel momento non si era mai parlato. E' probabile che fossero criminali comuni senza alcun rapporto con Al Qaeda che per assicurarsi maggiore risonanza hanno legato il proprio nome a quello di Ayaman Al Zawahiri. Dopo che l'Italia non ha accolto la richiesta di ritirare le truppe dall'Iraq, compaiono due messaggi di morte: il 23 sia il gruppo di Ansar Al Zawahiri che "l'Organizzazione Jihad" annunciamo che il verdetto di Dio stato eseguito per scannamento sulle due prigioniere italiane42. I 21 settembre, due settimane dopo il rapimento delle due volontarie di "Un Ponte per", i rapitori hanno chiesto il ritiro dei militari italiani dall'Iraq e il pagamento di un riscatto di quasi 30 milioni di euro. Una proposta che "l'Italia aveva rifiutato", provocando cos "l'interruzione del contatto per tre giorni"43. In questi tre giorni Al Zarqawi (vice di Osama Bin Laden) fece la sua offerta. Un'offerta che i rapitori declinarono. Il terrorista giordano, leader di Al Qaeda, sarebbe stato quindi disposto a versare "alcuni milioni di dollari" in pi di quanto infine pagato dagli italiani per poter prendere in consegna Simona Pari e Simona Torretta.
42 43

Articolo della Repubblica" di Carlo Bonini 7 settembre 2004 Articolo della Repubblica" 3 ottobre 2004

51

Ma infine Tawhid wal Jihad, il gruppo guidato da Abu Musab Al Zarqawi (definito luomo del terrore perch a lui si legano la maggior parte delle decapitazioni avvenute in Iraq) ha negato di aver "acquistato" le due donne italiane. Una volta stabilita la loro identit44, anche con domande poste loro grazie all'intermediario, viene avviato un negoziato (scrive il Sunday Times). Nel frattempo Simona Pari e Simona Torretta vengono localizzate in una moschea a 64 chilometri da Bagdad. Il governo italiano ha a questo punto due opzioni: riavviare il negoziato o predisporre un raid delle forze speciali., questultimo stato escluso perch giudicato troppo rischioso. I rapitori si fanno sentire. Sono furenti per la fuga di notizie e accusano i mediatori di fare un gioco sporco. Il 28 settembre tutto pronto, l'aero in attesa, ma i rapitori tornano a farsi sentire. Quella storia dei soldi proprio non gli va gi. Non garantiscono pi nulla anzi dichiarano: "le due italiane in ostaggio non torneranno vive in Italia, torneranno solo come cadaveri". Fortunatamente si ha un epilogo positivo di tutta la vicenda con la liberazione di Simona Pari, Simona Torretta, Raad e Manhaz Bassam. Dopo la loro liberazione si torna a parlare di un ipotetico pagamento: c chi sostiene che, in tre giorni, viene raggiunto un accordo con cui Roma si impegna a versare 2,8 milioni di sterline (4,05 milioni di euro) come "denaro di protezione", altri che parlano di un milione di dollari, di cui mezzo milione versato prima della liberazione, il restante a liberazione avvenuta. Maurizio Scelli nega il pagamento del riscatto la croce rossa italiana un ente pubblico ed neutrale, non pu permettersi di dare 100 lire che non siano documentate ma rivendica il merito dell'impresa: "scusate e chi le ha portate a casa le ragazze?"

Secondo Maurizio Scelli (Commissario straordinario della Croce Rossa Italiana), il presunto ruolo di spie delle due volontarie sarebbe il motivo per cui i sequestratori le hanno condannate a morte.

44

52

4.3 Analisi del testo


Figura 1 Schema generale
Corpus Lessicalizzazione

Normalizzazione Normalizzazione

Analisi Vocabolario

Analisi segmenti

Lista da lessicalizzare

Tagging Grammaticale Semantico

Estrazione dinformazione Analisi delle Specificit Confronto Lessici e liste Matrice forme x testi

Questo schema rappresenta il percorso condotto con TALTAC: definito il corpus oggetto di studio stato effettuato un pre-trattamento, la Normalizzazione, per eliminare le possibili fonti di sdoppiamento del dato. Successivamente viene visualizzato e analizzato il vocabolario del corpus per effettuare alcune misurazioni lessicometriche. In un secondo tempo si passa ad individuare sequenze di parole, ovvero segmenti ripetuti; dalla loro lista possibile visualizzare i segmenti pi significativi grazie allindice IS; inoltre possibile selezionare un insieme di segmenti da lessicalizzare, per trasformare nel testo le sequenze dinteresse in forme grafiche semplici, mediante lo spazio con il carattere _. TALTAC dispone, al suo interno, di risorse linguistiche che consentono di aggiungere accanto alle forme del vocabolario informazioni di tipo grammaticale e semantico. Queste meta-informazioni si sfruttano utilizzando le funzioni di annotazioni ed etichettatura (tagging). La procedura di tagging grammaticale confronta il vocabolario del corpus con il dizionario di TALTAC (DIZTALTAC), in questo modo possibile etichettare grammaticalmente le forme grafiche presenti nel vocabolario. La procedura di tagging non effettua una lemmatizzazione completa del corpus, ma si limita ad attribuire le forme non ambigue le categorie grammaticale e il lemma.

53

Il tagging semantico pu essere effettuato grazie alla definizione di dizionari di contenuto semantico allinterno del database di sistema. La versione 1.6.2.contiene un dizionario di circa 5000 forme flesse di aggettivi classificati come positivi o negativi45. Il confronto tra il vocabolario del corpus e questo dizionario consente di visualizzare e conteggiare gli aggettivi negativi o positivi presenti nel corpus. Una delle funzioni centrali di TALTAC lestrazione di informazione peculiare del corpus in una logica tipica dei Text Mining. Tale estrazione si ottiene utilizzando risorsa endogene o risorse esogene rispetto al testo in analisi. Le risorse endogene sono di fatto le variabili categoriali associate al testo, grazie alle quali possibile partizionare il corpus e calcolare le parole caratteristiche delle varie parti o sub-testi, attraverso lanalisi delle specialit. Le risorse esogene sono invece le liste di riferimento (lessici di frequenza) contenute nel database di sistema di TALTAC. Confrontando il vocabolario del corpus con il lessico di frequenza pi adeguato, possibile individuare il linguaggio peculiare del testo, nei termini sia delle unita lessicali sovra o sotto rappresentate (quelle cio che presentano maggiori o minori scarti duso in valore assoluto), che di quelle originali del testo (cio non presenti nel lessico di riferimento utilizzato. Anche i segmenti ripetuti individuati nel corpus possono essere confrontati con il lessico di poliformi.

45

Bolasco , della Ratta; 2004

54

4.4 Analisi del contenuto degli articoli della Repubblica

4.4.1 Aspetti quantitativi del corpus


In tab 4 si riportano alcune statistiche sulle dimensioni degli articoli suddivisi nei 4 periodi (719 settembre, 20-27 settembre, 28 settembre, dal 29 in poi), sulle loro occorrenze e sul numero di vocaboli (liste di parole diverse rilevate nel corpus) presenti nei 126 articoli.

Tabella 4 Misure lessicometriche del corpus suddiviso per periodi num. articoli
I periodo II periodo III periodo IV periodo 59 25 15 27 126
1

% articoli
46,82 19,84 11,91 21,43 100

Occ. totali (N)


35293 14511 7855 19345 76989

Vocabolario (V11/V)*100 (V)


7106 3628 2226 4821 56,59 60,61 60,47 60,59

N/V
4,97 4 3,53 4,01

V1 rappresenta linsieme delle parole che appaiono una sola volta - chiamate anche hapax mentre V rappresenta il totale di parole diverse

Dalla tabella si evince che

Il numero degli articoli varia notevolmente nei diversi periodi: dai 15 articoli nel III periodo, a quasi il doppio per il II e IV periodo (25 e 27 articoli), fino al quadruplo (59 articoli) nel I periodo.

Infine per quanto concerne le occorrenze totali risultano 35278 per il I periodo mentre sommate le occorrenze per gli altri tre periodi abbiamo 41714 (poco superiore alle occorrenze presenti nel I periodo)

55

Una prima misura di ricchezza lessicale (Frequenza media generale) N/V (noto anche come type/token ratio) dove risultano valori intorno al 4 (tasso leggermente inferiore 3,53 nel III periodo). Unaltra misura di ricchezza lessicale (Percentuale di hapax) (V1/V)*100 (il tasso risulta superiore nel III periodo [60,45], invece, rispetto alle nostre aspettative, risulta inferiore nel I periodo [56,58]). Il rapporto (V/N)*100 dellintero corpus 14,59%, non supera il 20% quindi pu considerarsi sufficientemente esteso.

56

CAPITOLO V ANALISI DEI SEGMENTI

5.1 Calcolo dellindice IS


Questo passo di analisi particolarmente utile per individuare il nucleo del linguaggio peculiare del corpus (il "core" del vocabolario) e per porre le basi della selezione delle unit di analisi lessico-testuali, di cui si vuole indagare il contenuto. Risulta quindi interessante, a tal proposito, poter valutare quanto le occorrenze di un segmento incidono sulle occorrenze delle forme semplici che lo compongono, consentendo di valutare limpatto della frequenza su alcune delle parole chiave coinvolte nel processo di trasformazione delle unit46. Ordinando lindice assoluto per valori decrescenti possibile di trovare ai primi ranghi i segmenti pi lunghi (indipendentemente dalla loro frequenza) in quanto il valore dellindice influenzato dal numero di parole piene (<commissario straordinario della croce rossa italiana> o <Eugene Amstrong e Kenneth Bigley>). Si pu notare come nei primi posti compaiono nomi come <Simona Pari e Simona Torretta> con ben 99 occorrenze e un indice IS di 4,45; <Carlo Azeglio Ciampi> con 25 occorrenze e un indice IS di 8,59; <Osama Bin Laden> con 16 occorrenze e un indice IS di 7,81 e <Eugene Armstrong e Kenneth Bigley > con 7 occorrenze e un indice IS di 5,86. Infine si possono notare come alcune frasi sono pi importanti di altre come: <liberare immediatamente tutte le prigioniere musulmane> con 4 occorrenze e un indice IS di 4,45; <settembre 2004> con 120 occorrenze e un indice IS di 2,94; <milione di dollari> con 13 occorrenze e un indice IS di 2,98; <servizi segreti> con 24 occorrenze e un indice IS di 3,29.

46

Aggiornamento guida TALTAC (2004, p.23)

57

Tabella 5 - indice assoluto IS decrescente e occorrenze totali decrescenti


_ID 3683 726 6920 3677 20869 20736 3680 13844 11190 1645 2060 11025 3670 31149 6973 20866 1861 20657 20132 588 6812 20133 641 2019 20642 23551 6857 3671 20637 728 3835 10982 35597 468 33299 5974 19592 22087 14246 4575 4840 12943 31886 39841 42325 2 26109 Segmento commissario straordinario della croce rossa italiana Carlo Azeglio Ciampi Osama Bin Laden croce rossa italiana Tawhid wal Jihad Eugene Armstrong e Kenneth Bigley della croce rossa italiana Massimo D' Alema liberare immediatamente tutte le prigioniere musulmane Simona Pari e Simona Torretta di Giuseppe D' AVANZO donne musulmane detenute nelle carceri irachene Maurizio Scelli Al Rooz di Osama Bin Laden Tawhid wal Franco Frattini Kenneth Bigley Jack Hensley Gianni Letta Manhaz Bassam Eugene Armstrong Enzo Baldoni Emirati Arabi caso con molta attenzione prima di star decidere Jack Hensley e Kenneth Bigley servizi segreti commissario straordinario molta attenzione prima_di_star decidere chi Presidente della Repubblica Carlo Azeglio Ciampi Fabio_Alberti detenute nelle carceri irachene milione di dollari settembre_2004_ 28 settembre 2004 Ansar Al Zawahiri presidente Carlo Azeglio Ciampi poter essere utile per aiutare questi corpo di Enzo Baldoni primo dei nostri attacchi contro il primo dei nostri attacchi carceri dell' Iraq senza alcuna condizione quotidiano kuwaitiano Al Aam commissario della croce rossa italiana Dal commissario straordinario della croce rossa Simona Pari ritirare i soldati italiani dall' Iraq Occ. Tot. 10 25 16 36 19 7 25 14 4 99 13 4 58 30 8 22 62 20 18 32 40 17 72 10 2 4 24 12 2 4 13 6 13 120 15 20 5 2 11 5 4 3 7 5 3 201 3 Lunghezza 6 3 3 3 3 5 4 3 6 5 4 6 2 2 4 2 2 2 2 2 2 2 2 2 6 5 2 2 5 4 2 4 3 2 3 3 4 6 4 5 6 6 4 5 6 2 6 Indice IS 10,22 8,59 7,81 7,18 6,21 5,86 5,13 4,67 4,45 4,45 4,41 4,33 4,00 4,00 3,92 3,91 3,91 3,90 3,89 3,82 3,82 3,78 3,77 3,67 3,53 3,30 3,29 3,26 3,11 3,17 3,10 3,06 2,98 2,94 2,92 2,76 2,61 2,56 2,53 2,52 2,51 2,49 2,48 2,42 2,38 2,37 2,24 Indice IS relativo 0,28 0,95 0,87 0,80 0,69 0,23 0,32 0,52 0,12 0,18 0,28 0,12 1,00 1,00 0,24 0,98 0,98 0,98 0,97 0,96 0,95 0,94 0,94 0,92 0,10 0,13 0,82 0,82 0,12 0,20 0,78 0,19 0,33 0,73 0,32 0,31 0,16 0,07 0,16 0,10 0,07 0,07 0,16 0,10 0,07 0,59 0,06

58

ordinando, invece, lindice assoluto per valori crescenti si possono trovare ai primi ranghi i segmenti pi corti e poco interessanti da studiare.

5.2 Calcolo dellindice relativo IS


Lindice relativo (ottenuto rapportando lindice al suo massimo e varia tra 0 ed 1), ordinato per valori decrescenti, privilegia i segmenti corti e mostra spesso come maggiori contributi lassorbimento i nomi propri e la terminologia tecnica. Nella tabella qui sotto si illustra lordine decrescente dellindice relativo: si noti come prevalgono i nomi propri come <Maurizio_NM Scelli > con 58 occorrenze e un indice relativo IS di 1, <Simona_NM Pari > con 201 occorrenze e un indice relativo IS di 0,59, <Simona_NM Torrettai> con 226 occorrenze e un indice relativo IS di 0,55 mentre altri nomi (<Annamaria_NM Torretta > con 10 occorrenze e un indice relativo IS di 0,37) hanno componenti meno rare, <Annamaria> o <Torretta> o entrambi, e quindi lindice ha un valore pi basso. Inoltre , si pu notare come ai primi ranghi dellindice assoluto e relativo IS si trovano la maggior parte dei segmenti utilizzati per la lessicalizzazione47

47

tale Modulo identifica le sequenze di parole definite dallutente in un'apposita lista e le trasforma in forme grafiche semplici mediante la sostituzione dello spazio con il carattere _ (comunemente detto "underscore").

59

Tabella 6 - indice relativo IS decrescente e occorrenze totali decrescente


_ID 3670 31149 1861 20657 20132 588 6812 726 20133 641 2019 6920 6857 3671 3677 3835 468 20869 2 1 570 467 381 13844 4173 8743 2610 6265 33297 1175 16017 14337 2602 1176 25662 6752 1118 10919 7510 32645 9773 29593 1084 338 337 13840 1112 6160 Segmento Maurizio Scelli Al Rooz Franco Frattini Kenneth Bigley Jack Hensley Gianni Letta Manhaz Bassam Carlo Azeglio Ciampi Eugene Armstrong Enzo Baldoni Emirati Arabi Osama Bin Laden servizi segreti commissario straordinario croce rossa italiana Fabio Alberti settembre 2004 Tawhid wal Jihad Simona Pari Simona Torretta societ civile 7 settembre popolo iracheno Massimo D' Alema Laura Torretta 24 ore Due Simone ha sottolineato 28 settembre Manuela Torretta Kuwait City Jihad islamica 8 settembre ha spiegato 23 settembre 11 settembre ha aggiunto carceri irachene 9 settembre entro venerd autorit religiose quotidiano kuwaitiano Luciano Pari volontarie italiane due volontarie D' Alema Annamaria_NM Torretta Iracheni sequestrati Occ. Lunghezza Indice IS Indice IS Informazioni tot. relativo aggiuntive 58 2 4,00 1,00 1 30 2 4,00 1,00 1 62 2 3,91 0,98 1 20 2 3,90 0,98 1 18 2 3,89 0,97 1 32 2 3,82 0,96 1 40 2 3,82 0,95 1 25 3 8,59 0,95 1 17 2 3,78 0,94 1 72 2 3,77 0,94 1 10 2 3,67 0,92 1 16 3 7,81 0,87 1 24 2 3,29 0,82 1 12 2 3,26 0,82 1 36 3 7,18 0,80 1 13 2 3,10 0,78 1 120 2 2,94 0,73 1 19 3 6,21 0,69 1 201 2 2,37 0,59 1 226 2 2,18 0,55 1 7 2 2,15 0,54 35 2 2,12 0,53 1 33 2 2,10 0,52 14 3 4,67 0,52 1 24 2 2,07 0,52 1 24 2 2,07 0,52 108 2 2,06 0,51 11 2 2,03 0,51 17 2 1,95 0,49 1 13 2 1,94 0,49 1 8 2 1,93 0,48 1 14 2 1,89 0,47 1 19 2 1,83 0,46 22 2 1,83 0,46 12 2 1,83 0,46 15 2 1,81 0,45 22 2 1,76 0,44 8 2 1,75 0,44 12 2 1,71 0,43 6 2 1,69 0,42 7 2 1,65 0,41 10 2 1,61 0,40 1 16 2 1,59 0,40 1 56 2 1,55 0,39 72 2 1,53 0,38 15 2 1,50 0,38 10 2 1,49 0,37 1 9 2 1,47 0,37 1

60

CAPITOLO VI - ANALISI DEL VOCABOLARIO

6.1 Il Vocabolario (con Tag Grammaticale) utilizzato nel corpus


La procedura di Tagging grammaticale, confronta il vocabolario della Sessione con il dizionario di TALTAC costituito da circa 67.000 lemmi pari a oltre 400.000 forme flesse. In questo modo possibile categorizzare grammaticalmente le forme grafiche presenti nel vocabolario. Il modulo produce, come output, il vocabolario etichettato e il lemmario. Entrambe le liste sono visualizzabili attraverso il Dbviewer48. Se la forma ambigua nel campo della categoria grammaticale compare il codice J, mentre nel campo del lemma viene riportata la forma grafica49. Se la forma sconosciuta il campo della categoria vuoto. Il vocabolario etichettato contiene per ogni forma riscontrata nel testo la categoria grammaticale di appartenenza, il lemma corrispondente e le occorrenze suddivise anche in base ai periodi corrispondenti. Questo studio utile in quanto, permette di analizzare le varie categorie grammaticali (di cui sono prese in considerazione le primi 50-60 parole pi frequenti nel corpus) in base alle occorrenze. In generale possiamo osservare come il nostro vocabolario risulta suddiviso:

Vocabolario (TALTAC) V=Verbi 1947 2676 N=Sostantivi NM=Nomi Propri A=Aggettivi 3527 84 673 190 2180 O=Stranierismi J=Ambiguit altro

48 49

Aggiornamento guida TALTAC (2004, p.29) Due casi particolari:il campo lemma pu essere con una forma canonica se lambiguit_J proviene da due lemmi omografi (essere_N, essere_V); il campo lemma ripete le forma grafica a parit di categoria (capita: CAT_V pu derivare da due verbi [capire,capitare], quindi CAT non ambigua ma comunque corrisponde a due entrate)

61

6.2 Analisi dei verbi


Lanalisi dei verbi stata approfondita sul corpus di tutti gli articoli delle due Simone. Fra le oltre 11.000 forme flesse presenti in tutto il corpus, notiamo che 1.113 sono lemmi di verbi, (escludendo le voci di verbi con carattere di ausiliare/supporto quali essere, avere, fare, dare, potere, dovere, volere, andare e venire)50 dove spiccano, naturalmente, come voci verbali pi frequenti, <rapire, liberare, pagare, sequestrare>. Il verbo <rapire> ha 98 occorrenze di cui 56 nel 1 periodo, 22 nel 2 periodo 6 nel 3 periodo e (inspiegabilmente) 14 nel 4 periodo; <liberare> con 92 occorrenze di cui 35 nel 1 periodo, 17 nel 2 periodo 22 nel 3 periodo e 18 nel 4 periodo. Si pu notare come il verbo <pagare> con 28 occorrenze ha solo 4 occorrenza nel 1 periodo (perch non si parlava ancora di un eventuale riscatto), 5 nel 2 periodo, 4 nel 3 periodo e 14 nel 4 periodo (dato che, in questo periodo, prende piede lipotesi di un eventuale pagamento per la loro liberazione). Il verbo <collaborare>, con 20 occorrenze totali, si riferisce alla stretta collaborazione tra il governo e lopposizione per giungere alla risoluzione del rapimento. Il Presidente del Consiglio, Silvio Berlusconi, dichiara che "lItalia ha dato un bel segnale di saper trovare l'unit quando si di fronte a qualcosa che riguarda tutti quanti, ringrazio anche tutti i membri dellopposizione che ci hanno dato il loro supporto e il loro consenso, hanno dato prova di una grandissima capacit di riservatezza: a loro un ringraziamento particolare. Questo stato assolutamente indispensabile per il buon fine dell'operazione. Mi augurerei che questa collaborazione fra maggioranza e opposizione possa verificarsi in situazioni meno drammatiche di questa. Credo che tutti noi avremmo da guadagnare e avrebbe da guadagnare tutto il Paese"51. Un altro verbo <verificare> che possiede 21 occorrenze, soprattutto nei primi due periodi, proprio a significare la necessit di controllare tutte le prime informazioni e le richieste fatte dai sequestratori o dai presunti tali che, allinizio, rivendicavano la paternit del sequestro delle due Italiane. Dalla visione della nostra tabella possiamo constatare che, il verbo <ringraziare>, si riferisce, oltre che alla liberazione delle due italiane, anche al messaggio inviato dagli Iracheni, che si conclude con un chiaro e preciso riferimento alla strage, di pochi giorni prima del rapimento

IRRSAE DEL LAZIO (a cura di Massimo Radiciotti) - LAnalisi testuale dei messaggi di Sergio Bolasco (2001) 51 Articolo della Repubblica" 28 settembre 2004 62

50

delle italiane, fatto nella scuola di Beslan e un ringraziamento a quanti in Ossezia hanno ucciso donne e bambini52. Il verbo <tornare>, ha in totale 55 occorrenze di cui 21 nel primo periodo, che riguardano sia la morte di Enzo Baldoni (il governo si impegna a riportare in Italia il corpo di Baldoni), sia il missile caduto vicino alla scuola, proprio davanti alla sede dove lavorano le due Simone, in quella occasione, la madre di Simona Torretta, le ha detto pi volte implorandola di tornare in patria. Nel IV periodo le occorrenze del verbo <tornare> aumentano di nuovo e arrivano a 19 proprio ad indicare il desiderio delle due Simone, seppur ancora segnate da quanto a loro accaduto, di voler tornare in Iraq per continuare ad <aiutare> (38 occorrenze) le persone bisognose e sofferenti. Sempre ai primi posti della nostra tabella troviamo il verbo <incontrare> (33 occorrenze), che si riferisce soprattutto allincontro avvenuto il giorno prima del rapimento fra, le due Simone e Al Kubassi, componente del consiglio degli Ulema. Ci sono due versioni contrastanti a riguardo: Al Kubassi sostiene che le due ragazze si erano recate da lui perch non si sentivano pi al sicuro in quella terra, mentre le due volontarie sostengono che, il motivo della visita, era solo per mettere al corrente lui e tutti gli Ulema dei loro progetti e del loro lavoro in Iraq. Tutto lamore che le due italiane hanno per lIraq le ha portate a <scrivere> articoli, rapporti sulle loro attivit, e-mail ad amici e conoscenti, e a <parlare> di tutto quello che accade tra popolazione irachena. E significativo segnalare infine come alcuni verbi, che sembrano collegati al rapimento, compaiono agli ultimi posti della tabella originaria e, quindi, in questa tabella non sono riportati come, <rivendicare> con 14 <minacciare> con soli 5 occorrenze. occorrenze, <catturare> con 13 occorrenze,

52

Articolo della Repubblica" 8 settembre 2004

63

6.2.1 Alcune flessioni verbali pi ricorrenti


A questo punto si proceduto ad analizzare alcune singole flessioni verbali pi ricorrenti nel corpus. In tal modo possibile trovare molte voci verbali particolarmente significative: ad esempio <rapite, liberate, liberare, aiutare, pagato> che confermano la loro rilevanza nel corpus, si pu osservare come i verbi relativi al rapimento (che sono per la maggior parte femminili), si riferiscono, soprattutto, a Simona Pari e Torretta non considerando che, con loro, sono stati rapiti anche Manhaz Bassam e Raad (un uomo). Si pu notare come, il verbo <parla> (32 occorrenze), si riferisce, oltre che alle varie persone che hanno trattato per ottenere la liberazione delle due Simone, anche ai familiari delle due Italiane che parlano in loro favore. E possibile notare di seguito anche altri verbi, apparentemente non collegati in maniera diretta con largomento che si vuole analizzare come, <capire, racconta, ascoltate>. I membri del governo sono in attesa di <capire> chi siano i rapitori e cosa essi chiedano, mentre i rapitori non capiscono perch il nostro governo si schierato con gli americani, anche se riconoscono che i soldati italiani hanno uno stile diverso dagli statunitensi. Infine il verbo capire viene usato anche da alcuni iracheni che vivono in Italia e sostengono che molte persone non capiscono la loro religione. Nel frattempo i familiari supplicano i sequestratori di <ascoltare> le prigioniere, solo cos potranno rendersi conto che, sono solamente delle volontarie andate in Iraq per aiutare quel popolo. Per far capire questo ai rapitori, un ponte per, ha preparato un filmato di quattro minuti, trasmesso da Al Arabiya e Al Jazeera, proprio per <raccontare> chi sono e cosa fanno Simona Pari e Simona Torretta e per chiedere la loro liberazione, insieme a quella di Raad e a Manhaz Bassam, i due collaboratori iracheni sequestrati con le due giovani italiane a Bagdad. Il verbo <racconta> si riferisce anche alla foto di Enzo Baldoni la quale significativa non solo per il mero omicidio ma soprattutto per il compiacimento che compare sul volto degli assassini. Dalla tabella n. 8 si pu constatare la notevole presenza del verbo chiedere e delle sue flessioni (<chiedono> 16 occorrenze, <chiesto> 35 occorrenze, <chiede> 19 occorrenze) che indicano la richiesta ripetuta della liberazione degli ostaggi e delle detenute musulmane nelle carceri dell' Iraq; del verbo arrivare (<arrivare> 20 occorrenze, <arriva> 19 occorrenza, <arrivata> 13 occorrenze) che si riferisce, tra le altre cose, alla notizia che, recentemente,
64

Simona Torretta ha fatto arrivare a Roma una bambina irachena malata di leucemia perch potesse essere curata al San Camillo (proprio ad indicare che sia lei che lamica Simona Pari non hanno nulla a che <vedere> -17 occorrenze- con quello che succede in Iraq). Per finire sono stati fatti appelli per condannare ed isolare il terrorismo, inviti a liberare le due ragazze italiane che sono nelle mani dei rapitori in Iraq. Carlo Azeglio Ciampi e Silvio Berlusconi hanno incontrato il presidente della repubblica irachena Al Yawar, chiedendogli di fare il massimo per arrivare alla liberazione di Simona Pari e Simona Torretta, ma il capo dello Stato italiano ha fatto di pi: Carlo Azeglio Ciampi ha infatti <firmato> (13 occorrenze) un manifesto "contro il terrorismo e per la vita" insieme ai rappresentanti dei musulmani e delle musulmane d'Italia, ricevuti al Quirinale.

65

Tabella 7 - vocabolario (con T AG grammaticale) ordinato secondo verbi e occorrenze decrescenti


Lemma/Lessia Parlare Rapire Liberare spiegare rispondere Tornare raccontare Vedere Mettere Restare Lasciare contattare prendere Sentire lavorare Aiutare annunciare incontrare portare capire cercare muovere pagare ringraziare scrivere chiamare continuare seguire conoscere attendere concludere sottolineare uccidere mostrare colpire verificare collaborare riuscire sostenere accompagnare aspettare confermare rendere guardare ritirare salvare sperare firmare sequestrare
66

Numero di unit lessicali 17 5 12 10 10 12 8 13 12 8 12 6 14 12 8 11 10 10 12 9 9 13 5 6 9 9 7 4 8 8 7 6 8 8 6 6 8 8 5 8 9 6 9 7 6 5 5 3 5

Occ. Tot. 126 98 92 75 60 55 49 45 44 44 42 41 41 41 40 38 34 33 31 30 30 30 28 28 27 26 26 26 24 23 23 23 23 22 21 21 20 20 20 19 19 18 18 17 17 16 16 15 15

Cat. gram. V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V

PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 51 56 35 38 21 21 17 14 18 24 21 17 13 23 32 27 8 14 18 14 15 23 4 8 7 9 9 13 12 8 12 13 11 5 12 7 11 6 12 10 5 8 4 4 7 9 3 9 9 22 22 17 8 9 6 6 12 5 7 10 12 9 4 4 5 13 4 1 6 8 3 5 1 7 2 10 5 6 8 3 3 4 14 7 9 3 6 7 2 3 4 4 1 6 0 8 4 3 7 6 22 6 2 9 8 3 3 2 2 3 1 0 4 2 6 5 3 2 3 1 4 10 3 11 1 1 0 4 3 3 0 1 0 3 3 1 0 3 7 4 4 4 2 1 3 1 3 46 14 18 23 28 19 18 16 18 11 9 9 18 14 0 4 7 10 9 8 4 3 15 9 10 4 6 7 6 3 5 4 8 2 2 2 3 7 1 4 4 2 6 8 2 6 2 1 0

Tabella 8 - vocabolario (con TAG grammaticale) ordinato secondo verbi e occorrenze decrescenti
forma grafica rapite parla chiesto sembra contatti liberate liberare parlato parlare aggiunto chiedere spiegato racconta diffuso resta capire arrivare spiega tornare arriva chiede mettere aiutare sapere vedere rispondere pagato raccontato rapito risposta chiedono scrive tiene credo incontrato lasciare passato ottenere ricevuto sentire appare annuncia aperto arrivata tenere prendere sostiene verificare Lascia Firmato 67 occ. tot. 70 37 35 32 32 31 30 30 30 26 25 25 22 22 21 21 20 20 20 19 19 18 17 17 17 17 16 16 16 16 16 15 15 15 15 15 14 14 14 14 14 14 14 13 13 13 13 13 13 13 Cat gramm. V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V V PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 37 18 15 18 12 5 17 10 11 6 11 11 5 7 12 11 11 12 10 6 7 11 14 11 6 3 1 6 10 7 6 5 6 3 8 6 3 6 8 8 8 1 8 2 7 3 6 4 7 8 17 8 3 6 11 4 8 4 5 6 3 2 2 10 3 5 5 2 1 5 4 4 1 2 6 3 0 2 3 5 4 3 3 6 3 5 2 3 2 2 2 4 4 2 3 4 6 5 4 3 5 0 3 2 3 14 2 2 3 11 2 3 7 2 0 2 3 2 1 3 1 1 0 1 2 2 4 1 1 0 1 3 2 2 2 0 5 3 2 0 2 5 1 7 1 1 0 2 2 1 11 11 14 6 6 8 3 14 11 3 9 9 8 3 6 3 1 4 8 5 7 2 2 3 3 9 11 7 2 4 5 4 4 4 2 4 4 2 2 4 2 4 1 2 2 5 1 2 0 1

6.2.2 Estrazioni di informazioni


Il confronto con un lessico di frequenza una funzione centrale di TALTAC che consente di estrarre linformazione peculiare del corpus53. Confrontando la frequenza relativa con cui le parole compaiono nel lessico di frequenza e nel testo in analisi, possibile ottenere una misura di significativit (scarto standardizzato), che indica la misura del sovra/sotto uso54. Il calcolo dello scarto statistico consente di individuare le forme con i maggiori scarti duso in valore assoluto, vale a dire le parole chiave del testo, che sono da considerarsi come le pi significative del corpus in esame. Sono statisticamente significative le forme il cui scarto ha un valore maggiore di 3,8455. Nella tabella 9 vengono riportati i verbi con maggiori scarti positivi di uso nei riguardi di REP90_V. Innanzitutto, ai primi posti in graduatoria per ranghi decrescenti dello scarto standardizzato, (al di l degli ovvi <rapire>, <liberare>, <sequestrare>, <ringraziare>, <aiutare>) si osserva la presenza di verbi legati ai familiari dei rapiti che, hanno un numero di occorrenze molto basso, mentre, assumono uno scarto sulle occorrenze abbastanza elevato, come <pregare>, <abbracciare> e <riabbracciare>. Oltre agli scontati riferimenti il verbo <pregare> si riferisce anche ad una dichiarazione fatta da Simona Torretta la quale sostiene che, i sequestratori, erano assai ben organizzati, pregavano molto, passavano davvero tanto tempo a pregare. Nel messaggio inviato da Al Zarqawi testualmente si afferma che "i nostri fratelli mujahiddin hanno avvertito a pi riprese il governo italiano di ritirare le sue forze in Iraq e noi gli abbiamo detto pi volte di smettere di uccidere i musulmani in Iraq e smettere di <cooperare> con le forze americane degli assassini dei musulmani in Iraq"56. Il verbo <credere> (che ha uno scarto sulle occorrenze di 81,84) si riferisce alle due Simone, la sorella di Torretta aveva concluso in unintervista dicendo "Simona era fortemente impegnata in questo progetto umanitario, ci credeva tanto". Il verbo credere inoltre legato ad un episodio curioso riferito a Simona Pari "Quando dall'aereo sopra Roma abbiamo visto il Colosseo illuminato e ci hanno detto: "Quello per voi", non ci potevo credere. Non siamo mica cos importanti". Il Colosseo si illumina ogni volta che una condanna a morte viene annullata, le ha spiegato Veltroni. Da questa tabella si pu osservare il valore elevato che ha lo scarto sulle occorrenze del verbo <autogovernarsi> (a dispetto di sole due occorrenze) riferendosi alla situazione in Iraq: "In Iraq
53 54 55 56

Aggiornamento guida TALTAC (2004, p.30) Naturalmente tanto lo scarto ha un valore elevato tanto pi la forma pu essere considerata peculiare

valore del 2con 1 grado di libert e -value=0,05 Articolo della Repubblica " 8 settembre 2004 68

dobbiamo garantire - precisa Fini - lo svolgimento delle elezioni, per fare in modo che il popolo iracheno sia autogovernato in modo rappresentativo di tutte le identit culturali, etniche e politiche del paese57. Fra questi segnaliamo anche altri verbi pi legati direttamente al rapimento come <firmare>, <rivendicare>, <collaborare> che presentano anchessi uno scarto sulle occorrenze particolarmente ampio.

57

Articolo della Repubblica " 2 ottobre 2004 69

Tabella 9 Intersezioni di Lemmi Verbi e REP90_V


Scarto sulle Occorrenze 1628,91 447,01 331,82 188,96 179,71 174,52 171,41 169,45 157,01 149,63 143,67 132,74 118,62 118,56 118,06 112,99 108,11 107,76 103,00 97,82 96,14 Lemma rapire liberare contattare cooperare chiedere bisognare parlare sequestrare diffondere ringraziare autogovernarsi riabbracciare spiegare aiutare sapere ricontattare aggiungere tenere ribadire collaborare annunciare Occorrenze Dispersione Totali 98 92 41 10 134 45 126 15 28 28 2 5 75 38 104 1 50 55 21 20 34 0,77 0,69 0,81 0,00 0,84 0,63 0,83 0,63 0,69 0,47 0,00 0,30 0,84 0,64 0,93 0,00 0,60 0,93 0,62 0,79 0,71 Uso 75,73 63,64 33,41 0,00 112,16 28,22 104,96 9,38 19,32 13,04 0,00 1,52 63,08 24,37 96,95 0,00 30,15 51,23 13,01 15,75 24,25 Scarto sulle Occorrenze 87,69 87,38 86,59 86,20 86,02 85,46 81,84 81,49 79,07 77,87 77,86 77,84 77,23 76,36 75,92 75,71 74,83 74,39 71,79 71,25 70,76 Lemma muovere restare abbracciare tornare rivendicare uccidere credere ritirare verificare incontrare trasmutare riferire lavorare apparire trattare stringere firmare attendere pregare brancolare pagare Occorrenze Dispersione totali 30 44 11 55 14 23 38 17 21 33 1 23 40 37 25 15 15 23 11 2 28 0,53 0,80 0,39 0,79 0,24 0,66 0,59 0,73 0,65 0,83 0,00 0,46 0,53 0,79 0,75 0,55 0,69 0,72 0,66 0,00 0,71 Uso 15,99 35,33 4,34 43,64 3,38 15,10 22,60 12,42 13,72 27,50 0,00 10,50 21,20 29,31 18,63 8,30 10,32 16,62 7,21 0,00 19,79

70

6.3 Analisi dei nomi propri


In questa tabella relativa ai nomi propri si nota che, ai primi posti, naturalmente, compaiono i nomi di coloro che sono stati rapiti <SimonaTorretta> (capo missione dellassociazione un ponte per), <Simona Pari> (coordinatrice di una 'summer school' in Iraq voluta per migliorare le condizioni di vita dei minori iracheni e favorire l'integrazione dei bambini disabili all'interno delle proprie comunit58) che occorrono pi di 200 volte, < Raad > (ingegnere civile Iracheno anchesso lavora per 'un ponte per..') e <Manhaz Bassam> (operatrice di 'Intersos', un'altra Ong, italiana in Iraq,che ha sede nella stessa palazzina che ospita gli uffici di 'un ponte per..') che occorrono tra le 40 e 50 volte. Le donne riferiscono che, durante la prigionia, non hanno mai visto in volto i sequestratori e che, a parte i primi momenti, dove sono state maltrattate verbalmente e soprattutto minacciate di essere uccise, sono state trattate molto bene (in conformit con i precetti della Sharia -la legge islamica-), mentre a Raad i sequestratori hanno riservato, essendo un uomo, trattamento molto diverso da quello delle donne. Con il loro impegno hanno: curato 70.000 bambini, ristrutturato 25 scuole, portato acqua potabile a 250.000 persone, medicinali, ossigeno e acqua agli ospedali, dato un contributo alla salvaguardia del patrimonio storico della Mesopotamia". Possiamo, inoltre, osservare che hanno un elevato numero di occorrenze i nomi di coloro che hanno avuto un ruolo pi o meno importante in questa vicenda come: <Gianni Letta> (Sottosegretario di Stato alla Presidenza del Consiglio a cui Silvio Berlusconi ha affidato la delega sui servizi segreti, definito dallo stesso Premier il regista di tutta loperazione), <Franco Frattini> (Ministro degli Esteri, attuale Commissario Europeo). Franco Frattini ha incontrato il Ministro del Kuwait, degli Emirati Arabi e del Qatar, dai quali ha ricevuto "notizie importanti" sulla sorte delle due Italiane. Possiamo osservare che <Franco Frattini> ha ben 42 occorrenze nel 1 periodo 7 nel 2 periodo 2 nel 3 e 1 nel 4 mentre <Fini> (diventato Ministro degli Esteri, a tutti gli effetti, dal 18 Novembre 2004) ha 12 occorrenze nel 4 periodo mentre le occorrenze sono quasi nulle per gli altri periodi. <Maurizio Scelli> (Commissario straordinario della Croce Rossa Italiana) stato definito luomo della consegna visto che, i sequestratori, al momento del rilascio, hanno consegnato le donne direttamente nelle sue mani. un

58

Articolo della Repubblica" 7 settembre 2004

71

<Al Kubassi> (14 occorrenze) il componente del Consiglio degli Ulema che ha incontrato le "due Simone" luned 6 settembre, il giorno prima del rapimento. Se le informazioni raccolte da Al Aam sono attendibili, bisogna prendere in considerazione l'ipotesi che, <Al Rooz>, il direttore dell'autorevole quotidiano del Kuwait, sia il "mediatore", infatti, pubblicamente Al Rooz rilancia i messaggi dei rapitori, rassicura sulle condizioni degli ostaggi e infine propone le richieste necessarie per rimetterle in libert59. Un suo corrispondente a Bagdad, tale Fahm (che risulta avere le maggiori occorrenze nel II periodo), da circa due giorni, riceve dalla sua "fonte irachena", notizie sulle ragazze che lui riferisce ad Al Rooz, il quale decide se pubblicare o meno. La"fonte irachena", senza un nome e senza un volto, che si dice in contatto con il gruppo dei sequestratori e che, da quattro giorni alimenta le sue corrispondenze su un rapimento anomalo arrivato al suo ventiseiesimo giorno, ha aperto un canale che continua ad allargare, di cui il quotidiano "Al Aam" si fatto autorevole garante, proponendo, con il passare dei giorni, un quadro sempre pi nitido60. Inoltre, si pu osservare come il gruppo, che rivendica il rapimento delle 2 Simone legato al nome di <Al Zawahiri> (il chirurgo egiziano considerato il numero due di Al Qaeda61 e il braccio destro di Osama Bin Laden), occorre solo 8 volte rispetto al gruppo legato al nome di <Al Zarqawi> (estremista palestinese con passaporto giordano, luogotenente di Bin Laden in Iraq ed autore della maggior parte delle decapitazioni avvenute in Iraq) che occorre ben 48 volte e non direttamente collegato con il loro rapimento. Quindi, questo rapimento, in parte collegato al nome di <Osama Bin Laden> (15 occorrenze di cui solo 12 sono presenti nel I periodo), definito il signore del terrore62. Sono tutte tracce di una rafforzata pericolosit aggravata, se si d retta agli analisti israeliani, dalla consapevolezza che, Osama Bin Laden, pur al vertice dell'organizzazione, ormai "solo un punto di riferimento e, la sua eventuale cattura, non avrebbe pi una grande influenza" sui destini della partita perch, nel frattempo, si fatta avanti una nuova generazione di integralisti. Al Qaeda stata distrutta in Afghanistan e una buona parte della leadership stata eliminata o dispersa. Paradossalmente, la distruzione dell'organizzazione nel Paese dei Taliban complica e non risolve il problema perch quella distruzione crea nuove difficolt nella individuazione
59 60

Articolo della Repubblica" di Giuseppe DAvanzo 27 settembre 2004 Articolo della Repubblica" di Carlo bovini - 27 settembre 2004 61 Al Qaida un movimento paramilitare fautore del fondamentalismo islamico guidato dallo sceicco Osama bin Laden sotto la guida religiosa del mullah Omar. 62 Articolo della Repubblica" di Giuseppe DAvanzo 9 settembre 2004 72

della faccia non nota e clandestina dell'organizzazione che pu aumentare di effettivi con i nuovi adepti e con i veterani scappati dall'Afghanistan. "Se la pressione internazionale dovesse diminuire e il controllo sulle comunit della diaspora dovesse calare di tono - ha scritto il generale Fabio Mini ("La guerra dopo la guerra", Einaudi) si pu essere certi della ripresa dell'organizzazione". una conclusione accettata oggi anche dall'intelligence americana. Le agenzie Usa raccolgono informazioni che mostrano come "Al Qaeda non stata azzerata da uccisioni e arresti" come va ripetendo Bush. Al contrario, i dati in possesso dell'intelligence, secondo il New York Times, mostrano che "la rete terroristica ha un'inaspettata flessibilit e capacit di autorigenerarsi"63. Infine si pu osservare come il nome di <Enzo Baldoni> (persino pi del premier Silvio Berlusconi che viene definito dai rapitori vile), occorre ben 62 volte e si trovi ai primi posti a dispetto delle nostre aspettative come se, essendo unuccisione relativamente recente, ha pi importanza dellaltro ostaggio italiano ucciso in Iraq, Fabrizio Quattrocchi che viene nominato solo 11 volte. Potremmo presupporre che, queste notevoli differenze di occorrenze, sono giustificate forse dalla diversa collocazione politica dei due ostaggi uccisi e le motivazioni della loro presenza in Iraq. Infatti, la condizione di cooperante e volontario di Baldoni, lo qualifica come pi vicino alle posizioni di Repubblica rispetto a Quattrocchi, dichiaratamente di destra e con sospetto ruolo paramilitare a Bagdad. Altri due personaggi che hanno avuto un ruolo fondamentale nella liberazioni delle due Simone sono <Tareq Alani> e <Laila>, entrambi, hanno tutte le occorrenze nel IV periodo. Il primo responsabile degli affari politici e, di fatto, una sorta di ministro degli Interni. Lo stesso viene contattato dai sequestratori delle due Simone che dettano le condizioni per il loro rilascio. Per fare in modo che durante le trattative non sorgano incomprensioni, la Farnesina coinvolge Laila, un esponente dei servizi segreti italiani, per fare da interlocutore tra Tareq Alani e il governo italiano. L'obiettivo di questo rapimento naturalmente il governo italiano, "anello debole" della coalizione anglo-americana (e quindi di <Bush>), il pi fragile dei popoli europei. Quasi contemporaneamente al sequestro delle due Simone c stato il rapimento, conclusosi purtroppo con la loro uccisione avvenuta il 19 settembre, di tre ingegneri della Gulf Service Company, Jack Hensley, Kenneth Bigley e Eugene Armstrong (che di media hanno 18

63

Articolo della Repubblica" di Giuseppe DAvanzo 12 settembre 2004

73

occorrenze)64per mano del gruppo legato ad Al Zarqawi. Si temeva che il gruppo Tawhid wal Jihad annunciassero che, anche Simona Pari e Simona Torretta, erano nelle mani di Al Zarqawi (sarebbe stato lo scenario peggiore). Per fortuna il 21 settembre il gruppo 'Tawhid wal Jihad' smentisce il viceministro iracheno, e si affretta a negare ogni sua responsabilit. Una delle richieste che fanno i sequestratori riguarda il ritiro delle truppe italiane dallIraq. Si prodigato a favore di questa causa Massimo D'Alema (14 occorrenze) che, dall'aula di Strasburgo, ha lanciato un appello al governo iracheno e alle forze della coalizione, affinch, venisse sospesa la strategia delle bombe che "impediscono l'instaurazione di un clima favorevole al negoziato per la liberazione dei prigionieri". Infine dalla tabella n.10 si pu osservare che, i familiari di Simona Torretta, (Manuela, Laura e la madre Annamaria) sono pi presenti, almeno negli articoli della Repubblica, dei familiari di Simona Pari. Difatti, possiamo notare che, nella tabella dei nomi, i familiari di Simona Pari assumono dei valori di occorrenze sensibilmente minori, come se, la stessa terribile esperienza vissuta dalle due famiglie, coinvolga in maniera diversa gli animi dei loro cari.

64

Gli americani non trattano per salvare la vita dei loro ostaggi.

74

Tabella 10 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiForma grafica Simona Torretta Simona Pari Enzo Baldoni Silvio Berlusconi Franco Frattini Raad Al Zarqawi Manhaz Bassam Bush Maurizio Scelli Al Rooz Gianni Letta Carlo Azeglio Ciampi Laura Torretta Kenneth Bigley Jack Hensley Eugene Armstrong Luciano Pari Osama Bin Laden Fini al Kubassi Massimo D' Alema Manuela Torretta Fabio Alberti Fassino Quattrocchi Annamaria Torretta Nicol Pollari Al Zawahiri Bertinotti Stefio Tareq Alani Laila Al Yawar Achille Serra Cupertino Allawi Allah Kerry Powell Marco Pari Romano Prodi Valerio Occ. Tot. 226 201 62 57 52 50 48 40 35 34 30 27 25 24 20 18 17 16 16 15 14 14 13 13 12 11 10 9 8 8 8 8 7 7 7 6 6 6 6 6 5 4 4 Lunghezza 15 11 12 17 15 4 10 13 4 18 11 15 26 17 17 15 19 15 15 4 10 19 19 16 7 11 21 14 11 10 6 11 5 8 12 9 6 5 5 6 10 12 7 Cat. PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 gram. NM 90 42 36 58 NM 87 42 31 41 NM 43 5 2 12 NM 27 8 11 11 NM 42 7 2 1 NM 16 14 15 5 NM 15 27 2 4 NM 12 15 9 4 NM 24 9 0 2 NM 10 5 14 5 NM 0 12 13 5 NM 11 1 8 7 NM 13 0 5 7 NM 6 1 13 4 NM 7 10 0 3 NM 8 10 0 0 NM 8 9 0 0 NM 13 0 3 0 NM 12 2 2 0 NM 2 0 1 12 NM 11 3 0 0 NM 9 0 0 5 NM 10 1 1 1 NM 5 0 2 6 NM 10 0 0 2 NM 7 0 0 4 NM 4 1 1 4 NM 0 8 1 0 NM 4 1 3 0 NM 7 0 0 1 NM 6 0 0 2 NM 0 0 0 8 NM 0 0 0 7 NM 7 0 0 0 NM 1 0 3 3 NM 4 0 0 2 NM 3 3 0 0 NM 4 2 0 0 NM 3 3 0 0 NM 0 6 0 0 NM 5 0 0 0 NM 4 0 0 0 NM 0 0 0 4

75

6.4 Analisi dei sostantivi


In questa sezione viene sviluppata unanalisi approfondita sui sostantivi (2.178 forme flesse su un totale di oltre 11.000 forme flesse presenti su tutto il vocabolario). Possiamo osservare come alcuni sostantivi, visto la natura del corpus, sono pi frequenti di altri come <sequestro>, <liberazione>, <ostaggio>, <rapimento>, <terrorismo>, <trattativa>, <sequestratore>, <prigioniero>. Il giorno dopo il loro sequestro viene convocata una riunione a <Palazzo Chigi>, presieduta da Silvio Berlusconi, che coinvolge sia rappresentanti dell'opposizione che del governo. L'opposizione, ferma restando la sua contrariet all'intervento militare in Iraq, ribadisce la volont di salvare i due ostaggi italiani e, in questo quadro, la piena disponibilit a collaborare con il governo. Le <famiglie> delle due ragazze hanno avuto un ruolo importante in questa vicenda anche se sono rimaste sempre in disparte infatti non hanno n partecipato alla manifestazione dell11 settembre n sono mai state in procinto di partire per Bagdad (come molti fonti hanno sostenuto). Inoltre il termine <famiglia> si riferisce anche a quella di Enzo Baldoni che chiede al governo di fare quanto possibile per ricondurre in patria la salma del proprio caro. Dalla tabella sottostante, la n. 11, si pu osservare come il sostantivo <gruppo> si riferisce al sedicente gruppo "Ansar Al Zawahiri", che le ha rapite il quale afferma su un forum di un sito isalmico: "Non libereremo le italiane in Iraq neanche se l'Italia si mette in ginocchio" Ansar Al Zawahiri una sigla sconosciuta, un gruppo che non esiste. E' probabile che fossero criminali comuni senza alcun rapporto con Al Qaeda che per assicurarsi maggiore risonanza hanno legato il proprio nome a quello di Ayaman al Zawahiri. I due <comunicati> (60 occorrenze), che risalgono al giorno 23, annunciano la morte delle due Simone e vengono diffusi su Internet nel giro di poche ore. Il primo, che annuncia l'esecuzione, di un gruppo che si definisce "Organizzazione della Jihad islamica". Poi, sempre su Internet, l'annuncio di un video che mostra le immagini dell'esecuzione, video per che non verr mai mostrato. Questa volta a firmare il <messaggio> (80 occorrenze) il gruppo Ansar Al Zawahiri, lo stesso che rivendic in prima battuta il rapimento. Anche il giorno prima della liberazione la fuga di <notizie> di un eventuale riscatto rischia di affondare la <trattativa> (44 occorrenze). Su internet arriva un ennesimo <messaggio> di <morte>, firmato 'Ansar Al Zawahiri', i Partigiani di Al Zawahiri, il vice di Osama Bin Laden.

76

Si legge: "Vogliamo dire che le due italiane in ostaggio non torneranno vive in Italia, torneranno solo come cadaveri". Le parole <guerra> e <pace> (che sembrerebbero avere una certa rilevanza nel corpus) occorrono rispettivamente 108 e 60 volte ma, ugualmente come altre parole, hanno solo 5 occorrenze nel 3 periodo. Insomma le due Simone sono contro la guerra di Bush a favore della pace e del <ritiro> delle truppe straniere dall'Iraq. "Sono donne di pace, liberatele", questa lappello rivolto ai rapitori. Il termine <morte> evidenzia la posizione dellItalia sulla guerra in Iraq "Abbiamo sempre detto con chiarezza, che anche le azioni militari devono evitare la morte di civili innocenti". Manuela Torretta, sorella maggiore di Simona Torretta, appena saputo che Simona stata rapita da un commando di iracheni, non si lascia travolgere dalla paura e afferma: "Lei ama quel popolo pi di ogni altra cosa al mondo. Non una missione la sua, ma una necessit di <vita> che le nasce dal pi profondo del cuore".

77

Tabella 11 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiLemma/Lessia Due Ragazzo Gruppo Italia Sequestro liberazione Governo Notizia Guerra Ponte Ostaggio rapimento fonte famiglia rapitore messaggio terrorismo sequestratore uomo richiesta informazione paese settembre presidente comunicato pace mondo persona video ultimatum bambino giornalista Palazzo Chigi musulmano vita popolo lavoro paura situazione appello opposizione morte politica prigioniero ritiro trattativa Numero di unit lessicali 1 4 2 1 2 1 1 2 2 1 2 2 2 2 1 2 1 1 2 2 2 2 1 2 2 1 1 2 1 1 1 2 1 1 1 1 1 2 2 1 2 1 1 2 1 2 Occ. Tot. 545 169 149 146 135 131 124 110 108 106 96 92 90 82 81 80 80 78 76 73 71 65 64 63 60 60 57 55 54 53 52 52 51 50 48 47 46 46 46 45 45 44 44 44 44 44 Cat. PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 Gram. N 230 125 65 125 N 63 29 28 49 N 62 46 20 21 N 80 19 24 23 N 84 31 5 15 N 51 16 33 31 N 63 20 5 36 N 30 30 38 12 N 66 14 5 23 N 54 25 14 13 N 43 25 15 13 N 50 17 9 16 N 22 44 14 10 N 42 6 24 10 N 24 12 17 28 N 36 31 5 8 N 59 8 0 13 N 21 18 8 31 N 33 18 4 21 N 29 25 6 13 N 36 26 5 4 N 39 12 1 13 N 21 14 14 15 N 39 4 7 13 N 14 34 10 2 N 33 9 5 13 N 42 4 3 8 N 21 9 5 20 N 27 22 0 5 N 34 14 4 1 N 31 9 1 11 N 25 7 9 11 N 30 12 4 5 N 24 16 4 6 N 19 3 3 23 N 22 8 1 16 N 26 10 1 9 N 17 1 3 25 N 27 8 1 10 N 36 4 5 0 N 25 0 7 13 N 22 14 2 6 N 24 6 3 11 N 14 17 10 3 N 14 14 2 14 N 9 4 12 19

78

6.5 Analisi degli esotismi


Risulta interessante per questo studio lanalisi delle parole straniere infatti, il rilievo internazionale degli eventi connessi alla guerra ed il successivo periodo di normalizzazione, potrebbe portare ad una omologazione del linguaggio giornalistico ed alladozione di terminologia comuni invece, in questo caso, si pu osservare che, fra le oltre 11.000 forme flesse, solo 84 sono parole straniere. Un dato interessante, che emerge dalla visione della tabella, come <Ansar Al Zawahiri> occorre ben 20 volte, mentre, <Ansar Al Zarqawi> occorre invece solamente 6 volte, invece, dallo studio precedente sui nomi propri, emerso lesatto contrario, ovvero, il nome <Al Zarqawi> ha 48 occorrenze a dispetto delle 8 occorrenze di <Al Zawahiri>, si denota pertanto uninversione di tendenza. Nel prosieguo dello studio, si nota anche limportanza di vari canali di comunicazione del Kuwait, rispettivamente la due reti televisive <Al Jazeera> (7 occorrenze) ed <Al Arabiya> (29 occorrenze), ed il quotidiano <Al Aam> (17 occorrenze), che hanno continuamente aggiornato il mondo su quelle che erano le trattative che interessavano il sequestro e poi la liberazione delle due Simone. Invece, per la rivendicazione del sequestro delle due Italiane, i rapitori utilizzano il sito internet <Islamic-Minbar.com>; il dieci settembre sempre nel sito islamic-minbar. com appare un ultimatum di 24 ore con la richiesta di liberare le "prigioniere musulmane", in cambio cos l'Italia avrebbe ottenuto "pochissime informazioni" sulle due Simone. Nel messaggio si afferma comunque che, "i nostri fratelli <mujahiddin>, hanno avvertito a pi riprese il governo italiano di ritirare le sue forze in Iraq e noi gli abbiamo detto pi volte di smettere di uccidere i musulmani in Iraq e smettere di cooperare con le forze americane degli assassini di musulmani in Iraq"65. Dalla visione della nostra tabella possiamo constatare che, ai primi posti, si trovano i nomi di citt che hanno costituito liter del loro rapimento: le italiane, dapprima, sono state rapite a <Bagdad> (209 occorrenze), poi povrebbero essere state trasferite (il condizionale dobbligo in quanto i loro spostamenti sono ancora tutti da verificare) a Bagdad occidentale (Latifija) ed infine si pensa che siano state trasferire a <Falluja> (29 occorrenze) definita la roccaforte della galassia terroristica. Per Simona Torretta descrive un luogo che "una casa che sembrava isolata, senza rumori particolari". Ed sicura nel ricordare: "Non abbiamo mai sentito bombardamenti". Quindi hanno dedotto che la prigione delle due volontarie non poteva essere n a Falluja n a Ramadi.

65

Articolo della Repubblic"a 8 settembre 2004

79

Sicuramente vicino a Bagdad ma non un luogo dove in questi venti giorni ci sono stati bombardamenti66. Nella ricorrenza dell'11 settembre, le piazze italiane vengono "occupate" dagli aderenti all'Unione delle comunit e organizzazioni islamiche in Italia Ucoii (10 occorrenze, quasi tutte sono presenti nel I periodo), con fiaccole e presidi, per manifestare "la comune avversione al terrorismo e volont di pace". Possiamo inoltre osservare, a dimostrazione di quanto detto nel par. 6.3, limportanza che ha <Tawhid wal Jihad> il gruppo di Al Zarqawi (il quale smentisce il sequestro delle due Simone). Secondo le prime ricostruzioni un commando, il 7 settembre scorso, arrivato davanti all'ingresso della palazzina che ospita gli uffici di 'un ponte per...' e di Intersos, un'altra Ong italiana in Iraq, hanno rapito Simona Pari, Simona Torretta e Raad che lavorano per 'un ponte per...', e Manhaz Bassam, una donna operatrice di <Intersos> (14 occorrenze). In sostanza, dallo studio della tabella si constatato che, rispetto alla presenza di termini stranieri, questi hanno coinciso per lo pi con nomi propri di protagonisti, di testate giornalistiche, di sigle terroristiche o politiche la sola parola a significato pieno che, presenta una frequenza relativamente elevata, <intelligence> (35 occorrenze), entrata peraltro nel linguaggio comune anche prima e dunque indipendentemente dagli eventi esaminati.

66

Articolo della Repubblica di Claudia Ffusani 8 settembre 2004

80

Tabella 12 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiForma Grafica Iraq Bagdad intelligence Falluja Al Qaeda Kuwait Al Jazeera Tawhid wal Jihad Ansar Al Zawahiri Al Aam Intersos Qatar Jihad islamica Ucoii Dulemi Al Arabica Ansar Al Zarqawi Beslan company Sunday Times username Indymedia Islamic-Minbar global bipartisan Occ. Tot. 281 209 35 29 27 26 29 23 20 17 14 14 12 10 7 7 6 6 6 5 4 4 4 4 3 4 6 12 7 8 6 10 16 17 6 8 5 14 5 6 7 16 6 7 5 8 9 14 6 10 Lunghezza Cat. Gramm. O O O O O O O O O O O O O O O O O O O O O O O O O 151 95 15 14 25 9 14 6 10 0 5 12 8 7 0 6 4 6 3 1 3 1 2 3 2 59 42 12 8 1 6 2 12 6 7 5 0 4 0 0 1 2 0 3 0 1 0 1 0 0 21 22 4 1 0 5 5 1 3 10 4 1 0 3 0 0 0 0 0 0 0 0 1 0 0 50 50 4 6 1 6 8 0 1 0 0 1 0 0 7 0 0 0 0 4 0 3 0 1 1 PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4

81

6.6 Analisi degli aggettivi

Dalla lettura della tabella degli aggettivi si riscontra, come prevedibile, una notevole occorrenza dei vocaboli quali <italiano>, <iracheno>, <islamico>, <sunnita>, <francese>, <inglese> legati soprattutto alle persone che giocano un ruolo pi o meno importante in questa vicenda. Nel periodo delle massime trattative troviamo un uso frequente di alcuni aggettivi che si contrappongono nel significato quali; <autorevole> (10 occorrenze), <credibile> (13 occorrenze) come la testata giornalistica del Kuwait, Al Aam, che per tutta la durata del sequestro ha continuato a fornire indicazioni mirate e veritiere; di contro <inattendibili> (9 occorrenze), come i messaggi trasmessi tramite internet dove si proclama lesecuzione delle due italiane e sempre prontamente smentite dallintelligence. Laggettivo <militare> (27 occorrenze) trova ampia ripercussione in tutti i periodi. Inizialmente si ipotizza che i sequestratori abbiano condotto il rapimento con metodo ed addestramento militare, questo anche in considerazione delle armi da loro utilizzate e di tutte le modalit del sequestro. Successivamente se ne parla in relazione alle truppe militari che dovevano lasciare lIraq ed infine quando Silvio Berlusconi, dichiara che c' stata la possibilit di effettuare un blitz militare ma, l'operazione stata giudicata troppo rischiosa. ''Avendo individuato la sede con una <ragionevole> (6 occorrenze) approssimazione, in cui sono tenute prigioniere le due ragazze ostaggio, si sono profilate due strade per la loro liberazione che potevano essere confliggenti - ha spiegato il premier - c'era poi una terza strada, quella di un blitz militare, che per abbiamo accantonato perch stata considerata troppo rischiosa67. Un altro aggettivo su cui vogliamo soffermarci brevemente <detenuto> (21 occorrenze) di cui la maggior parte nei primi due periodi, rispettivamente 8 e 10 occorrenze. Questo dato sintomatico del fervente utilizzo del termine allorquando i sequestratori rivendicano la liberazione di tutte le donne <musulmane> (28 occorrenze) <detenute> in Iraq. Immediata la risposta del nostro governo che fa sapere che si prodigher per limmediata liberazione di tutte le donne musulmane
ingiustamente detenute nella carceri irachene.

Gli aggettivi quindi si evidenziano come uno strumento linguistico qualificante linformazione. Infatti, gli aggettivi che presentano le frequenze pi elevate, sono quelli che definiscono la provenienza, non solo geografica, ma anche e soprattutto politica degli attori principali, degli eventi sotto osservazione.

67

Articolo della Repubblica" 28 settembre 2004 82

Tabella 13 -vocabolario (con TAG grammaticale) ordinato secondo nomi propri e occorrenze decrescentiLemma/Lessia italiano iracheno volontario arabo americano islamico politico sunnita musulmano militare umanitario religioso attendibile detenuto terroristico ucciso sequestrato inglese credibile immediato internazionale autorevole diritto orribile sedicente terribile delicato felice inattendibile successivo mediatico numeroso ragionevole rischioso cauto cupo decisivo dignitoso economico indiretto Numero di unit lessicali 4 4 1 4 3 3 2 2 1 1 2 2 2 1 3 1 1 1 2 2 1 2 1 2 2 2 2 3 2 3 2 3 2 2 2 3 1 2 2 3 Occ. Tot. 346 266 111 74 73 61 44 37 28 27 27 24 21 21 19 18 17 15 13 13 12 10 10 10 10 10 9 9 9 9 8 6 6 6 5 5 5 5 5 5 Cat. gram. A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A PERIOD_1 PERIOD_2 PERIOD_3 PERIOD_4 149 125 42 36 43 42 26 10 16 12 13 12 9 8 14 7 9 8 5 8 5 4 3 5 8 6 0 1 4 3 3 3 4 2 3 3 3 4 2 1 78 52 24 12 20 11 4 15 8 7 5 3 9 10 2 5 4 5 8 0 0 4 2 4 2 2 3 0 5 1 5 1 0 1 0 2 0 0 2 3 60 30 16 9 0 5 2 4 2 4 1 4 2 0 0 2 2 0 0 0 1 1 0 0 0 0 4 4 0 0 0 1 0 3 1 0 1 0 0 1 59 59 29 17 10 3 12 8 2 4 8 5 1 3 3 4 2 2 0 5 6 1 5 1 0 2 2 4 0 5 0 1 2 0 1 0 1 1 1 0

83

CAPITOLO VII - ANALISI DELLE SPECIFICITA 7.1 Estrazione delle parole caratteristiche
In relazione al fatto che, i sub-corpus relativi ai quattro periodi non si presentano in forma omogenea, sembrato opportuno procedere ad unulteriore analisi per evidenziare eventuali specificit connesse ai vari periodi di informazione ed ai relativi sub-corpus. Si definiscono peculiari, per lintero corpus, le unit che risultano avere un forte sovra/sottouso rispetto ad un modello di riferimento: queste vengono spesso dette anche parole chiave68. In concreto, la peculiarit misurata in termini di specificit intrinseca sia positiva che negativa. Di fatto ogni specificit positiva (sovra-utilizzo) di una parola o di una espressione equivale ad un uso superiore a quello atteso, valutato questultimo nellimpiego medio nel quotidiano preso come riferimento. Ogni specificit negativa di un termine equivale ad un sotto-utilizzo (o rarit del termine, fino ad arrivare anche alla sua totale assenza) rispetto al suddetto valore atteso. La tabella, sotto riportata, presenta le seguenti informazioni69

Le occorrenze totali. Un Campo Parole caratteristiche che indica se la parola originale (spec_orig), ossia utilizzata solo in un sub-testo, specifica (spec) se utilizzata in pi sub-corpus, oppure banale (banale).

Per ogni sub-testo sono inoltre presenti due campi. Il p-value che riporta la probabilit associata alle singole parole e il campo Specif che indica se si tratta di una specificit positiva o negativa.

68 69

Aggiornamento guida TALTAC (2004, p.42) Aggiornamento guida TALTAC (2004, p.42-43)

84

7.2 Analisi delle specificit (I periodo)


In questa tabella, relativa alle parole positive del I periodo che v dal 7 al 19 settembre, si nota che, come prevedibile, ai primi posti della stessa vi una notevole presenza di sostantivi quali <terrorismo> con un p-value di 2,5E-07, <sequestri> con un p-value di 8E-04 e <sequestro> con un p-value di 3,7E-03. Si evidenzia per che questultima parola, ha una probabilit negativa nel III e IV periodo, ci indica che, questo termine, stato sotto-utilizzato dalla liberazione in poi delle due Simone. Da unattenta analisi della tabella emergono altri termini che, nel prosieguo dei periodi, divengono sotto-utilizzati come <Enzo Baldoni>, che passa da un valore positivo nel primo periodo pari a 1,21E-04 ad un valore negativo nel secondo periodo pari 1,36E-02 mentre <Franco Frattini>, che ricordiamo nel periodo del rapimento ministro degli Esteri, passa da un valore positivo pari ad 1,85E-07 del primo periodo ad un valore negativo di 6,43E-06 nel quarto periodo. Al contrario <Fini>, che lo sostituisce sulla poltrona, ci registra lavvicendamento avvenuto sulla carta il 18 Novembre 2004,0, passa un valore negativo (1,01E-02) nel I periodo ad un valore positivo nel IV periodo di 1,20E-05, <Enzo Baldoni>, tragicamente ucciso da un gruppo islamico iracheno nella notte tra il 26-27 agosto, ha in questa fase un elevato p-value (1,21E-04). In questo momento particolarmente drammatico, per quanto i familiari delle due Simone, anche se tentano di non darlo a vedere, temono che la stessa sorte possa accadere alle loro care. A rendere ancora pi opprimenti questi momenti vi la pubblicazione su internet delle immagini relative alla decapitazione di Baldoni. Nasce subito una polemica da parte dei familiari di Enzo Baldoni, precisamente Sandro lancia accuse pesanti e si rivolge direttamente alle massime autorit chiedendo del perch nel caso di Enzo, il governo italiano abbia sonnecchiato cos a lungo dimostrandosi freddo e distaccato da una tragedia che anche in quel caso non aveva coinvolto solo una persona ma unintera nazione. A seguito di queste dichiarazioni e del tragico momento, la famiglia di Enzo Baldoni, comunicava il desiderio che non vengano pubblicate, su nessun quotidiano nazionale, le immagini della decapitazione del proprio familiare, richiesta che viene esaudita da parte delle maggiori testate giornalistiche. Inoltre si pu osservare come il nome <Al_Yawar> del presidente della Repubblica Irachena, che nel Vocabolario (con TAG grammaticale) non risulta avere molto importanza, qui ha persino un p-value di 3,99E-03.

85

Possiamo analizzare altri due termini che emergono dalla tabella come <medico> e <pericolo>: per <medico> (8,79E-09) si intende sia il medico legale (Francesco Viglino) che studia la foto della salma si Enzo Baldoni, per cercare di scoprire la data della decapitazione, sia il gruppo Ansar Al Zawahiri (essendo Al Zawahiri un ex medico egiziano) che ha rivendicato il rapimento delle "due Simone". Mentre il termine <pericolo> (8,79E-03) indica il fatto che le "due Simone" non si sentivano in pericolo (hanno affermato ci durante un colloquio con Al Kubassi) Ricordiamo infatti che, le volontarie italiane, fanno parte dellorganizzazione umanitaria "un ponte per", operativa nella capitale irachena dal 91, dalla fine della prima <guerra> (1,30E-03) del golfo, con lo scopo "di promuovere iniziative di solidariet in favore della popolazione irachena, colpita dalla guerra e in opposizione all<embargo> (1,81E03) a cui il paese stato a lungo tempo sottoposto nel regime di Saddam Hussein. Con il termine <guerra> si intende anche il conflitto iniziato da <Bush> (4,89E-03) contro il popolo iracheno il 20 marzo 2003 dichiarando "In questo momento le forze americane della coalizione sono impegnate nelle prime fasi delle operazioni per disarmare lIraq, per liberare il suo popolo e per difendere il mondo da un grande pericolo.. Saddam Hussein il quale non si fatto scrupolo di collocare le sue truppe e mezzi militari tra la popolazione civile nel tentativo di utilizzare uomini, donne e bambini innocenti come scudi per i suoi militari."70 Bush crede fermamente nel legame "operativo" tra Osama Bin Laden (1,67E-02) e Saddam Hussein (1,85E-02 nel II periodo), legame mai dimostrato e nel possesso iracheno di armi di distruzione di massa (mai rintracciate). L'obiettivo di <Al Qaeda> (3,15E-07) di mettere sotto pressione gli anelli deboli della catena che si oppone al fondamentalismo islamico. Dal punto di vista politico, il ritiro dal terreno di un alleato della coalizione angloamericana il pi importante risultato ottenuto dai terroristi dall'inizio della guerra irachena". Il ragionamento chiaro anche se orribile: i terroristi, sequestrando "cooperanti" conosciuti e apprezzati a Bagdad, vogliono far sapere agli iracheni che, nessun occidentale, anche il migliore e pi antico amico del popolo iracheno, sar risparmiato dalla minaccia di una furia assassina. Chi collabora a qualsiasi titolo per il nuovo Iraq, per la sua ricostruzione, sia camionista, imprenditore, giornalista, cameriere, volontario in un impegno umanitario, rischia la morte.

70

Il testo integrale del discorso di Bush dopo linizio dellattacco il 20 marzo 2003- Corriere della Sera 86

questo il terribile messaggio del sequestro di Simona Torretta e Simona Pari. "E' un messaggio che gi si pu leggere nell'esecuzione dei dodici, umilissimi lavoratori nepalesi uccisi alla fine di un sequestro che non ha registrato nessuna richiesta, nessun proclama, nessun abbozzo di trattativa. Nulla., morte e basta,. orrore e basta"71. In questo periodo nonostante ha un p-value basso pari a 1,93E-02, il termine <fiaccolate> assume un significato importante visto che, in questi giorni, si commemorano gli attentati avvenuti alle Torri Gemelle ed alla Stazione di Madrid, mediante alcune manifestazioni con fiaccolate. Altra manifestazione importante stata organizzata dall'Ucoii72 per l11 settembre, con delle fiaccolate in varie citt dItalia "chiedendo ai musulmani e alle musulmane di parteciparvi". Un gesto che vuol "dare forza, ampiezza e profondit", alla richiesta di liberazione delle due volontarie italiane rapite in Iraq. Per finire abbiamo visto che, la specificit, pu essere anche negativa: risulta quindi interessante osservare come siano ai primi posti, e quindi sotto-utilizzati, i termini di <riscatto> <liberate> e <trattativa> (a dimostrazione del fatto che, in questo periodo, non ha ancora preso piede lidea del riscatto, e di uneventuale trattativa che porti alla liberazione delle due Simone). Si denota infine come il rapimento delle "due Simone", verificatosi a pochi giorni dal tragico epilogo del rapimento di massa a <Beslan> (8,79E-03), trasmetta maggiori angosce e preoccupazioni alle nostre coscienze.Il ricordo ancor vivo della tragedia e della strage nella scuola di Beslan, dove i terroristi hano ucciso strage di donne e babini, dipinge ancor pi gli avvenimenti di drammaticit. Il presidente Ciampi nelle sue dichiarazioni alla nazione ribadisce, qualora ce ne fosse bisogno, che, chi uccide bambini e prima di ucciderli nel corpo, imprime nei loro occhi il terrore e l'orrore, non uccide soltanto l'innocenza ma anche il futuro. Uccide perfino il fine che, quale che sia, ha determinato la scelta di mezzi cos mostruosi. I massacratori, uomini e donne, di Beslan hanno perso il diritto ad ogni prova d'appello e cos i loro capi e ispiratori73.

71 72

Articolo della Repubblica" di Giuseppe DAvanzo 8 settembre 2004 l'Unione delle comunit ed organizzazioni islamiche in Italia 73 Articolo della Repubblica" di Eugenio Scalfari 12 settembre 2004 87

Tabella 14 Analisi delle specificit (I periodo specificit positiva) Forma grafica


Franco Frattini terrorismo Al Qaeda appello 11 mondo ministro degli Esteri crisi Enzo Baldoni e_mail Emirati Arabi buio corteo associazione sequestri europei vertice islamico coalizione Afghanistan americana guerra azione embargo istituzionale aiutare Qatar Ds

Occ. tot.
52 80 27 45 18 57 20 23 62 10 10 10 10 35 24 9 9 36 18 12 15 102 33 8 8 17 14 11

Parole caratt.
spec spec spec spec spec spec spec spec spec spec_orig spec_orig spec_orig spec_orig spec spec spec_orig spec_orig spec spec spec spec spec spec spec_orig spec_orig spec spec spec

p-value
1,85E-07 2,53E-07 3,15E-07 2,19E-06 7,93E-06 1,41E-05 4,38E-05 4,68E-05 1,21E-04 3,74E-04 3,74E-04 3,74E-04 3,74E-04 5,12E-04 8,04E-04 8,24E-04 8,24E-04 1,05E-03 1,16E-03 1,29E-03 1,29E-03 1,30E-03 1,39E-03 1,81E-03 1,81E-03 2,15E-03 2,49E-03 2,61E-03

Specif
pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

Occ.
42 59 25 36 18 42 18 20 43 10 10 10 10 26 19 9 9 26 15 11 13 62 24 8 8 14 12 10

p-value

Specif

p-value

Specif

p-value
6,43E-06

Specif
neg neg

(PERIOD_1) (PERIOD_1) (PERIOD_1) (PERIOD_2) (PERIOD_2) (PERIOD_3) (PERIOD_3) (PERIOD_4) (PERIOD_4)

2,03E-02 2,21E-02

neg neg

4,28E-03

9,55E-03

neg

1,36E-02

neg

3,61E-03

neg

4,34E-04

neg

5,73E-03

neg

88

Forma grafica sequestro Luciano Pari ama coordinatore Al Yawar abbastanza ultimatum Bush Europa agosto visita pacifisti volontariato Stati Uniti Usa ministro strategia presidente Capo dello Stato cooperanti Beslan associazioni medico isolare pericolo

Occ. tot. 111 16 7 7 7 7 53 35 10 10 10 10 10 23 32 15 15 62 6 6 6 6 6 6 6

Parole caratt. spec spec spec_orig spec_orig spec_orig spec_orig spec spec spec spec spec spec spec spec spec spec spec spec spec_orig spec_orig spec_orig spec_orig spec_orig spec_orig spec_orig

p-value
(PERIOD_1)

Specif
(PERIOD_1)

Occ.
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

3,70E-03 3,95E-03 3,99E-03 3,99E-03 3,99E-03 3,99E-03 4,69E-03 4,89E-03 5,25E-03 5,25E-03 5,25E-03 5,25E-03 5,25E-03 5,46E-03 6,67E-03 7,17E-03 7,17E-03 8,73E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03 8,79E-03

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos Pos Pos Pos Pos

65 13 7 7 7 7 34 24 9 9 9 9 9 17 22 12 12 38 6 6 6 6 6 6 6

2,01E-02

neg

4,49E-04

neg

4,92E-06 3,61E-03

neg neg

7,20E-03

neg

4,51E-03

neg

89

7.3 Analisi delle specificit (II periodo)


Il giorno 23 Settembre, ricordiamo che il secondo periodo v dal 20 al 27, l <Organizzazione della Jihad> (p-value di 1,48E-05) annuncia :"Il verdetto di <Dio> (2,33E-04) stato <eseguito> (3,15E-04) per scannamento delle prigioniere italiane dopo che, il governo italiano, capeggiato dal vile Silvio Berlusconi, non ha dato ascolto alla nostra unica condizione, il ritiro delle truppe in Iraq. Faremo vedere il <video> (2,10E-04)". Nuovo drammatico comunicato sulla <sorte> (7,93E-05)"di Simona Pari e Simona Torretta che suscita ore d'angoscia soprattutto nelle famiglie. Ore smentite, per fortuna, da varie <fonti> ('arabe' e' dellintelligence italiana) che non ritengono attendibile l'annuncio". Dallesame della tabella sulle specificit relative al secondo periodo, emerge, come avevamo gi visto per le occorrenze che, il nome "Al Zarqawi" (1,33E-08), che risultato poi essere estraneo al rapimento, di fatto il termine che, nel secondo periodo, raggiunge il pi alto indice di specificit. Di contro Al Zawahiri, il vero responsabile del rapimento, non viene considerato particolarmente, cosa che si evince dalla lettura della sua specificit (dove risulta essere addirittura banale). A prova di quanto appena detto notiamo che la flessione del verbo comprare (legato sempre ad Al Zarqawi) si insedia ai primi posti di questa tabella con un pvalue di 1,00E-05. Per la precisione il gruppo di Al Zarqawi <Tawhid wal Jihad> (3,25E-05) smentisce, tramite <internet> (1,14E-03), la notizia secondo la quale le "due Simone" sarebbero state comprate dal terrorista Al Zarqawi, il quale nega ogni responsabilit. Il termine <internet>, oltre al significato sopra detto, compare in questo periodo insieme ai termini <rivendicare> e <sito> (2,82E-04) e possono essere trattati come un trinomio indissolubile dato che, la quasi totalit delle rivendicazioni dei sequestratori, sono state effettuate mediate dichiarazioni rese note tramite <web>. Fra le parole che denotano un elevato p-value, vi sono <vive> (2,79E-0.4) e <uccisione> (1,09 E-03), che, seppur indicano due termini completamente agli antipodi, risultano legati dagli eventi del secondo periodo, dove si ricorda che vi una elevata incertezza sulle sorti delle due Simone. A dimostrazione di questa totale incertezza sulla sorte delle "due Simone" compaiono i termini <vuoto> (2,59E-0) e <video> (2,10E-04): il primo termine viene utilizzato in questo periodo per indicare il vuoto informazioni, di immagini e di parole, mentre con video si parla, ripetutamente, di tesi che certificano che le "due Simone" sono ancora vive.

90

Possiamo osservare come i sostantivi <riscatto>, <liberazione> sono di nuovo sotto-utilizzati (come il periodo precedente). Infine si nota come il termine <Al_Qaeda> passa da un p-value positivo di 3,1E-07 nel I periodo ad un p-value negativo sia nel II periodo (2,10E-02) che nel IV periodo (4,30E-03). Un altro termine che ha addirittura un p-value negativo nel I periodo <margherite>. In questo periodo assume un significato particolare perch indica liniziativa promossa dalla Ong, il 25 settembre, per tenere viva lattenzione sui volontari rapiti a Bagdad. Lidea della margherita, come simbolo di pace, nasce da una lettera che Simona Pari aveva scritto ad unamica alla quale raccontava che, un pap iracheno, aveva regalato a lei e allamica Simona Torretta, due piccoli vasetti contenenti delle margherite accompagnate da queste parole:"La margherita lunico fiore che cresce nella terra salata, ha bisogno di poca acqua; voi dovete essere come questo fiore, continuate a fare il bene pur in condizioni avverse, abbiamo bisogno del vostro aiuto per realizzare un sogno di pace" Questo messaggio indica proprio la loro 'missione', che quella non solo di portare aiuti tra la popolazione irachena, ma anche di lavorare con loro, per questo vengono definite 'le donne della pace'.

91

Tabella 15 Analisi delle specificit (II periodo specificit positiva) Forma grafica
Al Zarqawi rivendicazioni comunicato forze comunicati fonti fonte comprate Pollari organizzazione della jihad giornale Tawhid wal Jihad Powell imperiale sorte video dio vuoto viva Annuncio Sito Eseguito Informazioni governo italiano Messaggio Jack Hensley

Occ. tot.
48 10 50 39 10 35 55 7 9 9 26 23 6 8 15 54 22 5 5 14 48 7 63 39 65 18

Parole caratt.
spec spec_orig spec spec spec spec spec spec_orig spec spec spec spec spec_orig spec spec spec spec spec_orig spec_orig spec spec spec spec spec spec spec

p-value
(PERIOD_1)

Specif
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

Occ.
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

8,87E-03 4,40E-04 9,86E-03

neg neg neg

3,73E-05

neg

1,01E-02 7,65E-03 1,63E-02

neg neg neg

1,33E-08 6,72E-08 9,29E-07 1,45E-06 3,14E-06 3,91E-06 8,29E-06 9,54E-06 1,48E-05 1,48E-05 1,55E-05 3,25E-05 4,97E-05 6,88E-05 7,93E-05 2,10E-04 2,33E-04 2,59E-04 2,59E-04 2,79E-04 2,82E-04 3,15E-04 3,70E-04 4,22E-04 6,30E-04 6,52E-04

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

27 10 25 21 9 19 25 7 8 8 15 12 6 7 10 22 12 5 5 9 20 6 24 17 24 10

3,45E-03 9,65E-05 6,27E-03 8,53E-03

neg neg neg neg

1,55E-02

pos

3,47E-03

neg

1,58E-04 3,63E-06 8,52E-05

neg neg neg

92

Forma grafica
speranza corrispondente uccisione internet rivendicare triangolo attendibilit Kenneth Bigley Eugene Armstrong islamica sul terreno notte detenute democrazia americano richiesta carcerieri prigioni nelle mani di diffuso segnale Fahm jihad America ospedale sunniti

Occ. tot.
34 8 16 19 6 6 14 20 17 9 9 21 21 12 15 53 7 7 7 22 19 10 10 10 5 23

Parole caratt.
spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec

p-value
(PERIOD_1)

Specif
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

Occ.
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

1,88E-02 7,19E-03

neg neg

5,10E-04 7,55E-03

neg neg

1,72E-02

neg

7,82E-04 1,02E-03 1,09E-03 1,14E-03 1,42E-03 1,42E-03 1,84E-03 1,89E-03 1,93E-03 2,53E-03 2,53E-03 2,98E-03 2,98E-03 3,10E-03 3,27E-03 3,30E-03 4,04E-03 4,04E-03 4,04E-03 4,54E-03 5,04E-03 5,26E-03 5,26E-03 5,26E-03 6,21E-03 6,66E-03

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

15 6 9 10 5 5 8 10 9 6 6 10 10 7 8 19 5 5 5 10 9 6 6 6 4 10

93

7.4 Analisi delle specificit (III periodo)


Il terzo periodo, che si riferisce alla liberazione di Simona Pari, Simona Torretta, Raad e Manhaz Bassam, abbandona evidentemente il linguaggio connesso alla natura dellevento per concentrarsi su quello della soddisfazione e del sollievo, differenziandosi dagli altri periodi pi focalizzati sugli aspetti politici. A dimostrazione di quanto detto, notiamo che, ai primi posti di questa tabella, vi sono termini quali, <gioia> (del Papa, di Berlusconi, delle famiglie), <liberazione>, <liberate>, <28 settembre> che hanno un elevato p-value. In questo momento, una volta "scampato" il pericolo, compaiono numerosi termini legati alla loro liberazione, ai festeggiamenti del loro rientro in Italia e dalla preponderante presenza dei loro cari come <applauso> <festa> <folla> <famiglia> <parenti>. Parallelamente si "affacciano" in tabella, alcuni termini quali <milioni di dollari> e <riscatto>, che troveremo anche nellultimo periodo, proprio ad indicare la possibilit che, alla liberazione delle due Simone, si sia giunti solo dopo aver pagato un riscatto. Ha giocato un ruolo molto importante in questa fase <Al Rooz> ( p- value 4,02E-06), quarantatr anni, originario del Libano meridionale, un passaporto inglese in tasca, <direttore> (8,93E-05) del <quotidiano kuwaitiano> (3,40E-03) <Al Aam> (1,60E-06) che, divenuto in questo periodo,"lunico occhio e orecchio nella prigione delle due Simone".74 Al Rooz dichiara, sul suo giornale, che il sequestro di Simona Torretta, Simona Pari e dei due iracheni Manhaz Bassam e Raad, avr il suo lieto fine - diciamo - entro <venerd> (3,50E-03). Il direttore, lascia intendere chiaramente, che i carcerieri delle nostre ragazze dovrebbero appartenere a un'area baathista, nazionalista, non radicale, non "religiosa". Al Rooz precisa inoltre che non c' finora la prova dell'esistenza in vita delle ragazze, ma le assicurazioni che "chiedono del cibo particolare" - biscotti, yogurt e acqua minerale, che in quel paese come loro - vuol dire che il gruppo disponibile ad offrire presto qualche dato certo che dimostri l'esistenza in vita delle due Simone. Il direttore, lascia anche intendere dal suo punto di vista che, la trattativa per la liberazione delle italiane e la condizione per il loro rilascio, non sia di natura politica, ma soltanto economica. Si torna a parlare di riscatto, di pagamento. In questi giorni, in cui le notizie sono molto scarse e frammentarie Al Rooz, rappresenta lunica ancora di salvezza da parte dei familiari delle due Simone. Pare che un suo stretto
74

Articolo della Repubblica" di Carlo Bonini 27 settembre 2004

94

collaboratore, Fahm (che nel periodo precedente, proprio nel "pieno" delle trattative, ha un pvalue di 5,26E-03), da circa due giorni, riceve dalla sua "fonte irachena" notizie sulle ragazze che riferisce ad Al Rooz, il quale decide se pubblicare o no. Dapprima la notizia che le due Simone sono "vive" e l'avviso ai naviganti di internet di considerare carta straccia la sequenza di comunicati che, a firma "Ansar al Zawhari" (i "seguaci di al Zawhari") le hanno date per decapitate a met della scorsa settimana (lo stesso gruppo, dopo, tornato a farsi vivo sul sito "www. alezah. com" ribadendo che le ragazze sono state uccise). Successivamente, quindi, i dettagli sulla loro prigionia come la richiesta di "cibi particolari" (frutta e yogurt) e la possibilit di potersi dissetare con "acqua minerale". Non ancora una prova incontrovertibile di esistenza in vita, ma certo un particolare di cui pu essere a conoscenza soltanto chi accanto alle due ragazze in questo momento (fino a pochi giorni prima, solo gli amici di Simona Pari sapevano che la ragazza vegetariana e dunque la sua predilezione per determinati cibi). Finalmente si giunge alla liberazione delle due Simone ed Al Rooz pu dar libero sfogo alle proprie emozioni, immediatamente contattata la Repubblica ed annuncia la liberazione delle due italiane, di Manhaz Bassam e Raad. Il direttore risponde anche a chi ha messo in dubbio il suo operato e lefficacia del suo contatto, gridando al telefono "Con tutto il rispetto per i vostri servizi segreti, salutali da parte mia e della mia fonte". Questa la sua risposta a quanto, neppure mezz'ora prima, l'intelligence italiana ha mandato in rete attraverso le agenzie di stampa: un "invito alla cautela, perch la fonte del quotidiano kuwaitiano ormai esaurita". Il rilascio dei quattro prigionieri stato <filmato> (6,21E-03) "da un ragazzo, esattamente un free-lance, che, con una telecamerina, ha ripreso il tutto e lha poi inviata ad Al Jazeera (anche se alcuni sostengono che ci pu essere un 'qualcosa di artefatto, una messa in scena') Infine Gianni Letta (p-value 5,30 E-0.3), sottosegretario di Stato, a cui Silvio Berlusconi ha affidato la delega sui servizi segreti, stato ringraziato pubblicamente dal Presidente del Consiglio il quale, ha sottolineato labilit del suo operato, evidenziando che "senza di lui non si sarebbe mai arrivati a questo risultato". A casa della famiglia Torretta il pomeriggio della liberazione c' anche Nahoto Takato, la volontaria <giapponese> (1,61E-03), sequestrata per otto giorni lo scorso aprile in Iraq, la quale dichiara:"Ero arrivata molto preoccupata - ha detto - ora sono felicissima. E' stata una giornata meravigliosa. Stavamo parlando quando giunta la notizia della loro liberazione e mi hanno chiesto se ero un angelo giapponese".

95

Tabella 16 Analisi delle specificit (III periodo specificit positiva)


Forma grafica gioia 28 settembre 2005 notizia Laura Torretta liberate liberazione Al Aam Al Rooz parenti famiglie folla direttore festa libere applauso prefetto ringraziare milione di dollari notizie giapponese giorni italiane conferma italiano quotidiano kuwaitiano venerd rapitori minuti
96

Occ. tot. 25 17 61 24 31 131 17 30 8 31 6 20 10 11 9 9 9 13 49 6 94 193 19 41 7 11 81 16

Parole caratt. spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec

p-value
(PERIOD_1)

Specif
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

Occ.
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

5,97E-06 3,76E-03 6,12E-04

neg neg neg 2,34E-02 6,79E-03 Neg Pos

8,50E-04

neg

5,21E-03 9,30E-07

neg neg 8,48E-03 Pos

2,65E-03

neg

7,63E-21 2,39E-13 6,48E-10 1,54E-07 9,23E-07 1,45E-06 1,60E-06 4,02E-06 3,26E-05 3,73E-05 7,60E-05 8,93E-05 1,99E-04 3,97E-04 1,15E-03 1,15E-03 1,15E-03 1,22E-03 1,30E-03 1,61E-03 1,63E-03 1,86E-03 2,29E-03 2,73E-03 3,40E-03 3,50E-03 4,08E-03 4,30E-03

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

23 15 25 13 14 33 10 13 6 12 5 9 6 6 5 5 5 6 13 4 20 34 7 11 4 5 17 6

7,03E-03 2,10E-04

neg neg

9,04E-03

neg

2,41E-02

pos

2,27E-05 8,32E-07

pos neg

Forma Grafica momenti Gianni Letta settembre filmato


Presidenza del Consiglio

Occ. tot. 16 27 64 8 8 8 34 34 18 35 9 9 9 9 5 5 5 5 5 5 5 14 20 26 32 15

Parole caratt. spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec

p-value
(PERIOD_1)

Specif
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

Occ.
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

2,21E-02

Neg

noto riscatto trattativa sorella volontari emozione volontaria Achille Serra ringraziamento aspettavamo consegnate delinquenti balcone somma satellitare riservatezza Ong rappresentanti giornale prigioniere racconto

4,51E-06 6,74E-04

neg neg

6,27E-03

Neg

3,73E-05 1,53E-03

neg neg

1,55E-05

Pos

4,30E-03 5,30E-03 5,95E-03 6,21E-03 6,21E-03 6,21E-03 7,15E-03 7,15E-03 8,29E-03 8,74E-03 1,02E-02 1,02E-02 1,02E-02 1,02E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,04E-02 1,16E-02 1,44E-02 1,55E-02 1,56E-02 1,59E-02

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

6 8 14 4 4 4 9 9 6 9 4 4 4 4 3 3 3 3 3 3 3 5 6 7 8 5

5,72E-06 1,12E-02

pos pos

2,35E-02

neg

4,12E-03

pos

97

7.5 Analisi delle specificit (IV periodo)


In questa tabella, relativa al IV periodo (quindi successiva alla liberazione delle "due Simone") si notano, come prevedibile, la presenza di termini quali <riscatto> e <pagato>, a dimostrazione del fatto che, proprio ora che le "due Simone" sono libere, si insinua la possibilit di un eventuale pagamento (di diversi milioni di dollari), che per non verr mai dimostrato con certezza. Il termine <soldi>, che ha un p-value di 3,51E-03, una delle piste percorse dai Servizi anche se i sequestratori sostengono di non averli mai chiesti, anzi, per la fuga di questa notizie, si stava rischiando di mandare a monte il loro rilascio. Il sostantivo <soldi> viene utilizzato quando si parla dei sequestratori che hanno addirittura pagato lautista del taxi con cui le due Simone, una volta liberate, sono state fatte accompagnare all <aeroporto>. Secondo <Maurizio Scelli> (Commissario straordinario della Croce Rossa Italiana, p-value paria a 2,06E-21, il pi elevato in questo periodo), il presunto ruolo di <spie> (p-value di 5,32E-11) delle due volontarie sarebbe il motivo per cui i sequestratori le hanno condannate a morte (si parlato subito dopo il sequestro dell'esistenza di una <lista> o di un <elenco> in mano ai rapitori confermata, a Porta a Porta, dallo stesso Maurizio Scelli secondo cui, i nomi delle due volontarie, oltre a quelli di Enzo Baldoni e del suo accompagnatore Ghareeb, facevano parte di una lista che pare proveniva da uffici dei servizi segreti Usa). Infine, dopo la loro liberazione, si parlato molto di questa 'misteriosa scatola nera', dalla quale Simona Torretta non si separer mai nelle ore successive, neanche all'arrivo a Ciampino. Solo in un secondo tempo Simona Torretta e Maurizio Scelli dichiareranno che, in realt, allinterno della scatola sono contenuti solo dieci volumi con la spiegazione e la traduzione del Corano in inglese, che i rapitori hanno donato loro con la promessa di studiarlo. Il curioso particolare sulla liberazione delle volontarie italiane dato dal termine <pistola> con un p-value pari a 6,08E-07. Attorno a questa 'pistola' c stato un vero e proprio giallo; nelle ore che Maurizio Scelli ed il suo collaboratore ed interprete iracheno Navar hanno trascorso con gli emissari, il commissario della croce rosse italiana ha ricevuto dai sequestratori la pistola che, a dire dei giornalisti, in origine sarebbe dovuta servire per lesecuzione delle due ragazze. Di contro Simona Torretta ha dichiarato che non a conoscenza del fatto che quella pistola poteva servire per ucciderle, anzi, la consegna ha solamente un valore simbolico, di pace e di amicizia, di risentimento e conflitto finiti (come nella tradizione araba).

98

In tutto ci un fatto particolare che a posteriori possiamo definire comico: "Quando sono salito sul <taxi> - dice M. Scelli - che ci avrebbe portato all' <aeroporto>, avevo la pistola in vista per cui il tassista, ritenendo che lo volessi rapinare, per la paura si messo ad urlare, poi, alla fine, resosi conto di quanto accadeva si tranquillizzato"75. Dalla visione della nostra tabella possiamo constatare che, un altro termine che assume un notevole p-value 4,07E-05, quello delle "elezioni". In questo periodo si ormai prossimi alle elezioni americane (2 novembre 2004) ed inoltre si inizia anche a parlare di quelle che verranno fatte in Iraq nel mese di gennaio e che come specifica Fini - sono importantissime perch avviano un processo democratico in assenza del quale impossibile per quel paese garantire libert, sicurezza e quindi la democrazia. Durante la prigionia le "due Simone" sono rimaste quasi sempre <bendate> (p-value 3,99E04) per questo motivo le due ragazze non sono state in grado di fornire indicazioni utili per il rintraccio dellubicazione del loro nascondiglio e per lidentificazione dei loro carcerieri. Questo per, per alcune persone, significa che forse i rapitori non avevano la volont di giustiziarle, altrimenti non si spiegherebbe il timore di mostrasi e di farsi riconoscere, mentre altri affermano che, le prigioniere, sono state bendate perch il Corano vieta agli uomini di rivalersi sulle donne. A favore dei rapitori, inoltre, vi anche la presenza dei termini quali <medicine> con un pvalue 4,32E-03 e <cibo> con un p-value 4,91E03, che sono stati sempre somministrati abbondantemente e nei momenti di necessit, come quando, Simona Torretta ha avuto un repentino innalzamento della temperatura corporea, la stessa riferisce che, stato gi deciso che, se la febbre fosse aumentata, sarebbe stata accompagnata in ospedale. Le prigioniere hanno sempre riferito, sin dalle prime dichiarazioni fatte sui quotidiani, di essere sempre state trattate bene con "rispetto" e "dignit", anche se ovviamente hanno avuto <paura> di essere uccise, timore che aleggiato sino a quando i rapitori hanno capito finalmente quale era il loro vero impegno in Iraq. Difatti, appena i sequestratori hanno capito che non erano spie, si sono prodigati nel fornire le loro <scuse> p-value 4,91E-03 inoltre, al momento del loro rilascio, per allietare il loro rientro in patria, le hanno persino fatto omaggio di dolci e di una copia del Corano (p-value 9,75E-04). A dimostrazione di quanto detto, al momento della loro liberazione, documentato con una piccola telecamera di un giornalista free-lance americano, le due Simone hanno immediatamente proclamato le seguenti parole "Shukran, shukran gesilan, ma salama (grazie,

75

Articolo della Repubblica" 29 settembre 2004 99

grazie mille, arrivederci)" asserendo inoltre che non sono mai state maltrattate durante la loro prigionia. Non stato possibile per capire allindirizzo di chi fossero rivolte tali dichiarazioni; non si capisce, difatti, se sono dette allindirizzo di una persona che va loro incontro, e che quindi le ha aiutate nelle trattative per la loro liberazione, o se sono dirette a coloro che le hanno accompagnate sino a l. Le due ragazze, appena giunte in Italia, vengono accusate di non aver neanche ringraziato chi si era adoperato per la loro liberazione. Queste accuse vengono subito smentite da Simona Torretta che, in una prima conferenza stampa, dichiara: "Abbiamo ringraziato fin da subito il governo, maggioranza e opposizione, le istituzioni, tutte le parti che hanno collaborato all'esito positivo della nostra vicenda".. Ma una delle poche domande alle quali lei e Simona Pari rispondono nel corso di una conferenza stampa organizzata da "un ponte per..." al Teatro Ambra Jovinelli di Roma. Incontro poco chiarificatore: il combinato di stanchezza e segreto istruttorio circoscrive le dichiarazioni delle due volontarie a poche battute. Anche Simona Pari ci tiene ad esprimere apertamente la sua gratitudine, ringrazia anche lei "le forze politiche della maggioranza e dell'opposizione, le comunit musulmane e cristiane del mondo, la croce rossa italiana, il governo, e i bambini iracheni", spiega che lei e la sua compagna hanno "sempre cercato di riunire due mondi distanti" e sperano che "questo dialogo possa continuare"76. Per quanto riguarda lindirizzo politico delle due Simone possiamo dire che sono due militanti pacifiste di sinistra. Simona Pari tra l'altro una giornalista ed ha collaborato per anni con l'Unit. Entrambe hanno scritto dall'Iraq, paese in cui si trovavano gi da molto tempo prima dellinizio delle ostilit, diversi comunicati stampa contro la guerra e contro l'intervento italiano, schierandosi palesemente contro il programma del nostro Governo. Al momento della liberazione, le due Simone raccontano che avevano indosso <abiti> (pvalue 1,32E-02) arabi ed il volto coperto da un lungo velo <nero> (p-value 1,01E-02), il 'niqab', che ne impedisce lo <sguardo> (p-value 4,20E-04). . Il nome di <Ghareeb>, che ricordiamo era linterprete di Baldoni in Iraq, assume nella tabella un p-value di 1,41E-03, significativo far emergere le considerazioni contraddittorie che hanno di lui Maurizio Scelli che asserisce che era un doppiogiochista, palestinese spia degli israeliani", le "due Simone", secondo le quali Ghareeb, era un uomo generoso che veniva di

76

Articolo della Repubblica" di Alessandra Vitali 30 settembre 2004 100

tanto in tanto a chiedere medicine per portarle ai malati e in questo slancio si prendeva anche dei rischi77. Il termine <paura> con un p-value di 6,31E-06 emerge quando si parla dellincontro delle due italiane con Al Kubassi, avvenuto il giorno prima che venissero rapite. Al Kubassi sostiene che, le due Simone , avevano paura e non si sentivano sicure, loro, invece, sostengono che vero che si erano recate da Al Kubassi, ma solo perch vogliono far conoscere agli Ulema i loro progetti ed il loro lavoro, Simona Torretta esclude che si sono mostrate preoccupate, aggiungeva solamente che hanno parlato della situazione caotica del Paese, ma non della loro paura. Hanno giocato un ruolo fondamentale per la liberazione delle "due Simone" <Tareq Alani> (9,07E07) e <Laila> (5,89E-05). Il primo responsabile degli affari politici del Consiglio delle trib irachene e, di fatto, una sorta di ministro degli Interni, mentre Abu Laila (forse il suo era un nome di copertura) un esponente dei servizi segreti italiani, nato in Libano e quindi buon conoscitore della lingua araba. I rapitori, accertatisi della totale estraneit delle "due Simone" ai fatti accaduti in Iraq, contattano Tareq Alani il 23 settembre confermando che hanno le due italiane, che sono vive e che vogliono liberarle. Iniziano cos le trattative per il loro rilascio, Tareq contatta la Farnesina e chiede che, affinch non via sia alcun equivoco, il suo interlocutore sia di lingua araba. Entra in scena a questo punto Laila che inizia una fitto colloquio con Tareq, i due riescono a stabilire con i sequestratori le condizioni per il rilascio delle italiane. I rapitori stabiliscono quattro condizioni (ritenute immediatamente accettabili dal nostro governo): bambini da curare negli ospedali italiani, partecipazione alla ricostruzione delle zone bombardate, stop ai raid aerei su Falluja e Ramadi e viaggio a Roma sullo stesso aereo delle due Simone di una delegazione del consiglio tribale che spieghi laltra faccia della guerra. La trattativa seppur avviata verso la migliore conclusione, ha rischiato di saltare allorquando il pi autorevole quotidiano del Kuwait riferisce di un pagamento di milione di dollari, come riscatto per la liberazione delle italiane. I rapitori a questo punto, furenti per questa fuga di notizia, a loro detta assurda, non garantiscono pi sulla liberazione delle due donne. Fortunatamente il 28 settembre si conclude positivamente lodissea delle due Simone, le stesse vengono imbarcate su un aereo diretto a Ciampino (1,01E-05) che le riporta in Italia.

77

Articolo della Repubblica" di Giuseppe DAvanzo 1 ottobre 2004 101

In ultimo prendiamo in esame alcuni termini che nel IV periodo assumono un p-value negativo come <rivendicazione>, <gruppo> o <gruppi> ( che indicano coloro che le avevano rapite), <ostaggi> e <terrore>. Ormai in questa fase, che ricordiamo successiva alla liberazione delle Due Simone, vengono abbandonate tutte quelle terminologie "negative", che lasciavano presagire che le cose potessero precipitare con luccisione delle italiane.

102

T abella 17 Analisi delle specificit (IV periodo specificit positiva)


Forma grafica Maurizio Scelli spie scatola pistola croce rossa italiana Tareq Alani lista riscatto paura Ciampino nomi Fini giorni elezioni Laila interrogatori pagato dialogo bendate aeroporto consegna discorso sguardo sinistra vita regalato Corano
103

Occ. tot. 58 17 11 13 36 10 12 34 44 13 19 15 94 25 7 6 16 21 8 10 10 10 10 10 48 5 13

Parole caratt. Spec spec_orig spec_orig spec spec spec_orig spec spec spec spec spec spec spec spec spec_orig spec_orig spec spec spec spec spec spec spec spec spec spec_orig spec

p-value
(PERIOD_1)

Specif
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

Occ.
(PERIOD_4)

2,84E-14

neg

1,18E-02

neg

1,59E-06 7,55E-03 4,51E-06

neg neg neg

6,27E-03

neg

7,15E-03

pos

1,01E-02 9,30E-07 2,07E-03

neg neg neg

1,63E-03

pos

8,92E-04

neg

2,12E-02 2,12E-02

neg neg

1,15E-02 4,46E-03 neg

neg

2,06E-21 5,32E-11 2,25E-07 6,08E-07 8,64E-07 9,07E-07 2,26E-06 5,72E-06 6,31E-06 1,10E-05 1,10E-05 1,20E-05 2,27E-05 4,07E-05 5,89E-05 2,37E-04 2,77E-04 3,57E-04 3,99E-04 4,20E-04 4,20E-04 4,20E-04 4,20E-04 4,20E-04 4,62E-04 9,53E-04 9,75E-04

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

49 17 11 12 23 10 11 21 25 11 14 12 42 16 7 6 11 13 7 8 8 8 8 8 23 5 9

Forma grafica commissario Ghareeb sequestratori soldi racconto viaggio medicine dicevano ricordo processo taxi cibo scusa capito rischio parlato prigione nero trattativa elenco abiti elenco salve tre

Occ. tot. 7 7 78 10 15 15 8 8 8 8 8 6 6 16 11 11 30 9 14 89 7 7 7 7

Parole caratt. spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec spec

p-value
(PERIOD_1)

Specif
(PERIOD_1)

p-value
(PERIOD_2)

Specif
(PERIOD_2)

p-value
(PERIOD_3)

Specif
(PERIOD_3)

p-value
(PERIOD_4)

Specif
(PERIOD_4)

Occ.
(PERIOD_4)

6,04E-04 1,53E-03

neg neg 1,59E-02 pos

6,25E-03

neg

1,41E-03 1,41E-03 2,69E-03 3,51E-03 4,12E-03 4,12E-03 4,32E-03 4,32E-03 4,32E-03 4,32E-03 4,32E-03 4,91E-03 4,91E-03 7,33E-03 7,54E-03 7,54E-03 7,87E-03 1,01E-02 1,02E-02 1,31E-02 1,32E-02 1,32E-02 1,32E-02 1,32E-02

pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos pos

6 6 31 7 9 9 6 6 6 6 6 5 5 9 7 7 14 6 8 32 5 5 5 5

104

CONCLUSIONI
Dal punto di vista metodologico, i risultati mostrano che un ,corpus con queste caratteristiche, pu essere ben classificato a partire dalle parole chiave. Per questo lavoro abbiamo utilizzato articoli estrapolati dalla Repubblica, pubblicati dal giorno del rapimento sino alla liberazione delle due Simone, riguardanti le problematiche sorte intorno alle trattative che permetteranno di ottenere il rilascio delle due italiane. Ricordiamo brevemente che Simona Pari, Simona Torretta, Raad e Manhaz Bassam sono state rapite il 07 settembre mentre si trovano a lavoro allinterno del palazzo che ospita gli uffici di un ponte per.. e Intersos. Il loro sequestro desta immediatamente delle notevoli perplessit in quanto non ricalca la metodologia utilizzata nei precedenti rapimenti. I servizi segreti evidenziano subito le anomalie del sequestro, in quanto, i rapitori si sono presentati a viso scoperto, vestiti in maniera impeccabile, dotati di armi molto moderne78 e soprattutto non stato un attacco estemporaneo fatto in una pubblica via ma, allinterno di una struttura con degli obiettivi gi individuati precedentemente dato che, sanno gi i nomi delle vittime. L'obiettivo di <Al Qaeda> (3,15E-07) per questo sequestro di mettere sotto pressione gli
anelli deboli della catena che si oppone al fondamentalismo islamico. Dal punto di vista

politico, il ritiro dal terreno di un alleato della coalizione angloamericana il pi importante risultato ottenuto dai terroristi dall'inizio della guerra irachena". Il ragionamento chiaro anche se orribile: i terroristi, sequestrando "cooperanti" conosciuti e apprezzati a Bagdad, vogliono far sapere agli iracheni che, nessun occidentale, anche il migliore e pi antico amico del popolo iracheno, sar risparmiato dalla minaccia di una furia assassina. Dallo studio effettuato, emerge che, il flusso delle parole utilizzate dai vari giornalisti, si modifica con il trascorrere dei giorni e delle situazioni79. Le parole, riflettendo i mutamenti degli avvenimenti in corso, cambiano a secondo dei periodi in cui vengono presi in esame. Per esempio confrontando il linguaggio peculiare esaminato nel lasso di

78

In questo assalto sono stati utilizzati fucili automatici e a pompa, pistole con il silenziatore e manganelli elettrici, tuttaltra cosa rispetto ai rozzi kalashnikov dei mujaheddin utilizzati nelle precedenti azioni. 79 E.Aureli Cutillo e S. Bolasco Applicazioni di analisi statistica dei dati testuali- dicembre 2004. 105

tempo preso in esame80, si scopre come le forme grafiche con pi alta specificit positiva analizzata nel primo periodo, tra cui Franco Frattini, Enzo Baldoni, guerra, Bush, risultano sotto-utilizzati nei periodi successivi. Si ritiene che la spiegazione di questa inflessione sia da attribuire a diversi aspetti. Notiamo che, nel caso di Franco Frattini, le occorrenze diminuiscono sino a divenire negative in quanto, lo stesso, che ricordiamo in quel momento era Ministro degli Esteri, lascia lincarico e viene sostituto sulla poltrona dal ministro Fini (le occorrenze di Fini raggiungono il massimo del valore nellultimo periodo dove assumono un valore di 12 su un totale di 15). Per ci che concerne Enzo Baldoni si constatato che, la maggior parte delle sue occorrenze (43 su 62) sono presenti nel primo periodo, mentre, nei periodi successivi, si tende a dimenticarsene. Dallelaborazione si evidenziato inoltre che, anche il nome di Fabrizio Quattrocchi, anchesso barbaramente giustiziato, risulta avere lo stesso andamento di Enzo Baldoni anche se, le occorrenze di questultimo, raggiungono valori sensibilmente maggiori. Di entrambi, come detto, se ne parla soprattutto nel primo periodo (che va dal giorno 07 data del rapimento al 19 settembre) e nellultimo (che ricordiamo analizza il periodo successivo alla liberazione delle due Simone) dove, si ritorna a parlare della loro tragica fine che forse, con un impegno maggiore da parte del nostro governo e dellattivit di intelligence, poteva essere evitata. A tal riguardo, il 30 settembre, viene pubblicata sulla Repubblica una lettera scritta da Sandro, fratello di Enzo Baldoni, il quale si rivolge pacatamente al direttore della testata giornalistica, ed indirettamente alle Autorit Nazionali, per porre loro alcune domande lasciando chiaramente intendere che, un intervento ed un operato pi celere da parte del nostro governo, come quello realizzato per le due Simone, avrebbe potuto portare anche alla liberazione del proprio caro81.

80

Articoli che vanno dal 7 settembre al 24 ottobre (suddivisi i quattro periodi: dal 07 al 19 settembre, dal 20 al 27 settembre, il 28 settembre, dal 29 settembre al 24 ottobre.

Caro direttore, felici questi giorni anche per noi, contenti di rivedere le facce belle, pulite e sorridenti di Simona Pari e Simona Torretta, e di stringerci idealmente in un abbraccio ai loro familiari. Ma permetteteci, da cittadini qualsiasi di questo stato, di farci e fare pacatamente qualche domanda molto diretta. Perch nel caso di Enzo il governo italiano ha sonnecchiato cos a lungo e si dimostrato cos freddamente distaccato da una tragedia che anche in quel caso non aveva coinvolto solo una persona, ma un'intera nazione? Perch le opposizioni non sono riuscite ad andare oltre la polemica spicciola, invece di sollecitare l'immediata azione di tutte le altre forze politiche per una soluzione rapida del sequestro?
81

106

Ricordiamo che Simona Pari e Simona Torretta vennero rapite perch ritenute inizialmente facenti parte di una lista (p-value di 2,26E-06 nel IV periodo) di spie (pvalue di 5,32E-11 nel IV periodo), solo in un secondo momento, i rapitori presero coscienza del fatto che, le due donne, si occupavano solamente di volontariato. Questa nuova rivelazione, per, sembra non dare comunque la sicurezza della loro liberazione, in quanto i terroristi dichiarano che, chiunque sia alleato nella guerra con Bush, non sar risparmiato. In questo periodo, sia in America che in altre parti del Mondo, vengono fatte manifestazioni in memoria delle vittime delle Due Torri Gemelle, della strage di Madrid (l11, giorno dei due attentati, assume un p-value 7,93E-06) e del massacro di Beslan, (pvalue 8,79E-03), avvenuto, qestultimo, pochi giorni prima del rapimento delle due Simone, dove, migliaia di persone commemorano tutte le vittime delle stragi, unendosi simbolicamente, in una catena umana per tentare di debellare il flagello del terrorismo. Sulle informazioni ricevute dalle volontarie sulla loro permanenza nella prigione, Maurizio Scelli riferisce che, le ragazze non hanno mai avuto contatti con i sequestratori e che, a parte i primi momenti, dove sono state maltrattate verbalmente e minacciate della loro imminente esecuzione, sono state trattate molto bene (in conformit con i precetti della Sharia -la legge islamica-). Addirittura, un giorno Simona Torretta ha avuto la febbre altissima: le hanno fornito <medicine> (p-value di 04,32E-03)e le hanno detto che, se necessario, l'avrebbero portata in ospedale. Particolare stata la loro liberazione: durante le tante ore dattesa prima di poter incontrare Simona Pari e Simona Torretta, a Maurizio Scelli - sempre secondo il suo racconto - stata anche consegnata la <pistola> (p-value di 6,08E-07 nel IV periodo) che sarebbe dovuta servire per uccidere gli ostaggi. Secondo la versione di Simona Torretta la

Perch i servizi segreti hanno perso giorni preziosi minimizzando subito la questione della sparizione di Enzo Baldoni, addirittura dando notizie infondate su una sua presunta irresponsabile uscita dal convoglio della croce rossa italiana, quando lui era stato evidentemente catturato mentre era di ritorno a Bagdad assieme ai medici e agli infermieri con cui era andato a curare un gruppo di feriti iracheni? Perch dopo tutto questo tempo non si riesce ad avere il bench minimo indizio su che fine abbia fatto il corpo di un occidentale clamorosamente rapito e ucciso nella non immensa periferia di Bagdad? Insomma, abbiamo due governi, uno efficientissimo e uno completamente inaffidabile, cos come abbiamo due opposizioni e due servizi segreti? Pensiamo siano cose che molti altri italiani si chiedono, confusi anche da questa improvvisa e un po' sguaiata gara della nostra classe politica ad attribuirsi meriti e medaglie, mentre un mese fa era tutto un correre a nascondersi nei coni d'ombra disegnati dalle poltrone. Qualcuno pu rispondere? grazie. Sandro Baldoni

107

pistola ha solo un valore simbolico, di amicizia, di pace, di risentimento e conflitto finiti, come nella tradizione araba. I nuovi sviluppi e soprattutto la liberazione delle italiane, mettono in evidenza lutilizzo di nuovi termini, sotto-utilizzati negli altri periodi. Nello specifico possiamo notare come lipotesi del pagamento di un <riscatto> (p-value di 5,72E-06) che, seppur sino ad oggi non stato confermato da alcuna fonte, assume, nel terzo e soprattutto nel quarto periodo, un valore di specificit positiva, mentre, negli altri periodi, sotto-utilizzato. La liberazione delle due Simone si conclude con le <scuse> (p-value di 4,91E-03) da parte dei sequestratori che, per farsi perdonare di quanto accaduto e soprattutto in segno di conciliazione, fanno loro dono di una scatola contenente una copia del <Corano> (p-value di 9,75E-04 nel IV periodo) tradotta in inglese e di alcuni dolci per il di ritorno in Italia. Al momento del loro rilascio, ripresa con una piccola telecamera digitale da parte di un giovane giornalista free-lance americano, le due Simone hanno immediatamente proclamato le seguenti parole "Shukran, shukran gesilan, ma salama (grazie, grazie mille, arrivederci) asserendo, inoltre, che non erano state maltrattate durante la loro prigionia. Non stato possibile per capire allindirizzo di chi fossero rivolte tali dichiarazioni: se sono dette nei confronti di una persona che va loro incontro, e che quindi le ha aiutate nelle trattative per la loro liberazione, o se sono dirette a coloro che le hanno accompagnate sino a li. Per questo le due ragazze, appena giunte in Italia, vengono accusate di non aver neanche ringraziato chi si adoperato per la loro liberazione. Queste accuse vengono subito smentite da Simona Torretta che, in una prima conferenza stampa, dichiara: "Abbiamo ringraziato fin da subito il governo, maggioranza e opposizione, le istituzioni, tutte le parti che hanno collaborato all'esito positivo della nostra vicenda". Smentisce chi ha parlato di "ingratitudine" nei confronti del governo italiano. Anche Simona Pari ci tiene ad esprimere apertamente la sua gratitudine, ringrazia anche lei "le forze politiche della maggioranza e dell'opposizione, le comunit musulmane e cristiane del mondo, la croce rossa italiana, il governo, e i bambini iracheni", spiega che lei e la sua compagna hanno "sempre cercato di riunire due mondi distanti" e sperano che "questo dialogo possa continuare". Al di l dello studio, dei numeri e di tutte le analisi di laboratorio che si possono fare ai giorni doggi, penso che nessun programma possa realmente catalogare e definire le occorrenze del coraggio mostrato dalle due Simone. Nonostante tutto quello che hanno passato, le paure, i disagi ed il terrore di essere uccise, sentono lesigenza di ritornare in
108

quei luoghi di guerra per poter continuare ad aiutare chi realmente ne ha bisogno, al di l di ogni orientamento politico ma solo spinte dal sincero desiderio di umanit.

109

BIBLIOGRAFIA

BOLASCO S. Aggiornamento guida TALTAC BOLASCO S., BISCEGLIA B., BAIOCCHI F., - Estrazione automatica dinformazione di testi del
Mondo digitale Rassegna critica ICT anno III n.1 marzo 2004.

BOLASCO S. Analisi Multidimensionale dei dati Carocci, Roma. BOLASCO S. (1997 1998) Metodi per lanalisi statistica dei dati testuali dispense a.a. 1997-1998 Corso di Statistica III, Facolt di Economia, Scuola di Specializzazione di Metodi e Tecniche della Ricerca Sociale. CIPRIANI R., BOLASCO S. (1995) Ricerca qualitative e computer Franco Angeli, Milano CORRIERE DELLA SERA Il testo integrale del discorso di Bush dopo linizio dellattacco il
20 marzo 2003 Ricolfi L. (1997)La ricerca quantitativa NIS, Roma.

CUTILLO ENRICA A., BOLASCO S., - Applicazioni di analisi statistica dei dati testuali dicembre 2004. CUTILLO ENRICA A. (1996) Lezioni di Statistica Sociale I,II CISU, Roma. CUTILLO ENRICA A, GENNAI A. Guida alluso dello Spad-T GIULIANO L. Appunti del corso di Metodi Quantitativi per le Scienze Sociali a.a. 1996-1997 GIULIANO L. - Lanalisi automatica dei dati testuali. Software e istruzioni per luso Led on line (on line da ottobre 2004). Guida in linea TALTAC: Help di Taltac 1.0

110

DELLA RATTA, RINALDI Lanalisi testuale in Italia. Unindagine di sociologia della


scienza

IRRSAE DEL LAZIO (a cura di Massimo Radiciotti) LAnalisi testuale dei messaggi di S. Bolasco (2001) JADT (1995) III Giornata Internazionale di Analisi Statistica dei Dati Testuali, vol I e II - CISU, Roma JADT (1998) - http://www.cavi.univ-paris3/lexicometria/jadt/jadt1998JADT1998.htm JADT (2000) Actes des 5esJournes dAlyses statistique des Donnes Textualles - 9-11 Mars2000, M. Rajman & J.C. Chappellier, Ecole Polytechniquefdrale de ausanne SMELSER NEIL J. (1995) Manuale di Sociologia il Mulino, Bologna. S.I.S- (Scuola della Societ Italiana sui metodi per lanalisi testuale) Dispense del corso SIS - (tenuto a Roma il 3-7 luglio del 2000) TESI DI STABELLINI A., - Il lessico di Newsgroups di argomento religioso: lo studio di
quattro con applicazione dello Spad-T - (a.a. 1999-2000)

STABELLINI A. Spad-T .Software per lanalisi dei dati testuali Dispense didattiche per il corso di Metodi Quantitativi per le Scienze Sociali a cura di Luca Giuliano (a.a. 2000-2001)

111

I SOFTWARE PER LANALISI DEI TESTI

ALCESTE - http//www.image.cict.fr/alceste.html EULOGOS Sistema lessicale integrato di analisi linguistica (JADT 1995) Nicola Mastidoro HYPERBASE http://134.59.31.3/~brunet/PUB/hyperwin/hypermenu.htm LEXICO - http://cavi.univ-paris3/ilpga/tal/lexicoWWW/index.htm Spad-T - Introduction SPAD Tintgr Version 1.5P.C,CISIA, Saint-Mand (France) SPHINX http//www.lesphinx-development.fr/ TROPES http//www.acetic.fr TALTAC http//www.taltac.it

112

SOMMARIO
CAP. I - LANALISI STATISTICA MULTIDIMENSIONALE
1.1 Levoluzione dello studio statistico della lingua..........p.3 1.2 Definizioni e concetti...........p.4 1.3 Vocabolario, lessico e dizionario......................................p.8 1.3.1 Lessici di Frequenza...........p.10 1.4 Aspetti di tipo quantitativo.............p.15 1.5 Dalla Linguistica alla Statistica......p.20 1.6 Il trattamento del testo............p.22 1.7 Lanalisi multidimensionale del contenuto.........................................p.29 1.8 Caratteristiche per l' applicazione dei metodi di statistica testuale.........................p.32

CAP. II- LE MATRICI


2.1. Tipi di matrici............................................p.33

CAP. III I SOFTWARE


3.1 I software utilizzati nella statistica testuale...p.37 3.2 Principi di funzionamento di un software per l'analisi di testi..p.38 3.3 Software - aspetti computazionali.........p.39 3.4 - SPAD-T.....p.40 3.5 ALCESTE.....p.41 3.5.1 Obiettivo ...p.41 3.52 Metodo utilizzato ....p.41 3.5.3 Funzioni ....p.41 3.6 EULOGOS....p.43 3.7 SPHINX........p.44 3.8 TALTAC.......p.46 3.9 TROPES.....p.48 3.10 INTEX.p.49 3.11 LEXICO 3...p.49

113

CAP. IV INTRODUZIONE LAVORO TALTAC


4.1 Introduzione..p.50 4.2 La storia: dal sequestro alla liberazione delle due Simone....p.52 4.3 Analisi del testo.p.54 4.4 Analisi del contenuto degli articoli della Repubblicap.56 4.4.1 Aspetti quantitativi del corpus ...p.56

CAP. V ANALISI DEI SEGMENTI


5.1 Calcolo dellindice IS...p.57 5.2 Calcolo dellindice relativo IS..p.59

CAP. VI - ANALI DEL VOCABOLARIO


6.1 Il Vocabolario (con Tag Grammaticale) utilizzato nel corpus..p.61 6.2 Analisi dei verbip.62 6.2.1 Alcune flessioni verbali pi ricorrenti....p.64 6.2.2 Estrazioni di informazioni..p.68 6.3 Analisi dei nomi propri.....p.71 6.4 Analisi dei sostantivi....p.76 6.5 Analisi degli esotismip.79 6.6 Analisi degli aggettivi...p.82

CAP. VII - ANALISI DELLE SPECIFICITA


7.1 Estrazione delle parole caratteristiche..p.84 7.2 Analisi delle specificit (I periodo)....p.85 7.3 Analisi delle specificit (II periodo) ..p.90 7.4 Analisi delle specificit (III periodo) p.94 7.5 Analisi delle specificit (IV periodo) p.98

CONCLUSIONI.p.105 BIBLIOGRAFIA..p.119

114

115