Sei sulla pagina 1di 8

Banche dati testuali e biblioteche telematiche come mezzi di implementazione

tecnologica della filologia nel campo della letteratura italiana.


Angelo Pagliardini (Universität Innsbruck)

Premesse
Sopra il leggìo di quercia è ne l'altana,
aperto, il libro. [...] i
Come nell'incipit di questa lirica dai Poemetti di Pascoli, libro e leggio costituivano, prima
dell'avvento del computer, l'unico supporto tecnologico alla lettura dei testi letterari, per
un'operazione che si identificava appunto con l'azione di "aprire un libro", in uno sfondo di
accennata sacralità su cui ci proietta la collocazione pascoliana all'interno di un'"altana", di
una loggia. La pervasiva diffusione delle tecnologie informatiche nel campo della scrittura e
della lettura dei testi, ha fatto parlare, nel corso degli anni Novanta, di una rivoluzione del
mondo della scrittura paragonabile a quella avvenuta con l'avvento della stampa, fenomeni
complessi indicati con le rispettive pittoresche metafore "galassia Gutenberg" e "galassia Von
Neumann". A fronte di queste fenomenologie articolate e complesse, nel presente contributo
si condurranno alcune riflessioni e considerazioni sulla costituzione di biblioteche testuali su
supporto informatico mobile (cdrom) o disponibili sulla rete Internet per la consultazione di
testi letterari, partendo da quei sussidi per l'indicizzazione del testo che sono stati definiti, con
un anacronismo terminologico, "strumenti proto-informatici", e che sono da tempo, in alcuni
casi da secoli, disponibili al filologo, nel momento in cui, come lettore qualificato, si accosta
al testo letterario per ristabilirne la lezione migliore possibile sulla base della tradizione
manoscritta e a stampa, oppure al fine di interpretarlo e commentarlo per una congrua
collocazione linguistica, storico-letteraria e culturale.
Si tratta dii dizionari storici (e di tutti quei dizionari che, anche se concepiti come dizionari
storici, sono basati sullo spoglio dei testi, a partire dal Vocabolario degli Accademici della
Crusca del 1612), di rimari, di concordanze testuali, e dei più recenti indici di frequenza e
repertori statistici, di cui si possono ritrovare alcuni esempi in bibliografia.
L’avvento dell’informatica ha favorito e perfezionato l’approntamento di questi strumenti, ma
ha anche suggerito una riflessione generale sulla loro natura: la caratteristica che li accomuna
è che sono basati sullo spoglio, di un testo o di un corpus di testi, analizzato come aggregato
di dati, di singoli elementi individuabili ed isolabili, assai complesso nella sua struttura
globale, tuttavia disaggregabile, e all’interno del quale sia possibile reperire i vari tipi di dati
con procedimenti differenti dalla lettura sequenziale, ad esempio accorpando tutti i luoghi del
testo dove compare una data parola.

1
[Fotocopia 1 Lemma "occhio" Vocabolario della Crusca]

Con uno strumento come il dizionario storico è possibile ricavare da una costellazione di testi,
informazioni sugli usi e sui significati della parola “occhio”, informazioni che sono state
ricavate dai redattori mediante spoglio dei testi citati.
In forma più accentuata si presenta la “decostruzione informatica” del testo nelle
concordanze, strumento filologico in cui si ha la mera aggregazione delle pericopi del testo
caratterizzate dall’occorrenza di una stessa forma (o delle forme di uno stesso lemma), con un
fenomeno degno di rilievo: il filologo si trova a poter “leggere” un testo che non è mai stato
scritto, un testo virtuale, risultato della riaggregazione di stringhe testuali isolate dal testo
preso in esame, che era molto meno esteso delle rispettive concordanze testuali. Somma
prudenza e moderazione dovranno quindi governare l’uso di questi strumenti in quanto si
potrebbe essere tentati a leggere i dati risultanti dalle concordanze, tralasciando la lettura
sequenziale del testo, che, sola, dà conto di quell’unicità e individualità propria e irriducibile
che lo caratterizza.
Analogo il caso degli indici di frequenza, a proposito delle cui insidie possiamo fornire un
esempio concreto. Se consultiamo un indice di frequenza per ricavare i dati relativi alle
occorrenze della congiunzione “ma” nelle Rime di Dante e nel Canzoniere di Petrarca,
noteremo che il valore della frequenza assoluta è rispettivamente di 60 contro 167, e quindi la
congiunzione avversativa sembrerebbe di gran lunga più usata da Petrarca. Ma data la
lunghezza differente dei due testi, occorrerà piuttosto rivolgerci alla frequenza relativa per
avere un dato significativo, e potremo notare allora che l’uso nei due testi è pressoché
paritario, con una leggera prevalenza nel testo di Dante: rispettivamente il 4,6 % contro il 5
%. Peraltro ciò dà conto della sintassi concettuale più dialettica della poesia dantesca rispetto
a quella di Petrarca in cui prevale la coordinazione cumulativa basata sulla moltiplicazione
anaforica della congiunzione "e".
Alla metà degli anni Ottanta, dall'incontro di un filologo, Paquale Stoppelli, con un
informatico del Centro di Linguistica Computazionale del CNR di Pisa, Eugenio Picchi, è
nata l'idea di creare una banca dati testuale formata dai testi canonici della letteratura italiana,
strutturata in modo da poter ricavare informazioni statistiche tramite interrogazioni costruite
ad hoc. Il filologo ha cercato di formalizzare secondo una sequenza di procedure elementari,
le operazioni compiute durante l’analisi e il commento di uno o più testi, e l’informatico ha
potuto così trasferire dall’operatore umano al sistema di elaborazione automatica dei dati le

2
procedure individuate. Il risultato di tale interazione è stato il motore di gestione di una banca
dati testuale denominato DBT, e il suo utilizzo all'interno del cdrom LIZ pubblicato da
Zanichelli.
Il primo risultato di tale operazione, del tutto banale ed intuitivo, è di tipo meramente
quantitativo, data la massa di testi che possono essere racchiusi in un supporto dalle
dimensioni minime, oppure, in uno sviluppo successivo, in quello spazio virtualmente
raggiungibile da ogni soggetto collegato alla rete che è Internet: tuttavia in un caso come
questo il rapporto quantitativo di convenienza e di risparmio di spazio e di dislocazione delle
risorse bibliografiche, è talmente elevato che non potrà non avere anche un impatto
qualitativo sul lavoro del filologo.
Il secondo risultato è legato alla facilità di aggiornamento degli strumenti informatici. Basti
pensare alla vicenda editoriale di un’impresa monumentale come quella del Grande
dizionario della Lingua italiana, fondato da Salvatore Battaglia e portato a termine da Giorgio
Bàrberi Squarotti, dove il criterio di scelta dei testi spogliati per la redazione delle voci e per
la scelta degli esempi è variato nel corso dei decenni che hanno visto la progressiva aggiunta
di testi sottoposti allo spoglio, con un allargamento della base per le voci successive rispetto
alle prime, in quanto un eventuale aggiornamento dei primi volumi con dati ricavati dai nuovi
testi spogliati avrebbe comportato o una riedizione, con costi editoriali insostenibili, oppure
l’aggiunta di scomode e pur sempre provvisorie appendici. Con la banca dati testuale
l'aggiornamento avviene a prezzo di sforzi e costi molto più limitati. Nella prima edizione
della LIZ erano presenti 362 testi, nella seconda 500, nella terza 770, per arrivare ai 1000 della
quarta ed ultima edizione. E al momento di svolgere una singola ricerca, ad esempio un'analisi
di tutti i significati assunti contestualmente dalla parola "parlamento", otteniamo i dati
aggiornati riferiti tutti i testi inseriti nell'ultima edizione.

[FOTOCOPIA 2: frequenze di "a me mi piace" nelle opere di Verga]

Il terzo risultato è meno trasparente, e più intrinsecamente “informatico”: la banca dati


testuale consente una serie di percorsi di accesso e di attraversamento che a differenza della
normale lettura sequenziale del testo, possono avere un tracciato non lineare. Ad esempio
potremo condurre ricerche sulla presenza della ridondanza pronominale “a me mi piace” nelle
opere di G. Verga e vedere che le occorrenze di questa sono molto più fitte nelle opere veriste
che nei romanzi giovanili. E fare quindi un confronto con romanzi di altri autori
dell'Ottocento.

3
Si potrebbe indicare con il termine "filologia del macro-testo" l’applicazione delle tecniche
informatiche all’attività filologica che mira alla restituzione della lezione a testo più
attendibile sulla base della tradizione del testo e di tutti quegli elementi che possano
consentire la ricostruzione dell’usus scribendi sulla base degli altri testi dello stesso autore e
di testi coevi o dello stesso genere, supportata non dalla semplice lettura del testo o dei testi,
ma della possibilità di interrogare, cioè di “leggere sinotticamente”, tutti i testi che interessano
per vagliarne gli elementi che interessano. Vediamo subito un esempio applicato alla
ricostruzione del testo della Mandragola di N. Machiavelli, nella recente edizione critica
curata da Pasquale Stoppelli, testo la cui tradizione si basa su due testimoni pressoché coevi
senza interrelazione gerarchica: il manoscritto R e l’edizione a stampa C.

[FOTOCOPIA 3: esempi dalla Mandragola - fortuna/natura, ]

Nel caso riportato nella fotocopia sulla Mandragola l’alternativa si presenta fra due parole
densissime di rilevanza all’interno dell’opera di Machiavelli e risulta quindi di grande
momento la scelta fra le due lezioni che la tradizione ci ha fatto pervenire: natura e fortuna.
In un caso come questo la ricerca di tutti i contesti in cui ricorrono le due parole all’interno
dell’opera di Machiavelli, o di eventuali cooccorrenze con altre parole della frase ci potrà
suggerire se qui si dovrà indicare “natura” o “fortuna”. Ciò si potrà effettuare attraverso una
ricerca delle occorrenze di "natura" e "fortuna" nell'intero corpus di Machiavelli. La disamina
dei dati forniti da tale interrogazione sarà, in questo caso, complessa e laboriosa, dato il
numero di contesti ottenuti, ma si pensi all’utilità di questa indagine stilistico-semantica in un
caso così importante di esegesi testuale, e si pensi che in mancanza di questo strumento tali
dati sarebbero stati con molta difficoltà estratti nella lettura integrale delle opere di
Machiavelli. Inoltre la LIZ permette al filologo di reperire una occorrenza della stessa
struttura sintattico-concettuale in Jacopo Passavanti.
Avviandoci alla conclusione, alcune considerazioni su ciò che accade quando viene
indicizzato ed elaborato un testo scritto con il computer. La trasposizione da supporto
cartaceo a supporto informatico che può essere effettuata secondo diversi gradi.
1. Acquisizione della pagina scritta come immagine. Il supporto informatico diventa una
sorta di “album fotografico”. L’unica strutturazione dei dati è il riferimento bibliografico
o la didascalia di ogni unità di testo che costituisce un'immagine e non si potranno cercare
parola nei testi, bensì ritrovare una pagina oppure la pagina avente una certa didascalia
descrittiva da noi inserita.

4
2. Scrittura di un testo attraverso un programma di word processing. La visualizzazione
emula il supporto cartaceo, e in particolare l'ambiente dell'ufficio e la scrittura attraverso
la macchina da scrivere, ma il testo è acquisito al computer attraverso una serie di
procedimenti di codifica e decodifica la cui natura non è visibile all'utente. È possibile
eseguire operazioni come il conteggio delle parole del testo, oppure la ricerca di una
parola o di una stringa, ma non elaborazioni più sofisticate come indicizzazioni o
generazione di concordanze.
3. Costituzione di una banca dati testuale. Il procedimento potrebbe essere descritto
metaforicamente come se il sistema immagazzinasse le singole parole (o altri elementi
codificati come unità elementari) all’interno di un contenitore, con l'etichettatura di ogni
elemento che ne indichi informazioni come le coordinate logiche, le coordinate
topografiche all’interno del testo, il testo di appartenenza.
La base di quest'ultima applicazione linguistico-filologica dell'informatica è la
rappresentazione del testo come un insieme di dati elementari che possano essere codificati e
trattati attraverso il computer per ottenere risultati che un lettore "umano" non può ottenere a
causa della sua capacità limitata di analizzare quantità molto elevate di dati. La costituzione di
una banca dati testuale è un'operazione eminentemente filologica, in quanto saranno da
scegliere al momento dell'indicizzazione del testo, gli elementi da codificare e quelli da
tralasciare perché non rilevanti ai fini delle ricerche filologiche.
A proposito di tali operazioni, negli anni Novanta si è acceso un vivace dibattito che ha
accompagnato anche la nascita e la definizione dell'informatica umanistica come disciplina
accademica, con il pieno riconoscimento nel DM 28 novembre 2000, in cui viene inserita, con
la denominazione «Informatica per le discipline umanistiche», all'interno dell'attuale e
pluriennale riforma dell'università italiana.
Per quanto riguarda le opinioni in campo in Italia, da un lato c'era chi, come il già citato
Stoppelli, ritenevano che la filologia, nell'era dell'informatizzazione, non vedeva mutato il
proprio statuto epistemologico, bensì proseguiva con nuovi potenti sussidi sulle linee
tradizionali, e conseguentemente sostenevano che fosse opportuno progettare applicazioni
concretamente realizzabili e utilizzabili per il lavoro filologico, cercando di reperire sia nel
mondo accademico che nel mondo editoriale risorse e disponibilità verso questi progetti, con
un percorso teorico fortemente orientato alla pratica applicativa, che ha portato alla
definizione del sistema di indicizzazione e interrogazione testuale DBT, già citato. A questa
posizione si opponeva chi, come Tito Orlandi, in primo luogo filologo esperto di copto, poi
dedicatosi allo studio delle applicazioni dell'informatica in campo umanistico, teorizzava

5
invece una profonda rivoluzione della filologia attraverso l'informatizzazione dei
procedimenti di trattamento del testo. In linea con questo secondo orientamento possiamo
citare le idee e i progetti del CRILET, un centro di ricerca fondato e diretto fino alla morte
prematura da Giuseppe Gigliozzi, che ha prodotto degli strumenti informatici, come
SEBNET, con cui attraverso l'attribuzione di nomi e azioni a certi parametri narratologici, si
mirava a ricostruire schemi ricorrenti nella narrativa, ad esempio in Pirandello e in Volponi.
Si tratta di prospettive molto interessanti e stimolanti, tuttavia a volte si ha l'impressione che
in questo caso le analisi preliminari effettuate sul testo per codificare le varianti e le costanti
nello schema narrativo, costituiscano di per sé il nucleo principale della ricerca, cosicché il
computer non sia utile tanto per l'elaborazione dei dati svolta attraverso la macchina, quanto
come stimolo per queste analisi e codifiche strutturali del testo.
Un altro punto di discussione molto fecondo riguarda la codifica dei testi da indicizzare
all'interno dei corpora testuali. Il sistema di interrogazione della LIZ, e di altre banche dati
testuali curate dallo stesso Stoppelli, da Amedeo Quondam e da altri, prevedeva una codifica
dei testi in un formato proprietario, legato ad un editore e non di libero uso. Una evoluzione
successiva di queste banche dati si può ritrovare nella Biblioteca italiana on line, nata da un
consorzio interuniversitario e già ricca di ben 1500 opere della letteratura italiana interrogabili
online. L'impresa, sotto la direzione di Amedeo Quondam e Mirko Tavoni, ha adottato
all'inizio il supporto informatico del DBT, per passare poi ad una codifica dei testi sulla base
di uno standard condiviso a livello internazionale, il linguaggio di codifica della TEI, i cui
programmi di applicazione sono di natura Open source.
La diffusione on line e l'uso di una codifica standard costituiranno senz'altro lo sviluppo
futuro più conveniente e potente della banca dati testuale per il filologo, in quanto decisiva
sarà la possibilità di vasta applicabilità testuale di uno strumento informatico di interrogazione
testuale, dato che l’utilizzazione di tale strumento rende necessaria la presenza di una
biblioteca più vasta possibile di testi da interrogare. La costituzione di tale rete di biblioteche,
siano essa personali, comuni ad un gruppo di studio, pubblicate su cd-rom, o disponibili in
rete, richiede un’operazione di trasferimento dei testi da supporto cartaceo a supporto
informatico, per la quale si rende necessaria la competenza e la capacità operativa specifica di
quello che potremmo definire, nell'era attuale di interscambio fra Gutenberg e Von Neumann,
“il copista informatico”. Se poi prendiamo in considerazione l'altro polo, quello della
fruizione, possiamo descrivere la funzione cui tendono tutti questi strumenti di de-costruzione
e ri-aggregazione dei dati presenti nel testo, come quella di fornire al lettore la capacità di una
lettura simultanea dell’intero testo, e anche di un intero corpus, cioè dell’intera biblioteca che

6
deve far parte della “memoria filologica” dello studioso nel corso delle sue ricerche o analisi
testuali: l’uso di questi mezzi, produrrà così una potente addizione di memoria messa a
disposizione di quel lettore memore e aperto al futuro del testo che è il filologo.

7
i
PASCOLI 2002, I 1371