Linguistica Computazionale Prof - Milanese

LINGUISTICA COMPUTAZIONALE
INFORMATICA UMANISTICA
Conferenza di Tito Orlandi, l’inventore dell’informatica umanistica Commentato [CG1]: http://www.cmcl.it/~orlandi/pubbli/
saggiomio.pdf
[ … ] It seems evident that when the computer is applied in the humanities only so far as it simulates (does the work of)
a “traditional” machine, then no new methodological problems arise, because there is no substantial difference from the
traditional procedures, if not of speed and convenience. On the contrary, when the computer is applied in its full
capacity of running algorithms, humanities are confronted with a radically new situation, for which there is no
commonly recognized methodology”.
[ … ] Sembra evidente che quando il computer viene applicato solo alle discipline umanistiche nella misura in cui
simula (fa il lavoro di) una macchina “tradizionale”, allora non sorgono nuovi problemi metodologici, perché non vi è
alcuna differenza sostanziale dalle procedure tradizionali, se non di rapidità e convenienza. Al contrario, quando il
computer viene applicato nella sua piena capacità di eseguire algoritmi, le discipline umanistiche si trovano ad
affrontare una situazione radicalmente nuova, per la quale non esiste metodologia comunemente riconosciuta”.
Questo passo è tratto da una conferenza di Tito Orlandi tenuta qualche anno fa a Londra, ma che non
è mai stata pubblicata. Egli esprime concetti per nulla ovvi e questo costituisce un po’ il manifesto
della disciplina dell’informatica umanistica. Per comprendere a fondo le parole dello studioso, è
importante prima sapere che cos’è un algoritmo. “Algoritmo” è una parola tecnica che prevede una
descrizione esatta e dettagliata dei dati di uno strumento (ex. Quando si cucina e si segue una ricetta
è necessario che essa abbia tutte le informazioni necessarie per poter creare un buon prodotto; servono
quantità, tempistiche e strumenti adatti. Se anche solo uno di questi elementi manca, la ricetta non
riesce). I fattori che caratterizzano un algoritmo, dunque, sono 3: 1. la descrizione esatta dei dati che
devono entrare, 2. la descrizione esatta del procedimento che deve essere messo in atto e 3. infine la
descrizione esatta del prodotto che si vuole ottenere. Sapere tutto questo è fondamentale perché
corrisponde esattamente a ciò che si mette in atto quando si fa uso di un computer. Orlandi, nella
citazione sopra riportata insiste moltissimo sul concetto di algoritmo. Egli dice anche che non ci sono
grandi differenze tra l’utilizzo dei computer e le procedure classiche, se non per quanto riguarda
velocità e praticità. Il computer, dunque, non fa altro che simulare un sistema tradizionale. È molto
importante però tenere a mente che non si tratta di fare le stesse cose un po’ più velocemente, ma di
cambiare l’approccio. Sono 2, infatti, i punti fondamentali nell’ambito dell’informatica umanistica
(anche definita “humanities computing”): il punto 1 è nella formalizzazione dei dati e delle procedure,
mentre il punto 2 prevede la rappresentazione dei dati in input e in output.
Dominare i dati: il mondo antico
Dominare i dati significa tenerli sotto controllo. Facendo un passo indietro nella storia, si può
ricordare che in un certo momento dell’età ellenistica sono nate le prime grandi raccolte di libri. Gli
scritti, dunque, iniziano ad essere tanti e diventa necessario raccoglierli in modo da renderli
disponibili. Proprio per questo motivo vengono create le prime grandi biblioteche. Il continuo e
sempre più consistente aumentare del numero dei libri ha portato i primi bibliotecari a domandarsi
come fare a individuare un determinato scritto in mezzo a quell’enorme qualità di elementi (ex. sapere
se fosse in uno scaffale piuttosto che in un altro). Da qui nasce il primo momento di descrizione del
dato e iniziano a svilupparsi i concetti per come si intendono oggi. La nascita del computer non è
stata semplicemente una concettualizzazione nata nel secolo scorso, ma è qualcosa di molto più antico
e radicato nel tempo. Si è partiti infatti dalle prime formalizzazioni e organizzazioni di dati per poi
arrivare alla creazione di strumenti in grado di svolgere questi procedimenti al meglio. Inizialmente,
ad esempio, le informazioni relative ad uno scritto venivano segnate su dei bigliettini, che venivano
poi organizzati e catalogati in cassetti pieni di cartelle.
Schedature lessicali e la nascita dei dizionari
Quello presente nella foto qui sotto riportata è un dizionario del 4 secolo a.C. L’autore è Nonio
Marcello. Nel secolo 4 studia latino antico e per fare ciò analizza un lemma e riporta per iscritto i suoi
significati. Per aiutarsi nella spiegazione poi aggiunge alla definizione anche una citazione. Nonio
Marcello trascrive tutto su fogli di papiro e li inserisce in uno schedario dando loro un ordine. La sua
opera costituisce di fatto uno dei primissimi dizionari monolingui nella storia. Se si osserva ora un
dizionario attuale, come ad esempio The Oxford English Dictionary si può notare come quest’ultimo
sia strutturato esattamente allo stesso modo di quello di Nonio Marcello. È evidente quindi una certa
formalizzazione. È possibile trovare formalizzazione anche in alcune traduzioni della Bibbia. Studiare
la Bibbia è sempre stato molto difficile, poiché era complicato comprendere i significati delle parole.
Alcuni studiosi medievali, dunque, hanno deciso di risolvere il problema creando una sorta di
glossario di tutti i vocaboli utilizzati per aiutare la comprensione del testo a chi desiderava studiarlo.
Nella foto qui riportata si possono vedere numerose “A” scritte in maiuscolo ed in colore rosso; questo
perché la pagina raffigurata contiene le parole che iniziano con questa lettera. La nascita del computer
ha permesso di portare alla massima forza tutti questi procedimenti presenti già da tempo. Con il
computer la formalizzazione del dato diventa fondamentale per garantire un uso intelligente dello
strumento. È possibile riassumere tutto con questo schema: formalizzazione dato => trasformazione
con algoritmo => prodotto (INPUT, trasformazione, OUTPUT).
La critica testuale
Il primo campo in cui la necessità del computer è emersa è quello della critica testuale. Ma cosa vuol
dire l’espressione “critica testuale” (anche detta “filologia”)? La critica testuale si occupa di ricercare
il testo originale o almeno la versione più antica di un determinato testo. Il computer, dunque, viene
utilizzato in questo ambito per fare dei confronti automatici tra testi. Nel mondo umanistico c’è ancora
un atteggiamento di sospetto verso la tecnologia. Ci sono alcuni tipi di testi che devono essere ad
unico testimone. Un esempio comune sono i documenti notarili. Ci sono poi opere “aperte” cioè che
non hanno un’unica versione, ad esempio l’epica antica, i canti popolari o il canto liturgico
tradizionale. Altre opere nascono per avere un testo stabile, come ad esempio nel caso della letteratura
occidentale. Stabilire il testo di queste opere risulta sempre molto difficile perché esistono svariate
versioni ma il testo originale è unico. Questo accade ad esempio a causa degli errori durante la
copiatura di un testo, che a lungo andare (se vengono costantemente ripetuti) possono anche
comportare modifiche al significato originale del testo. Prima della nascita della stampa ogni copia
era un unicum. Il testo stabile si trova dunque a fare i conti con il fatto che nell’operazione di copiatura
ci sono stati molteplici interventi e conseguenti alterazioni (sicuramente non volute) dovute a
frequenti errori di copiatura.
Trasmissione dei testi
Secondo Giorgio Petrocchi, uno studioso e critico letterario di origine italiana, quella nello schema è
la trasmissione del testo della Divina Commedia. È risaputo che in nessuna delle opere di Dante
Alighieri ci sia la sua firma e proprio a causa di questo aspetto, molto spesso nella storia è risultato
difficile attribuirgli determinati scritti. Osservando questo schema dall’alto verso il basso è possibile
notare come a partire da un’unica opera si sviluppino molte ramificazioni che stanno ad indicare le
volte in cui quel testo è stato copiato e confrontato con altre copie. Il testo più difficile da seguire sarà
chiaramente quello più lungo e quello costituito da molteplici manoscritti. Questo secondo schema
più piccolo e breve invece riguarda e rappresenta l’ipotetica trasmissione di un testo. Si parte sempre
da un archetipo, che è la copia più antica esistente di un determinato testo (non è detto che sia la
versione scritta dall’autore). Di questo archetipo spesso si hanno diverse copie, che vengono
confrontate attentatemente nel tentativo di correggere eventuali errori di copiatura (quelli di cui si è
certi) e ricostruire il testo originale nella maniera più fedele e realistica possibile. L’algoritmo
standard della critica testuale, dunque, prevede il confronto dei testimoni, l’ identificazione degli
errori sicuri, la ricostruzione delle famiglie e dello stadio più antico del testo e l’ipotesi di un testo
“originale”.
Un primo contatto con la tecnologia

Nell’anno 1840 le autorità dell’Abbazia di Saint-Pierre de Solesmes, nella Francia del Nord, hanno
iniziato a mandare i monaci benedettini in giro per il mondo a fotografare numerosi manoscritti.
Questo fatto è fondamentale nella storia dell’informatica umanistica in quanto i monaci di questa
chiesa sono stati i primi in assoluto ad avere un rapporto sano con la tecnologia. Questo è il momento
in cui nasce ufficialmente l’informatica umanistica moderna, e questo aspetto viene determinato dal
fatto che l’umanista non ha paura della tecnologia e degli strumenti che utilizza. Tutto questo viene
messo in atto nel tentativo di evitare di vivere giornate infinite a copiare a mano testi esageratamente
lunghi. Si cerca dunque di rendere il lavoro più rapido, più chiaro, più preciso, ma efficace. Il
contenuto del lavoro svolto non cambia; quello che cambia è la prospettiva nei confronti del lavoro e
delle modalità in cui il tutto può essere svolto. Non vengono nemmeno più commessi errori nel
processo di copiatura dei testi.
Il computer prima del computer
Dopo aver velocizzato il lavoro di trasmissione e di copiatura dei testi, si fa sentire in modo sempre
più forte il bisogno di ottimizzare anche il procedimento di confronto e analisi delle opere scritte. A
questo proposito interviene una figura importantissima che si chiama Henri Quentin. Egli, tra il 1820
e il 1830, elabora un algoritmo che serve a confrontare automaticamente tutti i manoscritti l’uno con
l’altro. La particolarità in tutto questo riguarda il fatto che tutto questo viene messo in atto senza però
avere la macchina per farlo. Viene sviluppata dunque per la prima volta l’idea di voler arrivare ad
avere un confronto automatico tra i manoscritti. Henri Quentin intuisce e anticipa dunque il fatto che
prima o poi sarebbe arrivato il momento in cui il confronto tra questa quantità di dati sarebbe stato
fatto da qualcosa di automatico. I suoi, quindi, sono chiari tentativi di quantificazione della critica
testuale.
Il concetto di corpus
Un concetto fondamentale da analizzare ora è quello di “corpus” (“corpora” plurale). Con questo
termine si indica una raccolta completa ed omogenea di dati/oggetti (in questo caso raccolta di testi).
Con la definizione “raccolta omogenea” si possono intendere moltissime cose, come ad esempio
romanzi francesi dell’800, i numeri di un quotidiano, le opere di un determinato autore o di un pittore,
… Con il concetto di omogeneità ci si può riferire di fatto a parametri molto diversi tra loro. Il termine
“corpus” è una parola latina molto utilizzata anche in inglese, e viene usata dai filologi da moltissimo
tempo con il significato di ‘raccolta completa’ di qualche tipo di testo. Una raccolta storicamente
importante è quella delle opere di San Tommaso d’Acquino, un frate domenicano che aveva una
grandissima capacità di concentrazione e scrittura. La raccolta dei suoi testi scritti prende il nome di
"corpus thomisticum”. La nascita dei “corpora” corrisponde ad un momento importantissimo dello
sviluppo dei computer. Questo viene reso noto ad esempio da uno studioso di nome Roberto Busa, il
quale aveva il desiderio di studiare il lessico di San Tommaso. Egli si rese conto che utilizzare un
computer fosse l’unico modo per analizzare velocemente le opere del santo e individuare in pochi
instanti le parole utilizzate in modo frequente dall’autore. Sarebbe stato impossibile per lui cercare a
mano i vocaboli, e quindi la presenza di uno strumento elaborato gli ha permesso di velocizzare
notevolmente gli studi.
Strumenti fondamentali per l’analisi dei testi
Nell’analisi di un testo gli strumenti fondamentali da utilizzare sono i 4 riportati qui di seguito:
1. Elenco di parole=permette di sapere se un autore utilizza o meno una certa parola, e quindi se
il termine in questione è entrato nel linguaggio corrente oppure no (ex. il termine “booster"
utilizzato in riferimento al vaccino: questa parola è entrata nel linguaggio in questo periodo,
prima non c’era).
2. Indice=è la lista delle parole accompagnate da un riferimento (ex. numero del verso o della
pagina)
3. Indice frequenziale=è la lista delle parole accompagnate dall’indicazione della frequenza
d’uso in ordine di frequenza (ex. nella Divina Commedia le 2 parole più utilizzate sono
“occhi” e “vedere”).
4. Concordanza=corrisponde alla lista di tutte le parole che vengono inserite in una porzione di
testo.
COMPONENTI FONDAMENTALI IN AMBITO INFORMATICO
Hardware e software
Ci sono 2 componenti essenziali nell’ambito informatico, che sono l’hardware e il software. Il primo
corrisponde a tutti gli elementi fisici di un sistema informatico (ex. scheda madre, dispositivi di input
come tastiera e mouse, dispositivi di output come monitor e altoparlanti, …). Il secondo aspetto
invece corrisponde alle istruzioni o ai dati memorizzati in un sistema informatico. Quest’ultimo
concetto più precisamente indica sia i dati (file) che tutti quei programmi che vengono utilizzati per
trattare i file. Nell’uso comune la parola “software” viene usata come sinonimo di “programma”, ma
l’uso già esatto dell’espressione comprende sia i dati (ex. testi, immagini e suoni) sia le istruzioni
(programmi).
Componenti di un computer
Ma che cosa c’è di fatto dentro un computer? Innanzitutto il cosiddetto “case”, ossia l’alloggiamento
dei vari componenti (n.b. un computer costa di più quando la “case" è più robusta). Poi c’è
l’alimentatore, anche detto “power supply unit, che è fondamentale in quanto un computer consuma
molta energia. Segue poi la scheda madre, la quale contiene il processore (centro del computer), le
memorie, le schede grafiche e le schede di rete. Si hanno successivamente le schede di espansione,
che vengono utilizzate per avere più memoria (usate negli smartphone) e le memorie di massa, che
sono dei dischi rigidi (magnetici o allo stato solido) che costituiscono un dispositivo di memoria
utilizzato per archiviare dati e applicazioni. Ad un computer inoltre possono essere associate le penne
USB (chiavette USB, flash drive, pen drive), i floppy disk (ormai non più utilizzati) e i nastri
magnetici (non vengono più utilizzati nei computer personali, ma ancora usati dai centri di calcolo).
Non vanno dimenticate infine le cosiddette periferiche di un computer, le quali possono essere di
input (tastiera, mouse, touch screen, scanner, microfono, videocamera ecc.) oppure di output
(monitor, stampante, altoparlanti ecc.). Tutti gli elementi sopra elencati costituiscono le componenti
fisiche di un computer (e quindi l’hardware) esso però può contenere anche altri elementi (software)
come, ad esempio, i file e i programmi. I primi sono tutti quei files che contengono testi, immagini,
video (ex. files TXT, PDF, ODT, DOCX, JPG, HTML, MP4). Generalmente l’estensione, ossia la
parte finale del nome di un documento posta dopo un punto (testo.PDF), indica che tipo di file è
quello che si sta usando. Questa non è tuttavia un’indicazione necessaria. I programmi invece, anche
conosciuti come “apps” o “packages”, sono files che contengono le istruzioni per svolgere un
compito. Nell’uso quotidiano si tratta ad esempio di browser, elaboratori di testi o immagini. Quando
si utilizza un computer, dunque, si dà un comando in input, si assiste all’elaborazione dell’algoritmo,
che produce poi un prodotto in output. Esistono 2 tipi di software differenti: quello aperto e quello
chiuso. Nel primo caso il sorgente del programma è liberamente accessibile, studiabile e modificabile.
Nel caso di accesso a dati, essi sono liberamente accessibili (ex. nelle riviste ‘open access’ l’autore
accetta il fatto che il lettore può leggere un articolo senza pagare). Il secondo tipo di software è quello
proprietario in cui il sorgente del programma non è liberamente studiabile (dati non liberamente
accessibili).
Attenzione !
L’errore più grande che si può commettere nel confronti di un free software è pensare che esso sia
necessariamente gratuito. In realtà questa è una verità solo parziale. È il caso di programmi come ad
esempio LibreOffice. Questo software è il diretto risultato di una derivazione da un altro programma,
OpenOffice, e garantisce un accesso libro agli utenti. LibreOffice, dunque, non costa nulla di fatto
perché è un programma finanziato largamente con l’assistenza professionale, un’assistenza telefonica
online che però deve essere pagata personalmente dall’utente in caso di necessità. Altro esempio è
Wikipedia, website che permette a chiunque un accesso libero per scrivere pagine nuove o
modificarne di già esistenti. Tutto questo sottolinea ancora una volta il fatto che i software aperti
garantiscano un accesso libero a chiunque. Il free software, dunque, segue una filosofia di
collaborazione, in quanto viene visto e considerato come attività creativa, sebbene questo aspetto
rischi di cadere nel fondamentalismo. Richard Stallman è un personaggio negli anni Ottanta inventò
l’idea del free software. È un fondamentalista ossessionato dall’idea della libertà del software e dalla
libertà dei dati. Un’altra figura fondamentale è quella di Linus Torvalds che, alla fine degli anni
Novanta, inventò in collaborazione con altri il sistema operativo Linux che fa funzionare il web. Egli
non è un fondamentalista, ma anzi, vede il free software come una buona soluzione che però, se non
funziona, può essere tranquillamente sostituita dai cosiddetti software proprietari. A differenza di
Richard Stallman, dunque, quest’ultimo non è un fanatico.
I costi
Anche in questo caso esistono diverse tipologie di software: il freeware, il shareware, e infine il
software commerciale. Nel primo caso l’uso del programma e/o l’accesso ai dati è completamente
gratuito. Per quanto riguarda il shareware invece il programma è utilizzabile gratuitamente con
limitazioni (ex. per un certo tempo o con funzionalità ridotte). Terminato il periodo di prova poi, il
programma richiede una licenza a pagamento. Nel caso di accesso ai dati, essi sono solo parzialmente
accessibili (ex. accesso alle prime pagine di un libro su internet). L’espressione “shareware” è al
giorno d’oggi meno usata che in passato, e viene soppiantata da “free trial” o dalla dicitura
“freemium”. Un software di tipo commerciale infine è un programma che richiede fin dall’inizio una
licenza d’uso a pagamento. Se il programma commerciale è anche proprietario, l’acquirente non
acquista il programma, ma soltanto il permesso di usarlo. Nel caso di accesso ai dati (non programmi)
essi sono accessibili solo a pagamento.
Uso possibile del software
L’uso di un software può essere di due tipologie differenti. Esso può essere multipiattaforma, e quindi
può essere adoperato su qualunque tipo di sistema operativo (di solito si sceglie tra i più noti ed
utilizzati, come ad esempio Windows, Linux, Android, …) oppure può essere limitato ad un solo ed
unico sistema operativo (ex. solo per Windows o solo per Linux). Questi ultimi tra l’altro sono
piuttosto diffusi.
Il web come un grande corpus di analisi
La più grande raccolta di testi e di strumenti esistente al momento è tutto il web. Esso, grazie ad alcuni
suoi strumenti e/o motori di ricerca, permette di ricercare e conoscere varie caratteristiche e aspetti
ad esempio di una lingua. Uno degli strumenti principali del web è sicuramente Google. Uno dei modi
per effettuare ricerche precise su questo motore è quello di utilizzare le virgolette. Se c’è la necessità
di cercare ad esempio un frammento di testo contenente l’espressione “credo che sia” è molto
importante inserire nella barra di ricerca questa frase tra 2 virgolette. Questo perché così facendo
usciranno solo soluzioni contenenti questa espressione. Se le virgolette non vengono utilizzate, i
risultati di ricerca si moltiplicano in quanto vengono proposti anche soluzioni contenenti le parole
“credo” “che” “sia” usate in modo singolo. Se non si desidera trovare ad esempio soluzioni con
l’espressione “credo che sia giusto” bisogna scrivere nella barra di ricerca “credo che sia” - giusto
(l’utilizzo del segno meno evita la parola “giusto” nelle soluzioni). Google è un programma che ha
potenzialità scientifiche veramente strepitose. Esso permette di effettuare analisi ad esempio in
ambito linguistico, che fino a qualche anno fa erano impensabili. Se si imparano ad utilizzare tutti gli
strumenti di Google c’è la possibilità di migliorare in maniera esponenziale lo studio delle lingue ad
esempio. Se si vuole imparare ad utilizzare una determinata espressione in lingua, è possibile
utilizzare la voce di ricerca ‘libri’ su Google (studiare dai libri ma nel web). Questo comporta un
cambio di prospettiva. Utilizzando questo strumento, Google permette di filtrare le ricerche. Se si
cerca ad esempio “credo che è giusto” nella sezione libri e si indica come periodo l’800, si può notare
come non compaiano soluzioni. Inserendo invece il secolo attuale i risultati sono molteplici. Questo
significa che l’espressione in analisi è entrata nel gergo comune scritto solo nell’ultimo periodo,
mentre invece prima non veniva utilizzata. Un altro strumento è Google Anagram Viewer che
permette di vedere quando nasce un’espressione all’interno di una lingua e quanto viene adoperata
nel corso dei vari anni (ex. nell’ambito economico si usa spesso il termine ‘management’, che era
assente prima degli anni 60, ma che ha poi avuto una crescita dagli anni 90 fino al 2010). Importante
è anche Google Scholar, strumento che permette di individuare quali articoli e libri pubblicati negli
ultimi decenni contengano determinati termini scientifici e parole chiave. Altri strumenti di analisi
disponibili ed installabili sul computer sono TextStat (un programma di analisi di testi che permette
di preparare gli indici delle parole, gli indici frequenziali e le concordanze per qualunque testo) ed
anche AntConc (un altro programma di analisi).
Il sistema operativo
Il sistema operativo è fondamentale in quanto senza di esso il computer non può funzionare e non è
in grado di fare nulla. Con “sistema operativo” si intende il software di base che permette di accedere
all’hardware di un sistema informatico, di controllarne i meccanismi di input e output, le periferiche
(ex. tastiera, stampanti, …) ed è necessario affinché altri programmi (detti ‘applicativi’, ma oggi
comunemente chiamati app) possano funzionare. Un PC non funziona senza sistema operativo perché
tutti gli strumenti in esso contenuti non sono in grado di colloquiare con il motore centrale dello
strumento. Un tempo non c’erano sistemi operativi diffusi, ma ogni centro di calcolo aveva il proprio.
Questo era chiaramente un grandissimo problema, in quanto ad esempio i dati elaborati in una sede
di ricerca non erano asportabili e visibili in un’altra. Ciò era fortemente vincolante, soprattutto in
alcuni ambiti specifici. L’unico modo per condividere i dati era stamparli, ma non era pratico. Ci sono
anche dati elaborati in passato che non sono più visibili ed analizzabili in alcun modo, poiché nessun
computer al giorno d’oggi è in grado di leggere ed elaborare i nastri in cui sono contenuti. Con il
tempo, dunque, si sono diffuse delle famiglie di sistemi operativi, che contengono quelli in assoluto
più diffusi ed utilizzati. I sistemi operativi di uso comune attualmente si suddividono in 2 grandi
famiglie distinte. La prima è quella dei Sistemi Unix, o da esso derivati, come ad esempio Linux,
Android, Apple, Apple iOS. La seconda famiglia invece è quella dei sistemi Microsoft Windows
contenente tutte le sue numerose varietà. Ma che cos’è Unix? È una famiglia di sistemi operativi che
nasce, circa 50 anni fa, dall’idea di inventare un sistema operativo funzionale ed esportabile. Si tratta
infatti di un sistema operativo, o meglio, di una famiglia di sistemi operativi, che derivano
dall’originario sistema sviluppato intorno al 1973 circa soprattutto da Ken Thompson e Dennis
Ritchie. Dennis Ritchie in particolare è stato un matematico e informatico al quale si deve la gran
parte dei meccanismi utilizzati oggi. A lui si deve l’invenzione di linguaggi per computer che fanno
funzionare i dispositivi di oggi. Egli è anche colui che ha inventato i cosiddetti protocolli che fanno
funzionare il web (quei sistemi che permettono ai computer di scambiarsi i dati) e tutto il sistema
Unix che è quello che fa funzionare il mondo di oggi. Egli è una delle figure più importanti del 900,
sebbene sia di fatto quasi sconosciuto. Tornando ad Unix, da questo sistema operativo derivano
sostanzialmente tutti i sistemi operativi oggi maggiormente in uso, con l’eccezione di Windows che
è a sé stante. Inizialmente Unix veniva diffuso gratuitamente; poi, una volta diventato più conosciuto
ed utilizzato, è stato reso commerciale. Con il tempo ha sviluppato una grande varietà di sistemi che
hanno poi iniziato a dividersi poiché ciascuno di essi ha sviluppato aspetti differenti. Un esempio di
sistema operativo ispirato da Unix è Linux. Esso è un sistema operativo libero (free software) di tipo
Unix ma non derivato da Unix. Il kernel (nucleo fondamentale) del sistema, infatti, è stato creato da
Linus Torvalds nel 1991. Linux è disponibile in moltissime varietà (dette distribuzioni) che sono
sviluppate liberamente da singoli programmatori o da aziende: attualmente le distribuzioni più diffuse
sono Ubuntu, nelle sue diverse realizzazioni, Debian, Slackware, Fedora e Suse. Linux nasce da
un’idea modulare, in quanto tutte queste distribuzioni condividono lo stesso nucleo fondamentale del
sistema operativo (detto kernel), ma si distinguono per i programmi installati, l’interfaccia grafica e
numerose altre caratteristiche. Linux è il sistema più diffuso nei grandi sistemi, nei supercomputers,
nei mainframes e nei grandi servers (i 500 computers più potenti del mondo usano tutti Linux perché
si adatta alle diverse esigenze dei fruitori). Android è un altro sistema operativo derivato da Linux
molto diffuso soprattutto negli smartphone. Quasi lo stesso vale per Apple, i cui sistemi derivano da
una varietà di Unix BSD. Alcuni di questi sistemi Apple sono Mac OSX (sistema operativo sviluppato
dalla Apple e preinstallato sui propri computers a partire dal 2002; esso deriva da precedenti
implementazioni di sistemi di tipo Unix) e iOS (originariamente iPhone OS, è un sistema operativo
Apple per iPhone, iPad). È necessario passare ora all’analisi dei sistemi Microsoft. I sistemi Windows
sono quelli in assoluto più diffusi nell’informatica personale. Windows, più correttamente chiamato
Microsoft Windows, è un sistema operativo, o meglio una famiglia di sistemi operativi che derivano
da un’interfaccia grafica utente, sviluppata nel 1981 e distribuita nel 1985 per accedere in modo
agevole all’originario MS - DOS, (Microsoft Disk Operating System). La versione oggi di uso più
comune è Windows 10 (seguito poi da Windows 11). Microsoft Disk Operating System è un sistema
operativo sviluppato dalla Microsoft di Bill Gates nei primi anni 80. Al giorno d’oggi non viene più
prodotto, ma è servito in passato come sistema operativo per le primissime implementazioni di quelli
che vengono definiti ancora oggi come “personal computers”.
Tipi di interfaccia
Esistono diversi tipi di interfaccia. Il primo viene definito “interfaccia a linea di comando”, ed è un
interfaccia di tipo testuale, poiché l’utilizzatore scrive direttamente i comandi attraverso la tastiera.
La questione importante qui è che tutti questi comandi devono essere imparati a memoria. Un esempio
di comando è cp mytest.txt documenti. Questo comando copia (cp) il file (mytest.txt) sulla cartella
(in questo caso “documenti”). Il vantaggio delle interfacce testuali è senza dubbio la grande rapidità
e il controllo assoluto da parte dell’utilizzatore sulle operazioni che intende compiere; lo svantaggio
è invece costituito dalla necessità di ricordarsi molti comandi, il che ha condotto poi allo sviluppo di
GUI, ossia l’interfaccia grafica utente. Quest’ultimo è un’interfaccia che permette all’utilizzatore di
interagire con un sistema informatico (computer, smartphone, tablet) attraverso una serie di immagini
(dette ‘icone’).
Analogico vs digitale
La parola “digitale” deriva da “dita”, che sono lo strumento in assoluto più antico utilizzato per
contare. Per cui in latino la parola “numero” è stata spesso tradotta con “digitus” (che in italiano vuol
dire “dito). Questo comporta che in inglese la parola “digital” quasi subito viene associata a
“numero”, e proprio per questo motivo “digitale” significa semplicemente “numerico”. Questo
aspetto è molto importante, poiché oggi capita molto spesso di sentire la parola “digitale” utilizzata
in modo assolutamente improprio come sinonimo di “moderno”. Ma cosa c’entrano i numeri con il
computer? Digitalizzare i dati vuol dire renderli comprensibili ad un sistema che lavora unicamente
in termini numerici, come appunto un computer che è caratterizzato da un sistema centrale capace di
lavorare unicamente in numeri in sistema binario (ex. per un computer una parola è una successione
di rappresentazioni numeriche). Il sistema digitale, dunque, contrapposto al sistema analogico
continuo, si riferisce a tutto ciò che viene rappresentato con i numeri o che opera con i numeri. Si
tratta di conseguenza di un sistema numerico che rappresenta la realtà attraverso valori discreti e non
continui. Il compito finale di un sistema operativo, dunque, è quello di rendere ciò che è comprensibile
a me persona, comprensibile anche per il computer. Per quanto riguarda invece l’analogico il caso
più noto di rappresentazione analogica del tempo è quello della meridiana, dove l’ombra proiettata
da questa si muove in maniera continua analoga al moto del sole. Lo stesso avviene nel caso
dell’orologio analogico dove la lancetta si muove in modo continuo. Nel caso dell’orologio digitale
invece il movimento non è più lineare e continuo ma è a scatti, in quanto tra un secondo all’altro si
scatta da un numero a quello successivo. Una frequente confusione che si fa in questo ambito è data
dal fatto di pensare che quando si fa una foto ad esempio ad un libro o a degli appunti scritti a mano
si stia digitalizzando il testo in questione. In realtà non è così in quanto lo scritto è lo stesso ma ha
solo cambiato supporto (si chiama “testo computerizzato” non “digitalizzato” perché è solo passato
a computer, ma non reso digitale). Esiste una tecnologia che ha risolto il problema di trasformare una
serie di immagini in una serie di testi a computer, senza copiarli a mano. Si tratta di riconoscimento
ottico dei caratteri. I programmi di riconoscimento ottico dei caratteri (OCR) permettono di esaminare
un file grafico (superficie di immagine) che riproduce una pagina a stampa, analizzare la sequenza di
pixel e riconoscere le lettere alfabetiche che i pixel stessi producono. Maggiore è la nettezza della
rappresentazione grafica dei caratteri, maggiore sarà la capacità del programma di riconoscerli. Questi
programmi sono estremamente affidabili e lavorano in unione con i dizionari delle singole lingue:
una volta riconosciuta una sequenza di caratteri, il programma esamina la lista delle parole offerta dal
dizionario della lingua su cui sta lavorando e propone l’identificazione di questa sequenza di caratteri
con una parola esistente nel dizionario. (ex. se si incontra una parola come “casu" che non esiste in
italiano, il programma sostituisce la lettera “U" con la “A", proponendo la parola ‘casa’, che a
differenza del termine precedente esiste in italiano).
Testo computerizzato e acquisizione dell’immagine
Il testo “computerizzato” è un testo che viene trascritto con altri strumenti (ex. foto di appunti scritti
a mano sul quaderno). L’acquisizione dell’immagine avviene secondo un processo che è identico a
quello effettuato dalle fotocopiatrici moderne. Lo scanner esegue una fotografia della pagina e ottiene
un file grafico (ex. JPG). Per il computer si tratta di un’immagine, non importa che sia stato
fotografato un testo. L’immagine è composta di pixel (picture element), che sono tanto più piccoli
quanto maggiore è la risoluzione dell’immagine. La risoluzione di una foto dipende dal numero dei
DPI (ossia dots per inch), maggiore è il numero di DPI presenti in una foto, migliore sarà la qualità.
Come già anticipato, quando si vuole effettuare un passaggio da un’immagine ad un testo, bisogna
utilizzare dei programmi OCR (Optical Character Recognition). Appositi programmi scaglionano
l’immagine, analizzano le sequenze dei pixel e riconoscono le lettere alfabetiche contenute. I
programmi moderni di OCR lavorano in unione con dizionari delle diverse lingue. Lo schema
secondo cui questo avviene è costituto da 3 fasi. La prima prevede l’acquisizione dell’immagine
(produzione di file grafico), la seconda consiste nell’analisi dell’immagine con programmi OCR
(riconoscimento pixel, formazione proposte di caratteri e parole, confronto con i dizionari), mentre la
terza è la produzione di un file contenente testo e non l’immagine.
In questo esperimento si può notare come nel secondo testo, non riconoscendo la lingua francese, il
computer abbia trascritto “frangais” anziché “français”; questo perché non è stato letto e riconosciuto
il carattere della cediglia (ç) e quindi si è cercato di associare quel simbolo ad uno presente nelle
lingue note. Importantissimo in questo contesto è il programma di Google Tesseract che,
riconoscendo oltre 150 lingue (all’inizio riconosceva solo l’inglese) permette di passare da un testo
in una lingua ad un’altra sotto diverse forme. La cosa che si può aggiungere in più, una volta che si
ha ottenuto un testo informatico non a stampa, è la possibilità di rendere esplicita la funzione di ogni
parte del testo attraverso un tipo di linguaggio che permetta di descrivere a che cosa servono le diverse
parti di esso. Esistono diversi tipi di linguaggio. Un esempio può essere quello grafico dei cartelli
stradali, oppure delle pagine dei giornali, ovvero un sistema di comunicazione (grafica) che indica al
lettore a che cosa servono le diverse parti del testo. È un linguaggio che si apprende sin da piccoli.
Codificazione di un testo
Un altro tipo di rappresentazione è quello utilizzato ad esempio per codificare i testi poetici. In questi
casi, infatti, si possono descrivere le diverse funzioni del testo indicandole all’interno del testo stesso
ma non più attraverso l’uso di figure ma con l’utilizzo, ad esempio, di parentesi angolate che indicano
la funzione della parte di testo che è compresa tra l’apertura e la chiusura di questa precisa
indicazione.
Con la sigla “PRA” si indica una preposizione articolata; con “SOS” un sostantivo e cosi via.
Prendendo in considerazione, ad esempio, la preposizione “nel” bisogna aprire l’indicazione con una
parentesi angolata (<), inserire il termine considerato e chiudere l’indicazione inserendo prima uno
slash (/) e poi un’altra parentesi angolata (>). Una determinata indicazione può essere più o meno
specifica; ciò significa che può essere inserita all’inizio e alla fine di una parola, oppure di un verso
(<verso> … <verso/>), oppure di una strofa (<strofa> … <strofa/>). Questa è una forma efficiente di
codifica. La funzione è abilitata (on, aperta) prima dell’oggetto con una notazione convenzionale. La
funzione è disabilitata (off, chiusa) dopo l’oggetto con una notazione convenzionale. Questa forma
di codifica si chiama XML (significa eXtensible Markup Language). Con XML si possono descrivere
non solo oggetti, ma potenzialmente si può descrivere qualunque oggetto. Si va avanti a codificare
un determinato elemento finché non si arriva alle unità subatomiche e non è più possibile suddividere
l’oggetto. Il sistema XML è stato inventato da un americano di nome Jon Bosak alla fine degli anni
90. Egli nel 1998 ha esposto, come primissimo grande esempio, l’opera teatrale The tempest di
William Shakespeare.
Ci sono delle situazioni in cui un codice XML non è “ben formato”. Un esempio è riportato in questa
foto:
Nella trascrizione di questo titolo è stato commesso un piccolo errore. Oggigiorno qualunque browser
è estremamente intelligente ed è quindi in grado di segnalare quando viene commesso uno sbaglio.
In questo caso l’errore è la lettera maiuscola in “cognome” alla chiusura dell’indicazione. XML vuole
che l’indicazione sia esattamente la medesima, sia all’inizio che alla fine. Proprio per questo motivo
sono in tanti a criticare questo sistema e a considerarlo esageratamente rigido. Il concetto di “well
formed” è stato preso dalla linguistica dello studioso statunitense Noam Chomsky. Adesso bisogna
vedere 2 casi molto particolari:
Entrambi gli esempi riportati sono codici validi, formati e costruiti molto bene. Nonostante questo
però il secondo ha delle imprecisioni. Le indicazioni in verde, infatti, sono scritte a caso (ex. colore
e camera). Il computer non riconosce un’informazione “stupida”. Un codice, dunque, può essere ben
formato, ossia essere corretto dal punto di vista di apertura e chiusura, ma essere non valido. Un
codice XML, infatti, è valido solo se corrisponde ad uno schema, ovvero alla descrizione di una
struttura che viene dichiarata precedentemente. Anche noi, in quanto uomini, seguiamo degli schemi,
e questo lo aveva capito Hyman Minsky ai suoi tempi (ex. quando vediamo un semaforo sappiamo
che cosa indica il colore verde, non dobbiamo domandarcelo ogni volta). L’XML permette di imitare
a computer i nostri frame/schemi. Per fare uno schema al computer con delle informazioni che vanno
bene, è necessario utilizzare il document type definition (DTD), uno strumento che permette di avere
una definizione di ogni tipologia di documento. Ma come si fa uno schema sul document type
definition? Bisogna iniziare osservando la seguente foto:
Supponendo di star descrivendo un libro bisogna innanzitutto avere un autore (può essere uno o più
di uno, per questo c’è il segno ‘+’), un titolo, a volte un sottotitolo (per questo c’è il ‘?’), almeno un
editore e un luogo, un anno e facoltativo un anno di riedizione. Una volta stabilito ciò, è possibile o
continuare ad analizzare elemento per elemento mettendo tra parentesi tutti gli aspetti in esso
contenuti (come nel caso di libro appunto), oppure fermare l’analisi al singolo nome mettendo la sigla
PCDATA (ossia parced character data) (ex. non voglio sapere nient’altro sull’autore, quindi non
proseguo nell’analisi). Tutto può essere codificato con l’XML e questo viene dimostrato da un
progetto all’università di Oxford chiamato TEI (text encoding initiative). Questo progetto esiste da
diversi anni ed è importantissimo in quanto ha portato alla codifica precisa e condivisa dei testi
letterari. Si tratta di un sistema di analisi dei testi molto funzionale con un successo scientifico
veramente notevole. Attraverso questo progetto si possono codificare le diverse parti di qualsiasi
genere di testo (poetico, letterario, giornalistico, …). Questo progetto è stato messo in atto affinché
tutto il mondo codifichi allo stesso modo per potresti scambiare i risultati e poterli confrontare grazie
alla globalizzazione della ricerca scientifica. Anche alla TEI, così come a XML, viene spesso
contestato il fatto di essere estremamente rigida. In realtà questo non è un male, in quanto la sua
rigidità le impedisce di essere ambigua. Questo metodo di codifica è molto simile a XML e infatti
hanno entrambi lo stesso problema. Prendendo ad esempio in esame un testo di Dante, non è possibile
decidere di analizzare le frasi (grammaticalmente parlando) al posto dei versi e delle strofe. Un’analisi
di questo tipo sarebbe infatti troppo complessa ed impossibile da fare in un programma del genere.
Questo accade perché esistono le cosiddette “codifiche parallele” (parallel encoding). Uno stesso testo
può essere codificato focalizzando l’attenzione su aspetti differenti (sono cose parallele e riuscire a
farle combaciare tra di loro è difficile) .
Come il computer “vede” un file
Quando si osserva un file sul computer, c’è sempre l’illusione che noi e il dispositivo vediamo quanto
è presente sulla schermata allo stesso identico modo. Non è così. L’illusione dell’oggettività è pensare
che il testo a computer sia fatto esattamente così come il fruitore lo vede ma in realtà tutto è codificato
con caratteri ben precisi. Per il computer tutto è un’entità numerica e di conseguenza quello che il
lettore interpreta come un carattere, non è altro che un numero/codice che il computer deve
interpretare e decodificare. Ogni lettera che viene utilizzata per scrivere un testo a computer
corrisponde in realtà ad un simbolo all’interno di una tabella. Nel momento in cui si digita una
determinata lettera, il computer riceve un input e va a cercare all’interno di questa tabella la lettera
che corrisponde al simbolo da lui ricevuto. Nel 1963 nasce in USA la tabella “American Standard
Code for Information Interchange” che è stata più volte modificata nel corso del tempo per renderla
accessibile a tutte le lingue esistenti e a tutti i caratteri possibili e immaginabili necessari per poter
scrivere qualsiasi tipo di testo. Quando si utilizza una determinata tabella, bisogna controllare che il
computer utilizzato la supporti, altrimenti non tutti i caratteri che si vogliono usare potranno essere
letti e quindi compariranno segni errati.
Unicode codifica, non rappresenta
Alla base della scrittura a computer, dunque, c’è un sistema standard chiamato UNICODE, che
possiede il compito di assegnare un preciso identificatore ad ogni carattere delle varie lingue del
mondo. Per rappresentare questi caratteri ci sono varie tipologie di codifica, che associano un
grafema, ossia un’unità grafica, ad una posizione nella codifica UNICODE. Si tratta di fatto di una
tabella avente migliaia di spazi (oltre 150.000 per l’esattezza) che possono e devono essere riempiti
con dei caratteri precisi. L’utilizzatore del computer poi, nel momento in cui usa la tastiera, dà una
serie di comandi al sistema, che riesce ad individuare in questa tabella i caratteri necessari per poter
rispondere alla lunga serie di comandi ricevuti in input. Questo è ciò che permette di eseguire
determinate azioni sul dispositivo. Con “UNICODE codifica, non rappresenta” si vuole indicare che
quando qualcuno scrive al computer e ha necessità, ad esempio, di utilizzare la “A”, nel momento in
cui preme il pulsante corrispondente sulla tastiera, il dispositivo non assocerà direttamente la lettera
“A” al comando ricevuto in input, ma invierà un ulteriore segnale che porterà alla conseguente
selezione di un carattere all’interno della tabella. Qui verrà poi selezionato un numero, associato ad
una casella, che porterà poi alla scrittura sullo schermo della lettera (in questo caso) “A”. È tutta una
serie di comandi in input e output. Tutto questo va tenuto in considerazione anche quando si decide
di utilizzare dei font per scrivere al computer. Non tutti i font, infatti, possiedono gli stessi caratteri,
e non è detto che ciò che è possibile visualizzare con un font sia visualizzabile allo stesso modo con
un altro. Alcuni font infatti hanno pochissimi caratteri, mentre altri ne hanno tantissimi.
Nell’immagine qui sotto riportata ad esempio si può notare come le vocali siano state scritte con e
senza accento, e siano state digitate con diversi font. Nel primo caso il font utilizzato permette di
avere la scritta normale, in corsivo e anche in grassetto. Nei 7 casi successivi invece il corsivo e il
grassetto non sono previsti, e quindi non è possibile utilizzare quelle funzioni con i font in questione.
Negli ultimi 3 esempi invece i font piuttosto particolari che vengono utilizzati non solo non
permettono di avere il corsivo e il grassetto, ma non possiedono nemmeno la possibilità di usufruire
delle lettere accentate (questo è il motivo per cui ci sono i punti interrogativi). Dunque è davvero
molto importante distinguere il grafema (o unità grafica) che si vuole rappresentare e la
rappresentazione grafica effettiva che dipende dai singoli font. Se un font non possiede le lettere
accentate ad esempio non sarà in grado di scriverle in nessun modo. I font, dunque, sono modalità di
rappresentare le unità grafiche attraverso l’utilizzo di grafi che rendono riconoscibili i grafemi. Il fatto
che alcuni font non possiedano tutti i caratteri comporta anche il fatto che con alcuni di essi sia
impossibile scrivere in lingue aventi un alfabeto differente da quello standard (ex. russo, giapponese,
cinese, arabo, …).
Problemi di alto livello – un grafema, più funzioni

Quando si utilizza un computer bisogna considerare il fatto che spesso può capitare che ad 1 solo
grafema corrispondano 2 o + funzioni ben distinte fra loro. Ecco qui di seguito 2 esempi: 1. La parola
‘gatto’ … 2. L’arrivo del gatto. In entrambi i casi si fa uso dell’apostrofo, ma con evidentemente 2
scopi differenti. Questo accade perché UNICODE rappresenta 2 funzioni/scopi distinti utilizzando il
medesimo simbolo. In alcuni casi questo può essere un problema. La virgoletta infatti è una cosa,
mentre l’apostrofo è un’altra. Sarebbe quindi più sensato avere 2 segni diversi per indicare 2 elementi,
piuttosto che il medesimo. Quindi il problema sta nel grafo o nel grafema? In questo caso si tratta
dello stesso grafo, che però dovrebbe rimandare a 2 grafemi differenti. Questo non viene messo in
atto perché UNICODE manda il segnale in input ad una stessa casella. Vengono confuse quindi le 2
dimensioni grafica e linguistica. UNICODE identifica questo segno come “single quotation mark”,
una definizione non del tutto corretta. Nella codifica di UNICODE, inoltre, il simbolo (‘) corrisponde
alla posizione 2019 nella tabella (U+2019).
Marc languages
Negli anni 80 si sviluppano dei linguaggi di marcatura (i cosiddetti ML, Marc Language). Il primo di
questi linguaggi era il GML (General Marc Language), ossia un tipo di linguaggio di marcatura che
nasce con l’idea di poter funzionare un po’ in tutti gli ambiti. Subito dopo il GML viene sviluppato
l’SGML, ossia lo Standard General Marc Language, che ha da subito un grandissimo successo. Viene
definito “standard” in quanto è un linguaggio semplice che può essere utilizzato per tutti gli usi. Il
sistema SGML sebbene sembri assomigliare a XML, in realtà costituisce qualcosa di completamente
differente. Nella foto qui riportata ad esempio, in cui viene presentato il sistema SGML, si può notare
come le diverse voci “line” non vengano chiuse (con /), a differenza invece di quanto viene messo in
atto in XML, che è un sistema che funziona solo ed esclusivamente in modalità on/off, ovvero
aperto/chiuso. SGML aveva delle regole di uso che erano piuttosto complicate. Per esempio diceva
che se dopo una “line” seguiva un’altra “line” si poteva evitare di fare la chiusura. Il risultato dunque
era veramente complesso. Per i computer, infatti, è da sempre molto più facile analizzare un file che
sia basato sul sistema on/off. È proprio in seguito a tutto questo che viene elaborato e prodotto XML,
il quale nasce appunto del tentativo di semplificazione di SGML. Con SGML bisognava ad esempio
spiegare al computer che anche se una “line” non era dichiarata finita (perché non era mai stata chiusa
di fatto), era comunque finita poiché subito dopo cominciava un’altra “line”.
L’importanza del 1989

Il 1989 è un anno davvero molto importante. In questo periodo, infatti, Tim Berners-Lee e Robert
Cailliau lavorano al CERN di Ginevra, in cui sono presenti diversi piccoli centri di ricerca che hanno
necessità di comunicare fra di loro. Ma come si poteva fare dunque per comunicare i dati? Bisognava
inventare dei sistemi che permettessero di passare dei documenti da un computer all’altro, in una
maniera facile da leggere su tutti i dispositivi e con un sistema di trasmissione efficiente. È proprio
per questo motivo che nel 1989 i 2 studiosi sopra menzionati inventano la sintassi URI (Uniform
Resource Identifier). Questo sistema permette di identificare un singolo oggetto (al giorno d’oggi
nell’ambito del web chiaramente). Quando ad esempio si cerca un video su YouTube si ottiene un
link di ricerca più o meno di questo tipo: https://www.youtube.com/watch?ecc. Questo è sistema di
identificazione che permette di individuare un solo ed unico elemento nel web. Ogni ricerca avrà un
“codice” differente. L’idea di fondo di questo tipo di sintassi, dunque, è quella di permettere di
indicare ciascun oggetto in modo preciso. Tim Berners-Lee e Robert Cailliau inventano poi anche
l’HTTP (hypertext transfer protocol, protocollo di trasmissione di un ipertesto) e l’HTML (hypertext
markup language). Le loro invenzioni sono fondamentali per arrivare a costituire il web così per come
è conosciuto al giorno d’oggi. Tutto questo progetto nasce appunto come qualcosa di interno al CERN
di Ginevra, con lo scopo di trasmettere i dati da un ufficio o da un laboratorio all’altro senza
particolare difficoltà. Originariamente deve dunque essere una cosa interna. Berners-Lee però decide
di non brevettare questa tecnologia, ma di lasciarla a libero uso (se questo non fosse accaduto, nessuno
avrebbe conosciuto il web, che sarebbe rimasto invece solamente legato ai laboratori scientifici).
Ciascuno oggi può entrare nel web senza chiedere permesso. L’informatica oggi è qualcosa
fortemente legata alla cultura. Ormai le scelte informatiche hanno un impatto evidentissimo sulla
cultura generale. La scelta di non proteggere le tecnologie ma, anzi, di permetterne l’utilizzo a tutti è
assolutamente fondamentale nella storia del web.
Xanadu: una “visione” di 60 anni fa
Lo studioso Ted Nelson, nell’anno 1960, ha la “visione scientifica” di un mondo in cui i testi
rappresentati a computer siano tutti in rapporto l’uno con l’altro. È affascinante immaginare un mondo
in cui tutti i testi sono in rapporto fra di loro, ma in maniera tale per cui se il primo testo viene
modificato, vengono modificati anche tutti i testi successivi. Se si prende ad esempio un testo online
e gli si aggiungono delle note accanto, è possibile modificare queste annotazione all’infinito, senza
però che il testo di partenza sappia di questi cambiamenti (rimane invariato). Ted Nelson concepisce
appunto questa idea nel 1960, quando ha solo poco più che 20 anni. È un progetto che però non viene
mai portato a termine perché troppo avanti rispetto ai tempi in cui è stato pensato. Ted Nelson in
un’intervista “critica” il web dicendo che non è altro che un insieme di collegamenti/link tra morti e
non vivi come lui invece aveva pensato. I testi fungono semplicemente da indicazioni gli uni per gli
altri, e non da collegamenti. L’idea di fondo di Nelson è che il vero ipertesto non deve copiare la
pagina stampa, come invece oggi accade (ex. le pagine di Wikipedia possono essere stampate così
come sono).
Linguaggio disciplina dei testi HTML
Nella sigla HTML (hypertext markup language) è possibile riconoscere immediatamente in “ML” la
sigla del linguaggio di marcatura. Ma cosa significa esattamente “hypertext”? Se ad esempio ci viene
inviato un testo e lo si vuole rimandare all’autore con l’aggiunta di qualche osservazione/annotazione
vengono a costituirsi 2 testi differenti: il testo originale dell’autore e le note laterali. Queste ultime
inoltre sono collegate all’originale con un sistema molto semplice costituito da un semplice segnetto
(sembra un triangolino) seguito da una riga, che mette in contatto 2 punti presenti nei 2 testi differenti.
Questo collegamento è detto link, e non è altro appunto che un sistema per collegare 2 testi distinti.
Un ipertesto, dunque, è semplicemente un testo che si trova in qualche modo collegato ad un altro;
sono 2 o + testi collegati fra di loro. Il concetto di ipertesto esiste da quando si è sviluppata la necessità
di mettere in collegamento un testo ad un altro. Il link però può essere stabilito anche dall’occhio del
lettore, nei casi in cui non risulta essere evidente con i segni. In questo ambito si apre anche tutto il
discordo precedentemente affrontato su Ted Nelson e la sua idea di “web morto”. Questo perché ad
esempio sul web se viene modificato un testo con l’aggiunta di qualche nota, non viene assolutamente
impattato il documento di partenza. Un esempio chiaro e noto di ciò è Wikipedia. Quante volte capita
di cliccare su qualche link presente nelle pagine di questo sito. In questi casi i link a cui si fa
riferimento non sono collegamenti ipertestuali ma, anzi, sono semplicemente indicatori di altre pagine
che è possibile aprire e consultare. Se uno di questi link subisce delle modifiche (più o meno evidenti),
la pagina originale da cui si è aperto il secondo documento non ne risente assolutamente. I testi,
dunque, non sono in rapporto continuo (sul web). È possibile parlare di link anche per quanto riguarda
delle opere scritte su carta. Nella Divina Commedia, ad esempio, il link è il numero del verso, che fa
da connessione al suo significato e permette di ritrovarsi in una determinata pagina dell’opera.
Rete senza centro: Arpanet, l’antenato di Internet
Negli anni della Guerra Fredda gli USA volevano avere a propria disposizione una rete di
trasmissione di dati della Marina. L’idea era dunque quella di creare un sistema che potesse
permettere la condivisione dei dati dell’esercito della difesa americana che però non avesse un centro.
Questo perché se il nemico avesse scoperto il centro di questa rete e lo avesse distrutto, tutto sarebbe
andato in fumo. Anche al giorno d’oggi il web non ha un centro, solo Google ce l’ha. Nasce dunque
“arpanet” il primo sistema di comunicazione trasmissione dei dati senza centro, questo contribuirà
poi con la nascita del web. In altre parole, il web di oggi viene fuori dall’interazione tra questa idea
di reti di computer senza un centro, nata per ragioni militari, e i protocolli inventati da Berners-Lee
nel 1989. Senza i militari quindi il web non esisterebbe; il web esiste perché ci sono tecnologie
adoperate per fini ben precisi.
La produzione di un testo
Saper produrre un testo (a computer oppure anche a mano) è fondamentale. Per comporre qualcosa
in modo chiaro e preciso è necessario sapere come combinare tra loro tutti gli elementi per evitare di
avere un’accozzaglia di informazioni poco comprensibili. È necessario dunque imparare ad avere una
struttura consapevole di tipo scientifico. Ideale per la produzione del testo è LibreOffice, che ha pochi
bug e funziona in modo abbastanza efficiente. È un operatore che si mantiene solamente tramite
sostegno professionale. Quando si scrive al computer è possibile utilizzare il markdown, ossia
applicare una riproduzione al PC della modalità “normale" di scrivere. È possibile, ad esempio,
evidenziare i concetti utilizzando una serie di trattini (- - - - ) oppure usare le virgolette e/o gli
asterischi per creare il corsivo o il grassetto (come su WhatsApp) o ancora è possibile creare elenchi
puntati con asterischi o hashtags. Da questi programmi è poi possibile esportare un file in HTML.
Dunque si scrive utilizzando questi codici e simboli per riprodurre il modo di scrivere “normale” e
poi si esporta il file in HTML. Il risultato è molto simile ad un documento scritto di word o su altri
programmi simili. Nelle 2 immagini sotto riportate è possibile vedere la messa in pratica di quanto
appena spiegato.
Il markdown
Il markdown, dunque, è un sistema che consiste nello scrivere a computer con l’utilizzo di una sintassi
molto semplice che riproduce parzialmente la scrittura a mano. Questo metodo permette di ottenere
dei risultati bellissimi perché non si affida al gusto di chi scrive, ma si affida a fogli di stile e/o modi
di impaginare che sono preparati da tipografi professionisti. Ad esempio è possibile lasciare degli
spazi, ma la dimensione di questi è già predefinita dal programma. Inoltre, la possibilità di poter
convertire ed esportare il file finale in HTML permette di ottenere come risultato un file di alto livello
tecnico senza doversi preoccupare di dover imparare la scrittura di una codifica tecnica molto
complicata. Questo sistema permette anche di avere tutto già pronto per creare un indice automatico.
L’idea di fondo, dunque, è quella di scrivere come se si scrivesse su un foglietto a mano senza
preoccuparsi di nulla. Markdown ha delle possibilità di uso estremamente notevoli, è pienissimo di
strumenti ed è anche possibile trovare tantissime pagine al suo interno con già diversi template
prestabiliti per poter scrivere (ex. una tesi, un curriculum, un elenco, un semplice documento, …).
Donald Ervin Knuth
Donald Ervin Knuth è un matematico ed informatico che circa negli anni 80 ebbe la necessità di
pubblicare dei libri di informatica e matematica. I computer dell’epoca, non essendo evoluti, facevano
dei volumi orribili e quindi non era contento di stampare in quel modo i suoi volumi. Knuth decise
quindi di prendersi del tempo e inventò un sistema, chiamato TeX che potesse soddisfare le sue
esigenze. Egli era convinto che tecnica e arte si sovrapponessero, tanto che il nome del suo sistema
deriva da una parola greca che significa sia “tecnica” che “arte”. Successivamente un altro studioso
inventò un altro sistema matematico chiamato Latex. Su Latex è sufficiente scrivere ciò di cui si ha
bisogno dal punto di vista semantico e il sistema lo converte automaticamente. Il problema è che
imparare a scrivere in Latex non è assolutamente ovvio, ma anzi è abbastanza complicato. Si possono
dunque ottenere risultati notevoli, ma la curva di apprendimento è alta. Dall’unione di questi 2 sistemi
venne ideato LYX, un sistema che combina potere e flessibilità di TeX e Latex con la facilità di uso
di un'interfaccia grafica.
Le biografie e BIBTEX
Quando si ha necessità di consultare una bibliografia, ci si rende conto spesso che essa può essere
davvero consistente. Nel campo letterario, ad esempio, la ricerca invecchia solo per via di qualità,
non di anni. Un articolo o un libro, ad esempio, di “soltanto” 10 anni fa è già quasi sicuramente
inutilizzabile, in quanto già troppo vecchio. Qualunque ricerca si faccia, dalla semplice tesi di laurea
triennale sino al libro dello studioso maturo, la bibliografia è sempre tanta. Esiste quindi un formato
internazionale chiamato Bibtex che permette di evitare di sprecare grandi quantità di tempo a scrivere
codici di libri e permette anche di archiviare tutti i libri e gli articoli che si desidera attraverso l’utilizzo
di una codifica molto semplice. Questi codici permettono di preparare un intero archivio fatto di
queste schede. Ci sono poi anche diversi programmi che permettono di archiviare tutto ciò che si
vuole senza dover prestare alcuna attenzione e preoccupazione nel vedere i codici. Un esempio di ciò
è Jabref.
Archiviare con JABREF
Quando si archivia con questo programma è sufficiente importare le informazioni (ex. da un catalogo)
oppure scrivere le informazioni chiave personalmente (ex. date, titolo, …). Questo significa che non
è necessario preoccuparsi di inserire i codici in quanto il programma li immette automaticamente. Il
grandissimo vantaggio di lavorare con LYX e con JABREF è che basta inserire con un semplice colpo
di mouse solo l'etichetta o la targa, ecc. e poi basta lasciar fare tutto il resto al programma. La stessa
cosa accade con markdown o con tutti i sistemi più tecnici di word (con word è necessario fare tutto
“a mano” personalmente). Esistono davvero moltissimi programmi che permettono di
creare/realizzare e poi organizzare adeguatamente una bibliografia, senza avere alla fine un ammasso
di dati casuale e molto poco comprensibile. La realizzazione volta per volta di una bibliografia ben
fatta permette poi di realizzare anche un suo archivio. Alcuni di questi programmi sono free, altri
sono di proprietà e anche a pagamento, altri invece sono di proprietà ma comunque fruibili e
condivisibili da tutti.
IL RAPPORTO TRA IL LATINO E IL DIGITALE, professoressa Raffaella Tabacco

Il latino e il digitale
Lo scopo della lezione è quello di mettere in rapporto il digitale con il latino e viceversa il latino con
il digitale, nel senso di vedere quali sono le competenze digitali e gli strumenti per poter studiare il
latino e in contemporanea capire se lo studio del latino può formare queste competenze digitali. Il
digitale in generale spesso viene chiuso tra 2 criticità: 1. da un lato l’intermediazione e 2. dall’altro il
fatto che l’interazione avviene in maniera isolata (isolamento dell’interazione). La rete tende ad
appiattire tutto alla stessa importanza, e questo proprio perché manca l’intermediazione, perché chi
intermedia dice che cosa importante è che cosa invece non lo è. Chi intermedia sceglie. Un esempio
eclatante di questo è la televisione che costantemente intermedia scegliendo che cosa far vedere al
pubblico e che cosa invece no. La rete invece questo compito non lo assolve. Il secondo aspetto
importantissimo, come già anticipato, è l’interazione. La rete invece l’interazione la consente, però
per poter interagire in maniera consona con la rete è necessario acquisire un’alfabetizzazione digitale.
Questa alfabetizzazione digitale però in Italia è ancora piuttosto bassa. Si usa dire che i giovani di
oggi sono nativi digitali e questo in parte è vero, è vero però soprattutto per il fatto che i giovani di
oggi sono abituati sin da piccoli ad utilizzare i social. Bisogna considerare però che sapersi muovere
in modo rapido sui social non significa avere effettivamente delle competenze digitali. Si pensa infatti
che ciò che manca moltissimo ai giovani di oggi è sapersi muovere sulla rete in modo critico e
responsabile sempre, indipendentemente dai social network. Questo significa saper valutare le risorse
che offre il digitale e saper trovare quali sono le fonti migliori per soddisfare i propri interessi. Saper
fare tutte queste cose permette di creare un’interazione positiva tra l’umano e il digitale. Sarebbe
necessario, dunque, che le scuole educassero ad un utilizzo consapevole e professionale della rete. A
questa criticità del digitale risponde anzitutto l’intermediazione del docente che deve saper guidare
alla consultazione e all’utilizzo consapevole degli strumenti che offre la rete. Gli strumenti
chevengono offerti oggi a questo scopo sono parecchi: alcuni sono di importazione più attuale, altri
invece sono un po’ più datati. La prima distinzione da insegnare agli studenti è quella tra gli strumenti
affidabili e quelli che invece non danno garanzie sufficienti.
The Packard Humanities Institute
Il Packard Humanities Institute è un sito che permette di cercare ed analizzare testi latini antichi.
Aprendo il sito si trova subito l’elenco di tutti i testi che si possono aprire e che si possono consultare.
Per i testi scritti dopo il secolo 2 è presente solo una selezione di scritti. Questa banca dati consente,
con diversi mezzi di consultazione, di leggere i testi in modo continuato oppure di trovare
rapidamente il ricorrere di un termine o di un nesso in tutto il gruppo di testi presenti. È possibile
anche cercare un autore oppure un’opera nello specifico. I testi del PHI non sono scaricabili da parte
dell’utente ma tuttavia è possibile fare ricerche fruttuose e utili perché sono tutti testi di cui si conosce
l’edizione critica di riferimento. La situazione poi cambia di volta in volta a seconda delle tipologie
testuali ed esistono siti differenti.
Alcuni siti disponibili
• MUSISQUE DEOQUE: Per il genere della poesia, ad esempio, oltre alla banca dati del PHI, c’è
anche il sito “musisque deoque” che comprende tutta la poesia in lingua latina, da quella arcaica
a quella di epoca più moderna. Anche in questo caso si ha una raccolta molto precisa delle
edizioni critiche di tutte le opere. Così come nel PHI anche questo sito permette di effettuare
anche singole ricerche di parole. È possibile anche limitarsi a leggere i testi, a partire da un
indice alfabetico, oppure leggere gli apparati critici di alcune singole parole che sono segnate
in blu all’interno dei vari testi. Tra i pregi del sito c’è anche l’indicazione dei metri di cui un
determinato scritto si compone. Anche in questo caso non è possibile in alcun modo scaricare
le opere per fruirne fuori dal sito.
• DOCUMENTA CATHOLICA OMNIA: Venendo alle opere della letteratura cristiana esiste
“documenta catholica omnia”, un sito che non dà una scansione dei testi nei quali è possibile
fare ricerca, ma è semplicemente una riproduzione delle edizioni storiche di questi testi. Anche
in questo caso è possibile consultare i volumi ma non è possibile una consultazione con ricerche
avanzate.
• LIBRARY OF LATIN TEXTS: Le ricerche avanzate sono possibili invece su questo sito, una
banca dati online che però non permette una consultazione e libera. Qui bisogna sottoscriversi
a pagamento. Questa, dunque, sarebbe una banca dati eccellente, ma se non si hanno soldi non
si può consultare.
• DIGILIB LT: Alla tarda antichità, oltre ai poeti del “musisque deoque” e ai vari testi letterari
visti precedentemente, appartengono anche molte altre opere letterarie e tecnico-scientifiche
che sono raccolte in “DigilibLT” (digital library of latin texts). Questo è un ottimo strumento
sia per gli studenti universitari, sia per gli insegnanti della lingua/cultura latina. I testi raccolti
sono di vario genere.
• THE LATIN LIBRARY: Questo è un altro sito molto frequentato, che presenta uno spettro di
testi abbastanza ampio. I testi sono raccolti da varie fonti e solo per alcuni viene esplicitata
l’edizione.
• CORPUS CORPORUM: Anche questo sito è molto utile. Ha il grosso pregio di mettere insieme
banche dati differenti, ma allo stesso tempo è un sistema estremamente arretrato sotto alcuni
aspetti.
L’importanza di una biblioteca digitale
La biblioteca digitale (in questo caso DigilibLT) mette a disposizione numerosi testi tardo-antichi che
per la maggior parte non erano per nulla presenti online. Le banche dati online vengono dunque create
nel corso del tempo per permettere a tutti di poter fruire online di testi di vario genere che fino a quel
preciso momento non erano mai stati messi a disposizione del pubblico sul web. Al giorno d’oggi, ad
una raccolta di testi digitali, viene chiesto sempre di essere una biblioteca digitale. Questo significa
che non può limitarsi ad essere semplicemente una banca dati, ma è necessario che essa fornisca oltre
ai testi un sistema attorno ad essi che li descriva, che li valorizzi, che li metta in relazione con altri
testi, con altre banche dati e molto altro. Tutto questo serve a sottolineare ancora una volta il fatto che
attorno ai testi vengono cercati sempre di più dei servizi. Recentemente la IFLA/UNESCO ha anche
stabilito e poi divulgato le caratteristiche principali che una biblioteca digitale deve necessariamente
possedere: “a digital library is an online collection of digital objects, of assured quality, that are
created or collected and managed according to internationally accepted principles for collection
development and made accessible in a coherent and sustainable manner, supported by services
necessary to allow users to retrieve and exploit the resources”.
Ma come funziona una biblioteca digitale?
Tenendo in considerazione DigilibLT e stando a quanto riportato nella definizione, la prima
caratteristica fondamentale che una biblioteca digitale deve possedere è la qualità. Per questo motivo
è stato creato un canone di riferimento con l’indicazione delle edizioni critiche. Questo canone è
fruibile online e anche scaricabile in formato PDF (si tratta di un elenco di tutte le opere tardo-antiche,
classificate in ordine cronologico, con gli autori, i titoli e le edizioni di riferimento riportate accanto).
Altro aspetto importante è quello di fornire prodotti digitali secondo standard di accessibilità accettati
a livello internazionale. Questo significa che si è deciso di rendere liberamente disponibili, con una
registrazione gratuita, tutti i prodotti della ricerca. Dunque non solo è possibile accedere gratis alla
consultazione e all’erogazione dei testi, ma si possono anche scaricare i file per intero senza alcun
costo. Questo permette chiaramente anche di poter lavorare offline. I file inoltre vengono condivisi
anche in formato già marcato (XML) di modo tale che chiunque desiderasse in un futuro di portare
avanti il lavoro dei creatori di questa pagina può farlo tranquillamente senza bisogno di dover
ricominciare tutto da capo. Questa è una vera e propria condivisione del lavoro svolto. Inoltre, non
solo si possono scaricare i singoli file ma anche tutto il corpus completo. Ad oggi i testi contenuti in
DigilibLT sono quasi 400. Le modalità di accesso alla biblioteca sono 2: 1. l’accesso per la lettura
dei testi o 2. l’accesso limitato alla ricerca. Proseguendo con l’analisi della definizione, la biblioteca
digitale DigilibLT offre anche un supporto di servizi, ossia degli apparati di supporto. Questo
significa che chi decide di fruire dei testi presenti in questa biblioteca, avrà a disposizione anche
schede riguardanti gli autori, i problemi critici e molto altro. Tutte queste informazioni aggiuntive
servono a garantire anche un certo tipo di orientamento attorno al testo. Anche in questo caso è
possibile poi scaricare i documenti in formato PDF. L’ultimo punto del manifesto UNESCO è la
sostenibilità. Essa va messa in rapporto con il fatto che il rischio di obsolescenza per prodotti di questo
genere è molto grande (ex. siti che nascono, stanno un po’ online e poi scompaiono). La scelta di
DigilibLT di distribuire i propri contenuti tramite ricerca creative commons significa che non è stato
adottato nessun sistema di criptazione e/o frammentazione dei dati.
Il passaggio da cartaceo a digitale
Il passaggio da cartaceo a digitale non è per nulla un procedimento automatico ed imparziale.
Richiede uno sforzo di esplicitazione delle caratteristiche del testo e delle consuetudini librarie.
Questo rende indispensabile la competenza del filologo (colui che studia i testi di varia natura). Nel
caso di DigilibLT si è deciso di effettuare l’analisi dei testi solo ed esclusivamente da una prospettiva
interna; ciò significa che l’analisi di tutti i testi è stata effettuata tra i collaboratori che hanno
contribuito alla nascita di questo sito (l’analisi dei vari testi di DigilibLT, ad esempio, non è mai stata
effettuata all’estero).

Linguistica Computazionale Prof - Milanese

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Linguistica Computazionale Prof - Milanese

Caricato da

Copyright:

Formati disponibili

LINGUISTICA COMPUTAZIONALE

Un primo contatto con la tecnologia

Problemi di alto livello – un grafema, più funzioni

L’importanza del 1989

IL RAPPORTO TRA IL LATINO E IL DIGITALE, professoressa Raffaella Tabacco

Potrebbero piacerti anche