Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
solitamente si presenta su due colonne: nella prima appaiono le forme di parola, nella secondagli
indici di frequenza (ossia il numero di occorrenze nel testo). A queste informazionisolitamente è
aggiunto un valore, detto frequenza relativa (Fw/N), che corrisponde al rapportotra le occorrenze
della singola parola (Fw) e il numero di parole testuali del corpus (N). Leparole grammaticali, come
le preposizioni, gli articoli, le congiunzioni, sono spesso dette parolevuote. Si chiamano
invece parole piene i sostantivi, i verbi, gli aggettivi, gli avverbi, che veicolanoun contenuto
semantico relativamente più autonomo (sedia, buio, dolce, zebra,amministrarono). In genere per
avere un’idea delle distribuzioni possono bastare tre fasce: dialta, media e bassa frequenza.
4.2. La lemmatizzazione dei testi
Può essere molto utile e spesso necessario, invece, ridurre le forme flesse di uno stesso lessemaa
una forma di citazione (lemma). Questa complessa operazione è detta lemmatizzazione. Perottenere
una lista lemmatizzata, tuttavia, è necessario che siano svolte procedure moltocomplesse come
la disambiguazione degli omografi. Il risultato dell’operazione è una listalemmatizzata composta in
genere da: la forma testuale, la categoria grammaticaledisambiguata, il lemma di riferimento. Dalla
lista lemmatizzata si può produrre una lista difrequenza lemmatizzata, che, al posto dei valori delle
forme flesse, riporta invece solamente illemma di riferimento, con l’occorrenza totale di tutte le sue
forme flesse presenti nel testo.
4.3. Analisi degli usi con le concordanze
Per estrarre da un corpus di testi le parole e, insieme a esse, i rispettivi co-testi si usa unostrumento
specifico: la concordanza. Una concordanza è la presentazione delle parole di untesto, con
l’indicazione della frequenza con la quale la parola occorre e il contesto linguisticoprecedente e
successivo (cotesto). Lo scopo principale di una concordanza è quello di mostrarel’occorrenza di
una parola centrale di un testo letterario o linguistico (per esempio la parolaanima nella Divina
Commedia) e soprattutto i suoi usi in un corpus. Le concordanze, per la lorosemplicità di
realizzazione e di interrogazione, sono strumenti molto usati in campo linguisticoe soprattutto
letterario. Le principali funzioni delle concordanze sono: a) osservare i diversi usidi una parola; b)
esaminare i diversi contesti (semantici, sintattici o testuali) in cui occorre unaparola; c) analizzare la
regolarità con la quale una parola è accompagnata ad altre nel suocotesto.
La prassi più tipica di esibizione del cotesto è nella forma del cosiddetto KWIC(keyword-in-
context), in cui il numero di parole precedenti e successive al nodo può variare. Leconcordanze
complete analizzano tutte le parole del corpus e di tutte forniscono le occorrenzee il KWIC
(escludendo a volte le parole vuote). Le concordanze specifiche si realizzano inveceper parola-
chiave. Basate su un principio simile sono le espressioni regolari (dette anche regex,da regular
expression). Con le espressioni regolari possiamo, per esempio, direttamenteottenere le forme flesse
di psicologico senza disporre di un lemmatizzatore già programmato,operando una sola ricerca, ed
escludendo per esempio parole come psicologicamente.74.4. I lessici di frequenza e i vocabolari
fondamentali
I lessici di frequenza sono delle liste lemmatizzate organizzate in ordine di frequenzadecrescente.
L’utilità dei lessici di frequenza basati su grandi corpora di riferimento risiedenella possibilità di
fornire un quadro delle principali fasce di uso dei lessemi e della lorocopertura testuale. I vocabolari
fondamentali, infatti, si identificano con la zona di massimo usotra le fasce in cui si può suddividere
il lessico di una lingua.4.5. L’individuazione delle collocazioni e delle polirematiche
I metodi più diffusi per osservare e determinare le collocazioni sono misure di
associazionestatistica, come il mutual information (informazione reciproca) e lo Z-score (punteggio
Z). Il primo sistema compara la co-occorrenza effettiva di una coppia di parole con il valore di co-
occorrenza che le due parole avrebbero se il fatto di trovarsi vicine fosse casuale. Lo Z-score
procede grosso modo in maniera simile prendendo però come unità di confronto la frequenzadi
occorrenza di una parola comparata alla frequenza attesa di co-occorrenza con altre parole,divisa
per la deviazione standard della parola co-occorrente.4.6. Interrogazione avanzata e analisi dei dati
testuali
Le ricerche avanzate sono un sistema di estrazione di dati che sfrutta la capacità di
combinarediversi criteri in modo da rispondere a interrogazioni che riguardano a un tempo diversi
aspettidelle unità in analisi. Tra le nozioni di base cui è imprescindibile riferirsi vi sono la
dispersionee l’uso dei lessemi. La dispersione ci indica se e dove vi sono concentrazioni di
occorrenze nelcorpus e/o in diverse tipologie testuali. La nozione di uso è centrale nella statistica
lessicale,poiché ci fornisce una rappresentazione quantitativa della presenza effettiva dell’unità
lessicalenelle diverse parti del corpus.
4.7. Le applicazioni dello studio dei corpora
Vi sono applicazioni che possono godere di significativi vantaggi dall’uso dei corpora.
Leapplicazioni lessicografiche, come i dizionari cartacei ed elettronici, oggi si servono dei dati
deicorpora testuali. Anche la progettazione di grammatiche può giovarsi dell’integrazione con
datiforniti dai corpora sotto diversi punti di vista. Il trattamento automatico del linguaggio (cap. 6)si
è giovato negli anni dell’integrazione di dati estratti da corpora per la costruzione di parsers,taggers,
e lemmatizzatori che includessero moduli di tipo statistico. Infine, per quanto riguardala didattica e
l’apprendimento delle lingue, lo sfruttamento delle potenzialità e risorse offertedai corpora è
straordinario. Esse forniscono a chi voglia predisporre strumenti didattici (anchemultimediali) la
possibilità di proporre testi autentici, adeguabili alle diverse situazionicomunicative (da quelle più
quotidiane a quelle più formali).5. Lessicografia computazionaleLa linguistica computazionale
indirizzata soprattutto alla produzione di applicazioni di utilitàgenerale si è concentrata molto sullo
studio del lessico (lessicologia) e sulla lessicografia,branca della linguistica che si occupa della
preparazione ed elaborazione dei dizionari.
5.1. Dizionari elettronici: problemi e definizioni
Possiamo individuare due tipologie principali di dizionari elettronici: dizionari-macchina,dizionari
informatizzati commerciali.5.2. I dizionari-macchina nella ricerca linguistica
un dizionario-macchina (machine-readable dictionary) è un repertorio di lemmi o forme flessedi una
lingua associate a una serie di informazioni linguistiche supplementari di vario tipo, i cuidati sono
resi disponibili all’accesso di una o più applicazioni computazionali. i dizionarimacchina servono
ad altre applicazioni, quali ad esempio il riconoscimento e la sintesi vocale,la correzione
ortografica, il tagging e il parsing sintattico o la traduzione automatica.Esempio. agli, aglio. N:
mp.5.3. Applicazioni della lessicografia computazionale
Sinteticamente, i principali domini di applicazione dei dizionari-macchina esistenti sono
iseguenti: Applicazioni di «Natural Language Processing». Applicazioni delle tecnologie
delparlato. Ontologie e basi di conoscenza. Traduzione automatica. «Information retrieval» e
«information extraction».
I sistemi di dialogo possono essere costruiti sulla base di diversi tipi di architettura concettuale.I
principali modelli sono quello funzionale, basato sulla modellizzazione delle azioni dacompiere in
relazione a funzioni formalizzabili, e quello strutturale, che invece è fondato sullanozione di
compito e sulla risoluzione di problemi rappresentata attraverso modelli astratti.8.6. Applicazioni e
futuro delle tecnologie del parlato
Dal punto di vista tecnico ancora molte questioni rimangono solo parzialmente risolte neisistemi
TTS: la realizzazione sintetica di alcuni fenomeni di naturale coarticolazione e dellavariabilità
fonetica, lo studio del rapporto tra sintassi, semantica e prosodia per ilmiglioramento della
generazione del profilo intonativo dei testi, ma anche il più ambiziosoobiettivo di permettere la
sintesi di un parlato multimodale che includa dunque anche trattiparalinguistici.
9. Strumenti computazionali e didattica delle lingue
Il ruolo delle tecnologie, intese in senso ampio è al centro della riflessione attuale sulle
nuovemodalità di apprendimento e insegnamento delle lingue, soprattutto sulla base di numerose
einteressanti esperienze svolte sull’inglese come lingua seconda.
9.1. Nuove prospettive nella didattica
Strumenti multimediali integrati consentono anche la creazione di ambienti virtuali piùnaturali,
compiti linguistici meno artificiali, possibilità di interattività e verifiche operative
dellacomprensione e del compimento di dati obiettivi di tipo non linguistico, usando la lingua.
Asottolineare un approccio di data-driven learning (DDL) è soprattutto Tim Johns (1991), il
qualemette al centro del processo di apprendimento il discente come una sorta di ricercatore di
arealinguistica che scopre le caratteristiche della lingua che apprende mediante l’accesso amateriale
autentico estratto da corpora. Si tratta dunque di una tecnica didattica che mira asensibilizzare
l’apprendente verso la costruzione induttiva dei principi delle grammatiche diuna lingua in una
sorta di scoperta e costruzione della lingua. L’osservazione attiva delle parolee delle costruzioni in
contesti reali non solo ha funzioni direttamente linguistiche, ma è ancheun processo che stimola la
riflessione metalinguistica dello studente. L’e-learning non è tuttaviadi impianto strettamente
linguistico e può dunque applicarsi a qualunque dominio scientifico.9.2. Il ruolo dei corpora nella
didattica delle lingue
I corpora hanno modificato le pratiche glottodidattiche alla radice, coinvolgendo le tecniche
diinsegnamento e di apprendimento e anche il disegno e la costruzione dei materiali
didattici.L’accesso ai software di concordanza è interessante innanzitutto per tre motivi di
caratteregenerale: 1) la possibilità di accedere a materiale autentico estratto da corpora; 2)
permettereun uso personalizzato, autonomo e dinamico del percorso di apprendimento da
partedell’apprendente; 3) permettere un costante circolo tra uso linguistico e
riflessionemetalinguistica, stimolando la coscienza linguistica dell’apprendente. Sin dai primi anni
delNovecento ci si rese conto che l’insegnamento delle parole più frequenti migliora
sensibilmentele produzioni linguistiche di un apprendente, soprattutto in considerazione del fatto
che lamaggior parte dei testi sono costituiti dalle stesse 6000-7000 parole. Si incominciarono
quindia produrre i cosiddetti wordbooks contenenti le parole del vocabolario di alto uso, i
vocabolarifondamentali, vocabolari minimi e dei linguaggi settoriali. Un dizionario per
apprendentibasato su corpora offre dunque una serie di vantaggi enormi sui prodotti tradizionali
poichéconsente di: cogliere l’aderenza agli usi e alla dinamicità linguistica; cogliere le
differenziazionesulle dimensioni di variazione della lingua (diafasiche, diamesiche, diastratiche,
diatopiche ediacroniche); produrre un ordinamento dei fenomeni fondato su criteri esterni;
svilupparenell’apprendente una competenza statistica implicita attraverso la segnalazione delle
formefrequenti, e le esemplificazioni ordinate, fornendo un input comprensibile e proporzionale
alleoccasioni comunicative effettive. 9.3. «Computer-assisted language learning» (CALL)
Un luogo di incontro privilegiato tra glottodidattica e strumenti computazionali è l’approcciodel
cosiddetto computer-assisted language learning (CALL), che raccoglie sotto un’unicaetichetta l’uso
delle tecnologie per l’apprendimento autonomo e guidato e per la valutazionedelle abilità e
competenze linguistiche.
9.4. Gli strumenti di testing e valutazione
Il bisogno di strumenti di misurazione più precisi e quanto possibile oggettivi nella valutazionee
nell’attribuzione di punteggi e allo stesso tempo i vantaggi nell’uso del computer durante gliesami
da parte degli studenti hanno fatto sentire il bisogno di sviluppare tecniche di
trattamento del materiale linguistico fornito dallo studente in modo automatico. Nascono
cosìil computer- assisted testing (CAT) e il più recente computer adaptive language testing (CALT).
Il testing mediante computer fa uso di una serie di tecniche. Una prima possibilità che l’uso
deicomputer offre è la capacità di avere una larga base di elementi da usare nei test, dalla quale
divolta in volta estrarre, mediante diverse procedure, la particolare selezione di item per il testda
sottoporre a specifici gruppi di studenti a seconda delle loro abilità e del loro livello diconoscenza
della lingua. Un particolare tipo di CAT è il computer adaptive language testing
(CALT) che permette: «1) la possibilità degli esaminati di adeguare personalmente i tempi, 2)la
possibilità di individualizzare i test, 3) di farli durare di meno, 4) di incoraggiare un’attitudinepiù
positiva verso il test, 5) di ottenere i risultati immediatamente, 6) di misurare conaccuratezza i test e
7) di migliorare la correttezza e sicurezza nello svolgimento».L’adattamento riguarda il fatto che il
CALT è disegnato in modo da essere individualizzato, inmodo da selezionare gli item e presentarli
fino a che il livello di conoscenza dell’apprendentenon sia determinato, facendo così in modo che il
test duri il meno possibile e dipenda nelle suecaratteristiche dall’avanzamento e dalla dinamica
delle risposte del discente. In generaleesistono numerosi benefici nell’adozione di sistemi
computerizzati di valutazione e testing chesi integrino con la linguistica computazionale e
l’intelligenza artificiale: oltre all’accuratezza ecomparabilità maggiore dei punteggi, una maggiore
aderenza alle performance dell’individuoe possibilità di personalizzazione delle caratteristiche del
test, la possibilità di avere unimmediato feedback sul risultato e anche, in modo più dettagliato,
avere un feedbackdiagnostico, nel quale all’apprendente vengono fornite informazioni sulle
tipologie di errorecommesso (dalla grammatica all’uso fino all’organizzazione testuale) e sui modi
di recuperareabilità e lacune.9.5. Vantaggi e svantaggi della tecnologia in didattica
Uno degli aspetti più spesso messi in rilievo è la possibilità di accedere a strumenti formativi ditipo
multimodale, ossia strumenti non solamente multimediali (contenenti audio, testo, videoe
immagini), ma anche capaci di integrare diverse modalità comunicative, tra cui lettura eascolto,
scrittura e conversazione. Un secondo aspetto riguarda la possibilità di avere accessodiretto
all’osservazione di esperienze e ambienti culturali della comunità di cui si apprende lalingua,
attraverso il quotidiano accesso a materiali autentici e non specificatamente creati perl’apprendente.
L’apprendente è inoltre posto di fronte a un prodotto tecnologico che ètotalmente nelle sue mani,
per cui non solamente vi è una gestione più autonoma dei modi diapprendimento, ma anche un
adeguamento dei tempi di apprendimento e studio alle capacitàe agli interessi reali dell’utente. Vi
sono tuttavia anche alcuni svantaggi nell’uso delle diversetecnologie oggi disponibili. Una prima
questione riguarda la necessità di fornire unaddestramento all’uso del singolo applicativo. Un
secondo problema riguarda il costo stessodelle apparecchiature necessarie. La quasi unicità della
maggior parte dei progetti di istruzionelinguistica assistita dal computer risulta per molti versi un
grande limite. L’attenzione per ilsingolo progetto, legato a una singola lingua. Vi è una forte
esigenza, invece, che spinge verso lacreazione di risorse e modelli che siano sufficientemente
comprensibili e generalmenteapplicabili a lingue diverse in contesti di apprendimento simili.