Sei sulla pagina 1di 116

Libro Bianco sul Trattamento Automatico della Lingua

Coordinatori del volume Progetto grafico e impaginazione

Andrea Di Carlo, Andrea Paoloni Stefania Vinci Il presente Libro Bianco pubblicato dalla Fondazione Ugo Bordoni, per conto del Forum TAL, con lintento di fornire un utile strumento di consultazione per coloro che vogliano utilizzare le tecnologie del Trattamento Automatico del Linguaggio o vogliano promuovere progetti nel campo. Questa pubblicazione stata realizzata con il contributo di tutti i componenti del Forum, in particolare: il primo capitolo Il Trattamento Automatico della Lingua: definizione e aree tecnologiche stato redatto da Nicoletta Calzolari e Andrea Paoloni; il secondo capitolo Il Mercato del TAL stato redatto da Paolo Coppo e Andrea Melegari; il terzo Il TAL in Italia da Andrea Di Carlo sulla base dei questionari raccolti dallUniversit della Tuscia e dal Consorzio Pisa Ricerche; il capitolo successivo Interviste riporta le opinioni di alcuni esperti indicati dai componenti del Forum e raccolte da Andrea Di Carlo e Andrea Paoloni; infine i successivi due capitoli, sono stati anchessi redatti da Andrea Di Carlo sulla base dei dati resi disponibili dai questionari; la collezione del materiale e lorganizzazione dello stesso stata curata da Sara Saverione. I coordinatori ringraziano Marco Morosini e Cristina Delogu per la revisione del volume.

Componenti del Forum TAL

Fanno attualmente parte del Forum TAL in rappresentanza di diversi domini culturali e produttivi: Marco Mancini, Conferenza dei Rettori delle Universit Italiane Andrea Melegari, Expert System Andrea Di Carlo, Andrea Paoloni, Guido Salerno, Fondazione Ugo Bordoni Nicoletta Calzolari, Istituto di Linguistica Computazionale, CNR, Pisa Piero Cosi, Emanuela Magno, ISTC, CNR, Padova Paolo Coppo, Loquendo Giovanni Scanagatta, Ministero delle Attivit Produttive Giordano Bruno Guerri, Ministero delle Comunicazioni Carmelo Basso, Giuseppe Rinaldo, Ministero delle Comunicazioni ISCTI Pierluigi Ridolfi, CNIPA Alessandro Musumeci, Ministero dellIstruzione, dellUniversit e della Ricerca Stefano Aprile, Ileana Fedele, Ministero della Giustizia Alessandro Masi, Societ Dante Alighieri

INDICE

Prefazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 PARTE I Il Trattamento Automatico della Lingua: definizione e aree tecnologiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Il Mercato del TAL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Il TAL in Italia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Interviste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 PARTE II Presentazioni degli Enti impegnati nel TAL . . . . . . . . . . . . . . . . . . 119 Catalogo dei Prodotti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 Indirizzario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 Appendice: schema questionario . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

INDICE

PREFAZIONE

In questultimo decennio scrittori e giornalisti sono passati dalla penna al computer, si diffuso luso dei sistemi automatici, dapprima nella ricerca bibliografica e nellarchivistica, poi nei sistemi di correzione e di analisi del testo. Il Trattamento Automatico della Lingua, ovvero lelaborazione della lingua parlata o scritta con luso delle macchine, tecnologia da tempo utilizzata negli studi di fonetica e di linguistica, rappresenta una naturale evoluzione degli studi umanistici. Rendere disponibili strumenti per lelaborazione automatica del parlato e dello scritto necessario per mantenere la nostra lingua al passo con i tempi, viva e presente e in grado di svolgere la funzione di veicolo della nostra civilt. Fra la lingua e la cultura vi pi che il rapporto tra mezzo e fine se una scuola filosofica ha potuto ritenere che il linguaggio ci che caratterizza il nostro modo di ragionare e se alle diverse lingue corrispondono diverse attitudini. Il popolo germanico portato ad unanalisi filosofica per una sua caratteristica genetica o perch la struttura linguistica del tedesco ne addestra le facolt cognitive? Nel quadro del sostegno che linnovazione tecnologica e la ricerca debbono avere per poter contribuire alla crescita del Paese, riteniamo di particolare importanza le tecnologie del TAL, sia per il contributo alla produzione in unarea ad elevato contenuto tecnologico sia perch, come abbiamo detto, preservare la nostra lingua significa preservare la nostra identit culturale. Al fine di promuovere le attivit del TAL si ritenuto opportuno costituire un Forum permanente con lobiettivo di monitorare la situazione italiana, di promuove la ricerca e lo sviluppo di strumenti linguistici altamente innovativi, di proporre iniziative dirette allimpiego di questa tecnologia con particolare

PREFAZIONE

riguardo alle applicazioni nella Pubblica Amministrazione e di promuovere luso della lingua italiana allestero. Il Forum ha voluto dare inizio alla propria attivit con la preparazione del presente Libro Bianco che, attraverso unanalisi delle strutture esistenti nellambito della formazione, della ricerca e dello sviluppo, vuole fornire un utile strumento di conoscenza sulla tematica del TAL e sul suo sviluppo in Italia. Sulla base dei risultati di questa indagine verranno promosse iniziative volte a incrementare le attivit del TAL, sia nellambito della ricerca applicata e di base sia, soprattutto, nellimpiego di queste tecnologie presso la Pubblica Amministrazione e presso il grande pubblico. Questo volume, oltre a far conoscere la diffusione delle tecnologie del TAL nella societ italiana e ad evidenziarne limpatto nel mondo produttivo, costituisce anche - specialmente attraverso una raccolta di interviste a figure che svolgono ruoli diversi ma significativi nella ricerca e nella produzione - un contributo di idee che pu essere di utile stimolo allo sviluppo di nuovi filoni di ricerca e di nuove applicazioni tecnologiche. La pubblicazione del presente Libro Bianco non vuole essere un punto di arrivo, ma piuttosto lo strumento per una riflessione razionale e chiara su una tecnologia che, oltre a presentarsi come importante tema di ricerca, rappresenta nelle sue varie componenti un concreto supporto allarea dei servizi. On. Maurizio Gasparri Ministro delle Comunicazioni

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

PARTE 1 IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE IL MERCATO DEL TAL IL TAL IN ITALIA INTERVISTE

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE


COS IL TAL

1 Ma con il termine Natural Language Processing molti designano anche lelaborazione del segnale vocale.

Con il termine TAL (Trattamento Automatico della Lingua), o TL (Tecnologie Linguistiche, in inglese HLT - Human Language Technologies) vengono designate quelle discipline che si occupano di modelli, metodi, tecnologie, sistemi, applicazioni relativi allelaborazione automatica della lingua, sia parlata sia scritta. Il TAL comprende dunque sia lo Speech Processing (SP) o elaborazione del parlato sia il Natural Language Processing (NLP)1 o elaborazione del testo e si pone obiettivi strettamente connessi, quali linterazione vocale uomocomputer e la comprensione del linguaggio umano per servizi come traduzione automatica e il reperimento di informazioni. La prima area (SP) volta a riprodurre la capacit umana di comunicare attraverso la parola e comprende la codifica del segnale vocale, il cui obiettivo la riduzione della quantit di informazione da trasmettere o memorizzare, la sintesi da testo, ovvero la realizzazione della macchina in grado di leggere un testo qualsiasi, il riconoscimento del parlato, ovvero la macchina in grado di scrivere e, infine, il riconoscimento del parlante. La seconda area (NLP) tende a riprodurre la capacit umana di comprendere il linguaggio e prevede, dal punto di vista dei componenti e metodi utilizzati, analizzatori sintattici e semantici, basati su moduli algoritmici o statistici, modelli di rappresentazione della conoscenza, basati su dizionari o enciclopedie, metodologie di apprendimento automatico, e tecniche di annotazione e classificazione quale punto di partenza per il reperimento dellinformazione, mentre, dal punto di vista delle applicazioni, oltre alla traduzione automatica, che riveste importanza particolare nellEuropa dalle molte lingue, comprende i

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

temi della gestione del dialogo, della produzione di sommari, dei motori di ricerca in rete, della gestione della conoscenza.
Alcuni cenni di storia del TAL

La comunicazione tra luomo e la macchina trova le sue origini storiche nelle statue parlanti che nellantichit rappresentavano per lo pi la voce degli dei. In molti casi queste statue funzionavano utilizzando dei condotti acustici che facevano s che quanto era detto da un sacerdote nascosto in una cavit in prossimit della statua, fosse poi ascoltato come proveniente da essa. Si trattava, a voler ben vedere, di una sorta di telefonia primordiale pi che di sistemi in grado di generare una voce artificiale. Il sogno degli idoli parlanti non scomparve con lavvento del cristianesimo se vero che al papa Silvestro II e ad Alberto Magno sono state attribuite teste parlanti in bronzo. Queste statue, secondo quanto si legge nei testi coevi, prevedevano sia laspetto acustico della formazione della voce, sia quello cognitivo della comprensione del messaggio; infatti, la maggior parte delle teste parlanti era in grado di predire il futuro e di rispondere a domande. difficile stabilire quante di queste statue parlanti fossero frutto della fantasia dei narratori e quante strutture reali; certamente solo nel 700 si cominciarono a realizzare dei sistemi realmente in grado di emettere suoni simili a quelli della voce umana. Il 700 lepoca degli automi e fra ballerine che danzavano sulla musica dei carillon e suonatori di flauto in grado di muovere le mani sullo strumento, si sono realizzati sistemi in grado di parlare quando correttamente istruite dallo sperimentatore. Nella costruzione di questi automi eccelse il Barone von Kampel che produsse un sistema che fece il giro dellEuropa e fu presentato anche allimperatore Napoleone. Per quanto riguarda lelaborazione del testo scritto ricordiamo le

10

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

tecniche di crittografia, basate sulla manipolazione dellalfabeto, descritte gi da Svetonio in riferimento al sistema di comunicazione adottato da Cesare, e successivamente descritte in dettaglio nel manuale di cifratura dellAlberti, segretario alla cifra presso la Curia Romana nel XV secolo. Dopo aver accennato a questi antichi precursori del TAL passiamo alla storia moderna, che coincide con la nascita del computer nei primi anni 40. Lavvento di questo potente strumento che basa il funzionamento proprio su un linguaggio, il cosiddetto linguaggio macchina, e lintroduzione dei primi programmi di traduzione che consentivano di passare da un linguaggio formale, ma comprensibile alluomo, quale ad esempio il Fortran, al linguaggio binario del computer, ha suscitato, allepoca della seconda guerra mondiale, linteresse di scienziati che pensarono di poter tradurre il russo in inglese cos come era possibile tradurre il Fortran in linguaggio macchina. Questa speranza stata allorigine degli studi nel campo dellelaborazione del testo, tecnologia che trova nellattuale societ dellinformazione i pi disparati campi applicativi. Il Natural Language Processing (NLP) si infatti sviluppato dalle pionieristiche attivit di Traduzione Automatica (Machine Translation) e ha cominciato ad applicare modelli formali, elaborati a quel tempo da scuole linguistiche generativo-trasformazionali, giungendo allanalisi, riconoscimento e rappresentazione delle strutture linguistiche soggiacenti ai testi, o viceversa, alla generazione dei testi a partire dalla rappresentazione di tali strutture. Negli anni 50 inizia lo sviluppo dellelaborazione del parlato presso i laboratori della Bell dove fu costruito un sistema per riconoscere i numeri pronunciati da un determinato parlatore. Le tecnologie del TAL vennero studiate in ambiti diversi: dagli informatici per quanto riguarda la traduzione automatica, dagli ingegneri delle telecomunicazioni per quanto riguarda il parlato, dai lin-

11

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

guisti per quanto concerne la struttura e levoluzione della lingua, e dagli psicologi cognitivi per quanto attiene ai meccanismi della comprensione. Negli anni 60 vennero effettuate molte ricerche fondamentali sul tema del riconoscimento del parlato ed entrarono nella competizione numerosi laboratori giapponesi. Allincirca nello stesso periodo, in Unione Sovietica, Vintsyuk propose luso della programmazione dinamica per allineare tra loro le coppie di fonemi. Le ricerche di Reddy presso la Carnegie Mellon University portarono, nel 73, alla realizzazione del primo sistema per il riconoscimento del parlato continuo. Si tratta del famoso HEARSAY I, il primo sistema in grado di capire ci che un uomo dice. Utilizzando il riconoscitore HEARSAY I, fu realizzato un sistema per il gioco degli scacchi con il quale i giocatori potevano indicare le mosse a voce. Negli anni 70 la ricerca raggiunse importanti risultati nel riconoscimento delle parole isolate, utilizzando le tecniche del pattern recognition e della programmazione dinamica. Unaltra direzione di ricerca, avviata nello stesso periodo dallIBM, fu quella sui grandi vocabolari che port alla realizzazione del sistema chiamato TANGORA. Negli stessi anni presso i laboratori Bell si sperimentarono sistemi completamente indipendenti dal parlante per applicazioni in telefonia. Mentre il riconoscimento per parole isolate fu lobiettivo degli anni 60, negli anni 70 lobiettivo divenne il riconoscimento delle parole connesse. A questo fine furono inventati numerosi algoritmi tra i quali la programmazione dinamica, sviluppata presso la NEC in Giappone, il metodo one pass, sviluppato in Inghilterra, e gli algoritmi sviluppati presso i Bell Laboratories da Rabiner. Il tema che ha caratterizzato gli anni 80 invece, stato il modello denominato Hidden Markov Model (HMM), utilizzato nei laboratori dellIBM; tra i sistemi basati su tale tecnica citiamo SPHINX,

12

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

della Carnegie Mellon, e BIBLOS, della BBN. Il modello HMM quello ancora utilizzato per il riconoscimento del parlato ed stato ampiamente utilizzato anche in applicazioni NLP, ad esempio per i sistemi di analisi morfo-sintattica (tagger). Per quanto riguarda lelaborazione del testo, quando inizi luso di tecniche elettroniche per lelaborazione di dati linguistici, alla fine degli anni 40, si svilupparono due filoni indipendenti fra loro, quello della traduzione automatica e quello delle analisi lessicali e testuali (produzioni di indici, concordanze, frequenze, ecc.), con pochi contatti reciproci. In Italia ricordiamo fra gli anni 50 e 60 il lavoro pionieristico, nellarea lessicale e tesuale, di Padre Busa, con gli spogli elettronici dellintero corpus di scritti di S. Tommaso dAquino o a lui attribuiti, per un totale di 10 milioni di occorrenze, presso il Centro per lAutomazione dellAnalisi Linguistica (CAAL) di Gallarate, creato principalmente con finanziamenti della IBM Italia. Nel 1966 il settore delle analisi testuali fu accettato internazionalmente come campo disciplinare autonomo e cominci ad estendersi a diverse aree di analisi (fonologia, linguistica storica, dialettologia, ecc.), mentre lo stesso anno il famoso ALPAC Report decret la fine della maggior parte dei progetti di traduzione automatica nel mondo. In quegli anni in Italia Antonio Zampolli, che cominci a lavorare con Padre Busa, ampli ben presto lorizzonte degli studi di elaborazione del testo a settori pi vasti rispetto alla creazione di indici e concordanze da testi, iniziando, gi nel 69-70, un progetto con la Camera dei Deputati per la creazione di un Dizionario Macchina dellItaliano da usarsi per sistemi di information retrieval sulle leggi. In Europa fu poi lanciato negli anni 70 il progetto EUROTRA per la traduzione automatica che, pur fallendo lobiettivo di creare un sistema di traduzione automatica multilingue, contribu a creare una

13

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

rete di istituti europei di linguistica computazionale e produsse una serie di importanti conoscenze ed esperienze nel campo dellNLP. Lo sviluppo della linguistica computazionale negli anni 70 stato influenzato dallinteresse per lNLP mostrato da vasti settori della cosiddetta Intelligenza Artificiale, rivolta a sviluppare metodi e strumenti capaci di una comprensione profonda del linguaggio umano, ma necessariamente limitandosi a frammenti linguistici molto ristretti. Solo negli anni 80 si cominciato a riconoscere limportanza di avere risorse linguistiche, quali lessici e corpora, di grandi dimensioni, ad esempio in Europa con il progetto ESPRIT ACQUILEX. Questo riconoscimento ha portato poi a una sempre maggiore diffusione degli approcci data-driven, che nellultimo decennio hanno acquisito un ruolo decisamente preponderante.
IL TRATTAMENTO AUTOMATICO DEL PARLATO

Riprendiamo ora il tema dellelaborazione del parlato per illustrarne in maggior dettaglio le diverse tecnologie. Possiamo dapprima suddividere larea in due grandi temi ovvero: generazione, sintesi e/o codifica della voce e percezione, riconoscimento del parlato e/o del parlante.
Sintesi e codifica del segnale vocale

Gli obiettivi della generazione del segnale vocale sono due: il pi importante, dal punto di vista applicativo e commerciale, la codifica del segnale, che consiste nel memorizzarlo in forma compressa e successivamente ricostruirlo, con lobiettivo di ridurre la occupazione di banda di una singola comunicazione; il secondo, pi interessante dal punto di vista scientifico, la generazione della voce a partire da un concetto, ovvero da un testo scritto. La codifica del segnale vocale parte dalla constatazione che la banda acustica percepita dallorecchio umano ha una dimensione di circa

14

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

700.000 bit/s e, limitatamente al segnale vocale, di circa 128.000 bit/s, mentre il contenuto informativo di un messaggio scritto (supponendo una lettura al ritmo di una parola al secondo) di circa 10 bit/s; dal confronto risulta evidente che le informazioni accessorie, legate alla particolare voce del parlante, allambiente acustico, ecc. occupano una banda molto significativa ed pertanto ragionevole cercare strade che consentano di ridurre la ridondanza del segnale trasmesso. A tal fine vengono progettati codificatori che possono essere caratterizzati sulla base di quattro parametri: velocit di cifra (bit-rate), complessit, ritardo e qualit. Col termine velocit di cifra ci si riferisce alla larghezza di banda occupata, con il termine complessit si fa riferimento alle necessit computazionali degli algoritmi da implementare, con il termine ritardo al tempo necessario alla codifica, che deve essere minimo per non creare problemi nella comunicazione (echi), e con il termine qualit, infine, alle caratteristiche legate al gradimento e alla naturalezza del segnale decodificato. Vari sono i metodi per codificare il segnale vocale. Un metodo si basa sulle caratteristiche statistiche del segnale e cerca di adattare la codifica a queste ultime: ad esempio pu essere inviata, in luogo del valore di un campione, la differenza tra tale valore e il valore del campione precedente. Un altro metodo basato sulle caratteristiche percettive del nostro orecchio e lobiettivo trasmettere solo ci che pu essere percepito. Una realizzazione di questo approccio consiste nel suddividere la banda acustica in un certo numero di sottobande, per ciascuna delle quali utilizzata la codifica minima accettata dal nostro orecchio. Infine unulteriore via per migliorare la codifica quella denominata quantizzazione vettoriale, che consiste nel codificare simultaneamente un vettore di coefficienti. In pratica ciascuna comparazione o misura di campioni viene trasmessa come nome di un vettore di un apposito insieme di vettori (codebook) che lo rappresenta.

15

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

Con le tecniche di codifica sopra descritte sono stati realizzati vari sistemi di largo impiego: si pensi agli attuali telefoni cellulari che trasmettono ad una velocit di cifra compresa tra 13 e 6 Kb/s. La sintesi da testo (text-to-speech) si propone di riprodurre acusticamente un testo scritto. La prima via seguita stata quella di riprodurre il modo con il quale gli uomini generano la voce, in passato con sistemi meccanici (von Kempel) e poi con filtri elettronici (Fant, Klatt). Questo approccio, denominato sintesi per formanti, ha prodotto sistemi in grado di parlare in modo comprensibile ma con bassa qualit. Una seconda via possibile quella di unire in modo opportuno segmenti pi o meno lunghi di segnale (fonemi, sillabe, parole) registrato, curando le modalit di giustapposizione e introducendo i fenomeni soprasegmentali, ovvero la prosodia, gli accenti, landamento energetico. Applicazioni tipiche della sintesi vocale sono la lettura dei giornali o dei libri per i non vedenti, o la lettura dei messaggi da calcolatore. La qualit della voce generata dai sistemi di sintesi oggi del tutto soddisfacente, ma la voce sintetizzata ha le caratteristiche individuali del parlatore che ha fornito il segnale originario e pertanto per ottenere voci diverse occorre partire da parlatori diversi. Gli studi attuali sulla sintesi della voce sono orientati al tema della caratterizzazione individuale del parlante (et, sesso, ecc.) e allintroduzione di caratteristiche emozionali (dolore, rabbia, gioia, sorpresa, ecc.). Altro obiettivo quello che riguarda la generazione del messaggio, ossia il passaggio dalla trasformazione testo-voce alla trasformazione concetto-voce. un passaggio che richiede intelligenza da parte del calcolatore perch non si tratta pi di trasformare in voce un testo gi scritto, ma di preparare la risposta prima di trasformarla in voce. il caso di un utente che richieda la migliore connessione via aerea per andare da un luogo a un altro con una fermata intermedia,

16

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

per esempio da Roma a Los Angeles facendo sosta a Toronto. In queste applicazioni le tecniche di comprensione del testo (o di intelligenza artificiale) hanno un ruolo di fondamentale importanza e possono rendere possibile la realizzazione di servizi personalizzati estremamente sofisticati, in grado di soddisfare una straordinaria gamma di esigenze particolari. Per queste applicazioni ovviamente fondamentale la cooperazione e lintegrazione fra le tecnologie dello scritto e del parlato.
Riconoscimento del parlato

Il riconoscimento del parlato consiste, in senso stretto, nel convertire il parlato in un testo scritto. Ci richiede la sua conversione in unit, come i fonemi o le parole e linterpretazione di tale sequenza per poter correggere le unit riconosciute in modo errato e, nel caso sia necessario, comprenderne il significato. La figura 1 presenta varie applicazioni delle tecnologie del riconoscimento del parlato in funzione delle dimensioni del vocabolario e del modo di parlare. Il livello di difficolt aumenta, ovviamente, allaumentare della velocit del parlato e della dimensione del vocabolario. Non riteniamo opportuno descrivere in dettaglio quali siano gli algoritmi utilizzati per il riconoscimento del parlato, tuttavia vorremmo ribadire che linformazione acustica, da sola, non sufficiente a permettere la trascrizione di un testo, ed pertanto necessario operare una qualche forma di analisi linguistica e di comprensione del parlato. Lanalizzatore fonetico sar perci seguito da un componente linguistico anche nel caso sia richiesta la mera trascrizione del parlato.

17

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

Figura 1 - Complessit delle applicazioni del riconoscimento del parlato in funzione dello stile e del vocabolario

Le due pi importanti aree applicative dei sistemi di riconoscimento del parlato attualmente esistenti sul mercato, si distinguono principalmente proprio per il componente linguistico. Il modulo linguistico usato per la dettatura dei testi prevede luso di un vocabolario molto grande e pertanto cerca di migliorare il contributo del modulo acustico, quello che trasforma il segnale in ipotesi di fonemi, utilizzando particolari interfacce che riducono il rumore e addestrandolo con la particolare voce di colui che detter i testi. I sistemi per la telefonia, che vengono usati in rete e quindi non possono operare particolari accortezze per ridurre il rumore e per addestrare il sistema, utilizzano un vocabolario molto pi limitato, come pi limitato il numero di frasi accettabili. Il modulo linguistico in questo caso affiancato da un modulo di gestione del dialogo che in ogni momento del colloquio propone un numero limitato di possibili frasi.

18

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Stile del parlato

Identificazione e verifica del parlante

Nellambito del riconoscimento vocale, o meglio nellambito delle macchine che ascoltano e comprendono, viene molto spesso catalogato il processo dellidentificazione del parlante a partire dalla sua voce. Tradizionalmente questa tecnologia viene utilizzata in due diverse aree applicative: la verifica dellidentit, quando lutente si identifica e il sistema deve confermare o meno la identit dichiarata e il riconoscimento, quando la voce non dichiara la sua identit e pertanto deve essere attribuita ad un parlante allinterno di un insieme di candidati. In questultimo caso la difficolt del compito cresce allaumentare della dimensione dellinsieme e, per insiemi aperti, si ritorna alle condizioni di verifiche ripetute. Le applicazioni di queste tecniche sono, per la prima, i sistemi biometrici di identificazione della persona, per la seconda, il riconoscimento a scopo identificativo o forense.
TRATTAMENTO AUTOMATICO DEL TESTO

Il trattamento automatico della lingua scritta (NLP) pu essere suddiviso anchesso, in prima approssimazione, nelle due aree della generazione del testo (sintesi) e della comprensione dello stesso (analisi). Per generazione di un testo intendiamo la creazione, sulla base di un insieme di concetti da esprimere, di un testo che rispetti le leggi della lingua nel quale viene creato. Un esempio applicativo pu essere la generazione delle risposte nel dialogo uomo-macchina, la traduzione da unaltra lingua o la creazione di un sommario di un articolo o di un libro. Per comprensione di un testo si intende lannotazione o lestrazione del suo contenuto concettuale sulla base di regole fonetiche, grammaticali, sintattiche, semantiche e pragmatiche o contestuali, oppure ancora sulla base di processi statistici. Le applicazioni in questo caso sono complementari rispetto a quelle precedentemente illustrate,

19

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

ovvero la comprensione delle frasi pronunciate dalluomo nellinterfaccia uomo-macchina, la comprensione del testo nella lingua dorigine per generare la traduzione o per generare un sommario. Oltre a queste applicazioni, lanalisi del testo volta a comprenderlo, sia pure a livelli diversi, viene utilizzata nei sistemi di information retrieval e information extraction e nei correttori di testo (lessicali, grammaticali, sintattici, stilistici). Dal punto di vista applicativo lNLP viene quotidianamente impiegato nei programmi di scrittura per correggere i testi, nella traduzione tra due lingue, nella realizzazione dei sistemi di interfaccia uomo-macchina basati sul dialogo e nel reperimento dellinformazione. Dal punto di vista poi dei settori di ricerca, dei componenti e delle infrastrutture necessarie per costruire i sistemi applicativi, possiamo far riferimento ai sistemi di analisi relativi ai vari livelli linguistici (grammaticale, sintattico, semantico), ai lessici computazionali, intendendo con questo termine quei vocabolari che incorporano le conoscenze sulle parole necessarie alle operazioni di analisi o generazione (categoria grammaticale, categorie semantiche, ecc.), alle ontologie, alle metodologie statistiche e di machine learning, ai grandi corpora testuali annotati (treebank), ecc.
Parser

Una tecnologia linguistica certamente centrale per le diverse applicazioni quella del cosiddetto parsing, o analisi del testo scritto. Esistono oggi sistemi di analisi dello scritto (parser) capaci di analizzare in maniera robusta testi di vario tipo. Il livello di analisi di base quello morfo-sintattico (tagging), spesso realizzato utilizzando metodi statistici. Il tagging consiste essenzialmente nellassociare a ciascuna parola del testo una categoria grammaticale (nome, verbo, ecc.) accompagnata da altri tratti morfosintattici pertinenti (quali numero,

20

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

genere, tempo, ecc.). Per quanto riguarda il livello sintattico, si affermata recentemente la tendenza a privilegiare lindividuazione di nuclei e relazioni sintattiche che migliorino la successiva identificazione di aspetti pi propriamente semantici. Seguono questo approccio, ad esempio, i sistemi di analisi sintattica che si basano su due moduli, un chunker (o shallow parser) e un analizzatore funzionale. Il chunker implementa tecnologie di parsing a stati finiti e realizza (a volte contemporaneamente alletichettatura morfo-sintattica delle parole) la segmentazione del testo in costituenti sintagmatici non ricorsivi (chunks). Lanalizzatore funzionale riconosce le principali relazioni grammaticali tra gli elementi della frase, identifica cio il soggetto, i complementi, i nuclei nominali complessi, ecc. e rappresenta il componente fondamentale per la fase successiva di annotazione o di estrazione di informazione semantica. Linsieme di questi componenti, uniti a altri componenti di base quali tokenizzatore, estrattore di nomi propri, ecc., disponibile oggi per diverse lingue, costituisce un sistema utilizzabile in diverse applicazioni che richiedono una analisi robusta dei testi. Si impiegano sia metodi basati su regole formali, sia metodi statistici, e sempre pi metodi che fanno uso congiunto dei due approcci.
I lessici computazionali e le ontologie

Limportanza di basare le tecnologie linguistiche, sia dello scritto sia del parlato, su una infrastruttura di risorse linguistiche di vaste dimensioni oggi universalmente riconosciuta. I lessici computazionali ad ampia copertura costituiscono, unitamente ai grandi corpora testuali, il nucleo centrale di tale infrastruttura. Ogni applicazione di ingegneria linguistica ha a che fare con le parole, a un qualche livello di descrizione. Sono i lessici computazionali che incorporano le conoscenze sulle parole necessarie per i diversi sistemi, dalle pi semplici per la

21

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

correzione ortografica alle pi complesse per la traduzione automatica. Un dizionario computazionale per un oggetto estremamente costoso e complesso da costruire in modo adeguato. Dobbiamo formalizzare e rendere esplicite tutte le informazioni che un parlante usa quasi senza rendersene conto, dalle semplici informazioni ortografiche, fonetiche, morfologiche, a quelle pi complesse di tipo sintattico, semantico, pragmatico, logico, ontologico. Alla fine un lessico deve praticamente incorporare la nostra conoscenza del mondo e rappresentarla con un linguaggio formale. Dato il costo e la complessit del problema, al fine di disporre di lessici omogenei per tipi di informazioni e modi di rappresentarle, stato necessario far precedere la creazione di grandi lessici da una fase di definizione di standard lessicali. I progetti europei EAGLES/ISLE per la definizione di standard linguistici hanno coinvolto i maggiori gruppi europei e successivamente americani e asiatici, accademici e industriali, operanti nel settore. Si ricorda che un lessico computazionale tale quando, a livello di morfologia, consente di generare tutte le forme flesse a partire da ogni lemma o parola, e viceversa poter riconoscere ogni forma flessa come appartenente a un certo lemma e avente certe funzioni grammaticali. A livello sintattico la produzione diventa pi complessa: sono formalizzate, per ciascuna parola, tutte le costruzioni sintattiche pertinenti. A livello semantico, infine, la complessit ancora maggiore. Entriamo infatti nel regno della vera ambiguit, in cui i limiti fra un senso e un altro sono talvolta, o spesso, difficili da definire. Esistono per vari tipi di insiemi di relazioni semantiche che possono essere formalizzate e sulla base di queste sono state realizzate grandi reti semantiche per diverse lingue europee, che si possono interrogare interattivamente e ottenere, ad esempio, tutti i nomi di sentimento, o di tessuto, o di colore, o tutti i possibili verbi di movimento, ecc. (fig. 2).

22

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 2 Classe semantica - dominio

Si possono creare gerarchie lessicali che partono da termini generali creando, allinterno della stessa classe semantica, alberi di parole sempre pi specifiche (da sentimento ad amore, affetto, odio, ira, paura (almeno un centinaio di nomi di sentimento) e da ciascuno di questi a termini pi specifici, ad esempio da paura a terrore, sgomento, spavento, orrore, ecc.). La rete semantica italiana legata, attraverso linglese, a quella delle altre lingue europee, permettendo cos di interrogare gli stessi campi semantici in lingue diverse. In cima ad un lessico semantico computazionale c poi quella che viene chiamata ontologia, ovvero un insieme strutturato ed esplicitamente rappresentato di concetti, in cui sono formalizzate conoscenze non solo della lingua ma anche del mondo, per permettere a sistemi complessi di operare generalizzazioni, inferenze, ecc. Tutto ci necessario per sviluppare sistemi di traduzione, di comprensione del contenuto di documenti, o di interrogazione e reperimento delle informazioni.

23

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

Anche quando siamo riusciti a creare lessici di dimensioni adeguate non riusciamo a coprire tutte le potenzialit di una lingua. E questo per una propriet intrinseca delle lingue, che non sono oggetti fissi e completamente stabili, ma qualcosa che evolve continuamente, che si adatta a diversi tipi di situazioni, domini specialistici, contesti di comunicazione e che, dunque, non riconducibile a un sistema finito di propriet e di regole. oggi assodato che lunico modo per cercare di catturare le potenzialit di una lingua consiste nel tentare di estrarre le informazioni lessicali e linguistiche non solo dagli esperti, ma dai testi stessi in cui la lingua viene usata. Diventa dunque essenziale usare grandi corpora testuali, composti da testi di diversi tipi e generi e applicare a questi tecniche raffinate di analisi e metodologie diverse di acquisizione automatica di informazioni. Anche in questo campo in Italia si operato e si opera attivamente, con progetti europei (SPARKLE) e nazionali (Cluster 18) aventi come obiettivo lacquisizione automatica di informazioni lessicali da corpora (fig. 3).
Figura 3 Architettura per lacquisizione di conoscenza linguistica verso lessici dinamici, capaci di auto-arricchirsi

24

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Altri strumenti di analisi

La necessit sempre maggiore di accedere ai molteplici tipi di informazioni contenute in testi e documenti in linguaggio naturale memorizzati in forma digitale (in rete e non) non pu non dare un forte impulso allo sviluppo di tecnologie linguistiche, per lanalisi, la rappresentazione, laccesso, lacquisizione, la gestione della informazione testuale, da utilizzarsi in applicazioni quali: la traduzione (semi) automatica, la sommarizzazione, linformation retrieval e il cross-lingual information retrieval, linformation extraction, il question answering, la classificazione di documenti, i motori di ricerca sul web, il text/data mining, i sistemi a supporto di decisioni, ecc. Si mira oggi a riutilizzare gli stessi componenti linguistici di base, quando hanno raggiunto un sufficiente grado di maturit e robustezza, integrandoli, in modo modulare, in diversi sistemi per i differenti ambiti applicativi. Fra le tecnologie di base attualmente disponibili ricordiamo, oltre agli strumenti di analisi linguistica a vari livelli ricordati sopra: i componenti per lacquisizione di informazioni e conoscenza (machine learning), necessari perch i sistemi si possano adattare a basi testuali in continua evoluzione e a documenti appartenenti ai pi diversi domini terminologici; le risorse linguistiche (lessici, corpora, ontologie, terminologie, ecc.); i modelli e gli standard di rappresentazione dellinformazione (trasversali rispetto a risorse e strumenti, e necessari per la loro interoperabilit). Si segnala anche la tendenza crescente a mescolare metodologie e tecniche statistiche a metodi simbolici e basati su regole, con un misto di approcci data-driven e rule-driven. Citiamo ad esempio la crescente importanza delle cosiddette translation memories per la traduzione automatica.

25

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

Obiettivi applicativi

Le tecnologie linguistiche si caratterizzano sempre pi come tecnologie orizzontali, che vengono utilizzate in sistemi appartenenti a una vasta gamma di scenari applicativi e a diverse tipologie di servizi in rete, spesso multilingua: e-government, e-learning, e-commerce, ebusiness, e-culture. Nel passaggio dalla societ dellinformazione alla societ della conoscenza, non possiamo infine non menzionare la recente visione del Semantic Web, che mira a trasformare lenorme insieme di documenti e testi in rete da risorse accessibili e usabili dallutente umano, a basi di conoscenza accessibili e usabili da agenti e sistemi computazionali. A tal fine, per un passaggio dal testo alla conoscenza, fondamentale la creazione di una infrastruttura composta di risorse linguistiche e di nuovo dalle stesse tecnologie di base: standard, sistemi di annotazione semantica (semantic mark-up), sistemi di acquisizione dinamica di concetti da strutturare in ontologie. Un altro tema di grande rilievo poi quello della traduzione automatica che, come detto, ha costituito la spinta originaria alla nascita della linguistica computazionale. Non v dubbio che una macchina in grado di tradurre da una lingua allaltra presenti un interesse applicativo grandissimo, in ispecie nella moderna societ globalizzata, e un fascino indiscusso quando si pensi alla traduzione voce-voce. Sulla possibilit della traduzione automatica i pareri sono controversi, c chi sostiene che un sistema informatizzato non sar mai in grado di tradurre correttamente un testo e chi afferma che questo sar presto possibile stante il continuo miglioramento degli algoritmi e della potenza di calcolo. Com noto il primo approccio alla traduzione tra lingue diverse stato quello basato sulla conoscenza (knowledge based) che sfruttava dapprima lanalisi sintattica della frase e via via si perfezionato utiliz-

26

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

zando analisi semantiche e lessici annotati senza tuttavia raggiungere un livello di prestazioni sufficiente. In tempi pi recenti stata proposta unaltra strategia, basata sulla statistica e mutuata dalle caratteristiche del componente linguistico dei sistemi di riconoscimento del parlato, che presenta lindubbio vantaggio di poter essere addestrato automaticamente sui corpora delle lingue da tradurre. Questa metodologia si rivelata sufficientemente utile in domini molto ristretti (ad esempio nella traduzione di manuali tecnici e nella traduzione voce-voce). Il tentativo attuale quello di mescolare questi due approcci al fine di rendere pi efficiente la definizione di regole e di lessici attraverso sistemi di addestramento automatico. Nellambito della traduzione automatica non possibile non ricordare lapproccio basato sullinterlingua che ha lobiettivo di ridurre, in maniera significativa, i componenti necessari a tradurre un testo tra numerose lingue differenti. Come evidente il numero di traduttori necessari per tradurre un documento in N lingue diverse risulta essere N x N-1 ovvero, nel caso delle 25 lingue dellattuale Europa, sono necessari 600 traduttori. Invece, utilizzando uninterlingua da cui tradurre e verso cui tradurre tutti i documenti, sono sufficienti 2N traduttori ovvero, nellesempio sopra riportato, 50. Quale che sia lapproccio adottato tuttavia ad oggi non esiste un sistema automatico in grado di fornire traduzioni accurate o comunque accettabili senza una revisione, se non in domini specialistici circoscritti: esistono tuttavia vari sistemi in grado di fornire un ausilio competente alla traduzione.

27

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

IL TAL NELLA SOCIET DELLINFORMAZIONE GLOBALE E DELLA CONOSCENZA

importante osservare che la creazione di risorse infrastrutturali e la promozione di componenti e sistemi per il trattamento automatico dellitaliano sono motivate non solo dalle implicazioni economiche per gli operatori del settore e, in genere, dellindustria italiana, ma anche, sul piano sociale, dal possibile miglioramento di diversi servizi per i cittadini, e, sul piano nazionale, dalla necessit di promuovere la funzione veicolare della lingua italiana nella societ contemporanea. noto che identit linguistica e identit culturale sono strettamente interconnesse, e che promuovendo luna si valorizza laltra, come ricordato da Zampolli nella introduzione alla Conferenza TIPI: Fonti autorevoli hanno avvertito che le lingue, per le quali non vengono sviluppati strumenti adeguati di trattamento automatico, rischiano di perdere gradualmente il proprio posto nella societ globale dellinformazione, assieme alle culture che esse veicolano, con grave danno per uno dei patrimoni pi preziosi: la diversit culturale. Per scongiurare tali pericoli necessario garantire il supporto per luso dellinformazione multilingue, come stato precisato in un recente vertice del G8. Viene percepita sempre pi chiaramente lesigenza di garantire al maggior numero possibile di cittadini non solo laccesso fisico ai canali di informazione, ma anche il diritto di accedere allinformazione in modo agevole, favorendo la crescita, limpiego, la coesione e lintegrazione sociale. Una grande massa di informazioni e potenti connessioni telematiche non forniscono di per s servizi utilizzabili e significativi. necessario fornire strumenti che rendano semplici e naturali laccesso e lutilizzo dellinformazione. Inoltre, le tecnologie del TAL trovano immediate applicazioni di grande utilit per diversi tipi di handicap: non solo, come ovvio, di

28

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

tipo uditivo o vocale, ma anche visivo (comunicazione vocale con lambiente telematico) e motorio (sistemi di ausilio comandati attraverso il linguaggio). Le applicazioni del TAL possono offrire ai cittadini la possibilit di comunicare meglio, di accedere alle conoscenze in modo pi naturale, e di utilizzare modi pi efficaci di scambio dellinformazione. Il trattamento automatico dellitaliano rilevante sia per luso dellitaliano nel nostro paese per applicazioni monolingui quali la documentazione, la creazione e la gestione di documenti, le interfacce a basi di dati per servizi pubblici, laccesso a beni culturali e biblioteche, ecc., sia per luso dellitaliano come lingua veicolare in ambiente multilingue: accesso di utenti stranieri a dati e servizi italiani, aiuto alla traduzione e allapprendimento delle lingue, diffusione della cultura italiana, ecc.
PROSPETTIVE FUTURE

Per ovvie ragioni, la ricerca sul TAL storicamente evoluta per ciascuna nazione nella propria lingua. Queste tecnologie non possono essere semplicemente acquistate, come un computer o unautomobile, ma richiedono una attenta opera di progettazione per funzionare in una determinata lingua. Tuttavia sempre pi comune trovare sistemi multilingua nei maggiori laboratori e centri di ricerca in quanto si va verso uno sviluppo sempre pi globale e le conoscenze linguistiche migrano, insieme ai parlanti, nellintera Europa. La ricerca diviene sempre pi integrata e le conoscenze linguistiche migliorano mentre cresce il numero di dati vocali e testuali disponibili (basi di dati vocali, lessici, ontologie, repertori terminologici, ecc.). La ricerca nellarea richiede un importante supporto pubblico, come avvenuto in Europa grazie ai finanziamenti CEE e recentemente in diversi paesi europei, ad esempio in Germania (con Verbmobil) e

29

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

2 I partner sono: CPR - Consorzio Pisa Ricerche; ITC - Istituto Trentino di Cultura; CSELT - Centro Studi e Laboratori Telecomunicazioni; SYNTHEMA; CVR - Consorzio Venezia Ricerche; CERTIA - Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie e Applicazioni Informatiche; QUINARY; ALCEO; COMPUTER SHARING; DELCO; GST - Gruppo Soluzioni Tecnologiche; INTERACTIVE MEDIA; NECSY Network Control Systems. 3 I soggetti esecutori sono rispettivamente: CPR, Pisa; CIRASS, Napoli; THAMUS, Salerno; ILC-CNR, Pisa; SYNTHEMA, Pisa; Istituto Universitario Orientale, Napoli; Dipartimento di Scienze Storiche del Mondo Antico, Universit di Pisa; Sportello per la Cooperazione Scientifica e Tecnologica con i Paesi del Mediterraneo (SMED) del CNR, Napoli. 4 Piccole e Medie Imprese.

in Francia (con Technolangue). In Italia ricordiamo i due recenti progetti nazionali, coordinati da Pisa: - TAL (Infrastruttura nazionale per le risorse linguistiche nel settore del trattamento automatico della lingua naturale parlata e scritta), del costo complessivo di circa 5 miliardi di lire, finanziato dal MURST per un totale di circa 3,5 miliardi nellambito della legge 46/82 art.10, affidato ad un gruppo di 13 enti privati2, come previsto dalla legge costitutiva. - Il Piano Linguistica Computazionale: ricerche monolingui e multilingui, del costo complessivo di circa 9 miliardi di lire, finanziato dal MURST, nellambito della legge n.488 del 19/12/1992 (Cluster 18), con circa 6 miliardi, articolato in 8 progetti, ciascuno affidato a un soggetto esecutore3, il quale si avvale peraltro di numerose collaborazioni articolate secondo svariate forme giuridiche. importante che questo supporto prosegua, in quanto le forze del mercato non sono in grado di produrre da sole il necessario sforzo finanziario. Le forze del mercato tendono a concentrare lo sviluppo del TAL su un numero limitato di lingue, quelle che permettono di offrire servizi economicamente vantaggiosi a un numero elevato di utenti. Leffetto di simili tendenze non solo quello di escludere un gran numero di cittadini, ma anche quello di penalizzare le imprese, in particolare le PMI4, che operano nel contesto delle lingue meno trattate. Queste considerazioni valgono in particolare per lItalia, come messo in evidenza nel recente rapporto Euromap su questa area tecnologica. Obiettivo prioritario rendere disponibili, per ogni lingua europea, le competenze e i moduli di analisi, ad esempio le interfacce vocali, i motori di ricerca, le tecnologie della conoscenza, nella convinzione che limpatto economico e commerciale prodotto dal TAL sia essenziale nello sviluppo delle tecnologie dellinformatica e della comunicazione.

30

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

La riduzione del divario conosciuto come digital divide, passa anche dalla facilit di colloquio con i sistemi elettronici che la tecnologia attuale rende disponibili. In particolare la televisione digitale interattiva, che sar pronta nel 2005 secondo i programmi del governo, dovr disporre di un sistema di interazione efficiente basato sulla comunicazione vocale. Fra le grandi sfide da affrontare nel prossimo 7 Programma Quadro europeo stato recentemente posto il Multilinguismo. Tanto pi importante che lItalia si doti delle tecnologie linguistiche e soprattutto delle infrastrutture linguistiche necessarie per affrontare il multilinguismo e il contenuto digitale al passo con gli altri paesi Europei.

31

IL TRATTAMENTO AUTOMATICO DELLA LINGUA: DEFINIZIONE E AREE TECNOLOGICHE

IL MERCATO DEL TAL

Il mercato delle tecnologie vocali (Sintesi - Text To Speech o TTS, Riconoscimento - Automatic Speech Recognition o ASR e Verifica del parlatore - Speaker Verification o SV) pu essere suddiviso in tre ambiti applicativi: telefonico, multimediale ed embedded. La prima area, in cui tipicamente le tecnologie sono installate a bordo di potenti server, riguarda lerogazione di servizi vocali al telefono, quali ad esempio automazione di call center, ricerca automatica degli elenchi abbonati (c.d. Directory Assistance), servizi di informazione e intrattenimento. Le tecnologie impiegate in ambito multimediale, ovverosia in ambiente desktop, sono utilizzate principalmente per applicazioni di dettatura, comandi vocali, lettori di schermo del PC (c.d. screen reader) per ciechi o ipovedenti. Larea embedded si riferisce allimpiego delle tecnologie vocali allinterno di apparecchiature, quali computer palmari e telefoni cellulari, sistemi di navigazione satellitare per lambiente automobilistico, traduttori simultanei, giocattoli ed elettrodomestici, al fine di offrire uninterfaccia di facile uso basata sulla voce, alternativa ai meccanismi tradizionali (tastiera, video) laddove non possibile, o pratico, impiegarli. La suddivisione che segue relativa al mercato telefonico, che oggi rappresenta la maggior quota nel settore delle tecnologie vocali; tale mercato strutturabile, secondo una catena del valore che comprende 4 segmenti: - Piattaforme Hardware: questo primo segmento costituito dalle piattaforme telefoniche, dai server vocali, Call Center e IVR (Interactive Voice Response). - Tecnologie (Enabling Software): in questarea si collocano le tec-

33

IL MERCATO DEL TAL

nologie vocali (sintesi, riconoscimento, verifica del parlatore), nonch i browser e gli strumenti di supporto necessari allo sviluppo di applicazioni vocali. - Applicazioni: in questo segmento rientrano i fornitori di applicazioni vocali ed i software ERP (Enterprise Resource Planning) e CRM (Customer Relationship Management), che si prestano allintegrazione con i servizi vocali. - Integrazione di Sistema: lultimo segmento della catena del valore costituito da integratori di sistema e consulenti. Lenabling software, che costituisce il nucleo del TAL parlato, rappresenta circa il 30% in valore dellintero settore: 3 euro spesi per le tecnologie rappresentano dunque 10 euro sullintera catena, grazie alleffetto volano che induce effetti benefici sullincremento del PIL. Levoluzione del mercato TAL parlato, secondo le stime degli analisti, ha seguito un andamento in linea con i principali mercati IT mondiali, risentendo negli ultimi anni della congiuntura sfavorevole; a partire dal 2002 il settore ha mostrato lievi segnali di ripresa, consolidati nel 2003, ed in crescita anche per quanto riguarda la prima met del 2004, e gli analisti stimano un ulteriore incremento per i prossimi anni. tuttavia importante sottolineare come, trattandosi di un settore non ancora maturo, i tassi di crescita sono stati mediamente molto superiori a quelli dei principali mercati IT, attestandosi su una media del 21% negli ultimi 5 anni. I volumi globali, inizialmente esigui, si stanno portando su cifre di assoluto interesse (circa 250 milioni di dollari a livello mondiale nel 2003 per lenabling software, oltre 200 milioni per il segmento applicazioni). In particolare risultano in crescita soprattutto le applicazioni standardizzate a pacchetto, per le quali prevista unevoluzione superiore rispetto alla media degli altri segmenti di mercato. Il principale mercato di riferimento per le tecnologie vocali quel-

34

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

lo degli USA (che ne rappresenta quasi la met), seguito dallEuropa (circa un terzo); larea del Pacifico risulta particolarmente promettente, e il mercato cinese, in particolare, seppur di dimensioni ancora ridotte, quello che presenta, secondo gli analisti, il pi forte potenziale di crescita. Come di solito accade in mercati non ancora maturi, si sta assistendo ad un progressivo consolidamento tra le aziende del settore, con alleanze, acquisizioni e fusioni, accelerato da una forte attenzione alla redditivit, che non sempre si traduce in prodotti migliori ma rischia di degenerare verso la creazione di un monopolio. Dal momento che uno dei fattori di successo nellenabling software rappresentato dalla possibilit di poter garantire unofferta completa (TTS, ASR, SV), le aziende dominanti del settore si stanno attrezzando in questa direzione. emblematico il caso di Scansoft, che tra il 2002 e il 2004 ha acquisito prima Lernout & Hauspie, poi la divisione voce di Philips, SpeechWorks, Lobby7 (multimodale) e LocusDialog (posto operatore automatico), diventando di fatto la prima societ del settore in termini di fatturato. Al secondo posto a livello mondiale si posiziona Nuance, che si configura come il principale rivale di Scansoft nel settore telefonico e che nel 2003 ha migliorato i propri risultati, confermando le previsioni di crescita del settore a partire dal mercato statunitense. Al terzo posto si posiziona IBM, per la quale tuttavia il settore vocale non rappresenta che una piccola parte del fatturato globale. Da segnalare che dal 2004 anche Microsoft ha deciso di entrare con proprie tecnologie e prodotti allinterno del mercato della voce, per ora principalmente sul mercato USA. In Europa, nonostante la presenza commerciale delle societ americane, non esiste ad oggi un soggetto dominante, ma una serie di realt indipendenti: Loquendo in Italia, Telisma in Francia, SVOX in Svizze-

35

IL MERCATO DEL TAL

ra; Acapela Group, in Francia e Belgio, il risultato della fusione tra Elan e Babel. Le campagne di acquisizione delle aziende americane nei confronti di quelle europee hanno fatto s che i risultati di buona parte degli investimenti in ricerca e sviluppo degli anni scorsi in Europa, che hanno beneficiato anche di contributi pubblici, sia ora divenuto appannaggio di societ che svolgono buona parte della ricerca e sviluppo fuori dai confini europei. Se si considera il panorama italiano, sul fronte tecnologico le principali realt che possiedono tecnologie proprie sono Loquendo, IRST e Cirte, di cui la prima attualmente il leader nel settore telefonico. Sul mercato italiano sono inoltre presenti a livello commerciale tutte le principali societ del settore vocale, in possesso di tecnologie in lingua italiana. Ancora una volta, sul fronte tecnologico, la situazione si dimostra sfavorevole per le aziende europee, che non occupano le prime posizioni in termini di quote di mercato e, pertanto, trovano maggiori difficolt a reperire le ingenti risorse da investire in ricerca e sviluppo al fine di mantenere competitivit ed espandere la propria offerta. A testimonianza della necessit di investimenti va evidenziato che, nonostante la ripresa del mercato e la crescita degli ultimi mesi, nessuna delle societ attive in questo settore ha ancora raggiunto la piena profittabilit, eccezion fatta per le aziende che possiedono diverse linee di prodotto al di fuori del vocale. Ladozione di tecnologie avanzate, quali quelle del TAL, fondamentale per accrescere la competitivit del Sistema Paese e consentire che sia sviluppata al di fuori dai propri confini pu far correre il rischio di creare una ulteriore dipendenza tecnologica e forse anche una dipendenza culturale. In questo quadro, particolarmente vero anche per il mercato italia-

36

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

no, un sostegno alla ricerca e sviluppo nel settore del TAL risulta indispensabile ai fini di far raggiungere una massa critica alle aziende italiane ed evitare la creazione di un ennesimo monopolio da parte di aziende estere che vedono lItalia e lEuropa puramente come mercati di sbocco dei loro prodotti, vanificando cos gli investimenti sinora effettuati. La difesa del patrimonio linguistico e culturale passa anche attraverso gli investimenti nelle tecnologie che ne promuovono ladozione. Il mercato del trattamento automatico della lingua scritta si caratterizza per la frammentazione degli attori, lapproccio tecnologico diversificato e limmaturit del mercato. Nella maggior parte dei casi i protagonisti sono aziende piccole o medie molto focalizzate su mercati di nicchia ed in grado di supportare unicamente lo sviluppo delle pi diffuse lingue occidentali (inglese e, in misura minore, tedesco e francese). Inoltre i prodotti impiegati nel trattamento del testo non sempre rispecchiano un vero approccio linguistico. In molti casi i software utilizzati sono basati su tradizionali sistemi di tipo lessicale: solo raramente si implementano soluzioni costruite su algoritmi realmente linguistici, ovvero in grado di eseguire lanalisi morfologica, sintattica e linterpretazione semantica. Il mercato potenziale, tuttavia, di estremo interesse; l80% del patrimonio informativo ha infatti natura non strutturata e pertanto viene attualmente processato manualmente o con strumenti molto rudimentali, poco pi che basati sulla ricerca per keyword. Alla luce di ci non stupisce lesito di unindagine statistica svolta negli Stati Uniti nel 2003 da Jupiter Research: nei prossimi quattro anni le aziende investiranno in Knowledge Management almeno 2,8 miliardi di dollari, il doppio delle attuali risorse. Gli analisti, poich il mercato europeo e asiatico ha molti meno protagonisti e la base dei clienti ancora virtualmente intatta, tendono a

37

IL MERCATO DEL TAL

credere che ci saranno varie possibilit per le compagnie statunitensi di accedere a mercati meno competitivi fuori dagli Stati Uniti. interessante notare che sia Microsoft che Oracle dimostrano una volont di agire, lovvio problema che non sanno in quale direzione. Sempre stando agli analisti, queste grandi realt si propongono di tenere sotto osservazione, e poi acquisire, piccole e medie aziende con una forte leadership ed eccellenti abilit di innovazione. Nel panorama italiano, anche in questo ambito, come in molte altri settori tecnologici, esiste una forte colonizzazione straniera che in molti casi utilizza, per gestire basi di conoscenza in lingua italiana, gli stessi algoritmi utilizzati per elaborare informazioni in altre lingue, con risultati molto spesso deludenti. Proprio per queste ragioni, in considerazione della scarsa sensibilit finora dimostrata dal mercato locale rispetto al Knowledge Management, pensiamo che si apra una finestra temporale molto interessante: cercare di coprire il mercato interno ed europeo con unofferta omogenea ma, nello stesso tempo, differenziata e caratterizzata dalle peculiarit linguistiche da cui non si pu prescindere. In Italia, dove sul fronte della linguistica operano con tecnologie proprie alcune imprese, quali Expert System, Eulogos, Irst, Synthema, ci sono tutti i presupposti per pensare alla nascita di una realt di eccellenza in questo settore, ad altissimo grado di innovazione. In questottica, limpulso alle soluzioni made in Italy pu fornire una grande spinta allintero sistema del TAL, creando un meccanismo virtuoso che favorisca lintero comparto nazionale (ricerca e impresa) nello sviluppo di innovazione tecnologica per il trattamento automatico dellitaliano. Disporre di una piattaforma linguistica evoluta, peraltro, significa gi essere in grado di gestire anche altre lingue. unoccasione davvero unica per affermare, nel tempo, la tecnologia italiana nel mondo con importanti ricadute occupazionali, di immagine e di know how per il nostro Paese.

38

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

IL TAL IN ITALIA

PRINCIPALI OBIETTIVI DELLINDAGINE

I dati che nel seguito verranno illustrati sono stati raccolti per rispondere a tre domande chiave: chi si occupa di Trattamento Automatico della Lingua (TAL), quali attivit sono svolte e quali prodotti sono sviluppati in Italia. In particolare, ci siamo concentrati sulla produzione ottenuta a partire da strutture nazionali; in questa rassegna pertanto non compaiono soggetti stranieri o multinazionali che, pur presenti nel mercato italiano con prodotti di TAL, non hanno in Italia strutture di produzione o di ricerca e sviluppo. Abbiamo cercato di dare alla nostra raccolta di dati una granularit sufficientemente fine da individuare i soggetti agenti sulla scena nazionale; abbiamo inteso come unit operativa lentit minima di descrizione dei soggetti, cio uffici, divisioni, laboratori, dipartimenti, istituti componenti unazienda o ununiversit. Nelle unit operative vengono allocate le risorse umane e finanziarie dedicate alla attivit TAL. Ogni unit operativa ha un nome, un indirizzo, risponde a un responsabile e conta un certo numero di collaboratori di cui una parte addetta al TAL. Sono state raccolte anche informazioni finanziarie relative alle entrate e alle spese che costituiscono il bilancio di ogni singola unit operativa. Inoltre, per ogni unit operativa, stata predisposta una descrizione sommaria contenuta nel libro bianco. Ogni unit operativa fa parte di un ente che pu essere ununiversit, un centro di ricerca, una pubblica amministrazione o unazienda; gli enti, a loro volta, sono caratterizzati da uno o pi settori produttivi (informatica, telecomunicazioni, internet services, altri servizi per le aziende, assicurazioni e finanza, aziende manifatturiere, editoria, pubblica amministrazione, trasporti, sanit, aziende di distribuzione, servi-

39

IL TAL IN ITALIA

zi di pubblica utilit, ricerca, universit, ecc.). Nel progetto originario, i settori produttivi dovevano essere caratteristiche mutuamente esclusive ma ci si resi conto che le persone che hanno compilato i questionari hanno descritto i rispettivi centri mediante pi caratteristiche. Lattivit dei vari enti stata illustrata attraverso i progetti, avviati negli ultimi cinque anni e/o previsti per i prossimi cinque anni, e attraverso lofferta di prodotti e servizi (per le aziende) e di corsi ed insegnamenti (per le universit). Per ogni progetto, sia esso produttivo, di ricerca o universitario, sono state raccolte le informazioni fondamentali: leventuale acronimo, che spesso contiene sinteticamente lo scopo del progetto, una descrizione comprendente parole chiave, il responsabile di progetto, limpegno in anni/persona, le date di inizio e fine, il tipo di finanziamento, se si tratta di commessa interna, esterna, o di un progetto in collaborazione con altri soggetti pubblici o privati, se finanziato in tutto o in parte da istituzioni pubbliche italiane o internazionali, eventualmente nellambito di qualche programma quadro di finanziamento; stato tentato anche di quantificare lapporto allinnovazione tecnologica sia attraverso un indice percentuale, sia attraverso una breve descrizione delle ricadute tecnologiche ed economiche. I prodotti sono stati descritti con parole chiave e relativa classificazione. Per ogni prodotto, sono stati raccolti dati sullo stato di rilascio, cio se si tratta di un prototipo, di un dimostrativo o invece di un prodotto ingegnerizzato rilasciato commercialmente. Analogamente stato descritto lo stato di disponibilit: open source, shareware, freeware, commerciale, riservato. Sulla base di questi dati stato realizzato un catalogo che consente di individuare la disponibilit di prodotti di diverse categorie: sistemi di riconoscimento del parlato, di riconoscimento del parlante, di sintesi da testo, sistemi di traduzione automatica, di correzione di testi, di sommarizzazione,

40

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

corpora, lessici computazionali, ontologie, strumenti di analisi, ecc.. Sono state collezionate informazioni sulle collaborazioni che i vari enti utilizzano nel perseguire la loro attivit sul TAL: tipi e contenuti delle collaborazioni, nazionalit dei partner. Ne risulta unimmagine della complessa rete di contatti e collaborazioni che i vari enti hanno creato a livello nazionale ed internazionale. Specificatamente per la realt universitaria, sono state raccolte informazioni circa le attivit didattiche svolte negli ultimi cinque anni e non sempre riconducibili agli insegnamenti attualmente impartiti; anche per questi insegnamenti stata fornita una descrizione nonch un riferimento al responsabile. Informazioni pi dettagliate sono state raccolte per lattuale offerta formativa; gli insegnamenti sono stati descritti in termini di obiettivi formativi e sono stati riferiti alle classi di laurea previste dallattuale ordinamento universitario; sono stati specificati la qualifica del docente e il numero di studenti nellultimo anno accademico. Si dovuto tener conto del fatto che alcuni corsi sono tenuti da personale esterno (ricercatori, professori a contratto, esperti della materia) dipendente da enti diversi dalluniversit erogante. Per la descrizione di curricula, corsi di laurea, corsi di specializzazione, master, dottorati si fatto riferimento ai docenti responsabili e alle universit e ai dipartimenti che si sono consorziati per la loro realizzazione. Sono stati descritti gli obiettivi e i percorsi formativi, i collegamenti con i settori produttivi e gli sbocchi professionali; anche qui, stato fornito il numero di studenti nellultimo anno accademico.
QUESTIONARIO

Le informazioni sopra delineate sugli enti interessati al TAL, nonch sui possibili utenti di tali prodotti o servizi sono state raccolte mediante un questionario che stato distribuito facendo uso degli indirizzari disponibili presso la FUB, presso il Consorzio Pisa Ricerche e presso

41

IL TAL IN ITALIA

lUniversit della Tuscia, indirizzi costruiti in anni di attivit nel campo del TAL e dei domini affini. Lobiettivo era di raggiungere tutti i soggetti operanti nel settore individuando anche quelli i cui nomi non erano contenuti negli indirizzari citati mediante la segnalazione di collaborazioni e rapporti di affari da parte dei soggetti contattati. La ricerca non pu essere quindi considerata una campionatura casuale di una popolazione, pi o meno nota, di dimensioni sensibilmente superiori; si tratta piuttosto di un censimento. Ci si rivolti a enti, pubblici e privati, di ricerca, di formazione, di sviluppo, di produzione e di commercializzazione delle competenze e dei prodotti TAL e agli enti, pubblici e privati, fornitori di servizi che delle competenze nellambito TAL possono fare uso. Questi enti sono stati contattati attraverso un loro rappresentante che si fatto carico di un non trascurabile lavoro di indagine, di raccolta dati e compilazione dei moduli del questionario. A queste persone, la cui identit e il cui recapito non pu comparire in questo libro bianco per evidenti motivi di privacy e omogeneit, va comunque il pi sincero ringraziamento per lo sforzo prodotto senza il quale questo lavoro non avrebbe visto la luce. Il questionario, riportato in appendice, stato diviso in 15 moduli da riempire, articolati in 4 capitoli come riportato qui di seguito. 1. Anagrafica a. Contatto b. Azienda c. Unit operativa 2. Attivit a. Attivit (progetti) svolta negli ultimi cinque anni b. Prodotti (offerta) c. Progetti per i prossimi 5 anni d. Gruppi attivi sul TAL con cui si hanno contatti e/o collaborazioni

42

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

3. Formazione industriale a. Gestione competenze b. Corsi interni c. Corsi esterni 4. Formazione universitaria a. Attivit didattica svolta negli ultimi 5 anni b. Insegnamenti c. Curricula, corsi di laurea, specializzazioni, masters, dottorati d. Altri insegnamenti non integrati in un corso e. Segnalazioni dellofferta formativa disponibile Il questionario stato inviato agli enti in due forme differenti: essenzialmente la parte del questionario dedicata alla Formazione universitaria stata compilata dai soggetti universitari e mirava alla descrizione dellofferta formativa universitaria riferibile al TAL; il resto del questionario comune a tutti i soggetti coinvolti. Sono stati previsti due spazi per i commenti e i suggerimenti dagli enti che hanno accettato di compilare il questionario e dagli esperti che sono stati a questo delegati. Uno spazio di commento stato dedicato esplicitamente alla formazione universitaria al fine di raccogliere un giudizio sullo stato attuale della capacit formativa nazionale nel campo del TAL, al fine di fotografare sinteticamente le competenze rappresentate e dindividuare le competenze da sviluppare ulteriormente. Uno spazio pi generale stato dedicato ai commenti sulla politica di gestione della attivit di ricerca e sviluppo nel campo del TAL. in studio di pubblicare questi commenti sul sito del ForumTAL, nellapposito spazio per le discussioni pubbliche, in modo da utilizzarli come spunti per ulteriori approfondimenti con lintera comunit nazionale.

43

IL TAL IN ITALIA

DATI RILEVATI

Per il mondo accademico e della ricerca hanno risposto complessivamente 37 soggetti tra componenti universitarie e istituti di ricerca pubblici e privati; per il mondo delle industrie hanno risposto 34 soggetti; altri 19 soggetti industriali e un numero imprecisato di professori universitari contattati si sono dichiarati non interessati o non pi operanti sul TAL. La suddivisione effettuata stata utilizzata per linvio dei questionari ma risulta inadeguata per scopi descrittivi perch le informazioni fornite dagli enti hanno evidenziato una certa sovrapposizione tra le classi; per esempio societ inizialmente considerate di produzione e di consulenza industriale hanno dichiarato di svolgere attivit di ricerca. In conclusione, sono presenti nel database i dati relativi a 71 soggetti di 60 enti per 86 unit operative. Sono stati censiti 206 progetti (di cui 53 attivi, 127 terminati e 26 non classificati), 229 prodotti (tra dimostrabili, ingegnerizzati, commercializzati, riservati,), 76 insegnamenti e 16 curricula universitari correlati con il TAL. Nellanalisi delle caratteristiche di questi oggetti, non sempre le numerosit su cui sono stati calcolati i parametri statistici corrispondono ai suddetti totali perch alcuni enti non hanno risposto a tutte le domande previste.
DESCRIZIONE DEGLI ENTI

Un primo gruppo di dati stato raccolto per caratterizzare gli enti e le unit operative coinvolti in Italia in attivit riferibili al TAL. Sono stati censiti 60 enti su oltre 100 contattati: 19 aziende non hanno risposto al questionario motivando la decisione con la mancanza o con lavvenuta chiusura di attivit direttamente o indirettamente relazionate al TAL. I vari enti hanno dichiarato le loro attivit secondo lo schema, non mutuamente esclusivo, qui riportato (fig.1).

44

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 1

1 - Informatica 2 - Telecomunicazioni 3 - Internet Services 4 - Altri servizi per le aziende 5 - Aziende manifatturiere - processo 6 - Editoria - Media 7 - P.A. 8 - Ricerca 9 - Universit

Sono stati individuati 36 soggetti di diritto privato (aziende, fondazioni, enti no profit,) e 24 soggetti di diritto pubblico (universit, CNR, ministeri, P.A.,).
LE UNIT OPERATIVE

Le singole unit operative che si occupano di TAL sono in genere componenti di organismi maggiori quali universit, grandi enti, ministeri, aziende. a questo livello che sono stati raccolti i dati per la descrizione della movimentazione di risorse (finanziarie e di personale) indotta dalle attivit TAL. Sono state censite 86 unit operative per 570 persone impegnate sul TAL, con contratti a tempo indeterminato e di collaborazione, su un totale di 1656 impiegati dichiarati: 39 unit operative, 210 addetti per lUniversit e la Ricerca (UR); 47 unit operative, 360 addetti nellIndustria (fig.2). Le unit operative non sono molto grandi (mediana pari a 4 perso-

45

IL TAL IN ITALIA

Figura 2

ne nel mondo accademico e 4,5 nel mondo industriale); si precisa che i dati non sono stati forniti da tutte le unit operative: 27 UR, 30 industriali per un totale di 57 su 86 (figg. 3, 4, 5).
Figura 3

46

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 4

Figura 5

Le varie unit operative sono state chiamate a caratterizzare la propria attivit sul TAL secondo la classificazione (ricercatori, sviluppatori, fornitori, formatori, utenti). Ne risultano, come cera da aspettarsi, le naturali differenze tra UR e Industria, gli uni rivolti verso la ricerca e la formazione e i secondi verso lo sviluppo e la commercializzazione. Meno chiara la distribuzione della classe utenti per la quale ci si poteva aspettare un maggior peso nel mondo non universitario: la spiegazione potrebbe essere cercata negli studi umanistici che spesso

47

IL TAL IN ITALIA

utilizzano gli strumenti del TAL e nella non sufficiente pervasivit delle tecniche di TAL nella Pubblica Amministrazione che risulta quindi poco rappresentata nel campione studiato (fig. 6).
Figura 6

DIMENSIONE ECONOMICA

stato difficile descrivere la dimensione economica del dominio TAL perch: - per quanto riguarda gli enti pubblici, il bilancio economico delle singole unit operative risulta difficilmente estraibile dai conti economici ufficiali dellintero soggetto maggiore; - esiste un certo pudore, sia da parte dei soggetti pubblici sia da parte di quelli privati, nellesplicitare il proprio bilancio in una situazione generale in cui non evidente una scelta dicotomica di politica industriale verso la conquista del mercato o verso la ricerca di finanziamenti a copertura. Pertanto il tentativo di estrarre il contributo delle attivit TAL dal profilo economico dei vari soggetti stato ricondotto alla distribuzio-

48

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

ne delle risorse umane, come illustrato precedentemente (fig.2), e da qui si ricava che il TAL incide per meno del 35% dellattivit dei soggetti coinvolti nellindagine, con una prevalenza dellimpegno nel mondo accademico. Il fatturato riconducibile al TAL, limitatamente al solo dominio industriale, illustrato dalla fig. 7.
Figura 7

Per quanto riguarda la possibilit di individuare lo stato del bilancio, positivo o negativo, bisogna notare innanzitutto che una sensibile proporzione di soggetti non ha reso disponibile i dati necessari ma poich si individua che si tratta soprattutto di soggetti pubblici, vale quanto detto prima sulla difficolt di estrarre le informazioni relative a componenti di grandi enti quali ministeri, Cnr o universit. Per il resto possiamo osservare che si tratta di un dominio che mostra una certa tendenza allottimismo perch risulta che la maggior parte dei soggetti sono almeno in pareggio di bilancio (fig. 8).

49

IL TAL IN ITALIA

Figura 8

I PROGETTI

Sono stati registrate 241 partecipazioni a progetto corrispondenti a 206 progetti di cui 53 tuttora attivi, 127 terminati e 26 non classificati. Nella fig. 9, i dati sono relativi ad una classificazione non mutuamente esclusiva dei progetti, pertanto il totale dei conteggi maggiore del numero di progetti censiti. Dallanalisi risulta che i finanziamenti pubblici (anche parziali), nellambito di programmi quadro della Unione Europea, del Ministero della Ricerca e/o enti locali, contribuiscono in misura maggiore del mercato (finanziamenti interni, commesse).

50

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 9

(classificazione non mutuamente esclusiva)

Questo dato confermato dal fatto che la maggior parte dei progetti vengono svolti nellambito di programmi quadro che ne costituiscono spesso il contesto di riferimento metodologico e scientifico oltre che la forma di finanziamento (fig. 10). I programmi della Comunit Europea costituiscono il riferimento principale (fig. 11).

51

IL TAL IN ITALIA

Figura 10

Figura 11

52

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Si cercato anche di dare una rappresentazione dei progetti pi orientata ad una valutazione della loro significativit e del loro peso sulla base della durata (fig. 12) e dellallocazione di risorse umane nelle varie partecipazioni. I dati tuttavia non sembrano riconducibili a una ben ponderata dichiarazione degli sforzi specie quando i progetti non sono inseriti in un paradigma formale di rendicontazione; pertanto le statistiche che ne derivano non possono che essere considerate indicative. La fig. 12 visualizza le durate dei progetti censiti e la mediana risulta essere inferiore ai 3 anni.
Figura 12

Per quanto riguarda le partecipazioni ai progetti, ne sono state censite 241: pi soggetti hanno giustamente dichiarato la partecipazione allo stesso progetto. Non tutti i soggetti hanno esplicitato esattamente limpegno profuso nella partecipazione. Questo, unitamente al fatto che la dichiarazione delle forme di finanziamento non risulta essere mutuamente esclusiva (come detto prima), rende difficoltosi e puramente indicativi i tentativi di caratterizzare lo sforzo finanziato nelle rappre-

53

IL TAL IN ITALIA

sentazioni degli anni/persona allocati nellambito dei programmi quadro (fig. 13) e finanziati nelle diverse forme (fig. 14). In questultimo caso, ci siamo limitati a prendere in considerazione le sole attribuzioni univoche pertanto il numero totale di anni/persona presi in considerazione risulta essere minore (840 anni rispetto ai 1207 censiti).
Figura 13

Figura 14

54

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

I PRODOTTI

Sono stati censiti 231 prodotti di cui 113 di provenienza UR e 118 di provenienza industriale. Naturalmente i prodotti sviluppati fino ad un livello di prodotto commerciale sono dichiarati soprattutto dalle industrie mentre i prototipi sono essenzialmente prodotti nei laboratori delle universit e dei centri di ricerca (fig. 15). Si pu notare che anche i prodotti a livelli intermedi (prototipo industriale e prodotto ingegnerizzato) sono essenzialmente dichiarati dalle UR, il che potrebbe far pensare a scarsa attivit di sviluppo direttamente nel mondo industriale e sottolinea la necessit di una stretta sinergia tra industria e ricerca per non incorrere in una riduzione della disponibilit di prodotti nazionali commerciali nel prossimo futuro.
Figura 15

La disponibilit di programmi dimostrativi relativamente ricca (136) equamente distribuita tra prodotti di provenienza UR (72) e provenienza industriale (64); si tratta sia di prototipi preliminari utilizzati nei laboratori per illustrare unidea o un progetto sia di versioni dimostrative e ridotte di prodotti disponibili commercialmente. La quasi totalit dei prodotti non riducibili a semplici dimostrativi

55

IL TAL IN ITALIA

disponibile commercialmente o riservata ad applicazioni e clienti specifici. La cultura della condivisione di prodotti, nelle sue varie forme (open source, shareware o freeware) , naturalmente, significativa solo per il mondo UR (fig. 16). Va segnalato per che, anche in questi casi, non sempre disponibile una struttura (sito WEB) che faciliti laccesso a questi prodotti condivisi e che sono invece necessari contatti e negoziazione con lente che rilascia il prodotto.
Figura 16

GLI INSEGNAMENTI UNIVERSITARI

Per la descrizione della realt universitaria sono stati censiti gli insegnamenti universitari, afferenti a differenti classi di laurea, che i docenti ritengono caratterizzati da significativi contenuti di trattamento automatico della lingua. Sono stati classificati i dati di 76 insegnamenti nelle relative classi di laurea come in fig. 17. Si nota che gli insegnamenti sono prevalentemente di natura umanistica tuttavia esiste un sensibile impegno delle aree di informatica e ingegneria.

56

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 17

Figura 18

Mediana: 15; Insegnamenti: 59; a.a. 2002-2003

57

IL TAL IN ITALIA

Tabella I: i corsi pi frequentati (N. studenti > 100)

Per quanto riguarda la frequenza ai corsi durante lultimo anno, bisogna precisare che i dati sono da intendersi relativi allanno accademico 2002/2003; bisogna inoltre fare alcune osservazioni relative alle frequenze agli insegnamenti universitari: - le frequenze vengono rilevate nei modi pi vari (appello nominale, registrazione di firme di presenza, a occhio) o pi spesso non vengono rilevate; - lalta frequenza pu essere determinata dal fatto che linsegnamento proposto come obbligatorio in un corso di laurea con molti iscritti. Il conseguente tentativo di descrivere linteresse e il gradimento degli insegnamenti da considerarsi molto approssimato. Unaltra considerazione deriva dai nomi e dalle descrizioni degli insegnamenti: a volte, tranne nel caso di linguistica computazionale e pochi altri, si tratta di materie a ombrello in cui al TAL dedicata soltanto una parte del programma di insegnamento.
100 120 150 150 200 200 250 260 300 400

Linguistica computazionale (Univ. Calabria) Linguistica computazionale (Corso di Laurea in Informatica Umanistica - Universit degli studi di Pisa) Informatica di base per le discipline umanistiche (lettere e filosofia - Universit degli studi di Pisa) Informatica di base per le discipline umanistiche (lettere e filosofia - Universit degli studi di Pavia) Fondamenti di psicologia dello sviluppo del linguaggio e della comunicazione Linguistica italiana (lettere - Universit degli studi di Roma - Tor Vergata) Didattica delle lingue moderne (Laurea triennale in Scienze della Mediazione Linguistica Universit degli studi di Torino) Linguistica generale (Laurea in Scienze della Mediazione Linguistica - Universit degli studi di Torino) Linguistica Computazionale (corso integrativo Interpretariato e Comunicazione Libera Universit di Lingue e Comunicazione di Milano e Feltre, IULM) Teoria e storia della traduzione (Universit degli studi di Napoli - LOrientale)

58

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 19

CURRICULA E CORSI DI STUDIO

Sono stati censiti 16 curricula in qualche modo relazionati a tematiche TAL: due corsi di laurea triennali e due corsi di laurea specialistici, cinque corsi di dottorato e quattro percorsi nellambito di corsi di laurea triennale o specialistici.
COLLABORAZIONI DICHIARATE

Ogni unit operativa ha segnalato gli enti, in Italia e allestero, con cui ha stabilito rapporti di collaborazione generale o su specifici progetti riportando anche il tipo e la nazione dellente oggetto della collaborazione. La Tab. II riporta le nazioni con cui sono stati dichiarati rapporti di collaborazione.

59

IL TAL IN ITALIA

Tabella II

Italia USA UK Germania Francia Spagna Olanda Giappone EU-World Danimarca Messico Portogallo Belgio Svezia Svizzera Bulgaria Cina

152 27 25 22 20 16 9 8 5 4 4 4 3 3 3 2 2

Finlandia India Russia Austria Brasile Corea Cuba Grecia Indonesia Israele Mongolia Norvegia Repubblica Ceca San Marino South Africa Tailandia Taiwan Totale

2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 328

ANALISI DEI SETTORI VERSO CUI SONO RIVOLTE LE COLLABORAZIONI

(figg. 20, 21, 22) Si tentato di classificare le diverse collaborazioni dichiarate dai vari soggetti in base alla tipologia dellente oggetto della collaborazione (Commercio, Industria, P.A., Ricerca, Servizi, Universit) e di raggrupparle in base alle categorie dei soggetti (Industria e Servizi, Ricerca, Universit). Nonostante le classificazioni risultino essere puramente indicative, appare evidente una presenza molto limitata della Pubblica Amministrazione (P.A.).

60

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Figura 20

Figura 21

61

IL TAL IN ITALIA

Figura 22

Risulta che i profili di collaborazione dellUniversit e della Ricerca, sia essa accademica o industriale, sono molto simili: lUniversit risulta essere il riferimento principale. Il profilo del mondo industriale e dei servizi pi variegato, forse meno legato a logiche di appartenenza e pi orientato alla finalizzazione economica della collaborazione.

62

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

INTERVISTE

In questo capitolo sono state raccolte dai curatori del presente Libro Bianco una serie di interviste a personaggi che, per varie ragioni e da diversi punti di vista, conoscono in maniera approfondita la tematica del TAL. A ciascuno di essi stato sottoposto un elenco di domande uguali nella loro ideazione di base ma adattate, caso per caso, alla specifica competenza dellinteressato. Le interviste sono state realizzate con modalit diverse, alcuni hanno risposto via e-mail al questionario predisposto dagli intervistatori, altri sono stati intervistati direttamente o via telefono; in questi casi, il testo il risultato della trascrizione della conversazione. La lettura delle interviste conduce ad una variegata analisi delle potenzialit del TAL e della sua importanza nellambito della societ delle comunicazioni. Su alcuni temi i punti di vista divergono sensibilmente: ad esempio il modesto successo applicativo di questa tecnologia viene attribuito, da alcuni partecipanti, alla scarsa maturit tecnologica, da altri, alla scarsa informazione sulle possibilit offerte. Quasi tutti ammettono comunque che, nellambito del loro ambiente di lavoro, il TAL ha unapplicazione ridotta o limitata. Inoltre, vi una prevalente indicazione che, nonostante questa tematica necessiti di un impegno multidisciplinare, i problemi di organizzazione della ricerca e la diversa tradizione culturale rendono assai difficile la collaborazione tra coloro che provengono da un approccio umanistico e quelli che provengono dalla cultura tecnico-scientifica. Un altro punto molto controverso quello relativo al contributo che il TAL pu dare alla protezione e alla promozione della lingua italia-

63

INTERVISTE

na. Alcuni convengono che la disponibilit di interfacce in italiano verso la tecnologia (computer, televisore, automobile) consente al cittadino di non subire la progressiva diffusione dellinglese nella vita quotidiana (protezione) e che il TAL, mettendo a disposizione gli strumenti per linsegnamento dellitaliano, diviene utile veicolo di diffusione della nostra lingua (promozione); altri invece sostengono non esserci rapporto diretto tra le tecnologie del trattamento automatico della lingua e la diffusione della stessa. Un punto dove invece si avuto un vasto accordo linsufficienza della formazione in questo specifico campo; in particolare non disponibile formazione di tipo multidisciplinare come sarebbe auspicabile per la natura stessa delle tematiche TAL. Una risposta genericamente positiva stata fornita anche alla domanda circa la scarsa informazione sulle potenzialit del TAL nel supporto alle imprese e ai cittadini. Alcuni hanno auspicato delle azioni volte a promuovere questa tecnologia presentandone, in forma accattivante, lutilit. Quanto ad un possibile progetto di ricerca da finanziare le risposte sono assai diversificate e riverberano le differenti esigenze e collocazioni degli intervistati. In particolare non vi accordo sulla necessit di un centro di eccellenza per le tecnologie di base, sostenendo, alcuni, essere sufficienti le attuali istituzioni pubbliche. Altre aree ritenute prioritarie per un progetto di ricerca sono state: - le applicazioni telefoniche; - i sistemi di comprensione; - lidentificazione del parlante. Infine, il mercato privilegiato per il TAL stato indicato in larga maggioranza essere quello telefonico non mancando, tuttavia, alcune segnalazioni sullimportanza dei sistemi di gestione dei contenuti.

64

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

CONVERSAZIONE CON RENATO DE MORI

Quali sono a suo giudizio gli ostacoli principali che limitano il successo applicativo della tecnologia del Trattamento Automatico del Linguaggio? - la scarsa maturit di questa tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro

Il professore Renato De Mori Direttore del Laboratorio di Informatica e professore di Informatica allUniversit di Avignone. membro della Computer Society dellIEEE ed stato professore allUniversit di Torino e Direttore della Scuola di Computer Science alla McGill University di Montreal (Canada). membro del Comitato Scientifico di Speech Communications, di Computational Intelligence, di Computer Speech and Language e di Pattern Recognition Letters. Il professore De Mori stato membro del gruppo di consulenza dellIBM Toronto Lab, presidente del comitato Computer and Information System del Natural Science and Engineering Consult e vice presidente del Centro Ricerca Informatica di Montreal. stato membro del gruppo interdisciplinare della Canadian Information of Innovation ed tuttora membro dellIEEE Speech Technical Committee e del Committee del Canadian Chairs, Natural Sciences and Engineering Council.

Tutti questi ostacoli sono presenti con intensit diverse, forse una risposta alla domanda deve scaturire da una valutazione dello stato di queste tecnologie. I progressi in termini di conoscenze e sviluppo di prototipi, negli ultimi dieci anni, sono stati enormi. I prototipi attuali offrono prestazioni impressionanti; ci nonostante essi non riescono ancora a coprire perfettamente la complessit di espressioni e contesti che caratterizzano il linguaggio usato nelle conversazioni e nei testi che caratterizzano la comunicazione tra esseri umani. Gli ostacoli sono diversi, le prestazioni dei sistemi migliorano via via che importanti quantit di dati sono usate in esperimenti i cui risultati ispirano nuove conoscenze e miglioramenti tecnologici. Occorre dunque accettare questo tipo di dinamismo in cui gli esperimenti suggeriscono nuove conoscenze che, a loro volta, vanno validate con nuovi esperimenti usando nuovi dati in grande quantit. Da un punto di vista applicativo, occorre che gli utenti si abituino ad usare le macchine, conoscendone i limiti, che sia possibile e facile trasferire la comunicazione con una macchina ad un operatore umano quando il dialogo con la macchina non si svolge in maniera soddisfacente. Per il momento, questi sistemi di dialogo, traduzione, dettatura, ricerche negli archivi ed altro, devono essere usati come strumenti sotto il controllo di operatori umani.
Quale la diffusione del TAL nel suo ambiente di lavoro?

Io detto i miei documenti a un sistema automatico, che mi daiuto

65

INTERVISTE

quando leggo un documento in una lingua e me ne servo per fare un rapporto in unaltra lingua. Lavoro anche alle applicazioni nei servizi telefonici ove il dialogo persona/macchina con possibilit di commutazione su un operatore umano ha grandi potenzialit. Sto studiando, in particolare, strategie di dialogo e di commutazione basate sulla valutazione della correttezza di ci che un sistema automatico propone. Queste strategie sono basate su processi sequenziali di decisione, integrando nozioni di teoria del linguaggio e di teoria dellinformazione per prevederne la correttezza.
Ritiene che, nellambito degli studi sulla lingua, esista una netta differenziazione tra gli orientamenti di tipo umanistico e quelli di tipo scientifico-tecnologico? Se s, questo dovuto: - a unintrinseca differenza delle due tematiche; - a problemi di formazione; - a problemi di organizzazione della ricerca.

Se lo studio ha per obiettivo la concezione di modelli computazionali occorre conoscere a fondo le teorie matematiche che permettono di ben sviluppare questi modelli. Ma, poich si tratta di modelli del linguaggio, occorre anche disporre di conoscenze sviluppate prevalentemente nelle discipline umanistiche. Occorre dunque una sintesi dei tipi di orientamento citato. Questa sintesi difficile, ed ostacolata da protezionismi derivati da posizioni rigide e da un certo grado di dilettantismo. Pochi infatti saprebbero ben dirigere un progetto in cui si integrano queste conoscenze.
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana) sulla promozione e protezione della lingua italiana. Lei ritiene sia vero che per la diffusione e la protezione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

66

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Lavorando allEstero da molti anni, mi difficile rispondere a questa domanda.


Ritiene che nella formazione, soprattutto a livello universitario, le tecnologie del TAL siano sufficientemente rappresentate? Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

La formazione universitaria italiana cos diversa da luogo a luogo, che difficile rispondere alla prima parte della domanda. La formazione alle tecnologie TAL ha un certo numero di prerequisiti che coprono un ampio ventaglio di discipline di base di tipo matematico, linguistico, informatico e ingegneristico. Avere queste componenti in un solo corso di laurea difficile. Pi che corsi di laurea specifici vedrei meglio dei corsi TAL inseriti in curricula di Informatica o di altri indirizzi. Il cittadino, penso, si aspetta che queste tecnologie funzionino bene. In realt sono state proposte applicazioni sviluppate con sistemi in commercio scadenti e inadeguati alla complessit delle applicazioni. Inoltre, non si prevista una strategia di miglioramento incrementale basata sulla analisi periodica degli errori. Poche sono le eccezioni consistenti in sistemi che sono veramente allo stato dellarte. Esistono tuttavia in Italia dei servizi che sono tra i migliori al mondo.
Quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio: - traduzione automatica da e verso litaliano; - verbalizzazione o rendicontazione automatica; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.);

67

INTERVISTE

- altro

Le due prime opzioni stanno ricevendo molte sovvenzioni di ricerca in Europa e nel mondo e soffrono tuttavia di una notevole fragilit. Il centro di eccellenza una possibilit per cui lavorano alacremente molti laboratori europei e che finir probabilmente per trovare una prospettiva irrinunciabile nel contesto europeo. Mi auguro che sia monitorato da persone serie, dotate di genuino senso critico e di una grande cultura. Esso potr fornire dati utili per gli studi di base che sono, a parer mio, lopzione pi importante. Questi studi dovrebbero essere condotti da studiosi di grande competenza, associando gruppi di minor competenza ma genuinamente interessati ad imparare a fare ricerca seriamente. I risultati dovrebbero essere valutati da esperimenti adeguati, in modo da far apparire la significativit statistica dei miglioramenti ottenuti e dovrebbero avere il riconoscimento della comunit internazionale attraverso pubblicazioni importanti e citate.
In conclusione quale ritiene essere il mercato privilegiato per il TAL e quali le direttrici di sviluppo pi promettente?

Le applicazioni ai servizi telefonici e telematici ben fatte.

68

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

CONVERSAZIONE CON LEONARDO FELICIAN

Noi abbiamo limpressione che il successo applicativo della tecnologia del TAL non sia cos grande come ci si poteva aspettare. Quali sono a suo giudizio gli ostacoli principali che limitano il successo applicativo di questa tecnologia? - la scarsa maturit della tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro.

La scarsa informazione sulle possibilit offerte dal TAL. Sarebbe assolutamente opportuna pi informazione.
In che modo?

Facendo sapere agli operatori che queste soluzioni si possono utilizzare, organizzando dei convegni
Laureato in Fisica presso la Scuola Normale Superiore di Pisa, dopo una lunga esperienza internazionale nella funzione di consulenza e coordinamento delle strategie informatiche presso la Direzione Centrale del Gruppo GENERALI, ha progettato, avviato e condotto Genertel, di cui Direttore Generale e C.E.O. Operativa dal 1994, Genertel ha innovato la distribuzione assicurativa in Italia, in quanto prima Compagnia italiana di assicurazione diretta al telefono e su internet. Dal 1983 Leonardo Felician ha insegnato Tecniche di organizzazione delle informazioni nelluniversit di Udine e Sistemi Informativi nellUniversit di Trieste dove insegna tuttora in qualit di professore a contratto ed ha pubblicato due libri di testo presso Mondadori Informatica e Franco Angeli. Giornalista pubblicista e membro dellUnione Italiana Giornalisti Scientifici ha pubblicato oltre 2500 articoli su quotidiani e periodici nazionali.

Appositi.

S, non so se appositi per applicazioni nel campo delle assicurazioni oppure pi generali. Certamente, al di l del Libro Bianco che una bella iniziativa, andrebbe organizzato un evento che richiami lattenzione di potenziali utilizzatori.
Nel particolare settore di sua competenza qual la diffusione del TAL?

Nel mio settore, le assicurazioni, il TAL non conosciuto e sono sorpreso di sapere quali siano le sue molteplici applicazioni. Lunico esempio di TAL che mi viene in mente la correzione dei testi. I correttori ortografici (o grammaticali) vengono utilizzati da tutti, ma uno strumento banale, io pensavo a qualcosa di pi specifico, come la comprensione del linguaggio, ma di questo ne parleremo in seguito.
Ritiene che, nellambito degli studi sulla lingua, esista una netta differenzia-

69

INTERVISTE

zione tra gli orientamenti di tipo umanistico e quelli di tipo scientifico-tecnologico? Se s, questo dovuto: - a unintrinseca differenza delle due tematiche; - a problemi di formazione; - a problemi di organizzazione della ricerca.

Secondo me ci sono problemi di organizzazione della ricerca, c una dicotomia tra il TAL umanistico e il TAL tecnologico perch i gruppi di ricerca sono organizzati, almeno per come lo percepisco io, settorialmente.
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana), sulla promozione e protezione della lingua italiana. Lei ritiene sia vero che per la diffusione e la protezione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

Non ho avuto assolutamente notizia di questa conferenza, neanche sui giornali, e ne leggo tre al giorno. Sono molto curioso di sapere cosa significhi protezione della lingua italiana, non riesco, in questo contesto, a dare un significato alla parola protezione.
Ci si riferisce alla protezione dallassorbimento da parte di altre lingue in particolare dallinglese in questa fase storica.

Io non credo nel protezionismo, ma nella libert di mercati, quindi se la lingua italiana deve scomparire giusto che scompaia; questo pur amando molto la lingua italiana ed essendo di sentimenti fortemente italiani; sono triestino e Trieste una citt che ha un rapporto particolare con lItalia. Tuttavia non sono daccordo sul proteggere la lingua, per mi si focalizza un pensiero, cio io associo il TAL al trattamento automatico del linguaggio; lei prima ha fatto un passaggio logico che io non ho colto fino in fondo, secondo me non la disponibilit di tecnologie o la mancanza di tecnologie che ha uninfluenza sullo strapotere dellinglese. Se lei mi dice: io ho un correttore ortografico automatico in lingua

70

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

inglese e non ce lho in italiano, quindi uso il correttore in inglese, a me questo non pare corretto, cio io uso la lingua che mi fa comodo, indipendentemente dagli strumenti che ho, dopo di che se una certa parola file per esempio, non la traduco correttamente in italiano ed uso la parola file anzich archivio, il termine si intrufola nella lingua italiana, ma il risultato non cambierebbe avendo strumenti automatici a disposizione. Si tratta quindi di una tradizione, di unabitudine ad usare i termini in italiano: per esempio usiamo record invece di registrazione che una parola pi lunga, quindi le persone tendono ad usare la parola record a prescindere dagli strumenti automatici.
Vorrei sottolineare che tutto quello che intelligenza artificiale, quando viene poi applicato diventa un semplice database

Io non volevo sottostimare limportanza del correttore, perch aiuta, nello stile o nella ricerca, se parliamo anche di questi strumenti li conosciamo, almeno per quanto attiene alla mia azienda e al mercato assicurativo; se invece definiamo come TAL quasi unintelligenza artificiale, allora neanche sappiamo che esiste e siamo proprio a zero.
Il DIT (Dicastero per lInnovazione Tecnologica) sta vedendo cosa si potrebbe fare per un risponditore automatico alle e-mail; sarebbe importante quando si ha un rapporto con il pubblico avere a disposizione un filtro che risponda automaticamente alle montagne di e-mail pervenute e, al limite, inoltra solo quelle che non in grado di trattare.

Questo mi interessa molto, per io di questo progetto non conosco nulla e mi piacerebbe vederlo applicato.
Un altro esempio la traduzione automatica, per tradurre i libri che servono in italiano, nel qual caso sarei meno tentato di studiare ed usare linglese. Invece la maggior parte dei libri scientifici sono in inglese, allora auto-

71

INTERVISTE

matico usare quei libri, usare quella terminologia, la traduzione automatica e applicazioni simili servirebbe per la consultazione del Web, eccetera

Io leggo libri di informatica sia in inglese che in italiano, esistono vari editori che traducono velocemente, e libri che non vengono tradotti e quindi bisogna leggerli in inglese. Avendo una buona padronanza della lingua, tipica degli informatici, posso farlo. C del vero in quello che dice per non vedo come una traduzione automatica mi potrebbe aiutare, o meglio non sono sicuro che quello che voglio. Mi spiego meglio: io sono un frequentatore dellAlto Adige, che una regione bilingue, quindi nel momento che io vedo qualcosa in italiano tradotto dal tedesco spesso una cattiva traduzione ed io non la leggo volentieri anche quando la traduzione fatta da persone che hanno una notevole padronanza della lingua, per di madre lingua tedesca. La qualit della traduzione tale che ad un italiano da fastidio in certi momenti, tanto che le persone pi avvedute di quella zona si fanno rifare le istruzioni o le brochure da persone di madre lingua italiana. Tutto ci mi porta a pensare che uno strumento di intelligenza artificiale, anche molto sofisticato, capace di tradurre dal tedesco o dallinglese in italiano non garantirebbe la qualit della traduzione sufficiente, in quanto, su un libro, una persona cerca anche una forma decente. In un libro ci deve essere un po di gusto nella traduzione che fa parte del know-how delleditore.
Tuttavia una traduzione automatica non esclude una revisione finale manuale, servirebbe ad accelerare i tempi e a ridurre i costi. Ma cambiamo argomento: ritiene che nella formazione, soprattutto a livello universitario, le tecnologie del TAL siano sufficientemente rappresentate? Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

Nella formazione ritengo che il TAL non sia sufficientemente rappresentato. Lo dico perch insegno in un corso di laurea in ingegneria

72

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

informatica e ho il polso della situazione, anche nei confronti dei miei colleghi e di queste tecnologie non ho mai sentito parlare. Mi piacerebbe che le tecnologie del TAL fossero meglio descritte e diffuse, utilizzando lo strumento del Libro Bianco; lei prima ha detto bene, lintelligenza artificiale bene definirla in maniera corretta.
Quindi quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio: - traduzione automatica da e verso litaliano; - verbalizzazione o rendicontazione automatica; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.); - altro

Penso che il centro di eccellenza sia una buona idea, come anche gli studi di base. Relativamente agli altri aspetti mi piacerebbe suggerire i temi relativi allestrazione semantica e la comprensione del testo che per me prioritaria, perch ha dei campi applicativi maggiori rispetto alle altre aree suggerite, che sono pi tecnologiche o di base.
In conclusione quale ritiene essere il mercato privilegiato per il TAL e quali le direttrici di sviluppo pi promettente?

Se fosse disponibile una tecnologia che copra i settori di interesse delle aziende, ad un costo ragionevole e che funzioni ragionevolmente bene, si scatenerebbe leffetto elettrodomestico. Con tale termine faccio riferimento a una tecnologia che fa quello che serve in maniera affidabile ed a costi adeguati; il pubblico acquista questa tecnologia ed essa si diffonde tra la popolazione, senza porsi il problema dei costi e benefici: si diffonde e basta, un effetto pervasivo; si compra lo strumento, si attacca la spina e funziona, cos deve essere, una tecnologia deve esse-

73

INTERVISTE

re diffusa e funzionale. Questo fenomeno lo chiamo effetto elettrodomestico perch chi per esempio si sposa acquista un frigorifero: chiaro quello che fa, certo che funziona. Se vuole un esempio nel piccolo, la correzione ortografica dellitaliano; ce lhanno tutti sul loro word processor, ma 5-10 anni fa questa tecnologia era carente, Microsoft lo inseriva nel pacchetto, io non lo installavo perch era poco preciso e poco affidabile e mi faceva perdere pi tempo. Inoltre cera anche il problema dello spazio sul disco rigido del PC che era poco e non era cos ovvio destinare lo spazio al correttore che ne portava via parecchio.
Unultima domanda, c un punto che non stato toccato nellambito della discussione e che vorrebbe illustrarci?

Come punto ulteriore le faccio io una domanda; dove trovo un prototipo? Sul sito di unazienda? A questo punto abbiamo discusso a lungo sulle tecnologie del TAL e io le dico: un prototipo me lo guarderei un po per interesse intellettuale, un po per linteresse dellazienda. Lavanzamento di questi studi ed il lavoro che voi state preparando, se alla fine desse dei risultati tangibili disponibili in rete, gratis o a pagamento, una persona interessata comincerebbe a guardare a scaricare una demo e anche a pagare un software. Molte aziende sarebbero disposte a pagare 500-1000 Euro per un software, per prima vorrebbero verificarne il funzionamento. Ad esempio qualche anno fa, ho comprato per la mia azienda un software per la dettatura automatica, ho pagato circa 200 Euro, ma dopo una settimana lho disinstallato perch ho perso tempo per addestrarlo, per poi ottenere un risultato scadente e lento. Introdurre una tecnologia troppo presto, in maniera primitiva, porta poi le persone ad allontanarsi e a non cercare pi tali strumenti. Quindi secondo me il Libro Bianco avr una sua utilit se alla fine solleva una curiosit nei lettori e d dei riferimenti dove trovare prototipi, o prodotti commerciali se sono gi disponibili.

74

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

CONVERSAZIONE CON GIAN CARLO GEROSA

Quali sono le esperienze ed interessi del Gruppo COS nel settore delle tecnologie TAL?

Nato a Roma e laureato allUniversit La Sapienza di Roma. Prime attivit professionali presso lANIDEL (Associazione delle Imprese Produttrici e Distributrici di Energia Elettrica) e presso la TERNI S.p.A- Servizi Idraulici ed Elettrici. Entrato in IBM Italia nel 1961 ha avuto in questa Societ una lunga carriera che lo ha portato a ricoprire importanti incarichi direzionali a livello sia nazionale che internazionale. Gi Presidente della sezione romana dellAFCEA (Armed Forces Communication & Electronic Association). Ora Vice Presidente del Gruppo COS e Presidente e A.D. di alcune delle Societ del Gruppo. Membro di numerosi Consigli di Amministrazione.

Lattivit primaria del Gruppo COS nel campo della comunicazione e del CRM (Customer Relationship Management); di conseguenza tutto ci che riguarda le tecniche per il trattamento automatico della voce costituisce un elemento di primario interesse per la realizzazione di alcuni progetti e la definizione delle strategie di sviluppo industriale. Il ruolo che il Gruppo svolge in questo settore di investigare con continuit sulle tecniche e prodotti che vengono sviluppati nel mondo, con particolare attenzione ovviamente allEuropa e allItalia, per individuare i possibili partner industriali con cui realizzare o pianificare i programmi applicativi necessari per introdurre nella propria attivit nuovi sistemi in grado di migliorare ulteriormente la qualit del servizio riducendo, al contempo, il costo. Il Gruppo ha iniziato a lavorare nel settore del TAL sin dal 1986, quando lazienda informatica del gruppo, la ISI S.p.A., svilupp, insieme con il Gruppo Merloni, uno studio per il comando e controllo, con tecniche a viva voce o via telefono, del sistema di domotica ARISION che aveva allora lanciato sul mercato. Nel 1988 la ISI insieme con VOTAN e AERMACCHI realizz, per incarico della Aeronautica Militare Italiana, un sistema sperimentale per integrare nei comandi dellAERMACCHI MB 339 i comandi vocali. Queste esperienze hanno contribuito notevolmente sia alla formazione tecnica del proprio personale, sia alla creazione di una mentalit aziendale rivolta alla ricerca dellutilizzo di sistemi automatici di trattamento della voce da introdurre nelle applicazioni di comunicazione e di CRM.
Quali sono gli obiettivi principali del TAL?

Per il Gruppo COS le tre principali aree di interesse sono: - interpretazione delle domande provenienti da interlocutori telefoni-

75

INTERVISTE

ci, ricerca automatica delle informazioni necessarie per lo sviluppo della risposta direttamente dai Data Base, strutturazione della risposta in forma sintetica e comprensibile, sintetizzazione vocale per fornire la risposta; - traduzione automatica di domande provenienti da persone di lingua non italiana per creare un messaggio da introdurre nel sistema sopra descritto, traduzione del messaggio di risposta nella stessa lingua usata per la domanda, sintetizzazione vocale del messaggio tradotto; - identificazione certa dellinterlocutore telefonico con lutilizzo dei sistemi di Biometric Speaker Recognition. Questa applicazione molto importante per tutte le applicazioni con contenuto economico come per quelle che contengono informazioni sensibili dal punto di vista della privacy.
Quali sono le prospettive di sviluppo del mercato?

La forte crescita del numero di attivit che le persone vorrebbero fare per telefono sta facendo crescere rapidamente sia il numero delle comunicazioni telefoniche sia la complessit delle risposte da dare agli interlocutori. Naturalmente la complessit delle risposte ha in s insita anche una necessit di alta qualit ed affidabilit delle risposte stesse. Lintroduzione di tecniche di trasmissione ad alta velocit, ed in particolare del Digitale Terrestre, con la conseguente possibilit di realizzazione di applicazioni interattive rivolte agli utenti privati, fa prevedere che vi sar un forte aumento di traffico telefonico per attivit di help desk, sia nel settore tecnico sia in quello applicativo. Per contenere i costi di questi servizi necessario che vengano introdotte maggiormente le tecniche TAL. Tuttavia bisogna tener conto che i sistemi totalmente automatici creano problemi sia di validit tecnica sia di tipo psicologico per gli interlocutori. Quindi ragionevole prevedere che prenderanno sempre pi

76

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

piede soluzioni miste TAL /operatore che possano risolvere adeguatamente il problema sia dal punto di vista tecnico, sia da quello economico. Una strada che sicuramente verr percorsa sar quella del WEB-Call Center opportunamente integrato con lutilizzo delle nuove tecnologie. Per quanto poi riguarda i sistemi di traduzione automatica, la progressiva globalizzazione delleconomia unita con la partenza di una Unione Europea con 25 stati membri, destinati a crescere ulteriormente, rende facile la previsione che la richiesta di centri di servizio multilingue aumenter rapidamente e massicciamente. Il Gruppo COS molto attento al settore dei sistemi TAL multilingue perch attualmente gestisce alcune importanti applicazioni per le quali opera in 14 diverse lingue.
Quali dovrebbero essere le linee guida per la definizione di un programma nazionale?

In Italia vi sono stati e vi sono numerosi progetti nellambito TAL, molti legati alle Universit ed altri ad industrie, tuttavia ognuno di questi progetti si rivolto ad uno specifico settore di interesse privilegiando quindi la soluzione di determinati problemi.
Quali sono le possibili vie di finanziamento per il TAL?

Sembra difficile fondere questi progetti come pure lanciare un nuovo progetto pubblico in cui far confluire tutte le esperienze gi maturate. Una soluzione possibile potrebbe essere il lancio di un bando di finanziamento dei migliori 2 -3 progetti TAL rispondenti alle specifiche determinate dal Dipartimento per lInnovazione Tecnologica. Il bando dovrebbe essere aperto a tutte le istituzioni pubbliche e private e dovrebbe richiedere tempi di consegna del prodotto finito entro 18 mesi. Questa forma di incentivo potrebbe spingere varie industrie ad

77

INTERVISTE

investire in un settore che per loro prioritario e che offre anche lopportunit di avere il rimborso di quanto speso. In cambio del finanziamento le industrie vincenti dovrebbero impegnarsi a rendere disponibile il prodotto a tutti a tariffa pre-concordata. Una parte della resa economica del prodotto potrebbe essere utilizzata per ripagare parzialmente il finanziamento pubblico impiegato in fase di bando. molto probabile che lUnione Europea sia pronta a contribuire allo sviluppo di un progetto che favorirebbe molto la diffusione dellinformazione nellambito di ogni paese e fra i paesi. Per quanto riguarda poi il settore della Biometric Speaker Recognition vi stato gi il progetto CAVE finanziato dalla Commissione Europea, seguito dal follow-up project Picasso. Sarebbe opportuno che il Dipartimento per lInnovazione Tecnologica, partendo dai risultati di questi studi, lanciasse un bando di finanziamento per la realizzazione di una soluzioneprodotto da rendere disponibile in diciotto/ventiquattro mesi. Anche per questo prodotto potrebbe esserci un canone prefissato, da devolvere in parte alla restituzione dei fondi pubblici impegnati per il bando.
Quali dovrebbero essere sinergie e collaborazioni?

La specificit tecnica dellargomento fa s che la realizzazione dei progetti di cui sopra debba essere affidata ad universit o ad altre istituzioni scientifiche, mentre importante che i requirements, i test operativi e la guida del progetto vengano affidati ad aziende private, fortemente interessate al raggiungimento di risultati validi in tempi molto ristretti. Il Dipartimento per lInnovazione Tecnologica dovrebbe essere il promotore del progetto, il finanziatore ed il pronubo delle sinergie e le collaborazioni fra aziende ed enti di ricerca.

78

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

ipotizzabile un efficace collegamento tra ricerca e settori produttivi?

Se ogni parte in causa avr responsabilit ben definite, interessi chiari ed individuati, e finalit concordate con tutte le altre parti, ragionevole dire che il progetto possa avere successo.
Sa suggerire uno schema informativo per laccesso e la disseminazione di informazioni sul TAL a livello nazionale?

importante che i cittadini capiscano che il colloquio con una macchina pu essere in molti casi pi facile e veloce che non con un operatore umano e che, in ogni caso, per situazioni particolari, hanno sempre la possibilit di ricorrere, eventualmente pagando di pi, al colloquio con loperatore umano. Questa presa di coscienza fondamentale perch il colloquio con la macchina venga affrontato con il giusto stato psicologico ed eventualmente con un minimo di preparazione in termini semantici. Questo sta a dire che attraverso i mass media necessario informare-istruire, in modo colloquiale o indiretto, tramite gli spettacoli, tutti i cittadini e che il tema venga anche trattato nelle scuole, tanto pi che ora, gi in prima elementare, i bambini cominciano a conoscere i computer. Perch non pensare anche a short pubblicitari comici che servano a far capire come parlare con una macchina talvolta possa essere pi facile e pi veloce che non parlare con un essere umano?
Occorrerebbe unagenzia nazionale di coordinamento per le attivit TAL?

La creazione di unagenzia ad hoc richiede uno sforzo organizzativo e di tempo forse non giustificati. Gi esistono organismi ufficiali pubblici, quali ad esempio lo CNIPA, che potrebbero assumersi la responsabilit di coordinamento dei progetti TAL, utilizzando eventualmente qualche consulente esterno per le problematiche tecniche pi specifiche.

79

INTERVISTE

Altre osservazioni sul tema?

La buona qualit raggiunta dai sintetizzatori vocali rende decisamente valido il processo di trasmissione delle informazioni. invece molto pi complesso il discorso per quanto riguarda il processo di sviluppo del colloquio nella fase di richiesta di informazioni o di supporto da parte di un utente. Come noto, rimangono alcune difficolt nella interpretazione del parlato ed il sistema delle domande a cui far dare risposte preselezionate fortemente negativo dal punto di vista psicologico e della validit del servizio. Vi poi un elemento fondamentale di cui tenere conto, ossia il maggior vantaggio che unazienda pu trarre nelloffrire un servizio di Call Center-CRM, cio la possibilit di assumere informazioni ed impressioni dal cliente che telefona. In un buon servizio, esercitato da operatori ben formati professionalmente e ben supportati da sistemi informativi dotati di tecniche del tipo Knowledge Management, possibile ricevere una grande quantit di informazioni sul mercato, molto di pi di quanto non si riesca a fare con lunghe e costose ricerche di mercato. Quindi nel progettare un sistema molto importante studiare in quali fasi e per quali servizi possibile utilizzare le tecniche TAL. Un sistema ben bilanciato in grado di offrire un servizio che soddisfi tutte le esigenze di qualit nel fornire le informazioni, di efficienza nella raccolta delle informazioni, e di economicit ottenibile riducendo al massimo il tempo di impegno delloperatore a favore dellutilizzo di sistemi TAL. Il TAL va quindi visto, salvo che per casi semplici o particolari, non come sostitutivo del servizio tramite operatore, ma come una soluzione addizionale di supporto atta ad incrementare la validit del servizio riducendone i costi.

80

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

CONVERSAZIONE CON PIERGUIDO IEZZI

Laureato in scienze dellInformazione, stato Ufficiale dellEsercito proveniente dai Corsi dellAccademia Militare di Modena. Ha ricoperto, inoltre, la funzione di Information Security Manager della Pirelli Corporate Security Department e di IT Security Manager di IT Telecom. Attualmente responsabile Security del Settore Industriale del Gruppo Pirelli.

Inizio questo contributo scusandomi per non essere rimasto allinterno dello schema proposto, che tuttavia riprender al termine dellintervista. Limpostazione delle domande, infatti, ruota attorno al concetto di tecnologia, ponendo quesiti sul perch, sul come e sul dove utilizzarla, prescindendo dallanalisi delle esigenze oggi connesse alla gestione e allutilizzo dellinformazione e alla percezione che ne hanno gli utenti. In definitiva, mi viene chiesto di valutare lo strumento a prescindere dal contesto in cui viene utilizzato e dagli obiettivi che hanno i potenziali utilizzatori. A mio avviso occorre invertire lordine logico dellapproccio: il punto di partenza dovrebbe diventare il punto darrivo cio, bisognerebbe individuare lobiettivo per poi passare allo strumento. Ritengo perci necessario partire analizzando il contesto in cui oggi viviamo, per poi individuare un modello di analisi allinterno del quale collocare la tecnologia TAL. Fin dallantichit esistita la consapevolezza dello stretto legame fra informazione e potere. Dallavvento della rivoluzione dellinformazione si evidenziata la crescente necessit di migliori e maggiori tecnologie. Linformazione era scarsa e il bisogno di accedervi (lera dellaccesso) giustificava le spese in hardware e software. Le nuove tecnologie hanno messo a disposizione una quantit enorme di dati. Tuttavia, a fronte dellincremento della mole di informazioni, emerso il problema connesso al tempo, variabile necessaria per analizzare tutti questi dati, oltre al problema della verifica dellaffidabilit delle fonti. ragionevole ritenere che nel prossimo futuro nasceranno nuove tecnologie che consentiranno nuovi miglioramenti e conseguentemente un ulteriore incremento delle informazioni disponibili. Il rischio di tale processo che in futuro, verosimilmente, saranno ignorate molte questioni importanti, poich sar necessario investire in attenzione umana pi di quanto sia accaduto in passato.

81

INTERVISTE

Barr e Feigenbaum lanciano un monito: Ricordate che una struttura di dati non una conoscenza pi di quanto non lo sia una enciclopedia. Possiamo dire, metaforicamente, che un libro una fonte di informazioni ma, senza un lettore, il libro solo inchiostro su carta. Come, dunque, lavorare in un ambiente saturo di concorrenza informativa? E quali esigenze scaturiranno per chi ha la necessit di governare un dominio, piccolo o grande che sia, in un contesto in cui si suole sempre di pi dire che: un solo numero del New York Times domenicale contiene pi informazione fattuale di tutto il materiale scritto e disponibile per un lettore del XV secolo? necessario identificare modelli e processi culturali e organizzativi per gestire lattenzione, che la vera moneta che regola gli scambi della nuova economia. Il successo sar garantito a quelle organizzazioni (e quindi anche aziende) che saranno esperte non in time management ma in attention management, cio quelle che sapranno selezionare e comprendere correttamente linformazione rilevante e prendere decisioni sulla base di essa, tralasciando il rumore di fondo. Alcuni anni fa, J.L. Borges nel libro The Library of Babel, narra di una biblioteca immensa, piena di milioni di libri con titoli illeggibili e senza un catalogo centrale, dove gli studiosi vagano fino alla morte, cercando (inutilmente) di localizzare le informazioni. Linterpretazione dellinformazione strettamente legata a quella del linguaggio. Mc Luhan affermava che il mezzo il messaggio, sottolineando il rapporto tra comunicazione, percezione della realt e visione del mondo. Il nostro modo di vivere, comunicare, pensare, produrre, commerciare e consumare stato trasformato. Nella new economy componenti chiave del valore sono le idee e le immagini. Sul pianeta si sviluppata una dinamica economica capace di mettere in relazione tutto il mondo,

82

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

di connettere (o di disconnettere) i popoli alle reti di potere e ricchezza. Le istituzioni, che un tempo avevano spinto gli uomini a combattere battaglie ideologiche, guerre e rivoluzioni, stanno svanendo. Sta nascendo una nuova realt virtuale costituita da costellazioni economiche, sociali, religiose, etniche ed ideologiche. emersa una societ in rete con nuovi legami e vincoli, in cui tutti gli elementi si trovano in una condizione dinterdipendenza. La nuova struttura di potere determinata dalla geometria delle reti. Le battaglie culturali sono oggi le battaglie di potere dellet dellinformazione, con un nuovo esercito: quello mediatico. Il potere, in quanto capacit di imporre comportamenti, risiede oggi nelle reti di scambio delle informazioni e nella manipolazione di simboli, che mettono in relazione attori sociali, istituzioni, ecc mediante amplificatori intellettuali, icone e simboli. Di conseguenza, in un mondo in cui lumanit una rete terribilmente intricata, composta da oltre sei miliardi di individui, la criticit disporre dellinformazione della corretta informazione in un marasma caotico, complesso e disordinato. Ci al fine sia di comprendere lidea che sta dietro ad essa, sia di individuare la sottile e intricata struttura organizzativa della complessit delle reti. Niente di nuovo, quindi, rispetto a quanto gi sosteneva Platone, secondo cui il mondo era costituito da elementi ed oggetti non propriamente reali. La conoscenza perfetta risiede, dunque, nella comprensione delle idee e non deve essere fuorviata dalle ombre ingannevoli della fisica. In altri termini, anche se la tecnologia pu supportare nella razionalizzazione, indicizzazione e sintesi delle informazioni, allorigine permane un problema organizzativo relativo alla capacit di analizzare le informazioni per il proprio fine ultimo (es: definire scenari e creare modelli predittivi al fine di essere driver anzich elementi passivi di un mondo in evoluzione, dove al dinamismo e alla velocit si sostituisce la

83

INTERVISTE

dissolvenza tecnologica e non solo: alleanze, centri di potere, interconnessioni, interdipendenze, ecc.). La nuova organizzazione sociale, la pervasivit dei media, fanno s che il concetto di dominio non sia pi limitato alla fisicit (controllo delle risorse materiali, alla difesa dei propri confini, ecc.). Il vero campo di battaglia si trasferito nel mondo virtuale. Le nuove armi sono diventate quelle della comunicazione e spesso gli attori sono ora le stesse aziende private che determinano vere e proprie politiche e sono guida di alleanze strategiche che modificano gli scenari competitivi, alternando Ipercompetition e Co-petition. Linformazionalismo (la rivoluzione della tecnologia dellinformazione cos definita da Castels) ne un esempio. Esso, che contemporaneamente padre e figlio della globalizzazione, un complesso insieme di processi che opera in maniera conflittuale e contraddittoria. Non soltanto un trasferimento di potere o influenza in termini di spazi geografici (dal locale al globale). La globalizzazione deforma non solo i confini, ma anche leconomia, la cultura, la lingua. Fu proprio Saussure che afferm che: la lingua unastrazione che sta ad indicare tutte le regole che in una data comunit linguistica in un periodo di tempo determinato governano luso dei suoni, nonch degli strumenti lessicali, sintattici e semantici despressione. Alcuni anni fa il Congresso americano istitu una commissione di studio con il compito di creare un linguaggio o un sistema di simboli che informasse i cittadini sulla pericolosit delle scorie radioattive, un linguaggio e/o sistema che fosse comprensibile anche a distanza di diecimila anni. Il progetto non and a buon fine: la lingua di oggi non in grado di informare le generazioni future sui pericoli che abbiamo disseminato nel mondo. Ha quindi ancora senso oggi parlare di lingua italiana? Forse sarebbe pi opportuno rimandare al concetto di linguaggio senza dif-

84

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

ferenziare tra gergo umanistico e scientifico-tecnologico: le nuove tecniche di comunicazione rendono, infatti, poco utile questa distinzione. Si pensi al perception management, che comporta azioni aventi lo scopo di fornire o bloccare determinate informazioni e indicazioni verso specifiche audience al fine di influenzare le emozioni, le motivazioni e il ragionamento obiettivo. O alle operazioni di public diplomacy, che comportano un approccio integrato di tecniche diplomatiche, strumenti di influenza mediatica ed economica, supportate da un linguaggio scientifico-tecnologico (vedi guerra in Iraq). O ancora al concetto dInformation Warfare (Infowar). Se, dunque, lobiettivo essere alla guida di un mondo senza pi spazi in balia della corrente delle informazioni, o almeno del proprio dominio di riferimento, quale ruolo (e quindi quale utilizzo) pu avere lo strumento TAL? Evidentemente le sue potenzialit sono molteplici, ma si tradurranno in realt, in modo efficace, efficiente e coerente, nella misura in cui saranno evidenziate a priori le esigenze, creando la percezione di una nuova necessit dei potenziali utilizzatori. Solo in questo modo, ossia a partire da un approccio di studio/analisi del processo/modello a monte dello strumento, si potr effettivamente disporre di fondi di ricerca e potr essere sostenibile lo sviluppo di corsi di formazione. Il punto di partenza non pu essere che lattenzione, ossia limpegno mentale focalizzato su un particolare elemento di informazione. Nonostante siano numerosi gli studi a riguardo in filosofia e psicologia, poco stato fatto in un contesto aziendale e manageriale. In questo ambito, la tecnologia TAL potrebbe dare un contributo ed essere un valido supporto, ma If you think technology can solve your problems, then you dont understand the problems and you dont understand the technology...

85

INTERVISTE

Cercher ora di rispondere alle domande:


Noi abbiamo limpressione che il successo applicativo della tecnologia del TAL non sia cos grande come ci si poteva aspettare. Quali sono a suo giudizio gli ostacoli principali? - la scarsa maturit della tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro

La scarsa informazione sulle possibilit di questa tecnologia. Manca la percezione della necessit/esigenza per i potenziali utilizzatori.
Quale la diffusione del TAL nel suo ambiente di lavoro?

Mi risulta essere parzialmente utilizzata solo nella indicizzazione/basi di dati delle informazioni.
Ritiene che, nellambito degli studi sulla lingua, esista una netta differenziazione tra gli orientamenti di tipo umanistico e quelli di tipo scientifico-tecnologico? Se s, questo dovuto: - a unintrinseca differenza delle due tematiche; - a problemi di formazione; - a problemi di organizzazione della ricerca.

A unintrinseca differenza delle due tematiche, anche se le nuove tecniche di comunicazione riescono a creare una perfetta simbiosi tra i due gerghi.
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana), sulla promozione e protezione della lingua italiana. Lei ritiene sia vero che per la diffusione e la protezione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

86

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

No. Come peraltro evidenziato nella mia premessa.


Ritiene che nella formazione, soprattutto a livello universitario, le tecnologie del TAL siano sufficientemente rappresentate? Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

Le tecnologie TAL non sono sufficientemente presenti a livello universitario anche perch le aziende/imprese non hanno evidenziato, ad oggi, una chiara necessit/esigenza. Sarebbe forse opportuno identificare discipline manageriali universitarie in cui la tecnologia TAL potrebbe essere di supporto tecnico. Per quanto riguarda lultimo interrogativo, ritengo che per la propriet transitiva azienda-cittadino la risposta sia necessariamente negativa.
Quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio: - traduzione automatica da e verso litaliano; - verbalizzazione o rendicontazione automatica; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.); - altro...

Realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base.


In conclusione quale ritiene essere il mercato privilegiato per il TAL e quali le direttrici di sviluppo pi promettente?

La razionalizzazione, indicizzazione e sintesi delle informazioni/testi.

87

INTERVISTE

CONVERSAZIONE CON GIONATA LA TORRE

Noi abbiamo limpressione che il successo applicativo della tecnologia del TAL non sia cos grande come ci si poteva aspettare. Quali sono a suo giudizio gli ostacoli principali che limitano il successo applicativo di questa tecnologia? - la scarsa maturit della tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro

Gionata La Torre Responsabile Marketing Consumer Internet in Telecom Italia Wireline. In azienda dal 2001, prima di assumere la carica attuale, stato anche responsabile Marketing IP Outsourcing e Responsabile delle Partnership Strategiche per la divisione e.business. In British Telecom (dal 1997) ha ricoperto varie posizioni nel Marketing e nel Business Development, fino ad arrivare alla Corporate Strategy per Internet e Multimedia. Conclude la sua esperienza estera con la responsabilit del Business Development per i portali europei di BT Openworld.

vero che non una tecnica cos pervasiva come, fino a qualche anno fa, si pensava dovesse essere, per io non penso che sia un discorso di scarsa maturit della tecnologia; lo poteva essere fino a cinque o sei anni fa, mentre oggi non lo pi. Ci sono dei prodotti di sintesi vocale e degli strumenti per il riconoscimento della voce che sono eccezionali, si pensi per esempio alle tecnologie di call center che sono davanti ai nostri occhi tutti i giorni. Quando il prezzo di questa tecnologia per gli utenti business, che poi sono quelli che portano la tecnologia sui cosiddetti consumer, diventer minore, e quindi ci sar la possibilit di percepire un ritorno immediato degli investimenti, allora ci sar la pervasivit. Certo qualcuno risponde, anche nel nostro ambiente, facciamo i volumi, cio vendiamo un numero sufficiente di prodotti, allora il prezzo scender; comunque rimane il problema di un ritorno troppo lento degli investimenti. Ci troviamo in un circolo vizioso da cui difficile uscire. Soprattutto dopo la bolla speculativa che ha caratterizzato il mercato dellICT subito dopo il 1999-2000, senza un ritorno dellinvestimento inferiore ad un anno, nessuno investe. Ci sono clienti che vorrebbero un ritorno dellinvestimento persino sulla posta elettronica, figuriamoci con una tecnologia vocale. In questi casi lintervento governativo pu fare la differenza, nel senso che quando c un intervento legislativo che enfatizza determinate esigenze che devono

88

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

essere soddisfatte, alcune tecnologie, come in questo caso le tecnologie del trattamento della voce, possono trarne grandi benefici. Il Ministro Stanca, con la legge sul Digital Divide, ha svolto unazione importante, perch ha dettato lobbligo, per tutte le Pubbliche Amministrazioni (P.A) e anche per enti privati concessionari di pubblici servizi, di rendere i contenuti pubblici e/o transazionali comprensibili a tutti. Il Ministro intendeva probabilmente enfatizzare la questione dellaccesso alle tecnologie da parte di tutti i cittadini, e quindi affrontare e risolvere il problema dellaccesso fisico alla tecnologia e quindi portare la larga banda nel comune siciliano piuttosto che in quello sardo. Ma c anche il discorso dei disabili e delle persone non alfabetizzate informaticamente; affrontare il Digital Divide non significa solo far arrivare la larga banda in un comune sperduto, isolato dal resto dItalia, ma anche aumentare il bacino di utenza delle tecnologie, soprattutto quando si parla di P.A. Io penso che il modo per contribuire allabbattimento del Digital Divide, sia quello di consentire laccesso ai servizi del comune di appartenenza anche ad un utente inesperto, nello stesso modo in cui vi accede un utente esperto. Per esempio il cittadino dovrebbe accedere alla lista delle farmacie del suo comune tramite un numero verde, senza quindi pagare il costo della telefonata, e ricavare una risposta attraverso un sistema di sintesi vocale perch pi naturale e senza la necessit di particolare alfabetizzazione.
Nel particolare settore della Telecom qual la diffusione del TAL?

Sicuramente le Telecom, a livello europeo, hanno fatto del CTI prima, e oggi del TAL, parte integrante del loro core business. Basta pensare allesperienza allinterno di Telecom Italia con il portale e Info 412 che hanno portato tantissimi utenti. Quando abbiamo iniziato, circa cinque anni fa con il 12, introducendo una tecnologia innovativa che lutente doveva imparare da solo ad utilizzare, non stato un gran suc-

89

INTERVISTE

cesso; ma oggi possiamo dire che non soltanto un successo, ma siamo indotti ad investire di pi su queste tecnologie. Altro servizio che, come Telecom Italia, abbiamo realizzato per i nostri clienti sulla parte informativa, il portale di prenotazione e informazioni on-line delle Ferrovie, per il quale ci sono delle statistiche che parlano dell80% circa delle telefonate che sono terminate e condotte a buon fine con loperatore automatico. Questo un successo: anche per lutente, il sistema diventa pi usabile.
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana), sulla promozione e protezione della lingua italiana. Lei ritiene sia vero che per la diffusione e la protezione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

Sicuramente vero che la tecnologia aiuta levoluzione di una lingua. Penso che litaliano abbia subito una lunga evoluzione nel tempo, e i media hanno avuto un ruolo importante; per esempio, la RAI dei primi anni ha avuto il ruolo di diffondere litaliano, nella nostra penisola. Mi rimane un po oscuro cosa significhi protezione della lingua. Non esiste un pericolo incombente di inglesizzazione della nostra lingua; un processo gi avvenuto specie nel mondo del lavoro. Possiamo invece pensare che il TAL offra un supporto allevoluzione ulteriore della lingua, mantenendola viva. Non penso che noi possiamo riuscire ad evitare linglesizzazione, per se il TAL ci pu aiutare a ritrovare anche il piacere dellitaliano certamente un contributo positivo.
Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

Dal punto di vista delle imprese, ritengo che queste tecnologie siano note, anche se c sempre il discorso di un non immediato ritorno di

90

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

investimento. Dal punto di vista del cittadino, queste tecnologie non sono conosciute, o, se lo sono, c confusione sui vari sistemi che utilizzano tali tecnologie. Penso al TAL come ad uno strumento per migliorare lusabilit di altre tecnologie, come una tecnologia abilitante. Il TAL uno strumento molto utile per migliorare lusabilit delle tecnologie, perch la voce pur sempre il canale di comunicazione pi naturale per luomo e pu semplificare linterfaccia uomo-macchina. Si sta affacciando la TV digitale terrestre, il TAL contribuir ad interagire in maniera naturale con la televisione e questo aumenter lusabilit della TV digitale e, al tempo stesso, la pervasivit del TAL. Questa la chiave per la diffusione del TAL; non possiamo dire che le tecnologie del TAL e della voce in particolare non si diffondono perch non sono ancora pronte. Sono certamente perfettibili, ma hanno comunque raggiunto livelli di prestazione elevati che ne consentirebbero lutilizzo, ma il problema che costano ancora troppo.
Quindi quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio: - traduzione automatica da e verso litaliano; - verbalizzazione o rendicontazione automatica; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.); - altro

La realizzazione di un centro di eccellenza mostrerebbe linteresse strategico del governo, e comunque della P.A., verso queste tecnologie; in particolare, sarebbe auspicabile un centro di ricerca focalizzato sulle tecnologie della voce, sul trattamento della lingua parlata da affiancare ai centri che gi esistono e che sono focalizzati sugli altri aspetti del TAL. Altro tema fondamentale, sempre nellambito dellin-

91

INTERVISTE

terfaccia tra il cittadino e le P.A. e delle misure per lo snellimento della burocrazia, lidentificazione del cittadino che accede in modo remoto a servizi on line. Al di l dellintegrazione di backend e di frontend dei sistemi informativi pubblici, che come sapete sono diversissimi, il principale problema lidentificazione univoca dellutente; poich si accede ad informazioni sensibili, evidente che username e password non sono sufficienti, vengono ricercati strumenti pi sofisticati e sicuri di autenticazione. La verifica del parlatore, la possibilit che chiunque possa essere riconosciuto in modo univoco dalla voce, pu essere una soluzione praticabile, semplice ed efficace. Innanzitutto va nella direzione della legge Stanca che vuole abbattere il Digital Divide e quindi vuole che i servizi della P.A. siano disponibili on-line per tutti: poich il mezzo pi usabile e pervasivo che abbiamo il telefono, necessario che i servizi siano resi disponibili attraverso il telefono; quindi non ci sono altri modi se non luso del TAL, in particolare della verifica del parlatore sul canale telefonico. In secondo luogo, la verifica del parlatore darebbe anche la certezza del fatto che la persona dichiarata in quel preciso momento allaltro capo del telefono. Forse ancora necessario un qualche sforzo di ricerca, ma la verifica del parlatore dovrebbe essere la soluzione di sistema pi semplice rispetto ad altre a cui oggi si rivolge maggior attenzione (digital signature, riconoscimento biometrico,...).
In conclusione quale ritiene essere il mercato privilegiato per il TAL, e quali le direttrici di sviluppo pi promettente?

Ribadirei che il mercato privilegiato del TAL si articola intorno alle soluzioni per il Digital Divide: centrale la possibilit, attraverso queste tecnologie, di portare la rivoluzione informativa on-line a tutti, in particolare ai disabili e alle persone non alfabetizzate dal punto di vista informatico. Penso inoltre che anche le aziende private, che si rivolgo-

92

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

no ai consumer per fare business, si stanno accorgendo che il poter avere delle tecnologie automatiche per il trattamento della lingua le pu aiutare a ridurre i carichi di call center, e a raggiungere ancora pi cittadini che non siano soltanto quelli on-line.
Quindi per lei il telefono non ancora sostituibile dal computer per il rapporto stato-cittadino, e quindi servizio-cittadino? Il canale di comunicazione sar ancora vocale?

Posso dire che ultimamente il telefono si sta riprendendo il suo ruolo di medium per eccellenza su tutti; non parlo del telefono mobile, che sta diventando come un computer, ma del telefono fisso. Telecom Italia, in questultimo periodo, sta introducendo moltissimi servizi che prima erano appannaggio solo del telefono mobile: per esempio nel secondo semestre del 2004 lanceremo la videoconferenza. Io penso che tutto questo rilancer lutilizzo sia del telefono fisso che mobile, perch c pi usabilit in un telefono che in un computer. Le tecnologie del TAL vanno utilizzate soprattutto nellinterazione uomomacchina, perch la voce il mezzo pi naturale che abbiamo per comunicare.

93

INTERVISTE

CONVERSAZIONE CON DOMENICO PARISI

Quali sono a suo giudizio gli ostacoli principali che limitano il successo applicativo della tecnologia del Trattamento Automatico del Linguaggio? - la scarsa maturit di questa tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro

Domenico Parisi lavora presso lIstituto di Scienze e Tecnologie della Cognizione del CNR a Roma. Si occupa di modelli simulativi del comportamento basati sulle reti neurali e sulla robotica. presidente dellAssociazione Italiana di Scienze Cognitive e direttore della rivista Sistemi Intelligenti. Recentemente ha pubblicato il libro Simulazioni (Il Mulino, 2001) e ha curato, insieme a Angelo Cangelosi, il libro Simulating the evolution of language (Springer, 2002).

Certamente la scarsa diffusione delle tecnologie TAL non dovuta alla loro marginalit nellambito delle applicazioni: se esistessero tecnologie TAL realmente efficaci, si troverebbero molti usi importanti, economicamente e socialmente, per tali tecnologie. Un piccolo ruolo nello spiegare lo scarso successo applicativo e la limitata diffusione delle tecnologie TAL lo svolge la scarsa informazione sulle possibilit offerte dal TAL, ma la vera spiegazione sta nella insufficiente maturit di queste tecnologie. Questa debolezza dipende dal fatto che le tecnologie TAL hanno imboccato, fin dallinizio e continuano a seguire oggi, strade in parte sbagliate, cio strade che ignorano come il linguaggio emerge ed usato nella comunicazione tra esseri umani. La tendenza oggi verso una maggiore attenzione delle tecnologie informatiche nei riguardi del modo in cui nella realt biologica, cognitiva e sociale funzionano i fenomeni, cercando di incorporare nella tecnologia aspetti dei fenomeni biologici, cognitivi e sociali. Si veda ad esempio la robotica biomorfica e la robotica collettiva, lanalisi del WEB con i modelli delle reti fisiche e sociali, ecc. Invece nelle tecnologie TAL si rimasti fermi agli approcci iniziali, vecchi ormai di mezzo secolo, che sono puramente interni alla tecnologia e ignorano come funzionano le cose nella realt. Due esempi: i sistemi di riconoscimento automatico e i sistemi di sintesi del linguaggio ignorano il significato dei segnali linguistici, mentre la grande efficienza del riconoscimento e della generazione del linguaggio negli esseri umani dipende dal fatto che nel cervello degli

94

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

esseri umani il riconoscimento e la generazione dei suoni linguistici sono collegati allattivazione dei significati di questi suoni. Sar sempre impossibile andare al di l di livelli molto limitati di prestazioni delle tecnologie TAL, se si continua su questa strada. Secondo, nei rari casi in cui nelle tecnologie TAL viene preso in considerazione il significato dei segni linguistici, lo si fa ipotizzando sistemi semantici formali disegnati dal ricercatore. Invece negli esseri umani i significati dei segnali linguistici emergono dalle co-variazioni tra segnali linguistici e specifici aspetti dellesperienza delle persone, cio delle interazioni dellindividuo con la realt esterna. Fino a che non si permetter a un sistema TAL di sviluppare i significati dei segnali linguistici con cui ha a che fare in base alla sua esperienza, cio ai suoi usi e alle interazioni con lutente, invece di inserirglieli belli e fatti dentro, le tecnologie TAL resteranno marginali. Al livello europeo esistono progetti orientati in questo senso, come il progetto Embodied and Communicating Agents (ECAGENTS).
Nel particolare settore di sua competenza e di lavoro qual la diffusione del TAL?

Nel mio settore di competenza e di lavoro, che pure ha a che fare con la ricerca sul linguaggio e la tecnologia, le tecnologie TAL sono quasi assenti.
Ritiene che, nellambito degli studi sulla lingua, esista una netta differenziazione tra gli orientamenti di tipo umanistico e quelli di tipo scientifico-tecnologico? Se s, questo dovuto: - a unintrinseca differenza delle due tematiche; - a problemi di formazione; - a problemi di organizzazione della ricerca.

Di fatto c una notevole differenziazione tra approcci umanistici (let-

95

INTERVISTE

terari, filologici, linguistici tradizionali) e approcci scientifico-tecnologici allo studio del linguaggio. Ma da vari decenni si creato anche un importante settore interdisciplinare di studi sul linguaggio che comprende linguisti formali, psicolinguisti sperimentali, studiosi di modelli computazionali, tecnologi e informatici. Questo settore ben rappresentato anche in Italia anche se in Italia le strutture di formazione e di ricerca non favoriscono gli approcci interdisciplinari.
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana), sulla promozione e protezione della lingua italiana. Lei ritiene sia vero che per la diffusione e la protezione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

Le tecnologie TAL certamente potrebbero dare un contributo importante alla promozione e alla protezione della lingua italiana, ad esempio nel campo della formazione e in quello della conservazione, e reperimento in grandi basi di dati linguistici.
Ritiene che nella formazione, soprattutto a livello universitario, le tecnologie del TAL siano sufficientemente rappresentate? Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

Le tecnologie TAL sono presenti sempre in modo molto marginale a tutti i livelli, dalla formazione universitaria alle aziende, dalla formazione diffusa e permanente (inclusa la divulgazione e la formazione/intrattenimento) alle interazioni dei cittadini con le strutture pubbliche.
Quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio:

96

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

- traduzione automatica da e verso litaliano; - verbalizzazione o rendicontazione automatica; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.); - altro

Le aree prioritarie da finanziare sono, nellordine: - la ricerca di base su nuovi modi di impostare le tecnologie TAL, secondo le linee illustrate pi sopra; - la traduzione automatica, che sar una esigenza sempre pi forte con la globalizzazione degli scambi comunicativi, a cominciare dalle-learning destinato a persone che parlano lingue diverse (vedi i progetti europei in questo campo); - lo sviluppo di interfacce di interazione utente/tecnologia (non solo computer ma anche, ad esempio, tecnologie wireless e mobili e robotica) che usino il linguaggio naturale; - la creazione di un centro di eccellenza sulle tecnologie TAL, magari collegato con il progettato Istituto Italiano di Tecnologia.
In conclusione quale ritiene essere il mercato privilegiato per il TAL e quali le direttrici di sviluppo pi promettente?

Il mercato privilegiato delle tecnologie TAL resta quello dellinterazione utente/tecnologia (si pensi ad esempio alle tecnologie di ricerca basate su Semantic Web) ma un mercato che non decoller se le tecnologie TAL non dimostreranno di saper fare salti in avanti dal punto di vista delle loro prestazioni.

97

INTERVISTE

CONVERSAZIONE CON ANDREA PASTORE

Sono a conoscenza della proposta di legge da Lei presentata per listituzione del Consiglio Superiore della Lingua Italiana, a che punto questa iniziativa?

Dopo una lunga fase, per cos dire, di istruttoria, il ddl approdato in Senato, dove sono stati gi presentati degli emendamenti. Liter un po lento a causa dei molti altri provvedimenti in via di approvazione.
Non pensa che un sistema di correzione di testi di tipo automatico, che funzioni meglio di quelli oggi disponibili, potrebbe, anche pi di una consulta, determinare una standardizzazione efficace ed efficiente della lingua?

Andrea Pastore, nato a Caramanico (Pe) il 4 maggio 1947, vive a Pescara. Notaio. Coniugato, ha quattro figli. Nelle elezioni amministrative del dicembre 1994 viene eletto consigliere comunale della sua citt. Viene eletto senatore nelle elezioni politiche del 21 aprile 1996. Il 29 novembre 1998, nuovamente eletto consigliere comunale. fondatore del Centro studi dAbruzzo Luigi Einaudi, della Consulta Italia per il lavoro - Abruzzo, della quale Presidente, dellassociazione culturale ll Circolo di Pescara e dellassociazione culturale Itinera. Confermato senatore nelle elezioni politiche del 13 maggio 2001, presidente della Commissione affari costituzionali.

I sistemi di correzione automatica possono essere molto utili, soprattutto per i testi di natura tecnica, in quanto permettono di velocizzare dei procedimenti che diversamente sarebbero molto lunghi e laboriosi. Ma bisogna tener presente che lo standard, cio linsieme delle norme da seguire, un punto di partenza, non darrivo. La standardizzazione della lingua una competenza scientifica dei linguisti e la correzione automatica pu essere solo uno strumento per diffonderla. Una consulta nazionale della lingua ha una funzione di orientamento e coordinamento per quanto riguarda le iniziative, non soltanto pubbliche, in fatto di lingua, e serve, fondamentalmente, ad offrire una piattaforma qualificata di discussione a cui possano partecipare in eguale misura la componente politica e quella culturale nel senso pi ampio: accademica, scientifica, ecc..
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana), sulla promozione e protezione della lingua italiana. Non pensa che per la diffusione e la protezione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

Le tecnologie informatiche possono contribuire notevolmente alla diffusione della nostra lingua. Penso, per fare qualche esempio, ai siti

98

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Internet ed ai corsi di autoapprendimento per stranieri. Inoltre ho potuto constatare per esperienza personale che, nello studio della lingua, linformatica permette di associare in modo organico ed immediato lessico e grammatica.
Quali sono a suo giudizio gli ostacoli principali che limitano il successo applicativo della tecnologia del Trattamento Automatico del Linguaggio? - la scarsa maturit di questa tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro

Credo che occorra una maggiore informazione sulle possibilit del TAL e su quei settori applicativi dove ha raggiunto i maggiori risultati: per esempio la sintesi vocale.
Ritiene che, nellambito degli studi sulla lingua, esista una netta differenziazione tra gli orientamenti di tipo umanistico e quelli di tipo scientifico-tecnologico? Se s, questo dovuto: - a unintrinseca differenza delle due tematiche; - a problemi di formazione; - a problemi di organizzazione della ricerca.

Le differenze, anche nette, sono dovute alla formazione di ciascuno, che tende per forza di cose ad essere settoriale. Ma in un mondo come quello attuale ritengo necessario che la componente umanistica e quella scientifico-tecnologica interloquiscano nel modo pi produttivo ed utile per la tutela e la promozione della nostra lingua.
Quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio: - traduzione automatica da e verso litaliano;

99

INTERVISTE

- verbalizzazione o rendicontazione automatica; - realizzazione di un sistema di verifica della modalit di scrittura di leggi e regolamenti; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.); - altro...

Tutti i progetti elencati sono interessanti. Al momento mi sembrerebbe prioritario un sistema di verifica della scrittura legislativa e amministrativa, che naturalmente andrebbe impostato sulla base di norme precise, e applicato e controllato da appositi tutori di lingua, come avviene in Svezia.

100

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

CONVERSAZIONE CON GIUSEPPE GIOVANNI PAVONE

Il TAL che, agli esperti del settore, sembra essere una tecnologia promettente, ricca di potenzialit nei campi della Computer Telephony (Call Center, Centralini automatici,), della trascrizione automatica di registrazioni audio e video, della traduzione automatica (a cui evidentemente sensibile lUE), del ritrovamento di testi in grandi basi dati contenutistiche, della sommarizzazione, risulta invece essere una tecnologia non molto diffusa. Questo dipende dal fatto che la tecnologia non ancora matura per le applicazioni, che le sue potenzialit sono non sufficientemente conosciute o che si tratta di una tecnologia essenzialmente marginale? Qual , secondo lei, la ragione di questa difficolt a penetrare il mercato IT?

Giuseppe Giovanni Pavone, 40 anni, ingegnere in Telecomunicazioni. Dal mese di maggio 1991 al mese di marzo 1999 ha lavorato presso il Gruppo ENEL con incarichi di coordinamento e specialistici nellarea ICT. Dallaprile 1999 lavora a Poste Italiane SpA Divisione Rete Territoriale; Responsabile Direzione Call Center; dal 2003 Responsabile Gestione Sistemi Informativi della Direzione Centrale ICT. Parallelamente agli incarichi di struttura ha avuto la responsabilit in numerosi progetti: Call Center Informatico ENEL 1997/98; Call Center Wind (start up Roma e Napoli) 1998/99; Call Center Unico di Poste Italiane 1999/2003; Call Center Integrato Comune di Roma 060606 2001/2003; Contact Center Unico della Previdenza INPS/INAIL.

Nella mia percezione non sono state ancora sviluppate, o sono ancora in uno stadio di sviluppo, applicazioni che siano veramente utili a chi deve trarre benefici da queste tecnologie. La vera sfida non tanto quella di provare la tecnologia, quanto quella di costruire e progettare dei servizi che possono trarre da questa tecnologia il massimo valore. inoltre necessario che questo valore sia percepito dallutilizzatore. Molto spesso queste tecnologie sono inserite pi come elementi di efficientamento ovvero volte a migliorare lefficienza di un sistema piuttosto che la qualit - mi riferisco ad esempio, al mondo dei Call Center, in cui la tecnologia di interazione automatica della voce riduce di fatto i costi operativi in quanto il costo del contatto automatico sicuramente inferiore a quello del contatto operatore - in realt, bisogna costruire intorno a questi sistemi dei servizi utili. Bisogna dire che in passato la scarsa qualit della sintesi vocale ha in qualche modo frenato la diffusione di questi sistemi. Alcune sperimentazioni hanno danneggiato la diffusione di queste tecnologie. Uno dei servizi utili la lettura automatica della posta elettronica, soprattutto per utenti ad alta mobilit dove questo servizio percepito positivamente; in questo caso ci sono dei sistemi validi.

101

INTERVISTE

Qual la diffusione di questi sistemi nel vostro settore?

Abbiamo messo in campo sistemi sia di interazione vocale sia di sintesi vocale. Nel progettare i nostri servizi siamo attenti alle esigenze degli utenti. A questo scopo, abbiamo introdotto, come in tutti gli altri Call Center, il sistema di IVR (Interactive Voice Response), comprendente il text-to-speech (la sintesi da testo), con lobiettivo di facilitare la fase di accesso. Quindi abbiamo una prima fase di filtro-scrematura delle chiamate per consentire al cittadino di trovare loperatore pi appropriato per risolvere il suo problema: in questo caso, perseguiamo un obiettivo di efficienza ed efficacia dei nostri servizi. Successivamente abbiamo utilizzato i sistemi di sintesi vocale per coprire quella parte del servizio che non copriamo con gli operatori: in particolare durante la notte e i giorni festivi, in cui comunque ci sono utenti che chiamano il nostro Call Center e che rischierebbero di trovare il sistema non attivo. Per esempio, ci sono i servizi di recapito pacchi e raccomandate verso i quali i clienti manifestano grande preoccupazione perch, in genere, il contenuto non riproducibile. Le persone ci chiamano anche la notte o durante i festivi per sapere dov il pacco o la raccomandata, se stato consegnato. Abbiamo cos realizzato un sistema di tracciatura, utilizzando le tecnologie di riconoscimento automatico del parlato e di sintesi vocale, mediante il quale riusciamo a dare un messaggio utile che soddisfa il cliente.
Al di l degli aspetti tecnologici, quali implicazioni linguistiche possono evidenziarsi nella progettazione e nella realizzazione di unapplicazione di accesso allinformazione?

Quando, come nel nostro caso, si stabilisce una relazione con i clienti, si parla a delle persone, si comunica attraverso la voce. Ma laddove venga messa in campo la tecnologia, questa deve essere abilitante nella relazione. Nellattivit di supporto alle risposte via e-mail o via

102

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

corrispondenza, sarebbe fortemente auspicabile disporre di sistemi che aiutino loperatore a rispondere in modo giusto, con un corretto linguaggio italiano, in una forma che sia adeguata allazienda che viene rappresentata e al cliente che ha richiesto linformazione. Inoltre noi condividiamo la posizione di chi ritiene che vada fatto uno sforzo per implementare servizi in italiano corretto al fine di promuovere la nostra lingua nella Societ dellInformazione. Se torniamo brevemente al contatto con i clienti via e-mail, noi abbiamo selezionato, tra tutte le e-mail che ci arrivano, un campione finalizzato alla costruzione di risposte standard che siano scritte in un italiano corretto e in grado di fornire in pochi termini, risposte precise e comprensibili. Lobiettivo di aggiungere, alla correttezza dellitaliano scritto, anche la semplicit dei concetti in modo da ottenere una comunicazione rapida ed efficace.
Sulla base dellesperienza derivante dalla selezione del personale da utilizzare nella progettazione di attivit, ritiene che lUniversit prepari in maniera adeguata un numero sufficiente di persone nel campo del TAL?

Direi di no. Non si trovano ingegneri con una formazione orientata alle tecnologie della lingua, se non sviluppata in modo autonomo e per interesse personale. Si trovano persone che vengono da Scienze della Comunicazione o da facolt limitrofe a Ingegneria. I laureati in Lettere poi non hanno nessuna preparazione tecnologica. Bisognerebbe rendere pi umanistici gli ingegneri o ingegnerizzare un po di pi i letterati!
Ecco lultima domanda: se si finanziasse un progetto nazionale di ricerca in questo ambito su quali aree andrebbe focalizzato? Su quali aree potrebbe convergere linteresse di un ente come il suo in quanto portatrici di possibilit di sviluppo e di sfruttamento applicativo?

103

INTERVISTE

Attualmente i nostri interessi sono focalizzati in due direzioni: - lIVR avanzato; - il Knowledge Management. Per quanto riguarda il primo punto, abbiamo attivato progetti per circa 1 milione di euro sul self-service da Call Center, siamo interessati a tutto ci che riguarda avviare operazioni informative o dispositive utilizzando sistemi automatici. Potremmo, in prospettiva, ipotizzare un sistema intelligente in grado di fornire informazioni ed erogare servizi agli utenti sulla base di uninterazione, di un dialogo in linguaggio naturale. Laltro progetto, a cui siamo molto interessati, riguarda la possibilit di rendere disponibili, con strumenti semplici e intuitivi, agli operatori del Call Center, ma anche ai clienti, la base di conoscenze dellazienda, cio le informazioni sui prodotti e sui servizi della nostra azienda. Per esempio come fare ad aprire un conto banco posta, o come sostituire una carta di credito. Ai fini della comunicazione, prevediamo di utilizzare tutte le forme e le modalit possibili (testi, immagini, video, audio) mettendo a fattore comune tutte le conoscenze aziendali. Il progetto di Knowledge Management riguarda la possibilit di mettere in un unico contenitore tutta la conoscenza esplicita (fonti documentarie, norme, processi) e implicita (di chi normalmente gestisce i problemi) e di mappare tutte queste informazioni in una struttura concettuale che possa essere interrogata attraverso uno strumento informatico. Si realizza cos un sistema di supporto e di guida che consente, a chi interagisce con lazienda, di trovare le informazioni giuste al momento giusto, nei tempi giusti. Questo tipo di attivit per noi di primaria importanza per una serie di motivi: - il fatto di ricercare rapidamente le informazioni fa s che si possa risolvere in un unico contatto il rapporto con il cliente: con un sensibile risparmio di tempo;

104

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

- abbiamo verificato che il tempo del contatto, a fronte di una richiesta, si riduce del 20%; - diviene possibile cambiare molto rapidamente le persone sul front line, perch hanno una base di conoscenze strutturata e non devono essere affiancati nel tempo; - il full time equivalent si riduce e quindi risultano inferiori i costi operativi; - si introducono elementi di qualit per una migliore risposta al cliente, omogenea e sempre coerente.

105

INTERVISTE

CONVERSAZIONE CON PIERLUIGI RIDOLFI

Noi abbiamo limpressione che il successo applicativo della tecnologia del TAL non cos grande come ci si poteva aspettare. Quali sono a suo giudizio gli ostacoli principali che limitano il successo applicativo di questa tecnologia? - la scarsa maturit della tecnologia; - la scarsa informazione sulle possibilit offerte dal TAL; - la marginalit della tecnologia del TAL nellambito delle applicazioni; - altro...

La risposta oscilla tra la seconda e la terza opzione, nel senso che pochi conoscono le potenzialit offerte dal TAL. Il settore ancora di nicchia. Non tuttavia vero che la tecnologia non sia matura: io ritengo che sia matura, molto valida, molto sviluppata, c spazio per lavorare, ma certamente vero che ancora pochi utenti ne conoscono veramente il potenziale.
Nato a Ferrara nel 1934, laureato allUniversit di Bologna in ingegneria industriale. Ha conseguito nel 1970 la Libera Docenza in Teoria e Applicazione delle Macchine Calcolatrici. Dal 74 docente dInformatica allUniversit di Bologna. Dal 1960 al 1993 in IBM Italia, stato Direttore Centrale della Ricerca e dellInnovazione Tecnologica. Dal 1994 ha svolto incarichi di consulenza tecnologica per importanti organismi tra cui la RAI. stato Presidente dellAssociazione Amici dellAccademia dei Lincei. Pubblicista, autore/curatore di numerosi volumi e di oltre 100 lavori su argomenti relativi allICT. Componente del Collegio del CNIPA e Presidente della Commissione interministeriale permanente per limpiego delle tecnologie dellinformazione e della comunicazione a favore della categorie deboli o svantaggiate.

Per esempio, nel campo della dettatura la ricerca si un po fermata, lIBM non ci lavora pi, lIRST poco e devo dire che ancora il sistema non va veramente bene, secondo me dovrebbe ancora migliorare.

vero che IBM non lavora pi su questo tema, per commercializza un prodotto di buona qualit.
Lei usa i sistemi di dettatura automatici?

Personalmente non li utilizzo, non detto quasi mai dei testi, forse per questione dabitudine; poi scrivo solitamente documenti molto sintetici. So con certezza che il sistema proposto da IBM viene utilizzato da alcuni giornalisti, che lo trovano ragionevolmente valido. Non penso che questo sia un parametro che migliori le tecnologie, serve piuttosto per diffonderle.
La successiva domanda conseguenza della prima: basandosi sulla sua esperienza di lavoro ha visto applicazioni del TAL di qualsiasi genere, la tradu-

106

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

zione, per esempio, o linformation retrieval, di grande successo? Ci sono aree applicative interessanti?

Lapplicazione pi diffusa, un po dovunque, quella relativa alla correzione automatica dei testi, mentre i suggerimenti di tipo linguistico vengono utilizzati pochissimo, anche perch i programmi pi importanti, come Word, risultano essere lacunosi e limitati su quel fronte: in sintesi ritengo che ci sia ancora molto da lavorare. Questo, per esempio, potrebbe essere un campo utilizzato dalla P.A.. Il CNIPA sta pensando di creare un piccolo laboratorio tecnologico, una sorta di vetrina per mettere in mostra le nuove tecnologie, cio tutto quello che riguarda lOpen Source, programmi particolari, nuovi tipi di browser, la dettatura, linformation retrieval con motore semantico. Pu diventare un punto di riferimento anche per la grande distribuzione, per il mercato in generale. necessario far conoscere le potenzialit delle nuove tecnologie.
A cosa dovuta la netta differenziazione tra gli studi di tipo umanistico e quelli di tipo scientifico-tecnologico? - a unintrinseca differenza delle due tematiche; - a problemi di formazione; - a problemi di organizzazione della ricerca.

Ritengo corretta la prima risposta. Ho lavorato con linguisti in campi di loro esclusivo interesse, fui a suo tempo un pioniere di tali ricerche e credo che abbiano poca attinenza con lingegneria. Per c da sottolineare che anche i lavori di Padre Busa, nonostante non abbiano alcuna applicazione tecnologica, conservano un grande valore dal punto di vista culturale. Le tematiche che interessano allindustria, come la gi citata correzione dei testi, difficilmente possono raccogliere interesse ed attenzione da parte dellAccademia di formazione umanistica. Tutte le ricerche di information retrieval semantico nel mondo della scienza umanistica non hanno spazio, mentre gli studi sui lessici dautore non

107

INTERVISTE

interessano a noi ingegneri. Quindi ritengo sia necessario prendere atto che si tratta di due temi completamente differenti, con una certa interazione con le tecnologie, ma in modo molto limitato.
stata organizzata nel 2002 una conferenza denominata TIPI (Tecnologie Informatiche nella Promozione della lingua Italiana), sulla promozione e protezione della lingua italiana. Lei ritiene sia vero che per la diffusione e la promozione della nostra lingua sia necessario sviluppare le tecnologie del TAL?

Certo, un elemento che aiuta. Per diffondere una lingua, serve una tecnologia della lingua. In passato ho collaborato con la UTET sullipotesi di uno sviluppo del dizionario Battaglia. Quello che viene pubblicato solo una piccola parte delle schede che sono state accumulate per i vari spogli. Il progetto prevedeva un finanziatore, che ancora non stato individuato, per raccogliere prima il materiale cartaceo prodotto da trasferire su supporto elettronico poi, in una seconda fase, renderlo disponibile a grandi comunit interessate, in modo particolare alle comunit italiane allestero. Queste comunit allestero parlano un italiano arcaico di 50 o di 100 anni fa: questo progetto potrebbe dare un contributo notevole ad avvicinarsi a quella che la lingua di oggi. Ai fini della diffusione della lingua italiana nel mondo, essere supportati dalla tecnologia fondamentale, per evitare che le generazioni future possano dimenticare lidioma.
Ritiene che nella formazione, soprattutto a livello universitario, le tecnologie del TAL siano sufficientemente rappresentate? Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

Bisogna fare dei distinguo. Nel mondo accademico queste tecnologie sono rappresentate in pochi atenei. Pisa e Salerno, per esempio, hanno concesso molto spazio a tali tecnologie, per a mio parere la ricerca sul

108

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

TAL portata avanti in maniera troppo accademica. Nel mondo delle imprese, invece sono essenzialmente due i centri molto attivi: UTET e la Treccani.
Quali possono essere le applicazioni pi diffuse, per esempio la traduzione automatica, c la Ditta Synthema che vi lavora

Le industrie italiane che si muovono in questo campo sono fondamentalmente due: la Synthema e lExpert System. Vorrei citare anche il lavoro di Eulogos, una piccola realt che opera a stretto contatto con gli ordini religiosi.
Poi anche lIRST con Stock...

Le ricerche di Stock sono sempre legate alle grammatiche automatiche. Un simile lavoro fu portato avanti qui in Italia anche da DellOrco con lIBM. Nel mondo delle imprese queste tecnologie sono scarsamente note.
Rimaniamo ancora un po sulla situazione accademica, lapproccio dei modelli statistici del linguaggio quanto rappresentato? Di fatto sia IBM, sia Loquendo, sia IRST, hanno raggiunto delle implementazioni utilizzando il modello statistico, per in Italia non mi sembra che ci siano gruppi accademici che lavorino su questo approccio.

Vorrei fare un passo indietro. Il modello statistico pi importante, inventato da un ricercatore ungherese che lavorava in IBM, Jelinek, stato quello del riconoscimento del parlato. Lintento del mio gruppo quando cominciai ad occuparmi di questo tipo di problema nel 79 in IBM, era quello di portare in Italia la tecnologia statistica, le catene di Markov. Il progetto, molto ambizioso, ha dato dei risultati autentici. Siamo riusciti - e il merito va alling. Sommi e al dott. Fusi - a far operare i nostri prodotti in ambiente rumoroso. Ricordo che fu presenta-

109

INTERVISTE

to allo SMAU, in ambiente rumorosissimo, e il suo funzionamento era ottimo. Dragon muovendosi nella stessa direzione indicata da IBM, ha portato in ambito aziendale risultati molto significativi. Essendo una piccola societ, si specializzata in questo filone ed ha cos ottenuto un successo di mercato. Altro problema, completamente diverso, quello relativo alla sintesi della voce. In Italia fu affrontato praticamente solo da IBM e CSELT: si pass dai difoni alle tecniche basate sui polinomi. Nella corsa IBM arriv seconda; fu primo lo CSELT di Basilio Catania che in quel periodo era nettamente superiore, e noi abbandonammo quellattivit. Loquendo andata avanti con tecniche di sintesi basate su banche dati sterminate.
Stante che la tecnologia sufficientemente matura, come mai allora non viene usata diffusamente, ad esempio perch i ministeri non mettono i centralini a risposta vocale per facilitare il cittadino?

Il problema sta a monte, ovvero quello di indirizzare il mondo della P.A. verso le nuove tecnologie e contribuire al recepimento degli indirizzi governativi da parte delle amministrazioni pubbliche. Uno degli obiettivi del CNIPA proprio quello di definire e utilizzare i processi e gli strumenti per governare il processo di innovazione tecnologica nelle amministrazioni centrali e locali, definire gli asset di base concordati nel documento della visione condivisa per le-government, realizzando in tal modo gli strumenti per poter operare sul territorio. Con un valido sistema di call center o context center per esempio, ovvero sistemi semi-intelligenti, gli utenti potrebbero avere risposte ai loro quesiti in modo sistematico.
Lei sa bene che alle persone piace avere una risposta, anche generica come: per ora non posso rispondere alla sua domanda, deve aspettare due mesi.

Per iniziare si pu prevedere il supporto di un call center - si lavora

110

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

molto con la COS, circa 4000 dipendenti, competenza di alta qualit, fa molto bene in questo campo. gi un passo in avanti. Bisognerebbe iniziare ad utilizzare alta tecnologia anche nei call center.
Altra domanda: il call center automatico per alcune persone pu essere di difficile impatto, meglio conversare con le persone. Il cittadino pu non essere abituato a trattare con un call center automatico, che cosa ne pensa?

Oggi stiamo ancora in fase di sperimentazione del call center automatico. Molti utenti non avvezzi al risponditore automatico, scelgono ancora lopzione delloperatore. Si sbaglia molto facilmente, si passa pi tempo al telefono. Sono perplesso sul metodo, ma per il futuro la direzione giusta quella che porta verso il call center, se poi il call center semi-automatico per problemi linguistici ancora un altro scoglio da superare. Limportante non sbagliare, bisogna trovare un applicativo in cui il TAL abbia un senso.
Se noi volessimo proporre al Ministro Stanca o al Ministro Moratti un progetto di ricerca tecnologica nel campo del TAL, quale argomento suggerirebbe?

Un progetto, certamente molto ambizioso da proporre, riguarda i disabili: realizzare un video robotico che traduca il parlato nel linguaggio dei segni. Non esiste ancora, c stata qualche forma di sperimentazione in Francia, la RAI aveva contattato CSELT, ma il progetto stato accantonato per mancanza di finanziatori. un magnifico programma di ricerca, perch si sa come fare, si conosce larchitettura che il sistema deve avere, ma bisogna realizzarlo. Nei convegni organizzati dal CNIPA per esempio chiediamo la collaborazione di due cooperative per la traduzione simultanea. Utilizziamo due soluzioni: i sottotitoli sullo schermo e il linguaggio dei segni. Il progetto per i disabili potrebbe piacere al Ministro Gasparri. Anche la traduzione automatica cosa buona, c un know-how, c la Synthema che ha fatto un lavoro egregio.

111

INTERVISTE

Penultima domanda: quale potrebbe essere il mercato privilegiato per il TAL? Prima abbiamo parlato di una ricerca pubblica, invece un mercato promettente potrebbe essere il call center, come ha detto prima.

Il call center sicuramente, ma anche applicazioni pi di base. Personalmente uso molto il mouse, perch sono meticoloso. Il correttore linguistico fa ancora molti errori, ce ne vorrebbe uno pi intelligente: potrebbe per esempio ricercare la frequenza delle parole, quando sono troppo vicine; vedere lelenco delle parole che hai usato in un testo, per determinare quanto erano vicine le une alle altre; verificare luso corretto dei congiuntivi e cos via. Secondo me esiste un mercato per correttori linguistici pi sofisticati di quelli attuali.
Unultima domanda, c un punto che non stato toccato nellambito della discussione e che vorrebbe illustrarci?

Lo sviluppo di queste tecnologie strettamente legato al fattore culturale. Il tema citato prima della conservazione della lingua italiana per le prossime generazioni, il contatto con gli italiani allestero, anche attraverso internet, richiedono grande attenzione. Pensiamo per esempio ad un grande portale per gli stranieri su internet, incentiviamo la diffusione della lingua italiana. Tutti quei lavori che fanno riferimento a Liber Liber oramai avranno in linea un migliaio di testi della nostra letteratura. Si tratta di lavori su base volontaria, come una specie di open source linguistico. Ci vorrebbe un programma di rilancio e di valorizzazione: c un patrimonio letterario e linguistico su cui non esistono problemi di diritti di autore e su cui bisognerebbe focalizzare gli studenti, le tesi di laurea; non si tratta di un fatto tecnologico, si tratta invece di una linea di diffusione e di valorizzazione della nostra lingua, della cultura e di utilizzo della tecnologia non solo in campi utilitaristici ed economici.

112

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

CONVERSAZIONE CON FLORETTA ROLLERI

Qual la diffusione del TAL nellambito della Pubblica Amministrazione e in particolare nellamministrazione giudiziaria?

Avvocato penalista; dal 1969 magistrato; dal 1985 al 1993 presso il Centro Elettronico di Documentazione della Corte Suprema di Cassazione. Ha svolto attivit di docenza presso gli uffici giudiziari, la Scuola della Pubblica Amministrazione e il Forum Informatique della Commissione della CEE a Bruxelles per gli aspetti relativi allinformatica giuridica e di diritto dellinformatica; stata relatore a numerosi convegni nazionali ed internazionali. Dal 1993 Responsabile per i Sistemi Informativi Automatizzati del Ministero della Giustizia ed quindi responsabile dei progetti di innovazione tecnologica che rappresenta presso il CNIPA. Dal 2001 anche direttore generale della costituita direzione. Dal 2003 rappresenta il Ministero in seno alla Segreteria Tecnica del Comitato dei Ministri per la Societ dellInformazione. Dal 2004 Responsabile di misura nellambito del Programma Operativo Sicurezza per lo Sviluppo del Mezzogiorno d'Italia ed responsabile altres di altri progetti di informatica finanziati dallUnione Europea.

I settori di utilizzo sono: a) Reperimento Informazioni. Lesperienza, ormai trentennale, acquisita dal CED della Corte Suprema di Cassazione costituisce indubbiamente lesempio pi eclatante di information retrieval nel settore della giustizia. Il sistema Italgiure Find, oggi migrato di piattaforma e tecnologia nella nuova release Italgiure-web, mette a disposizione di migliaia di utenti una banca dati normativa di giurisprudenza e dottrina consultabile con metodologie di information retrieval altamente duttili e performanti e finalizzata al c.d. dato giuridico globale, linformazione integrata e completa. Unaltra esperienza importante che riguarda il settore specifico rappresentato dal portale NiR (Norme in Rete) che si pone lobiettivo della ricerca della normativa, sia primaria che secondaria. In questo contesto, poich, come noto, i titoli delle leggi non sempre sono coerenti con il contenuto, sarebbe importante sviluppare funzioni di abstract automatici, eventualmente sulla base dei termini pi frequenti e del loro contesto. Nel medesimo settore spicca lesperienza della banca dati della Procura Nazionale Antimafia e delle Procure Distrettuali; il sistema SIDDASIDNA costituisce un potente strumento di indagine e coordinamento incentrato sulla analisi e sulla trattazione automatizzata di informazioni, strutturate e non, relative agli atti dei procedimenti per reati di criminalit organizzata. Nello stesso senso si proceduto con software ad hoc, in relazione a determinati processi (ad es. G8 a Genova). b) Dettatura testi. Sono state compiute alcune sperimentazioni con software di mercato per la scrittura automatica di documenti (verbali di udienza nel settore del processo del lavoro, sentenze ed altri provvedimenti). La non

113

INTERVISTE

perfetta stabilizzazione dei software in questione, unitamente a problematiche organizzative e di investimento, non ha consentito finora di addivenire alla fase di utilizzo massimo della tecnologia.
Quale ritiene possa essere il contributo che lelaborazione automatica del parlato e del testo pu fornire allammodernamento dellamministrazione della giustizia? Ad esempio quale ruolo potrebbero avere nel Ministero di Giustizia la resocontazione automatica, la gestione automatica dei testi (information retrieval) e la valutazione automatica della leggibilit dei documenti (e delle leggi)?

I sistemi di information retrieval sono adeguatamente sviluppati e vengono continuamente implementati per ottimizzare i risultati nel settore investigativo; parimenti essi costituiscono, come si detto, uno strumento di tradizionale intervento nellambito delle banche dati giuridiche. Lutilizzo di tecnologie TAL, per il settore della giustizia, deve trovare massimo impulso per quello che concerne la resocontazione dellattivit di udienza (principalmente quella penale), sia per ottimizzare la funzione (accuratezza della trascrizione), sia per ridurre e contenere i costi dellattivit di stenotipia e trascrizione che, ad oggi, costituiscono una importante voce del conto economico del processo. In questo senso stato sviluppato un prototipo sulla base di un progetto europeo per la creazione di un supporto multimediale in corso di sperimentazione presso il Tribunale di Varese. La sfida tecnologica, ed ancor prima culturale, costituita dalla leggibilit dei documenti che, sia per la particolarit del vocabolario giuridico, sia per lutilizzo di strutture sintattiche talvolta arcaiche ed anche involute, risultano di difficile accessibilit. In questo settore, ancor pi che in quello della tecnica redazionale delle leggi, tuttavia difficile intervenire trattandosi di una attivit intellettuale svolta in totale autonomia dal singolo magistrato estensore.

114

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA

Ritiene che nella formazione, soprattutto a livello universitario, le tecnologie del TAL siano sufficientemente rappresentate? Ritiene che nel mondo delle imprese le tecnologie del TAL siano sufficientemente conosciute e utilizzate? Ritiene che tali tecnologie siano conosciute e accettate dal cittadino?

Nel settore universitario, con il quale sono attivi stabili contatti e comuni progetti, le tecnologie TAL sono seguite pi che negli altri settori. Per quello che concerne le imprese, il mercato non sembra ancora pienamente maturo, sia per la instabilit di alcune tecnologie, sia per la rischiosit degli investimenti. Il cittadino, per parte sua, non ha un adeguato livello di conoscenza del TAL, pur cominciando ad approcciarsi ad alcune applicazioni di esso nel settore dei pubblici servizi o dei customer services.
Quali aree ritiene sarebbero prioritarie se si finanziasse un progetto di ricerca nazionale nel campo del TAL? Ad esempio: - traduzione automatica da e verso litaliano; - verbalizzazione o rendicontazione automatica; - realizzazione di un sistema automatico per valutare la leggibilit dei testi; - realizzazione di un centro di eccellenza che prepari e distribuisca risorse tecnologiche di base (sistemi di sintesi da testo; riconoscitori; basi di dati); - studi di base (ad esempio, nuovi sistemi di codifica, etc.); - altro

Certamente prioritarie, nella visione dellamministrazione della giustizia, sono le aree della verbalizzazione e resocontazione automatica (o assistita) e della leggibilit dei testi. A monte di queste va creata una struttura di eccellenza o di competenza che promuova, monitori e distribuisca le conoscenze e le risorse TAL.
In conclusione quale ritiene possa essere il mercato privilegiato per il TAL nella P.A. e quali le direttrici di sviluppo pi promettente?

115

INTERVISTE

Le aree della verbalizzazione e resocontazione automatica (o assistita) e della leggibilit dei testi.
Ritiene che ci sia un qualche punto che non stato trattato tra le domande che Le abbiamo posto e che vorrebbe illustrarci?

Particolarmente importante il settore della definizione di standard (xml) e di classificazione attraverso URN (modalit standardizzata per lidentificazione dei documenti giuridici accessibili tramite la rete internet). Un altro settore di interesse legato allanonimizzazione automatica dei testi giuridici (sentenze, provvedimenti) che possono comportare problemi in relazione al rispetto del T.U. sulla privacy.

116

LIBRO BIANCO SUL TRATTAMENTO AUTOMATICO DELLA LINGUA