Sei sulla pagina 1di 7

Capitolo 8

Trattamento automatico del Testo


Introduzione
Il trattamento automatico del testo studia linterazione tra Calcolatore e linguaggio naturale. E un concetto fortemente legato a quello di Text Mining, ossia quello della comprensione del testo di un determinato documento al fine di acquisire in maniera valida conoscenze non ancora acquisite. Quali sono i vantaggi di analizzare automaticamente il testo? Il vantaggio principale sicuramente quello dellacquisizione della conoscenza contenuta in un documento testuale. Tuttavia lanalisi del testo permette anche il processing del testo stesso e la possibilit di far capire a un calcolatore qui meccanismi lessicali che compongono un testo, dunque simulare il comportamento di un lettore reale.

Meccanismi di processing semantico


Il meccanismo di processing semantico un meccanismo volto al migliorare la qualit del contenuto di un dato testo. Esso si compone di una fase di estrazione del contenuto di maggiore interesse di un dato testo e una fase di accesso al suddetto contenuto. Le applicazioni di tale meccanismo sono molteplici come quelle nel campo dell: E content; Semantic Web; Open Domain Question Answer apps;

e vanta numerosi progetti finanziata da molti organi , come la DARPA. Un primo meccanismo di ricerca quello per contenuto: si estrae e si formalizza un contenuto di interesse da un documento al fine di permettere linterrogazione per contenuto della base documentale in analisi. Primo Metodo (problematico) Linterrogazione pu avvenire mediante lutilizzo di parole chiave o keyword; tuttavia un metodo che presenta forti limiti: Comparsa di documenti irrilevanti, ritenuti per rilevanti in fase di ricerca:se si ricerca il contenuto squadra, riferendoci a quella di calcio, compariranno risultati inerenti anche allo strumento per il disegno tecnico; Omissione di documenti importanti: se si cerca Alleanza a volte si anche interessata a i risultati legati al termine alleanza come quello di Collaborazione o sinonimi vari.

Lintroduzione della semantica permette di superare i limiti della ricerca per parole chiave: con lintroduzione della semantica si pu progettare un Motore di ricerca della conoscenza su base semantica dove le informazioni vengono ricercate col linguaggio naturale e per concetto, ottenendo come risultato anche tutte le informazioni collegate ad un dato ambito.

Analisi della metodologia


Una efficiente metodologia di processing semantico presentata qui sotto:

Anche se la fase 0 della metodologia lidentificazione del dominio dinteresse in cui incentrato il documento a partire dalle informazioni rilevanti estratte dal testo.

Pretrattamento del corpus

Prima fase del processing, si compone di tre sottofasi: 1. Parsing o Tokenizzazione 2. Normalizzazione 3. Correzione Gramamticale

Parsing o tokenizzazione
Il testo viene sottoposto allidentificazione di tutti i caratteri che compongono lalfabeto e i corrispettivi separatori. Si passa poi a definire i token, ossia caratteri che sono definiti tra i separatori. Tale riconoscimento pu essere effettuato con software che effettuano automaticamente tali passaggi, come TALTAC, che permette un analisi metrico lessicale automatizzata sul testo. Tuttavia prima di TALTAC sono state usate altre due metodologie di parsing:

LESMO_PAR: metodologia di parsing lessicale con regole definite a mano, colto allidentificazione delle forme verbali; Parsing Bidirezionale di Shen:parsing per la determinazione di alberi di parsing con algoritmi greedy.

Normalizzazione
Il processo di normalizzazione si effettua dopo il processo di parsing, comporta luniformazione ortografica di un token in un'unica forma grafica, come nel caso di parole separate da separatori, o apostrofi da trasformare in accenti. Ancora una volta TALTAC esegue tale processo in maniera automatizzata, adoperando o delle liste che definiscono specificatamente come deve essere trasformato un token, e auormaticamente risolve il problema degli apostrofi in accenti. Tali trasformazioni sono assistite da: Opportune basi di dati che memorizzano informazioni relative alcune specificit di alcuni token in determinati domini applicativi, Opportune regole sintattiche per la trasformazione dei token.

Prima di TALTAC per venivano utilizzati i seguenti algoritmi: Algoritmo di Cook e Stevenson: il processo di normalizzazione dei token avviene parola per parola senza curare le parole successive alla parola in analisi. Algoritmo di Guimier de Neef per testi peculiari come SMS, che contengono lessici speciali.

Correzione derrore
La correzione derrore riguarda il processo di correzione di caratteri del testo che vengono codificati male, quando si effettua il meccanismo di salvataggio su file.

Annotazione Morfo Sintattica

Tagging Grammaticale
Il Tagging Grammaticale consiste nellassociazione di tag per ogni token che identificano la categoria grammaticale in cui il token inquadrato. Definisce una pratica fondamentale per la disambiguazione degli elementi nel testo. Inizialmente si utilizzavano le 9 categorie della lingua italiana: Nome; Verbo; Aggettivo; .

Ma per il nostro processing semantico utilizzeremo due macrocategorie: Parole piene o lessicali:nome,aggettivo,verbo e avverbio; Parole vuote o grammaticali:pronomi, congiunzioni e preposizioni.

Perch si parla di parole piene o vuote? Le parole piene sono parole necessarie al fine dellinterpretazione del contenuto di un testo, come un nome di persona o un vermbo che specifica una data azione; le parole vuote invece non definiscono alcun contenuto particolare e sono solitamente corte. Gli strumenti utilizzati sono: TALTAC; TreeTagger; POSEDIT

Nel caso di TALTAC, questultimo produrr in output una lista di token con la corrispettiva categoria grammaticale di appartenenza, e tale associazione permessa per via di un Database Lessicale; tuttavia a volte non riesce a inquadrare un univoca categoria grammaticale per un dato Token. Entra in scena TreeTagger, che definisce un Tagging Grammaticale mediante un decision tree e effettua il tagging a partire da un corpus italiano.Tale meccanismo produce in output un vocabolari di voci che contempla anche quelle disambigue per categoria. Difetto di questo seconda metodologia che il processo a volte necessita di essere supervisionato e raffinato con altri software come POSEDIT.

Lemmatizzazione
Consiste nellassociare ad ogni token con categoria grammaticale il corrispettivo lemma, come nel caso di un dizionario. Il meccanismo pu essere realizzato mediante TALTAC che mediante appositi dizionari associa un lemma a un determinato tag. Per i nomi si usa il singolare del nome, per i verbi linfinito. Lapproccio dizionario anche quello piu seguito in letteratura.

Analisi lessico metrica


Si compone di due sottofasi:

Calcolo delle misure lessico metriche


Lanalisi lessico metrica di un documento permette di indicizzare il vocabolario ottenuto al precedente step al fine di capire quanto i termini estratti coprano effettivamente il corpus del testo preso in esame. A partire da ci definiamo, per un testo: Lunghezza in parole:numero di occorrenze che compaiono in un testo |T|; Lunghezza del vocabolario: occorrenze del vocabolario estratte (forme diverse estratte) |V|

La ricchezza del testo viene valutata facendo il rapporto:

Che pu essere: 0 : ci fa capire che T >> V, per cui il vocabolario non copre completamente il corpus del testo; 1: il testo formato da soli hapax, ossia termini che compaiono una e un asola volta in un testo, per cui possiamo anche definire la percentuale di hapax, cista come (V/V)*100 dove V il numero totale degli hapax.

Altri parametri rilevanti sono: Frequenza assoluta: rappresenta quante volte un termine compare allinterno di un testo; Frequenza relativa: rapporto fra la frequenza assoluta e la lunghezza in parole T. Frequenza media generale: il rapporto T/V.

La copertura invece valutata con la frequenza cumulata. Dimensionalmente prevede un termine V al denominatore ( una nozione di frequenza del tipo medio) ma utilizzare un intero vocabolario per effettuare un confronto in termini di frequenza risulta essere infatti molto dispendioso. Per cui si utilizza un sotto-vocabolario e si valuta se tale sotto vocabolario sia idoneo per il confronto con le occorrenze

del testo. Se idoneo la copertura viene valutata come percentuale di occorrenze che si riscontrano allinterno di tale sottovocabolario.

Individuazione dei segmenti


Si definiscono indici sui token che devono essere considerati come un unico concetto. Tali indici si calcolano confrontando la frequenza con cui essi compaiono insieme e separati in un testo (confronto fra frequenze).

Estrazione dei Termini Peculiari

Lestrazione dei termini peculiari quella fase di processing che prevede lestrazione del lessico peculiare(fondamentale), ossia di quel lessico necessario per la comprensione del testo.

Estrazione delle relazioni


Lestrazione delle relazioni avviene dopo e sullestrazione del lessico peculiare. Esse sono o concetti o relazioni tra concetti codificati nel Thesaurus secondo vari formati (OWL/RDF) che permettono il meccanismo di ricerca semantica in motori di ricerca documentali. Le relazioni possono essere di vario tipo: Associative: termini correlati; Sinonimia; Gerarchico: termine piu generico o piu specifico

Le relazioni tra concetti a volte possono essere definite da un database lessicale esterno come il MultiWordNet che lega contenuti a seconda dei legami definiti nello stesso database. Tutte le relazioni tra i lemmi vengono poi codificate nel Thesaurus.

Valutazione dellefficienza di un sistema di ricerca semantico


La valutazione del sistema avviene considerando un confronto tra varie metodologie di ricerca: Ricerca per parola chiave; Ricerca per concetto; Presenza di ambiguit

E la valutazione dellefficienza del sistema fatta paragonando i risultati di questultima. Definiamo una misura per lefficienza: lefficacia, ossia una misura che ci dice quanto dimile il risultato aspettato dallutente con quello effettivamente prodotto in output.

Lefficacia si basa su due parametri: Precision; Recall.

E la valutazione viene fatta considerando dunque i documenti realmente ottenuti in output (Recuperati) con quelli Rilevanti. Per cui si definisce la Precisione come:

Mentre la Recall

Prospettive future
E possibile introdurre un comportamento feedback quando si effettua una ricerca per contenuto. I risultati relativi a un contenuto vengono inseriti allinterno di una Ground Truth, che memorizza i documenti realmente rilevanti per la ricerca, e a una successiva query utente vengono presentati solo i documenti positivi nella Ground Truth.

Potrebbero piacerti anche