Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
e vanta numerosi progetti finanziata da molti organi , come la DARPA. Un primo meccanismo di ricerca quello per contenuto: si estrae e si formalizza un contenuto di interesse da un documento al fine di permettere linterrogazione per contenuto della base documentale in analisi. Primo Metodo (problematico) Linterrogazione pu avvenire mediante lutilizzo di parole chiave o keyword; tuttavia un metodo che presenta forti limiti: Comparsa di documenti irrilevanti, ritenuti per rilevanti in fase di ricerca:se si ricerca il contenuto squadra, riferendoci a quella di calcio, compariranno risultati inerenti anche allo strumento per il disegno tecnico; Omissione di documenti importanti: se si cerca Alleanza a volte si anche interessata a i risultati legati al termine alleanza come quello di Collaborazione o sinonimi vari.
Lintroduzione della semantica permette di superare i limiti della ricerca per parole chiave: con lintroduzione della semantica si pu progettare un Motore di ricerca della conoscenza su base semantica dove le informazioni vengono ricercate col linguaggio naturale e per concetto, ottenendo come risultato anche tutte le informazioni collegate ad un dato ambito.
Anche se la fase 0 della metodologia lidentificazione del dominio dinteresse in cui incentrato il documento a partire dalle informazioni rilevanti estratte dal testo.
Prima fase del processing, si compone di tre sottofasi: 1. Parsing o Tokenizzazione 2. Normalizzazione 3. Correzione Gramamticale
Parsing o tokenizzazione
Il testo viene sottoposto allidentificazione di tutti i caratteri che compongono lalfabeto e i corrispettivi separatori. Si passa poi a definire i token, ossia caratteri che sono definiti tra i separatori. Tale riconoscimento pu essere effettuato con software che effettuano automaticamente tali passaggi, come TALTAC, che permette un analisi metrico lessicale automatizzata sul testo. Tuttavia prima di TALTAC sono state usate altre due metodologie di parsing:
LESMO_PAR: metodologia di parsing lessicale con regole definite a mano, colto allidentificazione delle forme verbali; Parsing Bidirezionale di Shen:parsing per la determinazione di alberi di parsing con algoritmi greedy.
Normalizzazione
Il processo di normalizzazione si effettua dopo il processo di parsing, comporta luniformazione ortografica di un token in un'unica forma grafica, come nel caso di parole separate da separatori, o apostrofi da trasformare in accenti. Ancora una volta TALTAC esegue tale processo in maniera automatizzata, adoperando o delle liste che definiscono specificatamente come deve essere trasformato un token, e auormaticamente risolve il problema degli apostrofi in accenti. Tali trasformazioni sono assistite da: Opportune basi di dati che memorizzano informazioni relative alcune specificit di alcuni token in determinati domini applicativi, Opportune regole sintattiche per la trasformazione dei token.
Prima di TALTAC per venivano utilizzati i seguenti algoritmi: Algoritmo di Cook e Stevenson: il processo di normalizzazione dei token avviene parola per parola senza curare le parole successive alla parola in analisi. Algoritmo di Guimier de Neef per testi peculiari come SMS, che contengono lessici speciali.
Correzione derrore
La correzione derrore riguarda il processo di correzione di caratteri del testo che vengono codificati male, quando si effettua il meccanismo di salvataggio su file.
Tagging Grammaticale
Il Tagging Grammaticale consiste nellassociazione di tag per ogni token che identificano la categoria grammaticale in cui il token inquadrato. Definisce una pratica fondamentale per la disambiguazione degli elementi nel testo. Inizialmente si utilizzavano le 9 categorie della lingua italiana: Nome; Verbo; Aggettivo; .
Ma per il nostro processing semantico utilizzeremo due macrocategorie: Parole piene o lessicali:nome,aggettivo,verbo e avverbio; Parole vuote o grammaticali:pronomi, congiunzioni e preposizioni.
Perch si parla di parole piene o vuote? Le parole piene sono parole necessarie al fine dellinterpretazione del contenuto di un testo, come un nome di persona o un vermbo che specifica una data azione; le parole vuote invece non definiscono alcun contenuto particolare e sono solitamente corte. Gli strumenti utilizzati sono: TALTAC; TreeTagger; POSEDIT
Nel caso di TALTAC, questultimo produrr in output una lista di token con la corrispettiva categoria grammaticale di appartenenza, e tale associazione permessa per via di un Database Lessicale; tuttavia a volte non riesce a inquadrare un univoca categoria grammaticale per un dato Token. Entra in scena TreeTagger, che definisce un Tagging Grammaticale mediante un decision tree e effettua il tagging a partire da un corpus italiano.Tale meccanismo produce in output un vocabolari di voci che contempla anche quelle disambigue per categoria. Difetto di questo seconda metodologia che il processo a volte necessita di essere supervisionato e raffinato con altri software come POSEDIT.
Lemmatizzazione
Consiste nellassociare ad ogni token con categoria grammaticale il corrispettivo lemma, come nel caso di un dizionario. Il meccanismo pu essere realizzato mediante TALTAC che mediante appositi dizionari associa un lemma a un determinato tag. Per i nomi si usa il singolare del nome, per i verbi linfinito. Lapproccio dizionario anche quello piu seguito in letteratura.
Che pu essere: 0 : ci fa capire che T >> V, per cui il vocabolario non copre completamente il corpus del testo; 1: il testo formato da soli hapax, ossia termini che compaiono una e un asola volta in un testo, per cui possiamo anche definire la percentuale di hapax, cista come (V/V)*100 dove V il numero totale degli hapax.
Altri parametri rilevanti sono: Frequenza assoluta: rappresenta quante volte un termine compare allinterno di un testo; Frequenza relativa: rapporto fra la frequenza assoluta e la lunghezza in parole T. Frequenza media generale: il rapporto T/V.
La copertura invece valutata con la frequenza cumulata. Dimensionalmente prevede un termine V al denominatore ( una nozione di frequenza del tipo medio) ma utilizzare un intero vocabolario per effettuare un confronto in termini di frequenza risulta essere infatti molto dispendioso. Per cui si utilizza un sotto-vocabolario e si valuta se tale sotto vocabolario sia idoneo per il confronto con le occorrenze
del testo. Se idoneo la copertura viene valutata come percentuale di occorrenze che si riscontrano allinterno di tale sottovocabolario.
Lestrazione dei termini peculiari quella fase di processing che prevede lestrazione del lessico peculiare(fondamentale), ossia di quel lessico necessario per la comprensione del testo.
Le relazioni tra concetti a volte possono essere definite da un database lessicale esterno come il MultiWordNet che lega contenuti a seconda dei legami definiti nello stesso database. Tutte le relazioni tra i lemmi vengono poi codificate nel Thesaurus.
E la valutazione dellefficienza del sistema fatta paragonando i risultati di questultima. Definiamo una misura per lefficienza: lefficacia, ossia una misura che ci dice quanto dimile il risultato aspettato dallutente con quello effettivamente prodotto in output.
E la valutazione viene fatta considerando dunque i documenti realmente ottenuti in output (Recuperati) con quelli Rilevanti. Per cui si definisce la Precisione come:
Mentre la Recall
Prospettive future
E possibile introdurre un comportamento feedback quando si effettua una ricerca per contenuto. I risultati relativi a un contenuto vengono inseriti allinterno di una Ground Truth, che memorizza i documenti realmente rilevanti per la ricerca, e a una successiva query utente vengono presentati solo i documenti positivi nella Ground Truth.