Sei sulla pagina 1di 27

La prospettiva

Società dell’informazione

Grandi quantità di dati

Costruire dai dati le


informazioni
DIKW pyramid hierarchy
| Le specificità delle nuove fonti

Pdf Blog

Siti
Twitter istituzionali Ø Tempestività

Ø Maggiore copertura dei fenomeni


Pagine web
Data hub

Ø Strutturate vs non strutturate


Archivi
amministrativi Ø Attenzione alla qualità
Portali di imprese

Wikipedia Google Notizie

4
Esempi di fonti di dati testuali

Web Data (siti web)


Internet sta diventando il principale "media" attraverso cui è possibile ottenere documenti,
dati ed informazioni. I siti web liberamente raggiungibili via Internet sono una delle fonti
principali della documentazione da analizzare (filtraggio informazioni).

Banche dati online


Le banche dati online costituiscono collezioni di informazioni specializzate, generalmente
accessibili via Internet tramite abbonamento. Esempi tipici di queste banche dati sono
quelle dedicate alle pubblicazioni, ai brevetti o agli articoli scientifici (di chimica, fisica o
matematica) rese disponibili in modo diretto o attraverso information broker.

Sorgenti informative private


Una banca dati privata di documenti elettronici (costruita negli anni) può essere resa
disponibile ed essere opportunamente usata insieme alle altre sorgenti informative. Il
formato ed i contenuti dei documenti di una banca dati privata sono generalmente
completamente differenti da quelli dei documenti ottenuti attraverso le banche dati online.
Esempi di fonti di dati testuali

e-mail
Le e-mail sono la forma più ricca dal punto di vista informativo e più semplice da
analizzare. E’ il mezzo attraverso cui le persone comunicano all’interno ed all’esterno di
aziende ed organizzazioni. Possono essere analizzate sia le e-mail interne ad una
organizzazione sia quelle ricevute dall’esterno od inviate all’esterno dell’organizzazione.

Opinion surveys
Spesso le opinion surveys sono analizzate con cura nella parte codificata, dove è prevista
la risposta: SI, NO, o numerica. Sono invece analizzate in maniera superficiale nella parte
testuale, ove si raccolgono le risposte in testo libero alle domande aperte.

Newsgroups, Chatlines, Mailing Lists


Importanti e ricche fonti di informazione dato che riguardano i temi più disparati, dai
consumi alla politica. Il problema con questo tipo di informazione è che l’informazione
pertinente è all’interno di frasi e/o affermazioni di scarsa importanza, espresse con
linguaggio spesso gergale. Grazie al text mining queste affermazioni/opinioni possono
essere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive.
La statistica e lo studio del linguaggio

Natura del fenomeno oggetto di studio: Il linguaggio naturale

Fenomeno complesso e in continua evoluzione difficile da analizzare con procedure di tipo automatico

Lo sviluppo di metodologie che consentono il trattamento di dati qualitativi secondo una logica di confronto
e non di misura, e le enormi possibilità offerte dall’avanzamento scientifico conseguito in ambito informatico
ha determinato il potenziamento di sofisticate tecniche di analisi dei testi e ne ha favorito la diffusione in
contesti disciplinari molto differenziati rispetto a quelli originari.

Elemento chiave dell’analisi delle informazioni testuali: l’interdisciplinarietà che ne condiziona anche la
possibilità di progredire.

La statistica testuale può infatti registrare avanzamenti solo se i TRE principali domini scientifici che la
caratterizzano: la linguistica, l’informatica e la statistica interagiscono anche mettendo a confronto i risultati
raggiunti in altri contesti applicativi.

Curiosità: Rick Briggs suggerisce che il sanscrito, la lingua più antica al mondo, è una
lingua parlata naturalmente con meccanica e regole grammaticali che
consentirebbe all'intelligenza artificiale di interpretare più accuratamente le frasi
durante l'analisi linguistica. Un'analisi linguistica più accurata comporterebbe
un'intelligenza artificiale in grado di rispondere in modo più accurato.
La statistica e lo studio del linguaggio

Le interconnessioni disciplinari nello studio del linguaggio Nel corso del tempo, gli studi
quantitativi intorno alla lingua
Statistica
hanno cambiato
Lessicale progressivamente il loro
Statistica obiettivo spostandolo da una
Testuale
logica di tipo linguistico
(sviluppata fino agli anni
Linguistica Informatica Statistica
sessanta del Novecento) ad una
di tipo lessicale (intorno agli
Linguistica
Quantitativa
Statistica
Computazionale anni Settanta del secolo scorso),
Linguistica
per approdare negli anni
Computazionale Ottanta e Novanta ad analisi di
tipo testuale o infine lessico-
testuale
La statistica e lo studio del linguaggio

Con l’affermarsi e il diffondersi di strumenti informatici adeguati, sia hardware che


software, è stato possibile sviluppare delle tecniche d’analisi della lingua sempre più
sofisticate.

Gli studi sul linguaggio naturale intrapresi da linguisti, sociologi e psicologi, sono stati
affiancati dal lavoro che informatici e statistici, partendo spesso da problematiche e
prospettive diverse, hanno effettuato sui dati testuali.

Gli approcci che si basano su metodologie statistiche fanno riferimento a strumenti di tipo
quantitativo per trattare le unità linguistiche contenute in una raccolta di testi.

E’ in particolare alla scuola francese di Analyse des Donneés che va il merito di aver
determinato un notevole salto di qualità nell’analisi dei dati testuali e aver prodotto le
prime proposte metodologiche compatibili con quelle di taglio informatico.
La statistica e lo studio del linguaggio – Dalle origini ai giorni nostri

Il Centro Studi del Vocabolario della Lingua Francese di Beçanson porta a termine una classificazione delle opere di Corneille
e la loro trasposizione su supporto informatico. La disponibilità di questa risorsa incoraggia C. Muller a sfruttarla per
effettuare le prime analisi di tipo lessicometrico con l’ausilio di strumenti statistici (Statistica Lessicale). La logica implicita è
che il testo analizzato può essere visto come un esemplare rappresentativo della lingua: dallo studio di una base di dati
testuali è quindi possibile inferire alla lingua stessa alcuni risultati d’indagine.

J.P. Benzécri si interessa ai metodi di Analisi dei Dati non come strumento di ricerca in campo psicologico (ambito in cui tali
strumenti erano nati e che inizialmente ha dato luogo agli sviluppi più numerosi), ma per l’applicazione degli stessi allo studio
della lingua, ponendo le basi alla Analisi dei Dati Linguistici. L’idea portante è quella di aprire le porte ad una nuova
linguistica, superando le tesi di N. Chomsky secondo cui non potevano esistere procedure sistematiche per determinare le
strutture linguistiche a partire da un insieme di dati come una raccolta di testi.

Jean-Paul Benzécri

Con le prime proposte metodologiche di L. Lebart e di A. Salem si delinea nei suoi tratti fondamentali l’impianto teorico della
Statistica Testuale, che a differenza della Statistica Lessicale pone una maggiore attenzione alla testualità della base di dati
analizzata. La tendenza attuale è quella di una Statistica Lessico/Testuale che utilizza un approccio “integrato”, intervenendo a
priori sul testo oggetto d’analisi e considerandolo a supporto delle meta-informazioni di carattere linguistico.
La statistica e lo studio del linguaggio – Il text mining

Come detto in precedenza le soluzioni attualmente


utilizzate non si fondano solo su strumenti statistici,
ma scaturiscono da una stretta multidisciplinarità che
associa a questi, con uguale importanza, strumenti
informatici e linguistici.

L’area di applicazione è nota oggi in letteratura, con il


termine di Text Mining (TM) o Text Data Mining (TDM)
che è l’estensione del Data Mining tradizionale su dati
testuali non strutturati o semi-strutturati.

Obiettivo principale di tali tecniche è l’estrazione di


informazione implicitamente contenuta in un insieme
di documenti e la visualizzazione di grossi set di testi.

Le tecniche di TM sono applicabili a qualsiasi ambito


di indagine.
La statistica e lo studio del linguaggio – Il text mining

Il TM scopre la conoscenza NASCOSTA in un testo in modo


AUTOMATICO.

Gli esperti di dominio sono aiutati dal TM a:

• Identificare concetti
• Estrarre fatti e relazioni
• Scoprire link impliciti
• Individuare ipotesi
La statistica e lo studio del linguaggio – Il Text Mining

Le fasi tipiche dell’analisi statistica dei testi sono tre e precisamente:

• il pre-trattamento dei testi,


• l’organizzazione della base di dati,
• l’analisi statistica in senso stretto.

Il pre-trattamento ha lo scopo di trasformare l’informazione testuale in “dato”, avvalendosi anche di


strumenti linguistici, come dizionari elettronici e lessici di frequenza, per individuare le categorie sintattiche e
grammaticali delle parole.

Nella fase successiva i testi vengono codificati e quindi organizzati in matrici per permetterne il successivo
trattamento statistico.

In tale ottica qualsiasi collezione di documenti scritti in linguaggio naturale può essere analizzata da un punto
di vista statistico allo scopo scoprire ed estrarre conoscenza.
La statistica e lo studio del linguaggio – Il Text Mining

INFORMATION INFORMATION INFORMATION


RETRIEVAL INTERPRETAZIONE
EXTRACTION MINING
La statistica e lo studio del linguaggio – Il Text Mining

L’Information retrieval identifica la raccolta di testi tra


quelli che ipotizziamo trattare lo stesso argomento, o più
genericamente identifica la semplice raccolta di
informazioni testuali per una successiva analisi.
Come opera:
localizza e recupera i documenti che possono essere
considerati rilevanti alla luce degli obiettivi prefissati; l’utente
del sistema può specificare il set di documenti, ma
l’operazione necessita comunque di un sistema che filtri i
testi irrilevanti (attraverso delle parole chiavi o composizioni
logiche delle stesse - query).
La statistica e lo studio del linguaggio – Il Text Mining

L’Information extraction consiste nell’estrazione di


informazioni dai documenti selezionati. Può essere
considerata come una attività di supporto all’IR.

Come opera:
riempie specifiche tabelle che contengono i dati semi-
strutturati, pulisce i dati da elementi non interessanti ed
elabora il testo dei vari documenti estraendo dei concetti che
permettono di descrivere il contenuto del documento stesso.
La statistica e lo studio del linguaggio – Il Text Mining

Fasi del processo di IE


• Analisi lessicale
consente di assegnare alle singole parole part-of-speech ed altre caratteristiche attraverso
l’analisi morfologica

• Riconoscimento di nomi
ha lo scopo di identificare i nomi ed altre speciali strutture lessicali (ad esempio date,
locuzioni, ecc.)

• Analisi sintattica (completa o parziale)


consente di individuare i gruppi nominali, i gruppi verbali, altre strutture sintattiche di
interesse, e le teste di tali gruppi

• Individuazione dei fatti di interesse


i fatti vengono integrati e combinati con altri fatti presenti nel documento, attraverso
l’analisi del discorso. Tale analisi risolve le relazioni di coreferenza che vi sono, ad esempio
fra i pronomi o fra descrizioni multiple di uno stesso evento. Vengono anche "inferiti" nuovi
fatti a partire da quelli già esplicitamente asseriti nel testo

• Generazione dei template


i dati vengono infine ordinati e rappresentati sotto forma di una tabella di output
La statistica e lo studio del linguaggio – Il Text Mining

L’Information mining si applica ai dati contenuti nelle


tabelle costruite con l’IE che costituiscono di fatto una
raccolta di dati (database) elaborabili utilizzando tecniche di
data mining. In questa fase cerchiamo di capire se esistono
dei patterns o delle relazioni fra i dati.

L’Intepretazione è il passo finale e consiste nell’analizzare i


risultati e interpretare i pattern scoperti durante la fase di
mining.
Il linguaggio come fenomeno di interesse statistico

La lingua è costituita da un complesso sistema di segni organizzati in struttura

Esistono vari livelli di descrizione delle strutture linguistiche, ognuno dei quali è approfondito da
una disciplina specifica della linguistica

Le varie teorie concordano sull’esistenza di quattro domini principali:


✓ la fonologia, che descrive come i suoni di una lingua si organizzano in sistema
✓ la lessicologia, che si occupa dello studio scientifico del lessico (o vocabolario) di
una lingua e della sua evoluzione nel tempo
✓ la morfologia, che ha per oggetto lo studio della struttura grammaticale delle parole e che ne
stabilisce la classificazione e l'appartenenza a determinate categorie come il nome,
il pronome, il verbo, l'aggettivo e le forme della flessione, come la coniugazione per i verbi e
la declinazione per i nomi
✓ la sintassi, che tratta delle parole nella frase: ordine delle parole, accordo, funzioni
delle parole per formare una frase

Le ultime due discipline, la morfologia e la sintassi, vengono fatte rientrare nel più ampio
contenitore della grammatica di una lingua, e insieme alla lessicologia sono di fatto le più
interessanti in un’ottica di trattamento statistico “multidimensionale”
Alcune annotazioni sul concetto di parola
Ogni parola può essere considerata in relazione (1) al suo significato o (2) al ruolo che riveste
nell’articolazione della lingua
Il lessema è l’unità di base del lessico e può essere una radice (cant- in canto, cantare, cantante), una
parola autonoma (figlio, penna, stella) o una sequenza di parole fissatasi nell’uso in modo che i suoi
singoli elementi non possano più essere scambiati né sostituiti con sinonimi (per lo più, dopo cena,
mulino a vento).
Il morfema è l’unità grammaticale di base, ossia “il più piccolo elemento di un enunciato che ha
significato”:
(1) liberi, se possono presentarsi isolati ed avere una propria autonomia di senso (di, bel e qual)
(2) legati, se non hanno autonomia e quindi non possono restare isolati (la parola gatto è composta dal
morfema gatt- e dal morfema –o; la parola "vanga", costituita dai morfemi vang + a, il morfema "a" indica che si
tratta di un sostantivo femminile singolare. Sostituendo "a" con "are" si avrà "vangare", e in questo caso il
morfema indica che si tratta di un verbo. Per formare il plurale invece si userà il morfema "e" (vang(h) + e): in
questo caso dunque il nuovo morfema non cambia la parte del discorso ma il numero).

Il sintagma (dal greco “disposizione”) è l’unità sintattica autonoma (ovvero il gruppo di elementi
linguistici che formano un’unità in una frase), e la sintassi si occupa dei modi in cui le parole si
combinano mostrando connessioni di significato (senso) all’interno della frase. Una data entità
sintattica può essere considerata da due punti di vista:
(a) nella sua interezza, per la funzione che ha isolatamente
(b) come parte di una unità più ampia.
Alcune annotazioni sul concetto di parola – Esempio di sintagma

Se consideriamo la frase:
Il pittore dipinge
E la modifichiamo in:

Il celebre pittore dipinge un quadro

Abbiamo sostituito “il pittore” con “il celebre pittore”, mentre “dipinge” è stato sostituito da “dipinge un
quadro”. Questi nuovi gruppi di parole presentano una caratteristica essenziale: sono formati da elementi
in così stretto rapporto tra loro da costituire un tutto unico, un’unità.
“Il celebre pittore” e “dipinge un quadro” sono due unità che, sostituendo rispettivamente “il pittore” e
“dipinge”, non alterano la struttura della frase. Questi insiemi unitari sono dei sintagmi.

Appare, quindi, evidente il perché Martinez, in una sua pubblicazione del 2003, precisa che:

occorre integrare al trattamento quantitativo del testo un'analisi morfo-sintattica dei dati testuali,
ossia introdurre algoritmi di descrizione delle frasi che consentono di segmentare gli enunciati del
testo nei loro costituenti sintagmatici, poi di identificarli e infine di esplicitare i loro rapporti interni

e Bolasco, sempre nel 2003, richiama alla necessità di:


ottenere una rappresentazione della struttura sintagmatica presente nel testo utilizzabili come
modelli di senso del contenuto/discorso.
La codifica dell’informazione testuale -- Definizioni

Corpus indica una qualsiasi raccolta, completa ed ordinata, di scritti scritti, di uno o più
autori, riguardanti riguardanti una determinata determinata materia, oppure un campione
di una lingua preso in esame nella descrizione della lingua.

Una popolazione è un insieme di tutte le possibili osservazioni di una lingua su un dato


campo, invece, un campione campione, è una sezione sezione della popolazione
popolazione, che ne ingloba solo alcune possibili osservazioni.

Un campione deve essere rappresentativo per essere utile e significativo. Esistono vari
metodi per valutare la rappresentatività di un campione, ma la maggior parte delle
valutazioni più accurate si basano sulla ricchezza del vocabolario, misurata come numero di
parole diverse presenti nel corpus.
La codifica dell’informazione testuale -- Definizioni

Una parola è, convenzionalmente, una , ossia una sequenza di caratteri


appartenenti ad un alfabeto predefinito, delimitata da due separatori (ad es. segni di
interpunzione, spazi, o altri caratteri definiti ad hoc). Tale definizione, proprio perché
frutto di convenzioni, risulta essere però arbitraria

L’operazione di riconoscimento all’interno del corpus di tutte le forme grafiche che lo


compongono, conduce ad una perdita di informazione sul significato, i contesti, lo stile,
e più in generale di tutti quei fenomeni generati dalla combinazione di segnali linguistici

Io non àltero mai i fatti: sono troppo altèro per farlo!


In àmbito cinematografico, il "Premio Oscar" è un riconoscimento molto ambìto
Sono molto benèfici verso gli altri, ma non ricordano mai i benefìci che hanno ricevuto
Cesare ha molto intùito e perciò ha subito intuìto le intenzioni della sua ragazza
I prìncipi del Rinascimento erano affatto privi di princìpi morali
E' giunto in ufficio il ministro col suo séguito di portaborse, seguìto dalla scorta
Ho subìto un altro affronto, ma mi sono sùbito vendicato
E giunti in porto il marinaio calò ancòra una volta l’àncora della nave
La codifica dell’informazione testuale -- Definizioni

Lo schema maggiormente utilizzato per codificare corpora testuali in linguaggio naturale è il


cosiddetto Bag-of-Words (BOW). Tale codifica consente di trasformare ogni documento (o
frammento di testo) contenuto nel corpus così da strutturare i dati e poterli sottoporre a
trattamento statistico

Ogni documento Di è visto come un vettore nello spazio dei termini del vocabolario:

DOC 1
DOC 2

DOC i

Di = (wi1 , wi2 , … , wij , … , wip)


Ogni termine wij è il peso della j-esima forma nel i-esimo documento. E’ possibile considerare,
a seconda del tipo di analisi effettuata, differenti schemi di ponderazione
La codifica dell’informazione testuale -- Definizioni

Le forme principali, altresì note come “parole piene”, sono portatrici di parti sostanziali del
contenuto di un corpus, delle sue modalità di enunciazione o di azione.

Esiste un’ampia classe di forme che non hanno significato autonomo una volta estrapolate dai
contesti e pertanto inutile considerare nell’ottica del trattamento statistico.

Tali forme, dette strumentali (articoli, preposizioni, congiunzioni, pronomi), sono generalmente
indicate come “parole vuote” o stop word: sono utili a discernere il senso generale del fenomeno
analizzato, ma devono essere filtrate per semplificare l’analisi, diminuendo la presenza di rumore
nella base di dati.

La costruzione di un elenco di forme strumentali (stop list) è un problema delicato. E’ impossibile,


infatti, compilare un elenco che vada bene per tutti gli scopi: è necessario individuare di volta in
volta (a seconda del contesto) quelle forme che risultano “banali”, e quindi povere di contenuto
informativo.
Il percorso tipico dell’analisi dell’informazione testuale

PUNTO DI PARTENZA

Analisi delle parole diverse che compongono il corpus, ordinate per valori
decrescenti di frequenza. Tra le parole ad alta frequenza oltre a quelle di contenuto
strumentale (di, e, che, per, etc.), poco informative e generalmente presenti in tutti i
testi, ci si imbatte subito nelle cosiddette “parole tema”, che proprio per via della
loro elevata frequenza consentono di cogliere immediatamente gli argomenti
principali del testo.

I PASSI DELL’ANALISI

• Analisi dei segmenti ripetuti


• Analisi delle co-occorrenze
• Analisi delle parole caratteristiche
• Analisi del linguaggio peculiare
• Analisi delle parole con caratteristiche grammaticali omogenee
• Analisi delle concordanze
• Analisi delle corrispondenze lessicali

Potrebbero piacerti anche