Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
anni 60. L assunzione di base che una porzione del documento originale o alcune pa
role chiave da esso estratte possano rappresentare il tutto. Leggere o elaborare
questa ridotta versione del documento permetter un considerevole risparmio sia d
i tempo che di risorse computazionali (White & Roth, 2009). Tale caratteristica
ancor pi critica e urgente nell attuale contesto di disponibilit di risorse elettron
iche. Gli approcci basati sul contenuto per rappresentare informazioni dinamiche
e non strutturate possono essere utili nel determinare i concetti chiave e per
sommarizzare le informazioni scambiate anche all interno di un ambiente di apprend
imento.
I ricercatori hanno proposto un ricco insieme di tecniche alternative al problem
a della sommarizzazione automatica dei documenti. Un approccio quello di fornire
un sommario sulla base della generazione di linguaggio naturale (come proposto
ad esempio nelle conferenze DUC e TREC); un altro invece basato sulla selezione
dal testo originale di alcune parole o frasi fra le pi frequenti o pi caratterizza
nti; in questo caso quindi, piuttosto che un testo coerente, viene generato un i
nsieme di elementi che con un certo grado di approssimazione rappresentano il te
sto in analisi.
Da un punto di vista tecnico I differneti approcci possono essere considerati co
me segue. La prima classe comprende quegli approcci che producono una classifica
zione del documento da un punto di vista teorico, senza assunzioni sul dominio a
pplicativo. Fanno parte di questa categoria le tecniche statistiche (McKeown et
al., 2001), analitiche (Brunn et al., 2001), di information retrieval (Aho et al
., 1997) e di information fusion (Barzilay et al., 1999). La seconda classe di a
pprocci comprende quelli focalizzati sulla specifica applicazione, come ad esemp
io i programmi per la sommarizzazione di programmi sportivi (Yong Rui et al., 20
00), la visualizzazione di dati clinici (Shahar & Cheng,1998) e il web browsing
(Rahman et al., 2001). In (NIST) possibile consultare un accurato survey.
4 La sommarizzazione
Una delle pi importanti aree applicative riguardanti le tecniche di estrazione de
i concetti quella degli ambienti personalizzati di ricerca (ad es., Bighini et a
l., 2004; Pickens et al.). Possiamo considerare la rappresentazione di informazi
oni semantiche come un importante passo verso una efficace gestione dei dati (Fr
eyne & Smyth, 2004; Calic et al., 2005; Carbonaro, 2006) quando una semplice lis
ta di coppie attributo/valore non sufficiente ad esprimere in maniera accurata i
l contenuto di una risorse e le sue relazioni interne o esterne.
Antonella Carbonaro - Le risorse e-Learning nel contesto del Web dei Dati
39
Tramite l utilizzo di ontologie invece possibile esprimere in maniera formale e pr
ocessabile informazioni su cui effettuare processi di ragionamento, esplorazione
e ricerca pi accurati. Il Semantic Web beneficia dai risultati di settori di ric
erca contigui quali, Information Retrieval, Information Extraction, Content Anal
ysis and Lexicography applications, fornendo interoperabilit fra sistemi, ontolog
ie e utenti.
L approccio presentato in questo lavoro produce un insieme di concetti che rappres
entano la risorsa in input tramite un approccio per l estrazione delle keyword pi s
ignificative dai threads di un forum, senza assunzioni sul dominio applicativo,
e, successivamente, tramite l individuazione dei concetti espressi individuati da
misure di similarit semantiche. In questo contesto, il concetto rappresentato dal
l articolo Wikipedia che meglio lo descrive. Il processo quindi organizzato nei se
guenti passi:
Mapping di una serie di termini con il pi adatto articolo Wikipedia
(disambiguazi
one).
Assegnazione di un punteggio per ogni articolo individuato sulla base
della sua
importanza nel contesto dato.
Estrazione degli n articoli con punteggio pi alto.
L individuazione del concetto che meglio rappresenta un insieme di keyword chiamat
o Word Sense Disambiguation (WSD). Per WSD si intende il processo di disambiguaz
ione automatica di termini polisemici all interno di una frase o testo. Un termine
polisemico una parola che assume significati diversi in base al contesto in cui
chanek et al., 2008; Yu et al., 2007; Kittur et al., 2009; Zesch et al., 2008; W
olf & Gurevych, 2010; Milne & Witten, op. cit., Schonhofen, 2009; Medelyan et al
., 2008; Amiri et al., 2008; Mihalcea & Csomai, 2007) come corpus leggendo l inter
o documento e valutando soggettivamente i termini estratti. I risultati mostrano
l utilit dell approccio nel supportare l estrazione di informazioni individuando conce
tti che ben rappresentano il contenuto dei documenti analizzati.
Ad esempio, la Tabella 1 mostra l influenza del parametro di window size utilizzan
do 605 termini da disambiguare.