Sommarizzazione

La sommarizzazione del testo una interessante e attiva area di ricerca sin dagli
anni 60. L assunzione di base che una porzione del documento originale o alcune pa
role chiave da esso estratte possano rappresentare il tutto. Leggere o elaborare
questa ridotta versione del documento permetter un considerevole risparmio sia d
i tempo che di risorse computazionali (White & Roth, 2009). Tale caratteristica
ancor pi critica e urgente nell attuale contesto di disponibilit di risorse elettron
iche. Gli approcci basati sul contenuto per rappresentare informazioni dinamiche
e non strutturate possono essere utili nel determinare i concetti chiave e per
sommarizzare le informazioni scambiate anche all interno di un ambiente di apprend
imento.
I ricercatori hanno proposto un ricco insieme di tecniche alternative al problem
a della sommarizzazione automatica dei documenti. Un approccio quello di fornire
un sommario sulla base della generazione di linguaggio naturale (come proposto
ad esempio nelle conferenze DUC e TREC); un altro invece basato sulla selezione
dal testo originale di alcune parole o frasi fra le pi frequenti o pi caratterizza
nti; in questo caso quindi, piuttosto che un testo coerente, viene generato un i
nsieme di elementi che con un certo grado di approssimazione rappresentano il te
sto in analisi.
Da un punto di vista tecnico I differneti approcci possono essere considerati co
me segue. La prima classe comprende quegli approcci che producono una classifica
zione del documento da un punto di vista teorico, senza assunzioni sul dominio a
pplicativo. Fanno parte di questa categoria le tecniche statistiche (McKeown et
al., 2001), analitiche (Brunn et al., 2001), di information retrieval (Aho et al
., 1997) e di information fusion (Barzilay et al., 1999). La seconda classe di a
pprocci comprende quelli focalizzati sulla specifica applicazione, come ad esemp
io i programmi per la sommarizzazione di programmi sportivi (Yong Rui et al., 20
00), la visualizzazione di dati clinici (Shahar & Cheng,1998) e il web browsing
(Rahman et al., 2001). In (NIST) possibile consultare un accurato survey.
4 La sommarizzazione
Una delle pi importanti aree applicative riguardanti le tecniche di estrazione de
i concetti quella degli ambienti personalizzati di ricerca (ad es., Bighini et a
l., 2004; Pickens et al.). Possiamo considerare la rappresentazione di informazi
oni semantiche come un importante passo verso una efficace gestione dei dati (Fr
eyne & Smyth, 2004; Calic et al., 2005; Carbonaro, 2006) quando una semplice lis
ta di coppie attributo/valore non sufficiente ad esprimere in maniera accurata i
l contenuto di una risorse e le sue relazioni interne o esterne.
Antonella Carbonaro - Le risorse e-Learning nel contesto del Web dei Dati
39
Tramite l utilizzo di ontologie invece possibile esprimere in maniera formale e pr
ocessabile informazioni su cui effettuare processi di ragionamento, esplorazione
e ricerca pi accurati. Il Semantic Web beneficia dai risultati di settori di ric
erca contigui quali, Information Retrieval, Information Extraction, Content Anal
ysis and Lexicography applications, fornendo interoperabilit fra sistemi, ontolog
ie e utenti.
L approccio presentato in questo lavoro produce un insieme di concetti che rappres
entano la risorsa in input tramite un approccio per l estrazione delle keyword pi s
ignificative dai threads di un forum, senza assunzioni sul dominio applicativo,
e, successivamente, tramite l individuazione dei concetti espressi individuati da
misure di similarit semantiche. In questo contesto, il concetto rappresentato dal
l articolo Wikipedia che meglio lo descrive. Il processo quindi organizzato nei se
guenti passi:
Mapping di una serie di termini con il pi adatto articolo Wikipedia
(disambiguazi
one).
Assegnazione di un punteggio per ogni articolo individuato sulla base
della sua
importanza nel contesto dato.
Estrazione degli n articoli con punteggio pi alto.
L individuazione del concetto che meglio rappresenta un insieme di keyword chiamat
o Word Sense Disambiguation (WSD). Per WSD si intende il processo di disambiguaz
ione automatica di termini polisemici all interno di una frase o testo. Un termine
polisemico una parola che assume significati diversi in base al contesto in cui
compare, mantenendo invariata la forma ortografica. Usiamo MorphAdorner (Burns

& Philip, 2006) per ottenere le fasi di pre-processing del testo e WordNet (Fell
baum, 1998) per lo stemming dei termini. Per accedere e estrarre informazioni ut
ili da Wikipedia usiamo Wikipedia Miner [http://wikipedia-miner.sourceforge.net/
] e DBpedia (Bizer et al., 2009) per l estrazione di informazioni strutturate da W
ikipedia e per rendere queste informazioni disponibili sul Web sfruttando RDF pe
r la rappresentazione. In sintesi, DBpedia uno sforzo della comunit di estrarre i
nformazioni strutturate da Wikipedia e di rendere queste informazioni disponibil
i sul Web. DBpedia permette di effettuare sofisticate interrogazioni da Wikipedi
a e di collegare altri set di dati presenti sul Web ai dati stessi di Wikipedia.
Il fine ultimo rendere pi facile l utilizzo dell incredibile quantit di informazioni
di Wikipedia in modi nuovi e interessanti, che potrebbero ispirare nuovi meccani
smi per la navigazione, collegando e migliorando l enciclopedia stessa. La navigaz
ione di DBpedia pu avvenire sia tramite l utilizzo di RDF Browser, estraendo i file
RDF dalla base di conoscenza, sia tramite Browser tradizionali utilizzando tecn
iche come il facetbrowsing; inoltre possibile interrogare la base di conoscenza
utilizzando una pagina che permette di generare query SPARQL in maniera semplifi
cata.
40
| Invited Papers - Vol. 8, n. 2, Maggio 2012
Allo stato attuale DBpedia comprende alcuni milioni di risorse fra cui decine di
migliaia di persone, geografiche, di album musicali, di film, etc.
5 e-Learning Metadata Standard
Gli standard legati al mondo dell e-learning forniscono supporto all interoperabilit
delle informazioni. Alcuni standard permettono di descrivere le propriet del LOs
(ARIADNE, DCMI, IEEE-LOM, ADL), altri la struttura (AICC). Sstandards come IMS e
ADL/SCORM (Sharable Content Object Reference Model) gestiscono sia la specifica
dei metadata che la modellazione della struttura del contenuto (Milne & Witten,
2009).
Allo scopo di acquisire interoperabilit rispetto alla descrizione semantica delle
risorse didattiche devono essere definiti alcuni metadati semantici utilizzando
standard pecifici del Semantic Web (DCMI, RSS, Atom, FOAF, DOAP, ). E anche possi
bile includere i metadati semantici nelle risorse Web piuttosto che usare rappre
sentazioni esterne tipo microformats o RDFa.
La combinazione fra gli standard dell e.learning e quelli del Semantic Web non di
facile attuazione. Ad esempio, anche se una vasta quantit di contenuto educativo
e dati sono condivisibili sul Web in un formato aperto, l integrazione risulta anc
ora costosa e numerosi repository sono isolati dagli altri e basti su implementa
zioni differenti (de Santiago & Raabe, 2010).
Per superare queste difficolt alcune istituzioni hanno cominciato ad esporre i pr
opri in modalit Linked Data.
Considerazioni
Il lavoro descritto rappresenta un primo passo verso l estrazione automatica dei c
oncetti in un processo semantico di sommarizzazione. Pu essere considerato come p
ossibile istanza di un problema pi generale, quello della transizione dal Documen
t Web al Document/Data Web e la conseguente gestione di tale immenso volume di d
ati. La comunit Linked Data fornisce data set connessi e le informazioni da essi
derivabili possono essere usate in un contesto di e-learning.
Pi in dettaglio, servono tecniche che possano fornire pi di un semplice matching f
ra keyword considerando anche contesti nei quali gli utenti non sono (a) esperti
del dominio o della terminologia del dominio in esame, (b) esperti del sistema
e delle sue funzionalit o (c) esperti dei dettagli degli obiettivi da raggiungere
.
I risultati di un processo di sommarizzazione possono essere valutati utilizzand
o misure intrinseche o estrinseche; mentre le prime considerano il giudizio uman
o sulla qualit dei concetti estratti, le seconde valutano l utilit del
Antonella Carbonaro - Le risorse e-Learning nel contesto del Web dei Dati
41
processo adottato nell espletare un qualche compito. Nei nostri esperimenti abbiam
o utilizzato analizzato (Jones, 2007) come documento e (Milne & Witten, 2008; Su
chanek et al., 2008; Yu et al., 2007; Kittur et al., 2009; Zesch et al., 2008; W
olf & Gurevych, 2010; Milne & Witten, op. cit., Schonhofen, 2009; Medelyan et al
., 2008; Amiri et al., 2008; Mihalcea & Csomai, 2007) come corpus leggendo l inter
o documento e valutando soggettivamente i termini estratti. I risultati mostrano
l utilit dell approccio nel supportare l estrazione di informazioni individuando conce
tti che ben rappresentano il contenuto dei documenti analizzati.
Ad esempio, la Tabella 1 mostra l influenza del parametro di window size utilizzan
do 605 termini da disambiguare.

Sommarizzazione

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Sommarizzazione

Caricato da

Copyright:

Formati disponibili

La sommarizzazione del testo una interessante e attiva area di ricerca sin dagli

compare, mantenendo invariata la forma ortografica. Usiamo MorphAdorner (Burns

Potrebbero piacerti anche