Sei sulla pagina 1di 6

Universit degli Studi di Napoli Federico II

Dipartimento di Informatica e Sistemistica Dottorato di Ricerca XIX ciclo


in Ingegneria Informatica ed Automatica (settore disciplinare ING-INF/05)

Schema della tesi di dottorato


Carmine Cesarano
Indice
Inquadramento dell'argomento scelto...................................................................................................2 Indice provvisorio della tesi.................................................................................................................3 Indicazione dei contributi originali forniti...........................................................................................5 Bibliografia essenziale..........................................................................................................................5

Inquadramento dell'argomento scelto


Gli anni recenti hanno testimoniato la crescita esplosiva del volume di informazione digitale. Uno studio condotto dallUniversit della California nel 2001, ben 5 anni fa, ha rilevato che: la produzione mondiale annua di contenuti sul supporto cartaceo, ottico, magnetico, richiederebbe, per essere immagazzinata, 1,5 milioni di gigabytes. Questo lequivalente di 250 megabytes per persona, per ogni uomo, donna e bambino sulla terra. Per mantenersi informate, le persone dovrebbero spendere, nella ricerca di oggetti informativi come pagine web, libri, musica, immagini, news e pubblicit, un tempo considerevole on-line ogni giorno. Quello che ne risulta un problema di overload informativo. Le persone necessitano di mezzi efficaci che permettano una ricerca efficiente delle informazioni di cui hanno bisogno, scartando quelle irrilevanti o non coincidenti con i propri interessi. Per accogliere questa sfida sono state sviluppate tecnologie di accesso allinformazione soprattutto negli ambiti dellInformation Retrieval e lInformation Filtering per i quali i maggiori task sono quelli di rappresentazione, organizzazione, immagazzinamento e accesso a oggetti informativi. In particolare, nel momento in cui l'oggetto trattato un documento di testo, non basta soltanto elaborarlo come un bag of words ma risulta necessario interpretare il significato delle parole, delle frasi in base al contesto in cui sono utilizzare. L'area di ricerca che si occupa di tali problemi il Natural Language Processing (NLP). Essa si interessa dello sviluppo di metodi mirati all'analisi, alla generazione ed al reperimento di testi espressi nella forma scritta o orale. L'analisi e la comprensione del testo, operazioni in generale eseguite da ogni parlante di una data lingua in modo del tutto intuitivo, richiedono un lavoro molto complesso dal punto di vista computazionale. L'implementazione di un sistema automatico che esegua compiti che coinvolgono un certo grado di competenza linguistica richiede un lavoro di ricerca che solitamente chiama in causa specialisti provenienti da ambiti di studio molto diversi tra loro, come ad esempio linguisti, psicologi, matematici e informatici. Il seguente lavoro di tesi si colloca nell'area di ricerca dell'Information Retrieval e del Natural Language Processing combinando le relative tecniche al fine di migliorarne l' organizzazione e la memorizzazione dei documenti con l'ausilio di una analisi pi strettamente legata alla comprensione del testo. In particolare sono state sviluppate metodologie atte all'estrazione di conoscenza da documenti di testo, individuazione ed estrazione di opinioni su un dato argomento ed infine, si sono definite metodologie per lorganizzazione orientata agli eventi di news definendo cos algoritmi in grado di individuare nuovi eventi in flussi di articoli provenienti da differenti sorgenti di informazione e algoritmi in grado di eseguirne il tracciamento. Tale approccio ha permesso di ottenere una organizzazione pi fine dell'informazione permettendo di individuare, ad esempio, non soltanto documenti che descrivessero eventi generali come storie circa un terremoto ma a distinguere tra particolari istanze di terremoti.

Indice provvisorio della tesi


Information Extraction and Analysis from unstrctured web and document repositories : Preface Acknowledgments 1 Introduction 1.1 Motivation of the work 1.2 Information Retrieval 1.2.1 Automatic Text Analysis 1.3 Natural Language Processing 1.4 Information Extraction 1.5 Topic Detection and Tracking 1.5.1 TDT tasks 1.6 Focus of the thesis 1.7 Outline of the thesis 1.8 Conclusion 2 Related Works 2.1 Information Extraction Approaches 2.2 Opinion Analysis Approaches 2.3 Topic detection and Tracking Approaches

I Theory
3 Information extraction and story creation algorithms 3.1 Introduction 3.2 Story Schema and Instance 3.3 Story Computation Problem 3.3.1 Valid and Full Instances 3.3.2 Stories 3.3.3 Optimal Stories 3.4 Attribute Extraction 3.4.1 Attribute Extraction from Text Sources 3.4.2 Attribute Extraction from Relational and XML Sources 3.5 Story Computation 3.5.1 Restricted Optimal Story Algorithm 3.5.2 Genetic Programming Approach 3.5.3 Dynamic Programming Approach 3.6 Story Rendition 4 Opinion Analysis from Documents 4.1 Introduction 4.2 Motivation 4.3 Opinion analysis architecture 4.4 The Scored Opinion-Expressing Word Bank 4.4.1 Pseudo-expected value word scoring 4.4.2 Pseudo Standard-Deviation Adjective Scoring 4.5 Scoring documents 3

4.5.1 Topic-Focused (TFwsf) Algorithm 4.5.2 Distance-weighted topic focused (DWTFwsf) Algorithm 4.5.3 Template-based (TBwsf) Algorithm 4.5.4 Hybrid Evaluation Method (HEM) 4.6 Qualitative Scoring: The QualScore Algorithm 4.7 Improvement: Adjectives and adverbs combinations 4.7.1 Motivation 4.8 Adverb Scoring Axioms 4.9 Adverb Adjective Combination Scoring Axioms 4.9.1 Unary ACCs 4.9.2 Binary AACs 4.9.3 Negation 4.10 Three AAC Scoring Algorithms 4.10.1 Variable Scoring 4.10.2 Adjective Priority Scoring 4.10.3 Adverb First Scoring 4.11 Scoring the Strength of Sentiment on a Topic 5 Topic Detection and Tracking System 5.1 5.2 5.3 5.4 5.5 Introduction Topic Definition Topic Detection and Tracking model Comparing event Relevant terms extraction 5.5.1 Improvement in relevant term selection 5.5.2 Noun chaining algorithm 5.6 Temporal expression 5.7 Spatial Similarity 5.8 Event Similarity 5.9 Topic detection and Tracking algorithms 5.9.1. Topic detecion 5.9.2. Tracking 5.10 Discussion 6 Document Indexing 6.1 Introduction 6.2 Document vector representation 6.3 Probabilistic learning of category clusters 6.3.1 Balanced EM learning 6.3.2 Balanced Cluster Tree representation 6.3.3 Category browsing using the BCT

II Experiments
7 Experiments and Results 7.1 Story 7.1.1 Story Quality: Non-Expert Reviewers 7.1.2 Expert Reviewers 7.2 OASYS 7.2.1 Implementation and Experiments . 4

7.2.3 Discussion and Conclusion 7.3 Topic Detection and Tracking 7.3.1. System Usage Example 7.3.2. Experiments 7.3.3. Discussion and Conclusion 7.4 Indexing evaluation 7.4.1. Experimental Results 7.4.2. Discussion and Conclusion Bibliography

Indicazione dei contributi originali forniti


Il seguente lavoro di tesi ha trattato l'analisi e la estrazione di informazioni da documenti di testo non strutturati. In particolare i maggiori contributi sono stati: la realizzazione di algoritmi innovativi capaci di estrarre da un documento di testo informazione strutturata in forma di tuple. Le tipologie di tuple estratte variano dalle semplici triple Entit, Attributi e Valori a tuple pi complesse che tengono in conto anche delle caratteristiche spazio temporali delle informazioni. L'estrazione di tali tuple basato su un analisi sintattica e semantica di collezioni di documenti. Le tuple, semanticamente significative, sono conservate in una knowledge base e utilizzate da algoritmi di sommarizzazione per creare storie su un determinato argomento. la realizzazione di algoritmi per la valutazione automatica delle opinioni espresse su un determinato argomento. L'innovazione introdotta la possibilit di ottenere con un approccio non supervisionato, non soltanto un valore di tipo booleano (opinione negativa o positiva), ma anche la possibilit di avere un grado di opinione espresso su un determinato argomento e da differenti sorgenti di informazione. E' stato definito un modello di estrazione di opinioni e si validato l'approccio utilizzato mediante una sperimentazione esaustiva . la realizzazione di algoritmi in grado di organizzare articoli di notizia in base agli eventi che essi descrivono. In particolare si individuato un set di features che permette di discernere tra diversi eventi e di realizzare algoritmi che consentono di eseguire il tracking degli eventi. Inoltre sono stati realizzati degli indici ad hoc per migliorare e rendere efficiente il retrieval di documenti in base agli eventi che essi descrivono.

Bibliografia essenziale
J. A. Bilmes, A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models, Technical Report, U.C. Berkeley, April 1998 M. Vargas-Vera et al., Knowledge Extraction Using an Ontology-Based Annotation Tool, Workshop on Knowledge Markup & Semantic Annotation,ACM Press, New York, 2001, pp. 512.

H. Cunningham et al., GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications, Proc. 40th Anniversary Meeting Assoc. for Computational Linguistics (ACL 2002), M.D. Mulvenna and S.S. Anand and A.G. Buchner, "Personalization on the Net using Web mining: introduction",Communications of the ACM, 2000,volume43, pages122-125 G. L. Zuniga. Ontology: Its transformation from philosophy to information systems. In FOIS01, pages 187197. ACM, 2001. D. DeMenthon, D.S. Doermann, and V. Kobla. Video Summarization by Curve Simplification. Proc. ACM Multimedia, Bristol, England, 1998, pp. 211-218. L. He, E. Sanocki, A. Gupta and J. Grudin. Auto-Summarization of Audio-Video Presentations. ACM Proc. on Multimedia, 1999, pp. 489-498. F. Salvetti, S. Lewis and C. Reichenbach, "Automatic Opinion Polarity Classification of Movie Reviews. Colorado research in linguistics, vol. 17, issue 1, June 2004. S. Deerwester, S. Dumais, T. Landauer, G. Furnas and R. Harshman. "Indexing by Latent Semantic Analysis". Journal of the American Society of Information Science, vol. 41, nr. 6, 1990, pp. 391-4407. T. Wilson, J. Wiebe and R. Hwa. "Just How Mad are you? Finding Strong and Weak Opinion Clauses". Proceedings of the nineteenth national conference on artificial intelligence (aaai-2004). V. Hatzivassiloglou and K. McKeown,"Predicting the Semantic Orientation of Adjectives". Proceedings of the 35th annual meeting of the association for computational linguistisc, 1997. P. Turney. "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews". Proceedings of the 40th annual meeting of the association for computional linguistics (acl), 2002, pp. 417-424. B. Pang, L. Lee and S. Vaithyanathan . "Thumbs up? Sentiment Classification Using Machine Learning Techniques". Proceedings of the conference on empirical method in natural language processing (emnlp), 2002, pp. 79-86. James Allan, Jaime Carbonell, George Doddington, Jonathan Yamron, and Yiming Yang. 1998. Topic detection and tracking pilot study: Final report. In Proc. of the DARPA Broadcast News Transcription and Understanding Workshop. James Allan, Ron Papka, Victor Lavrenko , On-line New Event Detection and Tracking 1998 Research and Development in Information Retrieval T. Leek, D. Miller, and R. Schwartz, ``Labrador: A Hidden Markov Model Information Retrival System'', SIGIR-99. Eui-Hong Han and George Karypis,Centroid-Based Document Classification:Analysis and Experimental Results, Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery,2000,424-431 J.Makkonen, H. Ahonen-Myka, M.Salmenkivi: Simple Semantics in Topic detection and Tracking, Information Retrieval, Kluwer Publishers, 2004. R.Mihalcea, S.Mihalcea: Word Semantics for Information Retrieval: Moving One Step Closer to the Semantic Web, International Conference on Tools with Artificial Intelligence, 2001. P. van Mulbregt, I.Carp, L.Gillick, S.Lowe, J.Yamron: Text Segmentation and Topic Tracking on Broadcast News via a Hidden Markov Model Approach, Proceedings of the 5th International Conference on Spoken Language Processing (ICSLP 1998), 1998. R.Nallapati: Semantic Language Models for Topic Detection and Tracking, Proceedings of the HLT-NAACL 2003 Student Research Workshop, 2003. C.Clifton, R.Cooley, J.Rennie: TopCat: Data Mining for Topic Identification in a Text Corpus, IEEE Transactions on Knowledge and Data Engineering, 2004. G. Salton. Automatic Text Processing: The Transformation Analysis and Retrieval of Information by Computer. Addison-Wesley, 1989. E. Voorhees and D. Harmann: Overview of the Seventh Text Retrieval Conference (TREC-7). In NIST Special Publication 500-242: The Seventh Text Retrieval Conference (TREC-7), pages 1-23, 1998. Y.Yang, T.Ault, T.Pierce, C.W.Lattimer: Improving Text Categorization Methods for Event Tracking, Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in IR, ACM Press, 2000. Y.Yang, J.Zhang, J.Carbonell, C.Jin: Topic-conditioned novelty detection, Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data