Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Federico Bianchi
746914
2016/1/22
ANNO ACCADEMICO 2015-2016
CONTESTO
Twitter
un social network che permette agli utenti
di inserire brevi messaggi che altri possono
visualizzare.
pu essere considerato come una base di
conoscenza di dati testuali.
RESEARCH QUESTIONS
Data una parola chiave possibile scoprire
quali sono gli argomenti riguardo ad essa in
un dato momento? (Topic Modeling LDA)
E possibile capire come questi argomenti
evolvono
nel
tempo?
(Dynamic
Topic
Modeling)
A partire da queste analisi possono derivare
studi di tipo giornalistico e sociologico.
Data & Text Mining Federico Bianchi
DATASET
I dataset sono stati quindi prodotti attraverso
un tool che li estrae dallHTML di Twitter.
Il tool permette di recuperare tweet di date
passate, ma solo quei tweet che Twitter
decide di restituire.
Inoltre i dati sono in varie lingue.
Motivazione
9-11/11/2015
14-15/11/2015
21-22/11/2015
Allarme a Bruxelles
27-30/11/2015
3-4/12/2015
6-7/12/2015
RISULTATI 09-11/11/2015
RISULTATI 14/11/2015
TIMELINE
2015
08/11
15/11
11/9/20
15
Climate Conference, Master
22/11
29/11
06/12
2015
D02
D03
D04
D05
D06
D07
attacks
climate
france
cop21
attack
love
attacker
terror
talks
news
climatechange
alert
people bataclan
victims
change
russia
deal
brussels
world
isis
summit
terror
terror
terrorist
prayers syria
belgium
conference puppy
live
death
pray
police
response
ahead
police
climatemarch
eagles
city
photo
suspects
world
send
news
metal
live
bomber
news
leaders
solidarity
brandalism
terror
trump
hall
military
deal
people
climate
fears
support concert
vote
obama
wake
call
killed
guns
french
petition
action
night
agreement
risk
isis
protesters
identified
LANGUAGE
PREPROCESSING
DETECTION
IIl tweet
passano
attraverso
la in
pipeline
dataset
contiene
messaggi
pi
Infine
i
documenti
vengono
dati
in
di
preprocessing:
lingue.
Si
fa
uso
di
una
libreria
di
pasto
ad LDA e stopword.
allalgortimo di
Rimozione
language
detection
scritta in Java per
dynamic
topic
modeling.
Rimozione
parole
con meno di
poter
filtrare i tweet
in inglese.
4 caratteri.
Rimozione numeri.
Sfortunatamente
alcuni tweet
Eliminazione
riescono
ad eluderedella
questo controllo.
punteggiatura.
Conversione
a caratteri
PREPROCESSING
LDA e
minuscoli.
DYNAMIC TOPIC
Rimozione parola chiave.
MODELING
Rimozione delle URL
Non si effettua stemming:
corrompe i tweet.
Non si effetua POS tagging:
corrompe i tweet.
Topic 2
Topic 3
Topic 4
Topic 5
Attacks
Attacks
Attacks
Attacks
Attacks
Bruxelles
Isis
France
Attack
Attack
Attack
Anonymus
Death
Police
Bomber
Threat
World
Eagles
Climate
Nurse
Terror
Sunday
Metal
Turkey
Attackers
RISULTATI PARZIALI:
PEGGIORAMENTO
NUOVA ASSUNZIONE
RISULTATI 21-22/11/2015
CRITICA
Topic Modeling: Si pu ottenere unidea dei
topic pi importanti, ma spesso necessario
andare a vedere i tweet per capire quale
largomento. Inoltre conta molto, nella
valutazione, losservatore.
Le assunzioni fatte su attacks e attack non
sono riapplicabili per ogni contesto.
I dataset sono stati scelti in date particolari.
Data & Text Mining Federico Bianchi
CRITICA
Dynamic Topic Modeling: i risultati in
diversi casi poco chiari.
Il problema potrebbe essere stato generato
dallalgoritmo usato fuori contesto e dal
rumore nei dati.
CONCLUSIONI
I tweet sono messaggi che contengono molto
pi rumore di quello che allorigine si
pensava.
In ogni caso si riusciti a trovare delle
notizie di cui in origine non si sapeva
lesistenza, quindi il topic modeling ha in
parte raggiunto il suo scopo, seppur con
necessit di analisi sui dati ricevuti in output.
BIBLIOGRAFIA
[1] Blei, David M., and John D. Lafferty. "Dynamic topic
models." Proceedings of the 23rd international
conference on Machine learning. ACM, 2006.
[2] Blei, David M., Andrew Y. Ng, and Michael I. Jordan.
"Latent dirichlet allocation." the Journal of machine
Learning research 3 (2003): 993-1022.
[3] Greene, Derek, and James P. Cross. "Unveiling the
Political Agenda of the European Parliament Plenary: A
Topical Analysis." arXiv preprint arXiv:1505.07302
(2015).
Data & Text Mining Federico Bianchi