Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
I.
Introduzione
1 Tweets
II.
Related Works
on LDA, https://wellecks.wordpress.com/2014/09/03/these-are-your-tweets-on-lda-part-i/
III.
I.
Metodi e Dataset
Illustriamo di seguito quali sono le metodologie e scelte usate per lanalisi dei topic a
partire dai dati Twitter. Per gli scopi del progetto stato necessario recuperare i tweet da
Twitter; attualmente le Twitter API, in molti
casi, non permettono di recuperare dati pi
vecchi di una settimana e questo rende molto
complesso effettuare studi su dati che sono
stati prodotti mesi o anni prima. Si quindi deciso di utilizzare un tool che recupera i
tweet pi vecchi estraendoli dal puro HTML
restituito da Twitter quando un utente fa uso
delle funzionalit di ricerca avanzata2 . Questo
approccio, pur permettendo di recuperare quei
tweet che sono stati prodotti da un numero
elevato di giorni, limitante nei confronti della
quantit di tweet recuperata: vengono infatti
recuperati solo quei tweet che Twitter decide
di restituire nella sua ricerca avanzata e che
quindi sono di numero inferiore a quelli che
potrebbero essere recuperati attraverso lutilizzo delle streaming API del social network3 .
Questultime richiedono per di essere utilizzate in real-time per fare acquisizioni di dati
(recupero solo i tweet che vengono postati da
quando ho fatto partire la mia acquisizione
con le API). La precedente affermazione stata
empiricamente provata raccogliendo in diretta
attraverso le Twitter Api i tweet, contenenti la
parola "paris", creati tra il giorno 27 Novembre
2015 e il 28 Novembre 2015: sono stati cos
recuperati circa 200.000 tweet in un solo giorno
di acquisizione, mentre utilizzando lapplicazione sopra descritta ne sono stati trovati circa
30.000. Si scelto comunque di perseverare
con lutilizzo di questa applicazione perch
2 Jefferson
II.
Preprocessing
Henrique, https://github.com/Jefferson-Henrique/GetOldTweets
API, https://dev.twitter.com/streaming/overview
4 In realt Twitter rende disponibili i tweet sulla bacheca pubblica fino ad una settimana dalla creazione, ma il problema
il medesimo.
3 Streaming
IV.
V.
III.
LDA
Problemi
IV.
I.
Caso di Studio
Dataset scelti
Tabella 1: Dataset
II.
Term
attacks
brussels
attack
threat
terror
attacks
isis
anonymous
world
sunday
attacks
france
death
eagles
metal
attacks
attack
police
climate
turkey
attacks
attack
bomber
nurse
attackers
colonna IDF dei termini, in modo da poter avere un modello sistematico per eliminare quei
termini che sono troppo presenti nella collezione; questo procedimento pu tuttora essere
effettuato nel workflow Knime allegato semplicemente modificando il nodo "if" del controllo
di flusso riguardante lapplicazione di questo
metodo. I risultati non sono quelli sperati (figura 1): avendo tagliato i termini pi frequenti
si sono effettivamente persi i termini pi importanti. Impostando una soglia manuale si
possono ottenere risultati nettamente migliori,
ma questa soglia va cambiata per ogni dataset e
non quindi da considerarsi come un metodo
efficace per eliminare il problema.
Ragionando a posteriori si utilizzata unaltra tecnica per poter portare avanti lo studio
senza che le parole rovinassero lanalisi. Lassunzione che stata fatta stata la seguente:
dato per evidente che ci sono stati degli attentati
a Parigi, posso eliminare dai dataset anche queste
parole chiave. Riportiamo quindi la tag cloud ottenuta dopo aver effettuato lanalisi con questo
metodo in figura 2. Risulta qui pi evidente quello di cui si parlava prima: c allerta
terrorismo a Bruxelles, inoltre in un topic che
potremmo definire "cronaca legata agli attentati a Parigi", oltre alla gi precedentemente
visibile storia dellinfermiera che ha tentato di
salvare un attentatore, si pu osservare la comparsa della parola "mali", presente per via degli
attentati svoltisi il 22 Novembre in un hotel in
Mali.
5
Post
18.116
3.362
21.650
2.607
6.396
Pre
1.992
18.589
4.035
10.730
7.601
III.
Applicazione Dynamic TM
V.
Discussione
Rank
1
2
3
4
5
6
7
8
9
10
11
D01
attacks
terror
victims
isis
belgium
response
suspects
news
military
vote
petition
D02
climate
talks
change
summit
conference
ahead
world
leaders
deal
obama
action
D03
france
news
russia
terror
puppy
police
send
solidarity
people
wake
night
D04
cop21
climatechange
deal
terror
live
climatemarch
news
brandalism
climate
call
agreement
D05
attack
alert
brussels
terrorist
death
eagles
metal
terror
fears
killed
risk
D06
love
people
world
prayers
pray
city
live
trump
support
guns
isis
D07
attacker
bataclan
identified
syria
police
photo
bomber
hall
concert
french
protesters
I.
Topic Modeling
I risultati aiutano nella maggior parte dei casi ad avere una vaga idea di quali sono gli
argomenti pi "caldi", come mostrato precedentemente si pu dedurre che a Bruxelles
stato annunciato il rischio terrorismo semplicemente facendo analisi sui tweet. Si inoltre
riusciti a scoprire altre notizie prima sconosciute, come linfermiera che ha soccorso un
attentatore ed il fatto che la Russia ha regalato
un cucciolo di cane alla Francia dopo che uno
dei loro cani era morto durante le manovre
di polizia per proteggere la citt (la parola
"puppy" nella figura 2 fa riferimento a questo
evento), ma stato necessario leggere i tweet
per poter capire effettivamente di cosa si stesse
parlando. Spesso si deve quindi ricorrere ad
unanalisi approfondita, facendo ricerche esterne, per capire quale il vero tema di un topic.
rilevante ribadire che si dovuti intervenire
a mano su alcuni dati (cancellando le parole
"attack" e "attacks") per poter ottenere informazioni pi precise.
II.
VI.
Future Works
paese X del fatto Y?"). In fine sarebbe stato molto interessante valutare pi a fondo il sistema
di Dynamic Topic Modeling e capire quanto
applicabile su questo tipo di dati e, nel caso,
vedere come sarebbe possibile intervenire.
Riferimenti bibliografici
[1] David M Blei and John D Lafferty. Dynamic topic models. In Proceedings of the 23rd
international conference on Machine learning,
pages 113120. ACM, 2006.