Sei sulla pagina 1di 19

Topic Modeling su Twitter

Federico Bianchi
746914
2016/1/22
ANNO ACCADEMICO 2015-2016

Data & Text Mining Federico Bianchi

CONTESTO
Twitter
un social network che permette agli utenti
di inserire brevi messaggi che altri possono
visualizzare.
pu essere considerato come una base di
conoscenza di dati testuali.

Data & Text Mining Federico Bianchi

RESEARCH QUESTIONS
Data una parola chiave possibile scoprire
quali sono gli argomenti riguardo ad essa in
un dato momento? (Topic Modeling LDA)
E possibile capire come questi argomenti
evolvono
nel
tempo?
(Dynamic
Topic
Modeling)
A partire da queste analisi possono derivare
studi di tipo giornalistico e sociologico.
Data & Text Mining Federico Bianchi

DATASET
I dataset sono stati quindi prodotti attraverso
un tool che li estrae dallHTML di Twitter.
Il tool permette di recuperare tweet di date
passate, ma solo quei tweet che Twitter
decide di restituire.
Inoltre i dati sono in varie lingue.

Data & Text Mining Federico Bianchi

DATASET: DATE E MOTIVAZIONI


La parola chiave scelta per lestrazione
stata paris (Parigi).
Sono stati scelti dei dataset presi in date
particolari. Circa 50.000 tweet per dataset.
Giorni di acquisizione

Motivazione

9-11/11/2015

Pre attentati a Parigi

14-15/11/2015

Post attentati a Parigi

21-22/11/2015

Allarme a Bruxelles

27-30/11/2015

Inizio conferenza sul clima


(COP21)

3-4/12/2015

Attentati a San Bernardino


(California)

6-7/12/2015

Fasi precedenti elezioni in Francia

Data & Text Mining Federico Bianchi

RISULTATI 09-11/11/2015

Data & Text Mining Federico Bianchi

RISULTATI 14/11/2015

Data & Text Mining Federico Bianchi

TIMELINE

Paris Attacks, Bataclan


Attack Video, American
Student Killed
11/14/20
15

2015

08/11

15/11
11/9/20
15
Climate Conference, Master

1000 Parigi, Premier Hunger


Games, Free Time

Data & Text Mining Federico Bianchi

Bruxelles Allarm, Paris


Attacks, Climate Conference,
Anonymus warns about ISIS
attack
11/21/20
Climate
15
Conferenc
e,
Protests
with
shoes for
Climate,
Paris
11/27/20
Attacks
15

22/11

29/11

Climate Change, Obama on


ISIS and Syria, Free time in
Paris, Belgium
12/3/20
15
Climate Deal, 3rd
Bataclan Bomber
Identified, Free Time in
12/6/20
Paris
15

06/12

2015

DYNAMIC TOPIC MODELING


D01

D02

D03

D04

D05

D06

D07

attacks

climate

france

cop21

attack

love

attacker

terror

talks

news

climatechange

alert

people bataclan

victims

change

russia

deal

brussels

world

isis

summit

terror

terror

terrorist

prayers syria

belgium

conference puppy

live

death

pray

police

response

ahead

police

climatemarch

eagles

city

photo

suspects

world

send

news

metal

live

bomber

news

leaders

solidarity

brandalism

terror

trump

hall

military

deal

people

climate

fears

support concert

vote

obama

wake

call

killed

guns

french

petition

action

night

agreement

risk

isis

protesters

Data & Text Mining Federico Bianchi

identified

THE DATA/TEXT MINING CYCLE

LANGUAGE
PREPROCESSING
DETECTION

Data & Text Mining Federico Bianchi

IIl tweet
passano
attraverso
la in
pipeline
dataset
contiene
messaggi
pi
Infine
i
documenti
vengono
dati
in
di
preprocessing:
lingue.
Si
fa
uso
di
una
libreria
di
pasto
ad LDA e stopword.
allalgortimo di
Rimozione
language
detection
scritta in Java per
dynamic
topic
modeling.
Rimozione
parole
con meno di
poter
filtrare i tweet
in inglese.
4 caratteri.
Rimozione numeri.
Sfortunatamente
alcuni tweet
Eliminazione
riescono
ad eluderedella
questo controllo.
punteggiatura.
Conversione
a caratteri
PREPROCESSING
LDA e
minuscoli.
DYNAMIC TOPIC
Rimozione parola chiave.
MODELING
Rimozione delle URL
Non si effettua stemming:
corrompe i tweet.
Non si effetua POS tagging:
corrompe i tweet.

RISULTATI PARZIALI: 21-22/11/2015


Topic 1

Topic 2

Topic 3

Topic 4

Topic 5

Attacks

Attacks

Attacks

Attacks

Attacks

Bruxelles

Isis

France

Attack

Attack

Attack

Anonymus

Death

Police

Bomber

Threat

World

Eagles

Climate

Nurse

Terror

Sunday

Metal

Turkey

Attackers

Attacks e Attack appaiono troppe volte!

Data & Text Mining Federico Bianchi

COME RISOLVERE IL PROBLEMA?

Idea: eliminare le parole che sono presenti


troppe volte nel corpus di documenti.
Computiamo IDF per le parole nel
documento, ed eliminiamo quelle sotto una
certa soglia.
Soglia = quartile inferiore della colonna IDF
Data & Text Mining Federico Bianchi

RISULTATI PARZIALI:
PEGGIORAMENTO

Data & Text Mining Federico Bianchi

NUOVA ASSUNZIONE

Partiamo dal presupposto che ci sono stati


degli attentati a Parigi.
Questa conoscenza a priori ci permette di
provare ad eliminare le parole attacks e
attack manualmente.
Lipotesi qui fatta molto forte e pu
seriamente corrompere la validit dei risultati.
Data & Text Mining Federico Bianchi

RISULTATI 21-22/11/2015

Data & Text Mining Federico Bianchi

CRITICA
Topic Modeling: Si pu ottenere unidea dei
topic pi importanti, ma spesso necessario
andare a vedere i tweet per capire quale
largomento. Inoltre conta molto, nella
valutazione, losservatore.
Le assunzioni fatte su attacks e attack non
sono riapplicabili per ogni contesto.
I dataset sono stati scelti in date particolari.
Data & Text Mining Federico Bianchi

CRITICA
Dynamic Topic Modeling: i risultati in
diversi casi poco chiari.
Il problema potrebbe essere stato generato
dallalgoritmo usato fuori contesto e dal
rumore nei dati.

Data & Text Mining Federico Bianchi

CONCLUSIONI
I tweet sono messaggi che contengono molto
pi rumore di quello che allorigine si
pensava.
In ogni caso si riusciti a trovare delle
notizie di cui in origine non si sapeva
lesistenza, quindi il topic modeling ha in
parte raggiunto il suo scopo, seppur con
necessit di analisi sui dati ricevuti in output.

Data & Text Mining Federico Bianchi

BIBLIOGRAFIA
[1] Blei, David M., and John D. Lafferty. "Dynamic topic
models." Proceedings of the 23rd international
conference on Machine learning. ACM, 2006.
[2] Blei, David M., Andrew Y. Ng, and Michael I. Jordan.
"Latent dirichlet allocation." the Journal of machine
Learning research 3 (2003): 993-1022.
[3] Greene, Derek, and James P. Cross. "Unveiling the
Political Agenda of the European Parliament Plenary: A
Topical Analysis." arXiv preprint arXiv:1505.07302
(2015).
Data & Text Mining Federico Bianchi

Potrebbero piacerti anche