Sei sulla pagina 1di 2

README

Di seguito le istruzioni per poter eseguire le analisi e la spiegazione di quali


file sono contenuti nelle cartelle.
langdetect-03-03-2014 contiene la libreria per fare language detection,
da caricare come libreria esterna nel nodo "java snippet" di Knime.
GetOldTweets 1 contiene il jar per poter estrarre da Twitter i tweet che
si vogliono analizzare.

WorkflowKnime: Topic Modeling


Il workflow Knime gi pronto per essere eseguito (librerie java gi inserite
in locale e dati caricati). In alternativa (se ci fossero errori o si volessero
ripetere le analisi da zero) bisognerebbe controllare/effettuare due cose:

Caricare i file da analizzare presenti in Dati/inputTopicModeling.


Settare le librerie esterne dei Java Snippet per la language detection
(dovrebbe essere fatto di default, ma esiste il rischio che Knime perda
la configurazione di default).
soloWorkflowNoDati il workflow di knime senza dati, pesa molto meno
rispetto al precedente. I dati sono presenti nella cartella Dati/inputTopicModeling.

Dynamic Topic Modeling


Il dynamic topic modeling2 pu essere direttamente eseguito dalla cartella
dynamic-nmf (i dati predefiniti sono nella cartella interna DTM) utilizzando i comandi python presentati di seguito. Per vedere solo i risultati
dellesecuzione basta eseguire il comando 4). Di default lalgoritmo accetta
in input una serie di cartelle (le fasce temporali) al cui interno siano presenti
i documenti divisi in file (un file per documento).
1
2

https://github.com/Jefferson-Henrique/GetOldTweets
https://github.com/derekgreene/dynamic-nmf

1)preparazione dati
python prep-text.py data/DTM/a09-11-2015 data/DTM/b13-11-2015 data/DTM/c2111-2015 data/DTM/d27-11-2015 data/DTM/e3-12-2015 data/DTM/f7-122015 -o data tfidf norm
2) ricerca 5 window topic
python find-window-topics.py data/a09-11-2015.pkl data/b13-11-2015.pkl
data/c21-11-2015.pkl data/d27-11-2015.pkl data/e3-12-2015.pkl data/f7-122015.pkl -k 5 -o out
3) costruzione 5 topic dinamici
python find-dynamic-topics.py out/a09-11-2015_windowtopics_k05.pkl
out/b13-11-2015_windowtopics_k05.pkl out/c21-11-2015_windowtopics_k05.pkl
out/d27-11-2015_windowtopics_k05.pkl out/e3-12-2015_windowtopics_k05.pkl
out/f7-12-2015_windowtopics_k05.pkl -k 5 -o out
4) visualizzazione dei risultati: i 5 topic dinamici
python display-topics.py out/dynamictopics_k05.pkl
Nel caso si volessero ripetere le computazioni che hanno portato ad ottenere i file analizzabili poi dalle tecniche di dynamic topic modeling sar
necessario recuperare tutti i tweet e dividerli in fasce temporali.
langFiles contiene i file dei tweet preprocessati e uno script in python per
poter suddividere i file in ingresso in pi file ciascuno contenente un singolo
tweet e salvarli nellopportuna cartella rappresentante una finestra temporale
per successive fasi di analisi. Questi file vanno spostati poi nella cartella
DTM.