Sei sulla pagina 1di 9

Università degli Studi di Pavia

Anno Academico 2017-2018


Dati Empirici e Teorie Linguistiche:
Laboratorio di Analisi di Risorse Linguistiche

L’Analisi Cognitivo-Linguistica dei Tweet:


Caratteristiche e Strutture

Euglent Zeqaj
1. Introduzione
Studiare il linguaggio dei Tweets è un percorso che chiede massima attenzione per ogni aspetto della
lingua. L’uso di esso crea una base di analisi dettagliata sia empirica che linguistica.

La focalizzazione dell’esperimento non è solo sui tweet, ma anche sugli utenti. Si fa riferimento sia
all’aspetto psico-linguistico e quanto oggettivo, concreto e credibile esso può essere, sia alla veridicità
degli tweet in relazione con un fenomeno sociale.
Lo scopo dell’annotazione è quello di rispondere alle due domande: I tweet che sono in relazione di
accordo, sono supportati dalle evidenze, esperienze personali o qualsiasi fonte di informazione? Nel
caso di relazione di disaccordo, l’utente attacca direttamente il topic in questione?

Lo studio di riferimento è “A Dataset for Detecting Stance in Tweets” (Saif M.Mohammad, Svetlana
Kiritchenko, Parinaz Sobhani, Xiadan Zhu, Colin Cherry, 2016). L’argomento è stato approfondito dal
punto di vista dell’utente twitter e le sue potenzialità del uso del linguaggio.

Nella sezione nr 2 verrà menzionato lo schema di annotazione e tutto il percorso seguito, nella sezione
nr 3 verranno menzionati tutti i risultati empirici che lo schema di annotazione ha prodotto, mentre nella
sezione nr 4 verranno introdotte le generalizzazioni dall’analisi linguistica. Sezione nr 5 descriverà i
limiti di questo studio e le discussioni emerse. Per concludere nella sezione nr 6 si riassumeranno i
punti conclusivi e le probabilità di un uso nel futuro.

2. Lo schema di annotazione
L’annotazione è stata effettuata in modo manuale. Il dataset utilizzato deriva dal dataset originario di
Twitter API contenente 4870 tweet. Tra i 4870 tweet sono stati scelti 20 tweet per 6 topic (Atheism,
Climate Changing is a Real Concern, Feminist Movement, Hillary Clinton is Running for President,
Legalization of Abortion e Donald Trump is running for president). Di conseguenza, il dataset utilizzato
per questo studio è stato di un totale di 120 tweet. La selezione è stata effettuata casualmente, estraendo i
primi 20 tweet per ogni topic. Questa scelta è stata effettuata per avere la massima rappresentabilità ed
omogeneità del dataset costruito. Sono stati tolti tutti i tweet che contenevano ambiguità o dai quali non
si poteva avere un risultato preciso.

Per ogni tweet è stata utilizzata una codificazione contenente la prima lettera del topic e nr ordinario del
tweet (es: ID tweet: A12 = Atheism, più il 12-esimo tweet in ordine crescente). Il tagset dello schema di
annotazione include le etichette: Topicality, Evidence e Focus on.

Topicality esprime la relazione fra l’utente, il tweet ed il topic in questione. La relazione può essere di
accordo o di disaccordo. Per esprimere le relazioni sono state utilizzate due etichette: Agree(accordo) e
Disagree (disaccordo). L’esempio successivo illustra il primo livello dell’annotazione:

ID Tweet: A20
Topic: Atheism
Tweet: The devil is our enemy, and our mind is the battleground he plays in. -Josh Ricketson

2
Topicality: Disagree

Evidence è il secondo livello dell’annotazione, il quale determina se il tweet scritto dall’ utente è più
oggettivo, basato su evidenze concrete e fonti esterne di informazione, oppure soggettivo, basato
esclusivamente sull’ opinione personale non includendo evidenze reali e soprattutto credibili. Con tweet
oggettivo si intende il caso in cui un’opinione viene espressa tramite una citazione, statistiche ufficiali,
parafrasi di informazione esterna fino al Retweet delle persone che hanno una forte influenza in Twitter.

Per tutti i motivi sopradetti, le due etichette di questo tag sono: Present (Se c’è un’informazione
/evidenza che supporti l’opinione) oppure Absent (Se non c’è nessun’ informazione/evidenza che
supporti l’opinione espressa dall’utente).

Focus on invece determina su quale oggetto si focalizza il tweet. Il tag riguarda il fatto di esprimere
l’opinione riferendosi direttamente al topic in questione, oppure riferendosi a elementi che lo rendono
inaccettabile.

Le etichette di questo tag sono state tre: Topic (quando il focus è sul topic), Antitopic (quando il focus è
sugli elementi opposti al topic) e Unspecified (quado non si può definire se il focus è sul Topic o
sull’Antitopic). Per esempio, nel caso di Feminist Movement si è vista una tendenza ad esprimere
relazione di disaccordo riferendosi agli elementi opposti come: men, meninism, Bigot ecc. Quando sono
tutte due (Topic/Antitopic) presenti nello stesso tweet, viene preso in considerazione quello che riceve
più focus e che contiene la maggior parte del significato.
L’esempio successivo illustra gli ultimi due tag e di conseguenza tutto lo schema dell’annotazione:

ID Tweet: F13
Topic: Feminist Movement
Tweet: Stupid Feminists, the civilization you take for granted was built with the labour, blood, sweat and
tears of men.
Topicality: Disagree
Evidence: Absent
Focus on: Antitopic
Nella sezione successiva (3) verranno spiegati tutti i risultati empirici che l’annotazione ha prodotto.

3. I Risultati Empirici
Sono due le fasi di osservazioni in cui è stato divisa l’analisi empirica. La prima è quella verticale,
ovvero riguardante tutte le annotazioni per ogni tag, la seconda è quella orizzontale, che riguarda come i
tag si confrontano in un insieme di dati.
3.1 L’osservazione verticale
In merito al Topicality i dati hanno prodotto i risultati successivi. Su 120 tweet 52 sono in relazioni di
accordo (43,3%), invece i tweet che sono in relazione di disaccordo sono 68 (56,7%). L’opinione

3
espressa nel tweet viene influenzata molto dalla sensibilità generale del topic. Tra il topic Legalization of
Abortion e Climate Change is a Real Concern c’è una differenza culturale-sociale, ed è per questo che
gli utenti del twitter reagiscono in modi diversi.

Per rendere questa


Tabella 1. La distribuzione di Topicality.
ipotesi credibile basta 20 15 16
14
12 12 Agree

Tweets
confrontare il topic 15 11
8 9 8
10 5 6
Hillary Clinton is 4 Disagree
5
Running for President e 0
Donald Trump is Atheism Climate Feminist Hillary Legalization Donald
Change is a Movement Clinton is of Abortion Trump is
Running for President Real Running for Running for
(Tabella 1). Sono Concern President President

entrambi di ambito politico e c’è una distribuzione di topicality molto simile. Per il primo topic 11 tweet
su 20 sono in relazione di disaccordo, mentre per il secondo topic 12 tweet su 20 sono in relazione di
disaccordo. Di conseguenza non si vede la differenza fra tutti i due.

Per quanto riguarda Evidence (citazioni, statistiche, parafrasi di fonti esterni, retweet) i dati hanno
prodotto i seguenti risultati: su 120 tweet 77 non presentano un’evidenza (64,2%), mentre 43 tweet
presentano un’evidenza (35,8%). La tabella seguente spiega la distribuzione del tag Evidence.

In merito alla tipologia Tabella 2. La distribuzione dell’Evidence


dell’evidenza, essa viene 20 16 17
12 12
Tweets

15 10 10 10 10
influenzata dal topic di 8 8 Present
10
riferimento. 4 3
5 Absent
0
Si è visto che: le citazioni Atheism Climate Feminist Hillary Legalization Donald
sono più usate come Change is a Movement Clinton is of Abortion Trump is
Real Running for Running for
evidenze nei topic Concern President President
Athesim (7 tweet) e
Legalization of Abortion (4 tweet); le statistiche sono più usate nei topic Climate Change is a Real
Concern (3 tweet) e le parafrasi nei topic Legalization of Abortion (4 tweet) e Hillary Clinton is Running
for President (3 tweet). Retweet è ugualmente diffuso in tutti i topic.

In merito al Focus on, i dati hanno prodotto diversi risultati. In 38 tweet su 120 il focus è stato
sull’antitopic (31.8%), invece 68 tweet mettono il punto sul topic (56,7%). Soltanto 14 tweet sono
“uncpecified” (11,5%). La tabella successiva illustra la distribuzione del tag Focus on.

4
Dalla tabella 3 si capisce che il focus è su diverse etichette per diversi topic. In caso di Atheism si nota un
utilizzo molto
Tabella 3. La distribuzione di Focus on
frequente delle
20 16 14 14
parole riferite 13 12 13 Topic

Tweets
15
all’opposto 10 5 4 4 4 6 Antitopic
1 3 3 3 2 1 1
5
(Antitopic) del Unspecified
0
topic come: Islam, Atheism Climate Feminist Hillary Legalization Donald
God, Lord, Change is a Movement Clinton is of Abortion Trump is
Real Running for Running for
Christianity. Le Concern President President
parole di questo
genere determinano l’interpretazione del tweet come in disaccordo.
3.2 L’osservazione orizzontale

Se nella sezione precedente si mettono in confronto le etichette dello stesso tag, in questa sezione
vengono messi al confronto Topicality, Evidence e Focus on per verificare come uno dei tag possa
influenzare l’interpretazione dell’altro.

Dall’osservazione tra Topicality -Evidence si è verificato che in totale 32 tweet sono giudicati come
Disagree- Present (47,7%) mentre 36 tweet sono stati giudicati come Disagree -Absent (52,3%).
Dall’altra parte 10 tweet sono stati giudicati come Agree - Present (19,2%), mentre 42 tweet sono stati
giudicati come Agree -Absent (80,8%).

I risultati descritti nella tabella nr 4 confermano la Tabella 4. La Relazione Topicality - Evidence


tendenza a fornire una evidenza (citazioni 80
parafrasi, retweet) maggiormente quando si tratta 60
Absent
Tweets

36
di relazione di disaccordo (47,7%). 40
42 Present
20
L’ipotesi viene confermata dall’aspetto 32
10
cognitivo-psicologico dell’essere umana. 0
Agree Disagree
Considerando che il caso Disagree è sempre
contestato e sfavorevole, emerge la necessità di rendere l’enunciato/tweet più credibile. Sotto l’aspetto
psicologico questo fenomeno è conosciuto come Confirmation Bias1.

Nel caso di Agree si è verificato che 10 tweet su 52 presentano un’evidenza. Per gli utenti twitter in
relazione di accordo non sembra necessario fornire una citazione o una fonte esterna. Viene considerato
“favorevole” e anche molto più facilmente accettabile in confronto con Disagree. Facendo una
comparazione fra tutte due arriviamo alla conclusione che un utente twitter probabilmente tenda ad
allegare evidenza o informazioni quando si è in relazione di disaccordo.

1
Quando parliamo di Bias di Conferma (Confirmation Bias) facciamo riferimento all’errore cognitivo che ci porta, quando
acquisiamo nuove informazioni, ad attribuire maggiore credibilità a quelle che confermano la nostra ipotesi iniziale,
facendoci ignorare o sminuire quelle che la contraddicono. (Jessica Buscemi, 2018)

5
L’altra relazione che è stata osservata è Topicality – Focus on. La differenza fra la relazione
“Disagree – Antitopic” (38,2%) e “Disagree – Topic” (51,4%) è molto stretta. Invece tra la relazione
“Agree – Topic” (63,5%), e “Agree – Antitopic” (23,1%) si vede una differenza più sostanziale.

Tabellla 5. La relazione Topicality - Focus on Come si può inferire dalla tabella nr 5 il


80 risultato di questa parte dell’annotazione è
60 7 stato diverso da quello che si aspettava.
Unspecified
Tweets

7 26 Facendo riferimento anche alla prospettiva e


40 12 Antitopic
Topic
all’attualità dei social media ci si aspettava che
20 33 35
gli utenti si riferissero maggiormente al topic.
0
Agree Disagree Per esempio, il topic “Feminist Movement” è
stato contradetto con l’esultanza degli uomini usando anche concetti come “meninism”. La spiegazione
possibile è che gli utenti tendono a esaltare l’antitopic, piuttosto che denigrare il topic per quanto riguarda
la relazione Disagree-Antitopic. In questo caso viene certamente considerato l’aspetto cognitivo
dell’essere umano. Per la relazione Agree-Antiopic sì vede la tendenza ad esaltare il topic anziché
denigrare l’antitopic ed è per questo che solo 12 tweet lo menziono.

In merito alla relazione Topicality, Evidence e Focus on la distribuzione è molto omogenea. Per questo
motivo non è stato effettuato un calcolo del caso. Dal confronto tra tutte e tre i tag non è stato possibile
creare delle generalizzazioni per arrivare ad una possibile ipotesi.
3.3 IL Coefficiente Kappa

Un altro elemento molto importante è il coefficiente Kappa. “Test utilizzato per valutare il grado di
concordanza tra due valutazioni” (Luisa Zanolla, Maria Stella Graziani, 2014). Più calcoli del genere ci
sono, più concordanze si verificano, più credibile è l’annotazione. E’ stato chiesto ad un annotatore2
esterno di annotare lo stesso dataset con lo stesso schema di annotazione. Il risultato del coefficiente
kappa:
( 𝑃𝑜 − 𝑃𝑒 ) ( 0,60−0,48 )
K= = = 0,64
( 1 − 𝑃𝑒 ) ( 1−0,48 )

Dalla comparazione delle due annotazioni l’accordo interannotatore è notevole. Il risultato significa che
l’annotazione effettuata è stata concordata e di conseguenza viene considerata credibile.

4. L’analisi Linguistica
Il linguaggio utilizzato nei tweet è molto irregolare e contiene molto diversità dell’uso. Essendo social
media ci si aspettava un uso del linguaggio in forma “slang” ed anche ambiguo. Per motivi ortografici,
lessicali ecc. il linguaggio ha prodotto delle ipotesi e generalizzazioni che riguardano gli utenti di
twitter.
2
L’annotatore esterno è linguista inesperto, specializzato nel campo di lingue straniere come lingua primaria l’inglese presso
l’università “Ismail Qemali”.

6
La parte ortografica del linguaggio dei tweet è stata osservata attentamente.

Il primo aspetto ortografico notato è stato l’inizio delle frasi con la lettera minuscola. In 14 tweet
(11,6%) la frase è stata iniziata con la lettera minuscola. Questo fenomeno è usato in poesia per diversi
motivi stilistici, invece nel caso dei tweet è indice di informalità ed anche di velocità della scrittura delle
frasi. Dall’altra parte due tweet sono stati scritti interamente in maiuscola. E’ una scelta stilistica
dell’utente per enfatizzare la sua opinione:
Tweet: YOU ARE A GIRL AND HAVE SEX DIVE! YOU MUST BE A SLUT!
L’impatto che la scritta in maiuscolo dà in una discussione del genere è molto più forte.

Per quanto riguarda la punteggiatura, i tweet hanno mostrato una mancanza dell’uso della virgola. Si è
notato nelle frasi subordinati e condizionali. In 17 tweet analizzati (14,1%), la maggior parte delle
subordinate sono introdotte dalle congiunzioni: if, but, and, so e or:

Tweet: If this heat is killing me i dont wanna know what the poor polar bears are going thorugh right
now.

La mancanza della virgola dopo me rende la frase “agrammaticale” parlando dall’aspetto ortografico.
Dal punto di vista sintattico, sono state usate molto le subordinate, soprattutto quelle condizionali.

Un secondo elemento osservato è stata la frequenza delle parole. Prima di tutto, la frequenza delle
occorrenze del linguaggio è stata distribuita tra diverse parti del discorso. Si è confermata la tendenza
all’utilizzo dei pronomi personali soggetto (96 occorrenze) con il pronome you più frequente. Esso è un
elemento che enfatizza l’aspetto del riferimento del tweet verso il topic/antitopic.

Dall’altra parte è stato osservato un uso molto frequente dell’articolo determinativo the (75 occorrenze).
La stessa cosa si può dire per il verbo to be (71 occorrenze) e la preposizione to (53 occorrenze). L’uso
delle contrazioni (28 occorrenze) è un altro aspetto riguardante la velocità della scrittura e il contesto
molto informale in cui si svolge la discussione.
L’altro campo della grammatica che è stato osservato attentamente è la pragmatica. Il focus È stato
posto sull’atto illocutivo ed è stata seguita la suddivisione proposta da John Searle (Jurgen Handke,
2012). Come previsto, l’atto rappresentativo domina il genere dei tweet, presente in 74 tweet (61.6 %).

Diversamente dal previsto l’atto direttivo (Consigli e Ordini) viene secondo, con 28 tweet (23,3%). Gli
altri atti linguistici non sono riscontrati ad un livello sufficiente per creare generalizzazioni.

L’ipotesi che si può pensare riguardante l’uso frequente dell’atto direttivo è che gli utenti in una
discussione del genere non si riferiscono soltanto al topic, ma anche agli altri utenti. Si è riscontrato che
l’uso dell’atto direttivo è molto frequente nel caso di una risposta diretta verso un altro utente twitter. In
questo contesto, è descritto anche dall’uso di un linguaggio forte come nell’esempio successivo:

Tweet: @lucyblakeman12 You need feminism more than you need anything else in your life. You
couldn't survive or speak w/o it.

7
La risposta verso un altro utente twitter (@lucyblakeman) tramite l’uso dell’atto direttivo. Precisamente
è un consiglio caratterizzato di un linguaggio forte e meno gentile.

In relazione all’ambito pragmatico, è stato osservato l’aspetto delle massime conversazionali3. Dalle
verifiche risulta che le massime di quantità e quella di modo sono violate in 18 tweet (15%). Entrambe
sono illustrate nell’esempio successivo:

Tweet: Stupid is as stupid does! Showed his true colors;seems that he ignores that US was invaded ,
plundered, not discovered.

Dall’esempio precedente, si percepisce il fatto che c’è troppa informazione e diversi concetti sono stati
introdotti, quindi le massime risultano violate.

In merito al lessico utilizzato nei tweet si è vista una tendenza verso un linguaggio molto colloquiale e
idiomatico. Dall’osservazione si è riscontrata una struttura molto frequente (14 occorrenze) delle
espressioni idiomatiche di struttura VPN (Verbo - Pronome (Personale, Possessivo) - Nome) come
indicano gli esempi seguenti: shower me with patience, give him a shot, hold your peace, clear your
thoughts, slack on my retweets. Le espressioni idiomatiche sono molto diverse a seconda del contesto, e
contengono molte sfumature del significato.

5. Discussione
Per quanto è stato detto durante questo studio, ci sono dei punti su cui si può riflettere. Prima di tutto,
l’intenzione di questo studio era quello di verificare se l’opinione espressa dall’utente fosse supportata
da un’evidenza, e se il focus di questa opinione fosse sul topic in questione o no. Nel tentativo di
rispondere a queste due domande, ne sono emerse altre.
Se avessimo avuto dati relativi allo stesso ambito sociale, avremmo avuto risultati più stabili e più
coerenti? Su questo punto bisognerebbe approfondire l’argomento per confermare l’ipotesi che è emersa
durante l’annotazione.

Un altro punto di riflessione è quello della grandezza del corpus. Come visto precedentemente, un
corpus di 120 tweet crea delle limitazioni nel generalizzare ipotesi oppure trovare frequenze di
occorrenze. Come per esempio, il caso dell’analisi orizzontale di Topicality – Evidenze – Focus on.

Inoltre, un punto molto interessante potrebbe essere quello di studiare il linguaggio offensivo in diversi
tweet. Anche se è stato descritto parzialmente nella sezione di pragmatica con l’atto illocutivo, la
possibilità di un corpus più grande porterebbe ad analizzare una probabile frequenza del linguaggio
offensivo.

Un ultimo punto di riflessione sull’analisi linguistica è l’aspetto semantico. Ovviamente non avendo una
frequenza sufficiente di un fenomeno semantico, non è stato possibile generare una probabile ipotesi.
3
Le massime conversazionali (quantità, qualità, relazione e modo) di Grice sono i principi regolativi che governano la
conversazione secondo logica e pertinenza, come pure nel rispetto del principio di cooperazione fra parlanti. (Peter Cole,
1975)

8
Per quanto riguarda la semantica del corpus, è stata notata una minoranza di occorrenze di metonimia (8
occorrenze) come l’esempio successivo:
Tweet: We need Obama out and Donald Trump in the White House. (Governo)

6. Conclusioni
Lo studio del linguaggio dal punto di vista linguistico e cognitivo non è facile, poiché i due aspetti sono
collegati fra di loro e si influenzano a vicenda. I risultati empirici hanno confermato l’ipotesi che il
fornimento dell’evidenza è molto necessario cognitivamente, e che si chiede soprattutto in caso di
svantaggio.
Inoltre, le evidenze fornite sono state nel caso di svantaggio con il focus verso la figura opposta al topic
(antitopic). Quindi i risultati attesi non solo sono stati confermati, ma hanno prodotto ulteriori elementi
interessanti.
Per quanto riguarda l’analisi linguistica, l’aspetto pragmatico e ortografico hanno portato delle
generalizzazioni che riguardano la irregolarità dell’uso del linguaggio nella piattaforma Twitter.
L’aspetto della grandezza del corpus ha portato qualche limite nello studio di certi elementi
grammaticali e della loro frequenza.
Infine, questo studio si può perfettamente utilizzare come riferimento per studiare la spontaneità della
lingua dei social media, riguardando tutti gli aspetti spaziali, temporali e sociolinguistici.

7. Bibliografia
Saif M.Mohammad, Svetlana Kiritchenko, Parinaz Sobhani, Xiaodan Zhu, Colin Cherry, (2016), A
Dataset for Detecting Stance in Tweets.
Jessica Buscemi, (2018), Vedi che è come dico io? Il bias di conferma.
Shahram Heshmat, (2015), What is Confirmation Bias?
Luisa Zanolla, Maria Stella Graziani (2014), Glossario per il lettore di un articolo scientifico. Parte III:
la meta-analisi.
Giuliano Bernini, (1993), Linguistica Tipologica; Enciclopedia Italiana - V Appendice.
Jurgen Handke, (2012), Pragmatics-Speech Acts, An Overview.
David Bamman, (2017), Natural Language Processing: Truth and Ethics.
Paul Grice, (1975) Logic and conversation in Syntax and semantics 3: Speech acts, a cura di Peter Cole,
Academic Press, New York