Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lo scopo della ricerca sociale non è solo comprendere la realtà, ma cambiarla = ricerca
attiva, cioè volta a degli scopi (politiche pubbliche, …).
Si fa ricerca a partire da una domanda di ricerca, il contenuto della domanda non deve
essere: metafisico, non falsificabile o non rilevante dal punto di vista delle scienze sociali.
Si tratta di domande inquisitorie che si aspettano una risposta (cioè devono essere
domande rispondibili). Deve esserci un risultato della domanda di ricerca,
indipendentemente dal fatto che sia come ce lo aspettavamo o meno.
FONTI = si dividono in: a) Fonti primarie: quelle da cui il ricercatore può ottenere
informazioni circa il fenomeno in analisi tramite l’osservazione o la misurazione diretta,
senza cioè alcun intermediario. Dell’affidabilità e dell’autenticità di tali fonti il ricercatore è
responsabile in prima persona. b) Fonti secondarie: quelle non originali, cioè che il
ricercatore prende da altre opere già pubblicate (libri, articoli, report, documenti, …), sono
convenienti perché più semplici da raccogliere, ma più rischiose perché in origine trattate
da altri ricercatori.
RICERCA SOCIALE = si occupa di esplorazione e ricerca nel mondo sociale. Non è fine a
se stessa perché è usata per raggiungere determinati scopi pratici.
Il senso comune si fonda sulle apparenze e dà per scontata la realtà, il pensiero scientifico
invece è basato sulla logica e opera per spiegare la realtà, le relazioni che vi intercorrono,
etc. etc.
2
Approccio FALSIFICAZIONISTA (Popper) = Se un’ipotesi tratta da una teoria è
falsa, allora tutta la teoria è falsa (cigno bianco, cigno nero). Se esiste una sola
evidenza empirica che falsifica le teoria, allora tutta la teoria è falsa.
3
b) EMPIRISMO (Locke, Hume) = la conoscenza nasce dalla percezione del mondo che
abbiamo.
TEORIA = Dichiarazione generale che postula relazioni tra concetti. Tali relazioni possono
essere:
Descrittive = mappatura del fenomeno.
Correlazionali = osservazioni tra insiemi differenti.
Causali = si introduce l’approccio sperimentale.
Nonostante una teoria debba essere generale, molto spesso la si può testare solo nel
particolare, l’attenta selezione di questo sottoinsieme (= campione) è fondamentale.
Un concetto è un’astrazione (capitale sociale, ideologia, …), che ai fini della ricerca deve
essere tradotto in qualcosa di più concreto. L’operazionalizzazione è il processo
mediante il quale si specificano operazioni, procedure e strumenti per effettuare
osservazioni reali.
4
solo corso d’azione, quanto invece può essere più utile prendere in considerazione
un maggior numero di punti di vista contemporaneamente.
QUALITATIVO QUANTITATIVO
Obiettivo Comprendere il mondo dei Misurare atteggiamenti, opinioni e
partecipanti (sotto la comportamenti
superficie)
Selezione dei Di scopo (g. naturali) Campionamento statistico
partecipanti (g. tassonomici)
Domande di Evolvono con la ricerca Formulate prima della
ricerca presentazione dei dati
Tipo di Domande aperte (stimoli) Domande chiuse (standard)
elicitazione
Dati Testuali Numerici
Analisi Interpretativa Statistica
Presentazione dei Descrizione testuale Tabelle, grafici, modelli statistici
risultati
MIXED METHODS = modello anglosassone, terza via nella ricerca sociale. Non è mera
unione, ma c’è relazione più varia e complessa tra i due metodi dominanti, l’uno può
essere più funzionale dell’altro in un determinato momento di ricerca, e viceversa.
3. METODI QUALITATIVI
5
La forma più completa di raccolta qualitativa di dati sociali sarebbe l’osservazione dei
soggetti, ma questa – presupponendo una certa estraneità dell’intervistatore – comporta
una serie di problemi pratici per cui si finisce sempre a preferire l’intervista.
GRUPPO NATURALE = la selezione dei casi da intervistare nella ricerca qualitativa non
deve per forza sottostare a rigide norme statistiche (ma comunque deve sempre essere
giustificata). Un gruppo naturale è composto da diversi individui rappresentanti le diverse
correnti di pensiero – o i diversi punti di vista – che interessano al ricercatore.
TOPIC GUIDE = rappresenta lo scheletro (canovaccio) dell’intervista, creando una
struttura facile e comoda per la conversazione e fungendo in secondo luogo utile anche
come schema iniziale per l’analisi dei dati. Non è rigida, e anzi può essere modificata nel
corso della ricerca: il ricercatore può cambiare le domande che fa. Non porre mai
direttamente la domanda di ricerca.
FOCUS GROUP = interviste di gruppo (5-7 persone più un moderatore). Possono essere
utili per vari scopi: conoscere l’effetto di campagne politiche o di marketing; testare un
questionario che sarà usato per ricerca quantitativa o arricchire i dati di una ricerca già
svolta; … Mentre le interviste agiscono sul piano individuale, i focus group vogliono
conoscere le esperienze sociali, il meccanismo di creazione di opinioni e simulare una
sfera pubblica ideale. Solitamente una ricerca fatta tramite focus group fa uso di un
numero di gruppi tra 4 e 6.
6
CONFERMABILITÀ (oggettività o neutralità) = è necessario dimostrare che le
interpretazioni conclusive dei risultati della ricerca sono chiaramente derivate dai dati
raccolti nel corso della stessa.
Triangolazione: metodo per stabilire la validità di una ricerca: a) uso di diverse fonti di
dati; b) coinvolgimento di più di un ricercatore; c) interpretazione degli stessi dati da più
punti di vista (partendo da diverse teorie); d) utilizzo sia di metodi quantitativi che
qualitativi; e) ricerca svolta in ambienti e tempi diversi.
PREDIZIONE = se le relazioni tra variabili sono ben descritte, allora le si può elevare al
generale riuscendo a prevedere processi e comportamenti sociali.
STATISTICA = raccolta di strumenti usati per convertire dati grezzi in informazioni utili per
aiutare i decisori nelle loro opere.
Stat. Descrittiva = riepilogo e descrizione dei dati (relativamente al campione o alla
popolazione). Comprende la rappresentazione grafica dei dati e una serie di
operazioni basilari, come il calcolo della media o l’analisi (ed eventuale
eliminazione) dei dati estremi.
Stat. Inferenziale = uso dei dati del campione per fare inferenza su una popolazione
più vasta.
7
VARIABILE = proprietà di un oggetto/evento che può assumere valori diversi. Può essere
indipendente (causa, x), ovvero una variabile input di cui il ricercatore ha controllo (non
sempre); o dipendente (effetto, y), cioè una variabile che dipende dalla presenza di una o
più altre variabili indipendenti.
Esistono diversi tipi di variabili:
Var. Categoriche: possono essere nominali, quando assumono due o più categorie
ma senza un ordine intrinseco (religione, tipo di macchina, …); o dicotomiche
(binarie), che assumono cioè soltanto due modalità delle quali l’una esclude l’altra
(sì/no). Possono infine essere ordinali: assumono due o più categorie che hanno un
ordine intrinseco, cioè che sono ordinabili, per quanto la distanza tra un attributo e
l’altro non abbia alcun significato se non quello di differenziazione.
Var. Continue: possono esprimere un intervallo, quando cioè si muovono lungo un
continuum numerico e la differenza tra un unità e l’altra è uguale, senza però che
sia reale una relazione di rapporto (temperatura: la differenza tra 20° e 30°C è
uguale a quella tra 30° e 40°, ma non possiamo dire che con 40° “fa caldo il doppio”
che con 20°). O possono esprimere anche un rapporto: dove è cioè possibile
rapportare le misure e dove lo 0 nella scala indica l’assenza di variabile.
CAMPIONI NON PROBABILISTICI = cioè non corretti dal punto di vista statistico (non è
assicurata equiprobabilità di scelta)
Campionamento a quote = il ricercatore specifica soltanto le quote di rispondenti
con determinate caratteristiche, il campionamento vero e proprio è lasciato ai vari
intervistatori, con alto rischio di bias.
Snowball sampling = si usa quando è impossibile (per alti costi, pericolo, o altre
ragioni) compiere in prima persona un campionamento probabilistico riguardo a una
determinata popolazione. Di conseguenza si individuano solo dei primi rispondenti
che si occuperanno personalmente di condividere il questionario con i rispettivi
contatti.
8
BIAS NEL CAMPIONAMENTO = errori sistematici che pregiudicano la ricerca
Bias della copertura = il frame del campionamento manca di una porzione
considerevole della popolazione di riferimento (serve sempre avere una lista
completa della popolazione, numeri di telefono fisso è obsoleta).
Bias di selezione = se l’accesso al sondaggio è subordinato a determinate
attrezzature o conoscenze non condivise da tutte la popolazione (per esempio un
sondaggio online presuppone che si vada su Internet).
Bias delle dimensioni = quando non c’è equiprobabilità di scelta a causa dello
stesso metodo utilizzato. Se faccio un sondaggio riguardo a un sito online
intervistato chi lo visita selezionerò con più probabilità gli utenti più affezionati.
Bias del rifiuto = quando le ragioni che portano degli intervistati a non rispondere a
un questionario sono dovute alla natura degli stessi, cioè chi non risponde
appartiene a una chiara e determinata porzione della popolazione.
DESIGN DI UN QUESTIONARIO = per ogni domanda bisogna fare in modo che gli
intervistati siano in grado di: a) comprendere la domanda; b) ricercare le informazioni
rilevanti riguardo a ciò che è richiesto; c) fare un giudizio rispetto a ciò che viene ricordato
alla luce della domanda; d) tradurre questo giudizio in una risposta/opzione di scelta.
Quindi il ricercatore deve:
9
Mantenersi sul semplice, cioè produrre domande che non richiedano un
eccessivo sforzo all’intervistato (c’è il rischio che lasci), pur sempre ricordando di
dover formulare domande chiare.
Usare un lessico familiare, cioè evitare linguaggi accademici e usare sempre il
significato delle parole così come è compreso nel senso comune. Di conseguenza,
riguardo a ogni nozione, non dare nulla per scontato.
Evitare ambiguità, siccome molti termini comuni possono risultare ambigui o non
chiari all’intervistato, dovendo comunque usarli è bene sempre specificare quando
è necessario il significato che indente il ricercatore.
Evitare domande tendenziose, cioè che racchiudono già nella loro formulazione la
risposa che darebbe l’intervistatore, perché potrebbero influenzare l’opinione
dell’intervistato.
Evitare domande doppie, cioè che chiedono due o più cose
contemporaneamente, per ogni questione è necessario fare una singola domanda.
DOMANDE APERTE = L’intervistato risponde con proprie parole che poi l’intervistatore
dovrà codificare in sede di analisi. È bene utilizzarle qualora si richieda al rispondente un
ragionamento complesso, o di parlare di un tema delicato, o si voglia raccogliere delle
citazioni. Tuttavia è importante tenere in considerazione che la codifica non è sempre
facile e anzi potrebbe portare a errori significativi nell’analisi del questionario.
Forward telescoping = l’intervistato tende a ricordare come recenti eventi che in realtà
sono piuttosto lontani nel tempo. È bene limitarsi, se possibile, soltanto a eventi recenti
proprio per evitare questo bias. Allo stesso tempo è importante sempre fornire indicazioni
temporali precise (date) e non generiche (“lo scorso anno”, …).
Implicit Association Test (IAT) = per varie ragioni (vergogna, desiderabilità sociale, auto-
inganno, non consapevolezza) spesso l’intervistato dà risposte errate riguardo ad alcuni
suoi comportamenti. Esistono perciò metodi (IAT) in cui si ottiene la risposta
implicitamente senza arrivare a una domanda diretta che potrebbe portare a conclusioni
errate.
10
Multiple items = l’elaborazione di concetti complessi non avviene mai tramite domande
dirette, ma deriva dalla unione di più quesiti indiretti e minori.
CONCETTO = sono il punto di partenza di una ricerca, possono essere più o meno
astratti. Ci sono concetti semplici (sesso, titolo di studio) che sono facilmente e
direttamente operativizzabili; e invece concetti complessi (coesione sociale, religiosità) che
necessitano di passaggi ulteriori per essere operativizzati, perché sono più generali.
11
NB: per concetti molto generali un singolo indicatore non è in grado di esprimere tutto il
significato del concetto (parte indicante), dunque si fa ricorso a più indicatori cercando di
massimizzare le parti indicanti e minimizzare l’influsso di quelle esterne.
Indicatore semplice = variabili opportunamente costruite che riguardano aspetti
specifici di un singolo oggetto di ricerca.
Indicatore tematico = raggruppamento di indicatori semplici per dimensione o
tema che si riferisce a una singola dimensione esprimendone diversi aspetti.
Indicatore composito (indice) = composizione di indicatori tematici secondo una
logica di aggregazione definita.
La composizione di un indice avviene in senso contrario: si parte dal concetto complessivo
e lo si divide in diversi temi, per ognuno dei quali si selezionano gli indicatori semplici (in
base a esperienze pregresse, disponibilità di fondi e tempo, scopi e presenza di dati già
raccolti) e quindi li si aggrega secondo varie modalità (somma, media, media ponderata,
fino a strumenti più avanzati come tecniche multivariate di riduzione dei dati).
7. ESPERIMENTI
ESPERIMENTO = sono di diversi tipi (ideale, sul campo, controllato, …) ma in ogni caso vi
è la possibilità di manipolare una variabile (trattamento) e osservare e misurare il risultato
che ne consegue. Tendenzialmente un esperimento è caratterizzato dall’assegnazione
casuale completa di gruppi o soggetti, i gruppi sono tra loro indipendenti, e ve ne è quasi
sempre uno di controllo.
QUASI-EXPERIMENTS = quando i gruppi non sono del tutto casuali (spesso per
convenienza, ricerca clinica) e/o non è definito un gruppo di controllo.
12
Within-subject design = le manipolazioni avvengono su uno stesso gruppo, è più
economico ma c’è il rischio di creare rapporti di dipendenza tra una manipolazione e
l’altra, quindi bisogna stare attenti a randomizzare il processo.
- Errori dovuti al soggetto: cioè quelli che dipendono dal comportamento diretto dei
soggetti coinvolti nella ricerca.
a) Effetto Hawthorne, cioè il fatto che il soggetto modifica il suo comportamento
perché si rende conto di essere osservato. Si può evitare con il single-blind, cioè
non si comunica al soggetto lo scopo reale della ricerca e si cerca di tenerlo
all’oscuro di più informazioni possibile.
13
b) Acquiescenza, soggetti poco istruiti tendono a emulare i comportamenti dei
ricercatori (o a dirsi d’accordo con essi) o perché non capiscono o perché non sono
in grado/non se la sentono di contraddire le azioni e le parole dei ricercatori.
c) Desiderabilità sociale, soggetti tendono a rispondere su temi più delicati
evidenziando, anche se non è vero, comportamenti socialmente accettati. Si evita
garantendo anonimato e ponendo domande indirette.
Randomized controller trials (RCT) = si tratta di speciali esperimenti sul campo con
l’obiettivo di testare l’efficacia delle politiche pubbliche. Il successo degli RCT si basa
principalmente su due punti: a) enfasi sulle politiche basate su evidenze empiriche
(pressione WTO, …); b) necessità di trovare fonti esogene per validare le teorie
economiche nel mondo reale.
RETI = attori in reciproca interazione attraverso rapporti specifici che cambiano da rete a
rete. Esistono diversi tipi: tecnologiche, informatiche, biologiche, sociali, … Le reti sono
grafi in cui degli oggetti, definiti nodi, sono collegati tra loro da legami (link).
Rete diretta: nella relazione tra i nodi c’è una direzione (scambi commerciali).
Rete indiretta: non c’è direzione (fratelli).
Degree centrality = è una delle più semplici metriche utilizzate per descrivere una rete.
Fornisce una stima generale sulla struttura del grafo basandosi unicamente sul numero di
connessioni (degree) incidenti in ogni nodo. Più un nodo ha connessioni, più è importante.
NB: Nelle reti dirette si distingue tra indegree, cioè le connessioni rivolte verso il nodo in
analisi; e outdegree cioè quelle in uscita dal nodo in analisi.
Closeness centrality = si basa sul concetto che gli attori preminenti in una rete sociale
sono coloro i quali riescono più facilmente a trasferire informazioni a tutti gli altri (o a
riceverne). Si tratta di nodi intermediari che vantano una connessione agevole (vicinanza)
con molti nodi della rete e/o con nodi altamente influenti in essa (con alta degree
centrality).
Betweenness centrality = misura il grado in cui un nodo è connesso ad altri nodi che non
sono direttamente collegati tra loro. Questo nodo, chiamato bridge o broker, è
fondamentale perché solo in sua presenza due differenti reti sociali sono collegate.
La natura di una connessione può essere studiata in molti altri modi che dipendono dal
tipo di rete che si sta analizzando: a) peso, cioè la frequenza nel comunicare; b) tipologia,
15
cioè che relazione è concretamente (amico, collega, parente, …); c) ranking, cioè entro
una stessa tipologia quanto è stretta la connessione (migliore amico, conoscente, …); d)
struttura, ovvero la posizione topologica di un nodo nella rete (degree centrality, …).
TIPOLOGIA BASE DELLE RETI = le reti sono classificabili secondo alcune loro proprietà
fondamentali:
Reti random: rete in cui i collegamenti sono randomici (di solito le reti di amicizia
sono tali), servono come termine di paragone nell’analisi delle reti. La distribuzione
di queste reti è tipicamente gaussiana.
Reti scale-free: in cui la distribuzione della degree centrality segue una definita
power law, cioè tendenzialmente vi sono pochi nodi con moltissimi link (hub) e
moltissimi nodi con pochi link. La distribuzione tendenzialmente dunque mostra
un’inversa proporzionalità tra numero di nodi e numero di link.
Reti small-world: si basano sul concetto di Six degrees of separation (Milgram),
per cui in una rete sociale da un individuo (nodo) A a un individuo B, entrambi scelti
casualmente, vi sono al massimo sei passaggi, cioè altri quattro nodi. Dimostra
dunque una concezione delle reti sociali di certo non regolare, ma nemmeno
randomica, ovvero con un discreto grado di organizzazione.
Two-mode networks = seppur la maggior parte delle reti siano reti unimodali, in cui cioè il
tipo di nodi è sempre costante e uguale, vi sono particolari reti bimodali dove sono
contemporaneamente presenti diverse tipologie di nodi. Ad esempio nelle reti di
affiliazione sono presi in considerazione individui e oggetti, e si conclude che due
persone che hanno un costante rapporto con gli stessi oggetti possono avere un legame
personale (stessi gusti, idee, estrazione sociale, …).
CAPITALE SOCIALE = una rete sociale può essere più o meno intensa rispetto alla
natura dei legami che la caratterizzano. Il capitale sociale è la risorsa che si produce a
partire dalla configurazione delle relazioni degli individui in una determinata rete, e
contemporaneamente rappresenta anche il potenziale di interazione cooperativa che
un’organizzazione mette a disposizione in una certa rete. Gli individui in una rete sociale
tendono a potenziare tanto il bonding, cioè a tessere legami interni alla rete, quanto il
bridging, cioè a stabilire rapporti con altre reti.
16
10. RICERCA E DIGITALE
BIG DATA = dati non sono raccolti su un campione, ma si riferiscono a intere popolazioni:
normalmente il ricercatore si occupa di usare metodi statistici sofisticati per poter
generalizzare da piccoli campioni a grandi popolazioni, qui invece deve trovare strumenti
in grado di semplificare dati vastissimi su intere popolazioni.
NB: possibilità di ottenere un flusso costante di dati circa un individuo, normalmente
ricerca permette solo indagini cross-sectional, cioè limitate nel tempo.
Ricerca attraverso Internet = è una ricerca che usa Internet come piattaforma per
studiare fenomeni che si pongono indipendentemente dal Web, all’esterno di esso. Ma si
pongono problemi metodologici: spesso popolazione online e popolazione offline
differiscono, quindi è importante determinare dove si vuole operare in base allo scopo
della nostra ricerca.
VANTAGGI SVANTAGGI
La condivisione online di un questionario Il campione online tende a non essere
permette di raggiungere molte più persone rappresentativo della popolazione reale
La raccolta dei dati online è molto più Le digital skill dei rispondenti tendono a
rapida interagire sulle risposte che danno
È più facile integrare metodi qualitativi e La qualità delle risposte non è sempre
metodi quantitativi assicurata
Procedura di produzione, condivisione e C’è un alto rischio di duplicazione della
feedback del questionario è rapida e a partecipazione al sondaggio (si può
basso costo, anche con campioni di grandi rispondere con la mail, se uno ha più mail
dimensioni può farlo più volte)
Più facile implementare strategie di routing
( = variare contenuti in base a età,
provenienza geografica, …)
È molto facile garantire l’anonimato dei
rispondenti
17
a) Isomorfismo strutturale: è necessaria coerenza tra le reti sociali di individuo
online e quelle nella “vita reale” (le amicizie di Facebook rispecchiano le mie reali
amicizie?)
b) Relazione con costrutti noti e validati: la validità del dato web deve essere
valutata in correlazione con un’altra misura già comunemente accettata del
costrutto in analisi (impact factor).
c) Influenza sul comportamento offline: la posizione e il comportamento di un attore
su una piattaforma web deve avere conseguenza sulle sue azioni nella “vita reale”.
PRIVACY = spesso i metodi di raccolta dati online impediscono ai soggetti di sapere che i
loro comportamenti vengono osservati e registrati. Da un lato c’è la necessità per la
ricerca di conservare i dati grezzi, dall’altro quella di garantire la privacy degli utenti; la
soluzione è applicare l’anonimato mantenendo i dati grezzi e associandoli non agli ID reali
degli utenti, ma a dei codici numerici identificativi casuali.
General Data Protection Regulation (GDPR) = una traccia completa del comportamento
online di un individuo può essere utilizzata per discriminarlo. GDPR obbliga piattaforme a
chiedere consenso a utenti ogni volta che i dati vengono usati, ceduti a qualcuno per scopi
commerciali o di ricerca (resta che è praticamente impossibile avere un consenso esplicito
e consapevole dell’utente).
Search as Research = studio delle query di un motore di ricerca per capire in che modo
le persone cercano informazioni (parole chiave, …). Si cerca di individuare tendenze su
quali informazioni sono più comunemente ricercate online, o su come variano le ricerche
sui browser in contesti diversi.
FOCUS GROUP ONLINE = utilizzano software di chat specializzati per portare le persone
su un sito web designato per condurre discussioni. Si basano su un paradigma di fondo
equivalente a quello dei focus group classici, con la differenza che l’interazione è
depotenziata dall’assenza di un rapporto faccia-a-faccia tra gli individui. Interazione
sincrona: numero di partecipanti è uguale a quello dei corrispettivi offline (8-10), si usano
webcam e altri strumenti di registrazione audio/video.
NB: è necessario compensare la mancanza di un contatto diretto (che stimola la
discussione) con qualche esercizio introduttivo per creare un ambiente più familiare.
18
BULLETTIN BOARD GROUP = discussioni online basate su un’interazione asincrona.
La discussione dura nel tempo e gli individui possono intervenire quando più gli si addice,
perciò hanno più tempo per pensare e riflettere su ciò che dicono. Il numero di persone
che interagisce in questo contesto può essere ben più elevato di un normale focus group.
E-mail Group = si tratta del primo strumento di ricerca qualitativa online, basato soltanto
sulle comunicazioni via e-mail tra gli utenti. In origine erano principalmente usati da
aziende e privati, ma oggi il loro impiego è piuttosto raro.
SINCRONA ASINCRONA
Piattaforma Chatroom, conferencing site E-mail, discussion board
Restrizioni temporali Variabili (ma è real-time) Nessuna (ma non è real-
time)
Risposta Immediata e spontanea Non immediata, ma c’è
tempo di riflessione
Svantaggi Non è facile da Meno spontaneità, ed è
implementare semplice eliminare i dati
SOCIAL MEDIA = il contenuto prodotto dagli utenti sui social media è utilizzato per
produrre analisi, servono però elevate competenze tecniche per raccogliere dati attraverso
la API di queste piattaforme. Specifici software (CAQDAS) come Nvivo o Atlas.ti
dispongono di specifici plug-in che permettono di raccogliere dati da social-media.
SOCIAL MEDIA MINING = processo di analisi detto anche knoweledge discovery che si
basa sull’estrazione di pattern utili a partire da dati grezzi. Si tratta di prendere un
sottoinsieme di dati (dati target) da un database più complesso ma grezzo, elaborarli per
renderli processabili in termini di analisi algoritmica.
19
Esistono tre principali categorie di dati:
Dati sugli utenti.
Dati sui contenuti.
Metadata: cioè dati che riguardano altri dati (dove e quando si è pubblicato un post,
…).
A partire da questi dati si possono ricavare due categorie di relazioni:
Relazioni esplicite: cioè quelle chiare tra due oggetti, per esempio tra un utente e
un altro utente, o tra un utente e un contenuto, …
Relazioni implicite: che si derivano a partire da altre relazioni esplicite. Se per
esempio disponiamo di due utenti che hanno costanti relazioni esplicite con gli
stessi contenuti, possiamo ipotizzare l’esistenza di una relazione implicita tra i due.
SENTIMENT ANALYSIS = è utile tanto dal punto di vista commerciale, sociale e politico.
Inoltre permette di prendere in considerazioni opinioni su determinati eventi/oggetti su
scala globale. Tuttavia comporta delle sfide metodologiche:
a) non è facile identificare la giusta serie di key word che si riferisce alla descrizione
di un determinato sentimento.
20
b) il sentiment di un testo è spesso dipendente dal contesto in cui questo è stato
espresso, quindi bisogna stare attenti a non confondere il significato di un
linguaggio implicito.
c) l’assenza di un codice comune nelle espressioni degli utenti sulle piattaforme
web rende generalmente difficile la ricerca.
21
MISURE DI VARIABILITÀ = la forma della distribuzione ci indica qualcosa della
popolazione che stiamo studiando.
Indice di omogeneità = una variabile nominale ha una distribuzione
massimamente omogenea quando tutti i suoi casi presentano la stessa modalità,
massimamente eterogenea quando tutti i suoi casi sono ugualmente distribuiti tra le
sue varie modalità.
Deviazione standard = la meda aritmetica degli scarti dalla media (in valore
assoluto) di una variabile è una prima misura di variabilità. Maggiore è la deviazione
standard più la distribuzione dei dati è dispersa rispetto alla media.
∑(𝑥𝑖 − 𝑥)2
𝑺= √
𝑁
NB: una deviazione standard eccessivamente alta può rilevare anche un problema
“tecnico” nella formulazione di una domanda.
ANALISI BIVARIATA = studia le relazioni tra variabili. Cerca di capire se esiste una
relazione tra variabili, cioè una relazione concomitante tra diversi valori (covariazione),
intesa in termini scientifico-probabilistici, cioè se questa relazione non è da attribuirsi al
caso e invece è causale. Variabile indipendente (esplicativa): spiega o influenza le
variazioni di una variabile dipendente. Si parla di dipendenza logica quando questa è
dettata da un rapporto di causa-effetto; ugualmente al contrario si parla di indipendenza
logica quando si ha sufficiente certezza per escludere che vi sia un chiaro rapporto
causale tra le due variabili.
Analisi della dipendenza: studia come le modalità di una variabile dipendano da
un’altra variabile. Il legame tra due variabili è unidirezionale o asimmetrico.
Analisi dell’interdipendenza: studia come le modalità di una variabile varino al
variare di un’altra variabile. Tale legame è bidirezionale o simmetrico.
22
Tabelle di contingenza = tabelle adottate per spiegare la relazione tra due variabili. Si
usa la % di colonna per la variabile dipendente, quella di riga per la variabile indipendente,
la colonna e la riga dei totali si chiama frequenza marginale.
y1 y2 y3 totale
x1 n1-1 n1-2 n1-3 n1-0
x2 n2-1 n2-2 n2-3 n2-0
x3 n3-1 n3-2 n3-3 n3-0
totale n0-1 n0-2 n0-3 n
𝟐
(𝑑𝑎𝑡𝑜 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑡𝑜 − 𝑑𝑎𝑡𝑜 𝑎𝑡𝑡𝑒𝑠𝑜)2
𝝌 =
𝑑𝑎𝑡𝑜 𝑎𝑡𝑡𝑒𝑠𝑜
Per ogni valore del Chi-quadro otteniamo la probabilità che esso derivi da una popolazione
con indipendenza. Per convenzione respingiamo l’ipotesi di indipendenza quando p≤0,05,
cioè se il valore del Chi-quadro è così grande da avere solo il 5% o meno di probabilità di
essere dovuto al caso.
NB: la significatività statistica rilevata dal Chi-quadro non è un sinonimo né della forza
della relazione in analisi, né del fatto che essa abbia realmente un significato (potrebbe
ancora essere spuria, per esempio).
NB: il test del Chi-quadro è appropriato per variabili nominali o ordinali.
𝐸1 − 𝐸2
𝑷𝑹𝑬 =
𝐸1
23
Cioè individuano la differenza degli errori di previsione che si farebbero non conoscendo la
variabile indipendente, rispetto a quelli che si farebbero avendo a mente la variabile
indipendente.
- PRE = 0: non c’è associazione tra le due variabili, quindi conoscere la variabile
indipendente non ci aiuterebbe a conoscere quella dipendente.
- PRE = ± 1: c’è associazione piena tra le due variabili, quindi conoscendo la
variabile indipendente possiamo prevedere esattamente quella dipendente.
Phi (valido solo per tab 2x2) = misura la forza di un’associazione variando da 0 a +1, non
rivela il modello dell’associazione, ed è da usarsi solo per variabili nominali.
𝜒2
𝝋=√
𝑁
NB: un valore di Phi = 0,10 indica che sapendo che un individuo, per esempio, è maschio
faccio il 10% di errore in meno nel dire se farà la raccolta differenziata rispetto a sparare a
caso.
𝜒2
𝑽= √
(𝑁)(𝑚𝑖𝑛. 𝑜𝑓 𝑟 − 1, 𝑐 − 1)
NB: si usa per sole variabili nominali, o per variabili nominali che interagiscono con
variabili ordinali.
Lambda = Si basa sulle stime calcolate per ogni caso presente nel campione (ha un livello
di computazione più complicato). Coglie la simmetricità (ma non è misura simmetrica!) del
rapporto: il valore di Lambda cambia se inverto variabile dipendente o indipendente.
𝐸1 − 𝐸2
𝝀=
𝐸1
GAMMA = Può essere ugualmente usato con variabili nominali e ordinali, e soprattutto è
una misura simmetrica, cioè coglie la concordanza o la discordanza dell’associazione
(valori variano da -1 a +1). Si basa sul rapporto tra coppie discordanti e coppie
concordanti, analizzando dunque la direzione della relazione tra due variabili. Se
prevalgono le coppie con valori discordanti l’associazione è positiva (γ +1), viceversa
24
l’associazione è negativa (γ +1), un valore di γ = 0 ovviamente denota l’assenza di
associazione.
𝑁𝑠 − 𝑁𝑑
𝜸=
𝑁𝑠 + 𝑁𝑑
Diagramma a dispersione = mostra la relazione tra due variabili misurate sullo stesso
individuo. Ogni individuo è rappresentato da un punto nel diagramma a dispersione, la
variabile indipendente è posta sull’asse x, quella dipendente sull’asse y.
Associazione POSITIVA = valori superiori alla media di una variabile sono associati
a valori superiori alla media della variabile corrispondente. In altre parole,
all’aumentare dei valori della variabile predittiva (x), aumentano anche i valori della
variabile di risposta (y).
Associazione NEGATIVA = valori superiori alla media di una variabile sono
associati a valori inferiori alla media della variabile corrispondente. In altre parole,
all’aumentare dei valori della variabile predittiva (x), diminuiscono i valori della
variabile di risposta (y).
NB: un coefficiente di relazione lineare che rileva una anche forte correlazione negativa o
positiva tra due variabili non implica in alcun modo una rapporto di causalità tra le stesse.
In altre parole, correlation is not causation.
26