Sei sulla pagina 1di 26

RIASSUNTONE

METODOLOGIA E TECNICHE DELLA RICERCA SOCIALE

1. INTRODUZIONE e PRINCIPALI APPROCCI

Dibattito nelle scienze sociali:


 ORTODOSSIA SCIENTIFICA = il mondo è fatto di oggetti e proprietà,
un’affermazione può essere vera o falsa, sempre senza la certezza assoluta (tutto è
fallibile). Conoscenza basata sull’esperienza sensoriale, siamo nani sulle spalle dei
giganti.
 COSTRUTTIVISTI SOCIALI = realtà è socialmente costruita, cioè prodotto di fattori
sociali. Scienza è forma di costruzione come tante altre.
 PRAGMATICI = realtà è socialmente costruita, tuttavia per analizzarla è necessario
ricorrere alla scienza.

Lo scopo della ricerca sociale non è solo comprendere la realtà, ma cambiarla = ricerca
attiva, cioè volta a degli scopi (politiche pubbliche, …).

RICERCA EMPIRICA = muove da una teoria (generale) al particolare attraverso delle


domande di ricerca. Fa uso di concetti e indicatori, operazioni logiche e matematiche.
Spesso le operazioni sono svolte su un campione e si fa poi inferenza su una popolazione
più vasta.

Si fa ricerca a partire da una domanda di ricerca, il contenuto della domanda non deve
essere: metafisico, non falsificabile o non rilevante dal punto di vista delle scienze sociali.
Si tratta di domande inquisitorie che si aspettano una risposta (cioè devono essere
domande rispondibili). Deve esserci un risultato della domanda di ricerca,
indipendentemente dal fatto che sia come ce lo aspettavamo o meno.

PROCESSO DI RICERCA = 1. Identificazione del problema; 2. Definizione del problema;


3. Divisione in sotto-problemi; 4. Formulazione di ipotesi e della domanda di ricerca; 5.
Raccolta dei dati; 6. Analisi dei dati e conclusioni. Da una domanda di ricerca circa un
determinato argomento si deve scendere nel particolare determinando i termini e il design
della ricerca.

OGGETTO DI RICERCA = oltre a interessare il ricercatore, deve essere significativo e


ben delineato (cioè si deve essere in grado di definirlo correttamente). Il ricercatore deve
avere accesso alle informazioni richieste (dati) per lo studio dell’oggetto in questione, deve
avere la conoscenza necessaria per analizzarlo, descriverlo e trarne conclusioni.

LETTERATURA SCIENTIFICA = fornisce il corretto background ad ogni ricerca. Si


compone di due parti: a) la letteratura concettuale, cioè l’insieme delle opinioni, idee,
teorie ed esperienze circa l’oggetto in questione prodotto sottoforma di libri, articoli o
documenti; b) la letteratura di ricerca, cioè l’insieme dei report e dei documenti che
1
descrivono le ricerche già svolte attorno a quell’oggetto. Prima di agire serve avere una
visione d’insieme della letteratura scientifica, per poter cogliere da più punti di vista gli
aspetti fondamentali dell’oggetto di ricerca.

FONTI = si dividono in: a) Fonti primarie: quelle da cui il ricercatore può ottenere
informazioni circa il fenomeno in analisi tramite l’osservazione o la misurazione diretta,
senza cioè alcun intermediario. Dell’affidabilità e dell’autenticità di tali fonti il ricercatore è
responsabile in prima persona. b) Fonti secondarie: quelle non originali, cioè che il
ricercatore prende da altre opere già pubblicate (libri, articoli, report, documenti, …), sono
convenienti perché più semplici da raccogliere, ma più rischiose perché in origine trattate
da altri ricercatori.

RICERCA SOCIALE = si occupa di esplorazione e ricerca nel mondo sociale. Non è fine a
se stessa perché è usata per raggiungere determinati scopi pratici.

Il senso comune si fonda sulle apparenze e dà per scontata la realtà, il pensiero scientifico
invece è basato sulla logica e opera per spiegare la realtà, le relazioni che vi intercorrono,
etc. etc.

METODO SCIENTIFICO = Consiste tanto nella raccolta di evidenza empirica e misurabile


tramite osservazione ed esperimento, quanto nella formulazione di ipotesi e teorie da
sottoporre al vaglio dell’analisi empirica.

EPISTEMOLOGIA = si occupa dei fondamenti del pensiero scientifico, indagando i


procedimenti effettivi e il linguaggio della scienza, cercando di sostenerne (o contestarne)
la validità effettiva:
 Fondazionalismo = la base per la maggior parte degli asserti conoscitivi è
rappresentata da una serie di asserti fondativi da cui derivano tutte le altre
conoscenze (mattone su mattone). Questa prospettiva vuole unificare tra loro le
varie “scienze”.

Approccio NEOPOSITIVISTA (Carnap, Hempel, …) = La conoscenza è basata


sull’esperienza. La struttura della scienza è assiomatica e segue le leggi della
logica:
1. SCHEMA IPOTETICO-DEDUTTIVO
Se X allora Y (X = spiegazione; Y = fatto): si formula un’ipotesi a partire da un
evento che richiede spiegazioni e se ne accerta la verità cercando prove empiriche.
Le previsioni confermate sono il mezzo per raccogliere prove per la verità di ipotesi
o leggi.
2. SCHEMA NORMOLOGICO-DEDUTTIVO
Se X allora Y (X = fatto; Y = conseguenza): la spiegazione di un evento è la sua
descrizione a partire da altre teorie o eventi noti.

2
Approccio FALSIFICAZIONISTA (Popper) = Se un’ipotesi tratta da una teoria è
falsa, allora tutta la teoria è falsa (cigno bianco, cigno nero). Se esiste una sola
evidenza empirica che falsifica le teoria, allora tutta la teoria è falsa.

 Coerentismo = la validità degli asserti conoscitivi non è dovuta alla presenza di


fondamenti comuni esterni, ma di relazioni coerenti tra l’uno e l’altro asserto.

Scienza come EVOLUZIONE DI PARADIGMI (Kuhn) = un paradigma è un quadro


di riferimento usato per definire i fenomeni che sono oggetto di studio per una
disciplina. Diversi paradigmi sono in contrasto tra loro per diventare paradigma
dominante nella scienza in un determinato periodo storico. Lo scopo dello
scienziato è adattare le teorie alla natura (teoria = schema del comportamento della
natura).

ANARCHISMO METODOLOGICO (Feyerabend) = Rifiuta ogni tentativo di


specificare una metodologia della scienza. Ogni teoria è falsificabile, quindi bisogna
conoscere più teorie per essere sicuri di conoscere tutti i dati che potrebbero
falsificare una singola teoria. Il progresso scientifico è determinato da chi infrange le
regole del pensiero corrente nella sua epoca (controinduttivismo).

Scienza come SVILUPPO DI PROGRAMMI DI RICERCA (Lakatos) = un


programma di ricerca è un nucleo di assunti fondamentali condiviso da tutti i
ricercatori e circondato da una serie di ipotesi ausiliarie falsificabili. Un programma
può essere più o meno progressivo e convivere con altri. Il progresso è empirico
quando emergono nuovi dati a supporto di una teoria già esistente; tecnico quando
invece una teoria riesce ad espandersi a nuovi domini.

 Approccio della complessità = La scienza può essere osservata attraverso il


concetto di complessità (non è una soluzione).

PENSIERO COMPLESSO (Morin) = Fonda su tre principi: a) Il principio dialogico,


che afferma l’unidualità dell’essere (complementarità tra dimensione biologica e
dimensione del pensiero). b) La casualità ricorsiva, cioè effetti e prodotti sono
contemporaneamente causa e produttori di uno stesso processo, gli stati finali sono
necessari alla generazione di quelli iniziali. c) L’ologrammaticità, l’organizzazione
generale del tutto esige l’inscrizione del tutto in ciascuna delle sue parti: ogni parte
non è un frammento del tutto, ma un micro-tutto.

Perché il processo determinato per la scoperta della conoscenza determina la


stessa conoscenza che può svilupparsi da quel processo?

a) RAZIONALISMO = la conoscenza nasce dal puro potere della mente umana di


conoscere la verità.

3
b) EMPIRISMO (Locke, Hume) = la conoscenza nasce dalla percezione del mondo che
abbiamo.

c) COSTRUZIONISMO = le persone creano conoscenza per un bisogno pragmatico, la


conoscenza è ciò che l’individuo ha fatto del mondo.

d) COSTRUZIONISMO SOCIALE = la conoscenza è prodotto dell’interazione simbolica


all’interno dei gruppi sociali. La realtà è costruita socialmente.

2. TEORIE, CONCETTI E METODI DI RICERCA

TEORIA = Dichiarazione generale che postula relazioni tra concetti. Tali relazioni possono
essere:
 Descrittive = mappatura del fenomeno.
 Correlazionali = osservazioni tra insiemi differenti.
 Causali = si introduce l’approccio sperimentale.
Nonostante una teoria debba essere generale, molto spesso la si può testare solo nel
particolare, l’attenta selezione di questo sottoinsieme (= campione) è fondamentale.

Un concetto è un’astrazione (capitale sociale, ideologia, …), che ai fini della ricerca deve
essere tradotto in qualcosa di più concreto. L’operazionalizzazione è il processo
mediante il quale si specificano operazioni, procedure e strumenti per effettuare
osservazioni reali.

RICERCA QUALITATIVA = ha come obiettivo la descrizione completa di un fenomeno. La


ricerca si caratterizza ed evolve durante il suo stesso corso, all’inizio il ricercatore non ha
uno schema definitivo, ma lo modifica in base a come si svolge il percorso. È molto
presente il fattore soggettivo, sia nell’esposizione di chi è intervistato, sia
nell’interpretazione del ricercatore.
 Limiti = non è generalizzabile (no campione statistico); richiede molto tempo; non
prevede grande rigore metodologico o trasparenza nella raccolta e nell’analisi dei
dati; tende a espandere le complessità di un problema o di un oggetto di ricerca,
piuttosto che condensarle e ridurle. I suoi risultati sono piuttosto deboli in campo
scientifico.

RICERCA QUANTITATIVA = ha come obiettivo la creazione di modelli statistici per


spiegare il fenomeno/oggetto che viene osservato. Il design della ricerca deve essere nella
sua completezza ben chiaro e definito prima che la stessa inizi. Il percorso è del tutto
oggettivo, non c’è (o è minimo) rapporto tra ricercatore e soggetto intervistato.
 Limiti = overconfidence nei modelli matematici, cioè assunto (pericoloso) che la
realtà sia uguale alla nostra percezione della stessa. Esclusione di ogni ambiguità,
che non è sempre un punto positivo, perché mi costringe ogni volta a scegliere un

4
solo corso d’azione, quanto invece può essere più utile prendere in considerazione
un maggior numero di punti di vista contemporaneamente.

Effetto Hawthorne = variazioni di un fenomeno o di un comportamento che si verificano


per effetto della presenza di osservatori, ma non perdurano nel tempo in loro assenza (=
influenza del ricercatore).

QUALITATIVO QUANTITATIVO
Obiettivo Comprendere il mondo dei Misurare atteggiamenti, opinioni e
partecipanti (sotto la comportamenti
superficie)
Selezione dei Di scopo (g. naturali) Campionamento statistico
partecipanti (g. tassonomici)
Domande di Evolvono con la ricerca Formulate prima della
ricerca presentazione dei dati
Tipo di Domande aperte (stimoli) Domande chiuse (standard)
elicitazione
Dati Testuali Numerici
Analisi Interpretativa Statistica
Presentazione dei Descrizione testuale Tabelle, grafici, modelli statistici
risultati

MIXED METHODS = modello anglosassone, terza via nella ricerca sociale. Non è mera
unione, ma c’è relazione più varia e complessa tra i due metodi dominanti, l’uno può
essere più funzionale dell’altro in un determinato momento di ricerca, e viceversa.

3. METODI QUALITATIVI

INTERVISTA = ci sono diversi tipi:


 Strutturata = cioè il questionario del sondaggio.
 Semi-strutturata = metodo per capire se ci sono altri punti di vista di un fenomeno
differenti da quelli dell’intervistatore.
 Individuale (in profondità) = si chiede a un soggetto di parlare esaustivamente di
un solo argomento.
 Narrativa = senza domande, il soggetto è libero di parlare.
 Episodica = che si riferisce a determinati momenti.
 Elite = cioè i soggetti intervistati appartengono a dei gruppi particolarmente esposti
(politici, …)
 Di gruppo = focus group.
 Non strutturata = etnografia

5
La forma più completa di raccolta qualitativa di dati sociali sarebbe l’osservazione dei
soggetti, ma questa – presupponendo una certa estraneità dell’intervistatore – comporta
una serie di problemi pratici per cui si finisce sempre a preferire l’intervista.

GRUPPO NATURALE = la selezione dei casi da intervistare nella ricerca qualitativa non
deve per forza sottostare a rigide norme statistiche (ma comunque deve sempre essere
giustificata). Un gruppo naturale è composto da diversi individui rappresentanti le diverse
correnti di pensiero – o i diversi punti di vista – che interessano al ricercatore.
TOPIC GUIDE = rappresenta lo scheletro (canovaccio) dell’intervista, creando una
struttura facile e comoda per la conversazione e fungendo in secondo luogo utile anche
come schema iniziale per l’analisi dei dati. Non è rigida, e anzi può essere modificata nel
corso della ricerca: il ricercatore può cambiare le domande che fa. Non porre mai
direttamente la domanda di ricerca.

Un solo ricercatore tendenzialmente non riesce a occuparsi di più di 15-20 interviste. Ad


ogni modo, si capisce che è il momento di smettere quando si arriva alla saturazione del
significato (cominciano a uscire dati che già possediamo).

FOCUS GROUP = interviste di gruppo (5-7 persone più un moderatore). Possono essere
utili per vari scopi: conoscere l’effetto di campagne politiche o di marketing; testare un
questionario che sarà usato per ricerca quantitativa o arricchire i dati di una ricerca già
svolta; … Mentre le interviste agiscono sul piano individuale, i focus group vogliono
conoscere le esperienze sociali, il meccanismo di creazione di opinioni e simulare una
sfera pubblica ideale. Solitamente una ricerca fatta tramite focus group fa uso di un
numero di gruppi tra 4 e 6.

CODIFICA dei DATI QUALITATIVI


1. CODIFICA TEORICA = si basa sulla teoria di partenza.
 Codifica aperta (open coding): organizza i dati raccolti sottoforma di concetti,
classificando le espressioni in base al loro significato (in poche parole).
 Codifica assiale (axial coding): si riassumono le espressioni precedentemente
codificate entro un numero ridotto di categorie.
 Codifica selettiva (selective coding): si creano macro-categorie che raggruppano le
varie categorie precedentemente formate nei singoli testi, e che in questo caso
sono valide per tutti i testi in analisi.
2. CODIFICA TEMATICA = si individuano dei temi a partire dalla domanda di ricerca e li si
usano per categorizzare in gruppi le espressioni rinvenute nei testi.

CREDIBILITÀ (validità interna) = corrispondenza tra le opinioni degli intervistati e le


interpretazioni che gli intervistatori hanno delle stesse (spiegazione è adatta alla
descrizione?).

TRASPARENZA (affidabilità) = ogni ricercatore è responsabile di assicurare che il


processo di ricerca sia tracciabile, logico e chiaramente documentato (auditing).

6
CONFERMABILITÀ (oggettività o neutralità) = è necessario dimostrare che le
interpretazioni conclusive dei risultati della ricerca sono chiaramente derivate dai dati
raccolti nel corso della stessa.

Triangolazione: metodo per stabilire la validità di una ricerca: a) uso di diverse fonti di
dati; b) coinvolgimento di più di un ricercatore; c) interpretazione degli stessi dati da più
punti di vista (partendo da diverse teorie); d) utilizzo sia di metodi quantitativi che
qualitativi; e) ricerca svolta in ambienti e tempi diversi.

4. METODI QUANTITATIVI: VARIABILI E CAMPIONAMENTI

DESCRIZIONE = definizione, classificazione, catalogazione e classificazione di eventi e


relazioni per descrivere processi e comportamenti sociali. È base della predizione.

PREDIZIONE = se le relazioni tra variabili sono ben descritte, allora le si può elevare al
generale riuscendo a prevedere processi e comportamenti sociali.

SPIEGAZIONE = si comprende e si spiega un fenomeno quando se ne sanno le cause.


Affinché si ottenga una corretta spiegazione causale è necessario che si verifichino
contemporaneamente le condizioni: a) covariazione; b) relazione con l’ordine temporale
(causa –> effetto); c) eliminazione di cause alternative plausibili (relazione non è spuria).

STATISTICA = raccolta di strumenti usati per convertire dati grezzi in informazioni utili per
aiutare i decisori nelle loro opere.
 Stat. Descrittiva = riepilogo e descrizione dei dati (relativamente al campione o alla
popolazione). Comprende la rappresentazione grafica dei dati e una serie di
operazioni basilari, come il calcolo della media o l’analisi (ed eventuale
eliminazione) dei dati estremi.
 Stat. Inferenziale = uso dei dati del campione per fare inferenza su una popolazione
più vasta.

POPOLAZIONE = intera collezione di eventi a cui siamo interessati.

CAMPIONE = gruppo ristretto di eventi provenienti da una singola popolazione utilizzato


per analisi statistica per ragioni di praticità. Le stime sul comportamento di una
popolazione a partire dall’analisi di un campione della stessa sono tanto attendibile quanto
più la scelta degli eventi inclusi nel campione è randomica (cioè quando ogni campione di
una popolazione ha uguale probabilità di essere formato rispetto a tutti gli altri possibili).

Validità esterna = è presente quando un campione riflette le caratteristiche dell’intera


popolazione a cui si riferisce.

7
VARIABILE = proprietà di un oggetto/evento che può assumere valori diversi. Può essere
indipendente (causa, x), ovvero una variabile input di cui il ricercatore ha controllo (non
sempre); o dipendente (effetto, y), cioè una variabile che dipende dalla presenza di una o
più altre variabili indipendenti.
Esistono diversi tipi di variabili:
 Var. Categoriche: possono essere nominali, quando assumono due o più categorie
ma senza un ordine intrinseco (religione, tipo di macchina, …); o dicotomiche
(binarie), che assumono cioè soltanto due modalità delle quali l’una esclude l’altra
(sì/no). Possono infine essere ordinali: assumono due o più categorie che hanno un
ordine intrinseco, cioè che sono ordinabili, per quanto la distanza tra un attributo e
l’altro non abbia alcun significato se non quello di differenziazione.
 Var. Continue: possono esprimere un intervallo, quando cioè si muovono lungo un
continuum numerico e la differenza tra un unità e l’altra è uguale, senza però che
sia reale una relazione di rapporto (temperatura: la differenza tra 20° e 30°C è
uguale a quella tra 30° e 40°, ma non possiamo dire che con 40° “fa caldo il doppio”
che con 20°). O possono esprimere anche un rapporto: dove è cioè possibile
rapportare le misure e dove lo 0 nella scala indica l’assenza di variabile.

CAMPIONAMENTO = si può fare in diversi modi


 Simple Random Sampling (SRS) = ogni coppia di gruppi di una popolazione ha la
stessa probabilità di essere estratta. Ovvero, sono estratte n unità di una
popolazione N tale che ogni campione di dimensione n abbia la stessa probabilità di
essere estratto.
 Campionamento casuale stratificato = se la popolazione presenta già una
divisione in gruppi (sesso, provenienza, …) che può essere utile alla ricerca, è bene
rispettarla. Dunque si estraggono tanti sotto-campioni per ogni gruppo tramite SRS,
rispettando o meno la proporzione reciproca dei gruppi.
 Campionamento a grappoli (cluster) = si usa come campione un gruppo già
identificabile in cui i membri non sono necessariamente omogenei (P = utenti dei
forum su Internet; C = utenti del forum x).
 Campionamento sistematico = si seleziona ogni elemento k da un flusso
sequenziale di possibili rispondenti (rischio di bias nella selezione).

CAMPIONI NON PROBABILISTICI = cioè non corretti dal punto di vista statistico (non è
assicurata equiprobabilità di scelta)
 Campionamento a quote = il ricercatore specifica soltanto le quote di rispondenti
con determinate caratteristiche, il campionamento vero e proprio è lasciato ai vari
intervistatori, con alto rischio di bias.
 Snowball sampling = si usa quando è impossibile (per alti costi, pericolo, o altre
ragioni) compiere in prima persona un campionamento probabilistico riguardo a una
determinata popolazione. Di conseguenza si individuano solo dei primi rispondenti
che si occuperanno personalmente di condividere il questionario con i rispettivi
contatti.

8
BIAS NEL CAMPIONAMENTO = errori sistematici che pregiudicano la ricerca
 Bias della copertura = il frame del campionamento manca di una porzione
considerevole della popolazione di riferimento (serve sempre avere una lista
completa della popolazione, numeri di telefono fisso è obsoleta).
 Bias di selezione = se l’accesso al sondaggio è subordinato a determinate
attrezzature o conoscenze non condivise da tutte la popolazione (per esempio un
sondaggio online presuppone che si vada su Internet).
 Bias delle dimensioni = quando non c’è equiprobabilità di scelta a causa dello
stesso metodo utilizzato. Se faccio un sondaggio riguardo a un sito online
intervistato chi lo visita selezionerò con più probabilità gli utenti più affezionati.
 Bias del rifiuto = quando le ragioni che portano degli intervistati a non rispondere a
un questionario sono dovute alla natura degli stessi, cioè chi non risponde
appartiene a una chiara e determinata porzione della popolazione.

5. TEORIA E DESIGN DEI QUESTIONARI

SONDAGGIO = raccoglie dati da campioni ragionevolmente grandi attraverso domande


standard, e li analizza tramite metodi quantitativi con l’obiettivo di generalizzare dal
campione alla popolazione complessiva di riferimento.
 Faccia a faccia: è utile per i questionari più lunghi e complessi, assicura maggiori
tassi di risposta, ma è ovviamente più costoso e tendenzialmente presuppone una
minore accuratezza statistica (difficile riuscire a fare SRS). CAPI = presenza fisica
dell’intervistatore, ma l’intervistato compila il sondaggio su un computer.
 Telefono (CATI) = più economico e veloce, inoltre permette anche un
campionamento statisticamente più attendibile e un monitoraggio centrale delle
operazioni. Ha però bassi tassi di risposta, non si adatta a sondaggi estremamente
lunghi (max. 20 min) e limita le possibilità dello stesso, impedendo interazione
completa tra intervistatore e intervistato.
 Posta = è il più accurato dal punto di vista del campionamento ed è anche molto
economico. Tuttavia non si assicura chi risponda effettivamente al questionario, ha
bassi tassi di risposta e non permette alcuna interazione con l’intervistatore (non si
possono spiegare le domande).
 Online = è veloce è molto facile ed economico da implementare, però è difficile da
associare a un campionamento corretto, ha bassi tassi di risposta (spam) e
presuppone una compilazione distratta da parte dell’intervistato.

DESIGN DI UN QUESTIONARIO = per ogni domanda bisogna fare in modo che gli
intervistati siano in grado di: a) comprendere la domanda; b) ricercare le informazioni
rilevanti riguardo a ciò che è richiesto; c) fare un giudizio rispetto a ciò che viene ricordato
alla luce della domanda; d) tradurre questo giudizio in una risposta/opzione di scelta.
Quindi il ricercatore deve:

9
 Mantenersi sul semplice, cioè produrre domande che non richiedano un
eccessivo sforzo all’intervistato (c’è il rischio che lasci), pur sempre ricordando di
dover formulare domande chiare.
 Usare un lessico familiare, cioè evitare linguaggi accademici e usare sempre il
significato delle parole così come è compreso nel senso comune. Di conseguenza,
riguardo a ogni nozione, non dare nulla per scontato.
 Evitare ambiguità, siccome molti termini comuni possono risultare ambigui o non
chiari all’intervistato, dovendo comunque usarli è bene sempre specificare quando
è necessario il significato che indente il ricercatore.
 Evitare domande tendenziose, cioè che racchiudono già nella loro formulazione la
risposa che darebbe l’intervistatore, perché potrebbero influenzare l’opinione
dell’intervistato.
 Evitare domande doppie, cioè che chiedono due o più cose
contemporaneamente, per ogni questione è necessario fare una singola domanda.

DOMANDE APERTE = L’intervistato risponde con proprie parole che poi l’intervistatore
dovrà codificare in sede di analisi. È bene utilizzarle qualora si richieda al rispondente un
ragionamento complesso, o di parlare di un tema delicato, o si voglia raccogliere delle
citazioni. Tuttavia è importante tenere in considerazione che la codifica non è sempre
facile e anzi potrebbe portare a errori significativi nell’analisi del questionario.

DOMANDE CHIUSE = permette all’intervistato di scegliere la risposta da un quadro di


opzioni predefinito. Porta a una codifica molto più semplice perché le risposte sono
standard e si riferiscono a uno stesso quadro di riferimento per tutti i soggetti, tuttavia se la
selezione delle opzioni previste è deficitaria si rischia di escludere categorie importanti e
quindi distorcere l’intero risultato.

Forward telescoping = l’intervistato tende a ricordare come recenti eventi che in realtà
sono piuttosto lontani nel tempo. È bene limitarsi, se possibile, soltanto a eventi recenti
proprio per evitare questo bias. Allo stesso tempo è importante sempre fornire indicazioni
temporali precise (date) e non generiche (“lo scorso anno”, …).

Desiderabilità sociale = l’intervistato tende sempre a sovrastimare i propri comportamenti


positivi e a sottostimare (o addirittura negare) quelli negativi, poiché teme di essere
giudicato. Argomenti delicati devono essere trattati tramite domande dirette (“sei razzista?”
non è domanda plausibile).

Implicit Association Test (IAT) = per varie ragioni (vergogna, desiderabilità sociale, auto-
inganno, non consapevolezza) spesso l’intervistato dà risposte errate riguardo ad alcuni
suoi comportamenti. Esistono perciò metodi (IAT) in cui si ottiene la risposta
implicitamente senza arrivare a una domanda diretta che potrebbe portare a conclusioni
errate.

10
Multiple items = l’elaborazione di concetti complessi non avviene mai tramite domande
dirette, ma deriva dalla unione di più quesiti indiretti e minori.

6. DISEGNO DI RICERCA, CONCETTI E INDICATORI

DISEGNO DELLA RICERCA = si compone di diversi passaggi


 Domanda di ricerca = gli interrogativi di ricerca si basano su elementi teorici già
noti e sugli interessi del ricercatore.
 Ipotesi = sono costruire a partire da concetti, che devono essere operativizzabili,
cioè traducibili in termini empirici. NB: ogni ipotesi deve essere falsificabile.
 Reperimento dati = avviene tramite procedure campionarie predeterminate. La
predeterminazione deve permettere anche di sapere in anticipo l’errore di
campionamento, cioè quell’errore di misura di cui inevitabilmente ogni stima è
affetta.
 Analisi dei dati = sintetizza a scopo descrittivo le informazioni e realizza test
statistici per verificare l’attendibilità e la correttezza dei dati raccolti.
 Risultati = possono corroborare o falsificare la teoria di partenza, eventualmente
contribuiscono a ridisegnare l’intero progetto di ricerca.

CONCETTO = sono il punto di partenza di una ricerca, possono essere più o meno
astratti. Ci sono concetti semplici (sesso, titolo di studio) che sono facilmente e
direttamente operativizzabili; e invece concetti complessi (coesione sociale, religiosità) che
necessitano di passaggi ulteriori per essere operativizzati, perché sono più generali.

OPERATIVIZZAZIONE = per essere utilizzato un concetto deve essere operativizzato,


cioè tradotto in proprietà misurabili e osservabili sulla base delle unità di analisi dello
studio a cui si applicano. Dunque si passa dal concetto alle sue diverse proprietà, che in
ultima istanza sono tradotte in variabili statistiche.

STATO = ogni proprietà di un concetto/indicatore assume modalità differenti, ognuna di


queste modalità è uno stato (per titolo di studio, gli stati possono essere: licenza
elementare, licenza media, diploma superiore, laurea triennale, …).

DEFINIZIONE OPERATIVA = in termini pratici, si assegna ad ogni stato della proprietà di


un concetto/indicatore un opzione rispetto al nostro questionario. Può svolgersi tramite
quattro diverse procedure: classificazione (nominali), ordinamento (ordinali), conteggio
(intervallo), misurazione (rapporto).

INDICATORE = concetti estremamente generali (istruzione) necessitano di formulazioni


più complete per essere operativizzati (titolo di studio), queste formulazioni prendono il
nome di indicatori.

11
NB: per concetti molto generali un singolo indicatore non è in grado di esprimere tutto il
significato del concetto (parte indicante), dunque si fa ricorso a più indicatori cercando di
massimizzare le parti indicanti e minimizzare l’influsso di quelle esterne.
 Indicatore semplice = variabili opportunamente costruite che riguardano aspetti
specifici di un singolo oggetto di ricerca.
 Indicatore tematico = raggruppamento di indicatori semplici per dimensione o
tema che si riferisce a una singola dimensione esprimendone diversi aspetti.
 Indicatore composito (indice) = composizione di indicatori tematici secondo una
logica di aggregazione definita.
La composizione di un indice avviene in senso contrario: si parte dal concetto complessivo
e lo si divide in diversi temi, per ognuno dei quali si selezionano gli indicatori semplici (in
base a esperienze pregresse, disponibilità di fondi e tempo, scopi e presenza di dati già
raccolti) e quindi li si aggrega secondo varie modalità (somma, media, media ponderata,
fino a strumenti più avanzati come tecniche multivariate di riduzione dei dati).

7. ESPERIMENTI

TEORIE DELLA REGOLARITÀ = a partire da Hume si sono sviluppate secondo la


convinzione che la causalità è regolare (priorità temporale, contiguità spaziotemporale,
congiunzione costante). Di conseguenza si occupano della causa piena di un effetto nel
senso delle condizioni sufficienti/necessarie affinché quell’effetto si verifichi. Bisogna
sempre specificare tutte le variabili e le rispettive e reciproche relazioni funzionali alla
creazione di un esito.

TEORIE DELLA MANIPOLABILITÀ = le cause non sono regolari, ma sono variabili,


quindi possono essere manipolate. Non si analizzano le relazioni tra variabili per produrre
un effetto sicuro, ma si studia l’effetto (incerto) di una particolare variabile che viene
manipolata.

ESPERIMENTO = sono di diversi tipi (ideale, sul campo, controllato, …) ma in ogni caso vi
è la possibilità di manipolare una variabile (trattamento) e osservare e misurare il risultato
che ne consegue. Tendenzialmente un esperimento è caratterizzato dall’assegnazione
casuale completa di gruppi o soggetti, i gruppi sono tra loro indipendenti, e ve ne è quasi
sempre uno di controllo.

QUASI-EXPERIMENTS = quando i gruppi non sono del tutto casuali (spesso per
convenienza, ricerca clinica) e/o non è definito un gruppo di controllo.

Between-subject design = è l’opzione migliore possibile dal punto di vista statistico,


perché si prendono due gruppi separati (sperimentale e di controllo) e indipendenti tra
loro. È costoso e difficile, perché affinché il risultato sia attendibile un gruppo deve avere
almeno un centinaio di membri.

12
Within-subject design = le manipolazioni avvengono su uno stesso gruppo, è più
economico ma c’è il rischio di creare rapporti di dipendenza tra una manipolazione e
l’altra, quindi bisogna stare attenti a randomizzare il processo.

Esperimenti multifattoriali = quando contemporaneamente si prendono in


considerazione più variabili indipendenti: il design è molto più complesso e richiede un
numero ben maggiore di gruppi sperimentali.

VALIDITÀ = permette di comprendere se il risultato di una ricerca/esperimento rispecchia


precisamente il fenomeno in analisi o se è dovuto all’interferenza di qualche fattore di
disturbo.
 Validità interna = è presente quando la relazione tra variabile indipendente e
dipendente è casuale, quindi i risultati dell’esperimento non dipendono da variabili
terze non considerate. Questa può essere minacciata da:

- Variabili di confusione: cioè disturbi che possono minacciare o alterare la


relazione tra le variabili sperimentali. Si tratta principalmente di:
a) Eventi esterni, cioè fatti non previsti che intervengono durante la
sperimentazione. Un soggetto la cui prestazione ha risentito notevolmente di eventi
esterni non va considerato nell’analisi del dati e, se possibile, va sostituito.
b) Concetto di storia, cioè eventi che intervengono nel periodo della
sperimentazione (se la sperimentazione è piuttosto lunga) influendo sul
comportamento del soggetto.
c) Processi di maturazione, cambiamenti sistematici, biologici o psicologici che
coinvolgono il soggetto durante il periodo della sperimentazione.
d) Effetto delle prove, il fatto che – soprattutto se è presente un pre-test – nel corso
della sperimentazione il soggetto acquisisce sempre più familiarità con quanto gli è
sottoposto (motivo per cui se è necessario fare un pre-test è bene farlo con
contenuti diversi rispetto a quelli della sperimentazione).
e) Errori della strumentazione, quando lo strumento che usa il ricercatore non è
adatto a cogliere pienamente le variabili che vuole analizzare durante la
sperimentazione (è bene sempre consultare la letteratura precedente prima, per
capire quale strumento è più adatto).
f) Effetti della selezione, riguardo al modo in cui è effettuato il campionamento o
l’assegnazione dei soggetti ai gruppi.
g) Mortalità, cioè l’abbandono più o meno improvviso di alcuni soggetti durante la
ricerca.

- Errori dovuti al soggetto: cioè quelli che dipendono dal comportamento diretto dei
soggetti coinvolti nella ricerca.
a) Effetto Hawthorne, cioè il fatto che il soggetto modifica il suo comportamento
perché si rende conto di essere osservato. Si può evitare con il single-blind, cioè
non si comunica al soggetto lo scopo reale della ricerca e si cerca di tenerlo
all’oscuro di più informazioni possibile.

13
b) Acquiescenza, soggetti poco istruiti tendono a emulare i comportamenti dei
ricercatori (o a dirsi d’accordo con essi) o perché non capiscono o perché non sono
in grado/non se la sentono di contraddire le azioni e le parole dei ricercatori.
c) Desiderabilità sociale, soggetti tendono a rispondere su temi più delicati
evidenziando, anche se non è vero, comportamenti socialmente accettati. Si evita
garantendo anonimato e ponendo domande indirette.

 Validità di costrutto = si riferisce alla corrispondenza tra il piano della ricerca e la


teoria di riferimento, che deve essere chiaro e univoco. Una ricerca è infatti valida
se non vi sono spiegazioni terze plausibile dei dati ottenuti rispetto a quella di
riferimento, adottata cioè dal ricercatore. Minacciano la validità di costrutto:
a) L’assenza di una dettagliata analisi concettuale dei costrutti, cioè il fatto che il
fenomeno in analisi e i suoi aspetti principali non siano stati dettagliatamente
studiati.
b) L’inadeguatezza della definizione operativa dei costrutti teorici, cioè la presenza
di errori nel processo di traduzione dei costrutti teorici in operazioni concrete,
necessario per l’analisi degli stessi.
c) L’ambiguità delle variabili indipendenti, ovvero il fatto che la variabile
indipendente può non essere quella ipotizzata dal ricercatore.

 Validità esterna = fa riferimento alla possibilità di generalizzare cioè di estendere il


risultato del campione: a) alla popolazione complessiva di riferimento; b) a
condizioni diverse da quelle in cui si è svolto l’esperimento; c) a momenti diversi
rispetto al tempo in cui è stato tenuto l’esperimento. Tale validità è minacciata
principalmente dalle c.d. variazioni personologiche, cioè dal cambiamento delle
caratteristiche individuali dei soggetti coinvolti dal fenomeno in analisi. La validità
esterna viene corroborata dalla presenza di un buon campione statistico, e dallo
svolgimento dell’esperimento in condizioni non eccessivamente artefatte.

- Validità ecologica: aspetto particolare della validità esterna che presuppone la


corrispondenza tra le condizioni artificiali dell’esperimento e la realtà effettiva alla
quale esso si riferisce. NB: tra validità ecologica e validità interna vige un rapporto
di inversa proporzionalità: più si cerca di rimuovere elementi terzi dall’esperimento,
più questo è artefatto e dunque lontano dalla realtà.

 Validità statistica = ha lo scopo di verificare se il rapporto tra le variabili


sperimentali è più o meno casuale, cioè se l’effetto è significativamente diverso da
quello che si sarebbe ottenuto per caso. Essa è minacciata da diversi fattori:
a) Fishing, cioè quando si effettuano correlazioni tra variabili senza avere alle spalle
robuste ipotesi circa le stesse relazioni.
b) Campione troppo piccolo, che quindi viene bocciato da i test statistici che in
questi casi non rilevano relazioni significative (anche se potrebbero esservene).
c) Altri problemi relativi all’utilizzo di strumenti inadatti, di una manipolazione non
corretta, o alla presenza di variabili di confusione.
14
8. ESPERIMENTI E POLITICHE PUBBLICHE

FATTUALE e CONTROFATTUALE = quando si pianifica un intervento pubblico un


passaggio fondamentale per misurarne l’impatto è chiedersi, rispetto a una situazione in
cui quell’evento è presente (fattuale = gruppo sperimentale), cosa accadrebbe se invece
quell’intervento non vi fosse (controfattuale = gruppo di controllo).

Randomized controller trials (RCT) = si tratta di speciali esperimenti sul campo con
l’obiettivo di testare l’efficacia delle politiche pubbliche. Il successo degli RCT si basa
principalmente su due punti: a) enfasi sulle politiche basate su evidenze empiriche
(pressione WTO, …); b) necessità di trovare fonti esogene per validare le teorie
economiche nel mondo reale.

TRIANGOLO DELLE POLITICHE PUBBLICHE = rapporto tra tre componenti: a) certezze


empiriche; b) interessi; c) valori. Il ruolo dei valori è ambiguo, l’interesse tendenzialmente è
in contrasto con la certezza empirica.

9. ANALISI DELLE RETI

RETI = attori in reciproca interazione attraverso rapporti specifici che cambiano da rete a
rete. Esistono diversi tipi: tecnologiche, informatiche, biologiche, sociali, … Le reti sono
grafi in cui degli oggetti, definiti nodi, sono collegati tra loro da legami (link).
 Rete diretta: nella relazione tra i nodi c’è una direzione (scambi commerciali).
 Rete indiretta: non c’è direzione (fratelli).

Degree centrality = è una delle più semplici metriche utilizzate per descrivere una rete.
Fornisce una stima generale sulla struttura del grafo basandosi unicamente sul numero di
connessioni (degree) incidenti in ogni nodo. Più un nodo ha connessioni, più è importante.
NB: Nelle reti dirette si distingue tra indegree, cioè le connessioni rivolte verso il nodo in
analisi; e outdegree cioè quelle in uscita dal nodo in analisi.

Closeness centrality = si basa sul concetto che gli attori preminenti in una rete sociale
sono coloro i quali riescono più facilmente a trasferire informazioni a tutti gli altri (o a
riceverne). Si tratta di nodi intermediari che vantano una connessione agevole (vicinanza)
con molti nodi della rete e/o con nodi altamente influenti in essa (con alta degree
centrality).

Betweenness centrality = misura il grado in cui un nodo è connesso ad altri nodi che non
sono direttamente collegati tra loro. Questo nodo, chiamato bridge o broker, è
fondamentale perché solo in sua presenza due differenti reti sociali sono collegate.

La natura di una connessione può essere studiata in molti altri modi che dipendono dal
tipo di rete che si sta analizzando: a) peso, cioè la frequenza nel comunicare; b) tipologia,

15
cioè che relazione è concretamente (amico, collega, parente, …); c) ranking, cioè entro
una stessa tipologia quanto è stretta la connessione (migliore amico, conoscente, …); d)
struttura, ovvero la posizione topologica di un nodo nella rete (degree centrality, …).

TIPOLOGIA BASE DELLE RETI = le reti sono classificabili secondo alcune loro proprietà
fondamentali:
 Reti random: rete in cui i collegamenti sono randomici (di solito le reti di amicizia
sono tali), servono come termine di paragone nell’analisi delle reti. La distribuzione
di queste reti è tipicamente gaussiana.
 Reti scale-free: in cui la distribuzione della degree centrality segue una definita
power law, cioè tendenzialmente vi sono pochi nodi con moltissimi link (hub) e
moltissimi nodi con pochi link. La distribuzione tendenzialmente dunque mostra
un’inversa proporzionalità tra numero di nodi e numero di link.
 Reti small-world: si basano sul concetto di Six degrees of separation (Milgram),
per cui in una rete sociale da un individuo (nodo) A a un individuo B, entrambi scelti
casualmente, vi sono al massimo sei passaggi, cioè altri quattro nodi. Dimostra
dunque una concezione delle reti sociali di certo non regolare, ma nemmeno
randomica, ovvero con un discreto grado di organizzazione.

Two-mode networks = seppur la maggior parte delle reti siano reti unimodali, in cui cioè il
tipo di nodi è sempre costante e uguale, vi sono particolari reti bimodali dove sono
contemporaneamente presenti diverse tipologie di nodi. Ad esempio nelle reti di
affiliazione sono presi in considerazione individui e oggetti, e si conclude che due
persone che hanno un costante rapporto con gli stessi oggetti possono avere un legame
personale (stessi gusti, idee, estrazione sociale, …).

SOCIAL NETWORK ANALYSIS = struttura delle relazioni interpersonali in questo campo


si caratterizza principalmente per due fattori: a) diffusione (di informazione,
comportamento, …) che è una caratteristica della struttura della rete stessa; b) posizione
nella rete, siccome l’accesso alle informazioni dipende da questo, gli utenti tendono a
massimizzare la propria closeness centrality.

CAPITALE SOCIALE = una rete sociale può essere più o meno intensa rispetto alla
natura dei legami che la caratterizzano. Il capitale sociale è la risorsa che si produce a
partire dalla configurazione delle relazioni degli individui in una determinata rete, e
contemporaneamente rappresenta anche il potenziale di interazione cooperativa che
un’organizzazione mette a disposizione in una certa rete. Gli individui in una rete sociale
tendono a potenziare tanto il bonding, cioè a tessere legami interni alla rete, quanto il
bridging, cioè a stabilire rapporti con altre reti.

16
10. RICERCA E DIGITALE

DATI ORGANICI (naturali) = dati prodotti su vasca scala a prescindere da reali ed


esplicite intenzioni di ricerca, raccolti in modo automatico. Si tratta per esempio di cookie,
tweet, registrazioni di telecamere di servizio o di sicurezza … Usandoli il ricercatore non
compie una raccolta primaria, ma li declina allo scopo della sua ricerca, gli dà un
significato (flussi di dati non hanno significato finché non sono utilizzati).

BIG DATA = dati non sono raccolti su un campione, ma si riferiscono a intere popolazioni:
normalmente il ricercatore si occupa di usare metodi statistici sofisticati per poter
generalizzare da piccoli campioni a grandi popolazioni, qui invece deve trovare strumenti
in grado di semplificare dati vastissimi su intere popolazioni.
NB: possibilità di ottenere un flusso costante di dati circa un individuo, normalmente
ricerca permette solo indagini cross-sectional, cioè limitate nel tempo.

Ricerca su Internet = si occupa di fenomeni correlati o derivanti da Internet stesso.

Ricerca attraverso Internet = è una ricerca che usa Internet come piattaforma per
studiare fenomeni che si pongono indipendentemente dal Web, all’esterno di esso. Ma si
pongono problemi metodologici: spesso popolazione online e popolazione offline
differiscono, quindi è importante determinare dove si vuole operare in base allo scopo
della nostra ricerca.

VANTAGGI SVANTAGGI
La condivisione online di un questionario Il campione online tende a non essere
permette di raggiungere molte più persone rappresentativo della popolazione reale
La raccolta dei dati online è molto più Le digital skill dei rispondenti tendono a
rapida interagire sulle risposte che danno
È più facile integrare metodi qualitativi e La qualità delle risposte non è sempre
metodi quantitativi assicurata
Procedura di produzione, condivisione e C’è un alto rischio di duplicazione della
feedback del questionario è rapida e a partecipazione al sondaggio (si può
basso costo, anche con campioni di grandi rispondere con la mail, se uno ha più mail
dimensioni può farlo più volte)
Più facile implementare strategie di routing
( = variare contenuti in base a età,
provenienza geografica, …)
È molto facile garantire l’anonimato dei
rispondenti

VALIDITÀ DI COSTRUTTO = non ha senso raccogliere dati da fonti online (Facebook,


Twitter, …) se non sono correlati a qualcosa di empiricamente rilevante.

17
a) Isomorfismo strutturale: è necessaria coerenza tra le reti sociali di individuo
online e quelle nella “vita reale” (le amicizie di Facebook rispecchiano le mie reali
amicizie?)
b) Relazione con costrutti noti e validati: la validità del dato web deve essere
valutata in correlazione con un’altra misura già comunemente accettata del
costrutto in analisi (impact factor).
c) Influenza sul comportamento offline: la posizione e il comportamento di un attore
su una piattaforma web deve avere conseguenza sulle sue azioni nella “vita reale”.

PRIVACY = spesso i metodi di raccolta dati online impediscono ai soggetti di sapere che i
loro comportamenti vengono osservati e registrati. Da un lato c’è la necessità per la
ricerca di conservare i dati grezzi, dall’altro quella di garantire la privacy degli utenti; la
soluzione è applicare l’anonimato mantenendo i dati grezzi e associandoli non agli ID reali
degli utenti, ma a dei codici numerici identificativi casuali.

General Data Protection Regulation (GDPR) = una traccia completa del comportamento
online di un individuo può essere utilizzata per discriminarlo. GDPR obbliga piattaforme a
chiedere consenso a utenti ogni volta che i dati vengono usati, ceduti a qualcuno per scopi
commerciali o di ricerca (resta che è praticamente impossibile avere un consenso esplicito
e consapevole dell’utente).

Search as Research = studio delle query di un motore di ricerca per capire in che modo
le persone cercano informazioni (parole chiave, …). Si cerca di individuare tendenze su
quali informazioni sono più comunemente ricercate online, o su come variano le ricerche
sui browser in contesti diversi.

Cross-spherical analysis = Motori di ricerca diversi producono risultati diversi anche a


parità di tema o di contesto. O, in alternativa, uno stesso evento storico può essere
raccontato in maniera diversa in contesti diversi (varie versioni linguistiche di Wikipedia,
per esempio).

11. RICERCA QUALITATIVA ONLINE

FOCUS GROUP ONLINE = utilizzano software di chat specializzati per portare le persone
su un sito web designato per condurre discussioni. Si basano su un paradigma di fondo
equivalente a quello dei focus group classici, con la differenza che l’interazione è
depotenziata dall’assenza di un rapporto faccia-a-faccia tra gli individui. Interazione
sincrona: numero di partecipanti è uguale a quello dei corrispettivi offline (8-10), si usano
webcam e altri strumenti di registrazione audio/video.
NB: è necessario compensare la mancanza di un contatto diretto (che stimola la
discussione) con qualche esercizio introduttivo per creare un ambiente più familiare.

18
BULLETTIN BOARD GROUP = discussioni online basate su un’interazione asincrona.
La discussione dura nel tempo e gli individui possono intervenire quando più gli si addice,
perciò hanno più tempo per pensare e riflettere su ciò che dicono. Il numero di persone
che interagisce in questo contesto può essere ben più elevato di un normale focus group.

E-mail Group = si tratta del primo strumento di ricerca qualitativa online, basato soltanto
sulle comunicazioni via e-mail tra gli utenti. In origine erano principalmente usati da
aziende e privati, ma oggi il loro impiego è piuttosto raro.

INTERVISTE IN PROFONDITÀ PARALLELE = tramite specifici software online di


bacheca elettronica è possibile condurre contemporaneamente più di una intervista in
profondità, senza che i rispondenti siano a conoscenza del fatto di non essere gli unici
intervistati in quel momento. Generalmente, è comunque possibile condurre online
interviste in profondità in diversi modi (Skype, messaggistica istantanea, …).

SINCRONA ASINCRONA
Piattaforma Chatroom, conferencing site E-mail, discussion board
Restrizioni temporali Variabili (ma è real-time) Nessuna (ma non è real-
time)
Risposta Immediata e spontanea Non immediata, ma c’è
tempo di riflessione
Svantaggi Non è facile da Meno spontaneità, ed è
implementare semplice eliminare i dati

Virtual Worlds = prospettiva di ricerca interessante su mondi virtuali (Second Life,


MMORPG vari, …) tramite metodi etnografici, che però è fortemente limitata – se non del
tutto impedita – dal fatto che l’utenza di queste piattaforme non rispecchia in alcun modo
l’utenza tradizionale di Internet.

SOCIAL MEDIA = il contenuto prodotto dagli utenti sui social media è utilizzato per
produrre analisi, servono però elevate competenze tecniche per raccogliere dati attraverso
la API di queste piattaforme. Specifici software (CAQDAS) come Nvivo o Atlas.ti
dispongono di specifici plug-in che permettono di raccogliere dati da social-media.

12. SOCIAL MEDIA MINING, OPINION MINING E SENTIMENT ANALYSIS

COMPUTATIONAL SOCIAL SCIENCE = sfrutta capacità di raccogliere e analizzare dati


su una vastissima scala (big data).

SOCIAL MEDIA MINING = processo di analisi detto anche knoweledge discovery che si
basa sull’estrazione di pattern utili a partire da dati grezzi. Si tratta di prendere un
sottoinsieme di dati (dati target) da un database più complesso ma grezzo, elaborarli per
renderli processabili in termini di analisi algoritmica.

19
Esistono tre principali categorie di dati:
 Dati sugli utenti.
 Dati sui contenuti.
 Metadata: cioè dati che riguardano altri dati (dove e quando si è pubblicato un post,
…).
A partire da questi dati si possono ricavare due categorie di relazioni:
 Relazioni esplicite: cioè quelle chiare tra due oggetti, per esempio tra un utente e
un altro utente, o tra un utente e un contenuto, …
 Relazioni implicite: che si derivano a partire da altre relazioni esplicite. Se per
esempio disponiamo di due utenti che hanno costanti relazioni esplicite con gli
stessi contenuti, possiamo ipotizzare l’esistenza di una relazione implicita tra i due.

Data mining STATICO = si lavora su unico dataset relativo a un determinato periodo di


tempo, e si analizza il comportamento e l’interazione degli utenti entro quei limiti
predeterminati.

Data mining DINAMICO = il monitoraggio dei dati è live e costante, il focus è


sull’evoluzione dei dati. La capacità di analizzare in tempo reale l’oggetto della ricerca è in
questi termini una novità assoluta.
a) È possibile tracciare nel tempo l’evoluzione delle interazioni sociali a partire da
determinati eventi.
b) È possibile tracciare nel tempo l’evoluzione delle tendenze e delle preferenze
degli utenti (utile alle aziende per pianificare per tempo decisioni strategiche).
c) È possibile monitorare costantemente l’evoluzione di gruppi di utenti e risorse nel
tempo, individuando eventi che ne hanno segnato cambiamenti e le relative
correlazioni.

DATI TESTUALI = si individuano due differenti tipologie di dati testuali online:


 Topic (fatti e opinioni) = cioè l’effettivo oggetto di un testo, che può implicare una
dichiarazione fattuale o un opinione riguardo a una determinata circostanza.
 Sentiment = cioè le emozioni che sono conferite a un testo tramite l’utilizzo di
determinate espressioni, linguaggi testuali o anche non testuali (emoticon, …).
NB: circa lo 0,05% del nostro vocabolario corrente è composto da parole di stile, cioè
termini che rivelano particolari stati emotivi di chi parla. Queste parole tendono ad essere
elaborate dal nostro cervello in maniera diversa rispetto alle c.d. parole di contenuto, cioè
a tutte le altre. Approccio psicolinguistico per comprendere causalità verbale implicita
nei testi, cogliendo eventualmente come – tramite questi strumenti – un testo può
influenzare una determinata utenza.

SENTIMENT ANALYSIS = è utile tanto dal punto di vista commerciale, sociale e politico.
Inoltre permette di prendere in considerazioni opinioni su determinati eventi/oggetti su
scala globale. Tuttavia comporta delle sfide metodologiche:
a) non è facile identificare la giusta serie di key word che si riferisce alla descrizione
di un determinato sentimento.
20
b) il sentiment di un testo è spesso dipendente dal contesto in cui questo è stato
espresso, quindi bisogna stare attenti a non confondere il significato di un
linguaggio implicito.
c) l’assenza di un codice comune nelle espressioni degli utenti sulle piattaforme
web rende generalmente difficile la ricerca.

Tendenzialmente si lavora a partire dagli aggettivi: 1. Classificazione a partire dal tono


emotivo (positivo o negativo). 2. Ponderazione rispetto al peso (è evidente che “orrendo”
ha un peso negativo maggiore di “fastidioso”). L’analisi è sostenuta dalla presenza di
specifici dizionari linguistico-emotivi che classificano aggettivi ed espressioni riguardo al
loro peso. 3. Sommando i pesi attribuiti ai vari aggettivi in un testo possiamo trarne uno
score che può essere più o meno positivo.

13. DATI QUANTITATIVI: ANALISI MONOVARIATA

ANALISI MONOVARIATA = serve a studiare la distribuzione di singole variabili,


controllandone la plausibilità (individuando eventuali squilibri), descrivendone la
distribuzione tramite misure di tendenza centrale e variabilità, ed eventualmente
ricodificandole fino alla creazione di indici sintetici.

DISTRIBUZIONE DI FREQUENZA = rappresentazione in cui ad ogni valore (modalità) di


una variabile viene assegnato il numero di casi che lo presenta (frequenza). Si parla di:
a) Frequenze assolute, quando ci si riferisce al numero dei casi che presenta
ciascuna modalità della variabile.
b) Frequenze relative, quando – al fine di compiere una comparazione tra diverse
distribuzioni – il numero dei casi è relativizzato tramite determinate proporzioni
(percentuale).
c) Frequenze cumulate, quando per ciascuna modalità della variabile si conteggia
la somma delle frequenze proprie di quel valore e di tutti i precedenti.
La distribuzione dei dati si misura tramite:
 Misure di tendenza centrale: mirano a individuare quel valore che sintetizza al
meglio la distribuzione.
 Misure di variabilità: mirano a tenere conto come le altre modalità della variabile si
dispongono attorno al valore di tendenza centrale.

Tipo di Variabile Tendenza centrale Variabilità


NOMINALE Moda Indice di omogeneità
ORDINALE Moda, Indice di omogeneità,
Mediana differenza interquartile
Moda, Indice di omogeneità,
CARDINALE Mediana, differenza interquartile,
Media deviazione standard

21
MISURE DI VARIABILITÀ = la forma della distribuzione ci indica qualcosa della
popolazione che stiamo studiando.
 Indice di omogeneità = una variabile nominale ha una distribuzione
massimamente omogenea quando tutti i suoi casi presentano la stessa modalità,
massimamente eterogenea quando tutti i suoi casi sono ugualmente distribuiti tra le
sue varie modalità.

𝑶= 𝑝12 + 𝑝22 + 𝑝32 + ⋯+ 𝑝𝑛2 = ∑ 𝑝2


𝑖=1
* p = proporzioni di una distribuzione di frequenza.

 Differenza interquartile = dividendo la distribuzione ordinata di una variabile in


quattro parti, possiamo individuare i valori sui casi che segnano i confini trai quarti
(quartili). Maggiore è la differenza tra tali quartili maggiore è la dispersione dei casi.

 Deviazione standard = la meda aritmetica degli scarti dalla media (in valore
assoluto) di una variabile è una prima misura di variabilità. Maggiore è la deviazione
standard più la distribuzione dei dati è dispersa rispetto alla media.

∑(𝑥𝑖 − 𝑥)2
𝑺= √
𝑁
NB: una deviazione standard eccessivamente alta può rilevare anche un problema
“tecnico” nella formulazione di una domanda.

13. DATI QUANTITATIVI: ANALISI BIVARIATA

ANALISI BIVARIATA = studia le relazioni tra variabili. Cerca di capire se esiste una
relazione tra variabili, cioè una relazione concomitante tra diversi valori (covariazione),
intesa in termini scientifico-probabilistici, cioè se questa relazione non è da attribuirsi al
caso e invece è causale. Variabile indipendente (esplicativa): spiega o influenza le
variazioni di una variabile dipendente. Si parla di dipendenza logica quando questa è
dettata da un rapporto di causa-effetto; ugualmente al contrario si parla di indipendenza
logica quando si ha sufficiente certezza per escludere che vi sia un chiaro rapporto
causale tra le due variabili.
 Analisi della dipendenza: studia come le modalità di una variabile dipendano da
un’altra variabile. Il legame tra due variabili è unidirezionale o asimmetrico.
 Analisi dell’interdipendenza: studia come le modalità di una variabile varino al
variare di un’altra variabile. Tale legame è bidirezionale o simmetrico.

22
Tabelle di contingenza = tabelle adottate per spiegare la relazione tra due variabili. Si
usa la % di colonna per la variabile dipendente, quella di riga per la variabile indipendente,
la colonna e la riga dei totali si chiama frequenza marginale.

y1 y2 y3 totale
x1 n1-1 n1-2 n1-3 n1-0
x2 n2-1 n2-2 n2-3 n2-0
x3 n3-1 n3-2 n3-3 n3-0
totale n0-1 n0-2 n0-3 n

TEST DEL CHI-QUADRO = è un testi di significatività statistica, vuole cioè oggettivamente


capire se tra due variabili esiste o meno una relazione rilevante. NB: affinché dia risultati
significativi, è applicabile soltanto a campioni sufficientemente grandi (N>100). Il primo
passo è formulare un’ipotesi (ipotesi nulla, H0), secondo la quale nella popolazione in
analisi non esiste una relazione tra le variabili, quindi attraverso il test si cerca di falsificare
questa ipotesi dimostrando l’esistenza di una relazione (e quindi la veridicità dell’ipotesi
opposta, H1).

Frequenze attese = costruzione di una tabella di contingenza prendendo in


considerazione H0, cioè la non esistenza di relazione tra le variabili. Il Chi-quadro misura
la distanza della distribuzione dei dati osservata rispetto a quella attesa nell’ipotesi di
indipendenza.

𝟐
(𝑑𝑎𝑡𝑜 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑡𝑜 − 𝑑𝑎𝑡𝑜 𝑎𝑡𝑡𝑒𝑠𝑜)2
𝝌 =
𝑑𝑎𝑡𝑜 𝑎𝑡𝑡𝑒𝑠𝑜

Per ogni valore del Chi-quadro otteniamo la probabilità che esso derivi da una popolazione
con indipendenza. Per convenzione respingiamo l’ipotesi di indipendenza quando p≤0,05,
cioè se il valore del Chi-quadro è così grande da avere solo il 5% o meno di probabilità di
essere dovuto al caso.
NB: la significatività statistica rilevata dal Chi-quadro non è un sinonimo né della forza
della relazione in analisi, né del fatto che essa abbia realmente un significato (potrebbe
ancora essere spuria, per esempio).
NB: il test del Chi-quadro è appropriato per variabili nominali o ordinali.

MISURE DI ASSOCIAZIONE = non ci dicono se un’associazione è statisticamente


rilevante, ma ne rilevano la forza (asimmetriche) e, talvolta, la direzione (simmetriche).

PROPORTIONAL REDUCTION OF ERROR (PRE) = due variabili sono associate quando


conoscendo i valori di una variabile posso riuscire a prevedere i valori dell’altra, quindi a
evitare eventuali errori. Generalmente, tutti gli indicatori PRE si misurano a partire da
questa formula:

𝐸1 − 𝐸2
𝑷𝑹𝑬 =
𝐸1
23
Cioè individuano la differenza degli errori di previsione che si farebbero non conoscendo la
variabile indipendente, rispetto a quelli che si farebbero avendo a mente la variabile
indipendente.
- PRE = 0: non c’è associazione tra le due variabili, quindi conoscere la variabile
indipendente non ci aiuterebbe a conoscere quella dipendente.
- PRE = ± 1: c’è associazione piena tra le due variabili, quindi conoscendo la
variabile indipendente possiamo prevedere esattamente quella dipendente.

Phi (valido solo per tab 2x2) = misura la forza di un’associazione variando da 0 a +1, non
rivela il modello dell’associazione, ed è da usarsi solo per variabili nominali.

𝜒2
𝝋=√
𝑁

NB: un valore di Phi = 0,10 indica che sapendo che un individuo, per esempio, è maschio
faccio il 10% di errore in meno nel dire se farà la raccolta differenziata rispetto a sparare a
caso.

Cramer’s V = simile al Phi ma utilizzabile per tabelle di dimensioni superiori a 2x2.


Esattamente come il Phi i suoi valori oscillano da un limite minimo di 0, che rileva
l’assenza di associazione, a un limite massimo 1, che rileva un’associazione perfetta.

𝜒2
𝑽= √
(𝑁)(𝑚𝑖𝑛. 𝑜𝑓 𝑟 − 1, 𝑐 − 1)

NB: si usa per sole variabili nominali, o per variabili nominali che interagiscono con
variabili ordinali.

Lambda = Si basa sulle stime calcolate per ogni caso presente nel campione (ha un livello
di computazione più complicato). Coglie la simmetricità (ma non è misura simmetrica!) del
rapporto: il valore di Lambda cambia se inverto variabile dipendente o indipendente.

𝐸1 − 𝐸2
𝝀=
𝐸1

NB: si usa per sole variabili nominali.

GAMMA = Può essere ugualmente usato con variabili nominali e ordinali, e soprattutto è
una misura simmetrica, cioè coglie la concordanza o la discordanza dell’associazione
(valori variano da -1 a +1). Si basa sul rapporto tra coppie discordanti e coppie
concordanti, analizzando dunque la direzione della relazione tra due variabili. Se
prevalgono le coppie con valori discordanti l’associazione è positiva (γ  +1), viceversa

24
l’associazione è negativa (γ  +1), un valore di γ = 0 ovviamente denota l’assenza di
associazione.

𝑁𝑠 − 𝑁𝑑
𝜸=
𝑁𝑠 + 𝑁𝑑

14. ANALISI QUANTITATIVA: CORRELAZIONE

CORRELAZIONE = quando abbiamo di fronte variabili cardinali non parliamo di


associazione, ma di correlazione.
a) Variabile di risposta (dipendente) = variabile il cui valore può essere spiegato o
determinato in base al valore della variabile esplicativa (indipendente).
b) Variabile nascosta = variabile correlata alla variabile di risposta e/o esplicativa,
ma esclusa dall’analisi.

Diagramma a dispersione = mostra la relazione tra due variabili misurate sullo stesso
individuo. Ogni individuo è rappresentato da un punto nel diagramma a dispersione, la
variabile indipendente è posta sull’asse x, quella dipendente sull’asse y.
 Associazione POSITIVA = valori superiori alla media di una variabile sono associati
a valori superiori alla media della variabile corrispondente. In altre parole,
all’aumentare dei valori della variabile predittiva (x), aumentano anche i valori della
variabile di risposta (y).
 Associazione NEGATIVA = valori superiori alla media di una variabile sono
associati a valori inferiori alla media della variabile corrispondente. In altre parole,
all’aumentare dei valori della variabile predittiva (x), diminuiscono i valori della
variabile di risposta (y).

PEARSON’s R (coefficiente di correlazione lineare) = misura la forza della relazione


lineare tra due variabili quantitative. Il coefficiente è sempre compreso tra -1 e 1 (-1 ≤ r ≤
1):
a) r = +1, perfetta relazione lineare positiva tra le due variabili.
b) r = 0, assenza di relazione lineare (ma potrebbe esserci comunque una qualche
altra relazione)
c) r = -1, perfetta relazione lineare negativa tra le due variabili.

Rel. Lineare positiva Rel. Lineare positiva No rel. Lineare


(r ≈ 0.9) (r ≈ 0.4) (r ≈ 0)
25
Rel. Lineare negativa Rel. Lineare negativa No rel. Lineare
(r ≈ -0.9) (r ≈ -0.4) (r ≈ 0)

NB: un coefficiente di relazione lineare che rileva una anche forte correlazione negativa o
positiva tra due variabili non implica in alcun modo una rapporto di causalità tra le stesse.
In altre parole, correlation is not causation.

26