Sei sulla pagina 1di 27

Analisi di dati quantitativi

Variabili quantitative
Una variabile quantitativa può essere rappresentata con una tabella di frequenza
solo se è stata ridotta in classi.
Se la variabile quantitativa è stata ridotta in classi, a partire dalla tabella di
frequenza si possono calcolare tutte le sintesi e i grafici previsti per le variabili
ordinali.
La riduzione in classi non è l'approccio ideale per affrontare l'analisi di una
variabile quantitativa perché comporta perdita di informazione ma, a livello
comunicativo, è utile per produrre grafici e tabelle.
→ Esempio: peso in kg di un campione di 20 studenti
52, 55, 59, 60, 61, 61, 62, 66, 70, 71, 72, 75, 78, 79, 81, 87, 89, 91, 93, 98

La media
La media (media aritmetica) si ottiene dalla somma dei valori osservati sulle unità
statistiche divisa per il numero di unità statistiche:

xi →è il valore della variabile dell'unità statistica i-esima


i → è un contatore delle unità statistiche da 1 a n

Esempio: il peso medio dei 20 studenti è 73 kg


(52+55+59+60+61+61+62+66+70+71+72+75+78+79+81+87+89+91+93+98)/20=73

Proprietà:
La media rappresenta il baricentro della distribuzione.
1. La somma degli scarti dalla media è sempre pari a zero:

2. La media è il valore che rende minima la somma degli


scarti al quadrato (quadratici):
Media: il punto di equilibrio
La somma degli scarti tra i dati rilevati e la media è pari a 0:

La media ponderata
La media aritmetica è un caso particolare di media ponderata, concetto che viene
introdotto al fine di tenere conto del diverso peso assegnato alle unità statistiche.
Una media ponderata si ottiene fissando un sistema di pesi.
Il valore di ogni unità statistica xi viene moltiplicato per il peso pi e la somma
viene divisa per la somma dei pesi:

La media aritmetica è un caso particolare di media ponderata con pesi assegnati


alle unità statistiche tutti uguali (o, per semplicità, tutti pari a 1).

→ Esempio
Si supponga che un contadino debba calcolare il profitto medio ottenuto con la coltivazione di un
appezzamento. L’appezzamento è diviso in quattro parti indicate con le lettere A, B, C, D.
Il campo A occupa il 40% dell’appezzamento, B il 10%, C il 30% e D il 20%. Il ricavo ottenuto è così
distribuito:
A 1000€
B 1200€
C 300€
D 1500€
Siccome la distribuzione non è in parti uguali, il calcolo del profitto medio
deve tenere conto delle dimensioni di ciascun campo. In base alle percentuali si possono assegnare,
rispettivamente, alle quattro unità statistiche i pesi 0,4 0,1 0,3 e 0,2. La media ottenuta è 910€:
X = 1000 ⋅ 0,4 + 1200 ⋅ 0,1 + 300 ⋅ 0,3 + 1500 ⋅ 0,2 = 910
(si possono anche moltiplicare i ricavi per le percentuali e dividere la somma
per 100)
—> Esempio
Il ruolo dei CFU nel calcolo della media dei voti.
Media aritmetica:

(attenzione! non è una misura corretta!)

Media ponderata:

In questo caso la media ponderata è inferiore alla media aritmetica.

La mediana
Come abbiamo già visto nel caso delle variabili ordinali, la mediana è il
valore/categoria che divide in due parti uguali il campione ordinato.
La mediana di una variabile quantitativa è il valore dell'unità statistica che si
trova al centro del campione ordinato.
Se il numero di unità statistiche è dispari, c'è una sola unità al centro.
Se il numero di unità statistiche è pari, ci sono due unità al centro. In questo
caso la mediana è il valore che sta in mezzo ai due valori, cioè la media dei due
valori centrali.
La posizione della mediana è data da (𝑛 + 1)/2.

—> Esempio: il peso mediano dei 20 studenti è 71,5 kg


52,55,59,60,61,61,62,66,70,71 | 72,75,78,79,81,87,89,91,93,98

—> Esempio: se ai 20 studenti aggiungiamo uno studente (n=21) che pesa 83 kg


52, 55, 59, 60, 61, 61, 62, 66, 70, 71 |72| 75, 78, 79, 81, 83, 87, 89, 91, 93, 98 il peso mediano è 72 kg

Proprietà della mediana:


La mediana non è influenzata dalla presenza di dati anomali (outlier) la media,
viceversa, è sensibile alla presenza di dati anomali
→ Esempio: il peso medio dei 20 studenti è 73 kg, il peso mediano è 71,5 kg
52, 55, 59, 60, 61, 61, 62, 66, 70, 71 | 72, 75, 78, 79, 81, 87, 89, 91, 93, 98

se ai 20 studenti aggiungiamo uno studente (n=21) che pesa 83 kg se ai 20 studenti aggiungiamo uno studente (n=21) che pesa
52, 55, 59, 60, 61, 61, 62, 66, 70, 71 |72| 75, 78, 79, 81, 83, 87, 283 kg
89, 91, 93, 98 52, 55, 59, 60, 61, 61, 62, 66, 70, 71 |72| 75, 78, 79, 81, 87,
il peso mediano è 72 kg il peso medio è 73,48 kg 89, 91, 93, 98, 283 il peso mediano è 72 kg
il peso medio è 83 kg
Effetto outliers (valori anomali ed estremi)

Confronto e sintesi
- La Moda è utile per visualizzare l’opzione più frequente. Si dice che è
l’indice per governare (consenso), perché minimizza gli ‘scontenti’.
- Può accadere che data una distribuzione di dati, esista più di una modalità
a cui è associata la massima frequenza. In questi casi non esiste un'unica
Moda e si parlerà a seconda del caso di distribuzione bi- modale (con due
mode), tri-modale (con tre mode)...

Proprietà della mediana:


- La mediana è poco influenzata (al contrario della media) da valori
estremamente grandi o piccoli presenti nella distribuzione dei dati.
- Per questo viene detta «stimatore robusto».
- La mediana è un indice utile per le decisioni che implicano costi elevati nei
casi estremi.

Proprietà della media:


- La media è un indice di equilibrio generale dei dati.
- Come tale equi-ripartisce il fenomeno tra le unità statistiche.
- In questo modo si giunge a decisioni in cui, a parità numerica, i valori
estremi contano più di quelli centrali.

Il consiglio generale per determinare un valore sintetico di una distribuzione di


frequenza per una variabile quantitativa è di calcolare almeno media e mediana e,
dal loro confronto (anche grafico), dedurre informazioni utili.

Applicabilità degli indici a seconda della scala di misura


(*) Per variabili cardinali continue il calcolo della moda può essere poco sensato
(le frequenze sarebbero tutte pari a 1)

I quantili
Anche nel caso delle variabili quantitative è possibile calcolare i quantili.
Nell'esempio del peso in kg di un campione di 20 studenti
52,55,59,60,61 | 61,62,66,70,71 | 72,75,78,79,81 | 87,89,91,93,98
- il primo quartile è 61 (Q1)
- il secondo quartile è 71,5 (ed è la mediana)
- il terzo quartile è tra 81 e 87 (Q3)
- Il calcolo verrà spiegato in laboratorio (soluzione estremi1 85,5, estremi1 82,5)
La posizione dei quartili è data da (𝑛 + 1)/4 (𝑛 + 1)/2 3( 𝑛 + 1)/4
→ Note:
Il ragionamento sui quantili ha senso quando è a disposizione un campione di
grandi dimensioni (laboratorio).
Per campioni piccoli si indica solo la mediana.

La variabilità
Gli scarti quadratici dalla media aritmetica sono la base per il calcolo dello scarto
quadratico medio e della deviazione standard (standard deviation).
Lo scarto quadratico medio (descrittivo per una popolazione di N unità statistiche)
ha sotto la radice una media degli scarti quadratici:

gli scarti (o deviazioni) dalla media sono positive e negative ma


sappiamo che la loro somma è sempre pari a zero (proprietà
della media aritmetica).

Per i campioni si calcola la deviazione standard:

rappresenta una "distanza tipica" dalla media delle unità


statistiche.
La deviazione standard
È pari a zero quando le osservazioni sono tutte uguali, quindi non c'è variabilità
(assenza di dispersione, massima concentrazione).
È un numero positivo che cresce al crescere della variabilità

→ Nota:
con S2 si indica la varianza:

La varianza è un po' più difficile da leggere rispetto alla deviazione standard


perché si tratta di una distanza tipica espressa al quadrato.

—> Esempio
La tabella riporta la valutazione in trentesimi ottenuta in un esame da un primo gruppo di 10 studenti.
La media aritmetica è 26.

Le due tabelle riportano i voti allo stesso esame di altri due gruppi di 10 studenti:

Indicando con 1, 2 e 3 i dati relativi ai tre gruppi:


Si osserva che le medie sono uguali nei tre gruppi, ma il primo gruppo ha un
profitto molto più variabile del secondo e il terzo è un caso limite che non mostra
alcuna variabilità.

→ Esempio
Per ciascun gruppo di studenti (o per ciascun docente) la media dei voti è pari a 20, ma è evidente una
diversa dispersione intorno a tale valore.

Una regola empirica


Se è nota la forma della distribuzione delle frequenze (deve essere campanulare) e
i campioni sono di grandi dimensioni, si può applicare la regola empirica:
- circa il 68% delle unità statistiche del campione ha valori tra x - s e x + s,
cioè non si allontana dalla media di più di una deviazione standard (in più
o in meno);
- circa il 95% ha valori tra x - 2s e x + 2s, cioè non si allontana dalla media di
più di due deviazioni standard;
- circa la totalità (99%) ha valori tra x - 3s e x + 3s, cioè non si allontana
dalla media di più di tre deviazioni standard.

Attenzione: la distribuzione delle


frequenze deve avere
approssimativamente una forma
campanulare simmetrica e centrata
sulla media (n>0)

I punteggi Z
La regola empirica si può applicare anche a una trasformazione dei valori delle
unità statistiche in punteggi z (z-score).
Il punteggio z di una unità statistica è il rapporto tra lo scarto dalla media
aritmetica e la deviazione standard:

e fornisce una distanza standardizzata dalla media in termini


di numero di deviazioni standard.

Applicando nuovamente la regola empirica, il punteggio z può essere utilizzato per


l'identificazione dei valori anomali.
- I punteggi Z compresi nell'intervallo (–2, +2), cioè inferiori a 2 deviazioni
standard non sono anomali perché riguardano il 95% del campione;
- I punteggi Z superiori a 2 o inferiori a –2 sono, viceversa, insoliti (anomali)
perché si collocano nel 5% dei valori più estremi (troppo alti, troppo bassi
rispetto alla media);
- I punteggi Z superiori a 3 o inferiori a –3 sono molto insoliti (anomali, rari,
eccezionali) perché si collocano nell'1% dei valori più estremi.

La variabilità
Altre misure della variabilità presente nei dati sono:
1. Il campo di variazione (range) → è la differenza tra il valore più alto e il
valore più basso della distribuzione
𝑟𝑎𝑛𝑔𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
2. Lo scarto interquartilico (SIQ o IQR – Inter Quartile Range) o distanza
interquartile → è la differenza tra il terzo e il primo quartile
𝑆𝐼𝑄 = 𝐼𝑄𝑅 = 𝑄3 − 𝑄1
→ Nell'esempio del peso in kg di un campione di 20 studenti
52,55,59,60,61 | 61,62,66,70,71 | 72,75,78,79,81 | 87,89,91,93,98
𝑟𝑎𝑛𝑔𝑒 = 98 − 52 = 46
𝑆𝐼𝑄 = 82,5 − 61 = 21,5

Indici statistici di variabilità:


Qual è il difetto del range?
- La presenza di un solo valore atipico (molto basso o molto alto) modifica
l’indice in modo rilevante;
- Risulta quindi particolarmente vulnerabile agli errori o ai casi particolari.
Conclusione: è preferibile usare una diversa misura.
Scarto interquartile:
Difetti?
- Il principale difetto dello scarto interquartile è che si basa solo sul 50%
della popolazione, in particolare quella collocata al centro della
distribuzione.
- Per questo motivo è opportuno considerare indici fondati su una maggiore
porzione di popolazione.

Grafico stelo e foglia

(stem and leaf)


Box plot
Il box plot è un rettangolo (box) i cui estremi sono il primo e terzo quartile (Q 1 e
Q3), tagliato da una linea all'altezza della mediana (Q2).
Vengono aggiunte due righe (baffi) corrispondenti ai valori distanti 1,5 volte la
distanza interquartile (Q3-Q1) a partire dai bordi estremi della scatola. I baffi si
interrompono prima se raggiungono il valore massimo/minimo.

Il box-plot può essere utilizzato per comparare distribuzioni

Per identificare valori anomali (quelli che restano fuori dai "baffi").
Anche nel caso del box-plot, il ragionamento ha senso quando è a disposizione un
campione di grandi dimensioni (laboratorio).
Analisi bivariata con dati categoriali
Associazione tra due variabili categoriali Per verificare l'esistenza di una
"relazione" (associazione) tra due variabili categoriali si parte da una tabella di
frequenza a doppia entrata (tabella di contingenza). In questa tabella si prendono
in considerazione due caratteri/proprietà dell'unità statistica alla volta. I conteggi
rappresentano le frequenze assolute congiunte: per ogni coppia di modalità, una
cella contiene il numero di casi in cui si è osservata congiuntamente la modalità
di riga della prima variabile e la modalità di colonna della seconda.

→ Esempio: Risposte a due domande di un questionario


18. Il tuo diploma di scuola superiore:
a) liceo (specificare quale:_____________)
b) istituto tecnico (specificare quale:_____________)
c) istituto professionale (specificare quale:_____________)
d) altra scuola (specificare quale:_____________)

19.Quale traccia hai scelto nella prima prova dell'esame di maturità?


a) analisi del testo
b) saggio breve / articolo
c) tema storico
d) tema di carattere generale

Tabella di contingenza
Le righe della tabella → sono intestate alle modalità della prima variabile (sia essa
X, dotata di m modalità: x1, x2…, xm).
Le colonne → a quelle della seconda variabile
(sia essa Y, dotata di p modalità: y1, y2 …, yp).
La cella nij → rappresenta la frequenza
assoluta congiunta, cioè il numero di unità
statistiche del campione che possiedono
congiuntamente il carattere associato alla
modalità xi di riga i e il carattere associato
alla modalità yj di colonna j.
I totali di riga → rappresentano le frequenze (univariate o marginali) con cui sono
state osservate le modalità della prima variabile X.
I totali di colonna → sono le frequenze con cui sono state osservate le modalità
della seconda variabile Y.
Gradi di libertà = (m - 1) (p - 1)
I profili
Le frequenze relative condizionate si ottengono dividendo le frequenze congiunte
per il totale di riga (profili di riga) o per il totale di colonna (profili di colonna). Nel
momento in cui viene calcolata una frequenza condizionata si mette una variabile
in relazione con l'altra in un'ottica asimmetrica.

Profili di riga:

Associazione tra due variabili dicotomiche


Si supponga di avere rilevato due variabili categoriali dicotomiche su un
campione di n soggetti. La tabella di contingenza in questo caso si chiama anche
tabella tetracorica o 2×2

Gradi di libertà = (m - 1) (p - 1) = 1
L’indice tetracorico φ
Il grado di associazione tra le due variabili categoriali dicotomiche si misura
attraverso l’indice φ (phi) tetracorico:

-1 → perfetta associazione ("negativa",


devo guardare la diagonale secondaria)
+1 → perfetta associazione ("positiva",
devo guardare la diagonale principale)
0 → assenza di associazione

L’indice varia tra –1 e 1:


- Assume il valore –1 quando la diagonale principale è costituita da zeri; cioè
quando siamo in presenza di una associazione perfetta tra le due variabili
categoriali e tutti i casi concentrati sulla diagonale secondaria.
- Viceversa, assume il valore 1 quando la diagonale secondaria è costituita
da zeri; cioè in presenza di un’associazione perfetta tra le due variabili
categoriali e tutti i casi concentrati sulla diagonale principale.
- Assume il valore zero quando non c’è associazione tra le due variabili
categoriali e le due diagonali hanno il medesimo peso (i due prodotti al
numeratore sono uguali).

Il segno di questo indice aiuta nell’interpretazione del risultato, in quanto


suggerisce il tipo di relazione presente tra le due variabili categoriali. Inoltre, è
utile per fare confronti.
Tuttavia, il segno è fittizio → dal momento che è possibile permutare liberamente
l’ordine di righe e colonne (non c’è un ordinamento), anche il segno può mutare
senza modifiche sostanziali del contenuto della tabella.
La forza dell’associazione è rappresentata, quindi, dal valore assoluto dell’indice
o, se si preferisce, dal suo quadrato:

0 → rappresenta l’assenza di associazione


1 → rappresenta un’associazione perfetta (positiva o negativa).

→ Esempio:
Sono stati intervistati 13 studenti di un corso di laurea magistrale. Di questi 13 studenti, 7 sono
studenti lavoratori. Con riferimento alla condizione (lavoratore e non lavoratore) si analizzano due
domande di questionario con risposta dicotomica si/no: soddisfazione rispetto all’orario, che
concentra le lezioni del pomeriggio del venerdì e nella mattinata del sabato soddisfazione rispetto
all’offerta di materiali didattici integrativi:
I risultati suggeriscono un'associazione tra la condizione di studente lavoratore e la soddisfazione
rispetto all’organizzazione dell’orario delle lezioni (dal segno dell’indice si vede che sono i lavoratori a
essere maggiormente soddisfatti) e un’associazione presente, sebbene più debole, tra la condizione di
studente lavoratore e disponibilità di materiale didattico (dal segno dell’indice si deduce che sono
soddisfatti i non lavoratori, mentre gli studenti lavoratori non considerano il materiale didattico
adatto alle proprie esigenze).

→ Esempio:Si osservino i seguenti casi.


Si tratta della rilevazione di due variabili categoriali dicotomiche:
- un fattore di rischio (x=0 non fuma, x=1 fuma)
- una patologia (y=0 non soffre di bronchite cronica, y=1 soffre di bronchite cronica)
Su un gruppo di 14 pazienti (7 fumatori e 7 non fumatori; 7 ammalati di bronchite cronica e 7 sani).
- Il primo caso rappresenta una perfetta associazione (non fumatore – sano / fumatore –
ammalato, phi=1) in cui è evidente la forza dell’associazione tra fattore di rischio e patologia;
- il quarto e il quinto caso sono situazioni in cui il fumo sembra essere scarsamente associato
con la patologia (phi=±0,143);
- l’ultimo caso rappresenta una perfetta associazione (fumatore – sano / non fumatore –
ammalato, phi=-1) in cui il fattore fumo risulterebbe associato alla patologia come “fattore
protettivo”.
Analisi bivariata con dati quantitativi

Regressione e correlazione
I dati di un campione di unità statistiche rilevati con la misurazione di una
variabile quantitativa si possono rappresentare come punti su una retta.
I dati rilevati con due variabili quantitative come punti su un piano cartesiano
(coppie di coordinate).
Questo tipo di rappresentazione si chiama scatterplot (o diagramma a
dispersione).
Esempio:
età pressione

25 120
30 125
42 130
140
55
145
58 160
64 155
70 165
75

un paziente con otto osservazioni longitudinali


età
pressione sanguigna sistolica ("massima") Y

X→Y
ipotesi: l'età ha un effetto sulla pressione

età → pressione
X→Y

età pressione

25 120
30 125
42 130
140
55
145
58 160
64 155
70 165
75
Date due variabili X (indipendente) e Y (dipendente), si assume l'esistenza di una
relazione asimmetrica X → Y e si cerca una relazione di tipo funzionale (lineare se
è una retta) per "predire" i valori di Y a partire dai valori di X.
(data l'età, posso stimare la pressione? e per le età future?)
y = a + bx
a → intercetta
b → coefficiente angolare

Fra tutte le infinite rette, viene scelta quella che


1. passaperivalorimedidiXeY
2. annulla la somma degli scarti (scarto = distanza del punto dalla retta)
3. minimizza la somma degli scarti quadratici

Esempio con soli 3 punti:


Per trovare l'equazione della retta di
regressione
y = a + bx
a = y -b x

∑ (x i−x )( y i− y )
b= i=1

Fra tutte le possibili rette quella con parametri a e b è la migliore.

La bontà dell'adattamento si misura attraverso il coefficiente di correlazione


lineare
n

∑ ( xi −x)( y i− y)
p = i=1
2

e il coefficiente di determinazione:
2 2
p ¿R

Interpretazione:
2
p ¿R
2
=1 → relazione lineare perfetta (100%)
2
p ¿R
2
=0 → assenza di relazione lineare

Riassunto proprietà
Coefficiente di correlazione, proprietà:
- p xy = p xy→ simmetria
- p xx=1 → perfetta linearità
- −1 ≤ p xy ≤+ 1 → è un indice normalizzato
- se p xx= ± 1 → allora esiste una perfetta relazione lineare (Y=α±βX)
→ conseguenza: se conosco il valore di X allora posso determinare quello di
Y (e viceversa)
- p xx= 0 → variabili incorrelate (nessuna relazione)

Correlazione
● Il segno di 𝜌 dà informazioni sul tipo di relazione:
● il segno positivo indica che le due variabili aumentano o diminuiscono
assieme (relazione lineare positiva)
● il segno negativo indica che all’aumentare di una variabile l’altra
diminuisce e viceversa (relazione lineare negativa)
● Il valore numerico di 𝜌 esprime la forza del legame lineare, cioè la misura
dell’intensità della relazione tra X e Y.
● Quindi, tale legame può essere forte in senso positivo o negativo.

Esempi:
● 𝜌𝑡𝑎𝑡𝑢𝑎𝑔𝑔𝑖; 𝑠𝑜𝑐𝑖𝑎𝑙_𝑚𝑒𝑑𝑖𝑎 = − 0.165
● 𝜌𝑚𝑒𝑑𝑖𝑎_𝑎𝑐𝑐𝑒𝑠𝑠𝑖; 𝑚𝑒𝑑𝑖𝑎_𝑙𝑖𝑘𝑒 = 0,721
● 𝜌𝑚𝑒𝑑𝑖𝑎_𝑙𝑖𝑘𝑒; 𝑚𝑒𝑑𝑖𝑎_𝑝𝑜𝑠𝑡 = 0,531
● 𝜌𝑏𝑖𝑠𝑜𝑔𝑛𝑜_𝑚𝑒𝑠𝑠𝑎𝑔𝑖𝑜; 𝑛𝑒𝑟𝑣𝑖_𝑚𝑒𝑠𝑠𝑎𝑔𝑔𝑖𝑜 = 0,387
● 𝜌𝑛𝑒𝑟𝑣𝑖_𝑚𝑒𝑠𝑠𝑎𝑔𝑖𝑜; 𝑝𝑒𝑛𝑠𝑎_𝑚𝑒𝑠𝑠𝑎𝑔𝑔𝑖𝑜 = 0,446
Valori di riferimento per le scienze sociali:
● 𝜌 = ± 0,1 effetto piccolo
● 𝜌 = ± 0,3 effetto medio
● 𝜌 = ± 0,5 effetto grande

Statistical power analysis for behavioral science (2nd ed). Cohen, J. (1988)
Attenzione!
assenza di correlazione lineare non significa assenza di una relazione tra X e Y…

in effetti non si "vede" correlazione lineare qui


Esempi di relazioni
Distribuzioni statistiche multiple
● Variabili quantitative
● Problematiche
Correlazione spuria: quando il legame tra X e Y si manifesta solo perché
entrambe sono funzioni di una terza variabile che condiziona entrambe.

Esempi:
Successione dei prezzi di un bene al mercato e altezza del fiume vicino mostrano
una forte correlazione
● Entrambi seguono un andamento paraboloide nell’arco di una giornata....
Numero di turisti giunti a Roma e numero di gelati venduti nella capitale
presentano una forte correlazione
● La variabile che determina il loro andamento è la temperatura che influenza
le variazioni stagionali

● Variabili quantitative
● Problematiche

Dati estremi
● La presenza di dati anomali ma esistenti oppure semplicemente errati (da
eliminare o correggere) modifica le medie, ma influenza molto di più il
prodotto degli scarti
● In tal modo contribuisce a sminuire o addirittura capovolgere la forza e la
direzione del legame misurato dal coefficiente di correlazione

Esempio excel → Calcolo correlazione


Causalità
L’analisi di correlazione bivariata è una metodologia simmetrica in cui si
considerano le variabili X e Y sullo stesso piano causale.

Metodi simmetrici vs metodi asimmetrici

Nei metodi simmetrici non viene ipotizzata una relazione causale tra le variabili.
Non esiste quindi la suddivisione tra variabile dipendente e variabile
indipendente, ma le due variabili vengono considerate sullo stesso piano (es.:
Analisi di Correlazione).

I metodi asimmetrici vengono utilizzati per studiare relazioni di tipo “causa ed


effetto” tra le variabili. Il ricercatore ipotizza a priori una relazione causale tra le
due variabili: una viene considerata dipendente e l’altra indipendente (es.: Analisi
di Regressione).

Apofenia (immotivata visione di connessioni)


→ riconoscimento schemi o connessioni in dati che non hanno nessi causali

L’inferenza causale è riferibile in modo completo solo al livello teoretico e mai


dimostrabile empiricamente

Non è possibile assumere che le proposizioni causali formulate dal ricercatore


tengano sotto controllo tutte le variabili rilevanti rispetto ai nessi considerati
L'analisi causale, ancor più se riferita a disegni non sperimentali, può fondarsi
solo nel non rifiuto di una teoria, o meglio sulla non falsificabilità su base
empirica di una teoria

Il principio alla base di un approccio causale è quindi probabilistico, più che


deterministico, e il meccanismo sottostante prevede che le cause implicherebbero
l’incremento della probabilità che si verifichino gli effetti

Con riferimento alle scienze sociali che non possono utilizzare metodi
sperimentali, la verifica positiva dell'adattamento di un modello, ossia la non
falsificazione, corrisponde solo alla corroborazione provvisoria dell'operatività dei
meccanismi individuati

Potrebbero piacerti anche