Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Variabili quantitative
Una variabile quantitativa può essere rappresentata con una tabella di frequenza
solo se è stata ridotta in classi.
Se la variabile quantitativa è stata ridotta in classi, a partire dalla tabella di
frequenza si possono calcolare tutte le sintesi e i grafici previsti per le variabili
ordinali.
La riduzione in classi non è l'approccio ideale per affrontare l'analisi di una
variabile quantitativa perché comporta perdita di informazione ma, a livello
comunicativo, è utile per produrre grafici e tabelle.
→ Esempio: peso in kg di un campione di 20 studenti
52, 55, 59, 60, 61, 61, 62, 66, 70, 71, 72, 75, 78, 79, 81, 87, 89, 91, 93, 98
La media
La media (media aritmetica) si ottiene dalla somma dei valori osservati sulle unità
statistiche divisa per il numero di unità statistiche:
Proprietà:
La media rappresenta il baricentro della distribuzione.
1. La somma degli scarti dalla media è sempre pari a zero:
La media ponderata
La media aritmetica è un caso particolare di media ponderata, concetto che viene
introdotto al fine di tenere conto del diverso peso assegnato alle unità statistiche.
Una media ponderata si ottiene fissando un sistema di pesi.
Il valore di ogni unità statistica xi viene moltiplicato per il peso pi e la somma
viene divisa per la somma dei pesi:
→ Esempio
Si supponga che un contadino debba calcolare il profitto medio ottenuto con la coltivazione di un
appezzamento. L’appezzamento è diviso in quattro parti indicate con le lettere A, B, C, D.
Il campo A occupa il 40% dell’appezzamento, B il 10%, C il 30% e D il 20%. Il ricavo ottenuto è così
distribuito:
A 1000€
B 1200€
C 300€
D 1500€
Siccome la distribuzione non è in parti uguali, il calcolo del profitto medio
deve tenere conto delle dimensioni di ciascun campo. In base alle percentuali si possono assegnare,
rispettivamente, alle quattro unità statistiche i pesi 0,4 0,1 0,3 e 0,2. La media ottenuta è 910€:
X = 1000 ⋅ 0,4 + 1200 ⋅ 0,1 + 300 ⋅ 0,3 + 1500 ⋅ 0,2 = 910
(si possono anche moltiplicare i ricavi per le percentuali e dividere la somma
per 100)
—> Esempio
Il ruolo dei CFU nel calcolo della media dei voti.
Media aritmetica:
Media ponderata:
La mediana
Come abbiamo già visto nel caso delle variabili ordinali, la mediana è il
valore/categoria che divide in due parti uguali il campione ordinato.
La mediana di una variabile quantitativa è il valore dell'unità statistica che si
trova al centro del campione ordinato.
Se il numero di unità statistiche è dispari, c'è una sola unità al centro.
Se il numero di unità statistiche è pari, ci sono due unità al centro. In questo
caso la mediana è il valore che sta in mezzo ai due valori, cioè la media dei due
valori centrali.
La posizione della mediana è data da (𝑛 + 1)/2.
se ai 20 studenti aggiungiamo uno studente (n=21) che pesa 83 kg se ai 20 studenti aggiungiamo uno studente (n=21) che pesa
52, 55, 59, 60, 61, 61, 62, 66, 70, 71 |72| 75, 78, 79, 81, 83, 87, 283 kg
89, 91, 93, 98 52, 55, 59, 60, 61, 61, 62, 66, 70, 71 |72| 75, 78, 79, 81, 87,
il peso mediano è 72 kg il peso medio è 73,48 kg 89, 91, 93, 98, 283 il peso mediano è 72 kg
il peso medio è 83 kg
Effetto outliers (valori anomali ed estremi)
Confronto e sintesi
- La Moda è utile per visualizzare l’opzione più frequente. Si dice che è
l’indice per governare (consenso), perché minimizza gli ‘scontenti’.
- Può accadere che data una distribuzione di dati, esista più di una modalità
a cui è associata la massima frequenza. In questi casi non esiste un'unica
Moda e si parlerà a seconda del caso di distribuzione bi- modale (con due
mode), tri-modale (con tre mode)...
I quantili
Anche nel caso delle variabili quantitative è possibile calcolare i quantili.
Nell'esempio del peso in kg di un campione di 20 studenti
52,55,59,60,61 | 61,62,66,70,71 | 72,75,78,79,81 | 87,89,91,93,98
- il primo quartile è 61 (Q1)
- il secondo quartile è 71,5 (ed è la mediana)
- il terzo quartile è tra 81 e 87 (Q3)
- Il calcolo verrà spiegato in laboratorio (soluzione estremi1 85,5, estremi1 82,5)
La posizione dei quartili è data da (𝑛 + 1)/4 (𝑛 + 1)/2 3( 𝑛 + 1)/4
→ Note:
Il ragionamento sui quantili ha senso quando è a disposizione un campione di
grandi dimensioni (laboratorio).
Per campioni piccoli si indica solo la mediana.
La variabilità
Gli scarti quadratici dalla media aritmetica sono la base per il calcolo dello scarto
quadratico medio e della deviazione standard (standard deviation).
Lo scarto quadratico medio (descrittivo per una popolazione di N unità statistiche)
ha sotto la radice una media degli scarti quadratici:
→ Nota:
con S2 si indica la varianza:
—> Esempio
La tabella riporta la valutazione in trentesimi ottenuta in un esame da un primo gruppo di 10 studenti.
La media aritmetica è 26.
Le due tabelle riportano i voti allo stesso esame di altri due gruppi di 10 studenti:
→ Esempio
Per ciascun gruppo di studenti (o per ciascun docente) la media dei voti è pari a 20, ma è evidente una
diversa dispersione intorno a tale valore.
I punteggi Z
La regola empirica si può applicare anche a una trasformazione dei valori delle
unità statistiche in punteggi z (z-score).
Il punteggio z di una unità statistica è il rapporto tra lo scarto dalla media
aritmetica e la deviazione standard:
La variabilità
Altre misure della variabilità presente nei dati sono:
1. Il campo di variazione (range) → è la differenza tra il valore più alto e il
valore più basso della distribuzione
𝑟𝑎𝑛𝑔𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
2. Lo scarto interquartilico (SIQ o IQR – Inter Quartile Range) o distanza
interquartile → è la differenza tra il terzo e il primo quartile
𝑆𝐼𝑄 = 𝐼𝑄𝑅 = 𝑄3 − 𝑄1
→ Nell'esempio del peso in kg di un campione di 20 studenti
52,55,59,60,61 | 61,62,66,70,71 | 72,75,78,79,81 | 87,89,91,93,98
𝑟𝑎𝑛𝑔𝑒 = 98 − 52 = 46
𝑆𝐼𝑄 = 82,5 − 61 = 21,5
Per identificare valori anomali (quelli che restano fuori dai "baffi").
Anche nel caso del box-plot, il ragionamento ha senso quando è a disposizione un
campione di grandi dimensioni (laboratorio).
Analisi bivariata con dati categoriali
Associazione tra due variabili categoriali Per verificare l'esistenza di una
"relazione" (associazione) tra due variabili categoriali si parte da una tabella di
frequenza a doppia entrata (tabella di contingenza). In questa tabella si prendono
in considerazione due caratteri/proprietà dell'unità statistica alla volta. I conteggi
rappresentano le frequenze assolute congiunte: per ogni coppia di modalità, una
cella contiene il numero di casi in cui si è osservata congiuntamente la modalità
di riga della prima variabile e la modalità di colonna della seconda.
Tabella di contingenza
Le righe della tabella → sono intestate alle modalità della prima variabile (sia essa
X, dotata di m modalità: x1, x2…, xm).
Le colonne → a quelle della seconda variabile
(sia essa Y, dotata di p modalità: y1, y2 …, yp).
La cella nij → rappresenta la frequenza
assoluta congiunta, cioè il numero di unità
statistiche del campione che possiedono
congiuntamente il carattere associato alla
modalità xi di riga i e il carattere associato
alla modalità yj di colonna j.
I totali di riga → rappresentano le frequenze (univariate o marginali) con cui sono
state osservate le modalità della prima variabile X.
I totali di colonna → sono le frequenze con cui sono state osservate le modalità
della seconda variabile Y.
Gradi di libertà = (m - 1) (p - 1)
I profili
Le frequenze relative condizionate si ottengono dividendo le frequenze congiunte
per il totale di riga (profili di riga) o per il totale di colonna (profili di colonna). Nel
momento in cui viene calcolata una frequenza condizionata si mette una variabile
in relazione con l'altra in un'ottica asimmetrica.
Profili di riga:
Gradi di libertà = (m - 1) (p - 1) = 1
L’indice tetracorico φ
Il grado di associazione tra le due variabili categoriali dicotomiche si misura
attraverso l’indice φ (phi) tetracorico:
→ Esempio:
Sono stati intervistati 13 studenti di un corso di laurea magistrale. Di questi 13 studenti, 7 sono
studenti lavoratori. Con riferimento alla condizione (lavoratore e non lavoratore) si analizzano due
domande di questionario con risposta dicotomica si/no: soddisfazione rispetto all’orario, che
concentra le lezioni del pomeriggio del venerdì e nella mattinata del sabato soddisfazione rispetto
all’offerta di materiali didattici integrativi:
I risultati suggeriscono un'associazione tra la condizione di studente lavoratore e la soddisfazione
rispetto all’organizzazione dell’orario delle lezioni (dal segno dell’indice si vede che sono i lavoratori a
essere maggiormente soddisfatti) e un’associazione presente, sebbene più debole, tra la condizione di
studente lavoratore e disponibilità di materiale didattico (dal segno dell’indice si deduce che sono
soddisfatti i non lavoratori, mentre gli studenti lavoratori non considerano il materiale didattico
adatto alle proprie esigenze).
Regressione e correlazione
I dati di un campione di unità statistiche rilevati con la misurazione di una
variabile quantitativa si possono rappresentare come punti su una retta.
I dati rilevati con due variabili quantitative come punti su un piano cartesiano
(coppie di coordinate).
Questo tipo di rappresentazione si chiama scatterplot (o diagramma a
dispersione).
Esempio:
età pressione
25 120
30 125
42 130
140
55
145
58 160
64 155
70 165
75
X→Y
ipotesi: l'età ha un effetto sulla pressione
età → pressione
X→Y
età pressione
25 120
30 125
42 130
140
55
145
58 160
64 155
70 165
75
Date due variabili X (indipendente) e Y (dipendente), si assume l'esistenza di una
relazione asimmetrica X → Y e si cerca una relazione di tipo funzionale (lineare se
è una retta) per "predire" i valori di Y a partire dai valori di X.
(data l'età, posso stimare la pressione? e per le età future?)
y = a + bx
a → intercetta
b → coefficiente angolare
∑ (x i−x )( y i− y )
b= i=1
❑
∑ ( xi −x)( y i− y)
p = i=1
2
❑
e il coefficiente di determinazione:
2 2
p ¿R
Interpretazione:
2
p ¿R
2
=1 → relazione lineare perfetta (100%)
2
p ¿R
2
=0 → assenza di relazione lineare
Riassunto proprietà
Coefficiente di correlazione, proprietà:
- p xy = p xy→ simmetria
- p xx=1 → perfetta linearità
- −1 ≤ p xy ≤+ 1 → è un indice normalizzato
- se p xx= ± 1 → allora esiste una perfetta relazione lineare (Y=α±βX)
→ conseguenza: se conosco il valore di X allora posso determinare quello di
Y (e viceversa)
- p xx= 0 → variabili incorrelate (nessuna relazione)
Correlazione
● Il segno di 𝜌 dà informazioni sul tipo di relazione:
● il segno positivo indica che le due variabili aumentano o diminuiscono
assieme (relazione lineare positiva)
● il segno negativo indica che all’aumentare di una variabile l’altra
diminuisce e viceversa (relazione lineare negativa)
● Il valore numerico di 𝜌 esprime la forza del legame lineare, cioè la misura
dell’intensità della relazione tra X e Y.
● Quindi, tale legame può essere forte in senso positivo o negativo.
Esempi:
● 𝜌𝑡𝑎𝑡𝑢𝑎𝑔𝑔𝑖; 𝑠𝑜𝑐𝑖𝑎𝑙_𝑚𝑒𝑑𝑖𝑎 = − 0.165
● 𝜌𝑚𝑒𝑑𝑖𝑎_𝑎𝑐𝑐𝑒𝑠𝑠𝑖; 𝑚𝑒𝑑𝑖𝑎_𝑙𝑖𝑘𝑒 = 0,721
● 𝜌𝑚𝑒𝑑𝑖𝑎_𝑙𝑖𝑘𝑒; 𝑚𝑒𝑑𝑖𝑎_𝑝𝑜𝑠𝑡 = 0,531
● 𝜌𝑏𝑖𝑠𝑜𝑔𝑛𝑜_𝑚𝑒𝑠𝑠𝑎𝑔𝑖𝑜; 𝑛𝑒𝑟𝑣𝑖_𝑚𝑒𝑠𝑠𝑎𝑔𝑔𝑖𝑜 = 0,387
● 𝜌𝑛𝑒𝑟𝑣𝑖_𝑚𝑒𝑠𝑠𝑎𝑔𝑖𝑜; 𝑝𝑒𝑛𝑠𝑎_𝑚𝑒𝑠𝑠𝑎𝑔𝑔𝑖𝑜 = 0,446
Valori di riferimento per le scienze sociali:
● 𝜌 = ± 0,1 effetto piccolo
● 𝜌 = ± 0,3 effetto medio
● 𝜌 = ± 0,5 effetto grande
Statistical power analysis for behavioral science (2nd ed). Cohen, J. (1988)
Attenzione!
assenza di correlazione lineare non significa assenza di una relazione tra X e Y…
Esempi:
Successione dei prezzi di un bene al mercato e altezza del fiume vicino mostrano
una forte correlazione
● Entrambi seguono un andamento paraboloide nell’arco di una giornata....
Numero di turisti giunti a Roma e numero di gelati venduti nella capitale
presentano una forte correlazione
● La variabile che determina il loro andamento è la temperatura che influenza
le variazioni stagionali
● Variabili quantitative
● Problematiche
Dati estremi
● La presenza di dati anomali ma esistenti oppure semplicemente errati (da
eliminare o correggere) modifica le medie, ma influenza molto di più il
prodotto degli scarti
● In tal modo contribuisce a sminuire o addirittura capovolgere la forza e la
direzione del legame misurato dal coefficiente di correlazione
Nei metodi simmetrici non viene ipotizzata una relazione causale tra le variabili.
Non esiste quindi la suddivisione tra variabile dipendente e variabile
indipendente, ma le due variabili vengono considerate sullo stesso piano (es.:
Analisi di Correlazione).
Con riferimento alle scienze sociali che non possono utilizzare metodi
sperimentali, la verifica positiva dell'adattamento di un modello, ossia la non
falsificazione, corrisponde solo alla corroborazione provvisoria dell'operatività dei
meccanismi individuati