CAP 5: Tabulazione incrociata: quando le variabili sono categoriali (nominali o ordinali) Si voglia studiare la variabile
età e la variabile pratica religiosa a partire da dati ottenuti da un’inchiesta campionaria. Per fare ciò organizziamo i dati
in una tabella detta A DOPPIA ENTRATA (o ad incrocio o tabulazione incrociata), nella quale collochiamo in riga una
variabile, detta variabile di riga e in colonna l’altra, detta variabile di colonna. Nelle celle definite dall’incrocio fra le
righe e le colonne viene posto il numero di casi che presentano le corrispondenti
modalità delle due variabili (frequenze). Vengono anche aggiunti i totali di riga e di colonna che si chiamano frequenze
marginali.
18-34 35-54 Oltre 54 TOT Praticanti 223 313 182 718 Saltuari 266 317 88 671
Non praticanti 425 504 168 1097 TOT 914 1134 438 2486
Su queste frequenze si possono effettuare tre tipi diversi di percentualizzazione, ottenendo tre diverse tabelle:
• tabella delle percentuali di riga (si portano a 100 i praticanti, i saltuari e i non praticanti e si ottengono quanti praticanti
son giovani, adulti e quanti sono anziani) 223 : 718 x 100 = 31,1% di giovani, 313 : 718 x 100 = 43,6% di adulti, 182 :
718 x 100 = 25,3% di anziani
• tabella percentuali di colonna: 223 : 914 x 100 = 24,4% di giovani è praticante
• tabella delle percentuali sul totale
Se il nostro obiettivo è quello di affermare l’esistenza o meno di una relazione fra età e pratica, solo la tabella delle
percentuali per colonne è utile. Questa tabella ci dice quanti sono i praticanti per gruppi di età, una volta poste a 100 le
basi di confronto e cioè presi 100 giovani, 100 adulti e 100 anziani, quanti sono i praticanti in ogni gruppo.
Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla
variabile posta in riga, mentre si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile
posta in riga ha sulla variabile posta in colonna. Si definisce qual è la variabile indipendente e si percentualizza
all’interno delle sue modalità.
La forma di presentazione consigliata è questa:
18-34 35-54 Oltre 54 Praticanti 24,4 27,6 41,5 Saltuari 29,1 28,0 20,1
Non praticanti 46,5 44,4 38,4 TOT 100 100 100 (N) 914 1134 438
Va riportata solo la percentualizzazione che serve (quella di riga o quella di colonna) e non è necessario presentare le
frequenze assolute (che sono ricavabili dal prodotto fra percentuali e basi delle stesse). È utile che ogni riga (o colonna)
percentuale finisca col totale 100. È indispensabile riportare per ogni colonna o riga la base delle percentuali (N) sulle
quali esse sono state calcolate. È assai imprudente calcolare e commentare percentuali su basi inferiori a 50 casi. Le
tabelle devono essere sempre intestate: è importante che la tabella sia auto-esplicativa, cioè che essa contenga tutte le
informazioni necessarie per la sua comprensione, senza dover ricorrere al teso del rapporto nel quale essa si trova
inserita.
Interpretazione delle tabelle In linea generale, nel caso di un’inchiesta campionaria una differenza tra percentuali,
perché sia degna di nota deve essere superiore ai 5 punti percentuali.
Prendiamo questo esempio: risposte alla domanda “lei è soddisfatto dell’operato del governo?” per ampiezza del
comune di residenza.
+250.000 100-250.00 0
50-100.000 10-50.0000 1-10.000 -10.000 TOT
Per nulla 97 26 29 22 62 10 246 Poco 168 71 99 249 253 8 848
Non so 89 36 49 118 153 1 446 Abbastanza 159 66 92 246 326 5 894
Molto 3 2 2 8 14 1 30 TOT 516 201 271 643 808 25 2464
Ovviamente, la variabile indipendente è l’ampiezza del comune e quindi la percentualizzazione deve essere fatta per
colonna. Ma prima di fare questa operazione, notiamo che l’ultima colonna, quella relativa ai comuni con meno di
10.000 abitanti, ha un campione troppo piccolo, di 25 persone. Risulta quindi necessario aggregare le ultime due
colonne, unificando le due categorie 1-10.000 e -10.000, nell’unica categoria -10.000. Una volta compiuto questo
passaggio, otteniamo questa tabella:
+250.000 100-250.000 50-100.000 10-50.000 -10.000 Per nulla 18,8 12,8 10,8 3,4 8,6
Poco 32,5 35,3 36,5 38,7 31,3 Non so 17,3 18,0 18,0 18,4 18,5
Abbastanza 30,8 32,9 34,0 38,3 39,8 Molto 0,6 1,0 0,7 1,2 1,8 TOT 100 100 100 100 100
N 516 201 271 643 833
All’interrogativo: “c’è una relazione fra ampiezza del comune e grado di soddisfazione del governo?” non bisogna
rispondere semplicemente elencando le percentuali sostenendo ad esempio che nei comuni con più di 250.000 abitanti
prevalgono le persone poco soddisfatte. Un esempio di commento corretto è:
come si può notare, la percentuale di coloro che dichiarano di essere per nulla soddisfatti del governo diminuisce
gradatamente col diminuire della dimensione della città: l’insoddisfazione è massima nelle città sopra i 250.000
abitanti (18,8%), scende regolarmente fino ad un livello minimo nelle città con 10.000 abitanti, per risalire lievemente
nei comuni ancora più piccoli (8,6% ). Se si prescinde da quest’ultima eccezione possiamo affermare che
l’insoddisfazione cresce col crescere della grandezza delle città.
Se la variabile dipendente è ordinale è spesso di grande utilità aggregare le modalità estreme e contigue della variabile
dipendente. Nel nostro esempio si possono unire i “per nulla soddisfatti” e i “poco soddisfatti” nell’unica categoria
“insoddisfatti”. Questo modo di procedere comporta di solito una notevole pulizia della relazione, in questo caso
sparisce quell’incongruenza che avevamo notato nell’ultima categoria di città.
Tabelle a doppia entrata particolari: le tavole di mobilità sociale In questa tipologia di tabelle su una dimensione si
colloca la classe sociale dei soggetti studiati e sull’altra quella dei loro padri. Poiché le due variabili “classe sociale
padre” e “classe sociale figlio”
hanno le stesse modalità, nelle celle sulla diagonale si trovano i soggetti cosiddetti immobili cioè coloro che restano
nella stessa classe sociale dalla quale provengono, mentre nelle celle fuori dalla diagonale si collocano i soggetti mobili;
e in particolare, nel triangolo sopra alla diagonale abbiamo i soggetti che hanno sperimentano un processo di mobilità
ascendente e nel triangolo sotto alla diagonale coloro che hanno sperimentato un processo di mobilità sociale
discendente.
Rappresentazioni grafiche della relazione fra due variabili nominali Si usano sostanzialmente i diagrammi a barre
oppure le spezzate. Si riportano su un piano cartesiano sull’asse orizzontale le modalità della variabile indipendente e
sull’asse verticale le frequenze percentuali relative alla modalità della variabile dipendente che abbiamo scelto come più
rilevante. Se la variabile indipendente è nominale si può utilizzare solo il diagramma a colonne. Se la variabile è
ordinale oppure cardinale raggruppata per classi, possiamo anche rappresentare la relazione della tabella tramite una
spezzata che congiunge i punti corrispondenti ai valori delle percentuali.
Misure di forza della relazione Per misurare la forza esistono diversi indici:
• per le variabili nominali parliamo di MISURE DI ASSOCIAZIONE • per le variabili ordinali si parla di MISURE DI
COGRADUAZIONE
Naturalmente le misure pensate per le variabili nominali sono come al solito applicabili anche alle ordinali.
Un modo per misurare la forza è calcolare la differenza tra le frequenze attese sotto l’ipotesi di indipendenza e le
frequenze osservate nei dati.
18-34 35-54 Oltre 54 TOT Praticanti 223 313 182 718 Saltuari 166 317 88 671 Non praticanti 425 504 168 1097 TOT
914 1134 438 2486
Quando abbiamo indipendenza tra pratica religiosa ed età? Quando le percentuali di praticanti, saltuari e di non
praticanti sono uguali in tutte le categorie di età e quindi sono uguali a quelle sul totale della popolazione. Le frequenze
attese vengono calcolate così:
fe = totale di riga x totale di colonna / totale tabella
quindi per la cella dove c’è il 223 si fa: 718 x 914 / 2486 = 264
Si costruisce una nuova tabella con le frequenze attese:
18-34 35-54 Oltre 54 TOT Praticanti 264 327 126,5 718 Saltuari 246 306,1 118,2 671 Non praticanti 403 500,4 193,3
1097 TOT 914 1134 438 2486
A questo punto si deve calcolare la differenza tra la tabella delle frequenze osservate e quella delle frequenze attese
sotto l’ipotesi di indipendenza. Questa differenza viene sintetizzata in un’unica misura che viene chiamata CHI
QUADRO, che ha questa formula:
Il valore del chi-quadro assumerà il valore 0 nel caso limite di indipendenza perfetta nei dati, mentre sarà tanto più
elevato quanto maggiore è la distanza fra frequenze osservate e frequenze attese, cioè tanto più le frequenze osservate si
allontanano dall’ipotesi di indipendenza. Il suo valore quindi può essere assunto a misura della forza della relazione fra
le due variabili. Ma il valore di chi-quadro dipende dalla numerosità dei casi della tabella. Prendendo ad esempio la
stessa tabella, se dividessimo tutte le frequenze per 10, anche il chi-quadro si dividerebbe per 10. Se il campione
raddoppia, il valore del chi-quadro raddoppia, se triplica anche il chi-quadro triplica. Per ovviare a questo inconveniente
sono state avanzate varie proposte, tra cui l’indice V di Cramèr che assume valori fra 0 (indipendenza) e 1 (relazione
perfetta). Questa è la sua formula:
dove k è uguale al numero di modalità della variabile con il minore numero di modalità (ossia al minore fra numero di
righe e numero di colonne della tabella).
Misure di associazione fra variabili dicotomiche Se le due variabili messe in relazione sono entrambe dicotomiche V
coincide con il coefficiente di correlazione r di Pearson, una misura da utilizzare quando entrambe le variabili sono
cardinali e che si può calcolare anche quando le variabili sono dicotomiche. Nel caso di una tabella 2x2 il calcolo e la
formula sono più semplici:
abcd
TOT (a+c) TOT (b+d)
Manuali Non manuali TOT SX 272 782 1054 DX 209 672 881 TOT 481 1454 1935
V = cd-bc /√(a+b)(c+d)(a+c)(b+d)
272 x 672 – 209 x 782 /√1054 x 881 x 481 x 1454 = 0.024
Misure di co-graduazione Se la relazione è fra una variabile nominale e una ordinale, useremo le stesse misure di
associazione che abbiamo appena presentato per il caso di due variabili nominali.
Se le due variabili sono entrambe ordinali possiamo sempre impiegare le misure di associazione viste per le variabili
nominali, ma possiamo anche utilizzare delle nuove. Quando la relazione è fra variabili ordinali, essa assume anche un
SEGNO: una relazione si dice positiva se a valori alti di una variabile tendono a corrispondere valori alti dell’altra, si
dice negativa se a valori alti di una tendono corrispondere valori bassi dell’altra. Tutte le MISURE DI CO-
GRADUAZIONE si basano sullo stesso principio, cioè sul CONFRONTO tra valori assunti dalle variabili X e Y su
tutte le possibili coppie di casi. Queste possono essere:
• Coppie CONCORDANTI: quando su un caso i valori di X e Y sono entrambi maggiori o minori dei valori delle stesse
variabili sull’altro caso (per esempio se il soggetto 1 è più istruito X e più praticante Y del soggetto 2).
• Coppie DISCORDANTI: quando una variabile assume su un caso un valore maggiore mentre l’altra variabile assume
un valore minore rispetto ai valori assunti sull’altro caso (il soggetto 1 è più istruito e meno praticante del soggetto 2).
• Coppie APPAIATE: se i due casi presentano lo stesso valore su una o entrambe le variabili.
Se la maggioranza delle coppie è concordante, oppure discordante, allora abbiamo una relazione fra le due variabili; se
ci sono tante coppie concordanti quante discordanti allora non c’è relazione (o co-graduazione). Sulla base di questo
meccanismo sono state proposte diverse misure di co-graduazione, tra cui il gamma di Goodman e Kruskal:
γ=C–D/C+D
dove C è il numero di coppie concordanti, D è il numero di coppie discordanti. Gamma assume valore +1 in caso di
perfetta relazione positiva e -1 in caso di perfetta relazione negativa e 0 in caso di assenza di relazione. Se ad esempio
prendendo la relazione fra età e pratica religiosa il γ=0,124, possiamo dire che esiste una relazione positiva e che la
probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore età sia anche quello che ha maggiore
pratica è superiore del 12,4% alla probabilità di trovare l’opposto.
Rapporti di probabilità Data una variabile il metodo tradizionale per esprimere il diverso rilievo delle sue modalità è
quello di ricorrere alle proporzioni, o al loro equivalente, le percentuali. Avendo ad esempio 1.188 favorevoli e 604
contrari alla pena di morte, comunemente si esprime lo squilibrio numerico fra le due categorie dicendo che i primi
sono il 66,3% degli intervistati e cioè sul totale (1.188/1.792 x 100). Ma lo squilibrio tra favorevoli e contrari si può
rappresentare facendo il rapporto tra gli appartenenti alle due categorie, ottenendo in questo caso 1.188/604=1,97,
esprimibile verbalmente dicendo che “ci sono quasi 2 favorevoli per ogni persona contraria”.
Mentre chiamavamo proporzione il rapporto tra la parte e il tutto, chiamiamo questo rapporto fra la frequenza di una
categoria e la frequenza della categoria alternativa (nel caso di dicotomiche) RAPPORTO DI PROBABILITA’ (odds).
Il rapporto di probabilità è definibile come il rapporto tra la probabilità che un individuo, estratto a caso dalla
popolazione, appartenga a una categoria della variabile considerata e la probabilità che non vi appartenga. Il rapporto di
probabilità assume il valore 1 quando le due categorie della variabile hanno lo stesso peso (equivalente alla proporzione
di 0,5 per entrambe), ha come valore minimo lo 0, ma non ha un limite superiore.
Questo rapporto di variabilità fa riferimento a due categorie di una stessa variabile dicotomica, ma lo studio può essere
esteso anche al caso di due variabili. Prendiamo ad esempio una tabella a doppia entrata tra due variabili dicotomiche
(istruzione X e l’atteggiamento verso la pena capitale Y):
atteggiamento F 0 E A/istr F 0 E 8 Inferiore superiore TOT Favorevoli a 1027 b 161 1.188 Contrari c 397 d 207 604
TOT 1.424 368 1.792
La tecnica più comunemente utilizzata per studiare la relazione fra le variabili fa anche in questo caso ricorso alle
proporzioni, in particolare alle PROPORZIONI CONDIZIONATE
• Meno istruiti: p1 = a / a+c e quindi 1027 / 1424 = 0,721 • Più istruiti: p2 = b / b+d e quindi 161 / 368 = 0,438
Ora, invece delle proporzioni condizionate e cioè i rapporti fra frequenze parziali e totali (favorevole/totale) per le due
categorie di istruzione, si considerino i RAPPORTI DI PROBABILITA’ CONDIZIONATI: cioè i rapporti
FAVOREVOLI/CONTRARI sempre per le due categorie di istruzione:
• 1027/397 = 2,59 questo significa che fra i meno istruiti ci sono 2,6 favorevoli alla pena capitale per ogni contrario (e si
può scrivere 2,6 : 1)
• 161/207 = 0,27 questo significa che fra i più istruiti il rapporto è circa 0,8 a 1
Se i due rapporti fossero uguali, allora non ci sarebbe relazione fra istruzione e atteggiamento verso la pena capitale.
Invece già da questi numeri si vede come il rapporto favorevoli/contrari sia maggiore fra i meno istruiti che fra i più
istruiti per cui esiste una relazione fra le due variabili. Questo confronto può essere formalizzato dal RAPPORTO FRA
GLI ODDS CONDIZIONATI (odds ratio), cioè rapporto fra i rapporti di probabilità:
ω1 / ω2 = a/c / b/d F 0E 8 ad / bc 1027 x 207 / 397 x 161 = 3,3
Il valore ottenuto (3,3) può essere interpretato in questo modo:
“posto uguale a 1 il rapporto favorevoli/contrari fra i più istruiti, esso assume il valore 3,3 fra i meno istruiti”.
Questo significa che passando dai più istruiti ai meno istruiti il rapporto tra favorevoli e contrari passa ad oltre il triplo.
Questo rapporto può assumere valore compreso tra 0 e +∞, passando per il valore 1 che significa totale indipendenza fra
le variabili.
• Valori superiori ad 1 stanno a significare un’associazione positiva fra le variabili
• valori inferiori a 1 significano che c’è un’associazione negativa.
• Per associazione positiva intendiamo che i soggetti della categoria X1 hanno probabilità di collocarsi nella categoria
Y1 maggiore di quanto sia la probabilità dei soggetti della categoria X2
Nel nostro esempio avevamo un’associazione positiva: il rapporto aveva valore superiore a 1: i meno istruiti (categoria
X1) hanno probabilità maggiori dei più istruiti di collocarsi nella categoria
Y1 (favorevoli alla pena di morte), maggiore di quanto sia la probabilità dei soggetti della categoria X2. Il valore del
rapporto di associazione non risente della dimensione del campione e non cambia se entrambe le frequenze di una riga o
di una colonna vengono moltiplicate per una costante. Gli odds ratio possono essere calcolati SOLO SU TABELLE
2x2, non possono essere utilizzati per sintetizzare con un’unica misura di associazione una relazione fra variabili non
dicotomiche.
Cap 6 Regressione semplice (quando la variabile dipendente è cardinale) La principale tecnica utilizzata dai ricercatori
per effettuare questo tipo di analisi è la REGRESSIONE LINEARE SEMPLICE. Consideriamo il caso in cui anche la
variabile indipendente è di tipo cardinale. Possiamo ad esempio chiederci: che relazione c’è tra il numero di ore
dedicate alla preparazione di un certo esame e il voto ricevuto in quell’esame. Oppure è vero che il tasso di fecondità
diminuisce all’aumentare del tasso di partecipazione femminile al mercato del lavoro? Questi quesiti sono fondamentali
nelle scienze sociali, che si cercano di stabilire in quale misura la variabile indipendente influisce su quella dipendente o
più tecnicamente rilevare l’ INTENSITA’ DELL’EFFETTO esercitato dalla variabile indipendente su quella
dipendente.
Quando si analizza la relazione fra due variabili nominali, il primo passo consiste nel rappresentare graficamente tale
relazione mediante il cosiddetto DIAGRAMMA DI DISPERSIONE/SCATTER PLOT. Quest’ultimo è un semplice
piano cartesiano che ordina i valori della variabile dipendente X lungo l’asse orizzontale (ascisse) e i valori della
variabile dipendente Y lungo l’asse verticale (ordinate). Ogni osservazione viene collocata all’interno del piano e
l’insieme dei punti così tracciati illustra visivamente il modo in cui le due variabili co-variano e cioè variano insieme.
Dall’osservazione del diagramma si possono trarre alcune indicazioni utili per l’analisi. Il modo in cui i punti sono
disposti suggerisce il tipo di relazione. Se la nuvola di punti si estende dall’angolo in basso a sinistra all’angolo in alto a
destra la relazione ha segno positivo cioè all’aumentare del voto di laurea tende a crescere anche il reddito. Se la
disposizione dei punti suggerisce che la forma della relazione è lineare, significa che Y tende a variare con X nella
stessa direzione e sempre nella stessa misura.
Il diagramma di dispersione ci consente di desumere la FORMA della relazione, ma non ci dice nulla di preciso sull’
INTENSITA’ dell’effetto causale. Quello che è importante capire è QUANTO varia Y al variare di X. Per rispondere a
questa domanda è necessario esprimere la relazione che lega le due variabili mediante un’equazione matematica. Ogni
equazione matematica è definita dalla sua forma funzionale e dai valori assunti dai suoi parametri.
Y = α + βX
Questa equazione lineare afferma che il valore della variabile dipendente Y è uguale al parametro α + il valore assunto
dalla variabile indipendente X moltiplicato per il parametro β.
• α è detto intercetta o costante ed esprime il valore assunto da Y quando X=0
• β ci dice di quanto varia il valore di Y per ogni variazione unitaria di X. Rappresenta l’elemento di maggiore interesse
per il ricercatore perché esprime l’ INTENSITA’ dell’effetto esercitato dalla variabile indipendente su quella
dipendente. È opportuno sottolineare che tale effetto è COSTANTE qualunque sia il valore di X.
L’equazione lineare costituisce la base della regressione lineare semplice, cioè della tecnica che è comunemente
utilizzata dagli scienziati sociali per analizzare le relazioni fra coppie di variabili cardinali. È legittimo porsi un dubbio:
com’è possibile rappresentare mediante un’equazione lineare una relazione complessa (come ad esempio tra “voto di
laurea” e “reddito”? La relazione fra X e Y non è perfetta (lo sarebbe se a ogni valore della variabile indipendente
corrisponde un solo valore della variabile dipendente e tutte le osservazioni si collocano sulla linea). Qualsiasi relazione
bivariata che possa suscitare l’interesse degli scienziati sociali non può essere rappresentata esattamente da
un’equazione lineare: qualunque retta si tracci all’interno del diagramma di dispersione non potrà mai “toccare”
contemporaneamente tutti i punti. Può essere utile individuare una linea retta che seppure in modo imperfetto e
semplificato, approssimi tale relazione. Lo scopo della regressione lineare semplice è stimare i valori dei parametri
dell’equazione lineare (α e β) corrispondenti alla retta che, meglio di ogni altra, approssima la covariazione osservata
fra la variabile indipendente e quella dipendente. Tale retta assume la seguente forma matematica:
Ŷi = α+βXi
L’unica differenza è che al simbolo Y è stato aggiunto un accento circonflesso che indica che i valori della variabile
dipendente definiti dall’equazione lineare non sono quelli osservati, ma quelli PREDETTI o ATTESI sulla base di α e β
stimati. Se vogliamo esprimere in forma matematica i valori osservati di Y, allora dobbiamo aggiungere all’equazione
lineare, detta anche EQUAZIONE PREDITTIVA o MODELLO DI REGRESSIONE LINEARE un ulteriore elemento,
gli ERRORI DI PREDIZIONE:
Yi = α + βXi + εi
Gli errori di predizione esprimono la differenza tra il valore osservato di Y e quello predetto dal modello di regressione
lineare. Quindi:
εi = Yi –Ŷ F 0E 8 Yi – α – βX
Gli errori di predizione sono anche chiamati residui perché corrispondono a quella parte del valore di Y che “va oltre”
la relazione lineare rappresentata dall’equazione predittiva, cioè quella parte del valore di Y che non può essere
“spiegata” dall’effetto lineare di Y. Il termine ε esprime l’influenza esercitata su Y da tutti i fattori causali che non sono
presi esplicitamente in considerazione dal modello di regressione lineare prescelto.
• non è nemmeno detto che la relazione fra X e Y sia perfettamente lineare • il modello di regressione lineare semplice
esprime valori di Y come funzione di un’unica
variabile indipendente X, senza tenere conto del fatto che tali valori possono essere influenzati in modo significativo
anche da altre variabili
• il comportamento umano è poi caratterizzato da una certa dose di casualità di cui nessun modello di regressione
potrebbe mai rendere conto e che fa sì che il valore di Y non sia mai perfettamente prevedibile
Lo scopo della regressione lineare semplice è quello di stimare i valori dei parametri α e β corrispondenti alla retta che
approssima meglio di ogni altra la co-variazione osservata fra X e Y. Ciò equivale a dire che la migliore retta di
regressione è quella che minimizza la differenza tra i valori osservati di Y e quelli predetti dal modello e cioè
MINIMIZZA GLI ERRORI DI PREDIZIONE. La migliore retta di regressione è quella che minimizza la somma degli
errori di predizione al quadrato e cioè che rende minima questa quantità:
Σ (Yi – Ŷi)2 = Σεi2
Come dobbiamo interpretare i valori della variabile dipendete predetti dal modello di regressione lineare? Dobbiamo
servirci della MEDIA. Se la relazione fra X e Y è effettivamente lineare, nel complesso i casi sovrastimati tenderanno a
essere controbilanciati dai casi sottostimati, cosicché in media i valori di Y osservati in corrispondenza di ogni dato
livello di X approssimeranno il valore di Y predetto per quel livello di X. L’obiettivo di ogni modello di regressione non
è quello di riprodurre esattamente la relazione osservata fra due variabili, ma di evidenziarne le caratteristiche salienti,
in modo tale da offrirne una rappresentazione parsimoniosa e intelligibile (seppure semplificata).
Retta di regressione, intensità dell’effetto e potere predittivo Scopo essenziale della regressione lineare semplice è
quello di stimare l’intensità dell’effetto esercitato dalla variabile indipendente su quella dipendente, cioè di calcolare la
misura in cui il valore di Y varia al variare del valore di X. L’intensità è espressa dal parametro β, cioè dall’inclinazione
della retta di regressione. A volte i ricercatori non si accontentano di ricercare solo questo parametro ma vogliono anche
misurare la STRETTEZZA DELLA RELAZIONE TRA X e Y cioè la misura in cui la retta di regressione approssima
la covariazione osservata fra variabile dipendente e indipendente. Rilevare la strettezza della relazione fra X e Y
equivale a calcolare il POTERE PREDITTIVO della retta di regressione stimata, cioè a stabilire con quale precisione la
conoscenza dei valori di X ci consente di indovinare i valori di Y. Una misura di potere predittivo è l’ERRORE
STANDARD DELLA REGRESSIONE:
σ(ε) = √ Σ(Y-Ŷ)2 / N-2
Questa misura equivale alla radice quadrata della somma degli errori di predizione al quadrato divisa per il numero dei
casi meno due (perché due sono i nostri parametri di riferimento, α e β). L’errore standard della regressione può essere
interpretato come una misura dell’errore di predizione medio. Quanto maggiore è il valore assunto da questa misura,
tanto minore è il potere predittivo della retta di regressione. Per esempio, prendendo due variabili come voto di laurea e
stipendio, se l’errore standard della regressione lineare risulta pari a 346.800 lire, ciò significa che in media i livelli di
reddito predetti dalla retta di regressione si discostano da quelli effettivamente osservati di un ammontare pari a questa
cifra.
Una misura di potere predittivo più nota e ampiamente utilizzata nelle scienze sociali è il COEFFICIENTE DI
DETERMINAZIONE R2 (r-quadro). Supponiamo di voler predire il reddito mensile di 263 individui presi in esame e
supponiamo che inizialmente, l’unica informazione di cui disponiamo è il reddito medio complessivo, cioè il valore
medio di Y che risulta pari a 2.912.400 lire. In mancanza di altre informazioni la sola strategia predittiva percorribile è
quella di attribuire a ciascun individuo un reddito pari al reddito medio. Per valutare il grado di precisione di questo
primo esercizio predittivo, ovvero il potere predittivo della semplice media, possiamo calcolare la somma delle
differenze al quadrato fra i valori osservati di Y e quelli predetti dalla media:
Σ (Y-Y con trattino (media))2
Quanto è maggiore il valore di questa somma, tanto è maggiore l’errore di predizione complessivo e quindi tanto
minore è il potere predittivo della media. Supponiamo che ci vengano dati i valori dei singoli soggetti, ad esempio
riguardo l’esempio di prima, supponiamo che ci vengano comunicati i voti di
laurea di tutti i soggetti. Se il voto di laurea influisce in qualche misura sul reddito da lavoro, è lecito attendersi che
disponendo di questa informazione, la nostra capacità di predire i valori osservati di Y sarà maggiore di quella
dimostrata conoscendo solo la media di Y. Per prima cosa dobbiamo stimare la retta di regressione e calcolare la somma
delle differenze al quadrato tra i valori osservati di Y e quelli predetti dalla retta di regressione e quindi calcolare la
somma delle differenze al quadrato fra i valori osservati di Y e quelli predetti dalla retta di regressione, cioè la SOMMA
DEGLI ERRORI DI PREDIZIONE AL QUADRATO:
Σ (Y – Ŷ)2
A questo punto disponiamo di due misure dell’errore di predizione: quella che si riferisce alla predizione basata solo
sulla media di Y e quella che si riferisce alla predizione basata sulla retta di regressione. La conoscenza dei valori della
variabile indipendente ci permette di migliorare in modo sostanziale la nostra capacità di predire i valori della variabile
dipendente. Questo miglioramento equivale a una riduzione dell’errore di predizione. In termini relativi la riduzione
dell’errore di predizione equivale al COEFFICIENTE DI DETERMINAZIONE e risulta uguale a:
R2 = Σ (Y-Y con trattino)2 – Σ (Y-Ŷ)2 / Σ (Y – Y con trattino)2
Il coefficiente di determinazione è una misura relativa del potere predittivo della retta di regressione. Si tratta di una
misura del tipo PRE (come quelle del capitolo precedente) in quanto esprime la riduzione percentuale dell’errore di
predizione iniziale (quello derivante dalla sola conoscenza della media di Y) che si ottiene prendendo in considerazione
i valori di X.
Si può dire che anche che il coefficiente di determinazione rappresenta la percentuale di variazione di Y “spiegata” in
senso statistico dalla variabile indipendente.
R-quadro può assumere valori compresi tra 0 (che equivale al caso in cui X non esercita alcuna influenza su Y) e 1 (che
equivale al caso in cui tutti i valori osservati di Y sono perfettamente predetti dalla retta di regressione). Il coefficiente
di correlazione è una misura spesso sopravvalutata e talvolta utilizzata in maniera inappropriata. Serve ambiguamente lo
scopo per il quale è stato originariamente concepito e cioè misurare il potere predittivo della retta di regressione. Questa
affermazione si basa sul fatto che il valore assunto da R quadro dipende in modo sostanziale n on solo dalla somma
degli errori di predizione al quadrato, ma anche dalla varianza della variabile indipendente. A parità di ogni altra
condizione il valore di R quadro è tanto più elevato quanto maggiore è la varianza di X. Al contrario, l’errore standard
della regressione non è influenzato in alcun modo dalle caratteristiche della distribuzione di X, ma dipende solo dalla
somma degli errori di predizione al quadrato.
Il coefficiente di determinazione spesso viene interpretato non solo come misura della stretta della relazione fra X e Y
ma anche come misura dell’intensità dell’effetto esercitato da X su Y. Questa interpretazione è assolutamente
SCORRETTA.
• La strettezza della relazione fra X e Y non è altro che la capacità della retta di regressione di approssimare
geograficamente i valori osservati di Y. Tale capacità NON HA NULLA A CHE FARE CON L’INTENSITA’
DELL’EFFETTO ESERCITATO DA X SU Y, che come abbiamo sottolineato, nel modello di regressione lineare
semplice è espressa esclusivamente dal parametro β.
(…) immagine libro
Il coefficiente di determinazione lo si può esprimere anche con la seguente formula:
R2 = β2 x Var(X) / β2 x Var(X) + [σ(ε)]2
Dove Var(X) denota la varianza della variabile indipendente. Il valore assunto da r quadro dipende
contemporaneamente da tre elementi:
• L’intensità dell’effetto esercitato da X su Y rappresentata dal parametro β • Il potere predittivo della retta di
regressione rappresentato dall’errore standard della
regressione σ(ε) • La varianza di X
Due o più valori di R quadro uguali possono derivare da combinazioni molto diverse di questi tre elementi. In
qualunque modo lo si voglia interpretare quindi, il coefficiente di determinazione è di per sé intrinsecamente ambiguo e
scarsamente informativo. Concludendo quando si valutano i risultati di un modello di regressione lineare semplice
bisogna distinguere nettamente tra:
• Intensità dell’effetto esercitato da X su Y • La strettezza della relazione esistente tra X e Y
Casi anomali e casi influenti Accanto a molti pregi, questo metodo di stima ha un difetto principale: è molto sensibile
alla struttura dei dati oggetto di analisi, cioè produce risultati che possono essere influenzati, talvolta in maniera molto
marcata, dalla presenza di uno o più casi anomali. Nel contesto della regressione lineare semplice un CASO
ANOMALO è un’osservazione in corrispondenza della quale la variabile dipendente assume un valore atipico dato il
valore assunto dalla variabile indipendente. Supponiamo di avere 10 casi in cui X=1. Se in 9 casi Y assume un valore
compreso tra 3 e 5 mentre nel decimo caso assume un valore pari a 15, allora possiamo dire che si tratta di un caso
anomalo perché il suo valore di Y si discosta ampiamente da quelli che tipicamente si osservano quando X=1. Un caso
anomalo di per sì non rappresenta un problema per la regressione lineare, lo diventa solo quando il suo valore di X è
ECCENTRICO, cioè si discosta dal valore medio X (con trattino) in misura apprezzabile. In questo caso il caso
anomalo viene definito INFLUENTE in quanto la sua presenza influisce in modo significativo sui risultati della
regressione, specificatamente sulle stime dei parametri α e β.
(quattro situazioni pagina 160-166)
Oltre la linearità Talvolta la relazione fra X e Y presenta dei caratteri sistematici che il modello di regressione lineare
non riesce a spiegare. Una delle possibili cause di questa anomalia è che la relazione oggetto di analisi è
intrinsecamente non lineare e non può essere rappresentata in modo appropriato mediante una semplice linea retta. La
relazione tra reddito disponibile ed età non può essere approssimata in modo soddisfacente da una retta di regressione.
Quest’ultima infatti implica che l’effetto esercitato
da X su Y (rappresentato da β) è costante, cioè rimane sempre uguale a ogni livello di X. Ma nel caso della relazione fra
età e reddito disponibile, l’effetto esercitato dalla prima sul secondo è tutt’altro che costante. Per rilevare l’esistenza di
eventuali non linearità nella relazione fra due variabili cardinali il primo passo da compiere consiste nell’ispezione
visuale del diagramma di dispersione. Prendiamo ad esempio la relazione fra percentuale di famiglie povere e numero
di omicidi per 100.000 abitanti osservata in un insieme di 117 città americana. L’ipotesi che sottende l’analisi di questa
relazione è che la povertà contribuisce a stimolare la propensione al crimine, incluso quello violento pertanto,
quest’ultimo dovrebbe essere più diffuso nelle città ove il degrado economico è maggiore. Le cose secondo il
diagramma di dispersione sono effettivamente così: all’aumentare della percentuale delle famiglie povere il tasso di
omicidi registrato nelle città americane tende a crescere. Ma la forma complessiva assunta dalla nuvola di punti
suggerisce che questa relazione positiva tra X e Y non è lineare, ma si configura come una curva che tende verso l’alto,
quindi l’effetto esercitato dal tasso di povertà sul tasso di omicidi non è costante a tutti i livelli di X, bensì cresce man
mano che il valore della variabile indipendente aumenta. Questa relazione non può essere approssimata in maniera
soddisfacente da una normale retta di regressione. Per ovviare a questa inadeguatezza della normale regressione lineare
bisogna ricorrere ad lacune tecniche specificamente dedicate all’analisi delle RELAZIONI BIVARIATE NON
LINEARI. Una di queste è la REGRESSIONE POLINOMIALE che consiste nell’applicare ai dati una normale
regressione lineare in cui la variabile indipendente sia stata preventivamente trasformata in un polinomio di grado k.
Regressione polinomiale La regressione polinomiale più usata è quella di SECONDO GRADO/QUADRATICA e ha la
seguente formula:
Ŷ = α + β1Xi + β2Xi2
Secondo questa equazione il valore predetto di Y è uguale alla somma di tre termini: • Il parametro α • Il valore naturale
di X moltiplicato per il parametro β1 • Il valore di X al quadrato moltiplicato per il parametro β2
(Quando la co-variazione fra X e Y assume invece una forma CUBICA, cioè presenta due punti di curvatura,
all’equazione si aggiunge +β3Xi3).
Nella normale regressione lineare l’effetto di X su Y è espresso unicamente dal valore assunto dal parametro β che è:
ΔŶ / ΔX = β
ovvero, ogni volta che X varia di una unità, il valore predetto di Y varia di β unità. Nella regressione polinomiale di
secondo grado questa semplice relazione non vale perché la variabile indipendente entra nell’equazione predittiva in
duplice forma: al naturale e al quadrato. Quindi il calcolo dell’effetto esercitato da X su Y diventa più complicato e
assume questa forma:
ΔŶ / ΔX = β1 + β2 +2β2X
Ovvero, ogni volta che X varia di una unità, il valore predetto di Y varia di un ammontare che dipende sia dai valori
stimati dei parametri βuno e βdue, sia dal “valore di partenza” di X.
Se βuno = 1,108 e βdue = 0,125:
ΔŶ / ΔX = -1,108 + 0,125 + 2 (0,125) (5) = 0,27
???????errore libro
quando il livello di povertà aumenta dal 5 al 6% il numero di omicidi per 100 abitanti cresce in media di sole 0,27 unità.
Cambiando il livello di partenza della variabile indipendente, cosa succede? Supponiamo di voler calcolare di quanto
crescerebbe il tasso atteso di omicidi se il livello di povertà passasse dal 15% al 16%. Facendo gli opportuni calcoli:
ΔŶ / ΔX = -1,108 + 0,125 + 2 (0,125) (15) = 2,77
In questo caso un aumento unitario nel livello di povertà determina un aumento medio del tasso di omicidi pari a ben
2,77 unità. Quindi incrementando il valore di partenza della variabile indipendente (da 5% al 15% ) l’influenza
esercitata da X su Y aumenta di circa 10 volte passando da 0,27 a 2,77.
Regressione lineare piecewise Un’altra estensione della regressione lineare semplice che ci permette di analizzare le
relazioni bivariate non lineari è la regressione lineare piecewise. L’effetto esercitato da X su Y varia in funzione della
“regione” della variabile X presa in considerazione e all’interno di ognuna di queste regioni l’effetto di X su Y rimane
costante. Per applicare questo tipo di regressione bisogna suddividere la gamma dei valori osservati di X in una serie di
k regioni distinte tra loro ma internamente omogenee; il valore di X che separa due regioni contigue è detto NODO.
Una volta determinati i k – 1 nodi che delimitano le diverse regioni di X, è necessario creare k regressori, ognuno dei
quali rappresenta una data regione ed è ottenuto trasformando in modo opportuno la variabile indipendente. Prendiamo
il caso (relazione tra povertà e omicidi) in cui la co-variazione fra X e Y si articola in tre regioni distinte:
1. La prima corrisponde ai valori di X compresi tra 0 e 11% 2. La seconda che corrisponde ai valori compresi tra 11 e
15% 3. La terza che corrisponde ai valori rimanenti di X
L’effetto esercitato da X su Y aumenta progressivamente in modo del tutto evidente; per contro, si può facilmente
constatare che all’interno di ciascuna regione tale effetto rimane sostanzialmente costante. Nel loro insieme, queste
osservazioni autorizzano a ritenere che la relazione tra livello di povertà di povertà e tasso di omicidi possa essere
opportunamente rappresentata mediante una regressione lineare percewise basata su 3 regioni delimitate dai nodi 11% e
15%.
Quindi bisognare creare tre regressori: il primo lo indicheremo con il simbolo X(1) e assume un valore pari a X quando
tale valore è uguale o inferiore a 11 e valore 11 in tutti gli altri casi.
una volta creati i tre regressori vanno inseriti in un modello di regressione lineare che viene così ad assumere la
seguente forma:
Ŷ = α + β1Xi(1) + β2Xi(2) + β3Xi(3)
Quando la variabile indipendente è categoriale Possiamo chiederci: in quale misura il reddito da lavoro degli individui
dipende dal loro titolo di studio? Oppure: il genere influisce sull’età di ingresso nel mercato da lavoro? La regressione
lineare può essere utilizzata per rispondere agli interrogativi di questo tipo. Consideriamo il caso più elementare e cioè
quello in cui la variabile indipendente (X) è DICOTOMICA (cioè ha solo due modalità). Supponiamo di voler
determinare in quale misura il reddito mensile da lavoro percepito dai nostri laureati varia secondo il genere. È sempre
utile iniziare un’ispezione visuale della co-variazione tra X e Y attraverso o un diagramma di dispersione o un boxplot.
In virtù del fatto che X assume solo due modalità (maschio e femmina), i punti che rappresentano i vari casi non danno
luogo alla tipica nuvola più o meno larga e più o meno inclinata in una direzione o nell’altra, ma si formano due
colonne. Quella dei maschi è posta più in alto di quella relativa alle femmine suggerendo che i primi guadagnano più
delle seconde. Ovviamente dato che X si articola in una coppia di categorie (maschio e femmina), il valore NON E’
QUANTIFICABILE e quindi non può essere espresso da numeri che possiedono proprietà matematiche. Il modo per
effettuare l’analisi si basa sull’idea di presenza – assenza delle modalità/ categorie in cui si articola la variabile
categoriale di interesse (o attributo). Il genere ad esempio si può manifestare solo attraverso due modalità: maschio o
femmina.
• Quando il soggetto analizzato è uomo possiamo dire che la modalità maschio è presente mentre la modalità femmina è
assente
• Quando il soggetto analizzato è donna, possiamo concludere che la modalità maschio è assente mentre la modalità
femmina è presente
Queste informazioni possono essere espresse in termini quantitativi mediante DUE REGRESSORI, detti REGRESSORI
INDICATORI o REGRESSORI DUMMY:
1. XM ha lo scopo di rappresentare la modalità maschio e assume valore 1 in tutti i casi in cui tale modalità è presente
(uomo) e valore 0 quando è assente (donna).
2. XF ha lo scopo di rappresentare la modalità femmina (donna) in tutti i casi in cui tale modalità è presente e valore ‘ in
cui tutti i casi in cui è assente (uomo).
SOGGETTI GENERE XM XF Antonio M 1 0 Gianni M 1 0 Laura F 0 1 Marco M 1 0
Roberto M 1 0 Sara F 0 1
Avendo tradotto la variabile qualitativa genere nei due regressori indicatori, possiamo ora usare la regressione lineare
per misurare l’effetto esercitato dal genere sul reddito all’interno del nostro gruppo di soggetti. Ogni volta che XM
assume valore 1 necessariamente XF assume valore 0. Tutta l’informazione di cui abbiamo bisogno per misurare
l’effetto esercitato dal genere sul reddito è contenuta solo in uno dei due regressori: conoscendo il valore assunto da uno
dei
due regressori siamo in grado di stabilire con precisione il valore assunto dall’altro.
Ogni volta che vogliamo esprimere in termini quantitativi l’informazione contenuta in una variabile qualitativa che si
articola in k categorie, è sufficiente creare k – 1 regressori indicatori, cioè uno per ogni categoria meno una. La
categoria esclusa viene chiamata categoria di riferimento e svolge un ruolo essenziale nell’interpretazione dei risultati
della regressione. Dal punto di vista matematico la scelta della categoria da escludere è irrilevante. In questo caso
assumeremo come categoria di riferimento della variabile “genere” la modalità maschio e quindi rileveremo l’effetto
esercitato dal genere sul reddito per mezzo del regressore XF. Il modello di regressione appropriato per questa analisi
assume questa formula:
Ŷi = α + βXiF
Come si può osservare questa equazione è del tutto identica a quella utilizzata per stimare l’effetto (lineare) esercitato
dal voto di laurea sul reddito. Sul piano formale anche l’interpretazione dei parametri è identica:
• α esprime il valore predetto di Y quando XF è uguale a 0 • β ci dice di quanto varia in media il valore predetto di Y
per ogni
variazione unitaria di XF
Poiché XF=0 quando genere=maschio, possiamo dire che il parametro α esprime il valore predetto di Y quando i
soggetti sono maschi. A sua volta, il parametro β ci dice di quanto varia il valore predetto di Y quando il valore di XF
passa da 0 a 1 e cioè quando si passa dalla popolazione maschile a quella femminile. L’equazione che predice il reddito
all’interno della popolazione maschile può essere espressa così:
ŶM = α + βXF = α + β(0) = α
A sua volta, l’equazione che predice il reddito all’interno della popolazione femminile assume la seguente forma:
ŶF = α + βXF = α + β(1) = α + β
Quindi il parametro β rappresenta una stima della differenza tra il reddito atteso nella popolazione femminile e il reddito
atteso nella popolazione maschile. Mettiamo caso che α = 3.046.000 e β = -373.700.
• α ci dice che il reddito mensile predetto per i maschi è pari a 3.046.000 lire • β ci dice che in media le donne
guadagnano ogni mese 373.700 lire in meno dei loro
colleghi maschi, cioè hanno un reddito predetto pari a 3.046.000 – 373.700. Il valore di β esprime quindi l’effetto di
genere cioè l’effetto complessivo esercitato dal genere sul reddito.
Analizziamo il caso in cui la variabile indipendente è politomica, cioè si articola in 3 o più categorie. Supponiamo di
voler determinare in quale misura il reddito percepito dai nostri laureati varia secondo il settore occupazionale di
partenza. In questo caso la variabile indipendente si articola in k = 3 categorie o modalità:
1. lavoro dipendente nel settore pubblico 2. lavoro dipendente nel settore privato 3. lavoro autonomo
Per esprimere in termini quantitativi l’informazione contenuta in questa variabile dobbiamo creare k – 1 = 2 regressori
indicatori. Assumiamo la modalità lavoro dipendente nel settore pubblico come categoria di riferimento, il primo di
questi regressori ha il compito di rappresentare la modalità lavoro dipendente nel settore privato (XPRIV), mentre il
secondo di questi regressori rappresenterà il lavoro autonomo (XAUT).
SOGGETTO SETTORE XPRIV XAUT
Anna Pubblico 0 0 Francesca Autonomo 0 1
Paola Privato 1 0 Davide Privato 1 0 Mario Privato 1 0
Alessandro Privato 1 0 Piergiorgio Pubblico 0 0 Raimondo Autonomo 0 1
Una volta creati i due regressori possiamo stimare il seguente modello di regressione:
Ŷ = α + β1XPRIV + β2XAUT
In questo caso i parametri del modello vanno interpretati così:
• α esprime il valore di Y atteso fra i soggetti che appartengono alla categoria di riferimento di X (lavoro dipendente nel
settore pubblico)
• il parametro β1 esprime la differenza tra il valore di Y atteso nella categoria lavoro dipendente nel settore privato e il
valore di Y atteso nella categoria di riferimento
• il parametro β2 esprime la differenza tra il valore di Y atteso nella categoria lavoro autonomo e il valore di Y atteso
nella categoria di riferimento.
Come si può notare, i valori assunti dai parametri β1 e β2 vanno sempre interpretati in modo relativo e cioè come
differenze o scostamenti rispetto alla categoria di riferimento. Applicando il modello di regressione illustrato sopra,
otteniamo queste stime dei parametri:
• α = 2.377.500 • β1 = 531.500 • β2 = 980.000
Il valore assunto da α ci dice che il reddito mensile medio predetto per coloro che sono impiegati nel settore pubblico è
pari a 2.377.500 lire. β1 ci dice invece che in media coloro che lavorano in posizione dipendente nel settore privato
guadagnano ogni mese 531.500 lire IN PIU’ dei soggetti impiegati nel settore pubblico, cioè hanno un reddito predetto
pari a:
Ŷ = α + β1(1) + β2 (0) = α + β1 2.377.500 + 531.500 = 2.909.000 lire
Mentre per β2 :
Ŷ = α + β1(0) + β2 (1) = α + β2 2.377.500 + 980.000 = 3.457.500 lire