Sei sulla pagina 1di 13

Metodo e tecniche dell’analisi dei dati (presame capitoli 4, 5, 6, 10)

Concetti base da ricordare


Variabili Per variabile si intende una proprietà operativizzata. Le variabili costituiscono l’elemento centrale dell’analisi
empirica e sono i termini essenziali, gli elementi fondamentali. Un modo importante per classificare le variabili riguarda
il tipo di operazioni logiche e matematiche alle quali i loro valori possono essere o meno sottoposti. Si possono
distinguere tre tipi di variabili:
• NOMINALI (cattolico/musulmano, genere: uomo/donna). Si tratta di stati discreti e non ordinabili. Significa che
esistono confini molto netti fra essi per cui non è possibile immaginare stati intermedi. Un individuo può essere dal
punto di vista dell’orientamento religioso cattolico o musulmano e non può assumere uno stato intermedio tra i due.
Con le variabili nominali posso COMPARARE, cioè dire ad esempio che il colore degli occhi di Piero è uguale a quello
di Giorgio, posso RIASSUMERE e cioè dire per esempio che i 2/3 della popolazione ha occhi marroni (67%), posso
identificare la MODA e calcolare l’INDICE DI OMOGENEITA’. Un sottotipo di variabili nominali è quello in cui le
modalità sono solo due (variabili DICOTOMICHE): maschio/femmina, occupato/non occupato, sposato/non sposato,
favorevole/contrario ecc.
• ORDINALI (titolo di studio, classe sociale). Si tratta di variabili per cui è previsto un ordine atteso agli stati, che
permette di rilevare non solo relazioni di eguaglianza e diseguaglianza, ma anche relazioni d’ordine e cioè dire ad
esempio che uno stato è maggiore/minore dell’altro (la laurea è un titolo di studio superiore alla licenza media). Quindi
con le variabili ordinali posso COMPARARE e cioè dire ad esempio che il titolo di studio di Piero è diverso da quello
di Luca, posso dire che è maggiore/minore, posso RIASSUMERE e dire che magari i 2/3 della popolazione hanno un
titolo inferiore alla Laurea, posso dire qual è la MEDIANA e il CAMPO DI VARIAZIONE.
• CARDINALI (quando gli stati assumono valori che sono numeri come ad esempio reddito, età, peso, numero di figli).
I valori numerici assegnati alle modalità hanno un pieno significato numerico, i numeri possiedono non solo le
caratteristiche ordinali dei numeri ma anche quelle cardinali. Le variabili cardinali possono essere continue (con numeri
decimali come altezza, peso, tempo trascorso ecc) oppure discrete (con numeri interi come numero dei figli, di auto,
età). Quindi con le variabili cardinali posso COMPARARE (prendendo ad esempio l’altezza di 3 individui posso dire
che uno è più alto dell’altro, posso dire la differenza tra i valori, posso dire che l’altezza di uno è superiore di tot), posso
RIASSUMERE (dire qual è l’altezza media, il campo di variazione e la deviazione standard).
Misure di tendenza centrale La tendenza centrale di una distribuzione è in prima approssimazione la modalità della
relativa variabile verso la quale i casi tendono a gravitare, ossia il “baricentro” della distribuzione. Fra i valori
caratteristici che rilevano sinteticamente la tendenza centrale, quella più elementare è la MODA:
• MODA: è il valore osservato nella distribuzione con maggiore frequenza. Si tratta di un valore caratteristico molto
povero dal punto di vista informativo: sapere che in una distribuzione relativa alla variabile identità religiosa, la moda è
“cattolica” non ci dice granché circa quanto sia diffusa la religione cattolica. Può infatti risultare modale con una
frequenza sia del 90% che del 10%.
Per le variabili ordinali è possibile rilevare anche un altro valore caratteristico, la MEDIANA:
• MEDIANA: è il valore assunto dall’osservazione centrale del campione ordinato, ovvero il caso che bipartisce una
serie di valori ordinati in modo da lasciare lo stesso numero di casi dalle due parti. Immaginiamo di disporre tutti i casi
in ordine crescente o decrescente a seconda del valore assunto su una variabile ordinale o cardinale. Dopo averli
ordinati, si prenda il caso che viene a trovarsi al centro della distribuzione: se i casi (NON I VALORI) sono 7, si tratterà
del 4 caso. Se il numero dei casi N è dispari c’è solo un caso centrale: quello che occupa la posizione (N+1/2). Se è pari
ci sono due casi centrali, quelli che occupano le due posizioni N/2 e N/2+1. Se questi due casi presentano la stessa
modalità, quella modalità è la mediana, se presentano due modalità diverse, occorre stabilire se la variabile è ordinale
(nel qual caso la distribuzione ha due mediane) o cardinale (nel qual caso la mediana è uguale alla media dei valori
assunti dai due casi).
• MEDIA: è la somma dei valori assoluti divisa per il numero totale delle osservazioni. È il valore caratteristico più noto
fra quelli che rilevano la tendenza centrale delle variabili cardinali. (FORMULA)
In una tabella che riporta la distribuzione di frequenza di una variabile (ad es. “età”) di un gruppo di universitari,
possiamo calcolare la media sommando i prodotti ottenuti moltiplicando ogni valore per la sua rispettiva frequenza (se
abbiamo due persone di 19 anni, 5 di 20 e così via, invece di calcolare la media facendo 19+19+20+20+20+20+20,
possiamo calcolare 19x2, 20x5).
Se una distribuzione di frequenza riguarda una variabile cardinale è possibile determinare MODA, MEDIANA e
MEDIA (è opportuno usare la mediana quando le distribuzioni presentano casi che assumono valori estremi).
Variabilità Due popolazioni possono presentare lo stesso reddito medio, ma in una magari quasi tutti hanno redditi che
si addensano intorno alla media e nell’altra si osserva una situazione molto polarizzata in cui quasi tutti hanno redditi
molto elevati o molto bassi, e comunque lontani dalla media. Una variabile nominale presenta una distribuzione
caratterizzata da scarsa variabilità quando quasi tutti i casi si addensano nella sua categoria modale. La variabilità
minima si ha quando il 100% dei casi assume la medesima modalità, in questo caso si parla di massima omogeneità.
• RANGE E SCARTO INTERQUARTILICO: la differenza tra il valore massimo e minimo della distribuzione (è una
misura che è problematica con le variabili ordinali perché implica il concetto di distanza! Non posso dire che la distanza
tra laurea e licenza media è di 3).
• SCARTO DELL’OSSERVAZIONE: la differenza tra un valore e la media
• DEVIANZA: somma degli scarti elevata al quadrato
• VARIANZA: media dei quadrati degli scarti (il quadrato della deviazione standard). Di norma la varianza non viene
usata nell’ambito dell’analisi monovariata, anche perché si tratta di una cosiddetta “grandezza quadratica” che a
differenza della deviazione standard, non può essere messa in relazione con grandezze come la media aritmetica.
• DEVIAZIONE STANDARD (o scarto quadratico medio): radice quadrata della varianza
• COEFFICIENTE DI VARIAZIONE: valore della deviazione standard diviso per la media della distribuzione. Se si
vogliono confrontare fra di loro le variabilità di distribuzioni aventi medie molto diverse, si ricorre al coefficiente di
variazione.
Standardizzazione È il processo di doppia normalizzazione.
Esempio: chi percepisce/percepiva un reddito annuo maggiore dal proprio lavoro? Roberta che guadagna 20.000 euro
oggi o suo padre Lorenzo che guadagnava 4 milioni di lire nel 1960?
• oggi la media è di 10.000 euro • 1960 la media era di 3.000.000 lire • oggi deviazione standard 2.500 euro • 1960
deviazione standard 200.000 lire
La prima normalizzazione si ottiene calcolando lo scarto (si stabilisce quanto Roberta e Lorenzo guadagnano in più o in
meno rispetto agli altri lavoratori:
Roberta: 20.000 – 10.000 = 10.000 Lorenzo: 4.000.000 – 3.000.000 = 1.000.000
La seconda normalizzazione si effettua dividendo lo scarto per la deviazione standard. Così si elimina l’unità di conto.
Si stabilisce così quanto Roberta e Lorenzo si allontanano dalla media delle loro rispettive distribuzioni:
Roberta: 10.000 / 2.500 = +4 deviazioni standard Lorenzo: 1.000.000 / 200.000 = +5 deviazioni standard

CAP 4 Analisi bivariata (definizione) (pag 105)


L’analisi statistica delle relazioni fra due variabili si basa innanzitutto sull’esame delle distribuzioni di frequenza
congiunte. Una distribuzione congiunta è semplicemente l’INCROCIO di due o più distribuzioni di frequenza semplici
(o monovariate).
Per esempio: prendiamo due variabili corrispondenti all’orientamento religioso e al partito votato alle ultime elezioni.
Supponiamo che l’orientamento religioso preveda tre modalità:
• musulmano • cattolico • protestante
supponiamo che anche i partiti siano tre: • rosso • verde • blu
Orientamento religioso Frequenze assolute Musulmano 300
Cattolico 300 Protestante 300 TOT 900
Partito votato Frequenze assolute Rosso 300 Verde 300 Blu 300 TOT 900
Orientamento religioso Partito rosso Partito verde Partito blu TOT
Musulmano 100 100 100 300 Cattolico 100 100 100 300
Protestante 100 100 100 300 TOT 300 300 300 900
L’ultima tabella è la distribuzione congiunta e si distingue da una semplice distribuzione monovariata in quanto
l’assegnazione di ogni caso a una cella di frequenza tiene conto dei valori assunti su più variabili. Le due distribuzioni
monovariate raffigurate sono entrambe perfettamente equilibrate, cioè presentano la stessa frequenza assoluta in
ciascuna delle 3 modalità. Le FREQUENZE MARGINALI sono le frequenze che compaiono nella riga TOT e nella
colonna TOT della tabella e devono essere identiche a quelle delle distribuzioni monovariate. Una volta che è stato
rispettato questo vincolo, la distribuzione congiunta può assumere qualsiasi conformazione. Ad esempio:
Orientamento religioso
Partito rosso Partito verde Partito blu TOT
Musulmano 280 10 10 300 Cattolico 10 280 10 300 Protestante 10 10 280 300 TOT 300 300 300 900
Forma, forza e direzione Per quanto riguarda la forma, possiamo prendere l’ipotesi che i comportamenti di voto degli
elettori dipendono dalla loro confessione religiosa e può darsi che la distribuzione congiunta metta in rilievo che i
musulmani tendono a votare per il partito rosso, i cattolici quello verde e quelli protestanti il partito blu. Questa è una
possibile forma della relazione fra le due variabili in questione. In alcuni casi è possibile individuare anche il SEGNO.
Perché sia possibile parlare di segno, occorre che le modalità delle variabili messe in relazione siano ORDINATE
LUNGO UNA QUALCHE DIMENSIONE: entrambe le variabili devono essere o ORDINALI o CARDINALI. Ad
esempio, può essere lecito parlare di segno nel caso della relazione fra ore di studio e profitto scolastico: se al crescere
delle ore di studio cresce il voto mediano in pagella, si tratta di una relazione positiva, se invece il maggiore studio si
accompagna a voti più bassi, allora la relazione si dice negativa. Per quanto riguarda la FORZA, questa sarebbe
massima se tutti i musulmani (senza eccezione) votassero per i rossi, se tutti i cattolici per i verdi e i protestanti per i
blu.
Di solito, il ricercatore vuole spingersi oltre la mera descrizione in termini matematico-statistici delle relazioni e vuole
sapere se intercorre un nesso di causalità fra le variabili e se tale nesso sussiste, quale variabile influenza le altre. Egli è
interessato alla direzione causale della relazione. La SPIEGAZIONE CAUSALE è un obiettivo centrale della ricerca
sociale. Quando si parla di rapporto causa-effetto, ci si riferisce all’esistenza di un nesso fra eventi tale per cui la
manifestazione di un determinato evento è la conseguenza diretta e necessaria della manifestazione di un altro evento (o
insieme di eventi). Ma COVARIAZIONE/CORRELAZIONE NON E’ CAUSAZIONE. Le tecniche di analisi statistica
non permettono di stabilire la direzione causale di una relazione; soltanto un disegno sperimentale consente di accertare
la direzione causale delle relazioni. Tuttavia le possibilità di applicare disegni sperimentali nell’ambito delle scienze
umane sono assai ridotte. In secondo luogo le relazioni che si osservano nelle scienze umane raramente raggiungono
livelli estremamente elevati di forza, e in questo senso non hanno quel carattere di determinismo assoluto richiesto della
causazione. In terzo luogo, l’individuazione di una direzione causale è resa difficile dal fatto che molte relazioni sono
bidirezionali, ossia le variabili si influenzano reciprocamente. Peraltro fra le relazioni bidirezionali è possibile
distinguere le relazioni simmetriche – in cui le due variabili si influenzano a vicenda nella stessa misura – da quelle
asimmetriche – in cui l’influenza esercitata da una variabile sull’altra è comunque maggiore dell’influenza che subisce
–. In quarto luogo spesso è agevole individuare l’esistenza di una relazione e persino stabilirne la direzione causale, ma
non per questo è facile ricostruire il meccanismo causale. La realtà è multivariata, nel senso che ogni fenomeno sociale
è correlato con un’infinità di altri che interagiscono, si intrecciano, si influenzano reciprocamente.
Variabili indipendenti e dipendenti • la variabile indipendente influisce sulla variabile dipendente senza esserne a sua
volta influenzata. Lo status dipendente o indipendente di una variabile può cambiare a seconda della variabile con cui
viene messa in relazione. Solitamente si prevede l’attribuzione della lettera X alla variabile indipendente e della lettera
Y alla variabile dipendente. Un’altra convenzione riguarda la rappresentazione grafica della relazione; in cui le variabili
sono rappresentate da cerchi e la direzione causale da una freccia.
Tipi di variabile indipendente Tipo di variabile dipendente CATEGORIALE CARDINALE
CATEGORIALE - tabulazione incrociata - regressione logistica - regressione logistica
CARDINALE - regressione semplice - regressione multipla - regressione semplice - regressione multipla

CAP 5: Tabulazione incrociata: quando le variabili sono categoriali (nominali o ordinali) Si voglia studiare la variabile
età e la variabile pratica religiosa a partire da dati ottenuti da un’inchiesta campionaria. Per fare ciò organizziamo i dati
in una tabella detta A DOPPIA ENTRATA (o ad incrocio o tabulazione incrociata), nella quale collochiamo in riga una
variabile, detta variabile di riga e in colonna l’altra, detta variabile di colonna. Nelle celle definite dall’incrocio fra le
righe e le colonne viene posto il numero di casi che presentano le corrispondenti
modalità delle due variabili (frequenze). Vengono anche aggiunti i totali di riga e di colonna che si chiamano frequenze
marginali.
18-34 35-54 Oltre 54 TOT Praticanti 223 313 182 718 Saltuari 266 317 88 671
Non praticanti 425 504 168 1097 TOT 914 1134 438 2486
Su queste frequenze si possono effettuare tre tipi diversi di percentualizzazione, ottenendo tre diverse tabelle:
• tabella delle percentuali di riga (si portano a 100 i praticanti, i saltuari e i non praticanti e si ottengono quanti praticanti
son giovani, adulti e quanti sono anziani) 223 : 718 x 100 = 31,1% di giovani, 313 : 718 x 100 = 43,6% di adulti, 182 :
718 x 100 = 25,3% di anziani
• tabella percentuali di colonna: 223 : 914 x 100 = 24,4% di giovani è praticante
• tabella delle percentuali sul totale
Se il nostro obiettivo è quello di affermare l’esistenza o meno di una relazione fra età e pratica, solo la tabella delle
percentuali per colonne è utile. Questa tabella ci dice quanti sono i praticanti per gruppi di età, una volta poste a 100 le
basi di confronto e cioè presi 100 giovani, 100 adulti e 100 anziani, quanti sono i praticanti in ogni gruppo.
Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla
variabile posta in riga, mentre si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile
posta in riga ha sulla variabile posta in colonna. Si definisce qual è la variabile indipendente e si percentualizza
all’interno delle sue modalità.
La forma di presentazione consigliata è questa:
18-34 35-54 Oltre 54 Praticanti 24,4 27,6 41,5 Saltuari 29,1 28,0 20,1
Non praticanti 46,5 44,4 38,4 TOT 100 100 100 (N) 914 1134 438
Va riportata solo la percentualizzazione che serve (quella di riga o quella di colonna) e non è necessario presentare le
frequenze assolute (che sono ricavabili dal prodotto fra percentuali e basi delle stesse). È utile che ogni riga (o colonna)
percentuale finisca col totale 100. È indispensabile riportare per ogni colonna o riga la base delle percentuali (N) sulle
quali esse sono state calcolate. È assai imprudente calcolare e commentare percentuali su basi inferiori a 50 casi. Le
tabelle devono essere sempre intestate: è importante che la tabella sia auto-esplicativa, cioè che essa contenga tutte le
informazioni necessarie per la sua comprensione, senza dover ricorrere al teso del rapporto nel quale essa si trova
inserita.
Interpretazione delle tabelle In linea generale, nel caso di un’inchiesta campionaria una differenza tra percentuali,
perché sia degna di nota deve essere superiore ai 5 punti percentuali.
Prendiamo questo esempio: risposte alla domanda “lei è soddisfatto dell’operato del governo?” per ampiezza del
comune di residenza.
+250.000 100-250.00 0
50-100.000 10-50.0000 1-10.000 -10.000 TOT
Per nulla 97 26 29 22 62 10 246 Poco 168 71 99 249 253 8 848
Non so 89 36 49 118 153 1 446 Abbastanza 159 66 92 246 326 5 894
Molto 3 2 2 8 14 1 30 TOT 516 201 271 643 808 25 2464
Ovviamente, la variabile indipendente è l’ampiezza del comune e quindi la percentualizzazione deve essere fatta per
colonna. Ma prima di fare questa operazione, notiamo che l’ultima colonna, quella relativa ai comuni con meno di
10.000 abitanti, ha un campione troppo piccolo, di 25 persone. Risulta quindi necessario aggregare le ultime due
colonne, unificando le due categorie 1-10.000 e -10.000, nell’unica categoria -10.000. Una volta compiuto questo
passaggio, otteniamo questa tabella:
+250.000 100-250.000 50-100.000 10-50.000 -10.000 Per nulla 18,8 12,8 10,8 3,4 8,6
Poco 32,5 35,3 36,5 38,7 31,3 Non so 17,3 18,0 18,0 18,4 18,5
Abbastanza 30,8 32,9 34,0 38,3 39,8 Molto 0,6 1,0 0,7 1,2 1,8 TOT 100 100 100 100 100
N 516 201 271 643 833
All’interrogativo: “c’è una relazione fra ampiezza del comune e grado di soddisfazione del governo?” non bisogna
rispondere semplicemente elencando le percentuali sostenendo ad esempio che nei comuni con più di 250.000 abitanti
prevalgono le persone poco soddisfatte. Un esempio di commento corretto è:
come si può notare, la percentuale di coloro che dichiarano di essere per nulla soddisfatti del governo diminuisce
gradatamente col diminuire della dimensione della città: l’insoddisfazione è massima nelle città sopra i 250.000
abitanti (18,8%), scende regolarmente fino ad un livello minimo nelle città con 10.000 abitanti, per risalire lievemente
nei comuni ancora più piccoli (8,6% ). Se si prescinde da quest’ultima eccezione possiamo affermare che
l’insoddisfazione cresce col crescere della grandezza delle città.
Se la variabile dipendente è ordinale è spesso di grande utilità aggregare le modalità estreme e contigue della variabile
dipendente. Nel nostro esempio si possono unire i “per nulla soddisfatti” e i “poco soddisfatti” nell’unica categoria
“insoddisfatti”. Questo modo di procedere comporta di solito una notevole pulizia della relazione, in questo caso
sparisce quell’incongruenza che avevamo notato nell’ultima categoria di città.
Tabelle a doppia entrata particolari: le tavole di mobilità sociale In questa tipologia di tabelle su una dimensione si
colloca la classe sociale dei soggetti studiati e sull’altra quella dei loro padri. Poiché le due variabili “classe sociale
padre” e “classe sociale figlio”
hanno le stesse modalità, nelle celle sulla diagonale si trovano i soggetti cosiddetti immobili cioè coloro che restano
nella stessa classe sociale dalla quale provengono, mentre nelle celle fuori dalla diagonale si collocano i soggetti mobili;
e in particolare, nel triangolo sopra alla diagonale abbiamo i soggetti che hanno sperimentano un processo di mobilità
ascendente e nel triangolo sotto alla diagonale coloro che hanno sperimentato un processo di mobilità sociale
discendente.
Rappresentazioni grafiche della relazione fra due variabili nominali Si usano sostanzialmente i diagrammi a barre
oppure le spezzate. Si riportano su un piano cartesiano sull’asse orizzontale le modalità della variabile indipendente e
sull’asse verticale le frequenze percentuali relative alla modalità della variabile dipendente che abbiamo scelto come più
rilevante. Se la variabile indipendente è nominale si può utilizzare solo il diagramma a colonne. Se la variabile è
ordinale oppure cardinale raggruppata per classi, possiamo anche rappresentare la relazione della tabella tramite una
spezzata che congiunge i punti corrispondenti ai valori delle percentuali.
Misure di forza della relazione Per misurare la forza esistono diversi indici:
• per le variabili nominali parliamo di MISURE DI ASSOCIAZIONE • per le variabili ordinali si parla di MISURE DI
COGRADUAZIONE
Naturalmente le misure pensate per le variabili nominali sono come al solito applicabili anche alle ordinali.
Un modo per misurare la forza è calcolare la differenza tra le frequenze attese sotto l’ipotesi di indipendenza e le
frequenze osservate nei dati.
18-34 35-54 Oltre 54 TOT Praticanti 223 313 182 718 Saltuari 166 317 88 671 Non praticanti 425 504 168 1097 TOT
914 1134 438 2486
Quando abbiamo indipendenza tra pratica religiosa ed età? Quando le percentuali di praticanti, saltuari e di non
praticanti sono uguali in tutte le categorie di età e quindi sono uguali a quelle sul totale della popolazione. Le frequenze
attese vengono calcolate così:
fe = totale di riga x totale di colonna / totale tabella
quindi per la cella dove c’è il 223 si fa: 718 x 914 / 2486 = 264
Si costruisce una nuova tabella con le frequenze attese:
18-34 35-54 Oltre 54 TOT Praticanti 264 327 126,5 718 Saltuari 246 306,1 118,2 671 Non praticanti 403 500,4 193,3
1097 TOT 914 1134 438 2486
A questo punto si deve calcolare la differenza tra la tabella delle frequenze osservate e quella delle frequenze attese
sotto l’ipotesi di indipendenza. Questa differenza viene sintetizzata in un’unica misura che viene chiamata CHI
QUADRO, che ha questa formula:
Il valore del chi-quadro assumerà il valore 0 nel caso limite di indipendenza perfetta nei dati, mentre sarà tanto più
elevato quanto maggiore è la distanza fra frequenze osservate e frequenze attese, cioè tanto più le frequenze osservate si
allontanano dall’ipotesi di indipendenza. Il suo valore quindi può essere assunto a misura della forza della relazione fra
le due variabili. Ma il valore di chi-quadro dipende dalla numerosità dei casi della tabella. Prendendo ad esempio la
stessa tabella, se dividessimo tutte le frequenze per 10, anche il chi-quadro si dividerebbe per 10. Se il campione
raddoppia, il valore del chi-quadro raddoppia, se triplica anche il chi-quadro triplica. Per ovviare a questo inconveniente
sono state avanzate varie proposte, tra cui l’indice V di Cramèr che assume valori fra 0 (indipendenza) e 1 (relazione
perfetta). Questa è la sua formula:
dove k è uguale al numero di modalità della variabile con il minore numero di modalità (ossia al minore fra numero di
righe e numero di colonne della tabella).
Misure di associazione fra variabili dicotomiche Se le due variabili messe in relazione sono entrambe dicotomiche V
coincide con il coefficiente di correlazione r di Pearson, una misura da utilizzare quando entrambe le variabili sono
cardinali e che si può calcolare anche quando le variabili sono dicotomiche. Nel caso di una tabella 2x2 il calcolo e la
formula sono più semplici:
abcd
TOT (a+c) TOT (b+d)
Manuali Non manuali TOT SX 272 782 1054 DX 209 672 881 TOT 481 1454 1935
V = cd-bc /√(a+b)(c+d)(a+c)(b+d)
272 x 672 – 209 x 782 /√1054 x 881 x 481 x 1454 = 0.024
Misure di co-graduazione Se la relazione è fra una variabile nominale e una ordinale, useremo le stesse misure di
associazione che abbiamo appena presentato per il caso di due variabili nominali.
Se le due variabili sono entrambe ordinali possiamo sempre impiegare le misure di associazione viste per le variabili
nominali, ma possiamo anche utilizzare delle nuove. Quando la relazione è fra variabili ordinali, essa assume anche un
SEGNO: una relazione si dice positiva se a valori alti di una variabile tendono a corrispondere valori alti dell’altra, si
dice negativa se a valori alti di una tendono corrispondere valori bassi dell’altra. Tutte le MISURE DI CO-
GRADUAZIONE si basano sullo stesso principio, cioè sul CONFRONTO tra valori assunti dalle variabili X e Y su
tutte le possibili coppie di casi. Queste possono essere:
• Coppie CONCORDANTI: quando su un caso i valori di X e Y sono entrambi maggiori o minori dei valori delle stesse
variabili sull’altro caso (per esempio se il soggetto 1 è più istruito X e più praticante Y del soggetto 2).
• Coppie DISCORDANTI: quando una variabile assume su un caso un valore maggiore mentre l’altra variabile assume
un valore minore rispetto ai valori assunti sull’altro caso (il soggetto 1 è più istruito e meno praticante del soggetto 2).
• Coppie APPAIATE: se i due casi presentano lo stesso valore su una o entrambe le variabili.
Se la maggioranza delle coppie è concordante, oppure discordante, allora abbiamo una relazione fra le due variabili; se
ci sono tante coppie concordanti quante discordanti allora non c’è relazione (o co-graduazione). Sulla base di questo
meccanismo sono state proposte diverse misure di co-graduazione, tra cui il gamma di Goodman e Kruskal:
γ=C–D/C+D
dove C è il numero di coppie concordanti, D è il numero di coppie discordanti. Gamma assume valore +1 in caso di
perfetta relazione positiva e -1 in caso di perfetta relazione negativa e 0 in caso di assenza di relazione. Se ad esempio
prendendo la relazione fra età e pratica religiosa il γ=0,124, possiamo dire che esiste una relazione positiva e che la
probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore età sia anche quello che ha maggiore
pratica è superiore del 12,4% alla probabilità di trovare l’opposto.
Rapporti di probabilità Data una variabile il metodo tradizionale per esprimere il diverso rilievo delle sue modalità è
quello di ricorrere alle proporzioni, o al loro equivalente, le percentuali. Avendo ad esempio 1.188 favorevoli e 604
contrari alla pena di morte, comunemente si esprime lo squilibrio numerico fra le due categorie dicendo che i primi
sono il 66,3% degli intervistati e cioè sul totale (1.188/1.792 x 100). Ma lo squilibrio tra favorevoli e contrari si può
rappresentare facendo il rapporto tra gli appartenenti alle due categorie, ottenendo in questo caso 1.188/604=1,97,
esprimibile verbalmente dicendo che “ci sono quasi 2 favorevoli per ogni persona contraria”.
Mentre chiamavamo proporzione il rapporto tra la parte e il tutto, chiamiamo questo rapporto fra la frequenza di una
categoria e la frequenza della categoria alternativa (nel caso di dicotomiche) RAPPORTO DI PROBABILITA’ (odds).
Il rapporto di probabilità è definibile come il rapporto tra la probabilità che un individuo, estratto a caso dalla
popolazione, appartenga a una categoria della variabile considerata e la probabilità che non vi appartenga. Il rapporto di
probabilità assume il valore 1 quando le due categorie della variabile hanno lo stesso peso (equivalente alla proporzione
di 0,5 per entrambe), ha come valore minimo lo 0, ma non ha un limite superiore.
Questo rapporto di variabilità fa riferimento a due categorie di una stessa variabile dicotomica, ma lo studio può essere
esteso anche al caso di due variabili. Prendiamo ad esempio una tabella a doppia entrata tra due variabili dicotomiche
(istruzione X e l’atteggiamento verso la pena capitale Y):
atteggiamento F 0 E A/istr F 0 E 8 Inferiore superiore TOT Favorevoli a 1027 b 161 1.188 Contrari c 397 d 207 604
TOT 1.424 368 1.792
La tecnica più comunemente utilizzata per studiare la relazione fra le variabili fa anche in questo caso ricorso alle
proporzioni, in particolare alle PROPORZIONI CONDIZIONATE
• Meno istruiti: p1 = a / a+c e quindi 1027 / 1424 = 0,721 • Più istruiti: p2 = b / b+d e quindi 161 / 368 = 0,438
Ora, invece delle proporzioni condizionate e cioè i rapporti fra frequenze parziali e totali (favorevole/totale) per le due
categorie di istruzione, si considerino i RAPPORTI DI PROBABILITA’ CONDIZIONATI: cioè i rapporti
FAVOREVOLI/CONTRARI sempre per le due categorie di istruzione:
• 1027/397 = 2,59 questo significa che fra i meno istruiti ci sono 2,6 favorevoli alla pena capitale per ogni contrario (e si
può scrivere 2,6 : 1)
• 161/207 = 0,27 questo significa che fra i più istruiti il rapporto è circa 0,8 a 1
Se i due rapporti fossero uguali, allora non ci sarebbe relazione fra istruzione e atteggiamento verso la pena capitale.
Invece già da questi numeri si vede come il rapporto favorevoli/contrari sia maggiore fra i meno istruiti che fra i più
istruiti per cui esiste una relazione fra le due variabili. Questo confronto può essere formalizzato dal RAPPORTO FRA
GLI ODDS CONDIZIONATI (odds ratio), cioè rapporto fra i rapporti di probabilità:
ω1 / ω2 = a/c / b/d F 0E 8 ad / bc 1027 x 207 / 397 x 161 = 3,3
Il valore ottenuto (3,3) può essere interpretato in questo modo:
“posto uguale a 1 il rapporto favorevoli/contrari fra i più istruiti, esso assume il valore 3,3 fra i meno istruiti”.
Questo significa che passando dai più istruiti ai meno istruiti il rapporto tra favorevoli e contrari passa ad oltre il triplo.
Questo rapporto può assumere valore compreso tra 0 e +∞, passando per il valore 1 che significa totale indipendenza fra
le variabili.
• Valori superiori ad 1 stanno a significare un’associazione positiva fra le variabili
• valori inferiori a 1 significano che c’è un’associazione negativa.
• Per associazione positiva intendiamo che i soggetti della categoria X1 hanno probabilità di collocarsi nella categoria
Y1 maggiore di quanto sia la probabilità dei soggetti della categoria X2
Nel nostro esempio avevamo un’associazione positiva: il rapporto aveva valore superiore a 1: i meno istruiti (categoria
X1) hanno probabilità maggiori dei più istruiti di collocarsi nella categoria
Y1 (favorevoli alla pena di morte), maggiore di quanto sia la probabilità dei soggetti della categoria X2. Il valore del
rapporto di associazione non risente della dimensione del campione e non cambia se entrambe le frequenze di una riga o
di una colonna vengono moltiplicate per una costante. Gli odds ratio possono essere calcolati SOLO SU TABELLE
2x2, non possono essere utilizzati per sintetizzare con un’unica misura di associazione una relazione fra variabili non
dicotomiche.

Cap 6 Regressione semplice (quando la variabile dipendente è cardinale) La principale tecnica utilizzata dai ricercatori
per effettuare questo tipo di analisi è la REGRESSIONE LINEARE SEMPLICE. Consideriamo il caso in cui anche la
variabile indipendente è di tipo cardinale. Possiamo ad esempio chiederci: che relazione c’è tra il numero di ore
dedicate alla preparazione di un certo esame e il voto ricevuto in quell’esame. Oppure è vero che il tasso di fecondità
diminuisce all’aumentare del tasso di partecipazione femminile al mercato del lavoro? Questi quesiti sono fondamentali
nelle scienze sociali, che si cercano di stabilire in quale misura la variabile indipendente influisce su quella dipendente o
più tecnicamente rilevare l’ INTENSITA’ DELL’EFFETTO esercitato dalla variabile indipendente su quella
dipendente.
Quando si analizza la relazione fra due variabili nominali, il primo passo consiste nel rappresentare graficamente tale
relazione mediante il cosiddetto DIAGRAMMA DI DISPERSIONE/SCATTER PLOT. Quest’ultimo è un semplice
piano cartesiano che ordina i valori della variabile dipendente X lungo l’asse orizzontale (ascisse) e i valori della
variabile dipendente Y lungo l’asse verticale (ordinate). Ogni osservazione viene collocata all’interno del piano e
l’insieme dei punti così tracciati illustra visivamente il modo in cui le due variabili co-variano e cioè variano insieme.
Dall’osservazione del diagramma si possono trarre alcune indicazioni utili per l’analisi. Il modo in cui i punti sono
disposti suggerisce il tipo di relazione. Se la nuvola di punti si estende dall’angolo in basso a sinistra all’angolo in alto a
destra la relazione ha segno positivo cioè all’aumentare del voto di laurea tende a crescere anche il reddito. Se la
disposizione dei punti suggerisce che la forma della relazione è lineare, significa che Y tende a variare con X nella
stessa direzione e sempre nella stessa misura.
Il diagramma di dispersione ci consente di desumere la FORMA della relazione, ma non ci dice nulla di preciso sull’
INTENSITA’ dell’effetto causale. Quello che è importante capire è QUANTO varia Y al variare di X. Per rispondere a
questa domanda è necessario esprimere la relazione che lega le due variabili mediante un’equazione matematica. Ogni
equazione matematica è definita dalla sua forma funzionale e dai valori assunti dai suoi parametri.
Y = α + βX
Questa equazione lineare afferma che il valore della variabile dipendente Y è uguale al parametro α + il valore assunto
dalla variabile indipendente X moltiplicato per il parametro β.
• α è detto intercetta o costante ed esprime il valore assunto da Y quando X=0
• β ci dice di quanto varia il valore di Y per ogni variazione unitaria di X. Rappresenta l’elemento di maggiore interesse
per il ricercatore perché esprime l’ INTENSITA’ dell’effetto esercitato dalla variabile indipendente su quella
dipendente. È opportuno sottolineare che tale effetto è COSTANTE qualunque sia il valore di X.
L’equazione lineare costituisce la base della regressione lineare semplice, cioè della tecnica che è comunemente
utilizzata dagli scienziati sociali per analizzare le relazioni fra coppie di variabili cardinali. È legittimo porsi un dubbio:
com’è possibile rappresentare mediante un’equazione lineare una relazione complessa (come ad esempio tra “voto di
laurea” e “reddito”? La relazione fra X e Y non è perfetta (lo sarebbe se a ogni valore della variabile indipendente
corrisponde un solo valore della variabile dipendente e tutte le osservazioni si collocano sulla linea). Qualsiasi relazione
bivariata che possa suscitare l’interesse degli scienziati sociali non può essere rappresentata esattamente da
un’equazione lineare: qualunque retta si tracci all’interno del diagramma di dispersione non potrà mai “toccare”
contemporaneamente tutti i punti. Può essere utile individuare una linea retta che seppure in modo imperfetto e
semplificato, approssimi tale relazione. Lo scopo della regressione lineare semplice è stimare i valori dei parametri
dell’equazione lineare (α e β) corrispondenti alla retta che, meglio di ogni altra, approssima la covariazione osservata
fra la variabile indipendente e quella dipendente. Tale retta assume la seguente forma matematica:
Ŷi = α+βXi
L’unica differenza è che al simbolo Y è stato aggiunto un accento circonflesso che indica che i valori della variabile
dipendente definiti dall’equazione lineare non sono quelli osservati, ma quelli PREDETTI o ATTESI sulla base di α e β
stimati. Se vogliamo esprimere in forma matematica i valori osservati di Y, allora dobbiamo aggiungere all’equazione
lineare, detta anche EQUAZIONE PREDITTIVA o MODELLO DI REGRESSIONE LINEARE un ulteriore elemento,
gli ERRORI DI PREDIZIONE:
Yi = α + βXi + εi
Gli errori di predizione esprimono la differenza tra il valore osservato di Y e quello predetto dal modello di regressione
lineare. Quindi:
εi = Yi –Ŷ F 0E 8 Yi – α – βX
Gli errori di predizione sono anche chiamati residui perché corrispondono a quella parte del valore di Y che “va oltre”
la relazione lineare rappresentata dall’equazione predittiva, cioè quella parte del valore di Y che non può essere
“spiegata” dall’effetto lineare di Y. Il termine ε esprime l’influenza esercitata su Y da tutti i fattori causali che non sono
presi esplicitamente in considerazione dal modello di regressione lineare prescelto.
• non è nemmeno detto che la relazione fra X e Y sia perfettamente lineare • il modello di regressione lineare semplice
esprime valori di Y come funzione di un’unica
variabile indipendente X, senza tenere conto del fatto che tali valori possono essere influenzati in modo significativo
anche da altre variabili
• il comportamento umano è poi caratterizzato da una certa dose di casualità di cui nessun modello di regressione
potrebbe mai rendere conto e che fa sì che il valore di Y non sia mai perfettamente prevedibile
Lo scopo della regressione lineare semplice è quello di stimare i valori dei parametri α e β corrispondenti alla retta che
approssima meglio di ogni altra la co-variazione osservata fra X e Y. Ciò equivale a dire che la migliore retta di
regressione è quella che minimizza la differenza tra i valori osservati di Y e quelli predetti dal modello e cioè
MINIMIZZA GLI ERRORI DI PREDIZIONE. La migliore retta di regressione è quella che minimizza la somma degli
errori di predizione al quadrato e cioè che rende minima questa quantità:
Σ (Yi – Ŷi)2 = Σεi2
Come dobbiamo interpretare i valori della variabile dipendete predetti dal modello di regressione lineare? Dobbiamo
servirci della MEDIA. Se la relazione fra X e Y è effettivamente lineare, nel complesso i casi sovrastimati tenderanno a
essere controbilanciati dai casi sottostimati, cosicché in media i valori di Y osservati in corrispondenza di ogni dato
livello di X approssimeranno il valore di Y predetto per quel livello di X. L’obiettivo di ogni modello di regressione non
è quello di riprodurre esattamente la relazione osservata fra due variabili, ma di evidenziarne le caratteristiche salienti,
in modo tale da offrirne una rappresentazione parsimoniosa e intelligibile (seppure semplificata).
Retta di regressione, intensità dell’effetto e potere predittivo Scopo essenziale della regressione lineare semplice è
quello di stimare l’intensità dell’effetto esercitato dalla variabile indipendente su quella dipendente, cioè di calcolare la
misura in cui il valore di Y varia al variare del valore di X. L’intensità è espressa dal parametro β, cioè dall’inclinazione
della retta di regressione. A volte i ricercatori non si accontentano di ricercare solo questo parametro ma vogliono anche
misurare la STRETTEZZA DELLA RELAZIONE TRA X e Y cioè la misura in cui la retta di regressione approssima
la covariazione osservata fra variabile dipendente e indipendente. Rilevare la strettezza della relazione fra X e Y
equivale a calcolare il POTERE PREDITTIVO della retta di regressione stimata, cioè a stabilire con quale precisione la
conoscenza dei valori di X ci consente di indovinare i valori di Y. Una misura di potere predittivo è l’ERRORE
STANDARD DELLA REGRESSIONE:
σ(ε) = √ Σ(Y-Ŷ)2 / N-2
Questa misura equivale alla radice quadrata della somma degli errori di predizione al quadrato divisa per il numero dei
casi meno due (perché due sono i nostri parametri di riferimento, α e β). L’errore standard della regressione può essere
interpretato come una misura dell’errore di predizione medio. Quanto maggiore è il valore assunto da questa misura,
tanto minore è il potere predittivo della retta di regressione. Per esempio, prendendo due variabili come voto di laurea e
stipendio, se l’errore standard della regressione lineare risulta pari a 346.800 lire, ciò significa che in media i livelli di
reddito predetti dalla retta di regressione si discostano da quelli effettivamente osservati di un ammontare pari a questa
cifra.
Una misura di potere predittivo più nota e ampiamente utilizzata nelle scienze sociali è il COEFFICIENTE DI
DETERMINAZIONE R2 (r-quadro). Supponiamo di voler predire il reddito mensile di 263 individui presi in esame e
supponiamo che inizialmente, l’unica informazione di cui disponiamo è il reddito medio complessivo, cioè il valore
medio di Y che risulta pari a 2.912.400 lire. In mancanza di altre informazioni la sola strategia predittiva percorribile è
quella di attribuire a ciascun individuo un reddito pari al reddito medio. Per valutare il grado di precisione di questo
primo esercizio predittivo, ovvero il potere predittivo della semplice media, possiamo calcolare la somma delle
differenze al quadrato fra i valori osservati di Y e quelli predetti dalla media:
Σ (Y-Y con trattino (media))2
Quanto è maggiore il valore di questa somma, tanto è maggiore l’errore di predizione complessivo e quindi tanto
minore è il potere predittivo della media. Supponiamo che ci vengano dati i valori dei singoli soggetti, ad esempio
riguardo l’esempio di prima, supponiamo che ci vengano comunicati i voti di
laurea di tutti i soggetti. Se il voto di laurea influisce in qualche misura sul reddito da lavoro, è lecito attendersi che
disponendo di questa informazione, la nostra capacità di predire i valori osservati di Y sarà maggiore di quella
dimostrata conoscendo solo la media di Y. Per prima cosa dobbiamo stimare la retta di regressione e calcolare la somma
delle differenze al quadrato tra i valori osservati di Y e quelli predetti dalla retta di regressione e quindi calcolare la
somma delle differenze al quadrato fra i valori osservati di Y e quelli predetti dalla retta di regressione, cioè la SOMMA
DEGLI ERRORI DI PREDIZIONE AL QUADRATO:
Σ (Y – Ŷ)2
A questo punto disponiamo di due misure dell’errore di predizione: quella che si riferisce alla predizione basata solo
sulla media di Y e quella che si riferisce alla predizione basata sulla retta di regressione. La conoscenza dei valori della
variabile indipendente ci permette di migliorare in modo sostanziale la nostra capacità di predire i valori della variabile
dipendente. Questo miglioramento equivale a una riduzione dell’errore di predizione. In termini relativi la riduzione
dell’errore di predizione equivale al COEFFICIENTE DI DETERMINAZIONE e risulta uguale a:
R2 = Σ (Y-Y con trattino)2 – Σ (Y-Ŷ)2 / Σ (Y – Y con trattino)2
Il coefficiente di determinazione è una misura relativa del potere predittivo della retta di regressione. Si tratta di una
misura del tipo PRE (come quelle del capitolo precedente) in quanto esprime la riduzione percentuale dell’errore di
predizione iniziale (quello derivante dalla sola conoscenza della media di Y) che si ottiene prendendo in considerazione
i valori di X.
Si può dire che anche che il coefficiente di determinazione rappresenta la percentuale di variazione di Y “spiegata” in
senso statistico dalla variabile indipendente.
R-quadro può assumere valori compresi tra 0 (che equivale al caso in cui X non esercita alcuna influenza su Y) e 1 (che
equivale al caso in cui tutti i valori osservati di Y sono perfettamente predetti dalla retta di regressione). Il coefficiente
di correlazione è una misura spesso sopravvalutata e talvolta utilizzata in maniera inappropriata. Serve ambiguamente lo
scopo per il quale è stato originariamente concepito e cioè misurare il potere predittivo della retta di regressione. Questa
affermazione si basa sul fatto che il valore assunto da R quadro dipende in modo sostanziale n on solo dalla somma
degli errori di predizione al quadrato, ma anche dalla varianza della variabile indipendente. A parità di ogni altra
condizione il valore di R quadro è tanto più elevato quanto maggiore è la varianza di X. Al contrario, l’errore standard
della regressione non è influenzato in alcun modo dalle caratteristiche della distribuzione di X, ma dipende solo dalla
somma degli errori di predizione al quadrato.
Il coefficiente di determinazione spesso viene interpretato non solo come misura della stretta della relazione fra X e Y
ma anche come misura dell’intensità dell’effetto esercitato da X su Y. Questa interpretazione è assolutamente
SCORRETTA.
• La strettezza della relazione fra X e Y non è altro che la capacità della retta di regressione di approssimare
geograficamente i valori osservati di Y. Tale capacità NON HA NULLA A CHE FARE CON L’INTENSITA’
DELL’EFFETTO ESERCITATO DA X SU Y, che come abbiamo sottolineato, nel modello di regressione lineare
semplice è espressa esclusivamente dal parametro β.
(…) immagine libro
Il coefficiente di determinazione lo si può esprimere anche con la seguente formula:
R2 = β2 x Var(X) / β2 x Var(X) + [σ(ε)]2
Dove Var(X) denota la varianza della variabile indipendente. Il valore assunto da r quadro dipende
contemporaneamente da tre elementi:
• L’intensità dell’effetto esercitato da X su Y rappresentata dal parametro β • Il potere predittivo della retta di
regressione rappresentato dall’errore standard della
regressione σ(ε) • La varianza di X
Due o più valori di R quadro uguali possono derivare da combinazioni molto diverse di questi tre elementi. In
qualunque modo lo si voglia interpretare quindi, il coefficiente di determinazione è di per sé intrinsecamente ambiguo e
scarsamente informativo. Concludendo quando si valutano i risultati di un modello di regressione lineare semplice
bisogna distinguere nettamente tra:
• Intensità dell’effetto esercitato da X su Y • La strettezza della relazione esistente tra X e Y
Casi anomali e casi influenti Accanto a molti pregi, questo metodo di stima ha un difetto principale: è molto sensibile
alla struttura dei dati oggetto di analisi, cioè produce risultati che possono essere influenzati, talvolta in maniera molto
marcata, dalla presenza di uno o più casi anomali. Nel contesto della regressione lineare semplice un CASO
ANOMALO è un’osservazione in corrispondenza della quale la variabile dipendente assume un valore atipico dato il
valore assunto dalla variabile indipendente. Supponiamo di avere 10 casi in cui X=1. Se in 9 casi Y assume un valore
compreso tra 3 e 5 mentre nel decimo caso assume un valore pari a 15, allora possiamo dire che si tratta di un caso
anomalo perché il suo valore di Y si discosta ampiamente da quelli che tipicamente si osservano quando X=1. Un caso
anomalo di per sì non rappresenta un problema per la regressione lineare, lo diventa solo quando il suo valore di X è
ECCENTRICO, cioè si discosta dal valore medio X (con trattino) in misura apprezzabile. In questo caso il caso
anomalo viene definito INFLUENTE in quanto la sua presenza influisce in modo significativo sui risultati della
regressione, specificatamente sulle stime dei parametri α e β.
(quattro situazioni pagina 160-166)
Oltre la linearità Talvolta la relazione fra X e Y presenta dei caratteri sistematici che il modello di regressione lineare
non riesce a spiegare. Una delle possibili cause di questa anomalia è che la relazione oggetto di analisi è
intrinsecamente non lineare e non può essere rappresentata in modo appropriato mediante una semplice linea retta. La
relazione tra reddito disponibile ed età non può essere approssimata in modo soddisfacente da una retta di regressione.
Quest’ultima infatti implica che l’effetto esercitato
da X su Y (rappresentato da β) è costante, cioè rimane sempre uguale a ogni livello di X. Ma nel caso della relazione fra
età e reddito disponibile, l’effetto esercitato dalla prima sul secondo è tutt’altro che costante. Per rilevare l’esistenza di
eventuali non linearità nella relazione fra due variabili cardinali il primo passo da compiere consiste nell’ispezione
visuale del diagramma di dispersione. Prendiamo ad esempio la relazione fra percentuale di famiglie povere e numero
di omicidi per 100.000 abitanti osservata in un insieme di 117 città americana. L’ipotesi che sottende l’analisi di questa
relazione è che la povertà contribuisce a stimolare la propensione al crimine, incluso quello violento pertanto,
quest’ultimo dovrebbe essere più diffuso nelle città ove il degrado economico è maggiore. Le cose secondo il
diagramma di dispersione sono effettivamente così: all’aumentare della percentuale delle famiglie povere il tasso di
omicidi registrato nelle città americane tende a crescere. Ma la forma complessiva assunta dalla nuvola di punti
suggerisce che questa relazione positiva tra X e Y non è lineare, ma si configura come una curva che tende verso l’alto,
quindi l’effetto esercitato dal tasso di povertà sul tasso di omicidi non è costante a tutti i livelli di X, bensì cresce man
mano che il valore della variabile indipendente aumenta. Questa relazione non può essere approssimata in maniera
soddisfacente da una normale retta di regressione. Per ovviare a questa inadeguatezza della normale regressione lineare
bisogna ricorrere ad lacune tecniche specificamente dedicate all’analisi delle RELAZIONI BIVARIATE NON
LINEARI. Una di queste è la REGRESSIONE POLINOMIALE che consiste nell’applicare ai dati una normale
regressione lineare in cui la variabile indipendente sia stata preventivamente trasformata in un polinomio di grado k.
Regressione polinomiale La regressione polinomiale più usata è quella di SECONDO GRADO/QUADRATICA e ha la
seguente formula:
Ŷ = α + β1Xi + β2Xi2
Secondo questa equazione il valore predetto di Y è uguale alla somma di tre termini: • Il parametro α • Il valore naturale
di X moltiplicato per il parametro β1 • Il valore di X al quadrato moltiplicato per il parametro β2
(Quando la co-variazione fra X e Y assume invece una forma CUBICA, cioè presenta due punti di curvatura,
all’equazione si aggiunge +β3Xi3).
Nella normale regressione lineare l’effetto di X su Y è espresso unicamente dal valore assunto dal parametro β che è:
ΔŶ / ΔX = β
ovvero, ogni volta che X varia di una unità, il valore predetto di Y varia di β unità. Nella regressione polinomiale di
secondo grado questa semplice relazione non vale perché la variabile indipendente entra nell’equazione predittiva in
duplice forma: al naturale e al quadrato. Quindi il calcolo dell’effetto esercitato da X su Y diventa più complicato e
assume questa forma:
ΔŶ / ΔX = β1 + β2 +2β2X
Ovvero, ogni volta che X varia di una unità, il valore predetto di Y varia di un ammontare che dipende sia dai valori
stimati dei parametri βuno e βdue, sia dal “valore di partenza” di X.
Se βuno = 1,108 e βdue = 0,125:
ΔŶ / ΔX = -1,108 + 0,125 + 2 (0,125) (5) = 0,27
???????errore libro
quando il livello di povertà aumenta dal 5 al 6% il numero di omicidi per 100 abitanti cresce in media di sole 0,27 unità.
Cambiando il livello di partenza della variabile indipendente, cosa succede? Supponiamo di voler calcolare di quanto
crescerebbe il tasso atteso di omicidi se il livello di povertà passasse dal 15% al 16%. Facendo gli opportuni calcoli:
ΔŶ / ΔX = -1,108 + 0,125 + 2 (0,125) (15) = 2,77
In questo caso un aumento unitario nel livello di povertà determina un aumento medio del tasso di omicidi pari a ben
2,77 unità. Quindi incrementando il valore di partenza della variabile indipendente (da 5% al 15% ) l’influenza
esercitata da X su Y aumenta di circa 10 volte passando da 0,27 a 2,77.
Regressione lineare piecewise Un’altra estensione della regressione lineare semplice che ci permette di analizzare le
relazioni bivariate non lineari è la regressione lineare piecewise. L’effetto esercitato da X su Y varia in funzione della
“regione” della variabile X presa in considerazione e all’interno di ognuna di queste regioni l’effetto di X su Y rimane
costante. Per applicare questo tipo di regressione bisogna suddividere la gamma dei valori osservati di X in una serie di
k regioni distinte tra loro ma internamente omogenee; il valore di X che separa due regioni contigue è detto NODO.
Una volta determinati i k – 1 nodi che delimitano le diverse regioni di X, è necessario creare k regressori, ognuno dei
quali rappresenta una data regione ed è ottenuto trasformando in modo opportuno la variabile indipendente. Prendiamo
il caso (relazione tra povertà e omicidi) in cui la co-variazione fra X e Y si articola in tre regioni distinte:
1. La prima corrisponde ai valori di X compresi tra 0 e 11% 2. La seconda che corrisponde ai valori compresi tra 11 e
15% 3. La terza che corrisponde ai valori rimanenti di X
L’effetto esercitato da X su Y aumenta progressivamente in modo del tutto evidente; per contro, si può facilmente
constatare che all’interno di ciascuna regione tale effetto rimane sostanzialmente costante. Nel loro insieme, queste
osservazioni autorizzano a ritenere che la relazione tra livello di povertà di povertà e tasso di omicidi possa essere
opportunamente rappresentata mediante una regressione lineare percewise basata su 3 regioni delimitate dai nodi 11% e
15%.
Quindi bisognare creare tre regressori: il primo lo indicheremo con il simbolo X(1) e assume un valore pari a X quando
tale valore è uguale o inferiore a 11 e valore 11 in tutti gli altri casi.
una volta creati i tre regressori vanno inseriti in un modello di regressione lineare che viene così ad assumere la
seguente forma:
Ŷ = α + β1Xi(1) + β2Xi(2) + β3Xi(3)
Quando la variabile indipendente è categoriale Possiamo chiederci: in quale misura il reddito da lavoro degli individui
dipende dal loro titolo di studio? Oppure: il genere influisce sull’età di ingresso nel mercato da lavoro? La regressione
lineare può essere utilizzata per rispondere agli interrogativi di questo tipo. Consideriamo il caso più elementare e cioè
quello in cui la variabile indipendente (X) è DICOTOMICA (cioè ha solo due modalità). Supponiamo di voler
determinare in quale misura il reddito mensile da lavoro percepito dai nostri laureati varia secondo il genere. È sempre
utile iniziare un’ispezione visuale della co-variazione tra X e Y attraverso o un diagramma di dispersione o un boxplot.
In virtù del fatto che X assume solo due modalità (maschio e femmina), i punti che rappresentano i vari casi non danno
luogo alla tipica nuvola più o meno larga e più o meno inclinata in una direzione o nell’altra, ma si formano due
colonne. Quella dei maschi è posta più in alto di quella relativa alle femmine suggerendo che i primi guadagnano più
delle seconde. Ovviamente dato che X si articola in una coppia di categorie (maschio e femmina), il valore NON E’
QUANTIFICABILE e quindi non può essere espresso da numeri che possiedono proprietà matematiche. Il modo per
effettuare l’analisi si basa sull’idea di presenza – assenza delle modalità/ categorie in cui si articola la variabile
categoriale di interesse (o attributo). Il genere ad esempio si può manifestare solo attraverso due modalità: maschio o
femmina.
• Quando il soggetto analizzato è uomo possiamo dire che la modalità maschio è presente mentre la modalità femmina è
assente
• Quando il soggetto analizzato è donna, possiamo concludere che la modalità maschio è assente mentre la modalità
femmina è presente
Queste informazioni possono essere espresse in termini quantitativi mediante DUE REGRESSORI, detti REGRESSORI
INDICATORI o REGRESSORI DUMMY:
1. XM ha lo scopo di rappresentare la modalità maschio e assume valore 1 in tutti i casi in cui tale modalità è presente
(uomo) e valore 0 quando è assente (donna).
2. XF ha lo scopo di rappresentare la modalità femmina (donna) in tutti i casi in cui tale modalità è presente e valore ‘ in
cui tutti i casi in cui è assente (uomo).
SOGGETTI GENERE XM XF Antonio M 1 0 Gianni M 1 0 Laura F 0 1 Marco M 1 0
Roberto M 1 0 Sara F 0 1
Avendo tradotto la variabile qualitativa genere nei due regressori indicatori, possiamo ora usare la regressione lineare
per misurare l’effetto esercitato dal genere sul reddito all’interno del nostro gruppo di soggetti. Ogni volta che XM
assume valore 1 necessariamente XF assume valore 0. Tutta l’informazione di cui abbiamo bisogno per misurare
l’effetto esercitato dal genere sul reddito è contenuta solo in uno dei due regressori: conoscendo il valore assunto da uno
dei
due regressori siamo in grado di stabilire con precisione il valore assunto dall’altro.
Ogni volta che vogliamo esprimere in termini quantitativi l’informazione contenuta in una variabile qualitativa che si
articola in k categorie, è sufficiente creare k – 1 regressori indicatori, cioè uno per ogni categoria meno una. La
categoria esclusa viene chiamata categoria di riferimento e svolge un ruolo essenziale nell’interpretazione dei risultati
della regressione. Dal punto di vista matematico la scelta della categoria da escludere è irrilevante. In questo caso
assumeremo come categoria di riferimento della variabile “genere” la modalità maschio e quindi rileveremo l’effetto
esercitato dal genere sul reddito per mezzo del regressore XF. Il modello di regressione appropriato per questa analisi
assume questa formula:
Ŷi = α + βXiF
Come si può osservare questa equazione è del tutto identica a quella utilizzata per stimare l’effetto (lineare) esercitato
dal voto di laurea sul reddito. Sul piano formale anche l’interpretazione dei parametri è identica:
• α esprime il valore predetto di Y quando XF è uguale a 0 • β ci dice di quanto varia in media il valore predetto di Y
per ogni
variazione unitaria di XF
Poiché XF=0 quando genere=maschio, possiamo dire che il parametro α esprime il valore predetto di Y quando i
soggetti sono maschi. A sua volta, il parametro β ci dice di quanto varia il valore predetto di Y quando il valore di XF
passa da 0 a 1 e cioè quando si passa dalla popolazione maschile a quella femminile. L’equazione che predice il reddito
all’interno della popolazione maschile può essere espressa così:
ŶM = α + βXF = α + β(0) = α
A sua volta, l’equazione che predice il reddito all’interno della popolazione femminile assume la seguente forma:
ŶF = α + βXF = α + β(1) = α + β
Quindi il parametro β rappresenta una stima della differenza tra il reddito atteso nella popolazione femminile e il reddito
atteso nella popolazione maschile. Mettiamo caso che α = 3.046.000 e β = -373.700.
• α ci dice che il reddito mensile predetto per i maschi è pari a 3.046.000 lire • β ci dice che in media le donne
guadagnano ogni mese 373.700 lire in meno dei loro
colleghi maschi, cioè hanno un reddito predetto pari a 3.046.000 – 373.700. Il valore di β esprime quindi l’effetto di
genere cioè l’effetto complessivo esercitato dal genere sul reddito.
Analizziamo il caso in cui la variabile indipendente è politomica, cioè si articola in 3 o più categorie. Supponiamo di
voler determinare in quale misura il reddito percepito dai nostri laureati varia secondo il settore occupazionale di
partenza. In questo caso la variabile indipendente si articola in k = 3 categorie o modalità:
1. lavoro dipendente nel settore pubblico 2. lavoro dipendente nel settore privato 3. lavoro autonomo
Per esprimere in termini quantitativi l’informazione contenuta in questa variabile dobbiamo creare k – 1 = 2 regressori
indicatori. Assumiamo la modalità lavoro dipendente nel settore pubblico come categoria di riferimento, il primo di
questi regressori ha il compito di rappresentare la modalità lavoro dipendente nel settore privato (XPRIV), mentre il
secondo di questi regressori rappresenterà il lavoro autonomo (XAUT).
SOGGETTO SETTORE XPRIV XAUT
Anna Pubblico 0 0 Francesca Autonomo 0 1
Paola Privato 1 0 Davide Privato 1 0 Mario Privato 1 0
Alessandro Privato 1 0 Piergiorgio Pubblico 0 0 Raimondo Autonomo 0 1
Una volta creati i due regressori possiamo stimare il seguente modello di regressione:
Ŷ = α + β1XPRIV + β2XAUT
In questo caso i parametri del modello vanno interpretati così:
• α esprime il valore di Y atteso fra i soggetti che appartengono alla categoria di riferimento di X (lavoro dipendente nel
settore pubblico)
• il parametro β1 esprime la differenza tra il valore di Y atteso nella categoria lavoro dipendente nel settore privato e il
valore di Y atteso nella categoria di riferimento
• il parametro β2 esprime la differenza tra il valore di Y atteso nella categoria lavoro autonomo e il valore di Y atteso
nella categoria di riferimento.
Come si può notare, i valori assunti dai parametri β1 e β2 vanno sempre interpretati in modo relativo e cioè come
differenze o scostamenti rispetto alla categoria di riferimento. Applicando il modello di regressione illustrato sopra,
otteniamo queste stime dei parametri:
• α = 2.377.500 • β1 = 531.500 • β2 = 980.000
Il valore assunto da α ci dice che il reddito mensile medio predetto per coloro che sono impiegati nel settore pubblico è
pari a 2.377.500 lire. β1 ci dice invece che in media coloro che lavorano in posizione dipendente nel settore privato
guadagnano ogni mese 531.500 lire IN PIU’ dei soggetti impiegati nel settore pubblico, cioè hanno un reddito predetto
pari a:
Ŷ = α + β1(1) + β2 (0) = α + β1 2.377.500 + 531.500 = 2.909.000 lire
Mentre per β2 :
Ŷ = α + β1(0) + β2 (1) = α + β2 2.377.500 + 980.000 = 3.457.500 lire

Cap 10 – inferenza statistica e campionamento


Errore di campionamento: deriva dal fatto che nella maggior parte dei casi, i ricercatori basano le loro conclusioni su
un’osservazione parziale del fenomeno oggetto di studio e pertanto non possono mai essere sicuri che i risultati delle
loro analisi riflettano fedelmente la realtà.
Popolazione di riferimento: l’insieme dei soggetti che vogliamo studiare.
Campionamento: il complesso delle procedure utilizzate per selezionare il sottoinsieme della popolazione di
riferimento.
Quasi tutti i campioni condividono la stessa aspirazione: rappresentare il più fedelmente possibile la popolazione di
interesse in modo tale che le conclusioni raggiunte studiando il campione possano essere generalizzate all’intera
popolazione. Quando un ricercatore si avvale di un determinato campione di casi per analizzare le caratteristiche di un
dato fenomeno sociale, solitamente il suo obiettivo non è quello di trarre conclusioni riguardanti i soli membri di tale
campione, bensì quello di estendere le conclusioni delle proprie analisi dal campione all’intera popolazione di
riferimento. Questa generalizzazione delle conclusioni del campione si chiama inferenza e per definizione è
caratterizzata da un certo grado di incertezza, che deriva da 4 fatti:
1. da ogni popolazione di riferimento sufficientemente grande è possibile estrarre un numero virtualmente infinito di
campioni diversi di ampiezza prefissata
2. ognuno di questi possibili campioni rappresenta la popolazione di interesse in modo imperfetto, ma mentre in alcuni
casi tale imperfezione è relativamente contenuta, in altri è particolarmente accentuata al punto da offrire un’immagine
altamente distorta della popolazione
3. in ogni singolo studio viene estratto e analizzato solo uno di tutti i possibili campioni di ampiezza prefissata
4. poiché le caratteristiche della popolazione di interesse sono in gran parte non osservabili e quindi ignote, è
impossibile stabilire in quale misura lo specifico campione estratto è rappresentativo della popolazione stessa.
Per vedere un esempio pratico di come i risultati di una ricerca siano incerti supponiamo che il nostro obiettivo sia
quello di stimare l’effetto causale esercitato dal livello di istruzione sul reddito mensile netto da lavoro percepito
nell’anno solare 2000 dagli abitanti dello stato immaginario di Suburbia. Per conseguire tale obiettivo utilizziamo il
seguente modello di regressione lineare:
Ŷi = α + β1Xi1 + β2Xi2 +β3Xi3 +B4Xi4
Dove Ŷ denota il valore della variabile dipendente “reddito mensile netto” predetto per l’individuo i. Xi1 rappresenta il
valore assunto dalla variabile indipendente livello di istruzione in corrispondenza dell’individuo i. Xi2 rappresenta il
valore assunto ..
(…)
Campionamento La rilevazione campionaria presenta:
• vantaggi nei costi di rilevazione • vantaggi nei tempi di raccolta dati e di elaborazione • vantaggi organizzativi •
vantaggi di approfondimento e di accuratezza in quanto la minore complessità organizzativa
permette di concentrare risorse sul controllo della qualità della rilevazione
Errore di campionamento e ampiezza del campione
Il ricercatore sociale tutte le volte che opera su un campione, ottiene delle stime campionarie dei parametri della
popolazione, espresse nella forma di un intervallo di confidenza che ha una certa probabilità di includere il parametro
sconosciuto. Questo intervallo viene a costituire l’errore di campionamento. Indichiamo con θ il valore sconosciuto del
parametro della popolazione (una media, proporzione, coefficiente di regressione ecc), con θ^ il valore trovato nel
campione e cioè la sua stima, e con e l’errore di campionamento, possiamo scrivere:
θ = θ^ +/- e
La stima θ^ è direttamente fornita dai dati del campione. Il problema vero consiste nel calcolare l’errore di
campionamento, che è dato da:
e = zσ(X con trattino) = z s/√n (√1 – f)
dove: • σ(X con trattino) = l’errore standard della media campionaria • z = il coefficiente dipendente dal livello di
fiducia della stima che nel caso del 95% è 1,96 • s = deviazione standard campionaria della variabile studiata • n =
ampiezza del campione • 1 – f = fattore di correzione per popolazioni finite dove f = frazione di campionamento che
è n/N
L’errore è tanto più grande: • quanto più elevato è il livello di fiducia che il ricercatore vuole avere nella sua stima •
quanto più elevata è la variabilità della variabile studiata. Se vogliamo studiare il reddito
medio degli abitanti di un quartiere di una città a parità di altre condizioni l’errore di campionamento sarà più elevato in
un quartiere misto rispetto al caso di un quartiere socialmente omogeneo
• quanto minore è l’ampiezza del campione
Abbiamo poi il termine √1 – f definito come FATTORE DI CORREZIONE PER POPOLAZIONI FINITE, dove f =
n/N. Si noti che se la popolazione è infinita o comunque molto maggiore di n, il fattore di correzione diventa talmente
vicino ad 1 che si può trascurare. Nel caso di variabili categoriali, la misura sintetica più comune è rappresentata dalla
proporzione. In questo caso la formula dell’errore di campionamento si modifica leggermente e diventa:
e = z √pq/n-1 (√1 – f )
dove:
• p = proporzione nel campione per la categoria in esame • q = 1 – p
Ampiezza del campione La determinazione preventiva, seppur approssimata, dell’ampiezza del campione rappresenta
uno dei criteri base per la definizione dell’entità della ricerca e la previsione dei suoi costi. Dalle precedenti formule
dell’errore di campionamento è possibile risalire alle dimensioni del campione: basta sostituire ad e l’errore che siamo
disposti ad accettare e risolvere l’equazione rispetto ad n. Supponiamo per il momento che la popolazione sia talmente
grande rispetto al campione che si possa trascurare √1 – f .
n = (zs/e)2 n = n – 1 = z2pq / ez
abbiamo quindi che l’ampiezza del campione è direttamente proporzionale al livello di fiducia desiderato per la stima
(z) e alla variabilità del fenomeno studiato, e inversamente proporzionale all’errore che il ricercatore è disposto ad
accettare. Si noti che z ed e sono stabilite dal ricercatore, mentre s, p e q non sono noti, in quanto il ricercatore vuole
sapere quanti casi deve campionare prima dell’inizio della rilevazione.
Se dobbiamo tenere conto del fattore di correzione per popolazioni finite pari a √1 – f , da introdurre nel caso che il
campione costituisca più del 5% della popolazione ( f = n/N > 0.05). Tenendo conto di tale fattore abbiamo che:
n = (zs/e)2 n0 = z2pq / e2
se il valore di n0 così calcolato risulta più piccolo del 5% di N allora va considerato come definitivo. Se invece risulta
più elevato, occorre introdurre il fattore di correzione e si può passare da n0 al valore corretto di n:
n = n0 / 1 +n0/N
E’ opinione diffusa che l’ampiezza del campione debba essere proporzionale a quella della popolazione. Per esempio se
dobbiamo creare due campioni sulle popolazioni di due comuni rispettivamente di 10.000 e 100.000 abitanti, il
ricercatore sprovveduto suggerirà di utilizzare nel secondo caso un campione 10 volte superiore a quello del primo caso.
QUESTO E’ TOTALMENTE SBAGLIATO. A determinare l’ampiezza del campione a parità di affidabilità e di errore
della stima, interviene in prima istanza solo la dispersione s (o √pq) della variabile studiata. Essendo la dispersione
misurata da √pq, è agevole constatare che questo indice assume il valore più elevato quando p = q = 0,50. Per cui si
calcola l’ampiezza richiesta al campione nel caso più sfavorevole, quando cioè p = q = 0,50; a maggior ragione tale
campione sarà sufficiente per le variabili che presentano proporzioni diverse da 0,50. Supponiamo di aver estratto con
procedura di campionamento casuale semplice dalla popolazione di un quartiere di 50.000 abitanti un campione di 420
soggetti e di aver trovato attraverso un questionario, una percentuale di cattolici praticanti del 25,7%. Applicando la
formula (escludendo √1 – f):
e = z √pq/n-1 e = 1,96 √0,257 x 0,743/419 = 0,042
questo significa che l’errore è di 4,2 punti percentuali e possiamo dire che con una probabilità del 95% la percentuale di
cattolici praticanti è di 25,7% + o – 4,92%.
Disegni di campionamento probabilistici Un campione probabilistico è quello in cui ogni unità che lo compone viene
estratta con una probabilità nota e diversa da zero. Se costruiamo un campione di studenti universitari estraendo a sorte
un certo numero di studenti fra quelli presenti un qualsiasi giorno in università, non otteniamo un campione
probabilistico perché:
• i non frequentanti hanno probabilità nulla di entrare nel campione • le matricole hanno maggiori probabilità di essere
estratte degli studenti degli anni superiori
(perché di solito frequentano di più) • gli studenti degli anni superiori hanno maggiori probabilità di essere selezionati
rispetto agli
studenti fuoricorso.
Campionamento casuale semplice Formalmente abbiamo un campionamento casuale semplice quando tutte le unità
della popolazione di riferimento hanno la stessa probabilità di essere incluse nel campione. Nonostante la sua semplicità
il campionamento casuale semplice è raramente applicato nella ricerca sociale sia perché la selezione è completamente
affidata al caso e non incorpora le informazioni note a priori sulla popolazione, sia perché nelle indagini su vasta scala
comporta un piano di rilevazione costoso e di difficile realizzazione dal punto di vista organizzativo, e perché necessita
di una lista completa dei membri della popolazione che, spesso non è disponibile.
Campionamento sistematico Differisce da quello semplice solo dal punto di vista della tecnica di estrazione dei soggetti.
Le unità campionarie non vengono estratte mediante un sorteggio ma scorrendo la lista dei soggetti e selezionandone
sistematicamente uno ogni dato intervallo. Se è nota l’ampiezza della popolazione di riferimento N ed è stabilita
l’ampiezza del campione n , si sceglie un’unità ogni k = N/n unità della popolazione, cominciando da un numero
estratto a caso fra 1 e k (k è chiamato intervallo di campionamento). Ad esempio: se N=8235, n=500, si sceglie una
unità ogni 16 (perché k=8235/500=16,7) cominciando da un numero estratto a caso fra 1 e 16.
Campionamento stratificato Se il fenomeno oggetto di studio presenta delle aree di maggiore omogeneità è possibile
aumentare l’efficienza del campione facendo ricorso al campionamento stratificato, che si articola in 3 fasi:
1. si suddivide la popolazione in sottopopolazioni detti strati il più possibile omogenee rispetto al fenomeno studiato
utilizzando come criterio di stratificazione una variabile ad esso correlata
2. si estrae mediante un procedimento casuale semplice un campione da ogni strato 3. si uniscono i campioni
corrispondenti ai singoli strati per ottenere il campione complessivo
All’interno di ogni di ogni singolo strato l’estrazione avviene con la procedura del campionamento casuale semplice. Il
campione si dice:
• stratificato proporzionale o auto-ponderato se riproduce la stessa composizione degli strati nella popolazione (per
esempio se gli operai, lavoratori autonomie i liberi professionisti sono rispettivamente il 40, 40, 15 e il 5% della
popolazione e noi costruiamo un campione complessivo di 1000 casi formato da 400 operai, 400 impiegati 150
lavoratori autonomi e 50 liberi professionisti
• stratificato non proporzionale • stratificato ottimale nel quale l’ampiezza del campione estratto da ciascuno strato
risulta
proporzionale alla variabilità della distribuzione del fenomeno studiato all’interno di quello strato
Campionamento a stadi Non comporta rispetto al campionamento casuale semplice un miglioramento di efficienza ma
una semplificazione della procedura di estrazione e una diminuzione dei costi di rilevazione. La popolazione viene
suddivisa su più livelli gerarchicamente ordinati che vengono estratti in successione con un procedimento “a imbuto”.
Ad esempio, dovendo costruire un campione nazionale di maestri elementari questi possono essere suddivisi in un’unità
primarie rappresentate dai circoli didattici di appartenenza e unità secondarie costituite dagli stessi maestri. Il
campionamento si effettua in due stadi cioè attraverso due estrazioni successive:
• al primo stadio si estrae un campione di unità primarie (ad esempio 50 circoli didattici) a tale scopo sarà necessario
possedere la lista completa delle unità primarie