Sei sulla pagina 1di 16

Secondo parziale Statistica: Inferenza e multivariata

Inferenza - Blalock Cap 8 – introduzione alla statistica induttiva


Lo scopo delle generalizzazioni statistiche è quello di dire qualcosa delle varie caratteristiche dell’universo o massa,
studiato sulla base di fatti conosciuti in merito a un campione tratto da quell’universo. È importante distinguere bene tra
caratteristiche dell’universo e caratteristiche del campione: si adoperano caratteri dell’alfabeto latino per indicare le
caratteristiche del campione e caratteri dell’alfabeto greco per indicare caratteristiche dell’universo. Così, la media
dell’universo viene indicata dalla lettera μ e la media del campione dalla lettera X(con trattino), lo scarto quadratico
medio dell’universo con la lettera σ e lo scarto quadratico medio del campione dalla lettera s.
I parametri sono valori fissi relativi a un universo e sono generalmente sconosciuti. Le statistiche invece variano da un
campione all’altro. Al contrario di quanto avviene per i parametri, le statistiche relative a un determinato campione sono
conosciute o comunque possono essere calcolate. Ciò che non sappiamo è in che misura il campione rappresenti
l’universo, cioè in che misura le statistiche ottenute si avvicinano ai parametri che non conosciamo. Noi siamo
interessati all’universo e non al campione; scegliamo un campione perché ci è più facile agire in questo modo, ma il fine
del procedimento è quello di trarre induzioni in merito alle caratteristiche sconosciute dell’universo da statistiche di
campione, conosciute, ma di per sé insignificanti. Nel procedimento di verifica delle ipotesi, partiamo ipotizzando che i
parametri sconosciuti abbiano determinati valori e ci chiediamo in seguito che probabilità vi è di ottenere un campione
avente le caratteristiche del nostro se le caratteristiche sono quelle ipotizzate. Nel far questo, cerchiamo di decidere su
basi razionali se i valori ipotizzati per i parametri sono ragionevoli, considerando i dati disponibili.
I vari momenti del procedimento di verifica delle ipotesi Un’ipotesi è un’affermazione relativa ad un evento futuro o
comunque a un evento il cui risultato è sconosciuto al momento in cui l’affermazione viene fatta, costruita in modo che
possa essere respinta. In linguaggio più preciso, possiamo dire di aver sottoposto a verifica una ipotesi, se abbiamo
effettuato queste operazioni:
1. Tutti i possibili risultati dell’esperimento o dell’osservazione sono stati delineati in anticipo 2. Sempre prima della
verifica è stato deciso quali operazioni o procedimenti sono necessari per determinare quale dei risultati delineati si
verifica, o si è verificato 3. Sempre in anticipo, è stato deciso quali, tra i possibili risultati delineati, porteranno alla
reiezione della ipotesi e quali alla sua non reiezione. La reiezione deve essere stata un risultato possibile 4.
L’esperimento o le osservazioni sono state effettuate, i risultati sono stati annotati e sulla base di essi si è
deciso se respingere o meno l’ipotesi.
L’induzione statistica ha a che fare specialmente con le operazioni indicate ai punti 3 e 4 dal momento che quando il
lavoro va in mano allo statistico si deve supporre che le fasi 1 e 2 sono già state compiute.
Esistono due tipi di errore da prendere in considerazione: • Errore di primo tipo (quando H0 è vera e viene rifiutata)
insorge quando introduciamo affermazioni probabilistiche nella teoria. Invece di dire che “se A è vero, deve verificarsi
B” possiamo solo dire che “se A è vero, B sarà probabilmente vero”. Dobbiamo cioè ammettere la possibilità che B sia
falso, anche se A è vero. Se noi seguiamo la regola fondamentale di respingere A tutte le volte che B è falso, cioè non si
verifica, corriamo il rischio di commettere l’errore di respingere un’ipotesi vera. Questo tipo di errore è l’errore di
primo tipo o errore alfa.
• Errore di secondo tipo (quando H0 è falsa e non viene rifiutata) deriva dall’errore sul piano logico che consiste
nell’affermare ciò che si deduce.
Dobbiamo usare affermazioni probabilistiche a causa delle difficoltà in cui si incorre quando si vogliono trarre
generalizzazioni che si applicano a qualcosa che è al di fuori del campo dei dati disponibili.
La teoria A consiste di una serie di affermazioni relative alla natura dell’universo e ai procedimenti di campionamento,
assieme ai tipi di ragionamento matematico necessari per formulare affermazioni probabilistiche relative al verificarsi o
meno di certe caratteristiche del campione, se le affermazioni sono corrette. Per mezzo di queste affermazioni
probabilistiche possiamo decidere a priori quali risultati sono tanto probabili che saremo disposti a respingere la teoria
tutte le volte che essi non si verificano. Ciò che possiamo dire è che se le affermazioni relative all’universo sono vere, la
maggior parte dei campioni tratti da quell’universo daranno risultati tali da ricadere entro una gamma predeterminata di
risultati. In pratica il campione estratto è uno solo, ma se i risultati ottenuti sono al di fuori dei limiti predeterminati,
ricadono cioè in quello che chiamiamo “regione critica”, considereremo inesatte le affermazioni relative all’universo,
correndo il rischio di commettere un errore di tipo alfa. Il B quindi è formato da un gruppo ristretto di risultati ottenuti
utilizzando il campione. Se i risultati ottenuti non sono tra quelli compresi nel gruppo, B è falso e l’ipotesi è respinta.
Esempio: poniamo di voler mettere a confronto due campioni, l’uno di impiegati e l’altro di operai, per quanto riguarda
il loro desiderio di vedere i figli compiere studi al livello universitario. Se vogliamo dimostrare che vi è differenza fra i
gruppi, dobbiamo dimostrare che è falsa l’ipotesi alternativa e cioè quella che tra i gruppi non c’è nessuna differenza.
Non possiamo mai affermare con certezza che vi è una differenza: per non cadere nell’errore di affermare ciò che si è
dedotto, dobbiamo procedere eliminando le ipotesi false. Le ipotesi in questo caso sono solo due: che la differenza ci sia
o non ci sia. Se possiamo eliminare la seconda, possiamo concludere che la prima è vera. Poniamo quindi l’ipotesi che
la percentuale di soggetti che desiderano mandare i propri figli all’università sia la stessa per i due gruppi. Questa
ipotesi relativa alla non esistenza di differenza è conosciuta come IPOTESI NULLA (H0) ed è quella che viene
sottoposta a verifica: ad essa si contrappone l’ipotesi di ricerca (H1) con la quale si mette a confronto H0. Possiamo
dimostrare mediante procedimento matematico che, se è vera l’ipotesi ed esistono gli altri requisiti posti come
esistenti, in 99 casi su 100 il confronto tra i due campioni, ciascuno tratto da una delle due classi considerate, darebbe
una differenza del 10 percento, o minore. B in altre parole è composto da differenze relative ai campioni che sono
minori del 10%. Se è vero che tra i due universi non vi è differenza, è molto probabile che la differenza tra i due
campioni tratti da essi non superi il 10%. Se le differenze tra le percentuali nei due campioni saranno più del 10%
potremo respingere l’insieme di requisiti A (tra i quali vi è H0). Quando sottoponiamo a verifica l’ipotesi nulla,
partiamo quindi in genere da una H0 che in realtà supponiamo essere falsa. Questa H0 fa parte di un insieme di requisiti
dati per scontati, A, che implica un insieme di risultati probabili, B. Se B non si verifica e cioè se finiamo nella regione
critica, possiamo respingere A. se invece B si verifica per evitare l’errore che consiste nell’affermare ciò che si deduce,
possiamo solo dire che non possiamo respingere H0 ma non potremo accettarla come valida.
Slides (Ipotesi e test di significatività) In statistica le ipotesi vengono formulate rispetto al parametro (e quindi alla
popolazione) sulla base delle teorie/evidenze empiriche esistenti/precedenti. Tuttavia, possiamo osservare solo i dati
campionari e fare inferenza sulla base delle distribuzioni campionarie delle stime.
Ricordiamoci che esistono 3 distribuzioni: 1. Distribuzione della popolazione o universo secondo una certa variabile 2.
Distribuzione del campione secondo la stessa variabile 3. Distribuzione campionaria di una statistica (distribuzione
campionaria)
Ipotesi e test di significatività – FASI Le ipotesi sostanziali riguardanti il parametro si traducono, per poter essere
testate, in ipotesi statistiche concorrenti:
• Ipotesi H1: per cui la relazione esiste nella popolazione di riferimento • Ipotesi H0 (o ipotesi nulla): per cui la
relazione non esiste e cioè l’effetto è nullo
L’ipotesi nulla (H0) è l’ipotesi che testiamo o meglio, proviamo a falsificare.
Successivamente usiamo i dati campionari per stimare l’effetto, ovvero il parametro e l’errore standard della stima.
Questi valori vengono poi trasformati via standardizzazione in modo tale da confrontarli con distribuzioni campionarie
note (z o t score).
Dato uno specifico z o t score, possiamo osservare il livello di probabilità (P-VALUE). • Se il livello di significatività
(P-VALUE) è inferiore al livello critico scelto a priori, allora siamo nelle condizioni di
poter rifiutare l’ipotesi nulla. • Se il P-VALUE è superiore al livello critico l’ipotesi nulla non è accettata ma è “non
rifiutata” (la stima è compatibile con altre ipotesi e distribuzioni).
Il P-valore ci dice qual è la probabilità di osservare il valore osservato nel campione se H0 è vera. Tanto più piccolo è il
p-valore tanto più forte è l’evidenza contro H0.
Spesso diciamo “i risultati sono significativi al livello “p-valore””, ma bisogna stare attenti perché questa è
significatività statistica e non sostanziale.

Cap 9 – La probabilità Possiamo definire probabilità come il limite a cui tende il rapporto tra il numero di successi e il
numero delle prove. Una probabilità è la proporzione di successi nel lungo andare. Usiamo il termine successo se
l’evento preso in considerazione si verifica, e il termine insuccesso se l’evento non si verifica. La probabilità possiede
tre proprietà matematiche:
1. Dal momento che in una serie di esperimenti non possiamo ottenere meno di 0 successi e più di N successi, se N è il
numero delle prove, ne consegue che per un qualsiasi evento A, la probabilità che A accada (cioè P(A)) deve essere
maggiore o uguale a 0 e minore o uguale a 1.
2. Principio della probabilità totale 3. Principio della probabilità composta: se A e B sono due eventi qualsiasi, la
probabilità di ottenere sia A che B è
il prodotto della probabilità di ottenere uno di questi eventi per la probabilità condizionale di ottenere l’altro, posto che
il primo si sia verificato. Il termine probabilità condizionale significa che noi sappiamo che la probabilità di A può
variare a seconda che B si sia o meno verificato. In altre parole, la probabilità che si verifichi A se B si è verificato, è
diversa dalla probabilità che si verifichi A, se B non si è verificato. Così se B è l’evento che una persona guidi male
l’automobile e A l’evento che egli sia coinvolto in un incidente stradale, potremmo aspettarci che P(A|B) sia maggiore
di P(A), in quanto guidare male è una delle cause degli incidenti stradali.
Permutazioni e combinazioni Ogni qual volta abbiamo N diversi eventi che si verificano in un ordine determinato
parliamo di PERMUTAZIONE di tali eventi, quando l’ordine in cui si verificano è irrilevante, il gruppo di eventi
diviene una COMBINAZIONE.

Cap 10 – Verifica delle ipotesi: la distribuzione binomiale Una determinata ricerca può essere incentrata sul fatto che un
individuo possieda o meno un certo attributo o che un certo esperimento sia riuscito o meno. Se è possibile ipotizzare
una certa percentuale di successi, se le successive prove possono considerarsi indipendenti l’una dall’altra, e se il
numero delle prove effettuate è relativamente piccolo, è possibile ricorrere ai test statistici basati sulla distribuzione
binomiale. Prima di parlare delle singole fasi dei procedimenti di verifica è opportuno descrivere come vengono a
formarsi le distribuzioni binomiali.
I momenti della verifica delle ipotesi (tests statistici) I momenti sono i seguenti:
1. Assumere i requisiti essenziali (o presupposti): il ricercatore deve dare per scontata, o assumere, l’esistenza di certi
requisiti relativi all’universo al quale si riferiranno le future generalizzazioni e ai procedimenti adottati per la scelta del
campione. In genere per i test più semplici, c’è una sola ipotesi. Il genere di solito sottopone a verifica un’ipotesi che è
nel suo interesse respingere. Spesso l’ipotesi sottoposta a verifica viene indicata come ipotesi nulla (H0) in contrasto
con l’ipotesi di ricerca (H1) che si pone come alternativa a H0. In genere, ma non sempre, l’ipotesi nulla è quella che
non vi sia nessuna differenza tra due variabili, mentre l’ipotesi di ricerca è che esista una relazione positiva o negativa.
Il ricercatore può pensare che l’ipotesi nulla sia errata e che debba essere respinta per lasciar posto all’ipotesi alternativa
H1, ma in ogni caso, per il calcolo della distribuzione campionaria deve procedere come se H0 fosse corretta.
2. Ottenere la distribuzione campionaria 3. Scegliere un livello di significatività: conoscendo la distribuzione
campionaria si deve scegliere un gruppo di
possibili risultati che, se si verificano, portano al rigetto dell’ipotesi. Questi risultati scarsamente probabili costituiscono
la cosiddetta regione critica. I risultati possibili quindi ricadono in queste due classi: • Quelli il cui verificarsi
permettere di respingere l’ipotesi (regione critica) • Quelli il cui verificarsi non permette il rigetto
Occorre poi decidere se includere nella regione critica tutte e due le code della distribuzione o una sola di esse. La scelta
del livello di significatività è particolarmente difficile quando si devono prendere decisioni di importanza pratica. Se
non se ne devono prendere, si può seguire la regola pratica per cui il ricercatore deve agire a rovescio, cercare cioè di
rendere facile l’ottenimento di risultati che non desidera. Generalmente quindi il ricercatore si pone un’ipotesi nulla che
desidera respingere. Dal momento che gli farebbe piacere respingere H0 egli deve rendere questo risultato il più
difficile possibile fissando una regione critica molto ristretta. Bisogna poi decidere la direzione e cioè se usare o meno
test bilaterali o unilaterali.
4. Calcolare la statistica 5. Decidere: dopo aver scelto la regione critica e calcolato la statistica, il ricercatore potrà
respingere o non respingere l’ipotesi relativa all’esistenza o meno dei requisiti, a seconda dei risultati dell’esperimento.
Se il risultato è tale da ricadere all’interno della regione critica, è possibile respingere l’ipotesi correndo un rischio
determinato di errore del primo tipo. Se non cade nella regione critica l’ipotesi non è respinta e si corre, quindi il rischio
di un errore di secondo tipo.
Slide su inferenza ed incertezza Dalla popolazione possiamo estrarre un numero assai elevato di possibili diversi
campioni (n). Ogni possibile campione rappresenta la popolazione in modo imperfetto e tra loro i campioni
differiscono. Non essendo note le distribuzioni delle variabili di interesse nella popolazione di riferimento, non
sappiamo quanto è imperfetto un campione. Quindi i valori che otteniamo dall’analisi dei dati campionari sono stime
caratterizzate da un certo errore. Invece di usare i valori puntuali ottenuti delle stime campionarie, ci serviamo di valori
intervallari e ci esprimiamo in termini di intervalli di confidenza che variano a seconda del grado di fiducia che
vogliamo.
Θ (parametro della popolazione) = θ^ (stima del campione) ± e (errore di campionamento incognito)
Il grado di imperfezione del campione o la sua precisione dipende da: • Ampiezza del campione •
Variabilità/dispersione della variabile osservata nella popolazione di riferimento • Ampiezza della popolazione
Chiamiamo PARAMETRI le caratteristiche della popolazione e STATISTICHE le caratteristiche del campione.
Compito della statistica inferenziale è la stima dei parametri: mentre il valore dei parametri NON è noto, le stime dei
parametri e cioè le statistiche, sono note e osservate. Diversi campioni producono diverse stime dei parametri. Quando
parliamo di statistica inferenziale rispetto a determinati parametri della popolazione ci occupiamo di tre diverse
distribuzioni:
• Distribuzione della popolazione secondo una certa variabile, che non è nota • Distribuzione del campione, che è nota •
Distribuzione della stima campionaria empirica ma nota via procedimento deduttivo matematico
Differenza tra probabilità statistica e probabilità matematica: 1. Probabilità statistica è il rapporto fra il numero k delle
prove nelle quali l’evento si è manifestato e il numero n
delle prove effettuate ( k/n ) quando n tende all’infinito. 2. Probabilità matematica: la probabilità di un evento è il
rapporto tra numero di esiti favorevoli e il numero di esiti
possibili, noto apriori (es dado con 6 facce).
Legge dei grandi numeri: la frequenza relativa con cui un evento “casuale” si manifesta (probabilità statistica) tende ad
assumere il valore della sua probabilità matematica quanto più il numero dei casi osservati è elevato.
Se si estraggono ripetutamente campioni casuali di dimensione n da un qualsiasi universo, qualunque sia la sua forma,
che abbia media μ e varianza σ2, con l’aumentare di N la distribuzione campionaria delle medie dei campioni tenderà a
una distribuzione normale con media μ e varianza σ2/n.
La distribuzione normale è una distribuzione simmetrica e campanulare con media=0 e deviazione standard=1 NB: la
probabilità che un’osservazione ricada entro un intervallo pari a μ ± volte σ è uguale per tutte le distribuzioni normali.

Cap 11 – Test relativi a medie e proporzioni in un solo campione Se si estraggono ripetuti campioni di dimensioni N da
un universo a distribuzione normale con media μ e varianza σ2, la distribuzione campionaria delle medie dei campioni
sarà normale, con media μ e varianza σ2/N. Il punto di partenza è un universo perfettamente normale, anche se
sappiamo benissimo che nella realtà non può esistere un universo perfettamente normale. Immaginiamo poi di estrarre
da questo universo un numero grandissimo di campioni, ciascuno di dimensioni N. Per ciascuno di questi campioni
possiamo calcolare una media X con trattino. Queste medie di campioni non saranno, naturalmente, sempre identiche,
ma ci aspettiamo che esse tendano ad accentrarsi attorno alla media μ cioè a quella che è la media dell’universo. Il
teorema ci dice che se costruiamo un diagramma della distribuzione di queste medie di campioni, otteniamo una curva
normale e che il suo scarso quadratico medio è dato da σ/√N. Pertanto, quanto maggiori sono le dimensioni del
campione, tanto minore è lo scarto quadratico medio della distribuzione campionaria, cioè è minore la dispersione delle
medie dei campioni. Se consideriamo le medie dei campioni come stime della media dell’universo, possiamo dire che
nella nostra stima vi è un certo margine di errore dovuto alle differenze che esistono tra un campione e l’altro.
Chiamiamo quindi lo scarto quadratico medio della distribuzione campionaria ERRORE STANDARD. L’errore
standard della media viene indicato con il simbolo σx- ed è dato da σ/√N.
È necessario ricordare sempre che stiamo parlando di 3 diverse distribuzioni, di cui due sono normali: • Distribuzione
della popolazione (o universo) secondo una certa variabile (ad esempio reddito), caratterizzata da
una certa media μ, una certa deviazione standard σ e varianza σ2. Si assume sia normale e la indichiamo così Nor(μ,
σ2).
• Distribuzione del campione secondo la stessa variabile, con media X− e deviazione standard s. Se N è abbastanza
grande, questa distribuzione tenderà a rappresentare con sufficiente fedeltà l’universo e pertanto sarà
approssimativamente normale. Questa seconda distribuzione è l’unica che viene ottenuta empiricamente
• Distribuzione campionaria di una statistica (nel ns caso della media), con media μ e deviazione standard σ/√N.
Tanto è maggiore N, cioè le dimensioni del campione, tanto più appuntita è la distribuzione campionaria. Per quanto gli
scarti quadratici medi delle due distribuzioni (dell’universo e campionaria) siano connessi l’uno all’altro, esse risultano
nettamente distinte. Tutti i casi nella distribuzione campionaria sono medie di campioni diversi.
Media Scarto quadratico medio Distribuzione della popolazione μ σ
Distribuzione del campione X− s Distribuzione campionaria μ σ/√N
Il teorema ci dice che è più facile stimare esattamente la media dell’universo se il campione è grande piuttosto che se è
piccolo. Il teorema conferma che le medie dei campioni variano molto meno se N è grande, ma ci dice anche in che
misura aumenta il margine di sicurezza nella stima, se N aumenta di una qualsiasi quantità. Per ridurre l’errore standard
alla metà, dobbiamo quadruplicare l’N. Inoltre, se l’universo di origine dei campioni è molto omogeneo, ossia ha un σ
molto piccolo, è proporzionalmente piccolo anche σ/√N.
Quindi, il teorema del limite centrale dice che: se si estraggono ripetutamente campioni casuali di dimensione N da un
qualsiasi universo (qualunque sia la sua forma) che abbia media μ e una varianza σ2, con l’aumentare di N la
distribuzione campionaria delle medie dei campioni tenderà ad avvicinarsi alla normalità e avrà come media μ e
varianza σ2/√N.
Il teorema ci dice che se N è abbastanza grande possiamo avere a che fare con una distribuzione campionaria
approssimativamente normale, qualunque sia la forma della distribuzione dell’universo. Quindi ogni volta che N è
abbastanza grande, è possibile trascurare completamente il requisito della normalità dell’universo di partenza e
continuare a fare uso dei test basati sulla curva normale.
Test della media dell’universo, se σ è conosciuto Problema: un ricercatore vuole controllare se i metodi adottati per il
campionamento in una ricerca di comunità sono adeguati. Il campione infatti è stato scelto dagli intervistatori stessi e vi
è il sospetto che essi abbiano dato una sovra- rappresentazione alle famiglie di reddito medio/elevato cioè abbiano dato
alle famiglie di questo tipo una probabilità maggiore di apparire nel campione di quella data alle famiglie di reddito
basso. La comunità nel suo complesso ha un reddito medio di 11.500$ con uno scarto quadratico medio di 1.500$. La
ricerca, effettuata su un campione che si suppone casuale, di 100 famiglie, ha invece dato un reddito familiare medio di
11.900$. Ha ragione il ricercatore a sospettare una scelta non completamente casuale?
Primo momento: assumere i requisiti: per poter fare uso del teorema del limite centrale occorre dare per scontata la
presenza di alcuni requisiti, tra cui quello relativo al metodo di campionamento. Nel nostro caso il requisito riguarderà
la casualità di tale metodo. Ma è proprio la presenza di questo requisito che noi vogliamo controllare. Siamo invece
disposti a dare per scontata la presenza di alcuni requisiti relativi all’universo, cioè crediamo che i dati del censimento
siano esatti: se infatti non potessimo accettare senza discussione neppure i dati del censimento, ci troveremmo con due
requisiti dalla presenza dubbia e non saremmo in grado di interpretare i risultati del test. Che il campionamento sia
casuale è la nostra ipotesi, mentre i requisiti relativi all’universo costituiscono il modello.
Se N è molto grande deve anche sussistere il requisito che l’universo di partenza sia distribuito normalmente. Ma
quando è che N diviene abbastanza grande da permetterci di trascurare il requisito della normalità e applicare il teorema
del limite centrale? Non esiste una risposta univoca dal momento che il punto preciso in cui N è sufficiente dipende:
• Dal livello di precisione che si intende adottare nella stima della probabilità di errori del primo tipo • Dalla
somiglianza della distribuzione dell’universo alla distribuzione normale
Possiamo in linea di massima dire che se N≥100 il requisito della normalità nell’universo può in pratica essere
trascurato. Se N≥50 e per di più si può provare che la distribuzione dell’universo non si distacca in modo notevole dalla
normalità, è possibile usare dei test di questo tipo, se N≤30 bisogna evitarli a meno che non si è sicuri della normalità
della distribuzione. Se il campione è quindi piccolo è meglio usare test di altro tipo. In questo caso possiamo usare con
tranquillità il teorema del limite centrale. Sappiamo sì che la distribuzione dei redditi è relativamente asimmetrica, ma
anche che il campione scelto è abbastanza grande.
Se dobbiamo usare il teorema del limite centrale dobbiamo anche accettare i dati del censimento per quanto riguarda i
valori della media e dello scarto quadratico medio dell’universo e dare per scontato che i dati siano al livello di scala a
intervallo.
Abbiamo quindi questi requisiti: • Livello di misurazione : Scala a intervalli • Modello: universo a distribuzione
normale (requisito che può essere trascurato), μ=11.500, σ=1.500 • H0: il campionamento è casuale
Secondo momento: formare la distribuzione campionaria La distribuzione campionaria non deve essere calcolata di
volta in volta: dal momento che sappiamo che la distribuzione campionaria delle medie dei campioni è normale o
approssimativamente normale, possiamo tranquillamente ricorrere alla tabella delle aree sottese alla curva normale.
Tutte le distribuzioni campionarie sono date in forma di tabelle poste in appendice.
Terzo momento: scegliere un livello di significatività e una regione critica La scelta del livello di significatività
appropriato dipende dai costi in cui si incorre se si commette un errore del primo tipo o del secondo tipo. se il
ricercatore non respinge l’ipotesi che il campionamento sia casuale, quando dovrebbe farlo in quanto il campione è stato
scelto con metodi non obiettivi, egli corre il rischio di compilare un rapporto basato su dati sbagliati; dall’altro, se
respinge l’ipotesi quando essa corrisponde a verità, corre il rischio di ripetere la rilevazione e di incorrere così in costi
elevati e inutili. Poniamo che si decida di adottare un livello di significatività dello 0,05. Subito dopo bisogna decidere
se effettuare un test unilaterale o bilaterale. In questo caso esso deve essere unilaterale in quanto, se la media del
campione risultasse minore di 11.500, non si potrebbe sospettare gli intervistatori di avere sovra-rappresentato le
famiglie di reddito medio o elevato. Una volta fissato il livello di significatività a 0,05 e deciso che il test deve essere
unilaterale, l’estensione della regione critica può essere accertata attraverso la tabella della curva normale.
Dal momento che solo il 5% dell’area sottesa alla curva normale è alla destra di un’ordinata di 1,65 deviazioni standard
al di sopra della media, sappiamo che, se il risultato è superiore alla media μ di più di 1,65 scarti quadratici medi,
l’ipotesi dovrà essere respinta.
Quarto momento: calcolare la statistica del test Sappiamo che, se tutti i requisiti sussistono, la distribuzione
campionaria di X contrattino sarà Nor(μ, σ2/√N). Nel nostro esempio quindi:
μ=11.500
σx− = σ / √N = 1.500 /√100 = 150
Per poter usare la tabella della curva normale è necessario passare ai valori standardizzati, cioè ottenere una statistica Z
che sia Nor(0,1), quindi:
Z = X – X− / s
Questa formula è però valida solo per un campione che sia Nor(X−, s2) e non per la distribuzione campionaria. Quindi:
Z = X−– μ / σ/√N =
11.900 – 11.500 /150 = 2,67
In altre parole, la media del campione è più grande della media dell’universo di 2,67 errori standard
Quinto momento: decidere Dal momento che X− devia dalla media μ posta tra i requisiti di più di 1,65 scarti quadratici
medi, l’ipotesi deve essere respinta ali livello di significatività dello 0,05.
La distribuzione t di Student In molti casi non è possibile considerare σ come un dato conosciuto. Dal momento che il
teorema del limite centrale ha a che fare con σ, non è possibile usarlo. Un’alternativa possibile è quella di sostituire s a
σ, cioè sostituire allo scarto quadratico medio dell’universo quello del campione. Ma questo procedimento fa ottenere
risultati concreti solo quando N è grande. È possibile costruire una statistica di test alternativa a quella precedente e
cioè:
t = X−– μ / s/√N-1
Se confrontiamo t con Z, vediamo subito che, mentre i numeratori sono identici, i denominatori sono diversi: infatti, per
t vi è un N-1 sotto il segno di radice e σ è stato sostituito da s. Lo scarto quadratico medio del campione s può essere
usato come una stima di σ.
Esiste un’altra quantità, che possiamo indicare con σ^ che costituisce una stima senza errore sistematico di σ e che è
ottenuta dalla formula:
σ^ = √Σ(Xi – X−)2 / N – 1
Sostituendo t a Z la modificazione apportata a causa dell’uso di N – 1 è relativamente di scarsa importanza, ma la
sostituzione di s a σ può avere invece un’importanza grandissima, specie se N è piccolo. Dal momento che s varia da
campione a campione, sia il denominatore che il numeratore di t variano. I valori di t sono quindi soggetti a una
variabilità maggiore di quella dei valori di Z ad essi corrispondenti: questo significa che: la distribuzione campionaria t
sarà più appiattita della curva normale, avrà cioè code più lunghe. Se N è molto piccolo la distribuzione t è molto
appiattita rispetto a quella normale: in questo caso è necessario contare un numero maggiore di scarti quadratici dalla
media per comprendere nell’intervallo così delimitato il 95% dei casi. Man mano che N cresce, la distribuzione di t si
avvicina sempre di più alla curva normale, anche se resta sempre leggermente più appiattita di essa. Esiste quindi una
distribuzione di t per ogni dimensione del campione.
Il fatto che la distribuzione t si avvicini alla normale al crescere di N, è perfettamente giustificato se si pensa al fatto che
con il crescere di N, s diviene una stima sempre migliore di σ, e quindi diviene indifferente se nel denominatore si usa
l’uno o l’altro (N>100 molto simile).
Per poter usare la distribuzione t, bisogna assumere che l’universo sia distribuito secondo una curva normale,
specialmente se N è relativamente piccolo.
Applicazione pratica: Problema: è necessario sottoporre a valutazione l’operato di un campione casuale di 25 centri di
disintossicazione per drogati scelti tra tutti quelli esistenti in una regione. Ciascun centro conteggia la percentuale di
cure riuscite secondo un criterio prefissato. Per norma è stabilito che il numero di cure riuscite debba essere per tutti i
centri almeno del 60%. Nel campione estratto si trova che la media dei successi è del 52% e che lo scarto quadratico
medio è del 12%. È possibile da questo dedurre che per tutti i centri della regione la percentuale di successi è al di sotto
di quella fissata nella norma?
Primo momento: assumere i requisiti Livello di misurazione: scala a intervalli Modello: campionamento casuale,
distribuzione normale dell’universo Ipotesi: μ = 60%
Secondo momento: formare la distribuzione campionaria Dal momento che esiste una diversa tabella per ogni possibile
dimensione del campione, ogni tabella è stata riassunta così da riportare solo i dati relativi alle code delle varie
distribuzioni. Per usare la tabella è necessario individuare la parte che riguarda i campioni delle dimensioni date
scorrendo la prima colonna a SX. Le dimensioni dei campioni sono date in genere in termini di GRADI DI LIBERTA’
(g), che corrispondono per ogni possibile N, a N – 1. È poi necessario individuare nella prima riga in alto il livello di
significatività adottato per poter scegliere tra le cifre segnate sulla tabella, quella che rappresenta la grandezza di t
necessaria perché i dati siano significativi al livello desiderato.
Terzo momento: scegliere un livello di significatività e una regione critica Usiamo il livello di significatività dello 0,05
e un test unilaterale. Dalla tabella, possiamo vedere che per 24 gradi di libertà (25-1) è necessario un t di 2,064 o
superiore, per ottenere significatività con un test bilaterale, mentre, se il test è unilaterale, basta un t di 1,711 o
superiore. Nel caso dei test unilaterali dobbiamo dividere a metà il livello di significatività richiesto per i test bilaterali:
ciò avviene perché dobbiamo allontanarci dalla media di un numero di scarti quadratici medi che è lo stesso per una
regione critica unilaterale di 0,05 e per una regione critica bilaterale di 0,10.
Quarto momento: calcolare la statistica del test Sappiamo che la distribuzione campionaria di X con trattino è Nor(μ,
σ2/N) e che pertanto la distribuzione di Z è Nor(0, 1), ma non possiamo usare queste informazioni per il semplice fatto
che ignoriamo il valore di σ.
Calcoliamo invece il valore di t:
t = X−– μ / s/√N-1 = 52 – 60 / 12/√24 = -3,27
Quinto momento: decidere Abbiamo accertato in un momento precedente che ogni t il cui valore numerico sia superiore
o uguale a 1,711 ricade nella regione critica: pertanto possiamo respingere l’ipotesi che la media dell’universo sia
uguale a 60 e concludere, sua pure correndo un certo rischio di errore, che gli uffici sono al di sotto della norma.
Per valori di N-1 maggiori di 30 bisogna di solito interpolare i valori dati dalla tabella e per valori maggiori di 120 basta
usare la tabella della curva normale, in quanto i valori di t non sono dati. È preferibile usare la tabella t ogni volta che
non si conosce σ, purché si possa ragionevolmente assumere che la distribuzione dell’universo sia normale.
Test relativi alle proporzioni Le proporzioni saranno considerate come casi particolari delle medie. Poniamo di avere
una semplice scala nominale dicotomica. Ad esempio, possiamo voler verificare un’ipotesi relativa alla proporzione di
maschi in un universo. Assegniamo innanzitutto, arbitrariamente un valore di 1 ai maschi e un valore 0 alle femmine e
trattiamo i valori ottenuti come una scala a intervalli. Abbiamo quindi un universo composto interamente di 1 e di 0. Si
tratta di una distribuzione bimodale nella quale tutti i casi sono all’uno o all’altro dei due estremi e che quindi non è
certamente normale. Ma se N è abbastanza grande, noi sappiamo che qualunque sia la forma della distribuzione
dell’universo, la distribuzione campionaria delle medie dei campioni è Nor(μ, σ2/N). dobbiamo quindi solo determinare
la media e lo scarto quadratico medio dell’universo composto dai valori 1 e 0. Chiamiamo pu la proporzione di maschi
all’interno dell’universo e qu la corrispondente proporzione di femmine; l’indice u indica che ci stiamo occupando
dell’universo. Per ottenere la media degli uno e degli zero dell’universo, dobbiamo semplicemente sommare tutti i
valori e dividere per il numero totale dei casi. Il numero degli uno corrisponderà al numero totale dei casi moltiplicato
per la proporzione di maschi: qualunque sia il numero degli zero, il loro contributo alla somma sarà ovviamente nullo.
Pertanto la media dell’universo sarà:
μ = Mpu / M = pu
dove M è la dimensione dell’universo (diverso quindi na N che è la dimensione del campione). Quindi la media di un
certo numero di 1 e di 0 è data esattamente dalla proporzione di 1. Allo stesso modo naturalmente Xcontrattino = ps
dove ps indica la proporzione di maschi nel campione.
Usando la formula generale per il calcolo dello scarto quadratico medio possiamo dimostrare che:
σ = √puqu
La formula per lo scarto quadratico medio diviene:
formula 1 pag 249
per ogni valore 1, il quadrato dello scarto dalla media sarà (1 – pu)2 e per ogni punteggio di zero sarà (0 – pu)2. Dal
momento che il numero degli uno è dato da Mpu e il numero degli zero da Mqu, avremo:
formula 2
che diventa:
formula 3
Dal momento che M viene eliminato per semplificazione sia dalla formula del μ che da quella del σ, sia la media che lo
scarto quadratico medio possono essere calcolati indipendentemente dalle dimensioni dell’universo. Possiamo ora usare
il teorema del limite centrale per avere:
σx− = σps = σ/√N = √puqu /N
in cui il simbolo σps indica che abbiamo a che fare con l’errore standard delle proporzioni nel campione. Nel calcolo ps
è al posto di Xcontrattino, pu al posto di μ e σps al posto di σx−. Quindi per il calcolo di Z abbiamo:
Z = X− – μ / σx− = ps – pu / √puqu/N
Bisogna sottolineare che il teorema del limite centrale si può applicare solo quando N è abbastanza grande da
permettere l’uso dell’approssimazione alla curva normale. Quando N è piccolo, conviene utilizzare la distribuzione
binomiale. Tra questo test relativo alle proporzioni e la distribuzione binomiale vi è uno stretto rapporto. Se N è grande
e Np>5, in cui p<q, la distribuzione binomiale può essere approssimata da una distribuzione normale. Nella
distribuzione normale ci occupiamo del numero dei successi e non di proporzioni: il valore atteso del numero dei
successi risulta essere Np e lo scarto quadratico medio del numero dei successi è √Npq.
Formula 1 pag 250
Applicazione pratica Problema: è necessario valutare l’opera svolta da un particolare centro di assistenza ai drogati e
pertanto sono stati estratti dai suoi archivi in modo del tutto casuale, 125 fascicoli relativi ad altrettanti casi. In questo
campione si trova che la percentuale di successi è del 55% mentre di norma la percentuale di successi richiesti ai singoli
uffici è del 60%. Si può concludere che l’ufficio sta lavorando al di sotto della norma?
Primo momento: assumere i requisiti Livello di misurazione: scala nominale dicotomica Modello: campionamento
casuale Ipotesi: pu = 0,60
In questo caso stiamo studiando un singolo centro e il campione è composto di casi trattati con successo o meno;
nell’esempio precedente invece i centri e non i singoli casi, erano l’unità e la misura relativa a ciascun centro era data
dalla percentuale di successi.
Secondo momento: formare la distribuzione campionaria La distribuzione campionaria sarà approssimativamente
normale in quanto N è grande.
Terzo momento: scegliere un livello di significatività e una regione critica Tanto per cambiare, scegliamo un livello di
significatività dello 0,02; il test sarà naturalmente unilaterale.
Quarto momento: calcolare la statistica del test Possiamo calcolare Z così:
Z = ps – pu / √puqu/N =
0,55 – 0,60 /√[(0,60)(0,40)/125 =
0,05/0,0438 = -1,14
Quinto momento: decidere Dalla tabella della curva normale si può vedere che uno Z di -1,14 o minore, può verificarsi
per effetto del caso circa il 13% delle volte, se tutti i requisiti ipotizzati sussistono. Non possiamo pertanto respingere
l’ipotesi al livello di
significatività dello 0,02. Sulla base dei dati a disposizione non è possibile stabilire che l’ufficio studiato è al di sotto
della norma.

Cap 12 – Stima puntuale e stima per intervallo Esistono stime di due tipi:
• Stime puntuali: in cui si ricerca uno specifico valore, quello che meglio di ogni altro può servire per stimare un
parametro. Ad esempio, si può stimare che il reddito annuo mediano della città di NYC è di 10.500$.
• Stime intervallari: che sono appunto caratterizzate da un intervallo entro il quale si colloca il vero parametro.
Gli stimatori devono essere: • Corretti: la loro distribuzione campionaria è centrata attorno al parametro • Efficienti: la
loro distribuzione campionaria ha l’errore standard più piccolo possibile
Stima puntuale Composta da un singolo valore che risulta essere la migliore previsione del parametro.
Stima per intervallo Il procedimento che si deve seguire per ottenere una stima per intervallo o, un intervallo di fiducia,
è semplicissimo. Innanzitutto esponiamo il metodo per ottenere l’intervallo, poi i motivi per cui si segue quel metodo.
Bisogna prima di ogni altra cosa, decidere che rischio si vuole correre di dichiarare che il parametro ricade entro il
limite scelto, quando in realtà ciò non è vero. Poniamo che si voglia correre il rischio di sbagliare il 5% delle volte, cioè
che si decida di usare ciò che viene indicato come un intervallo di fiducia del 95%. L’intervallo si ottiene calcolando
nelle due direzioni dalla stima puntuale (per esempio dalla media del campione), un certo numero di volte l’ammontare
dell’errore standard a seconda del livello di fiducia scelto. Per stimare la media dell’universo μ, possiamo ottenere un
intervallo come segue, usando il livello del 95%:
X− ± 1,96 σx− = X−± 1,96 σ/√N
Se X−= 15, σ=5 e N=100 l’intervallo di fiducia sarà 15±0,98
In questo caso, sappiamo che solo 5 volte su 100 mediante questo procedimento otterremo intervalli tali da non
includere il parametro.
Usando queste espressioni si tende a nascondere il fatto che il parametro è un valore fisso, mentre è l’intervallo che
varia da campione a campione. Di solito si usano intervalli di fiducia del 95 o 99%, ma nulla vieta di sceglierne altri ove
se ne veda l’utilità.
NB che ( 1 – livello di fiducia ) = livello di significatività
Intervalli di fiducia e verifica delle ipotesi: gli intervalli di fiducia servono anche implicitamente per la verifica di una
serie di ipotesi. Abbiamo detto implicitamente, in quanto le ipotesi specifiche non sono in realtà espresse, ma solo
sottintese.
Supponiamo che invede ci aver calcolato l’intervallo, abbiamo ipotizzato diversi valori alternativi di μ e abbiamo
proceduto alla verifica delle relative ipotesi. Per semplicità ammettiamo di sapere il valore di σ, di avere scelto il livello
di significatività dello 0,05 e di aver optato per un test bilaterale. Poniamo di aver ipotizzato un valore come ad esempio
μ1, tale da ricadere all’interno dell’intervallo di fiducia: in questo caso la media del campione X- non ricadrà. Fino a
pag 267
Intervalli di fiducia per altri tipi di problemi Un intervallo di fiducia per un qualsiasi parametro si ottiene sempre
stimando il parametro stesso e calcolando attorno alla stima un intervallo, la cui ampiezza è funzione dell’errore
standard della stima.
Se è necessario usare la distribuzione di T perché non si conosce il valore di σ, facciamo semplicemente ricorso alla
stima dell’errore standard e sostituiamo il valore ottenuto mediante la tabella del T a quello ottenuto mediante la tabella
della curva normale. Così, nel caso di un intervallo di fiducia del 99% per la media e 24 gradi di libertà abbiamo:
X- ± 2,797σ^x- = X- ± 2,797 s/√N-1
Possiamo ottenere allo stesso modo gli intervalli delle proporzioni. Per un intervallo di fiducia del 95% avremo:
p^ ± 1,96 √p^(1-p^)/N
deviazione standard è √p(1-p)
Multivariata - Manuale La funzione primaria dell’analisi multivariata è quella di stimare l’effetto vero esercitato da X
su Y, cioè di stabilire la misura in cui i valori assunti da Y dipendono dai valori assunti da X. Questo obiettivo viene
conseguito tenendo sotto controllo cioè neutralizzando, gli effetti distorcenti esercitati da una o più variabili
supplementari che, proprio per questo motivo sono definite variabili di controllo. Come si scelgono le variabili di
controllo da utilizzare in un determinato studio?
Tutte le variabili di X e Y possono essere classificate in base alla posizione da esse occupata all’interno dell’ordine
causale elementare definito dalla variabile indipendente e da quella dipendente. Tale classificazione comprende tre
categorie principali:
1. VARIABILI ANTECEDENTI (A): sono quelle che nell’ordine causale precedono sia X che Y 2. VARIABILI
INTERVENIENTI (I): sono quelle che nell’ordine causale precedono Y ma seguono X 3. VARIABILI SUSSEGUENTI
(S):sono quelle che nell’ordine causale seguono sia X che Y.
Esiste poi un quarto tipo di variabile che chiameremo VARIABILI CONCOMITANTI (C) che risultano genuinamente
correlate con X ma che non sono chiaramente identificabili come cause né come effetti della stessa X. Queste possono
essere trattate alla stessa stregua di quelle antecedenti e quindi, essere considerate come variabili che nell’ordine causale
precedono sia X che Y.
A e C -> X -> I -> Y -> S
Se desideriamo avere una stima corretta dell’effetto esercitato da X su Y dobbiamo tenere sotto controllo l’azione svolta
dalle altre variabili. Non tutte le variabili diverse da X e Y sono ugualmente adatte a svolgere il ruolo di variabile di
controllo.
Ai fini di una corretta definizione del modello di regressione (effetto totale, diretto + indiretto) occorre “controllare” la
relazione X->Y per tutte quelle variabili che hanno un effetto sia su X che su Y quindi:
• Vanno incluse nel modello tutte le variabili antecedenti rilevanti e concomitanti • Vanno escluse dal modello le
variabili antecedenti irrilevanti, intervenienti e susseguenti.
Effetti spuri Per rimuovere l’effetto spurio dall’effetto bivariato e ottenere così una stima corrette dell’effetto causale, è
necessario tenere costante il valore della variabile di controllo. Gli effetti spuri possono essere (considerando X Y Z):
• Completamente spuri: si verifica quando non esiste alcuna relazione causale fra X e Y ma a livello bivariato, l’azione
esercitata da una o più variabili supplementari crea l’illusione che tale relazione esista realmente.
• Parzialmente spuri: si verifica quando X esercita un effetto causale su Y ma a livello bivariato, tale effetto risulta
alterato dall’azione esercitata da una o più variabili supplementari.
Z è sempre in questo caso una variabile antecedente ed esercita un effetto causale sia su X che su Y. Nel caso
dell’effetto bivariato parzialmente spurio la freccia che collega X e Y è presente, mentre nel caso dell’effetto bivariato
completamente spurio è assente.
Effetti diretti ed indiretti L’analisi multivariata non serve solo a neutralizzare gli effetti spuri provocati da alcune
variabili sulla relazione causale di interesse. Talvolta le variabili di controllo sono utilizzate per comprendere meglio la
natura di questa relazione, cioè per mettere alla luce la catena di cause ed effetti che nel suo insieme, produce l’effetto
causale complessivo esercitato dalla variabile indipendente su quella dipendente. Entrano in gioco le VARIABILI
INTERVENIENTI cioè quelle variabili che mediano in tutto o in parte l’effetto esercitato dalla variabile indipendente
su quella dipendente e pertanto consentono di comprenderne meglio la natura. Anche in questo caso l’effetto può essere
di due tipi:
• Effetto di X su Y parzialmente indiretto • Effetto di X su Y completamente indiretto
In entrambi i casi la variabile indipendente X esercita un effetto sulla variabile di controllo Z. Quest’ultima a sua volta
esercita un effetto causale sulla variabile dipendente. Il prodotto di questi due effetti causali rappresenta il cosiddetto
EFFETTO INDIRETTO di X su Y, cioè l’influenza che la variabile indipendente esercita sulla variabile dipendente per
mezzo della variabile di controllo. Z funziona in un certo senso come cinghia di trasmissione: X fa muovere Z il cui
movimento fa muovere Y: pertanto, ogni variazione di X produce seppure indirettamente, una variazione di Y. Ciò che
cambia tra i due effetti è l’effetto causale diretto di X su Y cioè l’influenza che la variabile indipendente esercita
direttamente sulla variabile dipendente.
Nel primo caso il legame diretto fra X e Y è presente: l’effetto totale esercitato da X su Y può essere visto come la
somma di due effetti parziali, l’effetto indiretto e l’effetto diretto:
effetto totale = a x b + c = effetto indiretto + effetto diretto
Nel secondo caso il legame diretto fra X e Y è assente e ciò significa che l’influenza esercitata dalla variabile
indipendente su quella dipendente è interamente mediata dall’azione svolta dalla variabile di controllo, pertanto:
effetto totale = a x b = effetto indiretto
Ad esempio: avendo come variabile indipendente la classe di età di alcune donne e come variabile dipendente
l’esperienza di partecipazione al lavoro. L’età influisce negativamente sul livello di istruzione (in media, le persone più
anziane hanno trascorso meno tempo a scuola di quelle più giovani); quest’ultimo influisce positivamente sulla
probabilità di avere un lavoro retribuito (le donne più istruite possiedono una maggiore quantità di capitale umano da
spendere come credenziale nel mercato del lavoro).
Effetti di interazione In alcuni casi l’effetto esercitato dalla variabile indipendente X sulla variabile dipendente Y si
manifesta in modi diversi a seconda del valore assunto dalla variabile di controllo Z. Quando ciò si verifica siamo in
presenza di quello che viene tecnicamente definito un effetto di interazione.
Potenzialità della multivariata Il nostro punto di partenza è l’effetto di X su Y osservato a livello bivariato.
Introducendo nell’analisi tutte le variabili antecedenti rilevanti otteniamo una stima corretta del vero effetto causale
esercitato da X su Y e per differenza, una stima dell’effetto spurio attribuibile alle variabili antecedenti. Se poi
introduciamo nell’analisi anche tutte le variabili intervenienti rilevanti e cioè quelle che da un lato sono influenzate da
X e dall’altro influiscono su Y, per differenza, otteniamo una stima dell’effetto indiretto attribuibile alla mediazione
delle variabili intervenienti.
Modello di regressione
Un modello di regressione è un modello teoricamente ed empiricamente guidato volto a spiegare/predire un certo
fenomeno o processo, o le relazioni esistenti tra fenomeni e processi. La scelta del modello dipende dall’obiettivo
analitico del ricercatore:
• Approccio predittivo: finalizzato alla stima di valori sconosciuti della variabile dipendente • Approccio causale:
finalizzato alla stima dell’effetto causale esercitato da una determinata variabile
indipendente sulla variabile dipendente • Approccio esplorativo/descrittivo: analisi esplorativa del sistema di relazione
che non mira a predire e non ha la
forza teorica ed empirica di un’analisi di tipo causale.
L’approccio predittivo include la previsione dei valori futuri della variabile, l’ipotesi di quali sarebbero stati i valori
assunti in passato “se si fossero verificate specifiche condizioni” e la previsione del valore della variabile per casi non
osservati ma osservabili. In tutti questi tre casi l’obiettivo è generare predizioni quanto più accurate. Un modello
predittivo mira ad includere tutte le variabili che – da sola o in interazione – contribuiscono a minimizzare l’errore di
predizione. Vanno escluse le variabili che non contribuiscono a minimizzare l’errore di predizione.
L’approccio causale mira a stabilire (o meglio a falsificare l’ipotesi nulla) una relazione di causa ed effetto. L’idea di
base è che l’associazione osservabile a livello bivariato non è interamente e solamente dovuta al legame causale tra
indipendente e dipendente. La selezione delle variabili indipendenti è guidata prioritariamente da criteri di natura
teorica. Implica la specificazione dei meccanismi sociali alla base della relazione di causazione. È sostanzialmente
teorico successivamente testato tramite uso di tecniche statistica. La specificazione di un modello causale è complicata
dall’esistenza di effetti spuri e spesso anche dalla necessità di distinguere gli effetti indiretti e diretti e quelli di
interazione. Nell’analisi della relazione causale tra X e Y dobbiamo tenere sotto controllo il ruolo svolto dalle altre
variabili, ovvero le variabili di controllo. Definire queste ultime fa parte del definire lo stesso modello di regressione. I
problemi della logica causale sono l’assenza di “controfattuale”, il fatto che il database spesso non contiene tutte le
variabili antecedenti rilevanti.
Modello di regressione multipla OLS Nella regressione multipla, Y è espressa come funzione di una o più variabili
indipendenti e di una o più variabili di controllo. Assume sempre la seguente formula generale:
Y = α + β1Xi1 + β2Xi2 + … + βkXik + … + βKXiK = α + ΣβkXik
Dove: • K è il numero totale dei regressori inclusi nel modello • L’indice deponente k assume valori compresi tra 1 e K
e identifica ciascun regressore
L’unica differenza con la regressione lineare bivariata è che i regressori possono anche essere più di uno e rappresentare
più di una variabile esplicativa (= indipendenti + controllo).
Nella regressione lineare multipla le variabili prese in esame sono più di due e la loro covariazione si manifesta in uno
spazio a tre o più dimensioni. Ne consegue che per riassumere tale covariazione non è possibile utilizzare una semplice
retta, ma bisogna ricorrere a una figura complessa detta IPERPIANO, definita dall’equazione lineare generale di sopra.
Lo scopo della regressione lineare multipla è quello di stimare i valori dei parametri α e β corrispondenti all’iperpiano
che meglio di ogni altro approssima la covariazione multidimensionale osservata fra le variabili prese in esame (Y, X1,
X2, X3… XK).
Ovviamente l’iperpiano migliore è quello che minimizza la differenza tra i valori osservati di Y e quelli predetti dal
modello, o meglio quello che minimizza la somma degli errori di predizione al quadrato.
• Il parametro α esprime il valore predetto di Y quando tutti i regressori Xk sono uguali a zero • Il parametro β esprime
la variazione media del valore di Y prodotta da ogni variazione unitaria del regressore X
a cui è associato a parità di ogni altra condizione, cioè quando i valori assunti da tutti gli altri regressori sono
tenuti costanti. Il valore assunto da ciascun parametro βk esprime l’effetto netto di Xk su Y o più precisamente, l’effetto
lineare medio esercitato dal regressore Xk sulla variabile dipendente Y al netto degli effetti esercitati da tutti gli altri
regressori inclusi nel modello.
• Valori predetti di Y: nella regressione lineare rappresentano stime dei valori medi di Y che si manifestano in
corrispondenza delle diverse combinazioni possibili di valori di tutti i regressori Xk.
• Errori di predizione e potere predittivo: l’interpretazione degli errori di predizione rimane pressoché invariata.
Rappresentano quella parte del valore di Y che non può essere spiegata dagli effetti esercitati congiuntamente da tutti i
regressori Xk inclusi nel modello prescelto. La formula dell’errore standard della regressione σ(ε) cambia leggermente,
mentre quella del coefficiente di determinazione R2 rimane uguale
• Caso anomalo: ogni osservazione in corrispondenza della quale la variabile dipendente Y assume un valore atipico
data la combinazione dei valori assunti da tutti i regressori Xk.
• Caso eccentrico: ogni osservazione in corrispondenza della quale la combinazione di valori di tutti i regressori Xk si
discosta in modo rilevante dalla corrispondente combinazione media.
Applicazione pratica per illustrare gli effetti
Variabili antecedenti Prendiamo il caso di analizzare l’effetto bivariato esercitato dal voto di laurea sul reddito mensile
da lavoro di 263 studenti, quindi:
• Y = reddito • X = voto di laurea
Y = 1.728.200 + 34.800 x Voto di Laurea
La variabile voto di laurea è stata normalizzata in modo tale da assumere valore 0 in corrispondenza del voto minimo
(66) e valore 44 in corrispondenza del valore massimo (110). Questa equazione ci dice che, fra i soggetti presi in esame,
ogni voto in più determina un aumento medio del reddito pari a 34.800 lire. È possibile però ipotizzare che l’effetto del
voto di laurea sul reddito stimato da questa semplice analisi bivariata sia parzialmente spurio. Questa ipotesi si fonda su
questo ragionamento: è certamente plausibile ritenere che il voto di laurea eserciti un effetto causale positivo sul
reddito, ma è altrettanto ragionevole supporre che voto e reddito abbiano delle cause in comune e pertanto una parte
della loro covariazione osservata a livello bivariato sia spuria. Una di queste possibili cause può essere lo STATUS
SOCIOECONOMICO DELLA FAMIGLIA DI ORIGINE. L’origine sociale esercita un’influenza diretta sia sul
rendimento scolastico e sia sulle opportunità occupazionali e quindi, sul livello di reddito. All’aumentare dello status
socioeconomico della famiglia di origine tendono ad aumentare indipendentemente l’uno dall’altro tanto il valore di
laurea quanto il reddito.
Disegno pag 203
Questo diagramma ribadisce che il voto di laurea esercita un genuino effetto positivo sul reddito (freccia a). Sottolinea
anche il fatto che ogni aumento dell’origine sociale determina un aumento simultaneo seppure indipendente, del voto
(freccia b) e del reddito (freccia c). ciò significa che se non teniamo sotto controllo l’origine sociale, l’effetto stimato
del voto di laurea sul reddito risulterà maggiore (cioè più positivo) di quello che è in realtà. La regressione lineare
multipla ci consente di affrontare le situazioni di questo tipo in maniera semplice: è sufficiente includere nel modello di
regressione in qualità di variabile di controllo tutte le variabili antecedenti e conocomitanti che si ritiene possano
distorgere l’effetto di interesse. Quindi in questo caso bisogna formulare un modello in cui la variabile dipendente (cioè
il reddito) è espressa come funzione di due variabili esplicative: il voto di laurea (variabile indipendente) e lo status
socioeconomico della famiglia (variabile antecedente). NB: Nell’espressione tutte le variabili entrano nello stesso
modo. Il modello assume questa forma:
Ŷ = α + β1Xi1 + β2Xi2
Dove… (slide 1)
Applicando ai nostri dati le appropriate procedure di calcolo otteniamo: • α = 1.586.700 • β1 = 30.800 • β2 = 5.400
questo significa che quando si tiene sotto controllo l’effetto distorcente esercitato dalla variabile antecedente “origine
sociale”, la stima dell’effetto esercitato dal voto di laurea sul reddito diminuisce in modo significativo passando da
34.800 a 30.800. In altre parole: a parità di origine sociale, ogni voto in più produce un aumento medio del reddito pari
a 30.800. Se l’origine sociale fosse l’unica variabile antecedente in grado di alterare l’effetto esercitato dal voto di
laurea sul reddito, potremmo essere soddisfatti e concludere che il valore assunto dal parametro β1 e cioè 30.800
rappresenta il vero effetto causale totale esercitato dalla variabile indipendente su quella dipendente. Se invece voto di
laurea e reddito hanno altre cause in comune, allora la nostra stima conterrà ancora componenti spurie, come ad
esempio il GENERE. Il genere esercita un effetto sia sul rendimento scolastico sia sulle opportunità occupazionali. Da
un lato, le donne tendono a conseguire voti più elevati rispetto agli uomini, dall’altro, le donne tendono a percepire
redditi da lavoro più bassi degli uomini. Dunque il genere esercita un effetto positivo sul voto di laurea, ma negativo sul
reddito da lavoro. graficamente possiamo rappresentare la relazione tra genere (antecedente), voto di laurea (variabile
indipendente) e reddito (dipendente) così:
Disegno 204
In questo caso la variabile antecedente determina simultaneamente da un lato un aumento del voto di laurea (freccia b) e
dall’altro una diminuzione del reddito (freccia c). Questa divergenza fa che fra la variabile indipendente e quella
dipendente si produca una correlazione artificiale negativa che si somma a quella positiva rappresentata dalla freccia a.
Se non teniamo sotto controllo il genere, l’effetto stimato del voto di laurea sul reddito risulta minore (cioè meno
positivo) di quello che è in realtà. Per neutralizzare l’effetto spurio indotto dal genere si stima il modello di regressione:
Ŷ = α + β1Xi1 + β2Xi2
Dove Xi1 rappresenta il valore assunto dalla varabile voto di laurea, Xi2 rappresenta il valore assunto in corrispondenza
dell’individuo i dal regressore indicatore che rappresenta la variabile genere, β1 rappresenta l’effetto esercitato dal voto
di laurea sul reddito al netto dell’influenza del genere e β2 rappresenta l’effetto esercitato dal genere sul reddito (cioè la
differenza media di reddito tra donne e uomini) al netto dell’influenza del voto di laurea. Facendo gli opportuni calcoli
otteniamo le seguenti stime dei parametri:
• α = 1.614.400 • β1 = 44.300 • β2 = - 587.300
Quindi quando si tiene sotto controllo l’azione distorcente del genere, la stima dell’effetto esercitato dal voto di laurea
aumenta in modo significativo passando da 34.800 a 44.300 lire. La nostra analisi mostra che a parità di genere, ogni
voto in più produce un aumento medio del reddito mensile netto pari a 44.300 lire.
Ora possiamo mettere tutto insieme e stimare un unico modello di regressione che esprima la variabile dipendente e
cioè il reddito, come funzione di tre variabili esplicative:
• variabile indipendente voto di laurea • variabile di controllo antecedente origine sociale • variabile di controllo
antecedente genere
Ŷ = α + β1Xi1 + β2Xi2 + β3Xi3
Dove X3 denota il valore ssunto in corrispondenza dell’individuo i dal regressore indicatore che rappresenta la variabile
“genere” (assume valore 0 se uomo 1 se donna) e β3 denota l’effetto esercitato dal genere sul reddito al netto
dell’influenza dell’origine sociale e del voto di laurea. Graficamente può essere rappresentato così:
Disegno pag 206
Facendo gli opportuni calcoli otteniamo: • α = 1.511.800 • β1 = 41.100 • β2 = 4.000 • β3 = -517.500
Come si può vedere il valore assunto dal parametro β1 è significativamente maggiore di quello stimato nell’analisi
bivariata (era 34.800). Quando si tiene sotto controllo sia l’effetto accrescente dell’origine sociale, sia l’effetto
sopprimente del genere la stima dell’influenza esercitata dal voto di laurea sul reddito aumenta in modo significativo. A
parità di origine sociale e genere l’effetto di ogni voto di laurea in più è di 30.800 (effetto causale totale).
• Omettere la classe sociale inflazione l’effetto, cioè sovrastima l’effetto causale totale. • Omettere il genere deflaziona
l’effetto, ovvero sottostima l’effetto causale totale.
Variabili intervenienti Nel nostro caso, gli studi sul mercato del lavoro suggeriscono che l’effetto causale esercitato dal
voto di laurea sul reddito potrebbe essere mediato, almeno in parte, dal settore occupazionale. Da un lato è plausibile
ipotizzare che la scelta del settore di impiego da parte dei laureati in scienze dell’informazione sia influenzata dalle loro
abilità, certificate dal voto di laurea, in particolare, si può pensare che i laureati più brillanti siano relativamente più
propensi a mettersi in proprio o a lavorare come dipendenti nel settore privato anziché accettare un impiego nel settore
pubblico (generalmente caratterizzato da retribuzioni più basse e da minori opportunità di carriera). Dall’altro è
ampiamento assodato che a parità di voto di laurea il settore di impiego influisce in modo significativo sul reddito da
lavoro: precisamente, tale reddito tende ad aumentare quando si passa dal lavoro dipendente nel settore pubblico al
lavoro dipendente nel settore privato, e da quest’ultimo al lavoro autonomo. Graficamente:
disegno 207
questo diagramma afferma che l’effetto causale totale esercitato dal voto di laurea sul reddito da lavoro corrisponde alla
somma di due effetti parziali: l’effetto diretto (freccia c) e l’effetto indiretto, mediato dal settore occupazionale. A sua
volta, l’effetto indiretto può essere visto come il prodotto di due effetti causali: quello esercitato dal voto di laurea sul
settore occupazionale (freccia a) e quello esercitato dal settore sul reddito (freccia b). Poiché entrambi questi effetti
sono positivi, anche l’effetto indiretto complessivo sarà positivo. Pertanto ci aspettiamo che l’effetto causale diretto
esercitato dal voto di laurea sul reddito risulti minore del corrispondente effetto causale totale. L’effetto causale totale
corrisponde al valore del parametro β1 stimato dall’ultimo modello di regressione (41.100). Per stimare l’effetto diretto
del voto di laurea sul reddito possiamo utilizzare il seguente modello di regressione lineare:
Ŷ = α + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 Dove:
• Xi1 denota il valore assunto dalla variabile voto di laurea in corrispondenza dell’ind i • Xi2 denota il valore assunto
dalla variabile status socioeconomico in corrispondenza dell’ind i • Xi3 denota il valore assunto in corrispondenza
dell’individuo i dal regressore indicatore che rappresenta la
variabile genere (assume valore 1 se è donna 0 se uomo) • Xi4 denota il valore assunto in corrispondenza dell’individuo
i dal regressore indicatore che rappresenta la
categoria lavoro dipendente nel settore privato della variabile settore occupazionale • Xi5 denota il valore assunto in
corrispondenza dell’individuo i dal regressore indicatore che rappresenta la
categoria lavoro autonomo N.B. una categoria viene omessa perché è categoria di riferimento! (nel sett pubblico)
• β1 esprime l’effetto esercitato dal voto di laurea sul reddito al netto dell’influenza dell’origine sociale, genere e settore
occupazionale
• β2 rappresenta l’effetto esercitato dall’origine sociale sul reddito al netto dell’influenza di genere, del voto di laurea e
settore occupazionale
• β3 denota l’effetto esercitato dal genere sul reddito al netto dell’influenza dell’origine sociale, del voto di laurea e del
settore occupazionale
• β4 rappresenta la differenza media di reddito fra dipendenti del settore privato e dipendenti del settore pubblico al
netto dell’influenza dell’origine sociale, del genere e del voto di laurea
• β5 rappresenta la differenza media di reddito fra lavoratori autonomi e dipendenti nel settore pubblico al netto
dell’influenza dell’origine sociale, del genere e del voto di laurea
Facendo gli opportuni calcoli: • α = 1.569.900 • β1 = 35.900 • β2 = 3.300 • β3 = -506.000 • β4 = 111.400 • β5 = 303.300
β1 rappresenta l’effetto che ci interessa perché è l’effetto causale diretto esercitato dal voto di laurea sul reddito. In linea
con le nostre aspettative, risulta essere minore del corrispondente effetto causale totale stimato prima (41.100).
Calcolando la differenza tra l’effetto totale e quello diretto otteniamo una stima dell’effetto indiretto del voto sul
reddito.
effetto voto di laurea totale 41.100 = effetto diretto 35.900 + effetto indiretto 5.200 effetto indiretto = 5.200 (41.100 –
35.900)
possiamo dunque dire che l’effetto causale totale esercitato dal voto di laurea sul reddito pari a 41.100 è attribuibile
all’87,3% all’azione diretta della variabile indipendente, e per il rimanente 12,7% all’azione interveniente del settore
occupazionale.
Effetti di interazione Abbiamo visto che gli effetti dei regressori introdotti sono di natura additiva e non si influenzano
reciprocamente. Tuttavia abbiamo visto che in un modello ci possono essere anche effetti di interazione, di natura
moltiplicativa. Abbiamo un effetto di interazione quando il segno, la forma e/o l’intensità dell’effetto esercitato da una
data variabile indipendente sulla variabile dipendente sono mutevoli, cioè variano a seconda del valore assunto da una
terza variabile; quando ciò si verifica siamo in presenza di un effetto di interazione. Per stimare gli effetti di questo tipo
mediante la regressione lineare è necessario aggiungere al modello iniziale uno o più regressori che rappresentino in
modo appropriato l’interazione in questione.
Disegno 210
Secondo molte ricerche i rendimenti dell’istruzione in termini di opportunità occupazionali sono maggiori per gli
uomini che per le donne. Se questo è vero, allora è lecito aspettarsi che l’effetto esercitato dal voto di laurea sul reddito
non sia indipendente dal genere, bensì varia fra uomini e donne. Per incorporare questa ipotesi del nostro modello
dobbiamo creare un nuovo regressore che esprima in termini quantitativi l’interazione (o dipendenza) fra il voto di
laurea e il genere. Tale regressore si ottiene semplicemente moltiplicando i valori assunti dalla variabile voto di laurea
per i corrispondenti valori assunti dal regressore indicatore che rappresenta la variabile genere:
Xi4 = Xi1 x Xi3
Una volta creato, il nuovo regressore può essere aggiunto al modello iniziale che in virtù di questa integrazione, viene
ad assumere la seguente formula:
Ŷ = α + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4
Dove Xi2 eappresenta il valore assunto dalla variabile status socioeconomico della famiglia di origine. Otteniamo:
• α = 1.410.700 (la sua interpretazione non cambia) • β1 = 44.100 esprime l’effetto netto esercitato dal voto di laurea sul
reddito all’interno della sola popolazione
maschile. • β2 = 4.000 (la sua interpretazione non cambia: esprime l’effetto additivo esercitato dall’origine sociale sul
reddito da lavoro al netto dell’influenza del genere e del voto di laurea) • β3 = -133.900 esprime l’effetto netto
esercitato dal genere sul reddito (cioè la differenza media di reddito tra
donne e uomini) all’interno della sola popolazione che si è laureata con voti 66/110 (voto più basso) • β4 = -12.200 può
essere interpretato come un parametro che opportunamente combinato con i parametri β1 e β3
consente di calcolare: 1. l’effetto netto esercitato dal voto di laurea sul reddito all’interno della sola popolazione
femminile 2. l’effetto netto esercitato dal genere sul reddito in corrispondenza di ciascun voto di laurea superiore a
66.
Per capire come si effettua questa combinazione fra β4 e gli altri due parametri riformuliamo il modello di regressione:
Ŷ = α + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi1 Xi3
Questa equazione è identica a quella precedente con la sola differenza che il regressore X4 è stato sostituito dal prodotto
esplicito dei suoi fattori (X1 e X3). L’equazione predittiva riportata qui sopra mostra che la variabile voto di laurea
rappresentata dal regressore X1 è presente in due terimini:
• quello principale β1Xi1 • quello interattivo β4Xi1 Xi3
Se vogliamo stimare l’effetto netto esercitato dal voto di laurea sul reddito dobbiamo tenere conto contemporaneamente
di entrambi questi termini, calcolando la loro somma, che può essere formulata così:
Xi1 (β1 + β4 Xi3)
Questa espressione ci dice che ogni incremento unitario della variabile voto di laurea (cioè del regressore X1) produce a
parità di origine sociale un incremento del reddito predetto pari a (β1 + β4 Xi3). La presenza del regressore X3
sottolinea il ftto che l’effetto esercitato dal voto di laurea sul reddito non è costante ma dipende dal valore assunto dalla
variabile interagente “genere” (rappresentata appunto dal regressore indicatore X3).
• Quando la variabile genere assume valore maschio e quindi il regressore indicatore X3 assume valore 0, allora
l’effetto del voto di laurea sul reddito diventa pari a (β1 + β4 x 0) = β1
• Quando la variabile genere assume valore femmina e quindi il regressore indicatore X3 assume valore 1, allora
l’effetto del voto di laurea sul reddito diventa pari a (β1 + β4 x 1) = β1 + β4
Dunque, quando l’attenzione è focalizzata sull’effetto del voto di laurea, il parametro β4 può essere interpretato come la
differenza tra l’effetto netto esercitato dal voto di laurea sul reddito all’interno della popolazione femminile e l’effetto
netto esercitato dal voto di laurea sul reddito all’interno della popolazione maschile. Il valore di β4 = -12.200 ciò
significa che conformemente alle nostre aspettative il rendimento dell’istruzione in termini di reddito da lavoro è
minore fra le donne che fra gli uomini.
Possiamo usare lo stesso procedimento per calcolare l’effetto netto esercitato dal genere sul reddito in presenza di
interazione con il titolo di studio. In breve, questo effetto (che equivale alla differenza media di reddito fra donne e
uomini) è rappresentato dall’espressione β3 + β4Xi1. La presenza del regressore X1 sottolinea il fatto che l’effetto
esercitato dal genere sul reddito non è costante, ma dipende dal valore assunto dalla variabile interagente voto di laurea.
Poiché tale variabile può assumere valori compresi fra 0 (equivalente a 66) e 44 (equivalente a 110) è evidente che
l’effetto netto del genere sul reddito può manifestarsi con un’ampia gamma di intensità.
• In corrispondenza del voto minimo (cioè quando il regressore X1 assume valore 0), l’effetto del genere sul reddito
diventa pari a β3 + β4 x 0 = β3.
• Quando la variabile voto di laurea assume il valore massimo e quindi il regressore X1 assume valore 44, allora
l’effetto del genere sul reddito diventa pari a β3 + β4 x 44.
Inserendo in queste espressioni le nostre stime dei parametri possiamo concludere che la differenza media di reddito fra
donne e uomini varia a parità di origine sociale fra un minimo di 133.900 (predetto per i soggetti che si sono laureati
con voti 66/110) e un massimo di -33.900 – 12.200 x 44 = - 670.700 (predetto per gli individui che si sono laureati con
110/110). Maggiore è il rendimento scolastico degli individui posti a confronto, maggiore è l’intensità con la quale il
genere esercita il suo effetto sperequativo sul reddito da lavoro.
Regressione lineare come strumento esplorativo Nelle scienze sociali la regressione lineare viene utilizzata per almeno
due scopi:
• Individuare il modello che meglio di ogni altro spiega la variazione osservata nella variabile dipendente • Predire i
valori della variabile dipendente che si dovrebbero verificare in futuro o si sarebbero dovuti verificare in
passato in presenza di determinate condizioni.
L’uso della regressione lineare per stimare un determinato effetto causale di interesse implica che le variabili esplicative
da includere nel modello prescelto siano classificate in due categorie ben distinte:
• La variabile indipendente inserita nel modello per misurare l’effetto causale da essa esercitato sulla variabile
dipendente
• Le variabili di controllo, inserite nel modello all’unico scopo di ottenere una stima corretta (pulita dagli effetti spuri)
del’effetto causale di interesse.
L’unica stima rilevante per il ricercatore è quella del parametro βk associato alla variabile indipednente; i valori assunti
dagli altri parametri sono invece privi di ogni rilevanza e quindi possono essere ignorati.
Talvolta i ricercatori preferiscono adottare un altro approccio più generale e in questi casi la regressione lineare viene
vista come uno strumento esplorativo di cui il ricercatore si avvale per:
• Individuare l’insieme di variabili esplicative che meglio di ogni altro contribuisce a spiegare il fenomeno oggetto di
studio
• Stabilire l’importanza relativa delle diverse “cause” di Y così individuate.
Conseguire il primo obiettivo vuol dire identificare il modello di regressione che spiega la maggior parte possibile della
variazione osservata nella distribuzione della variabile dipendente, cioè che massimizza la varianza spiegata di Y
misurata da r-quadro. Così facendo vanno incluse nel modello tutte le variabili che contribuiscono a spiegare la varianza
di Y mentre vanno escluse dal modello quelle che non contribuiscono a spiegare la varianza. La distinzione tra variabile
indipendente e variabili di controllo perde qualsiasi significato e tutte le variabili esplicative incluse nel modello
prescelto sono poste sullo stesso piano. L’unica cosa che conta è “stabilire una scala di importanza fra i diversi effetti
stimati”. Una volta definito l’insieme delle possibili cause di Y è necessario scegliere al suo interno le variabili che
contano, cioè quelle che contribuiscono a spiegare la varianza di Y. Per effettuare tale selezione si possono utilizzare
diverse procedure, la maggior parte delle quali si basano su valutazioni di natura inferenziale. Possiamo menzionare la
BEST SUBSET REGRESSION una procedura di selezione del modello migliore che consiste nel “provare” ogni
possibile combinazione delle potenziali cause di Y precedentemente identificate e nello scegliere quella ocmbinazione
alla quale corrisponde il valore di R-quadro più elevato. Quello che importa in questa prospettiva è stabilire
l’importanza relativa degli effetti stimati cioè individuare le cause principali e quelle secondarie di Y. Il problema però
è che non è possibile porre a confronto effetti causali esercitati da variabili esplicative espresse mediante diverse unità
di misura. È quindi necessario “standardizzare le variabili” e quindi esprimerle in punti standard. I parametri
standardizzati esprimono i rispettivi effetti causali mediante una unità di misura comune e possono essere confrontati
direttamente. Nonostante la sua utilità l’approccio esplorativo illustrato è caratterizzato da diversi limiti.
Il problema dell’analisi standardizzata sta nel fatto che i suoi risultati dipendono dalla distribuzione di ciascuna
variabile coinvolta nell’analisi e in particolare dalla varianza di tale distribuzione. Per comprendere questo punto è utile
osservare che i parametri standardizzati associati a ciascuna variabile esplicativa (che indichiamo così β*) sono
esprimibili come segue:
β* = β x deviazione standard di X / deviazione standard di Y
da questa formula risulta evidente che ogni dato parametro standardizzato non esprime solo l’influenza causale
esercitata da X su Y (rappresentata da β), ma incorposta anche informazioni di distribuzione di X e Y. A parità di effetto
naturale, l’effetto standardizzato risulterà tanto maggiore quanto maggiore è la varianza di X e quanto minore è la
varianza di Y. Poiché sul piano sostanziale l’influenza causale esercitata da X su Y non ha nulla a che fare con la
varianza delle due variabili è evidente che l’analisi standardizzata non può fornire una valida misura di tale influenza.
Se proprio si desidera effettuare confronti fra i diversi effetti causali stimati, allora è opportuno farlo utilizzando i
parametri naturali. Il confronto diretto fra gli effetti causali esercitati da diverse variabili esplicative è possibile solo
quando tali variabili sono espresse o sono esprimibili mediante la stessa unità di misura.
Regressione logistica: quando la variabile dipendente è categoriale Molti dei fenomeni studiati dagli scienziati sociali
possiedono un carattere intrinsecamente qualitativo. Si pensi alle ricerche sulle scelte educative, preferenze politiche,
sulla partecipazione al mercato del lavoro, credenze religiose ecc. In questo caso lo studioso assume come oggetto di
analisi preferenze, atteggiamenti o azioni individuali che non possono essere misurati o conteggiatima possono solo
essere classificati in un certo insieme di cateogire, contraddistinte tuttal’più dall’esistenza di una relazione d’ordine. In
termini statistici ciò significa che spesso nelle scienze sociali la variabile dipendente di interesse è di tipo categoriale e
cioè o nominale o ordinale. Il caso più semplice è l’analisi delle variabili dipendenti DICOTOMICHE. Queste sono
molto diffuse, soprattutto laddove l’attenzione del ricercatore si focalizza sui processi di scelta.
Molte scelte che interessano lo scienziato sociale hanno un carattere intrinsecamente dicotomico oppure possono essere
dicotomizzate: ad esempio “votare alle elezioni” SI’ o NO.
Ogni variabile dipendente di tipo dicotomico si articola sempre in due categorie contrapposte che possono essere
facilmente concettualizzate in termini di sì e no (ad esempio occupato/disoccupato, votante/non votante). Analizzare
variabili dipendenti di questo tipo vuol dire chiedersi in quale misura una o più variabili indipendenti di interesse
influiscono sulla probabilità che la variabile dipendente presa in esame assuma valore “sì”. In questo contesto parliamo
di probabilità. Ma in che senso? I due valori che ogni variabile dicotomica può assumere rappresentano certezze:
• Se a un individuo è associato il valore sì della variabile dicotomica “occupato”, allora questo individuo è certamente
occupato, cioè la sua probabilità di avere un lavoro è uguale a 1.
• Se a un individuo è associato il valore no della variabile dicotomica “occupato”, allora questo individuo è ceertamente
non occupato, cioè la sua probabilità di avere un lavoro è uguale a 0.
Quando parliamo di proprietà, possiamo parlare di: • PROPRIETA’ AGGREGATA dei soggetti analizzati: se
consideriamo questi soggetti non singolarmente, ma tutti
insieme, allora possiamo facilmente calcolare la percentuale di coloro che sono occupati; questa percentuale divisa per
100, rappresenta la probabilità di essere occupato all’interno del gruppo di individui presi in esame
• PROPRIETA’ INDIVIDUALE dei soggetti analizzati: la probabilità in quest’ottica rappresenta una misura della
propensione a fare una scelta, o del rischio di subire un evento, o dell’opportunità di acquisire un attributo; a sua volta
tale propensione, rischio o opportunità deve essere inteso come un tratto latene e cioè non osservabile di ciascun
individuo, che a un certo punto si manifesta dando luogo a un sì o un no. Ad esempio: se un individuo ha una
propensione a sposarsi pari a 0,2 (cioè del 20%), questo valore può essere interpretato così: se tale individuo vivesse
100 vite identiche in tutto e per tutto, in 20 di queste vite si sposerebbe, mentre
nelle rimanenti 80 no. Dunque il sì e il no sono entrambi possibili ma se dovessimo scommettere alla pari, punteremmo
più sulla seconda alternativa che sulla prima.
Poiché la categoria sì di una variabile dicotomica rappresenta la certezza che il fenomeno oggetto di studio è presente,
mentre la categoria no rappresenta la certezza che tale fenomeno è assente, è legittimo assegnare a ciascuna di queste
due categorie un valore numerico pari alla probabilità che il fenomeno sia presente cioè 1 e 0. Seguendo quesa logica
assegnamo valore 1 agli individui occupati e valore 0 a quelli non occupati. In questo modo ogni variabile dicotomica
può essere trasformata in una variabile che assume valori 0 o 1 e si presta a essere trattata alla stregua di una variabile
cardinale e usare la REGRESSIONE OLS. In questo caso parliamo di linear probability model.
Supponiamo che il nostro obiettivo sia quello di stimare l’effetto causale totale esercitato dal livello di istruzione
espresso in anni di permanenza nel sistema scolasitco, sulla probabilità delle donne italiane di partecipare al mercato del
lavoro. Per stimare questo effetto formuliamo il seguente modello di regressione lineare multipla:
Ŷ = α + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 Dove:
• Xi1 denota il valore assunto dalla variabile indipendente “anni di istruzione” • Xi2 denota il valore assunto dalla
variabile di controllo “status socioeconomico della famiglia” • Xi3 denota il valore assunto dalla variabile di controllo
“età” • Xi4 denota il valore assunto in corrispondenza dell’individuo i dal regressore indicatore che rappresenta la
categoria “Italia centrale” della variabile di controllo “zona geografica di residenza” • Xi5 denota il valore assunto in
corrispondenza dell’individuo i dal regressore indicatore che rappresenta la
categoria “Italia meridionale” della variabile di controllo “zona geografica di residenza” • I parametri βk esprimono gli
effetti netti esercitati da ciascun regressore sulla variabile dipendente.
La variabile dipendente assume valore 1 fra le donne che hanno avuto almeno un’esperienza di lavoro retribuito, mentre
assume valore 0 fra coloro che non l’hanno mai avuta. Come in ogni modello di regressione lineare multipla in questa
equazione i valori predetti della variabile dipendente (cioè Ŷ) rappresentano stime dei valori medi di Y che si
manifestano in corrispondenza delle diverse combinazioni possibili di valori di tutti i regressori Xk. Poiché Y è una
variabile dicotomica e la medi adi una variabile dicotomica è uguale alla proporzione di casi che assumono valore 1, ne
consegue che nel nostro modello i valori predetti di Ŷ, rappresentano stime della probabilità che Y assuma valore 1 in
corrispondenza di ogni possibile combinazione di valori delle variabili esplicative.
Quando la variabile dipendente è dicotomica i valori predetti di Y sono probabilità e in quanto tali sono costrette a
variare da 0 a 1, mentre in un modello OLS i valori predetti di Y possono variare da – a + ∞. Dunque, quando è
applicata all’analisi delle variabili dipedenti dicotomiche, la regressione lineare può predire probabilità maggiori di 1 o
minori di 0 che, ovviamente sono prive di senso.
Quando la variabile dipendente è dicotomica è tecnicamente e sostanzialmente scorretto assumere che i regressori
esercitano effetti lineari su Y. In questi casi bisogna utilizzare modello di regressione i cui effetti sono intrinsecamente
non lineari e diano luogo a valori predetti di Y compresi nell’intervallo 0-1. Questi requisiti sono soddisfatti dalla
regressione logistica binomiale.
Regressione logistica binomiale Per analizzare in modo appropriato le variabili dipendenti di tipo dicotomico è
necessario utilizzare un modello di regressione in grado di soddisfare due condizioni:
• La non linearità degli effetti esercitati dai singoli regressori sulla variabile dipendente • La capacità di generare valori
predetti di Y sempre compresi tra 0 e 1.
Per fare questo bisogna trasformare la probabilità da stimare p^ in una sua particolare funzione detta LOGIT. Tale
trasformazione può essere svolta in due fasi:
• Innanzitutto bisogna convertire la probabilità p^ nel rapporto di probabilità ŵ corrispondente • Poi è necessario
tradurre il rapporto di probabilità ŵ nel suo logaritmo naturale, noto come logit.
Formula 1 pag 238
Il vantaggio del LOGIT è che può essere immediatamente espresso in termini di una combinazione lineare di parametri
e regressori analoga a quella che costituisce il lato destro dell’equazione di regressione lineare multipla. Quindi:
formula 2
questa equazione rappresenta il MODELLO DI REGRESSIONE LOGISTICA BINOMIALE in forma additiva. Questa
forma consente di interpretare gli effetti esercitati dai vari regressori esattamente come nella regressione lineare:
• α rappresenta il valore predetto di logit(p^) quando tutti i regressori inclusi nel modello assumono un valore pari a 0
• ciascun parametro βk ci dice di quanto varia logit (p^) per ogni incremento unitario del regressore corrispondente Xk
al netto degli effetti esercitati da tutti gli altri regressori.
La probabilità del realizzarsi dell’evento può esprimersi come:
formula 3
Il fatto che la combinazione lineare di parametri e regressori α + Σβ kXik (che per comodità indichiamo con il simbolo
Li) sia presente in forma esponenziale sia al numeratore che al denominatore della parte destra dell’equazione fa sì che
gli effetti esercitati dai regressori sullle probabilità p^ siano sempre curvilinei e compresi tra 0 e 1. Questo si nota con
una rappresentazione grafica della relazione tra Li e p^:
figura 4 pag 239
Innanzitutto p^ assume solo valori compresi nell’intervallo 0-1 qualunque sia il valore di L i. In secondo luogo, la
relazione tra Li e p^ esibisce una forma non lineare di tipo sigmoideo: all’inizio gli incrementi di Li producono un
effetto molto limitato sulle probabilità predette. Questo effetto tende ad aumentare man mano che il valore di Li cresce
fino a raggiungere la sua massima intensità in corrispondenza di Li = 0 (equivalente a p^ =0.5). Al di là di questa soglia
l’effetto marginale comincia a diminuire, prima lentamente e poi sempre più velocemente fino a diventare pressochè
nullo.
Come funziona in pratica: Dei ricercatori hanno posto ad un campione di 2.171 individui alcune domande riguardanti il
loro orientamento religioso. Una di queste domande era: “pensi al suo rapporto con la religione. Quale fra le seguenti
definizioni, descrive meglio le Sue credenze religiose attuali?”. Oltre la metà degli individui si sono dichiarati “cattolici
senza riserve”, mentre circa 3/10 hanno detto di sentirsi cattolici ma con qualche riserva. Fra i rimanenti intervistati,
l’1,3% hanno dichiarato di appartenere a religioni diverse da quella cattolica, il 9,6% dice di credere nell’esistenza di
una dimensione soprannaturale senza sentirsi memnri di una religione in particolare, il 5,1% si sono dichiarati
assolutamente atei.
Fra coloro che hanno risposto alla domanda sull’orientamento religioso, riveste un particolare interesse quel 9,6& che
dice di credere senza appartenere, cioè che credono in qualche forma di energia divina, spirituale o soprannaturale senza
sentirsi membri di una specifica relgione.
Secondo alcuni sociologi questa tendenza è aumentata, a testimonianza di una crescente diffusione di varie forme di
religiosità non istituzionalizzata. Questa diffusione poi sembrerebbe la conseguenza di un effetto generazionale, cioè del
fatto che i membri delle generazioni più recenti sarebbero relativamente più propensi a vivere la propria religiosità al di
fuori degli schemi imposti.
Per fare ulteriori analisi: • escludiamo i soggetti che si sono dichiarati atei e quelli che hanno detto di appartenere a una
religione diversa
da quella cattolica
• accorpiamo in un’unica categoria tutti i cattolici con e senza riserve, ottenendo una nuova variabile dicotomica che
assume valore 1 (cioè sì) se l’intervistato aderisce all’orientamento “credenza senza appartenenza” e valore 0 (cioè no)
se non vi aderisce (cioè se si dichiara cattolico)
• abbiamo applicato ai nostri dati un modello di regressione logistica binomiale che esprime la variabile dipendente
prescelta come funzione della variabile indipendente “età” (misurata in deviazioni standard dalla media, pari a 45,6
anni) e di due variabili di controllo: genere e zona geografica di residenza.
Questo modello può essere espresso formalmente così:
logit(p^) = α + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4
dove: • Xi1 denota il valore asunto dalla variabile indipendente età • Xi2 denota il valore assunto in corrispondenza
dell’individuo i dal regressore indicatore che rappresenta la
categoria femmina della variabile di controllo genere • Xi3 denota il valore assunto dall’individuo i dal regressore
indicatore che rappresenta la categoria “Italia centrale”
della variabile di controllo zona geografica di residenza • I parametri βk esprimono gli effetti lineari netti esercitati da
ciascun regressore su logit(p^).
Applicando le opportune procedure di calcolo: • α = 1,818 • β1 = -0,023 • β2 = -0,527 • β3 = -0,147 • β4 = 0,010 • β5 =
-0,47 ????
Il valore assunto dal parametro β1 offre un chiaro sostegno all’ipotesi di partenza: la propensione a “credere senza
appartenere” diminuisce al crescere dell’età. Per ogni anno di età in più il logit che mette a confronto la probabilità di
aderire all’orientamento “credenza senza appartenenza” con la probabilità di non aderirvi diminuisce di 0,023 punti.
Ma la maggior parte delle persone non ha minimamente idea di quanto siano 0,023 punti logit. Quando stimiamo un
effetto causale ci interessa stabilire non solo il suo segno (positivo o negativo), ma anche la sua intensità, per sapere se
l’effetto in questione è più o meno rilevante sul piano sostanziale. Nella regressione logistica binomiale il problema è
l’unità di misura nella quale è espressa la variabile dipendente e questo deriva dal fatto che fra il predittore lineare Li e
le prbabilità predette p^ esiste una relazione non lineare moltiplicativa che impedisce di stabilire un legame univoco fra
le stime dei parametri βk (espresse in unità logit) e le probabilità predette stesse. Il problema dell’interpretazione dei
parametri di un odello di regressione logistica binomiale può essere affrontato in diversi modi.
• Quello più accurato consiste nel calcolare e porre a confronto le probabilità predette corrispondenti a due o più valori
della variabile indipendente, acendo cura di tenere costanti i valori assunti dalle variabili di contro. Nel nostro esempio
può avere senso confrontare la diffusione dell’orientamento “credenza senza appartenenza” tra gli individui
appartenenti a due generazioni diverse: quelli di 30 e 60 anni. Per effettuare questo confronto fissiamo la seguente
combinazione di valori delle variabili di controllo: genere=uomo, e zona geografica di residenza=italia settentrionale.
Quindi:
Formula pag 242
Come si può notare, secondo le nostre stime, l’effetto netto esercitato dall’età sulla probabilità credere senza
appartenere risulta essere piuttosto forte. Un aumento di 30 anni nell’età degli intervistati determina una diminuzione di
tale probabilità di 18,9-10,4=8,5 punti percentuali.
Non bisogna però commettere l’errore di generalizzare questa conclusione: gli effetti stimati mediante la regressione
logistica sono sempre di tipo non lineare, cioè variano al variare del valore di partenza del predittore lineare Li. Nel
nostro esempio l’effetto netto esercitato dall’età sulla probabilità di credere senza appartnere potrebbe essere diversa se:
• Cambiassimo i valori delle variabili di controllo tenuti costanti • Cambiassimo le età poste a confronto
L’effetto dell’età non è costante, ma varia secondo le combinazioni delle variabili di controllo (per esempio cambiando
gli uomini in donne). Potremmo poi analizzare la probabilità di credere senza appartenere predette per uomini residenti
al Nord di diverse età. Anche in questo caso si può vedere che l’effetto dell’età non è costante ma varia a seconda delle
età che si pongono a confronto. Quindi, quando ci si appresta a interpretare i risultati di una regressione logistica
binomiale bisogna sempre tenere presente che gli effetti esercitati dai diversi regressori inclusi nel modello prescelto
sono lineari (cioè costanti) rispetto ai logit(p^), ma non lineari (cioè variabili) rispetto alle probabilità p^. Mentre per
valutare fli effetti del primo tipo è sufficiente considerare le stime dei parametri βk (come nella regressione lineare), per
valutare gli effetti del secondo tipo è necessario calcolare e mettere a confronto le probabilità predette per diverse
combinazioni di valori delle variabili esplicative, avendo cura di evidenziare la misura in cui l’effetto o gli effetti di
interesse possono variare.
Regressione logistica multinomiale Ci sono casi in cui la variabile dipendente è politomica, si articola cioè in 3 o più
categorie. In tutti questi i casi l’obiettivo del ricercatore è quello di stimare gli effeti causali totali o diretti esercitati da
una o più variabili indipendenti sulla propensione a scegliere fra tre o più possibili opzioni, o su rischio di subire tre o
più diversi tipi di eventi, o sull’opportunità di acquisire tre o più diversi attributi. Come per le variabili dipedenti
dicotomiche, anche in questo caso la propensione, il rischio o l’opportunità oggetto di analisi è rappresentato da un
appropriato insieme di probabilità, cioè di valori compresi tra 0 e 1. L’unica differenza fra i due tipi di analisi riguarda il
numero di categorie in cui si articola la variabile dipendente. Questa differenza non deve essere sottovalutata perché
crea diverse complicazioni sia in fase di stima degli effetti di interesse, sia – e soprattutto – in fase di interpretazione di
tali effetti. Dal punto di vista tecnico e sostanziale, la regressione logistica multinomiale può essere vista come
un’estensione della regressione logistica binomiale. Seppure in modo approssimativo, possiamo considerare ogni
modello di regressione logistica multinomiale come combinazione di due o più modelli di regressione logistica
binomiale opportunamente specificati.
Consideriamo il caso più elementare in cui Y è una variabile nominale che si articola in 3 categorie, che indicheremo
con i numeri 1, 2 e 3. Quando stimiamo un modello binomiale, la nostra ttenzione si concentra sul logit che pone a
confronto la probabilità che Y assuma valore sì (cioè 1) con la probabilità che Y assuma valore no (cioè 0).
Formalmente:
formula 1 pag 249
quando la variabile dipendente si articola in 3 categorie però questa semplice espressione non vale più in quanto la
probabilità che si possono mettere a confronto non sono più due ma sono 3. Possiamo confrontare:
• La probabilità che Y assuma valore 3 con la probabilità che assuma 2 • La probabilità che Y assuma valore 3 con la
probabilità che assuma 1 • La probabilità che Y assuma valore 2 con la probabilità che assuma 1
Ognuno di questi tre confronti può essere visto come la quantità da stimare di uno specifico modello di regressione
logistica binomiale. Il primo confronto ad esempio potrebbe essere espresso così:
formula 2 pag 249
E il secondo e il terzo così:
pag 250