Sei sulla pagina 1di 13

INTRODUZIONE AI MODELLI MULTILIVELLO

La logica dellanalisi multilivello


Nadir Zanini
IRVAPP Istituto per la ricerca valutativa sulle Politiche Pubbliche Trento, 2 novembre 2011

Piano del modulo


2 lezioni teoriche: 2 e 9 novembre (NZ) 2 esercitazioni pratiche: 10 e 17 novembre (LV) 1 homework da svolgere a gruppi e presentare il 7 dicembre Software: MLWin (Stata) Testo di riferimento: qualsiasi testo introduttivo allanalisi multilivello. Ad esempio: Joop Hox, Multilevel Analysis, Techniques and Applications, Lawrence Erlbaum Associates, 2002

La logica dellanalisi multilivello


Introduzione allanalisi multilivello:

quando ricorrere allanalisi multilivello? quali vantaggi offre rispetto ai metodi convenzionali?

Clustering e design effect: vantaggi e svantaggi Il modello di regressione per lanalisi a 2 livelli:

assunzioni e definizioni il modello multilivello stima e interpretazione dei parametri stima dei parametri e interpretazione residui, bont di adattamento e confronto fra modelli strategia operativa

Generalizzazione per lanalisi a 3 e pi livelli:

Questioni operative:

Introduzione
Lanalisi multilivello si applica quando esista una qualche forma di interrelazione (in senso lato) tra caratteristiche dellindividuo e del gruppo cui questo appartiene Interrelazione dovuta ai dati a disposizione:

dati organizzati secondo una struttura gerarchica campionamento a (due o) pi stadi da una popolazione con struttura gerarchica (clustering) misure ripetute per una stessa unit statistica (panel) scienze sociali (istruzione, mercato del lavoro, ) scienze mediche (medicina, psicologia, ) etc.
4

Diversi sono i campi di applicazione:


Introduzione: un esempio (1)


Supponiamo di voler studiare se lapprendimento scolastico sia influenzato da:

vivere stabilmente con entrambe i genitori dimensione della classe di appartenenza seleziono un certo numero di scuole sul territorio nazionale per ogni scuola seleziono alcune classi intervisto tutti gli alunni di quelle classi apprendimento scolastico -> punteggio PISA condizione familiare di ciascun studente-> dummy 0-1 dimensione della classe -> dagli archivi della scuola
5

Dati raccolti mediante campionamento a tre stadi:


1. 2. 3.

Variabili a disposizione:

Introduzione: un esempio (2)


Non posso non considerare il processo generatore dei dati, ossia la selezione di:

alunni nella stessa scuola provengono da localit, contesti socio-economici, etc., tra loro simili alunni della stessa classe oltre alla stesso numero di compagni di classe avranno anche gli stessi insegnanti, la stessa storia scolastica, gli stessi programmi,

Tutte queste caratteristiche simili tra alunni nella stessa classe fanno si che lapprendimento di questi alunni sia tra loro connesso La struttura gerarchica dei dati induce una forma di dipendenza tra le osservazioni
6

Introduzione: un esempio (3)


Le osservazioni non sono tra loro indipendenti:

la correlazione (media) tra variabili misurate per alunni della stessa classe (o scuola) sar diversa (-> pi alta) della correlazione (media) tra variabili misurate per alunni di classi (o scuole) diverse

Linferenza statistica convenzionale (test t su medie, sui beta, ) si basa sullassunto di indipendenza tra le osservazioni Se lassunto di indipendenza non rispettato, varianze (e standard error) dei test sono pi piccoli di quanto dovrebbero Si tende a rifiutare le ipotesi nulle anche quando si dovrebbero accettare, quindi si trovano effetti che in realt non esistono
7

Clustering e design effect (1)


Il problema di dipendenza tra le osservazioni tipico della survey research, quando il campionamento non casuale semplice: area geografica, scuole, -> cluster Nella letteratura sul campionamento si parla di design effect (Kish 1965; Moulton 1986):

: intra-class correlation (-> rate of homogeneity) : media della dimensione dei cluster

dunque possibile campionare opportunamente:


8

Clustering e design effect (2)


Il design effect ha il pregio di non intaccare la struttura dei metodi convenzionali di stima (OLS) e di calcolare opportunamente la varianza (std. er. robusti) tenendo conto del clustering e quindi della intra-class correlation Ma se le variabili di interesse sono pi di una, magari rilevate su livelli diversi (condizione familiare individuale, dimensione della classe), correggere per il design effect non pi sufficiente, n fattibile Occorre dunque una tecnica apposita per lanalisi di dati multilivello, che tenga in considerazione le forme di dipendenza fra i diversi livelli: lanalisi multilivello
9

Il modello di regressione a 2 livelli (1)


Si pensi a due livelli:
1. 2.

gruppi (classi, filiali, aree geografiche, ) -> j individui (studenti, impiegati, comuni, ) -> i variabile risposta misurata a livello individuale variabili esplicative a tutti i livelli (X:individuale; Z: gruppo)

Disponibilit di un dataset gerarchico:


A livello individuale:

si osservi che i parametri variano per ogni gruppo: -> random coefficients model
10

Il modello di regressione a 2 livelli (2)


Sia lintercetta che il coefficiente angolare dipendono dalle caratteristiche di gruppo: 1. Random intercept model: 2. Random slope model: Riarrangiando i termini, la forma esplicita del modello risulta:

parte deterministica interazione cross-level

parte stocastica eterosch. 11

Il modello di regressione a 2 livelli (3)


Il modello completo, dunque:

ammette interazione fra le variabili individuali e di gruppo eteroschedasticit correlazione tra gli errori:

Consente la stima della intra-class correlation, considerando il modello con la sola intercetta: Var Tot = Var gruppo + Var indiv Quindi: = Correlazione attesa tra due unit scelte a caso nello stesso gruppo

12

Il modello di regressione a pi livelli


Se la struttura gerarchica dei dati si sviluppa su tre o pi livelli il modello si complica non poco, infatti aumentano:

il numero di variabili (e di parametri da stimare) ad ogni livello gli errori di previsione le interazioni cross-level -> inserite solo se motivate

Lintra-class correlation in un modello a tre livelli:

Intra-class correlation ad ogni livello

Vera correlazione allinterno di una classe (tiene conto di quella tra scuole) 13