Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Il presente file (in formato PDF) contiene le diapositive che, nel loro insieme, forniscono supporto visivo alle
lezioni del docente. Si raccomanda di NON considerare questo materiale alla stregua di un libro di testo! In
particolare è fortemente sconsigliata la stampa (su carta) di questo materiale. Alcune diapositive possono
essere presenti più volte in questo stesso insieme (doppioni), perchè questa sequenza di diapositive NON
rappresenta necessariamente l'ordine di utilizzo delle medesime a lezione. Inoltre, NON tutte le diapositive qui
riportate sono sempre utilizzate durante le specifiche lezioni dell'anno in corso...
!!! Si ricorda comunque che il presente materiale didattico non sostituisce i libri di testo !!!
Il presente materiale didattico é:
- utile per ripassare, ripensare e riflettere sugli argomenti trattati a lezione;
- utile per approfondire lo studio svolto sui libri di testo, consentendo di
confrontare modi diversi di presentare gli stessi argomenti e disponendo
di specifici esempi, commenti etc.;
- provvisorio e soggetto a continue revisioni e aggiornamenti;
- nella versione qui resa disponibile può risultare incompleto o di difficile lettura
in quanto alcune diapositive sfruttano caratteri, colori e/o animazioni
specifiche del software utilizzato (PowerPoint) che non sono altrimenti
riproducibili.
UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli
(Ripasso)
L'esame è orale. Una parte, anche consistente, di domande (del tipo a "scelta multipla") potrà essere
formulata in modalità scritta (correzione e valutazione saranno contestuali).
Gli studenti degli anni precedenti possono portare all'esame il programma dell'anno di riferimento;
l'esame è orale
Il ricevimento studenti si svolge (di norma) il giovedì pomeriggio (h. 15-17) previo
appuntamento tramite e-Mail all'indirizzo: g.molinengo@univda.it oppure: r.miceli@univda.it
Solo per coloro che frequentano il corso e si presentano ai primi appelli della sessione estiva
(anche a piccoli gruppi di max 2 studenti) è possibile scegliere a propria discrezione un articolo
pubblicato su una rivista scientifica (italiana o straniera in lingua inglese o francese) che riguardi
uno studio empirico nel quale è stato utilizzato almeno uno dei modelli di analisi dei dati o di
misurazione studiati in questo corso.
Si chiede di redigere (utilizzando una 'griglia' predefinita e fornita dal docente) un breve
(1-2 pagine) resoconto scritto e un commento sull'articolo.
Così facendo sarà possibile indirizzare su tale argomento una parte dell'esame
Durante il corso verranno illustrati alcuni esempi applicativi che si avvalgono della diagnostica
(OUTPUT) fornita dal software matematico-statistico SAS (Statistical Analysis System)
Fra il materiale didattico di supporto al corso saranno disponibili alcune diapositive che
riportano porzioni di output (tratte dalla diagnostica fornita dal software SAS) commentate in
modo da agevolare il riconoscimento dei principali aspetti utili per la valutazione e l'analisi dei
risultati nella stima dei diversi modelli
Si consiglia di affrontare lo studio del testo (Percorsi di ricerca e analisi dei dati) anche in
relazione a tali output diagnostici
Presentazione Psicologia, Psicometria...
?
come rilevare e registrare i fenomeni manifesti
....
PSICOLOGIA
che legame è possibile stabilire fra fenomeni
manifesti e costrutti teorici METODOLOGIA
MATEMATICA
quali strumenti di misura utilizzare o costruire
STATISTICA
....
Presentazione Psicologia, Psicometria... psicometria: coordinate "geografiche"...
Indagine conoscitiva: (speculazione filosofica; scienza; contemplazione mistica; critica letteraria; etc)
Scienze (della vita)
Psicologia (scienza che studia, descrive, interpreta la fenomenologia dei processi mentali)
Ricerca empirica: (successione di operazioni per produrre risposte a domande sulla realtà)
- produce affermazioni sulla realtà (asserti) o stabilisce nessi fra asserti;
- giustifica le affermazioni su una base empirica;
- produce un sapere controllabile.
"vecchio mondo"
Modelli (tecniche) : coordinate "storico-geografiche"...
un "Atlante" (L. Ricolfi, 1997)
Modelli di dipendenza Europa
Africa
Scomposizioni
"nuovo mondo"
TECNICHE
ASSEGNAZIONE
Modelli (tecniche): in una prospettiva "operazionale"... “La maggior parte degli italiani è favorevole alla pena di morte”;
OPERAZIONI DI RICERCA (domande di conoscenza) “La xenofobia diminuisce al crescere del livello di istruzione”
DESCRIVERE Com'è Y ?
“L’istruzione è la principale determinante del reddito”
SPIEGARE Perché Y ?
“Le risposte fornite dagli intervistati alle domande z1, z2, .. zk
dipendono da una dimensione latente di xenofobia”
(INTERPRETARE)
MISURARE Cos'è Y ?
Teoria
L'analisi dei dati. Prospettiva classica e post-classica
Presentazione
(tecniche) Modelli matematico-statistici
Dati
n
f yi yi 1 i
n y
1 1 2 Binomiale
f ( yi ) exp 2 y i i (yi N° di successi)
2 2 2 yi
- +
Dati
Modelli (tecniche): in una prospettiva "formale"...
ASSUNTI SUL PROCESSO GENERATORE DEI DATI
ŷi yi ŷi yi
Teoria L'analisi dei dati. Prospettiva classica e post-classica Modelli (tecniche): INCROCIANDO
la prospettiva "operazionale"
Presentazione (tecniche) Modelli matematico-statistici la prospettiva "formale"
.......................
Dati
P R O S PE T T I V A FORMALE
POST
CLASSICA
CLASSICA
P
R “Scomposizioni”
O
S DESCRIVERE LOG
P Com'è Y ? ACP LINEARE
E
T
T
I
V “Modelli di dipendenza”
Modello
A
SPIEGARE LINEARE Modello
CLASSICO LOGISTICO
O Perché Y ? Regressione (logit)
P Anova
E
R
A
Z
I “Scaling”
O (INTERPRETARE)
N IRT
A
MISURARE TCT (Rasch)
Cos'è Y ?
L
E
Test di ACCERTAMENTO delle CONOSCENZE INIZIALI
DESCRIVERE SPIEGARE
INTERPRETARE
(MISURARE)
Un esempio...
Introduzione.... Qualche esempio...
<<... moreover, both theoretical and empirical evidence suggests that risk
o percezione del rischio e
comportamenti di prevenzione
perceptions alone are insufficient to account for households' adoption of
hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
"Correlates of Household Seismic Hazard Adjustment Adoption"
IL FENOMENO...
COMPORTAMENTI
PERCEZIONE DEL RISCHIO
PREVENTIVI
+ +
?
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
"Correlates of Household Seismic Hazard Adjustment Adoption"
GLI AUTORI...
CAMPIONE: 168 studenti universitari abitanti nell'area metropolitana di Los Angeles; incentivati alla partecipazione da "crediti extra";
STRUMENTO: questionario auto-somministrato;
M SD
r*WJ PR 2.97 0.74
PR 0.58 PR 0.80 PR CP 4.79 3.00
CP 0.11 CP 0.77 CP GENERE (M =1) 0.35 0.48
ETA' 25.90 6.00
modellizzazione... SEGUE...
Per ragioni espositive, i passi del processo di analisi sono stati adattati alle nostre esigenze, mantenendone il senso.
I dati sono frutto di una nostra simulazione che, nella sostanza, riproduce quanto riportato nello studio dagli autori
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
"Correlates of Household Seismic Hazard Adjustment Adoption"
GLI AUTORI...
Sum of Mean
The SAS System Source DF Squares Square F Value Pr > F
The MEANS Procedure Model 3 93.42858 31.14286 3.62 0.0144
Variable N Mean Std Dev Error 164 1409.57142 8.59495
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Corrected Total 167 1503.00000
eta 168 25.9000000 5.9821162
pr 168 2.9700000 0.7377943
Root MSE 2.93171 R-Square 0.0622
cp 168 4.7600000 2.9910581
Dependent Mean 4.76000 Adj R-Sq 0.0450
genere 168 0.3500000 0.4785693
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Coeff Var 61.59063
Parameter Estimates
NOI CONTROLLIAMO (1) ... Definizioni operative (ANALOGHE) "Correlates of Household Seismic Hazard Adjustment Adoption"
Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE Le elencherò alcuni comportamenti che le persone adottano per
con FRANE e smottamenti che coinvolga la zona in cui abita far fronte ai PERICOLI IDROGEOLOGICI. Pensando ad una
quanto è PROBABILE che... tale eventualità, Lei o qualcuno della sua famiglia ...
["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3] ["SI", "NO"] [(1) , (0)]
CAMPIONE: 407 maggiorenni residenti (da almeno 5 anni) nella valle del Lys in Valle d'Aosta (giugno 2005);
STRUMENTO: questionario somministrato con metodologia CATI;
Analisi
variabili N M SD
r*WJ PR 392 8.35 3.18
PR 0.70 PR 0.76 PR CP 401 3.17 1.88
CP 0.05 CP 0.60 CP GENERE (M =1) 407 0.44 0.50
ETA' 407 49.94 15.93
Lo studio è stato svolto con il contributo della Regione Valle d'Aosta, nell'ambito del progetto
dell'Unione Europea PIC INTERREG III A 2000-2006 ALCOTRA (Gestione Sociale dei Rischi Naturali) modellizzazione... SEGUE...
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
NOI CONTROLLIAMO (1) ... Definizioni operative (ANALOGHE) "Correlates of Household Seismic Hazard Adjustment Adoption"
Sum of Mean
Source DF Squares Square F Value Pr > F
Parameter Estimates
SI CONFERMA!
MA...
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate
NOI CONTROLLIAMO (2) ... DIVERSA definizione di PR "Correlates of Household Seismic Hazard Adjustment Adoption"
Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE
con FRANE e smottamenti che coinvolga la zona in cui abita con FRANE e smottamenti che coinvolga la zona in cui abita
quanto è PROBABILE che... quanto è PREOCCUPATO/A che...
["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3] ["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3]
(+)
viabilità interrotta... viabilità interrotta...
servizi (luce, telefono, acqua, etc.) interrotti... servizi (luce, telefono, acqua, etc.) interrotti...
suoi beni ... danneggiati... suoi beni ... danneggiati...
sua abitazione principale danneggiata... sua abitazione principale danneggiata...
Lei, o persone care, subiscano danni fisici Lei, o persone care, subiscano danni fisici
NOI CONTROLLIAMO (2) ... DIVERSA definizione di PR "Correlates of Household Seismic Hazard Adjustment Adoption"
Sum of Mean
Source DF Squares Square F Value Pr > F
NO!
Parameter Estimates La relazione è ora
positiva
Parameter Standard Standardized e stat. sig.
Variable DF Estimate Error t Value Pr > |t| Estimate
Se p = Prob. che si presenti un evento => SUCCESSO e q = 1-p (INSUCCESSO), allora la Prob. che l'evento "successo"
si presenti esattamente k volte in n prove è dato da:
n n!
n k nk k K !n k !
Dove:
n = numero di prove;
Es.: La prob. che si presenti 4 "testa" in 10 lanci di una moneta non truccata:
n 10; p 0.5;
k 4; q 1 05 0.5
10 4 10!
P4 0.5 0.510 4 0.54 0.56 210 0.0625 0.015625 0.205
4 4!10 4 !
R...
Se, in modo analogo, si calcola la Prob. di ottenere 0, 1, 2, ..... 10 "testa" in 10 lanci, si ottiene:
n = 10 Prob.
k (numero di "testa") La distrib. delle Prob. è:
0 0.001 ==> SIMMETRICA perché p = q = 0.5;
1 0.010 => Se p q è ASIMMETRICA (positiva per p > 0.5);
==> DISCRETA perché k assume solo valori interi;
2 0.044 ==> ha somma = 1;
3 0.117 ==> I parametri p e q sono detti "caratteristici della distribuzione"
4 0.205
5 0.246
6 0.205
Si può anche ragionare così => un esperimento aleatorio,
7 0.117 che produce 2 esiti (es.: GIUSTO / SBAGLIATO)
indipendenti e reciprocamente escludentesi, ripetuto 10
8 0.044 volte (si pensi ad una prova d’esame con 10 domande a
ciascuna delle quali si può risposdere solo: SI / NO e solo
9 0.010
una delle due possibili risposte è GIUSTA) produce un A B C B/C
10 0.001 insieme degli eventi foramto da 10!
210 = 1024 sequenze possibili. Di queste sequenze solo k k! 10 k ! 2 10 Prob.
k! 10 k !
1 10 1024 0.010
Altre proprietà: 2 45 1024 0.044
=> media presentano k successi (es: GIUSTO). 3 120 1024 0.117
(valore atteso) => n p Se si pensa di rispondere in maniera casuale (facendo in modo 4 210 1024 0.205
che la probabilità di rispondere “GIUSTO” sia uguale a quella 5 252 1024 0.246
=> varianza => n p q
2 di rispondere “SBAGLIATO” (p = q = 0.5), la probabilità di
ottenere k successi può essere calcolata anche .... =====>
6 210 1024 0.205
Si chiede
Test (b) 16 0.2 3.2 1) calcolare la probabilità di rispondere GIUSTO a 6 domande (su 16) in ciascuna versione del test
sotto la condizione che le risposte vengano vengano fornite casualmente;
Test (c) 16 0.1 1.6 2) stabilire il valore atteso (numero di risposte GIUSTO) che, nelle diverse versioni del test, ci si può
attendere per effetto del caso
1
[NOTA: nella sottostante figura i valori di probabilità delle 3 curve sono rappresentati da linee continue per ragioni di semplicità grafica; essendo la
v.c. binomiale discreta, in corrispondenza dei diversi valori sull’ascissa, la probabilità dovrebbe essere rappresentata con un punto separato. La possibilità
di cogliere visivamente le 3 distribuzioni risulterebbe, tuttavia, del tutto compromessa]
==> Quando gli eventi possono assumere un qualsiasi valore (in un qualsiasi intervallo, anche - + )
allora la distribuzione teorica di probabilità può essere quella NORMALE
=> Molte variabili si distribuiscono approssimativamente in modo normale;
=> Gode di comode proprietà come la simmetria;
=> Viene anche detta "curva degli errori" perché si può dimostrare (Gauss) che essa descrive la LEGGE DI DISTRIBUZIONE DEGLI
ERRORI ACCIDENTALI (per es.: di misurazione di una lunghezza)
==> Una variabile casuale x ha una distribuzione normale con media e varianza 2 se la sua densità
di probabilità (funzione di probabilità) è data da: x
1
2 x 2
3.1416
1 1 1
f x exp 2 x
2
e 2 con: e 2.7183
2 2 2 2 2 media
2
var ianza
1; 2 3; Asimm 0; Curtosi 0;
1
0; 2 ; Asimm 0; Curtosi 0;
3
1
1; 2 ; Asimm 0; Curtosi 0;
5
0; 2 1; Asimm 0; Curtosi 0;
R...
Caratteristiche delle curva normale: R...
=> è SIMMETRICA (moda = mediana = media);
=> la probabilità relativa ad intervalli di valori è definita dall'AREA SOTTESA alla porzione di curva e
quindi dall'integrale della funzione (per xi = a): 2
a 1 x
1
Pa e 2
dxi
2 2
1
xi 1 z 2
zi f z e 2
Per cui: 2
i cui valori possono essere facilmente tabulati ....
R...
TAVOLE...
-4 -3 -2 -1 0 z 1 2 3 4
1-p
Generalmente, il software statistico fornisce direttamente (sotto l'etichetta "prob.") il valore: 1-p
Data una popolazione di numerosità N distribuita NORMALMENTE con media e varianza 2 , è possibile
estrarre innumerevoli campioni di n osservazioni.
Ogni campione di osservazioni è una variabile casuale NORMALE con media e varianza 2 .
Se si standardizzano i valori di k campioni, si avranno k variabili casuali z1, z2, ..., zk normali con stessa media
e stessa varianza.
La sommatoria dei quadrati di k variabili normali standardizzate è una variabile casuale detta CHI-QUADRO
che viene espressa dalla seguente forma funzionale:
R...
Proprietà:
=> per la curva tende alla Normale;
=> la media (valore atteso) =
==> E' definita come rapporto fra una variabile casuale Normale Standardizzata e la radice quadrata
di una variabile 2 divisa per il numero dei suoi GdL, sotto la condizione che le due variabili
siano fra loro indipendenti;
==> molto usata per lo studio di fenomeni casuali relativi a campioni piccoli (n < 30);
==> significatività dei parametri stimati in modelli lineari classici;
==> La forma della distribuzione dipende dai GdL; le diverse curve sono CAMPANULARI e
SIMMETRICHE (platicurtiche)
==> al crescere dei GdL, t tende alla normale
CONTROLLO (verifica) DELLE IPOTESI
R...
Perché la velocità di lettura è differente
nell'ambito di un certo insieme di
individui ? Dipenderà dal metodo di
insegnamento ???
Dalle domande di conoscenza alle ipotesi teoriche ==>
Se gli individui sono stati sottoposti a
due diversi metodi di insegnamento (a; b)
allora la loro velocità di lettura è differente
Indicando con a e b le medie incognite della velocità di lettura, rispettivamente per la popolazione
di coloro che hanno seguito il metodo a e b, è possibile scrivere la corrispondente ipotesi statistica:
H: a b che naturalmente implica anche l'ipotesi opposta H: a = b
Generalmente si preferisce porsi nella condizione di RESPINGERE l'ipotesi che riveste interesse per
lo studio; e tale ipotesi viene detta IPOTESI NULLA; l'altra IPOTESI ALTERNATIVA
H0: a = b H1: a b
==> Il controllo delle ipotesi consiste nello stabilire una regola che permetta di decidere;
==> Un test statistico è una variabile casuale i cui valori (definiti dalla regola di calcolo)
stanno in un certo intervallo e seguono una distribuzione di probabilità nota.
==> I valori del test (spazio campionario) vengono generalmente suddivisi in:
- una regione di ACCETTAZIONE di H0
- una regione di RIFIUTO di H0 (accettazione di H1)
sulla base di un valore (Vc) che viene detto VALORE CRITICO (al di là del quale si
estende la regione di rifiuto)
R...
In generale lo spazio delle decisioni possibili (spazio delle ipotesi) può essere così suddiviso:
Quando si pensa H0 come ... decidere di ... ... comporta ... ... errore di ... ... con probabilità ...
==> La quantità dipende dal valore prefissato di e dal valore del parametro incognito .....
==> Si desidera minimizzare sia sia ; ma POSSONO ESSERE RIDOTTI ENTRAMBI SOLO
AUMENTANDO LA DIMENSIONE DEL CAMPIONE ...
Ecco perché generalmente si preferisce porsi nella condizione di RESPINGERE (H0) l'ipotesi che riveste interesse per lo studio:
==> Es. Il ricercatore desidera sostenere che il diverso metodo di insegnamento influisce sulla velocità di lettura. Definendo:
H0: a = b
si dice: “fra i due gruppi che hanno seguito metodi diversi di insegnamento NON vi è alcuna differenza significativa”.
==> MAI SI POTRA’ SAPERE SE HO E’ VERA O FALSA; ma così facendo (assumendo che sia vero a = b) si “restringe” lo spazio
decisionale ai primi due casi (illustrati in tabella);
==> ORA PER MINIMIZZARE IL RISCHIO DI SBAGLIARE E’ SUFFICIENTE SCEGLIERE UN ABBASTANZA PICCOLO !!!
In genere si formulano le ipotesi statistiche in modo che sia più vantaggioso avere un piccolo (e consegunetemente un grande) piuttosto che il contrario: Esempio dell'accusato.
Porre H0 = innocente (H1 = colpevole) e scegliere un piccolo significa preferire la liberazione di un colpevole piuttosto che la condanna di un innocente;
viceversa, con H0 = colpevole (H1 = innocente) e sempre piccolo, significa preferire un innocente in galera piuttosto che un colpevole in libertà.
CONTROLLO DELLE IPOTESI: sulla media --- sulla differenza fra medie
R...
=> “sulla media" implica un solo campione e la decisione riguarda SE la media campionaria è (o non è)
significativamente diversa dalla media della popolazione;
=> “sulla differenza fra medie" implica (almeno) due campioni e la decisione riguarda SE la differenza riscontrata è
tale da far ritenere che i campioni provengano da popolazioni con medie diverse (oppure così piccola da far
ritenere che sia dovuta al caso (fluttuazioni campionarie).
[importante distinguere: CAMPIONI INDIPENDENTI / CAMPIONI DIPENDENTI]
2) Calcolo (uso tavole) del valore critico della variabile casuale associata al test [zc; tc; Fc; 2c];
3) Trasformazione dei valori campionari in quelli della variabile associata opportuna [ze; te; Fe; 2e]
(e = empirico);
(Esempi ...)
Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) Z
R...
=> Due campioni (casuali e indipendenti) di studenti vengono sottoposti ad una prova di memoria;
Il primo campione è composto interamente da 43 studenti maschi che ottengono un punteggio
medio pari a 20 con uno scarto quadratico medio di 4.6; il secondo campione è composto
interamente da 40 studentesse che ottengono un punteggio medio pari a 18 con una deviazione
standard pari a 4.4. Si chiede di stabilire, con un livello di fiducia del 99%, se la differenza fra
studenti maschi e femmine è statisticamente significativa.
xM x F 20 18
3 ze 2.0
sM s F 4.6 4.4
n1 n2 2 43 40 2
=> Per controllare se un nuovo tipo di psicofarmaco influisce o meno sulla memoria delle persone si
organizza un esperimento. 60 individui che hanno trovato giovamento dallo psicofarmaco vengono
suddivise (casualmente) in due gruppi di 30 individui; al gruppo 1 viene somministrato il
medicinale, al gruppo 2 un placebo. Dopo un certo intervallo di tempo tutti sono sottoposti ad una
prova di memoria che fornisce i seguenti risultati: media pari a 13.30 e deviazione standard 1.77
per il gruppo 1 (sperimentale); media pari a 16.03 e deviazione standard 1.74 per il gruppo 2
(controllo). Si chiede di stabilire se lo psicofarmaco influisce significativamete sulla memoria
(alfa = 0.05).
I DATI...
Hypothesis Test
Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0
2
J K f jk fˆ jk
2 che dipende da N e dai GdL;
Esempio: Con lo scopo di conoscere il giudizio degli studenti nei confronti dell'introduzione di una
modifica organizzativa del corso di laurea, è stato intervistato un campione casuale di 150
studenti. I risultati dell'indagine sono riportati in forma tabellare distinguendo i giudizi (y)
rispetto al genere (x) degli intervistati. Si chiede di stabilire se:
a) fra genere e giudizio esiste un qualche grado di associazione;
b) l'eventuale associazione fra genere e giudizio é statisticamente significativa (alfa = 0.05)
TABELLA DI X PER Y STATISTICHE PER LA TABELLA DI X PER Y
X Y
Frequenza‚favorev.‚contrari‚incerti ‚ Totale Statistica DF Valore Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Chi quadro 2 12.959 0.002
maschi ‚ 28 ‚ 29 ‚ 17 ‚ 74 Likelihood Ratio Chi-Square 2 13.220 0.001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Mantel-Haenszel Chi-Square 1 2.110 0.146
H0: CHI-QUADRO calcolato = 0; L'associazione fra le due variabili è statisticamente significativa per alfa = 0.05 ?
RIPASSO ..... R...
I valori di due variabili cardinali (x e y) possono essere rappresentati geometricamente come punti (coordinate) in
uno spazio cartesiano a due dimensioni ...
==> Nessuna statistica capace di cogliere (misurare o esprimere) una relazione lineare è anche
capace di cogliere l'esistenza di una relazione non-lineare
=> due variabili vengono dette: ortogonali (o indipendenti) quando si osserva una totale assenza di
relazione;
=> quando la relazione è lineare e perfetta, le variabili vengono dette collineari.
R...
R...
Misure (statistiche) della relazione LINEARE fra due variabili cardinali
==> COVARIANZA; riprendendo la formula della varianza (di x), questa può essere espressa come
covarianza di x CON SE STESSA ...
1 N 1 N
s xi x xi x xi x x 2 x 2
2 2 ==> con due variabili (x e y)
si può scrivere la
N i 1 N i 1 COVARIANZA come:
0.0 0.0018
Y -0.96500 1.00000
0.0018 0.0
con software statistico...
RIPASSO ..... R...
X \ Y 1 2 ... H Tot.
esito docente
1 f11 f12 ... f1H f1+
Frequenze ‚A ‚B ‚C ‚ Totale
2 f21 f22 ... f2H f2+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
... ... ... ... ... ... ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
L fL1 fL2 ... fLH fL+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 25 50 25 100
Tot. f+1 f+2 ... f+H f++
In un'urna (x) ci sono 50 palline "N" e 70 palline "R";
Modello teorico
(nella situazione di indipendenza) .... in un'altra urna (y) ci sono 80 palline "N" e 40 palline "R";
in 120 estrazioni (con ripetizione) qual è la Prob. di estrarre "N" e "N" ???
xj\ yk N R Tot.
fˆNN ?
ˆ
f NR ?
N ? ? 50 (Prob.) * (N° di estrazioni) = Frequenza attesa = fˆ jk ˆ
f RN ?
R ? ? 70 fˆ
RR ?
Tot. 80 40 120
Dalla teoria della probabilità ... Teorema della probabilità composta (o del prodotto):
SE DUE EVENTI SONO STOCASTICAMENTE INDIPENDENTI, LA PROBABILITA' DI
50 80
Facendo qualche calcolo ... in x P N 0.416 6 in y P N 0.666 6
120 120
50 80
fˆNN 0.277 7 120 33.333 3 33
120 120
In generale ... ˆf f j f k f f j f k
jk
f f f
R...
... dati i marginali, è possibile ottenere la tabella delle frequenze attese fˆ jk nella situazione di indipendenza (fra x e y) ...
... che può essere confrontata con la tabella delle frequenze empiriche ...
fˆ jk (xj\ yk) N R .... Tot.
N 33 17 .... 50
fˆ11 ... utilizzando
f11
ˆ R 47 23 .... 70
f12 f12
... ...
f
........... ........... ........... .... ...........
2
fˆ jk
In generale ... ....
fˆ jk f jk L H Tot. 80 40 120
... ... 2 jk
fˆ
che assume un valore compreso fra 0
... ... j 1 k 1 jk e un numero positivo che dipende da
ˆ
f LH f LH N (f++) e dai GdL
GdL L 1 H 1
A scopo descrittivo possono essere ricavate altre misure (SIMMETRICHE) di associazione basate sul CHI-quadro (forza della relazione ...)
2 2
Coefficiente PHI ==> φ φ 2
MIN = 0 ; MAX = 1 SOLO PER TABELLE: 2 * H
N N
φ2 MIN = 0 ; MAX = 1 PER TABELLE: L * H
Coefficiente V (Cramer) ==> V
minL 1, H 1
R...
Ritornando all'esempio empirico ... R...
The SAS System
I SUCCESSI (o gli insuccessi) SONO EQUAMENTE The FREQ Procedure
DISTRIBUITI FRA I DOCENTI (A,B,C) ???
Table of esito by docente
esito docente
Frequenze‚ Frequency‚
% (Tot.) ‚A ‚B ‚C ‚ Totale Expected ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Percent ‚
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96 Row Pct ‚
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59 Col Pct ‚A ‚B ‚C ‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 0 ‚ 69 ‚ 6 ‚ 21 ‚ 96
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 ‚ 60.706 ‚ 14.118 ‚ 21.176 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59
Totale 86 20 30 136 ‚ 71.88 ‚ 6.25 ‚ 21.88 ‚
63.24 14.71 22.06 100.00 ‚ 80.23 ‚ 30.00 ‚ 70.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40
‚ 25.294 ‚ 5.8824 ‚ 8.8235 ‚
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41
... qualche informazione in più ... ‚ 42.50 ‚ 35.00 ‚ 22.50 ‚
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚
esito docente ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 86 20 30 136
Frequency‚ 63.24 14.71 22.06 100.00
Percent ‚
Row Pct ‚
Col Pct ‚A ‚B ‚C ‚ Total Statistics for Table of esito by docente
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96 Statistic DF Value Prob
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ 71.88 ‚ 6.25 ‚ 21.88 ‚ Chi-Square 2 19.7279 <.0001
‚ 80.23 ‚ 30.00 ‚ 70.00 ‚ Likelihood Ratio Chi-Square 2 18.1787 0.0001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Mantel-Haenszel Chi-Square 1 3.6911 0.0547
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 Phi Coefficient 0.3809
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 Contingency Coefficient 0.3559
‚ 42.50 ‚ 35.00 ‚ 22.50 ‚ Cramer's V 0.3809
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Sample Size = 136
Total 86 20 30 136
63.24 14.71 22.06 100.00
Analisi della varianza (ANOVA) come estensione del test sulla differenza fra medie
Analisi della Varianza (Fisher, 1935) R... Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento
...Come estensione del TEST sulla differenza fra medie... (a; b; c; ....; z), allora la loro velocità di lettura è differente>>
-------------------------------------------------
per semplicità: 3 metodi (a, b,c); 3 individui ogni campione
Ident y Metodo
Disegno ad Assegnazione Casuale completa
(parole lette / (Completely Randomized CR-3) ANOVA ad UNA VIA
intervallo di
tempo)
1a 50 a H0 : a b c
2a 40 a a ya 50
3a 60 a
1b 70 b
y 50
2b 80 b b yb 80
3b 90 b Per utilizzare il TEST (t) sulla differenza
fra due medie è necessario effettuare
1c 20 c 3 CONFRONTI...
2c 15 c
c yc 20 In generale con k medie, k k 1
3c 25 c il numero dei confronti è pari a: c
2
Fissato il coefficiente di fiducia (),
la probabilità di incorrere in un ERRORE
del I° TIPO aumenta all'aumentare dei confronti!
<< Se il diverso metodo di insegnamento influenza la velocità di lettura, allora le medie dei campioni saranno diverse>>
MA SI TRATTA DI DIFFERENZE STATISTICAMENTE SIGNIFICATIVE?
Ovvero:
I tre campioni possono essere ricondotti ad ununico universo di riferimento (con la stessa media)?
Ovvero:
Le differenze osservate fra le medie dei tre campioni sono oscillazioni casuali intorno ad un'unica media?
La Prob. di incorrere in un errore del I° tipo può essere approssimata per eccesso (confronti tutti ortogonali)
Per esempio:
Pr 1 1
c
Medie Confronti (c) Pr. Errore I tipo
con = 0.05
2 1 1 0.951 1 0.950 0.050
4 6 1 0.956 1 0.735 0.265
6 15 1 0.9515 1 0.463 0.537
8 28 1 0.95 28 1 0.238 0.762
10 45 1 0.9545 1 0.099 0.901
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie... R...
H0 : a b c ? H1 : a b c
<<eventuali differenze fra le medie empiriche dei <<almeno una differenza fra le medie empiriche dei
campioni sono POCO MARCATE così che possono campioni è ABBASTANZA MARCATA così che
essere attribuite ad oscillazioni casuali intorno si può sostenere l’appartenenza dei diversi
ad un’unica media dell’universo di riferimento>> campioni a universi distinti con medie differenti>>
Test F
Organizzando diversamente i dati dell'esempio, si evidenziano
DUE FONTI DI VARIABILITÀ (unico EFFETTO: "metodo")...
Ident y Metodo
(parole lette /
intervallo di Effettuando i calcoli...
tempo)
NOTAZIONE
1a 50 a
N numerosità totale
2a 40 a
3a 60 a
n na nb nc numerosità campione
1b 70 b k numero di campioni
2b 80 b GdL Gradi di Libertà
3b 90 b DEV devianze
1c 20 c VAR varianze
2c 15 c DEV S VAR S " Spiegata" , " FRA" , " between"
3c 25 c DEV R VAR R " Residua" , " ENTRO" , " within"
DEVs n y j y n ya y n yb y n yc y
K
2 2 2 2
GdLS k 1 3 1 2
j 1
DEVR yij y j
n K
2
i 1 j 1
50 50 40 50 60 50 70 80 80 80 90 80 20 20 15 20 25 20 450
2 2 2 2 2 2 2 2 2
VARS è affetta da errore sistematico, se le differenze fra le medie sono dovute a universi di riferimento con medie diverse e, in tal caso l'errore
condurrà ad una sovrastima (della varianza fra le medie dei campioni) dato che il numero di campioni è sempre inferiore al numero degli individui
VARR è una stima (campione per campione) e pertanto è sempre priva di errore sistematico
F ha una distribuzione campionaria che fornisce la probabilità di ottenere, per effetto del caso, un valore uguale o maggiore a quello empirico
RIGA
nhj
S61 56 2 1 y1,11 = 62 y1,12 = 20 2 56.63 48.20 52.42 yhj
1
y hj , i media di cella
S62 70 2 1 nhj i 1
Dal test sulla differenza fra medie... al MODELLO ANOVA (lineare generalizzato classico)...
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie. Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento impartiti da diversi insegnanti,
... Illustrazione... (EFFETTO INTERAZIONE...) allora la loro velocità di lettura è differente>>
metodo - A (1, 2, 3); insegnante - B (1, 2) 30 individui ogni gruppo
R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.413648 18.63936 9.334175 50.07778 0.702086 13.37992 6.689959 50.00000
Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 2 4099.244444 2049.622222 23.52 <.0001 A 2 17141.20000 8570.60000 191.50 <.0001
B 1 6576.355556 6576.355556 75.48 <.0001 B 1 259.20000 259.20000 5.79 0.0172
A*B 2 19.244444 9.622222 0.11 0.8955 A*B 2 952.13333 476.06667 10.64 <.0001
B (1) B (1)
y6563hj B (2) y6765hj B (2)
61 63
59 61
57 Insegnante "1" 59
55 57
Insegnante "2"
53 55
51 53
51
49
49
47
47 Insegnante "1"
45
45
43 43
41 41
Insegnante "2"
39 PRECEDENTE... 39
37 37
35 35
Metodo (A) A (1) A (2) A (3) Metodo (A) A (1) A (2) A (3)
RIPASSO ..... R...
Id y x Dai dati...
yi ˆ0 ˆ1 xi ei
y 4.40; x 3.00 x 2 3.00 2 9.00
y
1 2 1
10
9
N
2 4 3 1 1
x y
8
7 xy i i 144.00 14.40
3 5 2 N i 1 10
yˆ i 2.6 0.6 xi
6
5
4 5 5 1 N
1
x
4
3 x
2 2
i 110.00 11.00
5 6 5 N 10
2 i 1
6 4 1 1
0
0 1 2 3 4 5 6 7 8 9 10 11
x sx sx2 2.00 1.414 ; s y 1.44 1.20
7 4 4
8 3 2
COVxy xy x y 14.40 3.00 4.40 1.20
9 5 3 ˆ1 0.60 ˆ0 y ˆ1 x 4.40 0.60 3.00 2.60
10 6 4 VARx x x2 2 11.00 9.00 2.00
N
DEVt yi y 14.40 ; GdLt 10 1 9 DEVs 7.20
2
R2 0.50
i 1 DEVt 14.40
N
DEVs yˆ i y 7.20 ; GdLs 1
2 DEVs
GdLs 7.20
i 1 F 8.00;
DEVr 0.90
N GDLr
DEVr ei 7.20 ; GdLr 10 1 1 8 per α 0.05; Fcritico 5.32
2
(H0 : respinta)
i 1
t F 8.00 2.83
GdLr 8; per α 0.05; tcritico 2.306 (H0 : respinta)
ESEMPIO Quando le variabili (y e x) sono standardizzate, il coefficiente di
regressione stimato coincide con il coefficiente di correlazione (r)
Coefficienti ˆ1 e ˆ1
Interpretazione parametri ˆ ;ˆ ; ˆ
0 1 1
Questo coefficiente (peso ) esprime la variazione attesa in y, in
unità di deviazione standard, per la variazione di 1 dev. standard in x
Stime (ŷ) al di là dei dati empirici (x = ???)
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
The REG Procedure proc reg data=uno; model y =x / stb;quit;
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Model: MODEL1
y 10 4.4000000 1.2000000 2.0000000 6.0000000 Dependent Variable: y
x 10 3.0000000 1.4142136 1.0000000 5.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
data uno;input y x;cards; Obs y x ystd xstd Model 1 7.20000 7.20000 8.00 0.0222
2 1 1 2 1 -2.00000 -1.41421 Error 8 7.20000 0.90000
4 3 Corrected Total 9 14.40000
2 4 3 -0.33333 0.00000
5 2
5 5 3 5 2 0.50000 -0.70711
4 5 5 0.50000 1.41421 Root MSE 0.94868 R-Square 0.5000
6 5 Dependent Mean 4.40000 Adj R-Sq 0.4375
4 1 5 6 5 1.33333 1.41421
Coeff Var 21.56098
4 4 6 4 1 -0.33333 -1.41421
3 2 7 4 4 -0.33333 0.70711
Parameter Estimates
5 3 8 3 2 -1.16667 -0.70711 Parameter Standard Standardized
6 4 9 5 3 0.50000 0.00000 Variable DF Estimate Error t Value Pr > |t| Estimate
; 10 6 4 1.33333 0.70711 Intercept 1 2.60000 0.70356 3.70 0.0061 0
x 1 0.60000 0.21213 2.83 0.0222 0.70711
The REG Procedure proc reg data=uno; model ystd = xstd ;quit;
y
yˆ i 2.6 0.6 xi Model: MODEL1
Dependent Variable: ystd
10
Analysis of Variance
9 Sum of Mean
ŷ = 7.4 Source DF Squares Square F Value Pr > F
8 Model 1 5.00000 5.00000 8.00 0.0222
7
Error 8 5.00000 0.62500
Corrected Total 9 10.00000
6
Root MSE 0.79057 R-Square 0.5000
5
Dependent Mean -2.8866E-16 Adj R-Sq 0.4375
4 Coeff Var -2.73878E17
3 Parameter Estimates
2 Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
1 Intercept 1 -2.8866E-16 0.25000 -0.00 1.0000
xstd 1 0.70711 0.25000 2.83 0.0222
0
0 1 2 3 4 5 6 7 8 9 10 11
x
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA UNIVERSITÀ DELLA VALLE D'AOSTA
Gennaio
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
2012
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli
Esempi ed Esercizi
Dettagli
Introduzione SPIEGARE Perché Y ? “L’istruzione è la principale determinante del reddito”
Il modello lineare classico è un dispositivo che connette due entità... INCERTA STRUTTURALE
Esempio
Sono stati rilevati i valori ottenuti tramite due strumenti di misura (x e y)
Si sa che lo strumento x è PRECISO (privo di errore)
Si assume che il "dispositivo" sia di tipo lineare
yi ~yi i ~y x
i 0 1 i
Id y x 50 y
1 22 -5 45
2 29 -4 40
3 27 -3 35
4
5
27
32
-2
-1
30
yi 0 1 xi i
25
6 30 0
20
7 34 +1
15
8 34 +2
ˆ0 ˆ1
10
9 39 +3
5
10 42 +4 x
0
11 41 +5 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
50 y
Id y x ŷ e
yˆ i 32.45455 1.80909 xi 1 22 -5 23 -1
yˆ i ˆ0 ˆ1 xi
45
2 29 -4 25 +4
40
3 27 -3 27 0
35
4 27 -2 29 -2
30
yi yˆ i ei
5 32 -1 31 +1
25
6 30 0 32 -2
20
7 34 +1 34 0
15
8 34 +2 36 -2
10
9 39 +3 38 +1
5
x
10 42 +4 40 +2
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 11 41 +5 42 -1
Introduzione
INCERTA STRUTTURALE
Considerazioni:
yi ~yi i ~y x
i 0 1 i
yi 0 1 xi i
ASIMMETRIA "sintattica" della relazione... osservato "vero"
yi ~y
i
x è una variabile "fissa" o "matematica"
(valori NON soggetti a fluttuazioni probabilistiche) i "errore"
Stessa
Distribuzione
y (e solo y) è una variabile stocastica di Probabilità
Il modello lineare classico è un dispositivo che connette due entità... INCERTA STRUTTURALE
Considerazioni:
EXPLANANDUM EXPLANANS
RELAZIONI CAUSALI
Causa
DESTINAZIONE
SCOMPOSIZIONI (FILTRAGGIO) (segnale + disturbo) SORGENTE
Filtro
VARIABILITÀ VARIABILITÀ
RIPRODUZIONE (SIMULAZIONI)
Simulatore
Notazione y1 1 x1 y1 1 x11 x21 ... xk1
y 1 x y 1 x x22 ... xk2
2 2 2 12
In matrice dati... ... in generale... 1 ... ... ...
yi 0 1 xi i
... 1 ... ... ...
yi 1 xi yi 1 x1i x2i ... xki
... 1 ... ... 1 ... ... ... ...
yN 1 x N yN 1 x1N x2 N ... xkN
Notazione scalare...
K
yi 0 1 x1i 2 x2i ... k xki i yi 0 k xki i
Ovvero...
k 1
! ATTENZIONE !
1 Il valore atteso di ogni (i ) è pari a zero E 0 Assenza di errori sistematici nei valori della ỹ
3 La varianza dell’errore deve essere costante VAR 2 Omoschedasticità del vettore degli errori ( )
Congiuntamente...
nella parte sistematica del modello devono essere contemplate TUTTE le variabili rilevanti
Qualche nozione di algebra delle matrici (1/3)
• Una MATRICE è un insieme di NxT elementi (generalmente numeri reali) ordinati per righe e per colonne
x 11 x 12 x 13 1 0 . 53 0 . 41 x 11 0 0 1 0 0
x x 22 x 23 0 . 53 1 0 . 98 0 x 22 0 0 1 0 X I I X X
21
x 31 x 32 x 33 0 . 41 0 . 98 1 0 0 x 33 0 0 1
a b
4
3 5
3
1 2
a i b i 4 10 18 32
i1
6
Date due matrici A e B è possibile effettuare il loro prodotto solo se il numero di colonne di A è uguale al numero di righe di B
Si dice in tale caso che le matrici sono “conformate” o “compatibili”
i 1 i 1 i 1 N i 1 N i 1 N i 1
x1 x2 x3 X
1 8 2 1 8 2
2 3 5 2 3 5 X 54
3 9 3 3 9 3
• Il RANGO di una MATRICE XN,T è il numero massimo di righe o colonne linearmente indipendenti
TEOREMA
• Data una matrice rettangolare X, il rango della matrice ottenuta dal prodotto di X per la sua trasposta e il rango della
matrice ottenuta dal prodotto della trasposta di X per la matrice stessa è uguale al rango della matrice X
• Il rango di una matrice quadrata di ordine è pari a se, e solo se, il determinante della matrice è diverso da zero;
in questo caso si dice che la matrice è di "rango pieno"
1 Ovvero...
• L'INVERSIONE di una matrice è un'operazione che corrisponde alla divisione nell'algebra elementare 1
1 1
• L'operazione di inversione è possibile SOLO su matrici QUADRATE
• L'INVERSA di una matrice quadrata X è pertanto quella matrice (X-1) che soddisfa la relazione: X X 1 1
L’idea consiste nello stimare i parametri del modello in modo da rendere MINIMO l'errore quadratico medio
Nessun assunto sulla distribuzione di probabilità cui appartengono i singoli valori osservati in y
N
e e ei2 ( y X ˆ ) ( y X ˆ ) min Derivando ( y X ˆ ) ( y X ˆ ) riseptto a
ed eguaglaindo a zero, si ottiene un sistema di equazioni ...
ˆ
i 1
ˆ ( X X ) 1 X y
yˆ X ˆ e y X ˆ y yˆ
Stima dei parametri MASSIMA VEROSIMIGLIANZA Maximum Liklihood (ML)
f y
1 1 media
e 2 2
exp y 2
Assunto sulla distribuzione di
2 2 2 2 2
2
var ianza
probabilità cui appartengono i singoli
valori osservati in y
Se i valori osservati in y appartengono alla distribuzione normale, allora la funzione di probabilità della
generica (i-esima) osservazione yi sarà espressa da:
1
1 ˆ K
2
N
1 1 ˆ K
2
f ( y1 , y2 ,..., yN ) exp 2 yi 0 k xik
ˆ
i 1 2 2 2 k 1
1
N
N 1 ˆ K
2
ovvero:
f ( y1 , y2 ,..., yN ) exp 2 yi 0 k xik
ˆ
2 i 1 2
2
k 1
1 1 N ˆ K
2
continua...
che può essere espressa
f ( y1 , y2 ,..., yN ) exp 2 yi 0 k xik
ˆ
2 2 i 1
anche come: N
2 2 k 1
...segue Stima dei parametri MASSIMA VEROSIMIGLIANZA Maximum Liklihood (ML)
1
f ( y1 , y2 ,..., yN ) L ˆ, 2
doppio cambio di notazione...
N
y X y X ˆ
2
2
y
i
ˆ K ˆ
0 x
k ik
ˆ
i 1 k 1
1 1 N ˆ K
2
f ( y1 , y2 ,..., yN ) exp 2 yi 0 ˆk xik
2 2
N
2
2 i 1 k 1
L ˆ , 2 1 1
exp 2 y X ˆ y X ˆ
2 2
N
2 2
Prendendo il logaritmo
(funzione di log-verosimiglianza)
1
2
1
l ˆ , 2 2 y Xˆ y Xˆ N log 2 2
2
Risolvendo rispetto a ^
(2 è costante e può essere tralasciato) ˆ ( X X ) 1 X y
(alcune) Proprietà delle stime
ˆ è uno stimatore campionari o del vettore
Uno stimatore (stimatore campionario) è:
una formula o un metodo di calcolo impiegato per una stima puntuale;
lineare quando può essere espresso come una somma di prodotti fra un coefficiente o peso fisso e una componente variabile o stocastica
(funzione lineare di una variabile stocastica);
corretto se il suo valore medio, calcolato su un numero infinito di campioni casuali estratti dallo stesso universo di riferimento,
è uguale al parametro da stimare (non-distorto o non affetto da errore sistematico);
efficiente se si tratta di quello stimatore cui corrisponde la minima varianza, fra tutti i possibili stimatori non affetti da errore sistematico
Il vettore degli scarti ha sempre media uguale a zero (se è presente il vettore unitario u in rappresentanza di 0) e 0
La media dei valori riprodotti dal modello coincide sempre con la media della variabile dipendente yˆ y
DIMOSTRAZIONE
y yˆ e moltiplicando entrambi i membri per ... 1 N u si ottiene ... 1 N uy 1 N uyˆ 1 N ue
n
MA ... 1 N ue 1 N e i e 0
i 1
Il vettore degli scarti è sempre ortogonale a ciascuna colonna della matrice X Xe 0
DIMOSTRAZIONE
X y ( X X ) ˆ X y X X ˆ 0
X y X ˆ 0 X y yˆ 0 Xe 0
Il vettore dei valori riprodotti dal modello è sempre ortogonale al vettore degli scarti yˆ e 0
Segue dal fatto che ŷ è combinazione lineare di X
Una variabile esplicativa
Notazione vettoriale...
y X y1 1 x1
y 1 x
2 2
In matrice dati... ... 1 ...
yi 1 xi
Notazione scalare... ... 1 ...
yi 0 1 xi i yN 1 x N
y i ˆ0 ˆ1 x i e i
yˆ i ˆ0 ˆ1 x i
y i yˆ i e i ; e i y i yˆ i
Scomposizione della variabilità (1)
TEOREMA
La somma dei quadrati totale o da spiegare (SQT) può sempre essere scomposta in due addendi: la somma dei
quadrati spiegata (SQS) e la somma dei quadrati residua o dello scarto (SQR)
DIMOSTRAZIONE
yi yˆ i e i Elevando al quadrato
e sommando ... 1 i N ... y yˆ
2
i
2
i 2 yˆ i ei ei2 Ma... yˆ i ei 0 ; pertanto...
Ovvero...
yy yˆ yˆ e e
Se nel modello è presente l'intercetta...
SOMME dei QUADRATI = DEVIANZE
SQ
Sfruttando alcune proprietà delle stime
yˆ y ; e 0 SQ1
vale, anche per le DEVIANZE, SQS
il precedente TEOREMA; infatti... SQ2
Dove: GdLT N 1
N = Osservazioni;
Devianze GdLS K
K = Variabili esplicative GdL N 1 K
R
Scomposizione della variabilità (1)
Le tre componenti (DevT ; DevS ; DevR) possono essere illustrate graficamente riportando
sugli assi cartesiani un'unica osservazione (yi) di un modello lineare classico bivariato
y y DevT
2
i
yˆ i ˆ0 ˆ1 x i
y yˆ e Dev R
2 2
i i
yi
yi yˆ i
yi y yˆ y Dev S
2
ŷi i
yˆ i y
y y
ˆ0
ˆ1
x
Variabili categoriali
Variabili booleane 12 individui... rilevazione di:
GRUPPO di riferimento (A, B, C) GENERE (1 = Maschio; 0 = Femmina)
IDENT IDENT
Gruppo Genere A B C M F
FORMA
01 A 1 matrice RIDOTTA 01 1 0 0 1 0
variabili COMPRESSA
02 A 1 02 1 0 0 1 0
03 A 0 03 1 0 0 0 1
04 A 0 04 1 0 0 0 1
05 B 1 05 0 1 0 1 0
06 B 1 06 0 1 0 1 0
07 B 0 07 0 1 0 0 1
08 B 0 08 0 1 0 0 1
09 C 1 09 0 0 1 1 0
10 C 1 FORMA 10 0 0 1 1 0
matrice CANONICA o ESTESA
11 C 0 variabili DISGIUNTIVA COMPLETA 11 0 0 1 0 1
12 C 0 12 0 0 1 0 1
... ...
APPARTENENZA VERITÀ
xi xi
... ...
ESEMPIO (1a) ==> 2 gruppi di individui (3 individui ogni grupo) sono stati sottoposti a metodi diversi di insegnamento;
si potrebbero ottenere i seguenti dati...
PAROLE LETTE
INTERVALLO
DOMANDE...
di TEMPO (1) I due metodi producono una differenza statisticamente significativa?
(2) Qual è l’effetto del metodo "b" sulla velocità di lettura ?
Id y Metodo x
Two Sample t-test for the Means of y within metodo
(1)
1b 70 B 1
Sample Statistics
2b 80 B 1 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
3b 90 B 1 b 3 80 10 5.7735
c 3 20 5 2.8868
1c 20 C 0
Hypothesis Test
2c 15 C 0 Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0
3c 25 C 0
y i ˆ0 ˆ1 x i e i If Variances Are t statistic Df Pr > t
----------------------------------------------------
Equal 9.295 4 0.0007
(2) Not Equal 9.295 2.94 0.0029
y 50; x 0.5
y
90
80
70 In una situazione così elementare
è possibile seguire, passo-passo,
60 (50;0.5) il procedimento di stima del modello...
50 yˆ i ˆ0 ˆ1 xi
40
30 20 60
20
10 ˆ0
ˆ1
0 1 x
ESEMPIO (1a) N N
y i ˆ0 ˆ1 x i e i
Si tratta di trovare quei parametri (a; b) che... e y
i 1
2
i
i 1
i yˆ i min
2
N N N
yˆ i ˆ0 ˆ1 x i
e yi yˆ i yi ˆ0 ˆ1 xi
è necessario calcolare 2 2
2
le derivate parziali
ed eguagliarle a zero i
y i yˆ i e i ; e i y i yˆ i i 1 i 1 i 1
Parametro: 0
N
2 y ˆ ˆ x 0
N
2 z w ˆ ˆ z 0
2 1
yi ˆ0 ˆ1 xi N N
2 1
wi ˆ0 ˆ1 zi
i i
ˆ0 i 1
0 1
i 1 i i 1 i
ˆ1 i 1
0
N N i 1
yi Nˆ0 ˆ1 xi 0 N N N
i 1 i 1
wi zi ˆ0 zi ˆ1 zi2 0 ;
1 N 1 N i 1 i 1 i 1
0 yi ˆ1
ˆ
x i N N
N i 1 N i 1 Ma : zi xi x 0
ˆ y ˆ x
0 1
i 1 i 1
N N
Parametro: 1 (traslazione degli assi) wi yi y
w z y y x
i i i i x
CoDev xy
100 zi xi x ˆ1 i 1
i 1
N N
Dev x
z
i
90 w y
2
80
70
2
i x x
60 i 1 i 1
50
N
y y x x
40
30
1
20
N
i i
Cov xy
10
1 Ovvero... ˆ1 i 1
N
Varx
0
x i x
-10 x 1 2
-20
-30
-40
N i 1
1 (y;x)
-50
-60 (w;z)
z
-0.5 0.0 +1.0
I calcoli...
yi ˆ0 ˆ1 xi ei yˆ i ˆ0 ˆ1 xi
ESEMPIO (1a)
Qualche conto utile...
N
1
6
x x 3 0.5
}
2 2
1c 20 0 20 0 i
2c 15 0 20 -5 ŷ = 20 = MEDIA ("C") N i 1 6
3c 25 0 20 +5
COVxy xy x y 40 0.5 50 15
ˆ1 60 ˆ0 y ˆ1 x 50 60 0.5 20
VARx x2 x 2 0.5 0.25 0.25
Inoltre...
N N N
DEVt yi y 5650 ; GdLt 6 1 5 DEVs yˆ i y 5400 ; GdLs 1 DEVr ei 250 ; GdLr 6 1 1 4
2 2 2
i 1 i 1 i 1
Standard
Parameter Estimate Error t Value Pr > |t| proc sort data=uno out=uno;by descending x;
Intercept 20.00000000 B 4.56435465 4.38 0.0119 proc glm data=uno order=data; class x;
x 1 60.00000000 B 6.45497224 9.30 0.0007
model y = x /solution;quit;
x 0 0.00000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Il modello lineare classico "REGRESSIONE"
ESEMPIO (1b) Il modello è nato come uno strumento per stimare i parametri di
una relazione lineare fra due variabili entrambe cardinali.
Su un campione di 10 donne è stato rilevato
“l’atteggiamento nei confronti della Il termine “regressione” si deve al biologo Galton (1822-1911)
subordinazione della donna” (y) e un tratto che ha cercato di stabilire in che misura la statura dei figli segnasse
di personalità, “autoritarismo” (x) un ritorno (una regressione appunto) verso la statura media della
specie, allorché la statura dei genitori se ne allontanava
Entrambe le varibili sono a livello di scala di intervalli,
con punteggi che variano da 0 a 10
(10 = max subordinazione = max autoritarismo)
Id y x Dai dati...
yi ˆ0 ˆ1 xi ei
y 4.40; x 3.00 x 2 3.00 2 9.00
y
1 2 1
10
9
N
2 4 3 1 1
x y
8
7 xy i i 144.00 14.40
3 5 2 N i 1 10
yˆ i 2.6 0.6 xi
6
5
4 5 5 1 N
1
x
4
3 x
2 2
i 110.00 11.00
5 6 5 N 10
2 i 1
6 4 1 1
0
0 1 2 3 4 5 6 7 8 9 10 11
x sx sx2 2.00 1.414 ; s y 1.44 1.20
7 4 4
8 3 2
COVxy xy x y 14.40 3.00 4.40 1.20
9 5 3 ˆ1 0.60 ˆ0 y ˆ1 x 4.40 0.60 3.00 2.60
10 6 4 VARx x x2 2 11.00 9.00 2.00
N
DEVt yi y 14.40 ; GdLt 10 1 9 DEVs 7.20
2
R2 0.50
i 1 DEVt 14.40
N
DEVs yˆ i y 7.20 ; GdLs 1
2 DEVs
GdLs 7.20
i 1 F 8.00;
DEVr 0.90
N GDLr
DEVr ei 7.20 ; GdLr 10 1 1 8 per α 0.05; Fcritico 5.32
2
(H0 : respinta)
i 1
t F 8.00 2.83
GdLr 8; per α 0.05; tcritico 2.306 (H0 : respinta)
ESEMPIO (1b) Quando le variabili (y e x) sono standardizzate, il coefficiente di
regressione stimato coincide con il coefficiente di correlazione (r)
Coefficienti ˆ1 e ˆ1
Interpretazione parametri ˆ ;ˆ ; ˆ
0 1 1
Questo coefficiente (peso ) esprime la variazione attesa in y, in
unità di deviazione standard, per la variazione di 1 dev. standard in x
Stime (ŷ) al di là dei dati empirici (x = ???)
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
The REG Procedure proc reg data=uno; model y =x / stb;quit;
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Model: MODEL1
y 10 4.4000000 1.2000000 2.0000000 6.0000000 Dependent Variable: y
x 10 3.0000000 1.4142136 1.0000000 5.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
data uno;input y x;cards; Obs y x ystd xstd Model 1 7.20000 7.20000 8.00 0.0222
2 1 1 2 1 -2.00000 -1.41421 Error 8 7.20000 0.90000
4 3 Corrected Total 9 14.40000
2 4 3 -0.33333 0.00000
5 2
5 5 3 5 2 0.50000 -0.70711
4 5 5 0.50000 1.41421 Root MSE 0.94868 R-Square 0.5000
6 5 Dependent Mean 4.40000 Adj R-Sq 0.4375
4 1 5 6 5 1.33333 1.41421
Coeff Var 21.56098
4 4 6 4 1 -0.33333 -1.41421
3 2 7 4 4 -0.33333 0.70711
Parameter Estimates
5 3 8 3 2 -1.16667 -0.70711 Parameter Standard Standardized
6 4 9 5 3 0.50000 0.00000 Variable DF Estimate Error t Value Pr > |t| Estimate
; 10 6 4 1.33333 0.70711 Intercept 1 2.60000 0.70356 3.70 0.0061 0
x 1 0.60000 0.21213 2.83 0.0222 0.70711
The REG Procedure proc reg data=uno; model ystd = xstd ;quit;
y
yˆ i 2.6 0.6 xi Model: MODEL1
Dependent Variable: ystd
10
Analysis of Variance
9 Sum of Mean
ŷ = 7.4 Source DF Squares Square F Value Pr > F
8 Model 1 5.00000 5.00000 8.00 0.0222
7
Error 8 5.00000 0.62500
Corrected Total 9 10.00000
6
Root MSE 0.79057 R-Square 0.5000
5
Dependent Mean -2.8866E-16 Adj R-Sq 0.4375
4 Coeff Var -2.73878E17
3 Parameter Estimates
2 Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
1 Intercept 1 -2.8866E-16 0.25000 -0.00 1.0000
xstd 1 0.70711 0.25000 2.83 0.0222
0
0 1 2 3 4 5 6 7 8 9 10 11
x
Due (o più) variabili esplicative
Notazione vettoriale...
y1 1 x11 x21 xk1
y X
...
y 1 x x22 ... x k2
2 12
In matrice dati... ... 1 ... ... ... ...
1 x1i x2i x ki
Notazione scalare... yi ...
... 1 ... ... ... ...
yi 0 1 x1i 2 x2i ... k xki i
yN
1 x1N x2 N ...
xkN
K
yi 0 k xki i
Ovvero...
k 1
y i yˆ i e i ; e i y i yˆ i
Interpretazione dei parametri DUE
DUE SEQUENZE
SEQUENZE DI
DI TRE
TRE ESEMPI...
ESEMPI...
(X Cardinali)
Sequenza esempi "A" .... COMPORTAMENTO COMPROMISSORIO (X1) ; COMPORTAMENTO AGGRESSIVO (X2)
Sequenza esempi "B" .... COMPORTAMENTO DEVIANTE (X1) ; ETÀ (X2)
Per ciascuna variabile esplicativa si vuole stabilire l'eventuale presenza di un effetto, la sua direzione, la sua entità...
ESEMPIO (Bivariato) A1
X y
Comportamento
Autonomia
decisionale
ESEMPIO (Bivariato) A2 ESEMPIO (Multivariato) A3
X1
Compromissorio Comportamento
Autonomia
ˆ1 ?
Comportamento
y
Aggressivo Autonomia
decisionale
decisionale
ˆ2 ? X2
Comportamento
Aggressivo
ESEMPIO (Bivariato) B1
X y
Devianza
Autonomia
ESEMPIO (Bivariato) B2 ESEMPIO (Multivariato) B3
X1
decisionale Devianza
ˆ1 ?
y ˆ1 ? X y ˆ1 ?
Autonomia
Età Autonomia
decisionale
decisionale
ˆ2 ? X2
Età
yi ˆ0 ˆ1 xi ei
Corrected Total 99 243.95004
Il modello...
Root MSE 1.15495 R-Square 0.4641
Dependent Mean 0.19420 Adj R-Sq 0.4587
Coeff Var 594.72151
La teoria...
ˆ1 0.80 X Parameter Estimates
Sum of Mean
Source DF Squares Square F Value Pr > F
y Parameter Estimates
Autonomia
decisionale
ˆ1 0.98 Variable DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Standardized
Estimate
ˆ1 0.29
X Intercept 1 0.19420 0.15101 1.29 0.2015 0
Comportamento
Aggressivo AGGRESS 1 -0.98425 0.32859 -3.00 0.0035 -0.28961
Interpretazione dei parametri
(X Cardinali) SEQUENZA
SEQUENZA "A"
"A" ESEMPIO (Multivariato) A3
ident AUTO_DEC COMPROM AGGRESS tre variabili metriche...
MISURAZIONEn1 S82 0.16 0.12 -0.24 analisi di REGRESSIONE (multipla)
n2 S87 2.55 0.21 0.07 (Modello Lineare Classico)
n3 S84 -0.36 -1.86 -0.25
n4 S27 -1.00 -2.10 0.19
n5 S60 5.70 1.51 -0.83
MISURAZIONE
n6 S71 1.18 0.84 -0.96
n7 S47 2.19 1.88 0.53
n8 S75 1.15 -0.89 0.11
n9 S59 1.13 1.35 0.53
MISURAZIONE n10
S37 -0.12 0.77 0.18 => ~ 55% di variabilità spiegata
(COMPROM) :::::: :::: :::::: :::::: ::::
(AGGRESS) n100 S79 -1.21 -1.16 0.38 => al crescere di COMPROM
cresce l'AUTONOMIA DECISIONALE
The MEANS Procedure => al crescere di AGGRESS
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
decresce l'AUTONOMIA DECISIONALE
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000 .....
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000
AGGRESS 100 1.249001E-18 0.4595824 -1.2700000 1.2300000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ˆ1 0.80 X1
Comportamento
Compromissorio
y ˆ1 0.68
Autonomia
decisionale
ˆ2 0.98
X2
ˆ2 0.29 Comportamento
Aggressivo
I coefficienti stimati
dei modelli BIVARIATI,
coincidono con quelli
del modello MULTIVARIATO
Interpretazione dei parametri SEQUENZA
(X Cardinali)
SEQUENZA "B"
"B"
due variabili metriche...
ESEMPIO (Bivariato) B1
(AUTO_DEC) ident AUTO_DEC DEVIANZA analisi di REGRESSIONE (semplice)
MISURAZIONE n1 S82 0.16 0.08 (Modello Lineare Classico)
n2 S60 5.70 -0.48
n3 S47 2.19 -1.70
n4 S75 1.15 0.55
n5 S59 1.13 -1.33
n6 S79 -1.21 0.55
n7 S9 -0.89 -2.31
n8 S42 0.25 -0.29
n9 S3 2.04 -1.14
MISURAZIONE n10 S78 0.59 2.29 => ~ 30% di variabilità spiegata
(DEVIANZA) :::::: :::: ::::: :::::
n100 S81 -1.95 1.68
=> al crescere della DEVIANZA
diminuisce l'AUTONOMIA DECISIONALE
=> per ogni variazione di +1 punto di DEVIANZA...
The MEANS Procedure
il modello fornisce
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
-6/7 di punto (circa) di AUTONOMIA DECISIONALE
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000 => per ogni +1 dev. st. di DEVIANZA
DEVIANZA 100 0.000300000 0.9944923 -2.3600000 2.3400000 il modello fornisce
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
=> -½ (circa) dev. st. di AUTONOMIA DECISIONALE
=> etc. etc.
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 73.57670 73.57670 42.32 <.0001
Error 98 170.37334 1.73850
La teoria ˆ1 0.86 X Corrected Total 99 243.95004
Autonomia
decisionale Parameter Estimates
Analysis of Variance
Il modello... yi ˆ0 ˆ1 xi ei Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 122.31419 122.31419 98.55 <.0001
Error 98 121.63585 1.24118
Corrected Total 99 243.95004
La teoria
Root MSE 1.11408 R-Square 0.5014
Dependent Mean 0.19420 Adj R-Sq 0.4963
y
Coeff Var 573.67844
ˆ1 0.71
X Variable DF Estimate Error t Value Pr > |t| Estimate
Età
Intercept 1 -13.42630 1.37657 -9.75 <.0001 0
ETA 1 1.05015 0.10579 9.93 <.0001 0.70809
Interpretazione dei parametri SEQUENZA
(X Cardinali)
SEQUENZA "B"
"B"
tre variabili metriche...
ESEMPIO (Multivariato) B3
(AUTO_DEC) analisi di REGRESSIONE (multipla)
n1 ident AUTO_DEC DEVIANZA ETA (Modello Lineare Classico)
MISURAZIONE
n2 S93 3.64 -0.57 14
n3 S14 -2.53 1.54 10
n4 S66 0.09 1.17 13
(ETA anni)
n5 S27 -1.00 1.35 11
MISURAZIONE S82 0.16 0.08 13
n6 => La DEVIANZA comportamentale
n7 S18 -2.25 0.98 13
S60 5.70 -0.48 15 NON ha alcuna influenza sul grado
n8
n9 S9 -0.89 -2.31 14 di AUTONOMIA DECISIONALE;
MISURAZIONE n10 S69 3.16 -2.22 16 => la variabilità osservata è spiegata
(DEVIANZA) :::::: :::: ::::: ::::: ::: dalla variabilità dell'ETÁ
n100 S39 -2.26 2.34 11
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 122.32863 61.16431 48.78 <.0001
Error 97 121.62141 1.25383
La teoria Corrected Total 99 243.95004
y ˆ1 0.01
Autonomia
decisionale
ˆ2 1.06
X2
ˆ2 0.72 Età
I coefficienti stimati
dei modelli BIVARIATI
(almeno uno...),
NON coincidono con quelli
del modello MULTIVARIATO
Riassumendo
(sequenze di esempi "A" e "B")...
Interpretazione dei parametri (RIASSUMENDO):
(X Cardinali)
(RIASSUMENDO): SEQUENZA
SEQUENZA "A"
"A" ee "B"
"B" Con riferimento ai soli parametri standardizzati...
ESEMPIO (Bivariato) A1
X
Comportamento
y ˆ1 0.68
Compromissorio ESEMPIO (Multivariato) A3
X1
=
Comportamento
Autonomia Compromissorio
ˆ1 0.68
decisionale
y
Autonomia
decisionale
X2
y ˆ2 0.29 Comportamento
ESEMPIO (Bivariato) A2 Aggressivo
Autonomia
decisionale
ˆ1 0.29
X
Comportamento
Aggressivo
ESEMPIO (Bivariato) B1
X
Devianza
y ˆ1 0.55
Autonomia
ESEMPIO (Multivariato) B3
X1
decisionale Devianza
y ˆ1 0.01
Autonomia
decisionale
X2
y ESEMPIO (Bivariato) B2
ˆ2 0.72 Età
Autonomia
decisionale
ˆ1 0.71
X
Età
In generale, considerate k variabili indipendenti, ciascun coefficiente di regressione multipla indica la variazione
sulla variabile dipendente (riprodotta), dovuta ad una variazione unitaria della corrispondente variabile esplicativa,
al netto dell’influenza esercitata sulla dipendente dalle altre k-1 variabili esplicative
Questa proprietà può essere compresa in maniera più diretta, facendo riferimento ai coefficienti ottenuti quando
TUTTE le variabili del modello sono STANDARDIZZATE (pesi ) (per una illustrazione precisa si veda qui in "dettagli")
Da questa prospettiva, ciascun coefficiente esprime una misura del contributo netto che ciascuna variabile
esplicativa fornisce alla spiegazione (riproduzione) della variabilità osservata in y
Se le variabili esplicative sono fra loro ortogonali rx 1x 2 0 , Pertanto : ˆ1 ryx1
ˆk
fra i ei vale la seguente relazione (dove s = dev. st.): ˆk s xk
sy
Interpretazione dei parametri (SEQUENZA
(SEQUENZA "A"
"A" ee "B")
"B")
(X Cardinali) II coefficienti
coefficienti dei modelli BIVARIATI NON coincidono con
dei modelli BIVARIATI NON coincidono con quelli
quelli del
del modello
modello MULTIVARIATO
MULTIVARIATO
A1 y ˆ1 0.68
y ˆ1 0.55
Autonomia B1 Autonomia
decisionale
decisionale
y
A2
Autonomia y
decisionale B2 Autonomia
decisionale
X
ˆ1 0.29 Comportamento
ˆ1 0.71
X
Aggressivo Età
X1 X1
Comportamento
Compromissorio Devianza
ˆ1 0.68
y y ˆ1 0.01
A3 Autonomia B3 Autonomia
decisionale
decisionale
X2 X2
ˆ2 0.29 Comportamento
ˆ2 0.72
Aggressivo Età
A1, A2 A3 B1, B2 B3
Pearson Correlation Coefficients, N = 100 Pearson Correlation Coefficients, N = 100
Prob > |r| under H0: Rho=0 Prob > |r| under H0: Rho=0
AUTO_DEC COMPROM AGGRESS AUTO_DEC DEVIANZA ETA
AUTO_DEC 1.00000 0.68128 -0.28961 AUTO_DEC 1.00000 -0.54919 0.70809
<.0001 0.0035 <.0001 <.0001
COMPROM 0.68128 1.00000 0.00082 DEVIANZA -0.54919 1.00000 -0.78236
<.0001 0.9936 <.0001 <.0001
AGGRESS -0.28961 0.00082 1.00000 ETA 0.70809 -0.78236 1.00000
0.0035 0.9936 <.0001 <.0001
Interpretazione dei parametri (SEQUENZA
(SEQUENZA "A""A" ee "B")
"B")
(X Cardinali) Il modello lineare classico è un dispositivo utile
II coefficienti
coefficienti dei
dei modelli
modelli BIVARIATI
BIVARIATI NON
NON
per "spiegare" (stabilire l'esistenza di nessi causali o di dipendenza)
coincidono
coincidono concon quelli
quelli del
del modello
modello
MULTIVARIATO
MULTIVARIATO
Stabilire l'esistenza di una relazione fra due fenomeni (variabili) significa essenzialmente riconsiderare tale
relazione alla luce di una terza variabile che assume il ruolo di "variabile di controllo"
{
si osserva y (le variazioni in)
Approccio sperimentale: mentre si manipola x
tenenendo costanti z (tutte le altre)
{
si osserva y (le variazioni in)
Approccio osservativo: si osserva x (le variazioni in)
depurando da z (tutte le altre)
Le stime ottenute nell'ambito del modello linare classico sono un esempio di controllo mediante depurazione
(un esempio di operativizzazione del "canone dei residui" di J.S. Mill; 1843)
<<Si sottragga dal fenomeno quella parte che si sa, per previe induzioni,
essere l'effetto di certi antecedenti e il residuo del fenomeno è l'effetto
dei rimanenti antecedenti>>
X Y
Autonomia
Devianza
r = -0.55 decisionale
Interpretazione dei parametri Un precedente ESEMPIO ...
Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
(X Categoriali)
<<Se gli individui sono stati sottoposti a DUE diversi metodi di insegnamento
allora la loro velocità di lettura è differente>>
-------------------------------------------------
Metdo: "B" metodo - (B, C); 3 individui ogni gruppo
Proseguendo con ESEMPIO ANALOGO... Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a TRE diversi metodi di insegnamento
allora la loro velocità di lettura è differente>>
-------------------------------------------------
METODO= A (1, 2, 3); 4 individui ogni gruppo (N = 12)
?
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Id y A a1 a2 a3
Model 2 11.62565 5.81282 137.18 <.0001
1 6.31 1 1 0 0 Error 9 0.38138 0.04238
Corrected Total 11 12.00703
2 6.56 1 1 0 0 yi ˆ0 ˆ1a1i ˆ2a2i ˆ3a3i ei Root MSE 0.20585 R-Square 0.9682
3 6.18 1 1 0 0 Dependent Mean 4.99250 Adj R-Sq 0.9612
Coeff Var 4.12322
4 6.03 1 1 0 0
NOTE: Model is not full rank. Least-squares solutions for the parameters are
5 4.91 2 0 1 0 not unique. Some statistics will be misleading. A reported DF of 0 or B
means that the estimate is biased.
6 5.06 2 0 1 0 NOTE: The following parameters have been set to 0, since the variables are a
linear combination of other variables as shown.
7 4.80 2 0 1 0 a3 = Intercept - a1 - a2
8 4.56 2 0 1 0 Parameter Estimates
Parameter Standard
9 4.00 3 0 0 1 Variable DF Estimate Error t Value Pr > |t|
10 4.03 3 0 0 1 Intercept B 3.87500 0.10293 37.65 <.0001
a1 B 2.39500 0.14556 16.45 <.0001
11 3.83 3 0 0 1 a2 B 0.95750 0.14556 6.58 0.0001
a3 0 0 . . .
12 3.64 3 0 0 1
Interpretazione dei parametri (X Categoriali)
( per :1 i N ;1 h 3)
Vettore di osservazioni y e
matrice X in forma ridotta
Matrice di disegno Modello lineare classico yih = 0 hA + ih
y A u0 a1 a2 a3 y u0 a1 a2 a3
y1 6.31 1 1 1 0 0 6.31 1 1 0 0 111 D X
y 6.56 6.56 1
2
1
1 1 0 0
1 0 0
211
y 3 6.18 1 1 1 0 0 6.18 1 1 0 0 312
y
4
6.03
1
1 1 0 0
6.03 1 1 0 0
412
y = X +
y 5 4.91 2 1 0 1 0 4.91 1 0 1 0 0 521
0 1A 621
stima
y6 5.06 2 1 0 1 0 5.06 1 0 1
D
OLS
y 7 4.80 2
1 0 1 0 4.80 1 0 1 0 2A 7 22
y 8 4.56
y 4.00
2
3 1 0 1 0 4.56 1 0 1 0 3A 822 ˆ ( X X ) 1 X y
1 0 0 1 4.00 1 1
9 0 0
931
y10 4.03 3
y 3.83 3 1 0 0 1 4.03 1 0 0 1 1031 (X'X) NON invertibile!!!
11 1 0 0 1 3.83 1 0 0 1
1132
y12 3.64 3 1232
1 0 0 1 3.64 1 0 0 1
È UTILE UNA
SEMPLIFICAZIONE....
y 1 0 1 0 1 0
1A a1 0 2A a2 0 3A a3
2 A INDISTINGUIBILITÀ INTRINSECA DEI PARAMETRI
y3 1 0 0 1 2A
3 Le quantità distinguibili (e quindi stimabili in modo separato) sono tre e non quattro !!!
PROCEDIMENTO e NOTAZIONE
X D PARAMETRIZZAZIONE
P X
(NON INVERTIBILE) (DISEGNO) (PARAMETRIZZATA) (INVERTIBILE)
Si definisce (OPPORTUNAMENTE) una matrice W (per stabilire il significato DESIDERATO dei parametri)
P DW WW
1
Si ottiene la matrice P (parametrizzata)...
Esempi...
Interpretazione dei parametri (X Categoriali) Una variabile esplicativa Modello Lineare Classico Parametrizzazione
(Ah) y
0
y1 1 1 0 0 A 0 1 6.27
y 1 0 1 0 1 vedi file:
yh 0 1A 2A 3A 2 A 3 parametri distinguibili 1 ES_ANOVA5.SAS 2 4.83
3 Tot. 4.99
y+ y1 y+ y2 y+ y3 y+
0 1 0 0 y y1 y+ y1 1 0 0
I 0 1 0
1 0
+
y2 y+ y2 P D D D D
1
In questo caso: D = W; pertanto:
W 1 1 0 1 0 1 y
2 1 0 0
+
1 2 y
+
y3 y+ y3 0 0 1
y P ˆ P 1 y
y1 1 0 0 0
A ˆ0A 1 0 0 y1 ˆ0A y1 6 .2700
y 0 1 0 A ˆA ˆA
2 1 1 0 1 0 y2 1 y2 4 .8325
y3 0 0 1 2A ˆ2A 0 0 1 y3 ˆ2A y3 3 .8750
Dependent Variable: y
Sum of
data MAT;input y a b;cards; Source DF Squares Mean Square F Value Pr > F
6.31 1 1 Model 2 11.62565000 5.81282500 137.18 <.0001
6.56 1 1 Error 9 0.38137500 0.04237500
6.18 1 2 Corrected Total 11 12.00702500
6.03 1 2
4.91 2 1 R-Square Coeff Var Root MSE y Mean
0.968237 4.123223 0.205852 4.992500
5.06 2 1
4.80 2 2 Source DF Type I SS Mean Square F Value Pr > F
4.56 2 2 proc glm data=MAT order=data;class a ;model y = a ; a 2 11.62565000 5.81282500 137.18 <.0001
4.00 3 1 estimate 'TETA0' intercept 1 a 1 0 0 ;
4.03 3 1 estimate 'TETA1' intercept 1 a 0 1 0 ; Standard
3.83 3 2 estimate 'TETA2' intercept 1 a 0 0 1 ; Parameter Estimate Error t Value Pr > |t|
3.64 3 2 TETA0 6.27000000 0.10292594 60.92 <.0001
quit;
; TETA1 4.83250000 0.10292594 46.95 <.0001
TETA2 3.87500000 0.10292594 37.65 <.0001
Interpretazione dei parametri (X Categoriali) Modello Lineare Classico Parametrizzazione
Una variabile esplicativa
(Ah) y
0
y1 1 1 0 0 A 0 1 6.27
y 1 0 1 0 1 vedi file:
yh 0 1A 2A 3A 2 A 3 parametri distinguibili 1 ES_ANOVA5.SAS 2 4.83
3 Tot. 4.99
ESEMPIO ("d'angolo"): i parametri esprimono SCARTI da una media locale (per esempio da y3)
y+ y1 y+ y2 y+ y3 y+ DW WW 1 P
1 0 0 1 0
y y y y 1 1 0 4
3 1 1 1 1 0
4
+ +
3 3 4
W 0 1 0 1 1 y y y y y y
P DW WW 1 0
1
1 1
3 1 1 0 1
0 0 1 1 2
1 +
2 +
3
3
+
+
1
2
3
y y y y y y
3
4
2 1 1 1 1
4
4
4
4
3 1 0 0
4
y P ˆ P 1 y
y1 1 1 0 0 ˆ0A 0 0 1 6.2700 ˆ0A y3
A
3.8750
y 1 0 1 A ˆA ˆA
2 1 1 1 0 1 4.8325 1 y1 y3 2.3950
y3 1 0 0 2A ˆ2A 0 1 1 3.8750 ˆ2A y2 y3 0.9575
(Ah) y
0
y1 1 1 0 0 A 0 1 6.27
y 1 0 1 0 1 vedi file:
yh 0 1A 2A 3A 2 A 3 parametri distinguibili 1 ES_ANOVA5.SAS 2 4.83
3 Tot. 4.99
ESEMPIO ("centrale"): i parametri esprimono SCARTI fra k-1 medie locali e la media totale Per es. : y1 y+ e y2 y+
y+ y1 y+ y2 y+ y3 y+ P y P
1 1 1
1 0 y
+ 3
1
y1 y2 y3 3 y+ y+ 1 1 0 y1 1 1 0 2A
P DW WW 1
y 1 1 1A
y1 y2 y3 y1 y+
3 3 3 1
1 1 0 2
0
W 0 2 1 1 1 y
3 3 3 1 3
1 1 1 y3 1 1 1 2A
0 1 3 2 3 1 3
2
y
2 3
1
y1 y2 y3 y2 y+
ˆ P 1 y
data MAT;input y a b;cards; A ˆ 13 1 1 6.2700
ˆ0A y 4.9925
2
6.31 1 1 3 3
ˆ
0
3 3 3 4.8325 1 y1 y 1.2775
6.56 1 1 proc glm data=MAT order=data;class a ;model y = a ; A 1 1 ˆ A
6.18 1 2 estimate 'TETA0' intercept 1 a 0.33333 0.33333 0.33333; 1
6.03 1 2 estimate 'TETA1' intercept 0 a 6.666667e-1 -0.33333 -0.33333; A ˆ 1 2
1 3.8750 2 y2 y 0.1600
ˆA
3
estimate 'TETA2' intercept 0 a -0.33333 6.666667e-1 -0.33333 ;
4.91 2 1 quit;
2 3 3
5.06 2 1
4.80 2 2
4.56 2 2 Response Functions and Design Matrix
4.00 3 1 Package SAS: "default" della Proc CATMOD
Response Design Matrix
4.03 3 1 Sample Function 1 2 3
proc catmod data=MAT order=data;response mean;model y = a;
3.83 3 2 quit; ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
3.64 3 2 1 6.27000 1 1 0
; Dependent Variable: y 2 4.83250 1 0 1
Sum of 3 3.87500 1 -1 -1
Source DF Squares Mean Square F Value Pr > F
Model 2 11.62565000 5.81282500 137.18 <.0001
Analysis of Variance
Error 9 0.38137500 0.04237500
Corrected Total 11 12.00702500 Source DF Chi-Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
R-Square Coeff Var Root MSE y Mean Intercept 1 9411.23 <.0001
0.968237 4.123223 0.205852 4.992500 a 2 369.66 <.0001
Residual 0 . .
Source DF Type I SS Mean Square F Value Pr > F
a 2 11.62565000 5.81282500 137.18 <.0001
Analysis of Weighted Least Squares Estimates
Standard Standard Chi-
Parameter Estimate Error t Value Pr > |t| Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
TETA0 4.99248883 0.05942432 84.01 <.0001 Intercept 4.9925 0.0515 9411.23 <.0001
TETA1 1.27750327 0.08403869 15.20 <.0001 a 1 1.2775 0.0762 281.25 <.0001
TETA2 -0.15999198 0.08403869 -1.90 0.0893 2 -0.1600 0.0736 4.72 0.0298
Interpretazione dei parametri (X Categoriali) Da UNA ... A DUE esplicative (disegno fattoriale) Modello Lineare Classico Parametrizzazione
Ident y Metodo
Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
(parole lette /
intervallo di <<Se gli individui sono stati sottoposti a diversi metodi di insegnamento (a; b; c;
tempo) ....; z), allora la loro velocità di lettura è differente>>
1a 50 a -------------------------------------------------
2a 40 a a y a 50 per semplicità: 3 metodi (a, b,c); 3 individui ogni campione
3a 60 a
Disegno ad Assegnazione Casuale completa
1b 70 b
y 50 (Completely Randomized CR-3) ANOVA ad UNA VIA
2b 80 b
b y b 80
VARS
3b 90 b
1c
2c
20
15
c
c
y c 20 H0 : a b c F
3c 25 c c VARR
RIGA
nhj
::: ::: ::: :::
S120 48 2 2 y1,11 = 62 y1,12 = 20 2 56.63 48.20 52.42 yhj
1
y hj , i media di cella
nhj
1
i 1
S121 57 3 1 y2,11 = 51 y2,12 = 23
S122 61 3 1 3 58.40 49.07 53.73 1 N
RIGA
nhj
S90 62 2 1
2 56.63 48.20 52.42 yhj
1
y media di cella
S91
S92
59
43
2
2
2
2
2 y2,21 = 70 y2,22 = 43 nhj i 1
hj , i
R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.413648 18.63936 9.334175 50.07778 0.702086 13.37992 6.689959 50.00000
Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 2 4099.244444 2049.622222 23.52 <.0001 A 2 17141.20000 8570.60000 191.50 <.0001
B 1 6576.355556 6576.355556 75.48 <.0001 B 1 259.20000 259.20000 5.79 0.0172
A*B 2 19.244444 9.622222 0.11 0.8955 A*B 2 952.13333 476.06667 10.64 <.0001
B (1) B (1)
y6563hj B (2) y6765hj B (2)
61 63
59 61
57 Insegnante "1" 59
55 57
Insegnante "2"
53 55
51 53
51
49
49
47
47 Insegnante "1"
45
45
43 43
41 41
39 Insegnante "2" 39
37 37
35 35
Metodo (A) A (1) A (2) A (3) Metodo (A) A (1) A (2) A (3)
Interpretazione dei parametri (X Categoriali) Due variabili esplicative (disegno fattoriale) Modello Lineare Classico Parametrizzazione
Modello saturo
parametrizzazione
Effetti diretti SCARTI
U M M M M M U
~
GENERALE Riferimento
Disegno FATTORIALE (Completely Randomized Factorial CRF-32) Modello SATURO y (Bj) 1 2 Tot.
(Ah)
5.15
3.74
4.84
3.88
4.99
y y u0 a1 a2 a3 b1 b2 ab11ab12ab21ab22ab31ab32
y11 6.435 1 1 0 0 1 0 1 0 0 0 0 0
a bj
h j ah; a b
h
h j bj; a b
hj
h j u0 ; b
j
j u0 ; a h
h u0
y 6.105 1 1 0 0 0 1 0 1 0 0 0 0
12
y21 4.985 1 0 1 0 1 0 0 0 1 0 0 0
y
22 4 . 680 1 0 1 0 0 1 0 0 0 1 0 0 0 è marginale rispetto a : hA , jB ,hjAB
y31 4.015 1 0 0 1 1 0 0 0 0 0 1 0 Dipendenze "intrinseche" A
h è marginale rispetto a : hj
AB
(NON dipendenti dai dati)
y32 3.735 1 0 0 1 0 1 0 0 0 0 0 1 e gerarchiche:
B è marginale rispetto a : AB
j hj
In generale, considerando due variabili categoriali rispettivamente con HeJ livelli e il relativo modello saturo:
Disegno FATTORIALE (Completely Randomized Factorial CRF-32) Modello SATURO y (Bj) 1 2 Tot.
(Ah)
5.15
3.74
4.84
3.88
4.99
ESEMPIO ("d'angolo"): i parametri esprimono SCARTI fra medie locali e una media locale (per esempio: y11 - y32)
vincoli imposti (esempio) 3A 2B 31AB 32AB 12AB 22AB 0 vincoli imposti (in generale) hA jB hjAB 0 per h max o j max
W
P DW WW
1
A A A B B AB AB AB AB AB AB
θ0 θ1 θ2 θ3 θ1 θ2 θ11 θ12 θ 21 θ 22 θ 31 θ 32
1 1 0 1 1 0 The GLM Procedure
1 1 1 0 0 0 0
1 0 0 1 0 1 0 0 0 0 0 Dependent Variable: y
0 1 0 1 0 0 0 1 0 0 0 -1 Sum of
Source DF Squares Mean Square F Value Pr > F
0 0 1 1 0 0 0 0 0 1 0 -1 1 0 1 1 0 1
Model 5 11.90597500 2.38119500 141.39 <.0001
Error 6 0.10105000 0.01684167
0 0 0 0 1 -1 0 0 0 0 1 -1 1 0 1 0 0 0
Corrected Total 11 12.00702500
0 0 0 0 0 0 1 -1 0 0 -1 1 1 0 0 1 0 0
-1 -1
R-Square Coeff Var Root MSE y Mean
0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0
0.991584 2.599408 0.129775 4.992500
ˆ P 1 y Source DF Type I SS Mean Square F Value Pr > F
ˆ0 a 2 11.62565000 5.81282500 345.15 <.0001
0 0 0 0 0 1 6.435 ˆ0 y32 3.735
ˆA b 1 0.27907500 0.27907500 16.57 0.0066
1 0 1 0 0 0 1 6.105 ˆ1A y12 y32 2.370 a*b 2 0.00125000 0.00062500 0.04 0.9638
ˆ A 0 0 0 1 0 1 4.985 ˆ2A y22 y32 0.945 Standard
ˆ2B
1 0 0 0 0 1 1 4.680 ˆ1B y31 y32 0.280 Parameter Estimate Error t Value Pr > |t|
ˆ AB 1 1 0 0 1 1 4.015 ˆ11AB y11 y32 y12+y31 0.050 Intercept 3.735000000 B 0.09176510 40.70 <.0001
11AB
ˆ21 0 0 1 1 1 1 3.735 ˆ21AB y21 y32 y22 y31 0.025 a 1 2.370000000 B 0.12977545 18.26 <.0001
a 2 0.945000000 B 0.12977545 7.28 0.0003
a 3 0.000000000 B . . .
data MAT;input y a b;cards;
b 1 0.280000000 B 0.12977545 2.16 0.0743
6.31 1 1 b 2 0.000000000 B . . .
6.56 1 1 a*b 1 1 0.050000000 B 0.18353020 0.27 0.7944
6.18 1 2 a*b 1 2 0.000000000 B . . .
6.03 1 2 a*b 2 1 0.025000000 B 0.18353020 0.14 0.8961
4.91 2 1 a*b 2 2 0.000000000 B . . .
5.06 2 1 a*b 3 1 0.000000000 B . . .
4.80 2 2 Package SAS: "default" della Proc GLM a*b 3 2 0.000000000 B . . .
4.56 2 2 NOTE: The X'X matrix has been found to be singular, and a generalized inverse
4.00 3 1 was used to solve the normal equations. Terms whose estimates are
4.03 3 1 proc glm data=MAT order=data;class a b; followed by the letter 'B' are not uniquely estimable.
3.83 3 2 model y = a b a*b / solution;
3.64 3 2
e naturalmen te
quit;
; 3 2 0 ; 31 32 12 ˆ22AB 0
ˆ A ˆ B ˆ AB ˆ AB ˆ AB
Interpretazione dei parametri (X Categoriali) Due variabili esplicative (disegno fattoriale) Modello Lineare Classico Parametrizzazione
Disegno FATTORIALE (Completely Randomized Factorial CRF-32) Modello SATURO y (Bj) 1 2 Tot.
(Ah)
5.15
3.74
4.84
3.88
4.99
ESEMPIO ("centrale"): i parametri esprimono SCARTI fra medie locali marginali e la media totale Per es.: y1 y
1A 2A 3A 0; 1B 2B 0; vincoli imposti (in generale)
0; 0; 0; 0; hjAB 0 , per ogni j ; hjAB 0 , per ogni h
AB AB AB AB AB AB A B
vincoli imposti (esempio) 11 21 31 12 22 32 h j
W
P DW WW
1
A A A B B AB AB AB AB AB AB
ˆ P 1 y
0 1 2 3 1 2 11 12 21 22 31 32
1 1 0 1 0
1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 ˆ0 6 6 6 6 6 6 6.435
0
3 3 3 2 2 6 6 6 6 6 6 ˆA 1
1 1 0 1 1 1 1 1 1 1 6.105
0 2
3
1 1
3 3
0 01
3
1
3
-1
6
-1
6
-1
6
-1
6 1 3 3 6 6 6 6
ˆ2A 1 1 1 1 4.985
0 1 2 1 0 0 - 1 - 1 1 1 -1 -1 1 0 1 1 1
0 1 1
3 3 3 6 6 3 3 6 6 ˆB 6 6 3 3 6 6
1 1 0 1 1 1 6 1 6 1 1 1 1 4.680
0 0 0 0 1 -1 1 -1 1 -1 1 -1 1 0 6 6 6 6
2 2 6 6 6 6 6 6 ˆ AB 1 1 4.015
0 0 0 0 0 0 1 -1 -1 1 -1 1
6
1 1 1 1 1 1 11AB 3 3 6
1 1 1
6
1
6 6
3 3 6 6 6
1 ˆ21 1 1 1 1 1 1 3.735
0 0 0 0 0 0 -1
6
1
6
1
3
-1
3
-1
6 6 1 1 1 1 1 1 6 6 3 3 6 6
0 6 y11 y12 y21 y22 y31 y32 y++
1
4.9925
e naturalmente...
1A y11 y12 y11 y12+y21 y22 y31 y32 y1+ y++
1 1
1.2775 ˆ A ˆ A ˆ A 1.1175;
3 1 2
2 6
A 1 y y 1 y y +y y y y y y ˆ ˆ 0.1525;
B B
0.1600 2 1
2 2 21 22
6
11 12 21 22 31 32 2+ ++
ˆ12AB ˆ11AB 0.0125;
1B y11 y21 y31 y11 y12+y21 y22 y31 y32 y+ 1 y++
1 1
0.1525 ˆ22AB ˆ21AB 0.0000;
3 6
AB
11 y11 2 y11 y12 3 y11 y21 y31 6 y11 y12+y21 y22 y31 y32 y11 y1+ y+ 1 y++ 0.0125
1 1 1 ˆ31AB ˆ11AB ˆ21AB 0.0125;
AB ˆ32AB ˆ12AB ˆ22AB ˆ31AB 0.0125;
21 y21 y21 y22 y11 y21 y31 y11 y12+y21 y22 y31 y32 y21 y2+ y+ 1 y++ 0.0000
1 1 1
2 3 6
Package SAS: "default" della Proc CATMOD ... Stime con software matematico-statistico...
Interpretazione dei parametri (X Categoriali) Due variabili esplicative (disegno fattoriale) Modello Lineare Classico Parametrizzazione
Disegno FATTORIALE (Completely Randomized Factorial CRF-32) Modello SATURO y (Bj) 1 2 Tot.
(Ah)
5.15
3.74
4.84
3.88
4.99
ESEMPIO ("centrale"): i parametri esprimono SCARTI fra medie locali marginali e la media totale Per es.: y1 y
data MAT;input y a b;cards;
6.31 1 1 proc glm data=MAT order=data;class a b;model y = a b a*b ;
6.56 1 1 estimate'int.' intercept 1 a .33333 .33333 .33333 b .5 .5 a*b 1.666667e-1 1.666667e-1 1.666667e-1 1.666667e-1 1.666667e-1 1.666667e-1;
6.18 1 2 estimate 'a1' intercept 0 a 6.666667e-1 -.33333 -.33333 b 0 0 a*b .33333 .33333 -1.666667e-1 -1.666667e-1 -1.666667e-1 -1.666667e-1;
6.03 1 2 estimate 'a2' intercept 0 a -.33333 6.666667e-1 -.33333 b 0 0 a*b -1.666667e-1 -1.666667e-1 .33333 .33333 -1.666667e-1 -1.666667e-1;
4.91 2 1 estimate 'b1' intercept 0 a 0 0 0 b 0.5 -0.5 a*b 1.666667e-1 -1.666667e-1 1.666667e-1 -1.666667e-1 1.666667e-1 -1.666667e-1;
5.06 2 1 estimate 'a1*b1' intercept 0 a 0 0 0 b 0 0 a*b .33333 -.33333 -1.666667e-1 1.666667e-1 -1.666667e-1 1.666667e-1;
4.80 2 2 estimate 'a2*b1' intercept 0 a 0 0 0 b 0 0 a*b -1.666667e-1 1.666667e-1 .33333 -.33333 -1.666667e-1 1.666667e-1;
quit;
4.56 2 2
4.00 3 1
4.03 3 1 Response Functions and Design Matrix
Response Design Matrix
The GLM Procedure
3.83
Sample 3 2 Function 1 2 3 4 5 6 Dependent Variable: y
3.64 3 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Sum of
; 1 6.43500 1 1 0 1 1 0 Source DF Squares Mean Square F Value Pr > F
2 6.10500 1 1 0 -1 -1 0 Model 5 11.90597500 2.38119500 141.39 <.0001
3 4.98500 1 0 1 1 0 1 Error 6 0.10105000 0.01684167
4 4.68000 1 0 1 -1 0 -1 Corrected Total 11 12.00702500
5 4.01500 1 -1 -1 1 -1 -1
6 3.73500 1 -1 -1 -1 1 1
R-Square Coeff Var Root MSE y Mean
Analysis of Variance 0.991584 2.599408 0.129775 4.992500
Per: 1 i N
parsimonia
M0 yi 0 i
K
M1 yi 0 k xik i per: k N
M0 M1 Mmax
k1
K
Mmax yi 0 k xik i per:k N
k1
valori della funzione
di verosimiglianza L0 L1 Lmax
Lmax o in modo equivalente: log log Lmax log L1 e ponendo: lmax log Lmax e l1 log L1
L1 l max l1
log lmax l1
l 0 l1 log l0 l1
parsimonia
Esprime: "PERDITA"
M0 M1 Mmax ... la "STRADA NON PERCORSA" specularmente, però ...
Diagnostica. Valutazione dell'adeguatezza del modello e controllo delle ipotesi
... specularmente si può calcolare una misura inversa della perdita: il GUADAGNO. Cambiando segno a log si ottiene una misura
perfettamente complementare a log che esprime appunto IL GUADAGNO ... LA STRADA PERCORSA
log l1 l0 log
l 0 l1 l max l1
parsimonia
M0 M1 Mmax
Aldrich e Nelson (1984) indicano con la lettera "c" la misura complementare a "D": c 2 log 2l0 l1
c 2 log
c k21 H0: sostanziale uguaglianza fra modello dell'intercetta e quello sotto
valutazione; cioè: la strada percorsa è poca o trascurabile;
(dove:
rischio di errore di I specie (respingere H0 quando vera)
k = parametri modello)
D 2 log 2lmax l1
Diagnostica. Valutazione dell'adeguatezza del modello e controllo delle ipotesi
Le misure c e D sono complemetari (una misura può essere ottenuta a partire dall'altra)
infatti:
c 2 log 2l0 l1
2lmax l0
D c 2lmax l1 2l0 l1 2lmax l0
è la D (Devianza) calcolata per
così che: e naturalmente: Ma...
il modello dell’intercetta, e può
Si può calcolare il peso relativo della strada fatta dal modello, sul totale della strada da fare
c1
c1 D0 D1 ... e si può dimostrare che tale rapporto c1 dev S
- nell'ambito del MODELLO LINEARE CLASSICO - R2
D0 D0 D0 coincide con il coefficiente di determinazione: R2 D0 devT
Si può calcolare il peso relativo della strada fatta dal modello,sulla strada che resta da percorre,
in rapporto alle "energie consumate" dal modello (numero di parametri):
1 D0 D1 D0 D1
k k ... e si può dimostrare che tale rapporto
D0 D1 devS
va rS
1 D D1 coincide con il test F
Foverall k k
1 (riferito al modello nel suo insieme: overall) D1 devR va rR
N k 1 N k 1
N k 1 N k 1
SI
ESEMPIO (Bivariato) A1
SI RIPRENDE
RIPRENDE QUI
QUI UN
UN ESEMPIO
ESEMPIO USATO
USATO IN
IN PRECEDENZA...
PRECEDENZA...
due variabili metriche... (1) Continua..
(AUTO_DEC) ident AUTO_DEC COMPROM analisi di REGRESSIONE (semplice)
n1 S82 0.16 0.12 (Modello Lineare Classico)
MISURAZIONE
n2 S87 2.55 0.21
n3 S84 -0.36 -1.86
n4 S27 -1.00 -2.10
n5 S60 5.70 1.51
n6 S71 1.18 0.84
n7 S47 2.19 1.88
n8 S75 1.15 -0.89
n9 S59 1.13 1.35
MISURAZIONE n10 S37 -0.12 0.77 => ~ 46% di variabilità spiegata
(COMPROM) :::::: :::: :::::: :::::: => al crescere di COMPROM
n100 S79 -1.21 -1.16 cresce l'AUTONOMIA DECISIONALE
The MEANS Procedure
=> per ogni variazione di +1 punto di COMPROM...
Variable N Mean Std Dev Minimum Maximum il modello fornisce
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
+0.80 punto (circa) di AUTONOMIA DECISIONALE
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000 +0.68 per variabili standardizzate
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
La teoria...
ˆ1 0.80 X Parameter Estimates
ESTD k X X kk s 2
1 k
t k ESTDPi hi s 2 ESTDI i 1 hi s 2 ESTDR i 1 hi s 2
ESTD( k )
ICM i yˆ i t 2 ESTDPi
ei
Intervalli di confidenza Residui "Studentizzati" STUD_RESi
ICIi yˆ i t 2 ESTDI i ESTDR i
(2) Continua..
Calcolo Interv. Conf.:
... \SASUTI\REG_OUT.SAS Rappresentazioni grafiche...
ESEMPIO (Bivariato) A1 auto _ deci ˆ0 ˆ1 compromi ei R 2 0.4641 ˆ0 0.0 ˆ1 0.68128
ICM i yˆ i t 2 ESTDPi
_________
ESTDP 0.10
ICIi yˆ i t 2 ESTDI i
________
ESTDI 0.75
(3) Continua..
ESEMPIO (Bivariato) A1 auto _ deci ˆ0 ˆ1 compromi ei R 2 0.4641 ˆ0 0.0 ˆ1 0.68128
0.05; GdLR 98; t 1.6606 Identificazione osservazione eccentriche (outliers)... tramite Residui "Studentizzati"
ei 4
STUD_RESi S60
ESTDR i 3,5
2,5
S50
2 S93
S87
t = +1.66 S78
1,5
Residui Stud.
1
0,5
-0,5
-1
-1,5
t = -1.66
S35
-2
S77
-2,5
S99 S9
-3 Ni (Osservazioni)
(1) Continua..
DIAGNO_GRAF1_B.SAS
ESEMPI (Regressione) ...Assunti e diagnostica tramite l'analisi dei residui...
(2) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF2.SAS
ESEMPI (Regressione)
yi ˆ0 ˆ1 x1i ei
(3) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF2.SAS
ESEMPI (Regressione)
yi ˆ0 ˆ1 x1i ei
The REG Procedure
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
(4) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF2.SAS
ESEMPI (Regressione)
yi ˆ0 ˆ1 x1i ei
The REG Procedure
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
(5) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF3_A.SAS
ESEMPI (Regressione)
yi ˆ0 ˆ1 x1i ei
The REG Procedure
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
(6) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF3_B, C, D.SAS
ESEMPI (Regressione)
yi ˆ0 ˆ1 x1i ei Oppure... yi ˆ0 ˆ1 x1i ˆ2 x 2i ... ˆk xki ei
... Ulteriori esempi...
Aspetto dei residui: "VIOLAZIONE OMOSCHEDASTICITÁ"
R2 = 0.4033 R2 = 0.7437
(7) Continua
R2 = 0.0007
yi ˆ0 ˆ1 x1i ˆ2 x 2i ... ˆk xki ei
ESE_ETERO1.SAS
ESEMPI (Regressione) ...Esercizio...
La matrice dati: "PROFSCO" (N = 600) contiene le seguenti informazioni relative ad una ipotetica rilevazione condotta sugli studenti di un istituto
di istruzione superiore (tutte le variabili sono standardizzate e sono state ottenute utilizzando specifici e validati strumenti di misura):
ident y x1 x2 x3 x4 x5 x6
Si chiede di analizzare i dati della matrice, cercando di definire il miglior modello (in termini di capacità esplicativa) relativo al profitto scolastico (Y);
commentare adeguatamente il risultato ottenuto...
Analisi commentata...
y x1 x2 x3 x4 x5 x6
x5 -0.02445 0.01630 0.01635 -0.03166 -0.01466 1.00000 -0.02556 VEDI, qui, ESERCIZIO 1
0.5500 0.6903 0.6894 0.4389 0.7200 0.5320
Esempio numerico
SQ yi 0 x 1 x1i x 2 x 2 i x 3 x 3 i i
Id y x1 x2 x3
SQ1 1 4 20 10 1
(ATTENZIONE alla NOTAZIONE)
SQS 2 10 35 20 2
SQ2 3 13 18 6 3
4 12 26 15 2 devT 564.90 (GdL 9)
SQT .…..
5 21 37 30 3
6 27 46 32 5 devS 529.93 (GdL 3)
SQk
7 11 19 12 2
8 26 50 60 4
SQR 9 7 21 35 1
devR 34.97(GdL 6)
10 20 42 48 2
R j | 0 , 1 , θ2 , ..., θk
(b) yi 0 x 1 x1i x 2 x 2 i i
(c ) yi 0 x 1 x1i i
Per esempio
R x3 | 0 , x1 , θ x2 esprime:
2) lo scarto (generalmente un incremento) di devianza spiegata fra il modello (a) e il modello (b); devS a devS b
3) lo scarto (generalmente un decremento o riduzione appunto) di devianza residua fra il modello (b) e il modello (a) dev R b devR a
Scomposizione della variabilità (2° Parte)
yi 0 x 1 x1i x 2 x 2 i x 3 x 3 i i
Modificando l'ordine (nel modello) delle 3 variabili esplicative,
si ottengono CONTRIBUTI DIVERSI, della stessa variabile, alla
variabilità spiegata... devS 529.93 (GdL 3)
yi 0 x 1 x1i x 2 x 2 i x 3 x 3 i i y i 0 x 2 x 2i x 3 x 3 i x 1x 1i i
Dependent Variable: y Dependent Variable: y
Sum of Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 3 529.9318856 176.6439619 30.31 0.0005 Model 3 529.9318856 176.6439619 30.31 0.0005
Error 6 34.9681144 5.8280191 Error 6 34.9681144 5.8280191
Corrected Total 9 564.9000000 Corrected Total 9 564.9000000
R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.938099 15.98761 2.414129 15.10000 0.938099 15.98761 2.414129 15.10000
Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
Standard Standard
Parameter Estimate Error t Value Pr > |t| Parameter Estimate Error t Value Pr > |t|
Intercept -2.490599189 2.36233135 -1.05 0.3323 Intercept -2.490599189 2.36233135 -1.05 0.3323
x1 0.129684734 0.16183812 0.80 0.4535 x2 0.124057997 0.08688015 1.43 0.2032
x2 0.124057997 0.08688015 1.43 0.2032 x3 4.077497689 0.97621458 4.18 0.0058
x3 4.077497689 0.97621458 4.18 0.0058 x1 0.129684734 0.16183812 0.80 0.4535
Lo stesso fenomeno (CONTRIBUTI DIVERSI) può essere illustrato definendo DIVERSE SEQUENZE di modelli ANNIDATI...
y x2 x2 x3 x3 y x2 x2 x3 x3 y x 2 x 2 x 1 x1 x 3 x 3
i 0 i i i i 0 i i i i 0 i i i i
R x1 | 0 , x2 , x3 3.74
R x1 | 0 426 .85
R x1 | 0 , x 3 71 .14
R x2
| 0 , x1 1.41 R x2
| 0 , x1 , x3 11 .88 R x2
| 0 , x3 79 .28
R x3
| 0 , x 2 270 .64 R x3
| 0 , x2 270 .64 R x3
| 0 , x2 , x1 101 .68
Quanta variabilità spiega 1 ? .... quando nel modello è presente: 2?, 3 ?, etc.
Scomposizione della variabilità (2° Parte)
Controllo delle ipotesi (oltre che sul modello nel suo insieme) anche per ciascun
parametro (variabile esplicativa) e/o su ciascun sottoinsieme (p) di parametri
Modello (a)
GdLT N i
yi 0 1 x1i 2 x2i ... p x pi ... k xki i Dove:
N = Osservazioni;
K = Numero di variabili esplicative GdLS K
GdL N i K
i = 1 se nel modello è presente l'intercetta; 0 altrimenti R
DEVS
SUL MODELLO NEL SUO INSIEME R
2 DEVS
DEVT
ADJ R2 1
GdLT
GdLR
1 R2 Foverall
DEVR
GdLS
VARS
VARR
GDLR
SU SOTTOINSIMI DI PARAMETRI yi 0 p 1 x p 1i ... k xki i Modello (b) Con P parametri; (P < K)
DEVR b DEVR a
F P dev R b dev R a R p1 , p 2 ,..., k | 0 , 1 , 2 ,..., p H 0 : p1 p 2 ... k 0
DEVR a
N K 1
DEVS j
SU CIASCUN PARAMETRO
F 1 dev S j R j | 0 , 1 , θ2 , ..., θk H0 : j 0
DEVR
N K 1
j
t
erst j
erst
e e
N K 1
u X X I
1
con u e I rispettivamente uguali a
un vettore unitario e una matrice
identità conformati
y x2 x2 x3 x3 y x2 x2 x3 x3 y x 2 x 2 x 1 x1 x 3 x 3
i 0 i i i i 0 i i i i 0 i i i i
R x1 | 0 , x2 , x3 3.74
R x1 | 0 426 .85
R x1 | 0 , x 3 71 .14
R x2
| 0 , x1
1.41 R x2
| 0 , ,
x1 x3
11.88 R x2
| 0 ,x3
79 .28
R x3
| 0 , x2 270 .64 R x3
| 0 , x2 270 .64 R x3
| 0 , x2 , x1 101 .68
R x1 | 0 , x2 , x3 3.74
scomposizione scomposizione
SEQUENZIALE R x2 | 0 , x1 , x3 11 .88 PARZIALIZZATA
R 101 .68
(Type I SS) (Type II SS)
x3
| 0 , x1 , x2
dipende dalla sequenza (ordinamento) delle variabili esplicative; è indipendente dalla sequenza (ordinamento) delle variabili esplicative;
esprime il contributo di ciascuna variabile al netto delle precedenti, esprime il contributo netto di ciascuna variabile;
ma al lordo delle successive; la somma di tutti i contributi è uguale alla devianza spiegata solo se le
la somma di tutti i contributi è uguale alla devianza spiegata; variabili esplicative sono fra loro ortogonali;
coincide con la scomposizione parzializzata solo se le variabili coincide con la scomposizione sequenziale solo se le variabili
esplicative sono fra loro ortogonali; esplicative sono fra loro ortogonali;
Risulta adeguata per l'analisi di: Risulta adeguata per l'analisi di:
modelli ANOVA con dati bilanciati e effetti specificati in ordine tutti i modelli ANOVA con dati bilanciati
(ovvero: le interazioni dopo gli effetti diretti) tutti i modelli con solo effetti diretti (strettamente additivi)
modelli annidati (mantenendo l'ordine di introduzione degli effetti) tutti i modelli di regressione (in senso stretto)
modelli di regressione polinomiale (garantendo l'ordinamento
degli effetti) EFFETTI NON CONTENUTI IN ALCUN ALTRO EFFETTO (nel modello)....
?
Scomposizione della variabilità (2° Parte)
Indicando con U un generico effetto (diretto o interazione), la quota di devianza attribuita a tale effetto dalla
scomposizione Type II è da considerarsi "netta o parzializzata" rispetto ad un altro generico effetto V,
se e solo se V non contiene U.
1) il disegno è bilanciato;
2) il disegno è non-bilanciato, ma il modello è strettamente additivo
Con un disegno non-bilanciato e presenza del termine di interazione (non-nullo), è generalmente adeguato un altro tipo
di scomposizione detto: Type III (o delle medie quadratiche ponderate di Yates)
Esempio: disegno non bilanciato con interazione (non nulla) The GLM Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 1169.400000 389.800000 11.96 0.0061
Error 6 195.500000 32.583333
yih =ˆ0 ˆ1A ˆ2A ˆ1B ˆ2B ˆ11
AB
ˆ12
AB
ˆ21
AB
ˆ22
AB
+ eih Corrected Total 9 1364.900000
Id y A B A\B 1 2
Source DF Type I SS Mean Square F Value Pr > F
A 1 528.0666667 528.0666667 16.21 0.0069
1 39 1 1 y11 =39 y12 =12 B 1 92.1904762 92.1904762 2.83 0.1435
1 A*B 1 549.1428571 549.1428571 16.85 0.0063
2 35 1 1 y11 =35 y12 =14 Ŷ1+= 25 Source DF Type II SS Mean Square F Value Pr > F
3 12 1 2 Ŷ11= 37.0 Ŷ12= 13 A
B
1
1
443.4404762
92.1904762
443.4404762
92.1904762
13.61
2.83
0.0102
0.1435
4 14 1 2 A*B 1 549.1428571 549.1428571 16.85 0.0063
y21 =9 y22 =5
5 9 2 1 Source DF Type III SS Mean Square F Value Pr > F
2 y21 =2 y22 =16 A 1 585.1428571 585.1428571 17.96 0.0055
B 1 165.1428571 165.1428571 5.07 0.0653
6 2 2 1
A*B 1 549.1428571 549.1428571 16.85 0.0063
y22 =8
7 5 2 2 Ŷ2+= 10.2 Standard
y22 =21 Parameter Estimate Error t Value Pr > |t|
8 16 2 2
9 8 2 2 Ŷ21= 5.5 Ŷ11= 12.5 Intercept 12.50000000 B 2.85409063 4.38 0.0047
A 1 0.50000000 B 4.94342998 0.10 0.9227
A 2 0.00000000 B . . .
10 21 2 2
Ŷ+1= 21.3 Ŷ2+= 12.7 Ŷ++= 16.1 B 1 -7.00000000 B 4.94342998 -1.42 0.2065
B 2 0.00000000 B . . .
A*B 1 1 31.00000000 B 7.55121403 4.11 0.0063
A*B 1 2 0.00000000 B . . .
A*B 2 1 0.00000000 B . . .
Type I SS Type II SS Type III SS A*B 2 2 0.00000000 B . . .
R 1A | 0 528 .07
R 1A | 0 , 1B 443 .44
R 1A | 0 , 1B , 11AB was
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
585
used .to
14solve the normal equations. Terms whose estimates are
R 1B | 0 , 1A 92 .19
R 1B | 0 , 1A 92 .19
R 1 | 0 , 1 , 11 165 .14
B A AB
followed by the letter 'B' are not uniquely estimable.
R AB
11
| 0 , 1A , 1B 549 .14 R AB
11
| 0 , 1A , 1B 549 .14 R AB
11 | 0 , 1A , 1B 549 .14
Scomposizione della variabilità (2° Parte) ASSENZA EFFETTI DI INTERAZIONE disegno bilanciato e non bilanciato
Id y A B Id y A B
Esempio: disegno bilanciato Esempio: disegno NON bilanciato
1 7 1 1 1 7 1 1
2 9 1 1 2 9 1 1
A\B 1 2 3 3 1 2 3 5 1 2
A\B 1 2
4 7 1 2 4 . 1 2
y11 =7 y12 =3 y11 =7 y12 =5
5 6 2 1 5 8 2 1
1 y11 =9 y12 =7 1
Ŷ1+= 6.5 6 10 2 1 6 . 2 1 y11 =9 Ŷ1+= 7.0
7 4 2 2 7 4 2 2
Ŷ11= 8.0 Ŷ12= 5.0 8 6 2 2 8 6 2 2
Ŷ11= 8.0 Ŷ12= 5.0
UGUALI
y21 =6 y22 =4 MEDIE DI CELLA y21 =8 y22 =4
2 y21 =10 y22 =6 2
Ŷ2+= 6.5 y22 =6 Ŷ2+= 6.0
Ŷ21= 8.0 Ŷ11= 5.0 EFFETTO "A" Ŷ21= 8.0 Ŷ11= 5.0
NULLO
Ŷ+1= 8.0 Ŷ2+= 5.0 Ŷ++= 6.5 Ŷ+1= 8.0 Ŷ2+= 5.0 Ŷ++= 6.5
Type I SS Type II SS Type II SS
Type I SS
R 1A | 0 0 .0
R 1A | 0 0 .0 Con Type I SS
R 1A | 0 1 .5
R 1A | 0 0 .0
R R R
compare un effetto per "A"
B
| 0 , A
18 .0 B
| 0 , A
18 .0
R 1B | 0 , 1A 12 .0 1
B
| 0 , 1
A
12 .0
R
1 1 1 1
R | 0 , 1 , 1 0 .0 R
| 0 , 1 , 1 0 .0 R | 0 , 1A , 1B 0.0
AB
AB
11
A B AB
11
A B AB
11 | 0 , 1A , 1B 0.0 11
The GLM Procedure Type I I SS The GLM Procedure
Dependent Variable: y Dependent Variable: y
Sum of
ADEGUATA Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 3 18.00000000 6.00000000 1.20 0.4166 Model 3 13.50000000 4.50000000 2.25 0.3224
Error 4 20.00000000 5.00000000 Error 2 4.00000000 2.00000000
Corrected Total 7 38.00000000 Corrected Total 5 17.50000000
R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.473684 34.40105 2.236068 6.500000 0.771429 21.75713 1.414214 6.500000
Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 1 0.00000000 0.00000000 0.00 1.0000 A 1 1.50000000 1.50000000 0.75 0.4778
B 1 18.00000000 18.00000000 3.60 0.1306 B 1 12.00000000 12.00000000 6.00 0.1340
A*B 1 0.00000000 0.00000000 0.00 1.0000 A*B 1 0.00000000 0.00000000 0.00 1.0000
Source DF Type II SS Mean Square F Value Pr > F Source DF Type II SS Mean Square F Value Pr > F
A 1 0.00000000 0.00000000 0.00 1.0000 A 1 0.00000000 0.00000000 0.00 1.0000
B 1 18.00000000 18.00000000 3.60 0.1306 B 1 12.00000000 12.00000000 6.00 0.1340
A*B 1 0.00000000 0.00000000 0.00 1.0000 A*B 1 0.00000000 0.00000000 0.00 1.0000
Source DF Type III SS Mean Square F Value Pr > F Source DF Type III SS Mean Square F Value Pr > F
A 1 0.00000000 0.00000000 0.00 1.0000 A 1 0.00000000 0.00000000 0.00 1.0000
B 1 18.00000000 18.00000000 3.60 0.1306 B 1 12.00000000 12.00000000 6.00 0.1340
A*B 1 0.00000000 0.00000000 0.00 1.0000 A*B 1 0.00000000 0.00000000 0.00 1.0000
Standard Standard
Parameter Estimate Error t Value Pr > |t| Parameter Estimate Error t Value Pr > |t|
Intercept 5.000000000 B 1.58113883 3.16 0.0341 Intercept 5.000000000 B 1.00000000 5.00 0.0377
A 1 0.000000000 B 2.23606798 0.00 1.0000 A 1 0.000000000 B 1.73205081 0.00 1.0000
A 2 0.000000000 B . . . A 2 0.000000000 B . . .
B 1 3.000000000 B 2.23606798 1.34 0.2508 B 1 3.000000000 B 1.73205081 1.73 0.2254
B 2 0.000000000 B . . . B 2 0.000000000 B . . .
A*B 1 1 0.000000000 B 3.16227766 0.00 1.0000 A*B 1 1 -0.000000000 B 2.44948974 -0.00 1.0000
A*B 1 2 0.000000000 B . . . A*B 1 2 0.000000000 B . . .
A*B 2 1 0.000000000 B . . . A*B 2 1 0.000000000 B . . .
A*B 2 2 0.000000000 B . . . A*B 2 2 0.000000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable. followed by the letter 'B' are not uniquely estimable.
Scomposizione della variabilità (2° Parte)
Scomposizione
Variabili esplicative "adeguata"
CATEGORIALI
La matrice dati: "PROFSCO" (N = 600) contiene le seguenti informazioni relative ad una ipotetica rilevazione condotta sugli studenti di un istituto
di istruzione superiore (tutte le variabili sono standardizzate e sono state ottenute utilizzando specifici e validati strumenti di misura):
ident y x1 x2 x3 x4 x5 x6
Si chiede di analizzare i dati della matrice, cercando di definire il miglior modello (in termini di capacità esplicativa) relativo al profitto scolastico (Y);
commentare adeguatamente il risultato ottenuto...
Analisi commentata...
y x1 x2 x3 x4 x5 x6 MATRICE \...\PROFSCO
MATRICE \...\PROFRES
y 1.00000 -0.01969 0.34970 0.04543 -0.26281 -0.02445 0.61343
0.6303 <.0001 0.2665 <.0001 0.5500 <.0001
(3/5) Continua
The REG Procedure
Dependent Variable: y
Analysis of Variance
ESERCIZIO 1 Source DF
Sum of
Squares
Mean
Square F Value Pr > F
X6 (l'interesse per lo studio) potrebbe essere a sua volta correlata con un'altra variabile... Per esempio: la spesa annua per libri extrascolastici della famiglia;
si potrebbe, ad esempio, sospettare che la variabilità nell'interesse per lo studio fra i ragazzi vari in funzione del livello di spesa per i libri extrascolastici;
se così fosse, a questa ulteriore variabile (non presente nella precedente matrice e quindi omessa dal modello) potrebbe essere imputata l'etereschedasticità dei residui...
La matrice dati "PROFRES" contiene proprio questa informazione (variabile: Z1), unitamente al codice identificativo (ident) di ciascuno studente;
le due matrici dati possono essere opportunamente unite e diviene possibile controllare il precedente ragionamento con i dati a disposizione...
MATRICE \...\PROFSCO
MATRICE \...\PROFRES
(merge) MATRICE \...\PROMERGE
y x2 x4 x6 z1
(4/5) Continua
The REG Procedure
ESERCIZIO 1 Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
(5/5) Fine
\PSICOM4\ESELIN\ESE2.SAS
ESERCIZIO 2 yi ˆ0 ˆ1 x1i ˆ2 x 2i ... ˆk xki ei
MATRICE \...\MATDAT2
V1 V1 V9 V7
ETA' 1.00000 0.10822 0.10311 Esercizio 2 (b)
0.2838 0.3073
V2 V2 V3 V4
Utilizzare come variabile DIPENDENTE Y2
PROFITTO SCUOLA 1.00000 0.78667 -0.09332
<.0001 0.3558
V3 V3 V2 V6
RISORSE ECONOM. FAM. 1.00000 0.78667 -0.11459
<.0001 0.2563
V4 V4 V6 V7
INDICE AUTORIT. FAM. 1.00000 -0.27197
0.0062
0.11771
0.2435
Esercizio 2 (a) e 2 (b)
V5 V5 V8 V9 Stimare il "miglior" modello; commentare...
NUMERO COMP. FAM. 1.00000 -0.18088 0.07595
0.0717 0.4526
V6 V6 V4 V7
ORE_GIORNO TV 1.00000 -0.27197 -0.11477
0.0062 0.2555
V7 V7 V9 V4
NUMERO ROMANZI LETTI_ANNO 1.00000 -0.17004 0.11771
0.0908 0.2435
V8 V8 V5 V7
GENERE (M=1 F=0) 1.00000 -0.18088 0.10465 1/3) Continua
0.0717 0.3001
V9 V9 V7 V1
PRECED. PENALI (SI=1 NO=0) run 1.00000 -0.17004 0.10822
0.0908 0.2838
Esercizio 2 (a) variabile DIPENDENTE Y1 Dependent Variable: y1
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t| Metodi di selezione automatica dei predittori...
Intercept Intercept 1 -0.70446 0.10629 -6.63 <.0001
V8 GENERE (M=1 F=0) 1 1.48424 0.13848 10.72 <.0001
V9 PRECED. PENALI (SI=1 NO=0) run 1 0.23396 0.13848 1.69 0.0943
Analysis of Variance
Sum of Mean Metodi di selezione
Source DF Squares Square F Value Pr > F
automatica dei predittori...
Model 3 67.30882 22.43627 67.96 <.0001
Error 96 31.69118 0.33012
Dependent Variable: y2
Corrected Total 99 99.00000
R-Square Selection Method
Root MSE 0.57456 R-Square 0.6799
Dependent Mean 4.61575E-16 Adj R-Sq 0.6699 Number in
Coeff Var 1.244776E17 Model R-Square Variables in Model
l'esempio e
i dati sono di fantasia...
ESEMPIO1 --- MODELLO LINEARE CLASSICO (dati BILANCIATI)
xenofob eta
(GENERE) M F Tot. (GENERE) M F Tot.
(AREA_GEO) (AREA_GEO)
L'AREA GEOGRAFICA e/o il GENERE hanno un qualche effetto e di quale entità sulla XENOFOBIA ?
L'ETÀ anagrafica ha un qualche effetto e di quale entità sulla XENOFOBIA ? (1/4) Continua
xenofob
(GENERE) M F Tot.
ESERCIZIO 3 (AREA_GEO)
XENOFOB misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15); N (n=50) (n=50) (n=100)
+3.08 -1.14 +0.97
ETA età in anni compiuti (maggiorenni);
AREA_GEO area geografica di residenza (N = nord, C = centro, S = sud e isole); C (n=50) (n=50) (n=100)
-0.50 -3.50 -2.00
GENERE genere (M = maschio, F = femmina)
S (n=50) (n=50) (n=100)
+2.74 -0.67 +1.03
L'AREA GEOGRAFICA e/o il GENERE hanno un qualche effetto e di quale entità sulla XENOFOBIA? Tot. (n=150) (n=150) (n=300)
+1.78 -1.77 +0.002
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
xenofob
(GENERE) M F Tot.
ESERCIZIO 3 (AREA_GEO)
XENOFOB misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15); N (n=50) (n=50) (n=100)
+3.08 -1.14 +0.97
ETA età in anni compiuti (maggiorenni);
AREA_GEO area geografica di residenza (N = nord, C = centro, S = sud e isole); C (n=50) (n=50) (n=100)
-0.50 -3.50 -2.00
GENERE genere (M = maschio, F = femmina)
S (n=50) (n=50) (n=100)
+2.74 -0.67 +1.03
Sum of Mean
Source DF Squares Square F Value Pr > F
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
(3/4) Continua
ma... !???! controlliamo queste relazioni...
xenofob
XENOFOB misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15);
ETA età in anni compiuti (maggiorenni);
(GENERE) M F Tot.
ESERCIZIO 3 AREA_GEO area geografica di residenza (N = nord, C = centro, S = sud e isole); (AREA_GEO)
Standard
Parameter Estimate Error t Value Pr > |t|
Si dispone delle seguenti variabili rilevate tramite un'indagine che ha coinvolto un campione
\PSICOM4\ESELIN\ESE4.SAS statisticamente rappresentativo della popolazione residente in Italia (N = 1599)
N
AREA_GEO Obs N Mean Std Dev Minimum Maximum N
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ AREA_GEO URBAN DEGRADO Obs N Mean Std Dev
CENTRO 327 327 -9.2681957 17.4831496 -58.9000000 32.9000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ISOLE 313 313 18.1683706 16.5858679 -28.6000000 63.0000000
CENTRO NO NO 80 80 -26.4812500 12.7326759
NEST 315 315 8.4231746 16.5785354 -33.2000000 50.6000000
NOVEST 327 327 -7.9128440 16.6761288 -52.4000000 33.8000000 SI 85 85 -4.2894118 11.7103640
SUD 317 317 -8.1940063 16.4773184 -44.3000000 37.7000000 SI NO 75 75 -16.2160000 10.7902489
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ SI 87 87 7.6850575 11.9433696
ISOLE NO NO 78 78 3.0692308 11.4417248
SI 77 77 22.8454545 11.7611486
SI NO 80 80 12.1487500 10.5450810
N SI 78 78 34.8243590 12.7135288
URBAN Obs N Mean Std Dev Minimum Maximum NEST NO NO 74 74 -7.0540541 10.4491618
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ SI 82 82 13.6695122 12.0906319
NO 808 808 -5.5628713 19.2176823 -58.9000000 52.4000000 SI NO 79 79 2.2886076 12.2593448
SI 791 791 5.8395702 19.2822333 -42.3000000 63.0000000 SI 80 80 23.4200000 13.2261096
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ NOVEST NO NO 82 82 -23.9024390 10.9635420
SI 85 85 -4.3152941 12.4181368
SI NO 80 80 -12.1337500 11.5193941
SI 80 80 8.8750000 12.0384248
N
SUD NO NO 83 83 -24.4891566 10.7520504
DEGRADO Obs N Mean Std Dev Minimum Maximum SI 82 82 -3.0451220 10.8777852
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ SI NO 75 75 -11.5973333 11.1473300
NO 786 786 -10.5568702 16.8254360 -58.9000000 44.4000000 SI 77 77 7.2025974 13.6690197
SI 813 813 10.3591636 17.4293572 -40.4000000 63.0000000 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
(1/4) Continua
proc glm data=esempio3 order=data;class area_geo urban degrado;
ESERCIZIO 4 model paura = area_geo urban degrado
area_geo*urban area_geo*degrado urban*degrado area_geo*urban*degrado
/ solution;quit;
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
(3/4) Continua
followed by the letter 'B' are not uniquely estimable.
ESERCIZIO 4 proc catmod data=esempio3 order=data;response mean;
model paura = area_geo urban degrado;
quit;
Data Summary
Analysis of Variance
Standard Chi-
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 0.1474 0.2909 0.26 0.6123
AREA_GEO NOVEST -7.9945 0.5764 192.37 <.0001
NEST 8.0327 0.5926 183.77 <.0001
CENTRO -9.9640 0.5799 295.20 <.0001
SUD -8.0797 0.5740 198.17 <.0001
URBAN NO -5.5228 0.2913 359.38 <.0001
DEGRADO NO -10.5886 0.2911 1323.40 <.0001 (4/4) Fine
UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 4965.58398 2482.79199 49.47 <.0001
Error 97 4868.25602 50.18821
Corrected Total 99 9833.84000
ˆ1
Root MSE 7.08436 R-Square 0.5049
Dependent Mean
Coeff Var
1.96000
361.44712
Adj R-Sq 0.4947 ˆ2
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Dependent Variable: x1
Analysis of Variance
si ricava la parte di x1 Sum of Mean
NON spiegata da x2; Source DF Squares Square F Value Pr > F RESx1 x 2i x1i xˆ 1i
ovvero: Model 1 927.68486 927.68486 141.34 <.0001
il RESIDUO del modello bivariato... Error 98 643.22514 6.56352
Corrected Total 99 1570.91000
Dependent Variable: x2
Analysis of Variance
Sum of Mean
si ricava la parte di x2
NON spiegata da x1;
Source
Model
DF
1
Squares
242.70595
Square
242.70595
F Value
141.34
Pr > F
<.0001
RESx 2 x1i x 2i xˆ 2i
ovvero: Error 98 168.28405 1.71718
il RESIDUO del modello bivariato... Corrected Total 99 410.99000
~
U U M M M
0.2 -0.2 73.0 58.0 74.7 60.0 65.5 65.5 67.3 67.3
11.2 -11.2 82.0 45.0 74.7 60.0 63.5 63.5 67.3 67.3
-11.3 11.3 69.0 77.0 74.7 60.0 73.0 73.0 67.3 67.3
3X2 NON ADDITIVA
Sum of (continua...)
Source DF Squares Mean Square F Value Pr > F SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 1 (Matrice ANOVA non additiva)
OUTPUT SAS
Model 5 4646.666667 929.333333 665.76 <.0001
Standard
Parameter Estimate Error t Value Pr > |t|
~
Residual 0 . .
U U M M M
Analysis of Weighted Least Squares Estimates 0.2 -0.2 73.0 58.0 74.7 60.0 65.5 65.5 67.3 67.3
11.2 -11.2 82.0 45.0 74.7 60.0 63.5 63.5 67.3 67.3
Standard Chi-
-11.3 11.3 69.0 77.0 74.7 60.0 73.0 73.0 67.3 67.3
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 67.3333 0.1929 121797.9 <.0001
a 1 -1.8333 0.2484 54.49 <.0001
2 -3.8333 0.2655 208.41 <.0001
b 1 7.3333 0.1929 1444.72 <.0001
a*b 1 1 0.1667 0.2484 0.45 0.5022
2 1 11.1667 0.2655 1768.53 <.0001
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 2 (Matrice ANOVA sostanzialmente additiva) DETTAGLI 2
Obs y a b
1 71.2190 1 1
2 71.7189 1 1 0 63.0000
3 71.9873 1 1 A
4
5
73.0987
71.9760
1
1
1
1 1 2.0000
6 64.4392 1 2 Parametri stimati ("angolo") 2A 6.0000
7 63.3137 1 2 B
8
9
65.1337
66.1829
1
1
2
2
1 5.0000
10 65.9306 1 2 AB 2.0000
11 63.8891 2 1 11AB
21 2.0000
12 62.6461 2 1 a\b 1 2 +
13 65.5230 2 1
14 64.7528 2 1 1 72.0 65.0 68.5
15 63.1890 2 1
16 57.5143 2 2 2 64.0 57.0 60.5
17 55.3772 2 2
18 57.4358 2 2 3 68.0 63.0 65.5
19 58.1368 2 2 0 64.8333
20 56.5359 2 2 + 68.0 61.7 64.8 A
21
22
67.2378
69.0242
3
3
1
1 1 3.6667
23 70.7465 3 1 2A 4.3333
24 67.0865 3 1 B
25
26
65.9050
63.5785
3
3
1
2 Parametri stimati ("centrale") 1 3.1667
27 61.9276 3 2 AB 0.3333
28 63.3366 3 2 11AB
21 0.3333
29 62.7860 3 2
30 63.3712 3 2
~
U U M M M
0.3 -0.3 72.0 65.0 68.0 61.7 68.5 68.5 64.8 64.8
0.3 -0.3 64.0 57.0 68.0 61.7 60.5 60.5 64.8 64.8
-0.7 0.7 68.0 63.0 68.0 61.7 65.5 65.5 64.8 64.8
3x2 SOSTANZIALMENTE ADDITIVA
Sum of (continua...)
Source DF Squares Mean Square F Value Pr > F SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 2 (Matrice ANOVA sostanzialmente additiva)
OUTPUT SAS
Model 5 634.1666667 126.8333333 90.86 <.0001
0 63.0000
A
1 2.0000
R-Square Coeff Var Root MSE y Mean
Standard
Parameter Estimate Error t Value Pr > |t|
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
(continua...)
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 2 (Matrice ANOVA sostanzialmente additiva)
OUTPUT SAS DETTAGLI 2
3x2 ADDITIVA
Analysis of Variance
+ 68.0 61.7 64.8
Standard Chi-
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 64.8333 0.1929 112921.4 <.0001
a 1 3.6667 0.2484 217.96 <.0001
2 -4.3333 0.2655 266.32 <.0001
b 1 3.1667 0.1929 269.39 <.0001
a*b 1 1 0.3333 0.2484 1.80 0.1796
2 1 0.3333 0.2655 1.58 0.2094
DETTAGLI 2
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 3 (Matrice ANOVA strettamente additiva)
Obs y a b
1 74.2190 1 1
2 74.7189 1 1
3 74.9873 1 1 0 57.0000
4 76.0987 1 1 A
5
6
74.9760
62.4392
1
1
1
2 1 6.0000
7 61.3137 1 2 Parametri stimati ("angolo") 2A 2.0000
8 63.1337 1 2 B
9
10
64.1829
63.9306
1
1
2
2 1 12.0000
11 66.8891 2 1 AB 0.0000
12 65.6461 2 1 11AB
21 0.0000
13 68.5230 2 1 a\b 1 2 +
14 67.7528 2 1
15 66.1890 2 1 1 75.0 63.0 69.0
16 55.5143 2 2
17 53.3772 2 2 2 67.0 55.0 61.0
18 55.4358 2 2
19 56.1368 2 2 3 69.0 57.0 63.0
20 54.5359 2 2 0 64.3333
21 68.2378 3 1 + 70.3 58.3 64.3 A
1 4.6667
22 70.0242 3 1
23 71.7465 3 1
24 68.0865 3 1 2A 3.3333
25 66.9050 3 1 B
26
27
57.5785
55.9276
3
3
2
2 Parametri stimati ("centrale") 1 6.0000
28 57.3366 3 2 AB 0.0000
29 56.7860 3 2 11AB
30 57.3712 3 2
21 0.0000
~
U U M M M
0.0 0.0 75.0 63.0 70.3 58.3 69.0 69.0 64.3 64.3
0.0 0.0 67.0 55.0 70.3 58.3 61.0 61.0 64.3 64.3
0.0 0.0 69.0 57.0 70.3 58.3 63.0 63.0 64.3 64.3
3x2 STRETTAMENTE ADDITIVA
DETTAGLI 2
The GLM Procedure
Dependent Variable: y
Sum of (continua...)
Source DF Squares Mean Square F Value Pr > F SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 3 (Matrice ANOVA strettamente additiva)
OUTPUT SAS
Model 5 1426.666667 285.333333 204.41 <.0001
0 57.0000
R-Square Coeff Var Root MSE y Mean A
1 6.0000
0.977056 1.836495 1.181479 64.33333
Parametri stimati ("angolo") 2A 2.0000
B
Source DF Type I SS Mean Square F Value Pr > F 1 12.0000
a 2 346.666667 173.333333 124.17 <.0001
AB 0.0000
b 1 1080.000000 1080.000000 773.70 <.0001 11AB
a*b 2 0.000000 0.000000 0.00 1.0000
a\b 1 2 +
21 0.0000
1 75.0 63.0 69.0
Source DF Type III SS Mean Square F Value Pr > F
2 67.0 55.0 61.0
a 2 346.666667 173.333333 124.17 <.0001
b 1 1080.000000 1080.000000 773.70 <.0001
3 69.0 57.0 63.0
a*b 2 0.000000 0.000000 0.00 1.0000
+ 70.3 58.3 64.3
Standard
Parameter Estimate Error t Value Pr > |t|
~
U U M M M
Analysis of Weighted Least Squares Estimates
0.0 0.0 75.0 63.0 70.3 58.3 69.0 69.0 64.3 64.3
Standard Chi- 0.0 0.0 67.0 55.0 70.3 58.3 61.0 61.0 64.3 64.3
Parameter Estimate Error Square Pr > ChiSq
0.0 0.0 69.0 57.0 70.3 58.3 63.0 63.0 64.3 64.3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 64.3333 0.1929 111186.4 <.0001
a 1 4.6667 0.2484 353.05 <.0001
2 -3.3333 0.2655 157.59 <.0001
b 1 6.0000 0.1929 967.12 <.0001
a*b 1 1 1.37E-14 0.2484 0.00 1.0000
2 1 6.98E-15 0.2655 0.00 1.0000
UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA UNIVERSITÉ DE LA VALLÉE D'AOSTE
Gennaio
del prof. Renato Miceli (a.a. 2011-2012)
2012 prof. Renato Miceli
Per il Corso di Laurea Magistrale in Psicologia
UNIVERSITA' DEGLI STUDI DI TORINO
DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati
Modelli di probabilità
Indice degli argomenti
Regressione logistica
Modelli e confrontabilità
Il contributo di G. Rasch
Esempi e applicazioni
Confrontabilità... (in un test)
Se y può assumere soltanto due valori (dummy) è opportuno riflettere attentamente su almeno tre ordini di conseguenze:
1) Se y può assumere soltanto i valori 0 e 1, il valore atteso di y [E(yi)] diventa la probabilità che y sia uguale a 1 [P(yi=1)]:
~
yi 1 P( yi 1) 0 P( yi 0) P( yi 1) K
K yi 0 k x k i i
~y
Si potrà allora i 0
k 1
k x ki pur restando valida la k 1
(b) viene invece a mancare la seconda; infatti la varianza degli i varia sistematicamente al variare dei valori delle (xk)
(a) K K
Se yi 0 allora; 0 k xki i da cui i k xk K
k 0 k 0
i
dato che: P y1 k xki e che P y0 1 P y1
K K k0
Se yi 1 allora; 1 k xki i da cui i 1 k xk i
k 0 k 0
K K
si ha: E i P y0 k xki P y1 1 k xki
che può essere
riscritta come:
E i 1 P y 1 P y 1 P y 1 1 P y 1 0
k 0 k 0
(b) 2 2
K K
V ( i ) E ( ) P( y 0 ) k x k i P( y 1 ) k x ki 2 2
i
2
1 1 P( y 1 ) P( y 1 ) P( y 1 ) 1 P( y 1 )
k 0 k 0
P( y 1 ) P
2
( y 1) 3
P( y 1 ) 2 P( y 1 ) P
2
( y 1 )
3
P( y 1 ) P( y 1 )
2
P( y 1 ) 1 P( y 1 )
K K
k x ki 1 k x ki (... gli i dipendono dai valori delle x, quindi eteroschedasticità ... WLS ???)
k 0 k 0
3) Per comprendere le difficoltà interpretative cui si va incontro utilizzando il modello lineare classico, quando y è dicotomica,
è utile considerare un semplice modello bivariato
0 ˆ0 100ˆ1 ˆ0 100ˆ1 1 Si supponga (per comodità) che i vincoli siano esatti: ˆ 100ˆ 0; ˆ 100ˆ 1
0 1 0 1
Per ogni unità di incremento nella propensione all’acquisto del bene A, la probabilità di acquistarlo può crescer al massimo di 0.005 !!!
Seguendo lo stesso ragionamento è facile constatare che, se la variabile x contemplasse valori in un range assai più ampio (per
es. 0 100.000), si sarebbe vincolati ad incrementi ancora più piccoli (per es. 1 < 0.00001)
(b) così facendo si è costretti ad assumere come costanti gli effetti marginali delle variazioni in x...
Esempio: si vuole spiegare la propensione all’acquisto P(y=1) di un bene molto costoso (per es. un'automobile), tramite il reddito degli
individui espresso in euro/anno (x). Per un incremento in x (per esempio) di 25.000 €, la specificazione lineare classica implica che
l'effetto sul comportamento di acquisto (y) è identica sia quando la base di partenza è pari a 0, sia quando si parte da un reddito di 50.000 € ,
o da un reddito di 100.000 €. Una diversa specificazione (non lineare) è sicuramente più idonea.
Funzione logistica
Funzione lineare P (y=1)
P(y=1) 1
1 0.8
0.8
0.5
0.5
0.4
0.1
k 1 la componente stocastica i
k 1
MODELLO LOGIT La relazione lineare log
P y i 1
1 P y i 1
(proporzionale, costante e additiva)
viene mantenuta fra i
1
P yi 1 K
log 0 k xik logit dei valori attesi
1 P yi 1 k 1
(logaritmo del rapporto di probabilità)
e la/le variabili esplicative
K
0
0 k x ik
k 1
K
exp 0 k xik Invece la relazione fra i
valori attesi
P yi 1 k 1 della variabile dipendente
K
1 exp 0 k xik e le variabili esplicative è
non-lineare
k 1
La non linearità della relazione fra i valori attesi e la componente strutturale del modello crea, invece, qualche complicazione
per interpretare i parametri in termini di entità o forza dell’effetto esercitato
DIVERSI MODI DI "VEDERE" IL MODELLO LOGIT (con riferimento ai parametri stimati)
(3)
(1) (2)
ˆ K
exp 0 ˆk xik
Pˆ yi 1 K Pˆ yi 1 K
log 0 ˆk xik
ˆ expˆ0 ˆk xik Pˆ yi 1 k 1
1 P ˆ 1 Pˆ K
yi 1 1 expˆ0 ˆk xik
k 1
yi 1 k 1
k 1
DIVERSI (non alternativi) PERCORSI DI LETTURA E INTERPRETAZIONE DEI RISULTATI che
riguardano:
a) il segno dei parametri;
b) l’effetto marginale di una variabile esplicativa su g ( ) o su una trasformazione di g ( ) ;
c) i valori riprodotti (o predetti) di g ( ) o di una trasformazione di g ( ) , dato un certo insieme di
valori delle variabili esplicative;
d) i valori della probabilità riprodotti (o predetti), dato un certo insieme di valori delle variabili
esplicative;
e) l’effetto marginale di una variabile esplicativa sulla probabilità di un evento ().
P yi 1 P yi 1
expg exp log Trasformazione
1 P yi 1 1 P yi 1
P y 1 i
Probabilità dell'evento sotto osservazione
Ident y x z
Esempio: y intenzione comportamentale dichiarata in risposta alla domanda:
1 1 16 8 (N = 35) <<Lei accetterebbe come amico/a un immigrato di colore? >>
2 1 17 8 (RISPOSTE AMMESSE: SI = 1 / NO = 0)
3 1 21 13
4 1 23 8
x età (in anni compiuti)
5 1 25 8
6 1 30 13
7 1 33 8
z scolarità (numero anni di studio corrispondente al titolo posseduto)
8 1 35 13
9 1 38 13
10 1 39 8 ADATTAMENTO Modello - dati
exp ˆ x exp 0.0875 0.916 da 0 a 1
exp ˆ x 0.916
2
Il rapporto di probabilità fra accettare come amico
Al netto degli altri effetti (fermo restando tutto il resto), da 1 a 2 exp ˆ x 0.839 un immigrato (risposta “si” = 1) e non accettarlo
expˆ 0.769
per ogni anno di età (x) in più, il rapporto di probabilità 3 (risposta “no” = 0) è, a parità di altre condizioni,
da 2 a 3 x
più che dimezzato (da 0.92 a 0.42) da un incremento
[(pr. rispondere "si") / (pr. rispondere "no")]
DECRESCE di un fattore pari a 0.916 ......... ........... pari a 10 anni di età
ˆ 10
da 9 a 10 exp x 0.420
exp ˆ z exp 0.3639 1.439 da 0 a 1
exp ˆ z 1.439
2
Il rapporto di probabilità fra accettare come amico
Al netto degli altri effetti (fermo restando tutto il resto), da 1 a 2 exp ˆ z 2.070 un immigrato (risposta “si” = 1) e non accettarlo
per ogni anno di scolarità (z) in più, il rapporto di
probabilità [(pr. rispondere "si") / (pr. rispondere "no")]
3
da 2 a 3 exp ˆ z 2.980
(risposta “no” = 0) è, a parità di altre condizioni,
più che quadruplicato (da 1.44 a 6.17) da un incremento
CRESCE di un fattore pari a 1.439 ......... ........... pari a 5 anni di scolarità
5
da 4 a 5 exp ˆ z 6.170
Per acquisire dimestichezza con l'uso del rapporto di probabilità, può essere utile consultare la tabella di pagina seguente ....
P yi 1
P yi 1 1 P yi 1 1 P yi 1 tabella esemplificativa: relazione fra Prob. e Rapporto di prob.
0.01 0.99 0.01010
.... . .... . .......
0.05 0.95 0.05263
.... . .... . ....... come dire: ~ 1 su 10
0.10 0.90 0.11111 0.17
.... . .... . ....... 0.20482 come dire: ~ 1 su 5
0.83
0.20 0.80 0.25000 come dire: 1 su 4
.... . .... . .......
0.30 0.70 0.42857 0.33
.... . .... . ....... 0.49254 come dire: ~ 1 su 2
0.67
0.40 0.60 0.66667
.... . .... . .......
0.45 0.55 0.81818
0.46 0.54 0.85185
0.47 0.53 0.88679
0.48 0.52 0.92308
0.49 0.51 0.96078
0.50 0.50 1.00000 come dire 1a 1
0.51 0.49 1.04082
0.52 0.48 1.08333
0.53 0.47 1.12766
0.54 0.46 1.17391
0.55 0.45 1.22222
.... . .... . .......
0.60 0.40 1.5000 0.67
2.0303 come dire: ~ 2 a 1
.... . .... . ....... 0.33
0.70 0.30 2.3333
0.75
.... . .... . ....... 3.0000 come dire: 3 a 1
0.80 0.20 4.0000 come dire 4a 1 0.25
.... . .... . .......
0.85 0.15 5.6667
.... . .... . .......
0.90 0.10 9.0000
0.91 0.09 10.1111
0.92 0.08 11.5000
0.93 0.07 13.2857
0.94 0.06 15.6667
0.95 0.05 19.0000 Può essere utile ricordare che:
0.96 0.04 24.0000 come dire 24a 1
P yi 1
0.97 0.03 32.3333 se : allora : P yi 1
0.98 0.02 49.0000 1 P yi 1 1
0.99 0.01 99.0000
Percorso di lettura (c) " QUALI sono i valori del Rapporto di probabilità riprodotti dal modello ?"
Esempi: Qual é il rapporto di probabilità fra accettare / non-accettare come amico un immigrato, per ...
(1) ... l’individuo che ha 45 anni di età e una scolarità pari a 8 (codice identificativo: 13) ?
Il rapporto di probabilità è, per questo individuo,
circa 34 volte più favorevole verso l’accettazione
exp ˆ0 ˆ x 45 ˆ z 8 exp4.5462 0.0875 45 0.3639 8 33.78 (risposta: “si”), rispetto alla non-accettazione
(risposta: “no”)
(inoltre ...)
P yi 1
exp ˆ0 ˆ x xi ˆ z zi
33.78
0.9712
1 exp ˆ0 ˆ x xi ˆ z zi
34.78
exp ˆ0 ˆ x 45 ˆ z 8 exp4.5462 0.0875 45 0.3639 13 208.39 P yi 1
208.39
209.39
0.9952
... e se il quarantacinquenne 208.39 il diplomato (13 anni di scolarità) ha un rapporto di probabilità favorevole
2.21 all’accettazione di un immigrato come amico che è più del doppio di quello del neonato
avesse 13 anni di scolarità ? 94.27
Quanto incidono 5 anni di scoalrità a parità di età ? [(età=45, scolarità=13) - (età=45, scolarità=8)] = 208.39 / 33.78 6.17
[come già visto in precedenza ...]
Nuovo esempio per percorsi di lettura:
(d) i valori della probabilità riprodotti, dato un certo insieme di valori delle variabili esplicative;
(e) effetto marginale di una variabile esplicativa sulla probabilità di un evento
I dati sono tratti da un'indagine I.R.E.S.-Piemonte (effettutata nel 1990) sugli atteggiamenti e le aspettative
nei confronti degli immigrati stranieri. Il campione (816 osservazioni) è rappresentativo della popolazione
(in età 15-75 anni) del Comune di Torino.
ˆ 0.4469
1
B
1.564 con la notazione: “b1 = 1” si intende fare riferimento ai vettori booleani della matrice di disegno;
così che b1 è il vettore corrispondente al livello 1 (provincia di nascita Torino) della variabile B e
assume valore 1 per indicare che un certo individuo è nato nella provincia di Torino, valore 0 se
l’individuo è nato altrove
Percorso di lettura
(d) "QUALI sono i valori della probabilità riprodotti (o predetti), dato un certo insieme di valori delle variabili esplicative ?"
Probabilità di dichiararsi favorevole all’introduzione della pena
di morte, stimata dal modello, per un individuo ...
exp 0.4163 0.0124 43 0.4142 0.4469 ETA' 43 anni (media del campione);
P̂ yi 1 0.54
1 exp 0.4163 0.0124 43 0.4142 0.4469
LUOGO DI NASCITA in provincia di Torino;
TITOLO DI STUDIO licenza media
exp 0.4163 0.0124 43 1.3135 0.4469 ETA' 43 anni (media del campione);
P̂ yi 1 0.32 LUOGO DI NASCITA in provincia di Torino;
1 exp 0.4163 0.0124 43 1.3135 0.4469 TITOLO DI STUDIO laurea
Contrariamente agli effetti marginali sul rapporto di probabilità che sono invarianti rispetto
ai valori delle variabili esplicative, gli stessi effetti sulla probabilità variano al variare dei
valori delle variabili esplicative, cioè variano al variare della probabilità riprodotta
Con x compresa fra 15 e 75, le probabilità riprodotte (per i nati in provincia
EFFETTO MARGINALE DELLA VARIABILE "B" di Torino e per i nati altrove) variano in un intervallo piuttosto circoscritto
In ordinata è rappresentata la variazione della probabilità () in modo tale che la loro differenza (l’effetto marginale di B) è anch’esso
dovuta all’effetto della variabile B, al variare di x (fissando a4 = 1) limitato;questa circostanza non è affatto comune a tutti i valori che x potrebbe
la variabile x – a scopo illustrativo – viene qui rappresentata in un assumere se avesse un altro significato empirico (diverso dall'età).
intervallo molto esteso (400)
P^(y=1) [laurea, altro] [laurea, Torino]
1
0.12
0.11 0.9
0.1 0.8
0.09 0.7
0.08 0.6
0.07
0.5
0.06
0.4
0.05
0.3
0.04
0.03 0.2
0.02 0.1
0.01 0
0 -400 -350 -300 -250 -200 -150 -100 -50 0 50 100 150 200 250 300 350 400
-400 -350 -300 -250 -200 -150 -100 -50 0 50 100 150 200 250 300 350 400 x
x
Le due linee verticali indicano l’intervallo effettivo dei valori di x nel Nel riportare l’entità dell’effetto marginale di una variabile esplicativa sulla probabilità
nostro esempio (dove x è l'età). In tale intervallo la differenza fra i valori è opportuno controllare che tale effetto, calcolato sulla base di particolari combinazioni
dell’effetto marginale di B è piuttosto contenuta, ma pur sempre presente di valori delle variabili esplicative, sia ragionevolmente simile a quello calcolato sulla
(compresa all’incirca fra 0.07 e 0.10) base di altre particolari combinazioni, nell’intervallo di valori che, sensatamente,
possono assumere le variabili esplicative
MISURAZIONE DI TRATTI MENTALI
Il contributo di G. Rasch (Item Response Theory)
Misurare...
Modelli e confrontabilità
Il contributo di G. Rasch
Esempi e applicazioni
Confrontabilità... (in un test)
Riferimenti bibliografici
MISURARE
-Quantocicivuole
-Quanto vuoleperperarrivare
arrivarea aMessene?
Messene?––chiese
chieseilil
viandante fermandosi presso un
viandante fermandosi presso un vecchio che vecchio che
sonnecchiavaalalciglio
sonnecchiava cigliodella
dellastrada.
strada.
Stabilire una relazione -Cammina,cammina
-Cammina, cammina––rispose
risposeililvecchio.
vecchio.
(omomorfismo) Paziente il viandante ripeté la
Paziente il viandante ripeté la domanda.domanda.
fra un certo sistema numerico -E-Ecammina!
cammina!––sisispazientì
spazientìililvecchio.
vecchio.
(con definite caratteristiche) Sconcertato, il viandante riprese lalasua
Sconcertato, il viandante riprese suastrada.
strada.
e qualche proprietà o -Ticicivorranno
-Ti vorrannodue dueore
ore––loloraggiunse
raggiunselalavoce
vocedel
delvecchio
vecchio
insieme di attributi dopouna
dopo unaventina
ventinadidipassi.
passi.
di un sistema empirico - E perché non me
- E perché non me lo hai lo haidetto
dettosubito?
subito?
(oggetti)... - -Come
Comepotevo
potevodirtelo
dirteloprima
primadidivedere
vederecome
comecammini?
cammini?
DaEsopo
Da Esopo
MISURARE
UTILIZZARE UNO
STRUMENTO (di misura)
MISURARE
GIA’ PREDISPOSTO
Selezionare (almeno) una
caratteristica, proprietà
(attributo, tratto, dimensione)
dell’oggetto;
Assumere una sufficiente
stabilità spazio-temporale;
Rilevare lo stato dell’oggetto
sulla proprietà MISURARE
COSTRUIRE
UNO STRUMENTO
(di misura)
MISURARE
<<Quanto ci vuole per
UTILIZZARE UNO
arrivare a Messene?>> STRUMENTO (di misura)
GIA’ PREDISPOSTO
COSTRUIRE
UNO STRUMENTO Indice
(di misura)
O)
I
O)
I/N
I /N
(S
)
O)
NO
TEST
TESTdidi O N
(S
I/N
O
)
S I/
GI
NO
RE
TEST di
(S
Esopo
Esoposul G D (AGENTI)
)
AG
I A(
NO
sul
LA
SI /
NE
Esopo sul
MP
ES
viandante G I
GO
A(
S I/
STIMOLI
TO
viandante
AA
PA
A(
IC
RE
viandante
AS
E V
SP DOMANDE
IC
AT
RA
AB
O
PP
CE
T I
LC
TM
MI
ITEM
US
ZO
IN
AM
FA
RI
T D
S1 S2 S3 S4 S5 S6 S.... I U
Viandante_1 1 1 0 0 1 0 ... I
OSSERVAZIONI
Viandante_2 0 1 0 1 1 0 ... (qualitative)
Viandante_3 1 1 0 1 1 0 ...
Viandante_4 1 0 1 0 1 1 ... MATRICE DATI
Viandante_ .. ... ... ... ... ... ... ... (booleana)
MISURARE
Indice
Variabili manifeste e latenti: un’analogia...
Si riferiscono a costrutti teorici (proprietà) DIRETTAMENTE OSSERVABILI
QUANTITATIVO
• per es. proprietà (degli individui) come: peso, altezza, età, condizione professionale,
QUALITATIVO MODELLO LATENTE accordo/disaccordo rispetto ad una certa affermazione, comportamento attuato in una
MANIFESTO MISURA
data situazione, etc.
• sono tutte proprietà ben definite (ampia condivisione a livello di definizione teorica e
– generalmente – anche di def. operativa)
variabili manifeste
Un’analogia...
Strumenti complessi (modelli, test) che:
per es. proprietà (generalmente mentali degli individui) come: le abilità, gli atteggiamenti, etc.
non sono rilevabili sulla base di un'osservazione diretta (es.:risposta a una domanda)
0.128
? arcsen 7.295 7 30'
(c) 1 . 008
100 cm.
100 cm.
(a)
......... ..........
ALESSANDRIA
...UN’ANALOGIA:
7° 30 '
7° 30 '
EQUATORE
3) ESEGUO CALCOLI ..... C = "Circonferenza terrestre" (in Km.) C : 800 360 : 7 30'
800 360
4) OTTENGO UNA STIMA DELLA MISURA CERCATA ..... C 39452 40 mila Km.
7.30
c 39452
diametro 12564 13 mila Km.
3 . 14 Indice
Variabili manifeste e latenti
Esempio di misurazione...
240 a.C.
......... ..........
...UN’ANALOGIA:
ASTROFISICA PSICOLOGICA
[probabilistica]
[deterministica]
Modellizzazione Terra = Sfera Prob R x f abilità ;difficoltà ; etc .
[errore di specificazione +
Stima [errore di specificazione]
errore stocastico]
Indice
Variabili manifeste e latenti
...UN’ANALOGIA:
Indice
Ogni processo di misurazione coinvolge sempre tre classi di entità: (escludendo...) RILEVATORE
STIMOLI
AGENTE ITEM elicitano la risposta; sono pertanto
QUANTITATIVO
DOMANDE reattivi, reagenti, RIVELATORI
QUALITATIVO MODELLO LATENTE
MANIFESTO MISURA
IL MODELLO DEVE
GARANTIRE LA CONFRONTABILITA’ DEI PUNTEGGI
Indice
Rappresentazione analogica delle osservazioni
Se assumo: Scalogramma
Una persona capace di GUTTMAN
LE DOMANDE rispondere correttamente ad errore
HANNO UGUALE una domanda più difficile di ???
DIFFICOLTA' un’altra, risponderà altrettanto
correttamente a tutte le
domande più facili di quella
Se assumo:
LE DOMANDE
HANNO DIFFERENTI
DIFFICOLTA'
I.R.T.
errore
su risposta
Indice
Garantire la confrontabilità
NON
CONFRONTABILTA’
QUANTITATIVO
QUALITATIVO MODELLO LATENTE
MANIFESTO MISURA (Domande di difficoltà crescente...; 1= risposta corretta; 0 = risposta sbagliata)
D1 D2 D3 PUNTEGGIO
T.C.T. I.R.T.
PUNTEGGIO
PUNTEGGIO S1 S2 S3 S.... (riga)
S1 S2 S3 S.... (riga) O_1 1 1 0 ... 5
O_1 1 1 0 ... 5 O_2 0 1 0 ... 10
O_2 0 1 0 ... 10 O_3 1 1 0 ... 2
O_3 1 1 0 ... 2 O_4 1 0 1 ... 7
O_4 1 0 1 ... 7 O_.. ... ... ... ... ...
O_.. ... ... ... ... ... PUNTEGGIO 25 10 18 ...
colonna
CAMPIONE
NORMATIVO
DIFFICOLTA'
S_2 S_3 S_1 DOMANDE
z
ABILITA' ABILITA'
INDIVIDUI O_1 O_2 O_3 INDIVIDUI
O_2 O_1 O_3
<<Maxwell’s very detailed analysis
<<L’analisi molto dettagliata, condotta
[of the concepts of mass and force] ...
da Maxwell sui concetti di massa e forza,
has greatly fascinated me on finding
mi ha molto affascinato dato che lo stesso
that the same sort of argument should
tipo di argomenti può essere applicato in
be applicable elsewhere, in particular
altri contesti, in particolare nei problemi
in problems of measurement in
di misurazione in psicologia.>>
psychology.>> (G. Rasch, 1960, p. 111)
(Pag. 112 e seguenti) <<... Ora si immagini la seguente condizione sperimentale cui prendono parte due gruppi di elementi. Un
gruppo è formato da un ampio numero di oggetti: O1, O2, ...,On che definiamo come “corpi solidi” (non vogliamo finire
nell’idrodinamica o nella teoria dei gas) e che possono avere dimensioni molto diverse ed essere costituiti da diversi materiali.
L’altro gruppo: I1, I2, ..., Ik può essere definito come “strumenti” dato che ciascuno di essi può esercitare una influenza meccanica
(vogliamo evitare l’elettromagnetismo) su ogni oggetto del primo gruppo. [...] Se ogni strumento Ij viene applicato a ciascun
oggetto O , un insieme di valori numerici (rapporti di) accelerazione può essere osservato e riportato in una tabella come quella
seguente:
strumenti
j I1 I2 ... Ij ... Ik
[...] Complessivamente il dato di fatto empirico può essere riassunto nella seguente
O1 A11 A12 ... A1j ... A1k affermazione che, per il nostro scopo attuale, possiamo indicare come la
legge moltiplicativa dell’accelerazione (in corsivo nel testo):
O2 A21 A22 ... A2j ... A2k l’accelerazione Aj ricevuta dall’oggetto solido O sotto l’influenza meccanica dello
oggetti strumento Ij è il prodotto di due fattori, uno relativo all’oggetto, uno allo strumento.
O A1 A2 ... Aj ... Ak
Indicando i due fattori con 1/M e Fj la precedente affermazione può venire espressa
On An1 An2 ... Anj ... Ank tramite la formula:
Fj
A j
M
<<Una persona in possesso di una maggiore abilità rispetto a un'altra dovrebbe avere
una maggiore probabilità di rispondere correttamente a ogni domanda di quel tipo, e
analogamente, se una domanda è più difficile di un'altra ciò significa che per ogni
persona la probabilità di rispondere correttamente alla seconda domanda è
maggiore>> (G. Rasch, 1960)
Per esempio...
oggetti: A, B; proprietà (carattere): PESO;
OGGETTO A || OGGETTO B == OGGETTO AB
osservo A > B e posso chiedere:
PESO A + PESO B == PESO AB
<<Quanto peso deve essere aggiunto a B affinchè i due oggetti siano uguali
(rispetto alla proprietà “peso”) ? >>
Molte proprietà (abilità, intelligenza, atteggiamenti,…) non ottemperano R. Duncan Luce, J.W. Tukey, 1964
(nel sistema fisico di riferimento) al requisito della concatenazione;
ma, analogamente alla temperatura, possono essere misurate D.H. Krantz, R. Duncan Luce, P. Suppes, A. Tversky, 1971
? Indice
Quale trasformazione (funzione) ?
misurazione fondamentale
(oggettività specifica) Quale trasformazione (funzione) ?
A
Oggetto/i (O)
I = f(O,A)
confronto
interazione (I)
I1=f(O1,A) e I2=f(O2,A)
fra due entità g(I1,I2) = g [f(O1,A),f(O2,A)]
Agente/i (A) g(I1,I2) = g [f(O1,A),f(O2,A)] = v(O1,O2) A
Analogamente per quanto riguarda il confronto fra Agenti: g(I1,I2) = g [f(O,A1),f(O,A2)] = w(A1,A2) O O
NOTAZIONE
O ==> oggetti ---------- individui ==> (abilità)
A ==> agenti ---------- domande ==> (difficoltà)
I ==> interazioni ----- risposte ==> x (giusto/sbagliato; 1/0)
g P x1 , P x 2 g P 1 , , P 2 , v P 1 , P 2
Indice
Si può dimostrare che ...
misurazione fondamentale
(oggettività specifica) Quale trasformazione (funzione) ?
una tale funzione (v) ESISTE;
è possibile giungere a stime asintoticamente tale funzione può essere espressa come...
corrette ed efficienti di tali parametri;
exp n s
INVARIANZA
simmetricamente consentono di confrontare la
Pxn ,s 1| ,
1 exp n s
DIFFICOLTA’ delle DOMANDE, in modo INDIPENDENTE
dagli individui cui sono state sottoposte (sample free)
P(xn,s=1)
1
Dimostrazioni...
0.5 SALTA...
0 (n - s )
Indice
Dimostrazioni:
(1-3 oggettività specifica);
SALTA...
(4-6 statistiche sufficienti, stime dei parametri, algoritmo UCON)
g P x1 , P x 2 g P 1 , , P 2 , v P 1 , P 2
La I° considerazione restringe il campo dei possibili ingredienti utilizzabili nella funzione (g) ai soli pattern di risposta P(0,1) o P(1,0);
La II° considerazione restringe il campo delle possibili trasformazioni ai rapporti , vincolando (g) ad essere una probabilità condizionale. Dato che l’equazione è vera per ogni i e j, essa sarà vera anche sostituendo j con un qualsiasi valore b. Così si ottiene:
ASSUNTI Tra le poche alternative rimaste, è possibile dimostrare che la più promettente è quella che esprime P(0,1) oppure P(1,0) come probabilità
Il processo generatore dei dati è di tipo stocastico Indipendenza locale
condizionale di P(0,1) e P(1,0), cioè: P i , P b , P i , d 1 P b, d
Prendendo i logaritmi:
1 P , 1 P b, 1 P , d P b, d
(fattori diversi da e formano la componente di errore del modello). IMPLICA UNIDIMENSIONALITA‘
Il processo generatore dei dati è di tipo cumulativo e formalmente...
(un individuo più abile ha una probabilità maggiore, 1 P i , P j , che può essere
i i
K
P X n 1 , . . . , X nk P X 1 P i , P j , P i , 1 P j ,
rispetto ad un individuo meno abile, di superare tutti gli item; g = P(0,1) / [P(0,1)+P(1,0)]
ogni individuo ha una probabilità maggiore di superare un item ns riscritta come: P , P b , P , d 1 P b , d
log log log
s1 i i
log
facile rispetto ad un item più difficile)
1 P b ,
1 P i , 1 P i , d
Vige il principio di indipendenza locale (a parità di abilità, le risposte P b, d
fornite da ciascun individuo a ogni coppia di item sono statisticamente
indipendenti)
P i , 1 P j , Ora si tratta di dimostrare che esiste
P i , 1 P j ,
La funzione (v) cercata P ,
log
i
P b,
log
P , d
log
1 P b,
i
1 P b , d
log
1 P i , 1 P i , d
una trasformazione (v) della precedente
Innanzitutto bisogna definire la funzione (g)...
1 1 (che isola in una P b, d
Senza perdita di generalità, è possibile considerare due individui (i e j)
P(0,0) = 1 - P i , 1 - P j ,
1 P i , P j , espressione (g) che è indipendente da .
1 P , P , componente additiva)
f 1( ) f 2(i )
1 - P i , P j ,
j i j
+
e una domanda, scrivendo tutte le possibili combinazioni di risposta i
0 1
P(0,1) = E’ sufficiente considerare l’espressione: è il LOGIT LOGIT = + C
(dicotomiche) e le relative probabilità per le quattro coppie ...
P i , 1 - P j ,
0 (0, 0) (0, 1)
P(1,0) =
[per comodità: P(x=1) P]
Pi , P
1 (1, 0) (1, 1)
P(1,1) = P i , P j , f 1( ) f 2(i ) C
GENERALIZZANDO
log n,s f 1( s ) f 2( n ) C
P , 1 P , P , d 1 P , d
log
1 Pi ,
Dato che la precedente espressione deve risultare indipendente da il suo
valore deve rimanere lo stesso con qualsiasi valore di . E’ allora possibile i
j i j 1 Pn,s
Due considerazioni:
fissare arbitrariamente ad un qualsiasi valore d. Dato che l’espressione
deve tenere sia per , sia per d, è possibile scrivere l’equazione: 1 P , P , 1 P , d P ,d
i j i j Ponendo: f1 = -1 ; f2 = 1; C = 0 si ottiene la classica formulazione del modello di misurazione di Rasch:
exp n s
1) affinché sia possibile confrontare le risposte di due individui rispetto ad un item, è necessario che le risposte fornite
dai due individui siano diverse (gli individui devono essere distinguibili); equazione che può essere riscritta in modo tale che P(i,) compaia a sinistra: Pn , s
log n s Pn , s
1 exp n s
Oppure:
c.v.d.
1 P
1 P , d
2) affinché il confronto possa essere definito oggettivo, è necessario che la trasformazione (v) cui si sottopone la
n ,s
funzione (g) faccia scomparire il parametro (relativo all’agente-item); ma l’eliminazione del parametro può P i , P j , P i , d j
avvenire soltanto quando la funzione (g) è un rapporto, in cui compaia isolatamente a numeratore e a
denominatore. 1 P , 1 P , 1 P , d
i j i
P j ,d
1 2 3
expxns n s avranno la stessa stima dell'abilità, così conviene stabilire le seguenti convenzioni notazionali: 6. si ridefinisce l'insieme (ds) in modo tale che: d 0 rs
H K brw1 brw r 1, K 1
H K s 1
P xns | n , s
H K
8.
expx s exp xns n s Il numeratore può
n 1 s 1 1 exp n s
K
essere riscritto: br stima dell' abilità ( ) di ogni individuo con score r prsw 1 prsw
ns n
n 1 s 1 n 1 s 1 7. d sz 1 d sj 1
d s stima della difficoltà ( ) di ogni item s s 1
prsj
exp brw dsz1
b w1 b w 0.01 in cui
H K H K
exp xns n xns s N r numero di individui con score r 9. SE
1 exp br dsz1
n 1 s 1 n 1 s 1 ALLORA VAI a (8) , ALTRIMENTI prosegui;
expbr ds
H K
exp Rn n C s s
dato che:
K
xn,s Rn e
H
xn , s C s H K
exp Rn n C s s P xns | n , s H Kn 1 s 1 si può così scrivere l'equazione che definiscela probabilità stimata pr ,s d z 1
dz
2
11. brz 1 brw1 STOP
Le stime sono
d sz 1 e brz 1
1 expbr ds
10. SE 0.0001 fornite dagli insiemi:
n 1 che una persona con score r risponda correttamente all'item s :
1 exp n s
s 1 n 1 s 1 K 1 1
Stime asintotiche
ALLORA VAI a (3) , ALTRIMENTI prosegui; 2
H K
n 1 s 1 degli errori standard 2
exp Rn n exp Cs s H K 1 1 1
P xns | n , s
n 1 s 1 se le stime sono consistenti... ns Nr prs Le stime (ds) così ottenute, sono distorte dalla presenza del parametro relativo alle abilità
(n) nell'equazione di verosimiglianza (Andersen, 1973)
SEbr K
p 1 p
SEds K1
N p 1 p
H K
Per evidenziare SEPARABILITA'
1 exp n1 r La distorsione viene corretta (Wright & Douglas, 1975) moltiplicando le stime della rs
n 1 s 1
n s
difficoltà per il fattore: (K-1) / K s1
rs rs
r1
r rs
4 5 6
Indice
misurazione fondamentale trovare la funzione v delle probabilità di risposta
(oggettività specifica) Dimostrazione...
degli individui (g) che sia indipendente da
g P x1 , P x 2 g P 1 , , P 2 , v P 1 , P 2
ASSUNTI
Due considerazioni:
1) affinché sia possibile confrontare le risposte di due individui rispetto ad un item, è necessario che le risposte fornite
dai due individui siano diverse (gli individui devono essere distinguibili);
2) affinché il confronto possa essere definito oggettivo, è necessario che la trasformazione (v) cui si sottopone la Indice
funzione (g) faccia scomparire il parametro (relativo all’agente-item); ma l’eliminazione del parametro può Diomostrazioni
avvenire soltanto quando la funzione (g) è un rapporto, in cui compaia isolatamente a numeratore e a
denominatore.
misurazione fondamentale
(oggettività specifica) Dimostrazione...
La I° considerazione restringe il campo dei possibili ingredienti utilizzabili nella funzione (g) ai soli pattern di risposta P(0,1) o P(1,0);
La II° considerazione restringe il campo delle possibili trasformazioni ai rapporti , vincolando (g) ad essere una probabilità condizionale.
Tra le poche alternative rimaste, è possibile dimostrare che la più promettente è quella che esprime P(0,1) oppure P(1,0) come probabilità
condizionale di P(0,1) e P(1,0), cioè:
1
1
P i , 1 P j ,
Ora si tratta di dimostrare che esiste
una trasformazione (v) della precedente
P i , 1 P j ,
1 P i , P j , espressione (g) che è indipendente da .
1 P , P ,
i j
E’ sufficiente considerare l’espressione:
equazione che può essere riscritta in modo tale che P(i,) compaia a sinistra:
P i ,
P j ,
P i , d
1 P , d
j
1 P , 1 P , 1 P , d
i j i
P j,d Indice
Diomostrazioni
misurazione fondamentale
(oggettività specifica) Dimostrazione... P i ,
P , d 1 P , d
P j , i j
Dato che l’equazione è vera per ogni i e j, essa sarà vera anche sostituendo j con un qualsiasi valore b. Così si ottiene:
P i , P b , P i , d 1 P b, d
Prendendo i logaritmi:
1 P ,
i
1 P b, 1 P i , d P b, d
P , P b, P , d 1 P b, d
log i
log log
i
log
1 P i , 1 P b,
1 P i , d P b, d
Pi , Pn,s
log f 1( ) f 2(i ) C
GENERALIZZANDO
log f 1( s ) f 2( n ) C
1 Pi ,
1 Pn,s
Ponendo: f1 = -1 ; f2 = 1; C = 0 si ottiene la classica formulazione del modello di misurazione di Rasch:
Pn , s exp n s
log n s Pn , s
1 exp n s
Oppure:
c.v.d.
1 Pn , s
Indice
Diomostrazioni
stima dei parametri
(algoritmo UCON) “Score” Statistiche sufficienti... (EFFETTI RANDOM)
H K
H K
expxns n s
Pxns | n , s
H K
H K H K
exp xns n xns s
n 1 s 1 n 1 s 1
H K
exp Rn n C s s
H
K H K
dato che: x n,s Rn e x n,s Cs exp Rn n C s s P xns | n , s H Kn 1 s 1
n 1
1 exp n s
s 1 n 1 s 1
n 1 s 1
H K
exp Rn n exp C s s
Indice
P xns | n , s n 1 s 1 Diomostrazioni
H K
1 exp s
Per evidenziare SEPARABILITA'
n
n 1 s 1
H K
stima dei parametri
La verosimiglianza () exp Rn n C s s
(algoritmo UCON)
(prob. di osservare la matrice XHK) Pxns | n , s H Kn 1 s 1
è pertanto:
1 exp n s
n 1 s 1
Prendendo il logaritmo:
H K H K Vincolando a zero K si ottengono le
log Rn n Cs s log1 exp n s l’origine dell’asse s 0 derivate parziali
n 1 s 1 n 1 s 1 della difficoltà s 1 (prime e seconde)
K
H
Rn ns n 1, H Cs ns s 1, K
n s 1 s n 1 expn s
n, s
1 expn s
dove:
2 K
2 H
ns 1 ns ns 1 ns
n2 s 1 s2 n 1
Dato che gli score di riga sono statistiche sufficienti per le stime delle abilità, tutti gli individui con identico score
avranno la stessa stima dell'abilità, così conviene stabilire le seguenti convenzioni notazionali:
br stima dell' abilità ( ) di ogni individuo con score r
d s stima della difficoltà ( ) di ogni item s
N r numero di individui con score r
expbr ds
si può così scrivere l'equazione che definiscela probabilità stimata pr ,s
che una persona con score r risponda correttamente all'item s : 1 expbr ds
H K 1 Indice
se le stime sono consistenti... ns Nr prs
n1 r
Diomostrazioni
stima dei parametri Algoritmo di stima UCON (B.D. Wright, M.H. Stone, 1979, p. 64):
(algoritmo UCON)
Indice
2. si definisce l'insieme dei valori di inizializzazione di (ds): Diomostrazioni
1. si definisce l'insieme dei valori di inizializzazione di (br): (tali che d 0 ) K H C
r H Cs
log s
br0 log r 1, K 1 d s0 log s 1 Cs s 1, K
K r
C s H
3. Indicando con z il generico passo del processo 4. Indicando con j e w il generico passo dei processi
iterativo principale, si definisce: iterativi secondari, si definisce
(ponendo alla prima iterazione d sj d s0 e brw br0 ) (ponendo alla prima iterazione d sj d s0 e brw br0 )
d sz d sj ; brz brw K 1
Cs N r prsj
d sj 1 d sj r 1
s 1, K
5. SE d j 1
d 0.01
j
K 1
p 1 p
j j
p
exp brz dsj
j
rs rs
in cui
1 exp brz dsj
r 1 rs
ALLORA VAI a (4) , ALTRIMENTI prosegui;
K
r prsw
6. si ridefinisce l'insieme (ds) in modo tale che: d 0
8. brw1 brw s 1
r 1, K 1
K
7. d sz 1 d sj 1 p 1 p w w
rs rs
s 1
exp brw dsz1
p j
w 1
9. SE b b 0.01
w in cui
1 exp br dsz1
rs
ALLORA VAI a (8) , ALTRIMENTI prosegui;
10. SE
d z 1
dz 2
0.0001
11. brz 1 brw1 STOP
Le stime sono
fornite dagli insiemi: d sz 1 e brz 1
K 1 1
Stime asintotiche
ALLORA VAI a (3) , ALTRIMENTI prosegui;
degli errori standard 2 2
1 1
Le stime (ds) così ottenute, sono distorte dalla presenza del parametro relativo alle abilità SEbr K SEds K1
(n) nell'equazione di verosimiglianza (Andersen, 1973)
p 1 p N p 1 p
La distorsione viene corretta (Wright & Douglas, 1975) moltiplicando le stime della
rs rs r rs rs
difficoltà per il fattore: (K-1) / K s1 r1
exp n s
Pxn ,s 1| ,
1 exp n s Traccia di tre item (1=-1.0; 2=0.0; 3=+1.0)
Traccia di un item (1=0.0)
P(xn,s=1) P(xn,s=1)
1 1
0.85
0.68
0.5
0.50
0.44
0
(n - s ) 0.27
0.12
un individuo più abile ha una probabilità maggiore,
rispetto ad un individuo meno abile, di superare 0 (n - s )
ciascun item;
ogni individuo ha una probabilità maggiore di
superare un item facile rispetto ad un item più
difficile
Pn , s b Pn , s exp n s Indice
n log n Pn , s
1 Pn , s ds 1 Pn , s
s
1 exp n s
xn,s = 1 oppure 0 Congruenza
D_1 D_2 ... D_K DATI MODELLO D_1 D_2 ... D_K
I_1 x1,1 x1,2 ... x1,K
exp n s I_1 P̂1,1 P̂1, 2 ... Pˆ1, K
Pxn ,s 1| ,
1 exp n s Pˆ2, K
I_2 x2,1 x2,2 ... x2,K I_2 P̂2,1 P̂2, 2 ...
.... ... ... ... ... .... ... ... ... ...
I_H xH,1 xH,2 ... xH,K 1 exp ˆn ˆs I_H PˆH ,1 PˆH , 2 ... PˆH , K
è possibile ottenere una stima ...
della varianza delle risposte riprodotte
wns Pˆns 1 Pˆns
... e può essere ottenuto
... così da ottenere una prima e immediata indicazione sulla capacità del processo di
l’errore standard
misurazione messo in atto di rappresentare efficacemente il tratto latente considerato
per ogni misura stimata...
1 1 ITEM1 ITEM2
2 2
1 1
SE n K SE s H
SE ˆ1 ITEM1 ITEM2
SE ˆ2
w w
ns
ns ?
s 1 n 1
SE ˆ1
SE ˆ2
xn,s = 1 oppure 0 Congruenza
D_1 D_2 ... D_K DATI MODELLO D_1 D_2 ... D_K
I_1 x1,1 x1,2 ... x1,K
exp n s I_1 P̂1,1 P̂1, 2 ... Pˆ1, K
Pxn ,s 1| ,
1 exp n s Pˆ2, K
I_2 x2,1 x2,2 ... x2,K I_2 P̂2,1 P̂2, 2 ...
.... ... ... ... ... .... ... ... ... ...
I_H xH,1 xH,2 ... xH,K 1 exp ˆn ˆs I_H PˆH ,1 PˆH , 2 ... PˆH , K
Individui e domande si
La matrice dati osservata possiede le comportano secondo le
CONTROLLO ASSUNTI FORMALI caratteristiche minime necessarie per attese del modello?
MISURAZIONE giungere a delle misure?
Soddisfatta se le righe e le colonne della generica matrice AML possono essere permutate in modo tale che i suoi elementi crescano monotonicamente da sinistra a destra
e dall'alto al basso. In modo tale da generare la matrice A’ML il cui generico elemento p gode delle seguenti proprietà:
Indice
xn,s = 1 oppure 0 Congruenza
DATI MODELLO D_1 D_2 ... D_K
D_1 D_2 ... D_K
I_1 P̂1,1 P̂1, 2 ... Pˆ1, K
I_1 x1,1 x1,2 ... x1,K
exp n s Pˆ2, K
Pxn ,s 1| , I_2 P̂2,1 P̂2, 2 ...
I_2 x2,1 x2,2 ... x2,K
1 exp n s I_3 P̂3,1 ... Pˆ3, K
I_3 x3,1 x3,2 ... x3,K
P̂3, 2
exp ˆn ˆs .... ... ... ... ...
STIME Pˆxn ,s 1
.... ... ... ... ...
I_H xH,1 xH,2 ... xH,K 1 exp ˆn ˆs I_H PˆH ,1 PˆH , 2 ... PˆH , K
Individui e
Le misure a cui si è giunti sono compatibili domande si
CONTROLLO ASSUNTI con le aspettative teoriche del processo che comportano
MODELLIZZAZIONE secondo le attese
si assume abbia prodotto i dati osservati? del modello?
1 1
2 2
ens x ns Pˆns w ns Pˆns 1 Pˆns
SE n K
1
SE s H
1
w w
s 1
ns
n 1
ns
Residui
standardizzati
zns
x ns Pˆns
1
Medie quadratiche non ponderate (OUTFIT) w ns2 Medie quadratiche ponderate (INFIT)
w ns
s 1
w ns
n 1
Indice
Individui e
Congruenza domande si
DATI MODELLO comportano
secondo le attese
del modello?
H individui (1 ≤ n ≤ H) K item (1 ≤ s ≤ K) Qui con riferimento agli ITEM (e specularmente per gli INDIVIDUI)...
ˆ
2 1
Varianza 1 K
1 K
S
H
delle Stime
SD
2 Errore
S s wns
2 Varianza del
MSE
2 2
K
s
Standard Errore Standard s
s 1
n 1 K s 1
Varianza Corretta
SA2 SD2 MSE2 Radice Quadrata della
(delle Stime)
Varianza dell'Er.Std. RMSE MSE2
Indice
Esempio di stima: modello di Rasch (base) Software: WINSTEPS Version 3.68.2
matrice dati: D2XTH02M (98x30) 2 Cat. di risposta
(I dati sono ottenuti tramite SIMULAZIONE)
Codice
RISPOSTE Istruzioni (Winsteps)
IDENTificativo
(nell'ordine: da sinistra a destra, elenco
(98 individui) &INST
CODICE IDENTIFICATIVO di ciascuna DOMANDA
XFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\XFILE.RWF
PFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\PFILE.RWF
S4M07_00000000000000000000000000001100 IFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\IFILE.RWF
S4M07_04000000000000000000001000010000 D4P50_00 ISFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\SFILE.RWF
D5P39_00 CSV=N
S4M07_05000000000000000000000000011000
D4P50_01 HLINES=N
S2M85_03000000000000000000000100001000 PRCOMP=S
S4M07_02000000000000000000001000000101 D5P39_01
DISCRIM=YES
D2P82_00
S4M07_03000000000000000001000000000011 OUTFIT=Y
D2P82_01
S2M99_07000000000000000000000000001101 TITLE='MATRICE: D2XTH02M 98X30'
D2P02_01 NI=30
S0M57_01000000000000010111111111111111 D2P02_00 XWIDE=2
S0M57_06000000000010110101011111111111 D1P56_01 CODES=" 0 1"
S0P48_01000000000001001110111111111111 D1P56_00 CLFILE=*
S0P48_08000000000001101110111111111111 D0P53_01 0_FALSO
S0P48_06000000001000001111111111111111 D0P53_00 1_VERO
S0P48_04000000000000111111101111111111 D0M06_00 *
D0M06_01 ITEM=ITEM
S2P78_03000100101011111111111111111111
D0M52_00 ITEM1=9
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: NAME1=1
::::::::::::::::::::::::::::::::::::::::::::::::::: D0M91_00
PERSON=USER
D0M52_01
S2P78_01000000011111111111111111111111 NAMLEN=8
D0M91_01
S3P16_05011000001111111111111111111111 D1M79_01
MODELS=R
S3P16_02000011011111011111111111111111 GROUPS=
D1M53_01 STKEEP=Y
S3P16_01000001011111111111111111111111 D1M53_00 CURVES=111
S2P78_09000010111111110111111111111111 D2M34_00 DATA=F:\WT\WTPROVA\D2XTH02M\RASCH_R\D2XTH02M.DAT
S2P78_06000001011111111111111111111111 D1M79_00 &END
S2P78_05000011111011011111111111111111 D2M34_01 D4P50_00
S2P78_04000000111111111111111111111111 D3M04_01 D5P39_00
D3M19_00 D4P50_01
S3P16_08010010101111111111111111111111
D3M04_00 D5P39_01
S3P16_03000011011111111111111111111111 ::::::::::::::::::: (elenco domande prosegue) ::::::::
S4P54_07000101111111111111111111111111 D3M19_01
D3M46_01
D3M46_01
S4P54_05010101110111111111111111111111 D3M46_00
D3M46_00
S4P54_01000011111111111111111111111111 END NAMES
S4P54_02001111111111111111111111111111 &END
S4P54_03101111111111111111111111111111
Indice
REAL e MODEL sono due modi di
OUTPUT TABLES (3.1) Summary Statistics
calcolare le stesse statistiche:
possono essere considerati come
TABLE 3.1 MATRICE: D2XTH02M 98X30 "limiti di confidenza"
INPUT: 98 USERS 30 ITEMS MEASURED: 98 USERS 30 ITEMS 2 CATS WINSTEPS 3.68.2
-------------------------------------------------------------------------------- REAL=> Inferiore ("peggiore";
MODEL => Superiore ("migliore")
SUMMARY OF 98 MEASURED USERS
-------------------------------------------------------------------------------
Radice Quadrata della
| RAW MODEL INFIT OUTFIT | 1 Varianza dell'Er.Std.
| SCORE COUNT MEASURE ERROR MNSQ ZSTD MNSQ ZSTD |
|-----------------------------------------------------------------------------|
| MEAN 14.9 30.0 -.08 .67 .98 -.1 .85 .1 | Radice Quadrata della
| S.D. 8.5 .0 3.23 .11 .38 1.0 1.26 .8 | 2 Varianza Corretta
| MAX. 29.0 30.0 6.95 1.13 2.63 2.9 9.90 4.8 | (delle Stime)
| MIN. 2.0 30.0 -4.93 .54 .33 -2.1 .09 -.8 |
1 2 3 4
|-----------------------------------------------------------------------------| ADJ.SD SA2
| REAL RMSE .72 ADJ.SD 3.15 SEPARATION 4.35 USER RELIABILITY .95 |
|MODEL RMSE .68 ADJ.SD 3.16 SEPARATION 4.65 USER RELIABILITY .96 | Indice di
| S.E. OF USER MEAN = .33 | 3 Separazione
-------------------------------------------------------------------------------
USER RAW SCORE-TO-MEASURE CORRELATION = .99
4 Attendibilità
CRONBACH ALPHA (KR-20) USER RAW SCORE RELIABILITY = .95
Indice
(2 di 3) Ulteriori elaborazioni grafiche ottenute con il software SAS
Indice
(3 di 3) Ulteriori elaborazioni grafiche ottenute con il software SAS
Indice
Linee di evoluzione Item Response Theory
exp n s
Modello “base”:
effetti fissi;
Pxn ,s 1| ,
1 exp n s
due “aspetti” (abilità <-> difficoltà);
risposte dicotomiche;
un parametro (bn / ds)
Effetti “random”
Indice
Linee di evoluzione Effetti “random”
Uno degli ASSUNTI del modello “base” consiste nel principio di indipendenza locale: a parità di abilità, le risposte
fornite da ciascun individuo a ogni coppia di item sono staticamente indipendenti)
M. R. Comaway, 1990, A Random Effetcs Model for Binary Data, Biometrics, 46, 317-328
Indice
di evo...
Indice
Linee di evoluzione Più aspetti (Many-facets) ESEMPIO TRE ASPETTI (RISPOSTE DICOTOMICHE)
<<H individui vengono sottoposti ad un certo numero (K) di prove e ogni prova viene valutata, in
maniera indipendente da G giudici>>
I N D I V I D U U I (H)
I_1D_1 x1,1D_2 x1,2... ...D_K x1,K
A B I L I T A’
I_1D_1 x1,1D_2 x1,2... ...D_K x1,K
I_2 x2,1 x2,2 ... x2,K
G)
I_1 x1,1 x1,2 ... x1,K
A’
I_2 I_3 x2,1 x x2,2 x ... ...x2,K x
I(
IT
3,1 3,2 3,K
IC
I_2 x x ... x
I_3 .... x3,1 ... x3,2 ... ... ...x3,K ...
2,1 2,2 2,K
R
D E
I_3 .... xI_H
3,1 ... x3,2 ... ... ...x3,K ...
IU V
xH,1 xH,2 ... xH,K E
....
G S
I_H ... x ... x ... ... ... x
H,1 H,2 H,K
I_H xH,1 xH,2 ... xH,K PROVE o DOMANDE (K) DIFFICOLTA’
exp n s exp n s j
Pns Pnsj
1 exp n s 1 exp n s j
Indice
linee di evo...
<MOLTO CONTRARIO> 0
ESEMPIO (1)
<CONTRARIO> 1 xn,s = 0, 1, 2, 3, ..., Q
Domanda:
D_1 D_2 ... D_K
<<TUTTI GLI UOMINI SONO MORTALI>>
<D’ACCORDO> 2 I_1 x1,1 x1,2 ... x1,K
nessuna risposta
0
Dove le risposte Xn,s
possono essere ottenute,
ESEMPIO (2)
1 per ciascun item, come...
Domanda:
<<DISEGNA UN CERCHIO>> 2
(possibili risposte e codifica)
3
Indice
Linee di evoluzione Più categorie di risposta s1 = difficoltà di superare
la “SOGLIA” : 1 (0 1)
fra i “GRADINI”: 0 e 1
Indice
Modello “BASE” Modello “GENERALIZZATO”
Pns1 Pnsx
1 exp n s1 P j 0
exp n sj Pnsx 1 Pnsx 1 exp n sx
nsx M w s
xn,s = 0, 1, 2, 3, ..., Q
w0 j 0
D_1 D_2 ... D_K
dove : x 1, 2,..., M
I_1 x1,1 x1,2 ... x1,K dove : x 0,1, 2,..., M s
s
I_2 x2,1 x2,2 ... x2,K Esprime la probabilità che l’individuo n manifesti un
I_3 x3,1 x3,2 ... x3,K Esprime la probabilità che punteggio x sull’item s come funzione di un parametro
.... ... ... ... ... l’individuo n manifesti un dell’abilità (n) e di un parametro (sx) che governa la
I_H xH,1 xH,2 ... xH,K punteggio x sull’item s transizione dal livello di prestazione (x-1) al livello di
prestazione x dell’item s
Se le risposte Xn,s sono ottenute come...
“Partial Credit” sx sx
(Masters, Wright, 1981)
ATTRIBUZIONE A CATEGORIE
ORDINATE (SCALE LIKERT)
“Rating Scale” sx s x
(Andrich, 1978; Masters, 1980)
CONTEGGIO DI SUCCESSI
x
“Binomial Trials” sx s log
M x 1
PROVE BINOMIALI
(Rasch, 1972; Andrich, 1978)
x
“Poisson Counts” sx s log
M x 1
CONTEGGI POISSONIANI
(Rasch, 1960;)
ATTRIBUZIONE A CATEGORIE
Linee di evoluzione Più categorie di risposta ORDINATE (SCALE LIKERT)
Esempio (ADATTATO)
“Rating Scale” Entrambi considerano le difficoltà (s1 , s2 ,...) di ogni “Partial Credit”
successiva “SOGLIA” nell’ambito dell’item [non riguardano
(Andrich, 1978; Masters, 1980) la probabilità d raggiungere un “gradino” (performance
(Masters, Wright, 1981)
level di Samejima, 1969), ma la probabilità di superare
exp n sj
exp n sj j
x x
una “soglia” sulla (non condizionata alla) probabilità di
superare la precedente]
j 0 j 0
Pnsx Entrambii consentono la separabilità delle abilità dalle Pnsx
exp sj exp j
Ms w Ms w
difficoltà, quindi “oggettività specifica”
n
dove : x 0,1, 2,..., M Si differenziano... dove : x 0,1, 2,..., M n sj
w 0 j 0 s s w 0 j 0
STIME
ITEM ˆs ˆ1 1.3 ˆ2 0.9 STD. ERROR ITEM ˆs1 ˆs 2 STD. ERROR
e FIT
e FIT
ITEM ˆs ˆ1 1.3 ˆ2 0.9 STD. ERROR ITEM ˆs1 ˆs 2 STD. ERROR
e FIT
e FIT
Rappresentazione delle difficoltà D1 -3.1 +0.4 ...
D1 -1.5 = -1.3 = +0.9 ...
delle SOGLIE
D2 -0.9 = -1.3 = +0.9 ... D2 -2.1 +0.7 ...
(dal GRADINO <<Per nulla>> a <<Molto>>)
D3 +0.7 = -1.3 = +0.9 ... per ogni item D3 -2.5 +1.7 ...
D4 +1.3 = -1.3 = +0.9 ... D4 -1.7 +2.0 ...
D5 +1.7 = -1.3 = +0.9 ... D5 -0.5 +4.1 ...
MORTE-FERITE
PERDITA ABITAZ.
Per nulla Poco Molto Per nulla Poco Molto
PERDITA BENI
NO SERVIZI
NO VIABILITA’
n n
exp n s1
Pns1
1 exp n s1
s
s
logit n logit n
Risposte POLITOMICHE
(3 gradini; 2 soglie; x = 0, 1, 2)
Pns 2
exp n sj
x Pnsx Pns 0
j 0
Pns1
Pnsx
exp sj
Ms w
s
n
w0 j 0
dove : x 0,1, 2,..., M
s
logit n s1 s2 logit n
Pns 2 DIAGNOSTICA
Pns 0 Pns 0 Pns 2 (utilizzo categorie di risposta)
Pns1 ? Pns1 ?
Indice
linee di evo...
exp n s expC s n s
P xn ,s 1| , Pns s 1 s
1 exp n s 1 expC s n s
xn,s = 0, 1
D_1 D_2 ... D_K
C è un fattore di scala (Costante) ;
C = +1.7 approssima la funzione logistica alla ogivale (probit)
I_1 x1,1 x1,2 ... x1,K
s è un fattore detto di “discriminazione”;
I_2 x2,1 x2,2 ... x2,K s è un fattore detto di “guessing”
I_3 x3,1 x3,2 ... x3,K
s = 0; s ≠ 1 (COSTANTE) 3PL s ≠ 0; s ≠ 1
Allontanandosi dal modello “base”, la proprietà dell’INVARINZA (OGGETTIVITA’ SPECIFICA) delle stime,
così come intesa da Rasch, viene meno.
Un certo “grado” di invarianza può tuttavia essere controllato empiricamente. Per esempio: <<... se due campioni
di individui, di differente abilità, vengono estratti dalla stessa popolazione e si ottengono le stime relative agli item
in ciascun campione, la congruenza fra i due insiemi di stime per ciascun parametro degli item può fornire una
indicazione sul grado con cui l’invarianza tiene...>> (R.K. Hambleton, H. Swaminathan, H.J. Rogers, 1991, p. 24)
n 1.0
s 0.0
ITEM1 ITEM2 ITEM3
0.0
0.0 Indice
Linee di evoluzione Curve caratteristiche degli item (ICC) Più parametri (1PL, 2PL, 3PL)
expC s n s
Pns s 1 s
1 expC s n s
ITEM1 ITEM2
Pns = 0.6
n 0.7
s 0.0 0.0 s 0.0
s +1.0 +1.0 Pns = 0.27
s 0.0 +0.2 n 0.7
Pns = 0.08 s 0.0
0.0
Pns = 0.5 QUANDO...
ITEM1 ITEM2 ITEM3
n = -0.5
s 0.0 -1.0 +1.5
n = +0.6
s +1.0 +0.4 +1.0
s 0.0 0.0 +0.2
Indice
linee di evo...
Modello “base”:
effetti fissi; exp n s
Pxn ,s 1| ,
1 exp n s
due “aspetti” (abilità <-> difficoltà);
risposte dicotomiche;
un parametro (bn / ds)
Indice
Confrontabilità...
(in un test)
Con lo scopo di valutare il grado di preparazione conseguito nella risoluzione di espressioni algebriche,
il prof. A somministra ai suoi studenti il TEST A composto da 5 domande e ottiene i seguenti risultati...
TEST A
exp n s
DOMANDA TESTO Pxn ,s 1| ,
A1 2x
1
0
1 exp n s
2
A2 x 2 x 2 2
A3 x 2 1 x 1 x 1 x 1
ADELE è certamente
A4 11 più abile di ANNA;
x x x x2
2
IDENT A1 A2 A3 A4 A5 Punteggio
IDENT A1 A2 A3 A4 A5 Punteggio
ANDREA
IDENT (A_N12)
A1 1A2 0A3 0A4 0A5 0Punteggio 1
ANDREA (A_N12) 1 0 0 0 0 1
ANNA (A_N15) 1 1 0 0 0 2
ANDREA (A_N12) 1 0 0 0 0 1
ANNA (A_N15) 1 1 0 0 0 2
ALDO (A_N6) 1 1 0 1 0 3
ANNA (A_N15) 1 1 0 0 0 2
ALDO (A_N6) 1 1 0 1 0 3
ADELE (A_N1) 1 1 1 0 1 4
ALDO (A_N6) 1 1 0 1 0 3 Indice
ADELE (A_N1) 1 1 1 0 1 4
ADELE (A_N1) 1 1 1 0 1 4
Confrontabilità... DOMANDE UGUALE DIFFICOLTA'
Adele è certamente più abile di Anna; ma quanto più abile?
(in un test)
Un esempio...
ANDREA ANNA ALDO ADELE (punteggi grezzi)
(A_N12) (A_N15) (A_N6) (A_N1)
TEST A ANNA ANDREA = 2 – 1 = 1
ALDO ANNA =3–2=1
Punteggi grezzi 0 1 2 3 4 5 ADELE ANNA = 4 – 2 = 2
(score)
Abilità
TEST
A
Difficoltà
A1 A2 logit A3 A4
(-3.79) (-2.94) (+1.60) (+2.20)
A5
(+2.92)
Indice
esempi....
Indice
Confrontabilità... Esempio... Due
(due o più test)
domande...
... più
difficili !
FACILE A1 A1 FACILE
A2 A2 +
+
A3 A3 DIFFICILE
A4 B4 ++
DIFFICILE
A5 B5 DIFFICILE
COME GARANTIRE LA
CONFRONTABILITA' ?
Indice
Due classi di 30 alunni ciascuna
Risposta corretta = 1
Righe e colonne arrangiate
(dall'alunno meno al più abile; dalla domanda meno alla più difficile)
IDENT A1 A2 A3 A4 A5 Punteggio
IDENT A1 A2 A3 A4 A5 Punteggio
IDENT(A_N12)A1 1 A2 0 A3 0 A4 0 A5 0 Punteggio
ANDREA 1
ANDREA (A_N12) 1 0 0 0 0 1
ANNA(A_N12)
ANDREA (A_N15) 1 1 0 1 0 0 0 0 0 0 1 2
ANNA (A_N15) 1 1 0 0 0 2
ALDO (A_N6)
ANNA (A_N15) 1 1 1 1 0 0 0 1 0 0 2 3
ALDO (A_N6) 1 1 0 1 0 3
ADELE (A_N1)
ALDO (A_N6) 1 1 1 1 0 1 1 0 0 1 3 4
ADELE (A_N1) 1 1 1 0 1 4
ADELE (A_N1) 1 1 1 0 1 4
IDENT A1 A2 A3 B4 B5 Punteggio
IDENT A1 A2 A3 B4 B5 Punteggio
IDENT (B_N12)
BERTA A1 A21 A3
0 B4
0 B5
0
Punteggio
0 1
BERTA (B_N12) 1 0 0 0 0 1
BERTA (B_N12)
BRUNO (B_N18)1 10 10 00 00 0 1 2
BRUNO (B_N18) 1 1 0 0 0 2
BRUNO (B_N18)
BARBARA 1
(B_N6) 11 10 00 10 0 2 3
BARBARA (B_N6) 1 1 0 1 0 3
BARBARA
BIAGIO (B_N6)
(B_N20)1 11 10 01 00 1 3 3
BIAGIO (B_N20) 1 1 0 0 1 3
BIAGIO (B_N20)
BIANCA (B_N13)1 11 10 10 01 1 3 4
BIANCA (B_N13) 1 1 1 0 1 4
BIANCA (B_N13) 1 1 1 0 1 4
Tre interrogativi:
1) Adele è certamente più abile di Anna; ma quanto più abile?
2) E' possibile "differenziare" la prestazione fornita da Barbara da quella di Biagio?
3) Adele e Bianca (Andrea e Berta, Anna e Bruno, Aldo e Barbara) hanno la stessa abilità?
Indice
1) Adele è certamente più abile di Anna; ma quanto più abile? DOMANDE UGUALE DIFFICOLTA'
(logit)
Abilità
TEST
A
Difficoltà
A1 A2 logit A3 A4
(-3.79) (-2.94) (+1.60) (+2.20)
A5
(+2.92)
Punteggi grezzi 0 1 2 3 4 5
(score)
BARBARA BIAGIO
(B_N6) (B_N20)
BERTA BRUNO BIANCA
(B_N12) (B_N18) (+1.91) (+1.91) (B_N13)
Abilità
TEST
B Difficoltà
A1 A2 logit B4 B5
(-4.29) (-3.45) (+2.88) (+4.37)
A3
(+0.50)
ABILITA' OUTF IT
(MNSQ)
... sensibile a risposte
IDENT A1 A2 A3 B4 B5 Punteggio (logit)
inattese, lontano dalla
BARBARA (B_N6) 1 1 0 1 0 3 +1.91 1.79
abilità dell'individuo ...
BIAGIO (B_N20) 1 1 0 0 1 3 +1.91 7.39
Indice
esempi...
Indice
3) Adele e Bianca hanno la stessa abilità? Adele e Bianca hanno ottenuto lo stesso punteggio grezzo “4”
rispondendo a due test (in parte) diversi...
Per convenzione (comodità) le stime vengono effettuate in modo che la media delle difficoltà sia
sempre pari a zero (logit) in ogni test;
tutte le misure (difficoltà, abilità) vengono ancorate a questo punto sul continuum;
ma la media delle abilità è libera e fornisce un indizio sulla "facilità / difficoltà" di ciascun test;
in questo caso ...
A1 A2 A3 A4
(-3.79) (-2.94) (+1.60) (+2.20) A5
(+2.92)
TEST A
=======
TEST B Difficoltà
A1 A2 logit B4 B5
(-4.29) (-3.45) (+2.88) (+4.37)
A3
(+0.50)
Bi Ai i 1 i 3 COV AB
B
A1 -3.79 -4.29
A2 -2.94 -3.45
A 0.90
VAR A
A3 +1.60 +0.50
TEST B+1
A3 "scalino" che separa
-1 0 +1 il test A dal test B
TEST A
-1
continua...
A2
CT (costante traslazione) Indice
per ricondurre test B in A (B + ||)
A1
... (prosegue): Adele e Bianca hanno la stessa abilità?
i due test congiunti ...
BARBARA
(B_N6)
(+2.81) BIANCA
BERTA BRUNO (B_N13)
ANDREA (B_N12) ANNA (B_N18) ALDO ADELE
(A_N12) (A_N15) (A_N6) (A_N1) (+5.30)
(-3.76) (-0.69)
(-4.06) (-0.90) (+1.96) (+3.44)
logit Abilità
Difficoltà
A1 A2 A3 A4 B4 B5
(-4.92) (-4.08) (+0.17) (+0.87) (+2.45) (+3.94)
A5
(+1.57)
- Abilità
Difficoltà
n + Abilità
Difficoltà
D3
IDEA!
n ? ˆˆ ˆˆ
ˆ ....
̂n
A.M.A.D.
(Auto Misuratore di Apprendimento Disciplinare)
n n
Indice
Applicazione... Test adattivi (Auto Misuratore di Apprendimento Disciplinare)
Il software... La procedura...
A.M.A.D.
P FUNZIONI ... G
?
Test di Prova Generatore
T di
Test
TEST
Implica...
COLLEGAMENTO DI TEST SOMMINISTRATI A
PERSONE DIVERSE CON DOMANDE DIVERSE
Indice
Applicazione... Test adattivi Banca delle domande (Auto Misuratore di Apprendimento Disciplinare)
Disciplina: Statistica Psicometrica (4 corsi per un totale di circa 600 studenti; di cui circa 400 N.O.)
a.a. 2001-2002 questionari (16 domande; 5 alternative di risposta);
somministrati durante i corsi = 6 (per un totale di 96 domande)
somminstrati come prova preliminare agli esami = 8 (per un totale di 128 domande)
ogni domanda è stata somministrata in 4-5 versioni (interscambiando la posizione della risposta corretta)
alcune domande sono state utilizzate in comune fra più questionari, così che il numero di domande
diverse (in versione base) è pari a 140 (circa 700 considerando le versioni alternative)
SOMMINISTRAZIONE Al momento:
TEST 1 le analisi sono state condotte su 6 questionari (417 individui)
96 domande (di cui 8 in comune)
SOMMINISTRAZIONE 3 domande sono state eliminate in fase di calibrazione
TEST 2 SOMMINISTRAZIONE nella "banca" sono presenti 85 domande (in versione base)
TEST 3, etc.
per un totale (considerando le versioni alternative) di 425
domande disponibili
STIME (RASCH)
Distribuzione delle domande sull’asse della difficoltà
10 -2.98 S +2.47
LINK
8
TEST1 TEST3
DOMANDE
TEST2
6
DIFFICOLTà
0
-4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -.5 .0 .5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Logit
BANCA DI
DOMANDE Indice
Indice
Indice
Indice
Indice
Applicazione... Test adattivi Simulazioni... (Auto Misuratore di Apprendimento Disciplinare)
N. DO M A ND A
GIUSTA * * * * * * * * *
ERRATA * * * * *
RISPOSTA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Indice
Applicazione... Test adattivi Simulazioni... (Auto Misuratore di Apprendimento Disciplinare)
3
2,7
2,4
2,1
Comportamento di risposta tipo “X” 1,8
1,5
1,2
Simulazione_S C4 – SC01_032_S 0,9
0,6
[abilità vera=-1.91] 0,3
Algoritmo di selezione domande: MAXINFO 0
-0,3
Domande somministrate=15; abilità -0,6
-0,9
stimata=+1.09; errore standard=0.53 -1,2
-1,5
GIUSTA * * * * * * * -1,8
-2,1
ERRATA * * * * * * * * -2,4
-2,7
RISPOSTA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 -3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
N. DOMANDA
V
Indice
Indice
esempi....
Qualche riferimento bibliografico e SOFTWARE
Rasch G., 1960, Probabilistic models for some intelligence and attainment tests, Danish Institute for Educational
Research, Copenhagen; edizione ampliata, Chicago, The University of Chicago Press, 1980.
******************
Andrich D., 1978, A rating formulation for ordered response categories, Psychometrika, XLIII, n.4, 561-573.
Andrich, D., 1988, Rasch Models for Measurement, Sage University Paper series on Quantitative Applications in
the Social Sciences, 07-068, Beverly Hills and London, Sage Pubns.
Wright B. D., Stone M. H., 1979, Best Test Design. Rasch Measurement, Chicago, MESA Press.
Wright B. D., Masters G. N., 1982, Rating Scale Analysis. Rasch Measurement, Chicago, MESA Press.
Birnbaum, A., 1968, Some latent trait models and their use in inferring an examinee’s ability;
in F. M. Lord and M.R. Novick, Statistical Theories of Mental Test Scores (chapters 17-20),
Reading, MA: Addison-Wesley.
van der Linden, W. J., & Hambleton, R. K.,1997, Handbook of Modern Item Response Theory. New-York:
Springer-Verlag.
Cristante F., Lucca A., 1989, Il modello logistico di Rasch e l'analisi di prove per la misura dello sviluppo
del pensiero logico, Contributi di Psicologia, vol. 2, n. 1, 3-17.
Giampaglia G., 1990, Lo scaling unidimensionale nella ricerca sociale, Napoli, Liguori Editore.
Giampaglia G., 1995, L'approccio di Rasch alla costruzione delle scale di atteggiamento, Napoli,
Edizioni Napolitane de il Sebeto.
Miceli R. 2001, Percorsi di ricerca e analisi dei dati. Torino: Bollati Boringhieri.
F. Cristante, S. Mannarini, 2004, Misurare in psicologia. Il modello di Rasch, Roma-Bari, Laterza.
Miceli R., 2005, Questionari e test, dati e modelli; in R. Miceli (a cura di), Numeri, dati, trappole. Elementi di
psicometria, Roma, Carocci