Sei sulla pagina 1di 251

UNIVERSITÀ DELLA VALLE D'AOSTA

Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA


del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli

UNIVERSITA' DEGLI STUDI DI TORINO


Gennaio 2012 DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati

Il presente file (in formato PDF) contiene le diapositive che, nel loro insieme, forniscono supporto visivo alle
lezioni del docente. Si raccomanda di NON considerare questo materiale alla stregua di un libro di testo! In
particolare è fortemente sconsigliata la stampa (su carta) di questo materiale. Alcune diapositive possono
essere presenti più volte in questo stesso insieme (doppioni), perchè questa sequenza di diapositive NON
rappresenta necessariamente l'ordine di utilizzo delle medesime a lezione. Inoltre, NON tutte le diapositive qui
riportate sono sempre utilizzate durante le specifiche lezioni dell'anno in corso...
!!! Si ricorda comunque che il presente materiale didattico non sostituisce i libri di testo !!!
Il presente materiale didattico é:
- utile per ripassare, ripensare e riflettere sugli argomenti trattati a lezione;
- utile per approfondire lo studio svolto sui libri di testo, consentendo di
confrontare modi diversi di presentare gli stessi argomenti e disponendo
di specifici esempi, commenti etc.;
- provvisorio e soggetto a continue revisioni e aggiornamenti;
- nella versione qui resa disponibile può risultare incompleto o di difficile lettura
in quanto alcune diapositive sfruttano caratteri, colori e/o animazioni
specifiche del software utilizzato (PowerPoint) che non sono altrimenti
riproducibili.
UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli

UNIVERSITA' DEGLI STUDI DI TORINO


Indice degli argomenti Gennaio 2012 DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati

Presentazione del corso e accertamento delle conoscenze iniziali

Introduzione: Descrivere, Spiegare, Interpretare (Misurare)


o Un esempio: Percezione del rischio e comportamenti di prevenzione

(Ripasso)

o la logica della decisione in statistica (test sulle ipotesi)

o misure di associazione per variabili cardinali (r)

o misure di associazione per variabili categoriali (2)


o analisi della varianza (come estensione del test sulla differenza fra medie)

o regressione lineare semplice


Presentazione
Gli argomenti...
• Analisi dei dati in psicologia: modelli della tradizione classica e post-classica
• (Ripasso)
- analisi della varianza (come estensione del test sulla differenza fra medie)
- regressione lineare semplice
• Modelli lineari (classici)
- regressione multipla (lettura dei parametri stimati, adattamento modello-dati)
- analisi della varianza (disegno a una via e fattoriale, stime: d'angolo e centrale)
- tipi di scomposizione della devianza spiegata
- esempi e applicazioni
• Modelli di probabilità (post-classici): analisi dei dati e processi di misurazione
- regressione logistica e analisi log-lineare (cenni)
- misurazione di tratti mentali (Item ResponseTheory), il contributo di Georg Rasch
- il modello di Rasch per risposte dicotomiche
- principali linee di evoluzione della Item Response Theory
- esempi e applicazioni
Bibliografia di base
(a) R. Miceli, 2001, Percorsi di ricerca e analisi dei dati, Torino, Bollati Boringhieri
(b) R. Miceli, 2004, (a cura di) Numeri Dati Trappole. Elementi di psicometria, Roma, Carocci editore

L'esame è orale. Una parte, anche consistente, di domande (del tipo a "scelta multipla") potrà essere
formulata in modalità scritta (correzione e valutazione saranno contestuali).
Gli studenti degli anni precedenti possono portare all'esame il programma dell'anno di riferimento;
l'esame è orale

 Il ricevimento studenti si svolge (di norma) il giovedì pomeriggio (h. 15-17) previo
appuntamento tramite e-Mail all'indirizzo: g.molinengo@univda.it oppure: r.miceli@univda.it

 Il materiale didattico usato dal docente durante il corso (appunti, diapositive,


etc.) verrà reso disponibile agli studenti al termine delle lezioni
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA Presentazione
del prof. Renato Miceli (a.a. 2011-2012)
Per il Corso di Laurea Magistrale in Psicologia

Una proposta (per chi frequenta il corso) ......

Solo per coloro che frequentano il corso e si presentano ai primi appelli della sessione estiva

(anche a piccoli gruppi di max 2 studenti) è possibile scegliere a propria discrezione un articolo
pubblicato su una rivista scientifica (italiana o straniera in lingua inglese o francese) che riguardi
uno studio empirico nel quale è stato utilizzato almeno uno dei modelli di analisi dei dati o di
misurazione studiati in questo corso.
Si chiede di redigere (utilizzando una 'griglia' predefinita e fornita dal docente) un breve
(1-2 pagine) resoconto scritto e un commento sull'articolo.

Il resoconto scritto e il testo dell'articolo dovranno essere consegnati al docente preferibilmente


in formato digitale entro (e NON OLTRE) il 31 maggio 2012.

Così facendo sarà possibile indirizzare su tale argomento una parte dell'esame

Durante il corso verranno illustrati alcuni esempi applicativi che si avvalgono della diagnostica
(OUTPUT) fornita dal software matematico-statistico SAS (Statistical Analysis System)

Fra il materiale didattico di supporto al corso saranno disponibili alcune diapositive che
riportano porzioni di output (tratte dalla diagnostica fornita dal software SAS) commentate in
modo da agevolare il riconoscimento dei principali aspetti utili per la valutazione e l'analisi dei
risultati nella stima dei diversi modelli

Si consiglia di affrontare lo studio del testo (Percorsi di ricerca e analisi dei dati) anche in
relazione a tali output diagnostici
Presentazione Psicologia, Psicometria...

Settore di ricerca della psicologia che si


PSICOMETRIA occupa della rilevazione e della misurazione
di costrutti (tratti) della mente

psicofisica (Fechner, 1860); relazione fra mente e corpo;


legge della 'soglia' minima percepita (Weber e Fechner).

Thurstone (1928); aspetti soggettivi


(gradimento estetico, preferenze, etc.),
'confronti a coppie' e 'legge dei giudizi comparativi'.
STORICAMENTE

psicologia applicata (studio differenze individuali)


(Galton -- Pearson, 1850-1930).

?
 come rilevare e registrare i fenomeni manifesti
....
PSICOLOGIA
 che legame è possibile stabilire fra fenomeni
manifesti e costrutti teorici METODOLOGIA

MATEMATICA
 quali strumenti di misura utilizzare o costruire
STATISTICA
....
Presentazione Psicologia, Psicometria... psicometria: coordinate "geografiche"...

Indagine conoscitiva: (speculazione filosofica; scienza; contemplazione mistica; critica letteraria; etc)
Scienze (della vita)

Psicologia (scienza che studia, descrive, interpreta la fenomenologia dei processi mentali)

Ricerca empirica: (successione di operazioni per produrre risposte a domande sulla realtà)
- produce affermazioni sulla realtà (asserti) o stabilisce nessi fra asserti;
- giustifica le affermazioni su una base empirica;
- produce un sapere controllabile.

Con matrice dati: (operativizzazione)


(si avvale della) Analisi dei dati per:
DESCRIVERE
SPIEGARE MISURARE
INTERPRETARE

(fa ampio uso di) MATEMATICA e STATISTICA


Presentazione L'analisi dei dati. Prospettiva classica e post-classica
IL CONCETTO DI MODELLO

LOGICI STATISTICI COMPUTAZIONALI


Teoria Teoria Teoria  Formalizzazione
• Calcolo
• Semantica
• Criterio di corrispondenza

Dati Dati Dati

antropologia, linguistica, sociologia, psicologia, ...,


simulazione, calibrazione
no parametri liberi stima dei parametri

ADEGUATEZZA (FIT) o FEDELTA'

<<Un modello presuppone sempre una analogia. E le analogie –


come del resto si dice anche delle traduzioni e delle donne – se
sono belle sono spesso infedeli e spesse volte, se troppo fedeli,
poco belle>> (R. Romano, 1981) ELEGANZA (PARSIMONIA) o BELLEZZA

<<La modellizzazione nella scienza rimane, almeno parzialmente,


un’arte. Esistono tuttavia alcuni principi che possono orientare
l’analista. Il primo è che tutti i modelli sono sbagliati; anche se alcuni
sono meglio di altri e noi dobbiamo cercare i migliori. ... Il secondo
principio (che vale anche per gli artisti!) consiste nel non rimanere
innamorati di un modello, escludendo le alternative. ...>>
(McCullagh P., Nelder J. A., 1983, p. 6)
Teoria
Presentazione L'analisi dei dati. Prospettiva classica e post-classica

(tecniche) Modelli matematico-statistici


Dati

"vecchio mondo"
Modelli (tecniche) : coordinate "storico-geografiche"...
un "Atlante" (L. Ricolfi, 1997)
Modelli di dipendenza Europa

MULTIVARIATE Modelli di attribuzione Asia

Africa
Scomposizioni
"nuovo mondo"
TECNICHE

Scaling America del nord

ASSEGNAZIONE

Clustering America del sud

Modelli (tecniche): in una prospettiva "operazionale"... “La maggior parte degli italiani è favorevole alla pena di morte”;
OPERAZIONI DI RICERCA (domande di conoscenza) “La xenofobia diminuisce al crescere del livello di istruzione”

DESCRIVERE Com'è Y ?
“L’istruzione è la principale determinante del reddito”

SPIEGARE Perché Y ?
“Le risposte fornite dagli intervistati alle domande z1, z2, .. zk
dipendono da una dimensione latente di xenofobia”
(INTERPRETARE)
MISURARE Cos'è Y ?
Teoria
L'analisi dei dati. Prospettiva classica e post-classica
Presentazione
(tecniche) Modelli matematico-statistici
Dati

Modelli (tecniche): in una prospettiva "formale"...


ASSUNTI SUL PROCESSO GENERATORE DEI DATI

Prospettiva "CLASSICA" Prospettiva "POST-CLASSICA"


La componente stocastica () del fenomeno (Y) La componente stocastica () del fenomeno (Y)
deve essere Normale può essere diversa dalla Normale

n
f  yi      yi 1    i
n y
1   1  2 Binomiale
f ( yi )   exp  2    y i   i   (yi  N° di successi)
2 2   2    yi 

- +

(esempio:  ormale) (esempio:  inomiale)


Prob. di osservare yi quando: OSSERVATO  yi  Prob. di osservare yi quando:
OSSERVATO  yi 
   yi   ; n  ( numero prove)  100;
"ATTESO"  ŷi 
"ATTESO"  ŷi    (Pr . successo )  1 5  0.20;
  0; 2  1;
Y E' (DEVE ESSERE) UNA VARIABILE CONTINUA Y E' UNA VARIABILE DISCRETA
Teoria L'analisi dei dati. Prospettiva classica e post-classica

Presentazione (tecniche) Modelli matematico-statistici

Dati
Modelli (tecniche): in una prospettiva "formale"...
ASSUNTI SUL PROCESSO GENERATORE DEI DATI

Prospettiva "CLASSICA" (Y = variabile continua) Prospettiva "POST-CLASSICA" (Y = variabile discreta)


(esempio ormale : N = 3; 1< i <3)
Prob. di osservare yi quando:
(esempio:  inom. : N = 3; 1< i <3)
(yi  N° di successi)
  yi   ; Prob. di osservare yi quando:
n  ( numero prove)  100;
  0; 2  1;
  (Pr . successo )  1 5  0.20;

ŷi yi ŷi yi
Teoria L'analisi dei dati. Prospettiva classica e post-classica Modelli (tecniche): INCROCIANDO
 la prospettiva "operazionale"
Presentazione (tecniche) Modelli matematico-statistici  la prospettiva "formale"
 .......................
Dati

P R O S PE T T I V A FORMALE

POST
CLASSICA
CLASSICA

P
R “Scomposizioni”
O
S DESCRIVERE LOG
P Com'è Y ? ACP LINEARE
E
T
T
I
V “Modelli di dipendenza”
Modello
A
SPIEGARE LINEARE Modello
CLASSICO LOGISTICO
O Perché Y ? Regressione (logit)
P Anova
E
R
A
Z
I “Scaling”
O (INTERPRETARE)
N IRT
A
MISURARE TCT (Rasch)
Cos'è Y ?
L
E
Test di ACCERTAMENTO delle CONOSCENZE INIZIALI

Perchè l'accertamento delle conoscenze preliminari?

 La psicometria è una disciplina "cumulativa"


 Consente di "mappare" le lacune e predisporre una "terapia" di ripasso
 Consente di valutare il contributo specifico di conoscenze attribuibili al corso che stiamo iniziando
 Consente di valutare l'apprendimento ottenuto tramite i corsi precedenti

Il risultato individuale conseguito al termine del test


INFLUENZA NO!
la valutazione all'esame?
Introduzione....

DESCRIVERE SPIEGARE

INTERPRETARE
(MISURARE)

Un esempio...
Introduzione.... Qualche esempio...
<<... moreover, both theoretical and empirical evidence suggests that risk
o percezione del rischio e
comportamenti di prevenzione
perceptions alone are insufficient to account for households' adoption of
hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
"Correlates of Household Seismic Hazard Adjustment Adoption"
IL FENOMENO...

COMPORTAMENTI
PERCEZIONE DEL RISCHIO
PREVENTIVI

+ +

?
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
"Correlates of Household Seismic Hazard Adjustment Adoption"
GLI AUTORI...

CAMPIONE: 168 studenti universitari abitanti nell'area metropolitana di Los Angeles; incentivati alla partecipazione da "crediti extra";
STRUMENTO: questionario auto-somministrato;

PERCEZIONE DEL RISCHIO Definizioni operative COMPORTAMENTI PREVENTIVI

Le elencherò alcuni comportamenti che le persone adottano


Pensando ai prossimi 5 anni, ad un TERREMOTO che per far fronte ai TERREMOTI. Pensando ad una tale
coinvolga la zona in cui abita quanto è PROBABILE che... eventualità, Lei o qualcuno della sua famiglia ...
["per nulla"<--------->"molto"] [(1) <---------> (5)] ["SI", "NO"] [(1) , (0)]

 provochi danni nella California del sud...  Possiede un estintore?


 provochi danni a Long Beach...  Tiene in efficienza radio e torcia elettrica funzionanti a pile?
 provochi danni alle sue proprietà...  Ha messo da parte scorte di cibo e acqua?
 provochi danni (ferite) alla sua persona...  Possiede una cassetta di pronto intervento sanitario?
 .... etc. etc. (12 comportamenti)
Analisi

coerenza interna? attendibilità? calcolo punteggi? variabili considerate

M SD
r*WJ  PR 2.97 0.74
PR 0.58 PR 0.80 PR  CP 4.79 3.00
CP 0.11 CP 0.77 CP  GENERE (M =1) 0.35 0.48
ETA' 25.90 6.00

modellizzazione... SEGUE...

Per ragioni espositive, i passi del processo di analisi sono stati adattati alle nostre esigenze, mantenendone il senso.
I dati sono frutto di una nostra simulazione che, nella sostanza, riproduce quanto riportato nello studio dagli autori
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000
"Correlates of Household Seismic Hazard Adjustment Adoption"
GLI AUTORI...

modellizzazione... The SAS System


(dati simulati) The REG Procedure
Model: MODEL1
Dependent Variable: cp
Analysis of Variance

Sum of Mean
The SAS System Source DF Squares Square F Value Pr > F
The MEANS Procedure Model 3 93.42858 31.14286 3.62 0.0144
Variable N Mean Std Dev Error 164 1409.57142 8.59495
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Corrected Total 167 1503.00000
eta 168 25.9000000 5.9821162
pr 168 2.9700000 0.7377943
Root MSE 2.93171 R-Square 0.0622
cp 168 4.7600000 2.9910581
Dependent Mean 4.76000 Adj R-Sq 0.0450
genere 168 0.3500000 0.4785693
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Coeff Var 61.59063

Parameter Estimates

Parameter Standard Standardized


Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 2.75740 1.36376 2.02 0.0448 0


genere 1 0.20397 0.47606 0.43 0.6689 0.03264
eta 1 0.11710 0.03790 3.09 0.0024 0.23419
pr 1 -0.37090 0.30866 -1.20 0.2312 -0.09149
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000

NOI CONTROLLIAMO (1) ... Definizioni operative (ANALOGHE) "Correlates of Household Seismic Hazard Adjustment Adoption"

PERCEZIONE DEL RISCHIO COMPORTAMENTI PREVENTIVI

Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE Le elencherò alcuni comportamenti che le persone adottano per
con FRANE e smottamenti che coinvolga la zona in cui abita far fronte ai PERICOLI IDROGEOLOGICI. Pensando ad una
quanto è PROBABILE che... tale eventualità, Lei o qualcuno della sua famiglia ...
["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3] ["SI", "NO"] [(1) , (0)]

 viabilità interrotta...  Ha seguito un corso di pronto soccorso?


 servizi (luce, telefono, acqua, etc.) interrotti...  Tiene in efficienza radio e torcia elettrica funzionanti a pile?
 suoi beni ... danneggiati...  Ha messo da parte scorte di cibo e acqua?
 sua abitazione principale danneggiata...  Ha concordato con i familiari il da farsi in caso di emergenza?
 Lei, o persone care, subiscano danni fisici  .... etc. etc. (9 comportamenti)

CAMPIONE: 407 maggiorenni residenti (da almeno 5 anni) nella valle del Lys in Valle d'Aosta (giugno 2005);
STRUMENTO: questionario somministrato con metodologia CATI;
Analisi

coerenza interna? attendibilità? calcolo punteggi? variabili considerate

variabili N M SD
r*WJ  PR 392 8.35 3.18
PR 0.70 PR 0.76 PR  CP 401 3.17 1.88
CP 0.05 CP 0.60 CP  GENERE (M =1) 407 0.44 0.50
ETA' 407 49.94 15.93

Lo studio è stato svolto con il contributo della Regione Valle d'Aosta, nell'ambito del progetto
dell'Unione Europea PIC INTERREG III A 2000-2006 ALCOTRA (Gestione Sociale dei Rischi Naturali) modellizzazione... SEGUE...
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000

NOI CONTROLLIAMO (1) ... Definizioni operative (ANALOGHE) "Correlates of Household Seismic Hazard Adjustment Adoption"

The REG Procedure


modellizzazione...
Model: MODEL1
Dependent Variable: cp
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 3 38.08191 12.69397 3.74 0.0114


Error 382 1296.91291 3.39506
Corrected Total 385 1334.99482

Root MSE 1.84257 R-Square 0.0285


Dependent Mean 3.13472 Adj R-Sq 0.0209
Coeff Var 58.77947

Parameter Estimates
SI CONFERMA!
MA...
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 2.10717 0.41519 5.08 <.0001 0


genere 1 0.51060 0.18979 2.69 0.0075 0.13612
eta 1 0.00715 0.00589 1.21 0.2253 0.06131
pr 1 0.05362 0.02989 1.79 0.0736 0.09081
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000

NOI CONTROLLIAMO (2) ... DIVERSA definizione di PR "Correlates of Household Seismic Hazard Adjustment Adoption"

PERCEZIONE DEL RISCHIO

VALUTAZIONE COGNITIVA... VALUTAZIONE EMOTIVA...

Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE
con FRANE e smottamenti che coinvolga la zona in cui abita con FRANE e smottamenti che coinvolga la zona in cui abita
quanto è PROBABILE che... quanto è PREOCCUPATO/A che...
["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3] ["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3]
(+)
 viabilità interrotta...  viabilità interrotta...
 servizi (luce, telefono, acqua, etc.) interrotti...  servizi (luce, telefono, acqua, etc.) interrotti...
 suoi beni ... danneggiati...  suoi beni ... danneggiati...
 sua abitazione principale danneggiata...  sua abitazione principale danneggiata...
 Lei, o persone care, subiscano danni fisici  Lei, o persone care, subiscano danni fisici

unidimensionalità? variabili considerate


“Partial Credit Model” (Masters, Wright, 1981)
coerenza interna?
Item Response Theory
attendibilità?
(Georg Rasch, 1960) variabili N M SD
calcolo punteggi?
PR 396 0.44 1.62
CP 401 3.17 1.88
GENERE (M =1) 407 0.44 0.50
ETA' 407 49.94 15.93
Introduzione.... Qualche esempio... o percezione del rischio e <<... moreover, both theoretical and empirical evidence suggests that risk perceptions
comportamenti di prevenzione
alone are insufficient to account for households' adoption of hazard adjustements.>>
M. K. Lindell and D. J. Whitney, Risk Analysis, Vol. 20, No 1, 2000

NOI CONTROLLIAMO (2) ... DIVERSA definizione di PR "Correlates of Household Seismic Hazard Adjustment Adoption"

The REG Procedure modellizzazione...


Model: MODEL1
Dependent Variable: cp
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 3 43.20468 14.40156 4.23 0.0059


Error 386 1315.61840 3.40834
Corrected Total 389 1358.82308

Root MSE 1.84617 R-Square 0.0318


Dependent Mean 3.16154 Adj R-Sq 0.0243
Coeff Var 58.39462

NO!
Parameter Estimates La relazione è ora
positiva
Parameter Standard Standardized e stat. sig.
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 2.42762 0.32575 7.45 <.0001 0


genere 1 0.44452 0.19102 2.33 0.0205 0.11784 Miceli, R., Sotgiu, I., & Settanni, M. (2008).
eta 1 0.00952 0.00595 1.60 0.1101 0.08102 Disaster preparedness and perception of flood risk:
A study in an alpine valley in Italy
pr 1 0.16047 0.06004 2.67 0.0078 0.13665 Journal of Environmental Psychology 28, 164-173.
RIPASSO ..... R...

- distribuzioni teoriche di probabilità


La logica della decisione in statistica (test delle ipotesi)
Distribuzione BINOMIALE R...
==> Quando gli eventi possono assumere soltanto due valori (giusto /sbagliato) e si tratta di eventi
INDIPENDENTI e RECIPROCAMENTE ESCLUDENTESI, allora la distribuzione teorica di
probabilità è quella BINOMIALE

Se p = Prob. che si presenti un evento => SUCCESSO e q = 1-p (INSUCCESSO), allora la Prob. che l'evento "successo"
si presenti esattamente k volte in n prove è dato da:

n n!
  
 n  k nk  k  K !n  k !
Dove:
n = numero di prove;

Pk    p  q k = numero di successi ; n-k = numero di insuccessi;


p = Probabilità di successo;
combinatoria di n elementi a k a k
k  n 
k  q = 1-p

Es.: La prob. che si presenti 4 "testa" in 10 lanci di una moneta non truccata:
n  10; p  0.5;
k  4; q  1  05  0.5

10  4 10!
P4   0.5  0.510 4   0.54  0.56  210  0.0625  0.015625  0.205
4 4!10  4 !
R...
Se, in modo analogo, si calcola la Prob. di ottenere 0, 1, 2, ..... 10 "testa" in 10 lanci, si ottiene:
n = 10 Prob.
k (numero di "testa") La distrib. delle Prob. è:
0 0.001 ==> SIMMETRICA perché p = q = 0.5;
1 0.010 => Se p  q è ASIMMETRICA (positiva per p > 0.5);
==> DISCRETA perché k assume solo valori interi;
2 0.044 ==> ha somma = 1;
3 0.117 ==> I parametri p e q sono detti "caratteristici della distribuzione"
4 0.205

5 0.246

6 0.205
Si può anche ragionare così => un esperimento aleatorio,
7 0.117 che produce 2 esiti (es.: GIUSTO / SBAGLIATO)
indipendenti e reciprocamente escludentesi, ripetuto 10
8 0.044 volte (si pensi ad una prova d’esame con 10 domande a
ciascuna delle quali si può risposdere solo: SI / NO e solo
9 0.010
una delle due possibili risposte è GIUSTA) produce un A B C B/C
10 0.001 insieme degli eventi foramto da 10!
210 = 1024 sequenze possibili. Di queste sequenze solo k k! 10  k ! 2 10 Prob.

10! 0 1 1024 0.001

k! 10  k !
1 10 1024 0.010
Altre proprietà: 2 45 1024 0.044
=> media presentano k successi (es: GIUSTO). 3 120 1024 0.117
(valore atteso) =>   n p Se si pensa di rispondere in maniera casuale (facendo in modo 4 210 1024 0.205
che la probabilità di rispondere “GIUSTO” sia uguale a quella 5 252 1024 0.246
=> varianza =>   n p q
2 di rispondere “SBAGLIATO” (p = q = 0.5), la probabilità di
ottenere k successi può essere calcolata anche .... =====>
6 210 1024 0.205

q p 7 120 1024 0.117


=> asimmetria => m 3  D’altra parte l’equazione della distribuzione binomiale è utile 8 45 1024 0.044
npq soprattutto quando p  0.5; in questi casi la distribuzione delle 9 10 1024 0.010
=> curtosi => 1  6 pq probabilità non è più simmetrica ....
m4  3  10 1 1024 0.001
npq
Esempi di distribuzione binomiale simmetrica e non simmetrica. R...
Una prova (test) di profitto è composta da 16 domande con alternative di risposta precodificate, una
sola delle quali corrisponde alla risposta GIUSTA. Di un tale test vengono predisposte 3 versioni:

2   n p a) 2 alternative di risposta (1 sola giusta)  p = 0.5 ; q = 0.5


b) 5 alternative di risposta (1 sola giusta);  p = 0.2 ; q = 0.8
Test (a)    16  0.5  8.0 c) 10 alternative di risposta (1 sola giusta)  p = 0.1 ; q = 0.9

Si chiede
Test (b)    16  0.2  3.2 1) calcolare la probabilità di rispondere GIUSTO a 6 domande (su 16) in ciascuna versione del test
sotto la condizione che le risposte vengano vengano fornite casualmente;
Test (c)    16  0.1  1.6 2) stabilire il valore atteso (numero di risposte GIUSTO) che, nelle diverse versioni del test, ci si può
attendere per effetto del caso
1
[NOTA: nella sottostante figura i valori di probabilità delle 3 curve sono rappresentati da linee continue per ragioni di semplicità grafica; essendo la
v.c. binomiale discreta, in corrispondenza dei diversi valori sull’ascissa, la probabilità dovrebbe essere rappresentata con un punto separato. La possibilità
di cogliere visivamente le 3 distribuzioni risulterebbe, tuttavia, del tutto compromessa]

Probabilità di successi su 16 prove con:


Successi (p = 0.5) (p = 0.2) (p = 0.1) p 1  0 .1
10
1 0.0002441 0.11259 0.3294258
2 0.0018311 0.2111062 0.2745215
3 0.0085449 0.2462906 0.1423445
p  1  0 .2
4 0.027771 0.2001111 0.0514022 5
5 0.0666504 0.1200667 0.0137072
6 0.1221924 0.0550306 0.0027922 p  1  0 .5
2
7 0.1745605 0.0196538 0.0004432
8 0.1963806 0.0055276 0.0000554
9 0.1745605 0.0012284 5.5E-6
10 0.1221924 0.000215 4E-7
11 0.0666504 0.0000293 0
12 0.027771 3.1E-6 0
13 0.0085449 2E-7 0
14 0.0018311 0 0
15 0.0002441 0 0
16 0.0000153 0 0
Distribuzione NORMALE

==> Quando gli eventi possono assumere un qualsiasi valore (in un qualsiasi intervallo, anche - + )
allora la distribuzione teorica di probabilità può essere quella NORMALE
=> Molte variabili si distribuiscono approssimativamente in modo normale;
=> Gode di comode proprietà come la simmetria;
=> Viene anche detta "curva degli errori" perché si può dimostrare (Gauss) che essa descrive la LEGGE DI DISTRIBUZIONE DEGLI
ERRORI ACCIDENTALI (per es.: di misurazione di una lunghezza)

==> Una variabile casuale x ha una distribuzione normale con media  e varianza 2 se la sua densità
di probabilità (funzione di probabilità) è data da:     x  
1
 2  x   2
   3.1416
1 1  1 
f x    exp  2   x     
2
 e 2  con:  e  2.7183
2 2 2 2  2     media
 2
  var ianza

  1;  2  3; Asimm  0; Curtosi  0;

1
  0;  2  ; Asimm  0; Curtosi  0;
3
1
  1;  2  ; Asimm  0; Curtosi  0;
5
  0;  2  1; Asimm  0; Curtosi  0;

R...
Caratteristiche delle curva normale: R...
=> è SIMMETRICA (moda = mediana = media);

=> è ASINTOTICA (per x  );

=> è completamente CARATTERIZZATA da 2 parametri ( e 2 );

=> ha 2 punti di FLESSO (da convessa a concava) situati a  1  ;

=> la probabilità relativa ad intervalli di valori è definita dall'AREA SOTTESA alla porzione di curva e
quindi dall'integrale della funzione (per xi = a): 2
a 1  x 
1   
Pa    e 2  
dxi
 2 2

==> Opportunità di definire una distribuzione NORMALE STANDARDIZZATA ( = 0 e 2 =1)

1
xi   1  z 2
zi  f z   e 2
 Per cui: 2
i cui valori possono essere facilmente tabulati ....
R...
TAVOLE...

Distribuzione NORMALE STANDARDIZZATA

-4 -3 -2 -1 0 z 1 2 3 4

1-p

Generalmente, il software statistico fornisce direttamente (sotto l'etichetta "prob.") il valore: 1-p

Se zt è il valore del test e l'ipotesi alternativa è biderizionale;


1-p  Prob. di ottenere un valore ≥ +zt e ≤ -zt
La distribuzione CHI-QUADRATO 2 Helmert, 1876 (astronomo tedesco) R...
Pearson, 1900

Data una popolazione di numerosità N distribuita NORMALMENTE con media  e varianza 2 , è possibile
estrarre innumerevoli campioni di n osservazioni.

Ogni campione di osservazioni è una variabile casuale NORMALE con media  e varianza 2 .

Se si standardizzano i valori di k campioni, si avranno k variabili casuali z1, z2, ..., zk normali con stessa media
e stessa varianza.

La sommatoria dei quadrati di k variabili normali standardizzate è una variabile casuale detta CHI-QUADRO
che viene espressa dalla seguente forma funzionale:

2 dove :   gradi di libertà della distribuzione;



   C   
P 2

2 2 1
e

2
0   2
   C   costante (che dipende da G.d.L.)
tale da assicurare area sottesa  1
La distribuzione CHI-QUADRO è di tipo CONTINUO (non può assumere valori negativi) e assume FORME diverse
in funzione di 

R...
Proprietà:
=> per    la curva tende alla Normale;
=> la media (valore atteso) = 

(Uso tavole): Probabilità di osservare un


valore uguale o maggiore di 2a = area
1-p
sottesa alla curva p
R...
La distribuzione F (Fischer - Snedecor, 1924-1934)

==> E' definita come rapporto di DUE VARIABILI CASUALI CHI-QUADRO;


==> molto usata in ANOVA => test F;
==> è caratterizzata da due parametri (1 2) corrispondenti ai GdL numeratore e denominatore;
==> è UNIMODALE e ASIMMETRICA, comprende come casi speciali le altre distribuzioni;

==> per 1 = 1 e 2   F tende alla Normale Standardizzata;


==> per 1 = 1 e 2 = (valore piccolo) F = t2;
==> per 1 = (valore piccolo) e 2   F tende alla 2;

La distribuzione t di Student (W. S. Gosset, 1908)

==> E' definita come rapporto fra una variabile casuale Normale Standardizzata e la radice quadrata
di una variabile 2 divisa per il numero dei suoi GdL, sotto la condizione che le due variabili
siano fra loro indipendenti;

==> molto usata per lo studio di fenomeni casuali relativi a campioni piccoli (n < 30);
==> significatività dei parametri stimati in modelli lineari classici;
==> La forma della distribuzione dipende dai GdL; le diverse curve sono CAMPANULARI e
SIMMETRICHE (platicurtiche)
==> al crescere dei GdL, t tende alla normale
CONTROLLO (verifica) DELLE IPOTESI
R...
Perché la velocità di lettura è differente
nell'ambito di un certo insieme di
individui ? Dipenderà dal metodo di
insegnamento ???
Dalle domande di conoscenza alle ipotesi teoriche ==>
Se gli individui sono stati sottoposti a
due diversi metodi di insegnamento (a; b)
allora la loro velocità di lettura è differente

Indicando con a e b le medie incognite della velocità di lettura, rispettivamente per la popolazione
di coloro che hanno seguito il metodo a e b, è possibile scrivere la corrispondente ipotesi statistica:
H: a  b che naturalmente implica anche l'ipotesi opposta H: a = b

Generalmente si preferisce porsi nella condizione di RESPINGERE l'ipotesi che riveste interesse per
lo studio; e tale ipotesi viene detta IPOTESI NULLA; l'altra IPOTESI ALTERNATIVA
H0: a = b H1: a  b

L'ipotesi alternativa H1: a  b implica due situazioni a < b e  a > b


e viene pertanto detta COMPOSTA o BIDIREZIONALE o BILATERALE
R...
Si possono formulare ipotesi teoriche PIU' SPECIFICHE; per es.: Se gli individui sono stati sottoposti
al metodo diinsegnamento "a", allora leggono più velocemente di quelli sottoposti al metodo "b".

H0: a  b (H0: a - b  0) H1: a > b (H0: a - b > 0)

Ora l'ipotesi alternativa H1: a > b viene detta; SEMPLICE o


MONODIREZIONALE o UNILATERALE

==> Il controllo delle ipotesi consiste nello stabilire una regola che permetta di decidere;

==> Tale regola viene detta "TEST STATISTICO";

==> Un test statistico è una variabile casuale i cui valori (definiti dalla regola di calcolo)
stanno in un certo intervallo e seguono una distribuzione di probabilità nota.

==> I valori del test (spazio campionario) vengono generalmente suddivisi in:
- una regione di ACCETTAZIONE di H0
- una regione di RIFIUTO di H0 (accettazione di H1)
sulla base di un valore (Vc) che viene detto VALORE CRITICO (al di là del quale si
estende la regione di rifiuto)
R...
In generale lo spazio delle decisioni possibili (spazio delle ipotesi) può essere così suddiviso:

Quando si pensa H0 come ... decidere di ... ... comporta ... ... errore di ... ... con probabilità ...

RESPINGERE H0 DECISIONE I° TIPO 


SBAGLIATA
VERA
ACCETTARE H0 DECISIONE NESSUN ERRORE 1-
GIUSTA
RESPINGERE H0 DECISIONE NESSUN ERRORE 1-
GIUSTA
FALSA ACCETTARE H0 DECISIONE II° TIPO 
SBAGLIATA

==> La quantità  dipende dal valore prefissato di  e dal valore del parametro incognito .....
==> Si desidera minimizzare sia  sia ; ma POSSONO ESSERE RIDOTTI ENTRAMBI SOLO
AUMENTANDO LA DIMENSIONE DEL CAMPIONE ...

Ecco perché generalmente si preferisce porsi nella condizione di RESPINGERE (H0) l'ipotesi che riveste interesse per lo studio:
==> Es. Il ricercatore desidera sostenere che il diverso metodo di insegnamento influisce sulla velocità di lettura. Definendo:
H0: a = b
si dice: “fra i due gruppi che hanno seguito metodi diversi di insegnamento NON vi è alcuna differenza significativa”.
==> MAI SI POTRA’ SAPERE SE HO E’ VERA O FALSA; ma così facendo (assumendo che sia vero a = b) si “restringe” lo spazio
decisionale ai primi due casi (illustrati in tabella);
==> ORA PER MINIMIZZARE IL RISCHIO DI SBAGLIARE E’ SUFFICIENTE SCEGLIERE UN  ABBASTANZA PICCOLO !!!

In genere si formulano le ipotesi statistiche in modo che sia più vantaggioso avere un  piccolo (e consegunetemente un  grande) piuttosto che il contrario: Esempio dell'accusato.
Porre H0 = innocente (H1 = colpevole) e scegliere un  piccolo significa preferire la liberazione di un colpevole piuttosto che la condanna di un innocente;
viceversa, con H0 = colpevole (H1 = innocente) e sempre  piccolo, significa preferire un innocente in galera piuttosto che un colpevole in libertà.
CONTROLLO DELLE IPOTESI: sulla media --- sulla differenza fra medie
R...

=> “sulla media" implica un solo campione e la decisione riguarda SE la media campionaria è (o non è)
significativamente diversa dalla media della popolazione;

=> “sulla differenza fra medie" implica (almeno) due campioni e la decisione riguarda SE la differenza riscontrata è
tale da far ritenere che i campioni provengano da popolazioni con medie diverse (oppure così piccola da far
ritenere che sia dovuta al caso (fluttuazioni campionarie).
[importante distinguere: CAMPIONI INDIPENDENTI / CAMPIONI DIPENDENTI]

In generale il procedimento può essere articolato in:

1) Formulazione delle ipotesi statistiche e definizione coefficiente di fiducia;

2) Calcolo (uso tavole) del valore critico della variabile casuale associata al test [zc; tc; Fc; 2c];

3) Trasformazione dei valori campionari in quelli della variabile associata opportuna [ze; te; Fe; 2e]
(e = empirico);

4) Decisione (respingere / non-respingere H0)

(Esempi ...)
Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) Z
R...

=> Due campioni (casuali e indipendenti) di studenti vengono sottoposti ad una prova di memoria;
Il primo campione è composto interamente da 43 studenti maschi che ottengono un punteggio
medio pari a 20 con uno scarto quadratico medio di 4.6; il secondo campione è composto
interamente da 40 studentesse che ottengono un punteggio medio pari a 18 con una deviazione
standard pari a 4.4. Si chiede di stabilire, con un livello di fiducia del 99%, se la differenza fra
studenti maschi e femmine è statisticamente significativa.

Dati: xM  20; xF  18; nM  43; nF  40; sM  4.6; s F  4.4


H 0 : M  F   0.01; 0.99
1 2  0.495  zc  2.58
H1 è bidirezionale:  /2 =>
H1 :  M   F 1    0.99; 2

xM  x F 20  18
3 ze    2.0
sM  s F 4.6  4.4
n1  n2  2 43  40  2

4 ze cade nella zona di NON rifiuto (interna)


(+2.0 < +2.58)
H0 ==> NON RESPINTA

con software statistico...


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) con software statistico... R...
ident genere x
 = 0.01
1 M 16.1018
2 F 16.1969
3 M 13.8570
4 M 20.1517
5 F 30.7632
6 M 14.7090
7 M 15.3023 I DATI...
8 F 18.6471
9 M 23.3436
10 M 22.3045
::::::::::::::::::::::::::
::::::::::::::::::::::::::
80 F 17.7992 Two Sample t-test for the Means of x within genere
81 F 20.7040
Sample Statistics
82 M 18.6702
83 M 15.6051 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
The SAS System
The GLM Procedure F 40 18 4.4 0.6957
Dependent Variable: x
Sum of
M 43 20 4.6 0.7015
Source DF Squares Mean Square F Value Pr > F

Model 1 82.891566 82.891566 4.08 0.0466 Hypothesis Test

Error 81 1643.760000 20.293333 Null hypothesis: Mean 1 - Mean 2 = 0

Corrected Total 82 1726.651566


Alternative: Mean 1 - Mean 2 ^= 0

R-Square Coeff Var Root MSE x Mean


F If Variances Are t statistic Df Pr > t
0.048007 23.66452 4.504812 19.03614
----------------------------------------------------
Source DF Type I SS Mean Square F Value Pr > F
Equal -2.021 81 0.0466
genere 1 82.89156627 82.89156627 4.08 0.0466 Not Equal -2.024 80.93 0.0462
Standard
Parameter Estimate Error t Value Pr > |t|

Intercept 18.00000000 B 0.71227336 25.27 <.0001


genere
genere
M
F
2.00000000 B
0.00000000 B
0.98958139
.
2.02
.
0.0466
.
t
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Esempio 2. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE: ( ig noto) t
R...

=> Per controllare se un nuovo tipo di psicofarmaco influisce o meno sulla memoria delle persone si
organizza un esperimento. 60 individui che hanno trovato giovamento dallo psicofarmaco vengono
suddivise (casualmente) in due gruppi di 30 individui; al gruppo 1 viene somministrato il
medicinale, al gruppo 2 un placebo. Dopo un certo intervallo di tempo tutti sono sottoposti ad una
prova di memoria che fornisce i seguenti risultati: media pari a 13.30 e deviazione standard 1.77
per il gruppo 1 (sperimentale); media pari a 16.03 e deviazione standard 1.74 per il gruppo 2
(controllo). Si chiede di stabilire se lo psicofarmaco influisce significativamete sulla memoria
(alfa = 0.05).

Dati: x1  13.30; x2  16.03; n1  30; n2  30; s1  1.77; s2  1.74


H 0 : 1   2   0.05;
1 2 H1 è bidirezionale: GdL = 58 => Gdl  60  tc  2.0
H1 : 1   2 1    0.95;

x1  x2 13.30  16.03  2.73


3
te     5.93
n1s12  n2 s22 n1  n2 30 1.77 2  30 1.74 2 30  30 0.46
 
n1  n2  2 n1  n2 30  30  2 30  30

4 te cade nella zona di rifiuto (esterna)


(-5.93 < -2.0) (lo psicofarmaco influisce
H0 ==> RESPINTA (negativamente) sulla memoria

con software statistico...


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) con software statistico... R...
 = 0.05

I DATI...

Two Sample t-test for the Means of x within gruppo


Sample Statistics
Group N Mean Std. Dev. Std. Error
------------------------------------------------------
1 30 13.3 1.77 0.3232
2 30 16.03 1.74 0.3177

Hypothesis Test
Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0

If Variances Are t statistic Df Pr > t


----------------------------------------------------
Equal -6.024 58 <.0001
Not Equal -6.024 57.98 <.0001
Esempio 3. TEST del CHI-QUADRATO R...
=> Assume un valore compreso fra 0 e un numero positivo

  
2
J K f jk  fˆ jk 
2 che dipende da N e dai GdL;

=> I valori seguono l'omonima distribuzione, per cui è possibile


j 1 k 1 fˆjk stabilire se il valore ottenuto è significativamente diverso
da zero

Esempio: Con lo scopo di conoscere il giudizio degli studenti nei confronti dell'introduzione di una
modifica organizzativa del corso di laurea, è stato intervistato un campione casuale di 150
studenti. I risultati dell'indagine sono riportati in forma tabellare distinguendo i giudizi (y)
rispetto al genere (x) degli intervistati. Si chiede di stabilire se:
a) fra genere e giudizio esiste un qualche grado di associazione;
b) l'eventuale associazione fra genere e giudizio é statisticamente significativa (alfa = 0.05)
TABELLA DI X PER Y STATISTICHE PER LA TABELLA DI X PER Y
X Y
Frequenza‚favorev.‚contrari‚incerti ‚ Totale Statistica DF Valore Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Chi quadro 2 12.959 0.002
maschi ‚ 28 ‚ 29 ‚ 17 ‚ 74 Likelihood Ratio Chi-Square 2 13.220 0.001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Mantel-Haenszel Chi-Square 1 2.110 0.146

femmine ‚ 12 ‚ 51 ‚ 13 ‚ 76 Phi Coefficient 0.294


Contingency Coefficient 0.282
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Cramer's V 0.294
Totale 40 80 30 150
Sample Size = 150
con software statistico...

H0: CHI-QUADRO calcolato = 0; L'associazione fra le due variabili è statisticamente significativa per alfa = 0.05 ?
RIPASSO ..... R...

Misure di associazione per variabili cardinali (correlazione)


Misure di associazione (correlazione) per varibili CARDINALI R...

I valori di due variabili cardinali (x e y) possono essere rappresentati geometricamente come punti (coordinate) in
uno spazio cartesiano a due dimensioni ...

FORMA DELLA RELAZIONE ............

RELAZIONI PERFETTE ..... NON PERFETTE ...... LINEARI e NON-LINEARI

==> Nessuna statistica capace di cogliere (misurare o esprimere) una relazione lineare è anche
capace di cogliere l'esistenza di una relazione non-lineare

=> due variabili vengono dette: ortogonali (o indipendenti) quando si osserva una totale assenza di
relazione;
=> quando la relazione è lineare e perfetta, le variabili vengono dette collineari.
R...
R...
Misure (statistiche) della relazione LINEARE fra due variabili cardinali

==> COVARIANZA; riprendendo la formula della varianza (di x), questa può essere espressa come
covarianza di x CON SE STESSA ...

1 N 1 N
s    xi  x     xi  x    xi  x   x 2  x 2
2 2 ==> con due variabili (x e y)
si può scrivere la
N i 1 N i 1 COVARIANZA come:

1N 1 N ==> se le due variabili sono

covxy  xi  x   yi  y  xi yi  xy xy xy ortogonali ... covxy = 0


... diversamente il valore
N i1 N i1 dipende dai dati ...

==> indice di CORRELAZIONE (Bravais-Pearson) si ottiene "pesando" la covarianza con il prodotto


delle deviazioni standard ...
Se entrambe le varibili sono STANDARDIZZATE...
1 N
covxy  xi  x   yi  y  sx  s y  1 e il coefficiente di correlazione può

N i1 essere definito anche come MEDIA DEI PRODOTTI


rxy   DELLE VARIABILI STANDARDIZZATE
sx  s y 1 N 1 N
 i  x  x 2
  i  y  y 2
1 N

N i1 N i1 rxy 


N
z
i 1
xi z yi
==> Proprietà: -1  r xy  +1
Esempio ....
R...
Id. X Y X2 y2 XY
s  x2  x 2 cov xy  xy  x  y
1 2 10 4 100 20
2 3 9 9 81 27
3
4
4
5
9
7
16
25
81
49
36
35 covxy
5 6 5 36 25 30 rxy 
6 7 3 49 9 21
---------------------------------
sx  sy
Media 4.5 7.17 23.17 57.50 28.17

s x  23.17  20.25  1.71 s y  57.5  51.41  2.47

cov xy  28.17  4.5  7.17   SAS System


Correlation Analysis

 4.095 2 'VAR' Variables: X Y


Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

 4.095 X 6 4.50000 1.70783 27.00000 2.00000 7.00000

rxy   0.97 Y 6 7.16667 2.47768 43.00000


Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6
3.00000 10.00000

1.71 2.47 X 1.00000


X
-0.96500
Y

0.0 0.0018
Y -0.96500 1.00000
0.0018 0.0
con software statistico...
RIPASSO ..... R...

Misure di associazione per variabili categoriali (CHI-quadrato)


ID X Y

Dalla matrice CxV alla


R... UTILIZZO DI UN MODELLO A SCOPO DESCRITTIVO
Il modello di indipendenza (due variabili categoriali)
1 a c tabella di contingenza ....
2 a c ident esito docente
3 a d 1 0 A
2 0 A ESEMPIO
4 a d 3 0 A
5 a d ... ... ...
6 a e
11 0 B
12 0 B
7 a e 13 0 B I SUCCESSI (o gli insuccessi) degli studenti
8 a e 14 0 B
15 0 B SONO EQUAMENTE DISTRIBUITI FRA I
9 a e
L H 16 0 B DOCENTI (A,B,C) ???
 f
10 a e
11 b c jk  f  N ...
37
...
0
...
C
j 1 k 1 38 0 C
12 b c
39 0 C
13 b c 40 0 C
14 b d 41 1 A Le variabili categoriali "esito" e "docente"
... ... ...
15 b e
45 1 A
sono fra loro indipendenti o esiste una
16 b e 46 1 A qualche associazione ?
17 b e ... ... ...
56 1 B
18 b e
... ... ...
... ... ... 98 1 C
... ... ... 99 1 C
100 1 C
... ... ...

X \ Y 1 2 ... H Tot.
esito docente
1 f11 f12 ... f1H f1+
Frequenze ‚A ‚B ‚C ‚ Totale
2 f21 f22 ... f2H f2+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
... ... ... ... ... ... ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
L fL1 fL2 ... fLH fL+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 25 50 25 100
Tot. f+1 f+2 ... f+H f++
 In un'urna (x) ci sono 50 palline "N" e 70 palline "R";
Modello teorico
(nella situazione di indipendenza) .... in un'altra urna (y) ci sono 80 palline "N" e 40 palline "R";
in 120 estrazioni (con ripetizione) qual è la Prob. di estrarre "N" e "N" ???

xj\ yk N R Tot.
 fˆNN ?
ˆ
 f NR ?
N ? ? 50 (Prob.) * (N° di estrazioni) = Frequenza attesa = fˆ jk ˆ
 f RN ?
R ? ? 70  fˆ
 RR ?
Tot. 80 40 120

Dalla teoria della probabilità ... Teorema della probabilità composta (o del prodotto):
SE DUE EVENTI SONO STOCASTICAMENTE INDIPENDENTI, LA PROBABILITA' DI

OTTENERE L'EVENTO A e L'EVENTO B è data da: PA  PB  PA  PB

50 80
Facendo qualche calcolo ... in x  P N    0.416 6 in y  P N    0.666 6
120 120

50 80
fˆNN    0.277 7 120  33.333 3  33
120 120

In generale ... ˆf  f j   f  k  f  f j   f  k
jk 
f  f  f 

R...
... dati i marginali, è possibile ottenere la tabella delle frequenze attese fˆ jk nella situazione di indipendenza (fra x e y) ...

... che può essere confrontata con la tabella delle frequenze empiriche ...
fˆ jk (xj\ yk) N R .... Tot.

N 33 17 .... 50
 fˆ11 ... utilizzando
f11 
 ˆ  R 47 23 .... 70
 f12 f12 
 ... ... 
f 
........... ........... ........... .... ...........
  2
 fˆ jk
In generale ... ....
 fˆ jk f jk  L H Tot. 80 40 120
 ... ...   2   jk


  che assume un valore compreso fra 0
 ... ...  j 1 k 1 jk e un numero positivo che dipende da
ˆ 
 f LH f LH  N (f++) e dai GdL
GdL  L  1  H  1

A scopo descrittivo possono essere ricavate altre misure (SIMMETRICHE) di associazione basate sul CHI-quadro (forza della relazione ...)

2 2
Coefficiente PHI ==> φ φ  2
MIN = 0 ; MAX = 1 SOLO PER TABELLE: 2 * H

N N
φ2 MIN = 0 ; MAX = 1 PER TABELLE: L * H
Coefficiente V (Cramer) ==> V
minL  1, H  1

Per tabelle 2x2 ==>  V Inoltre, per variabili booleane ....


φ  f11  f22  f12  f21  f1  f2  f1  f 2 
MIN = -1 ; MAX =+ 1
A scopo inferenziale ... i valori di CHI2 seguono l'omonima distribuzione ...

R...
Ritornando all'esempio empirico ... R...
The SAS System
I SUCCESSI (o gli insuccessi) SONO EQUAMENTE The FREQ Procedure
DISTRIBUITI FRA I DOCENTI (A,B,C) ???
Table of esito by docente

esito docente

Le variabili categoriali "esito" e "docente" Frequency ‚


sono fra loro indipendenti o esiste una Expected ‚
Percent ‚
qualche associazione ? Row Pct ‚
Col Pct ‚A ‚B ‚C ‚ Total
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
‚ 10 ‚ 20 ‚ 10 ‚
‚ 10.00 ‚ 20.00 ‚ 10.00 ‚ 40.00
‚ 25.00 ‚ 50.00 ‚ 25.00 ‚
‚ 40.00 ‚ 40.00 ‚ 40.00 ‚
esito docente ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
Frequenze ‚A ‚B ‚C ‚ Totale ‚ 15 ‚ 30 ‚ 15 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 15.00 ‚ 30.00 ‚ 15.00 ‚ 60.00
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40 ‚ 25.00 ‚ 50.00 ‚ 25.00 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 60.00 ‚ 60.00 ‚ 60.00 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
Total 25 50 25 100
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 25.00 50.00 25.00 100.00
Totale 25 50 25 100

Statistics for Table of esito by docente

Statistic DF Value Prob


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
con software statistico... Chi-Square 2 0.0000 1.0000
Likelihood Ratio Chi-Square 2 0.0000 1.0000
Mantel-Haenszel Chi-Square 1 0.0000 1.0000
Phi Coefficient 0.0000
Contingency Coefficient 0.0000
Cramer's V 0.0000

Sample Size = 100


Altro esempio empirico, stessa domanda ... I SUCCESSI (o gli insuccessi) SONO EQUAMENTE DISTRIBUITI FRA I DOCENTI (A,B,C) ??? R...
Frequenze (e %) OSSERVATE
esito docente esito docente

Frequenze‚ Frequency‚
% (Tot.) ‚A ‚B ‚C ‚ Totale Expected ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Percent ‚
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96 Row Pct ‚
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59 Col Pct ‚A ‚B ‚C ‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 0 ‚ 69 ‚ 6 ‚ 21 ‚ 96
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 ‚ 60.706 ‚ 14.118 ‚ 21.176 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59
Totale 86 20 30 136 ‚ 71.88 ‚ 6.25 ‚ 21.88 ‚
63.24 14.71 22.06 100.00 ‚ 80.23 ‚ 30.00 ‚ 70.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40
‚ 25.294 ‚ 5.8824 ‚ 8.8235 ‚
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41
... qualche informazione in più ... ‚ 42.50 ‚ 35.00 ‚ 22.50 ‚
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚
esito docente ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 86 20 30 136
Frequency‚ 63.24 14.71 22.06 100.00
Percent ‚
Row Pct ‚
Col Pct ‚A ‚B ‚C ‚ Total Statistics for Table of esito by docente
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96 Statistic DF Value Prob
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ 71.88 ‚ 6.25 ‚ 21.88 ‚ Chi-Square 2 19.7279 <.0001
‚ 80.23 ‚ 30.00 ‚ 70.00 ‚ Likelihood Ratio Chi-Square 2 18.1787 0.0001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Mantel-Haenszel Chi-Square 1 3.6911 0.0547
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 Phi Coefficient 0.3809
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 Contingency Coefficient 0.3559
‚ 42.50 ‚ 35.00 ‚ 22.50 ‚ Cramer's V 0.3809
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Sample Size = 136
Total 86 20 30 136
63.24 14.71 22.06 100.00

... FREQUENZE ATTESE E CONFRONTO CON IL MODELLO DI INDIPENDENZA

con software statistico...


RIPASSO ..... R...

Analisi della varianza (ANOVA) come estensione del test sulla differenza fra medie
Analisi della Varianza (Fisher, 1935) R... Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento
...Come estensione del TEST sulla differenza fra medie... (a; b; c; ....; z), allora la loro velocità di lettura è differente>>
-------------------------------------------------
per semplicità:  3 metodi (a, b,c);  3 individui ogni campione
Ident y Metodo
Disegno ad Assegnazione Casuale completa
(parole lette / (Completely Randomized CR-3)  ANOVA ad UNA VIA 
intervallo di
tempo)
1a 50 a H0 :  a   b   c
2a 40 a a ya  50
3a 60 a
1b 70 b
y  50
2b 80 b b yb  80
3b 90 b  Per utilizzare il TEST (t) sulla differenza
fra due medie è necessario effettuare
1c 20 c 3 CONFRONTI...
2c 15 c
c yc  20  In generale con k medie, k  k  1
3c 25 c il numero dei confronti è pari a: c
2
 Fissato il coefficiente di fiducia (),
la probabilità di incorrere in un ERRORE
del I° TIPO aumenta all'aumentare dei confronti!

<< Se il diverso metodo di insegnamento influenza la velocità di lettura, allora le medie dei campioni saranno diverse>>
MA SI TRATTA DI DIFFERENZE STATISTICAMENTE SIGNIFICATIVE?
Ovvero:
I tre campioni possono essere ricondotti ad ununico universo di riferimento (con la stessa media)?
Ovvero:
Le differenze osservate fra le medie dei tre campioni sono oscillazioni casuali intorno ad un'unica media?

 La Prob. di incorrere in un errore del I° tipo può essere approssimata per eccesso (confronti tutti ortogonali)

Per esempio:
Pr  1  1   
c
Medie Confronti (c)     Pr. Errore I tipo
con  = 0.05
2 1 1  0.951  1  0.950  0.050
4 6 1  0.956  1  0.735  0.265
6 15 1  0.9515  1  0.463  0.537
8 28 1  0.95 28  1  0.238  0.762
10 45 1  0.9545  1  0.099  0.901
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie... R...

H0 :  a   b   c ? H1 :  a   b  c
<<eventuali differenze fra le medie empiriche dei <<almeno una differenza fra le medie empiriche dei
campioni sono POCO MARCATE così che possono campioni è ABBASTANZA MARCATA così che
essere attribuite ad oscillazioni casuali intorno si può sostenere l’appartenenza dei diversi
ad un’unica media dell’universo di riferimento>> campioni a universi distinti con medie differenti>>
Test F
 Organizzando diversamente i dati dell'esempio, si evidenziano
DUE FONTI DI VARIABILITÀ (unico EFFETTO: "metodo")...

Ident y Metodo
(parole lette /
intervallo di  Effettuando i calcoli...
tempo)
NOTAZIONE
1a 50 a
N  numerosità totale
2a 40 a
3a 60 a
n  na  nb  nc  numerosità campione
1b 70 b k  numero di campioni
2b 80 b GdL  Gradi di Libertà
3b 90 b DEV  devianze
1c 20 c VAR  varianze
2c 15 c DEV S  VAR S " Spiegata" , " FRA" , " between"
3c 25 c DEV R  VAR R " Residua" , " ENTRO" , " within"

DEVs  n  y j  y   n ya  y   n yb  y   n yc  y  
K
2 2 2 2
GdLS  k  1  3  1  2
j 1

 350  50   380  50   320  50   5400


2 2 2 GdLR  N  k  9  3  6

DEVR    yij  y j  
n K
2

i 1 j 1

  y1a  ya    y2 a  ya    y3 a  ya    y1b  yb    y2 b  yb    y3 b  yb    y1c  yc    y2 c  yc    y3 c  yc  


2 2 2 2 2 2 2 2 2

 50  50   40  50   60  50   70  80   80  80   90  80   20  20   15  20   25  20   450
2 2 2 2 2 2 2 2 2

DEVs 5400 DEVr 450


VARs    2700 VARR    75
GdLs 2 GdLr 6
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie... R... VARS
F
VARS e VARR sono stime INDIPENDENTI (calcolate con riferimento a medie diverse) della variabilità dei dati VARR
VARS è priva di errore sistematico (Teorema del Limite Centrale), se le differenze fra le medie sono dovute ad oscillazioni casuali (campionarie)

VARS è affetta da errore sistematico, se le differenze fra le medie sono dovute a universi di riferimento con medie diverse e, in tal caso l'errore
condurrà ad una sovrastima (della varianza fra le medie dei campioni) dato che il numero di campioni è sempre inferiore al numero degli individui

VARR è una stima (campione per campione) e pertanto è sempre priva di errore sistematico

 F ha una distribuzione campionaria che fornisce la probabilità di ottenere, per effetto del caso, un valore uguale o maggiore a quello empirico

 Ritornando all'esempio empirico... NOTAZIONE : FE  empirico; FT  teorico (critico)

VARs 2700 Dalle tavole per   0.01;


FE 
VARr

75
 36.00
con : GdLS  2; GdLR  6;  FT  10.92
FE  FT

Obs y x Dependent Variable: y


Sum of
1 50 a Source DF Squares Mean Square F Value Pr > F
Model 2 5400.000000 2700.000000 36.00 0.0005
2 40 a
Error 6 450.000000 75.000000
3 60 a Corrected Total 8 5850.000000
in SAS vedi il file:
4 70 b ES_ANOVA0.SAS
5 80 b R-Square Coeff Var Root MSE y Mean
6 90 b 0.923077 17.32051 8.660254 50.00000
7 20 c
8 15 c Source DF Type I SS Mean Square F Value Pr > F
9 25 c x 2 5400.000000 2700.000000 36.00 0.0005

H0 :  a   b   c   RESPINTA Il metodo di insegnamento influenza la velocità di lettura; individui sottoposti a diversi


metodi rimandano a universi di riferimento con differente velocità di lettura...
Analisi della Varianza (Fisher, 1935) R... Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento
...Come estensione del TEST sulla differenza fra medie... impartiti da diversi insegnanti, allora la loro velocità di lettura è differente>>
-------------------------------------------------
 metodo - A (1, 2, 3);  insegnante - B (1, 2)  30 individui ogni gruppo

IDENT y A B  Organizzando diversamente i dati, Disegno FATTORIALE (due trattamenti)


si evidenziano TRE possibili EFFETTI, (Completely Randomized Factorial CRF-32)  ANOVA a DUE VIE (Fattoriale) 
S1 62 1 1
ciascuno dei quali è SCOMPONIBILE in NOTAZIONE
S2 51 1 1
::: ::: ::: ::: DUE FONTI DI VARIABILITÀ (VARS e VARR) y (B) 1 2 Tot. h  livelli trattament o A 1  h  3 
S30 48 1 1
(A) j  livelli trattament o B 1  j  2 
S31
S32
20
23
1
1
2
2
(B)
1 2 N  numerosità totale
1 46.70 41.13 43.92
::: ::: ::: ::: (A) nhj  numerosità gruppo
S60 45 1 2

RIGA
nhj
S61 56 2 1 y1,11 = 62 y1,12 = 20 2 56.63 48.20 52.42 yhj 
1
y hj , i  media di cella
S62 70 2 1 nhj i 1

::: ::: ::: ::: 1 y2,11 = 51 y2,12 = 23


3 58.40 49.07 53.73 1 N

S90 62 2 1 ::::::::: ::::::::: y  


N
y i  media generale
y30,11 = 48 y30,12 = 45 i 1
S91
S92
59
43
2
2
2
2
Tot. 53.91 46.13 50.02
y1,21 = 56 y1,22 = 59 vai a...
::: ::: ::: ::: ... Illustrazione... vai a...
COLONNA
S120
S121
48
57
2
3
2
1
2 y2,21 = 70 y2,22 = 43 (EFFETTO INTERAZIONE...)
::::::::: :::::::::
S122 61 3 1
y30,21 = 62 y30,22 = 48
::: ::: ::: :::
S150 63 3 1 y1,31 = 57 y1,32 = 50  L'interazione rappresenta l'effetto CONGIUNTO" dei due trattamenti
S151 50 3 2 Ovvero
S152 49 3 2 3 y2,31 = 61 y2,32 = 49  Si ha la presenza di un effetto interazione quando le variazioni (attese sulla
::: ::: ::: ::: ::::::::: ::::::::: y) dovute ai livelli di un trattamento sono differenti per due o più livelli
S180 56 3 2 y30,31 = 63 y30,32 = 56 dell’altro trattamento

vedi file: H0 :1   2   3 H0 : 1    2 H0 :  h j   h j   h j    h j   0 per ogni h,h, j e j, con hh e j j 


ES_ANOVA1.SAS
ES_ANOVA1.XLS

Dependent Variable: y ¿ Rispetto al metodo 3 impartito dall'insegnate 2, il metodo


Sum of 1 impartito dall'insegnante 1 ha un effetto positivo o
Source DF Squares Mean Square F Value Pr > F negativo e di che entità ?
Model 5 6245.31111 1249.06222 11.14 <.0001
Error 174 19504.60000 112.09540
Corrected Total 179 25749.91111 ¿ Rispetto al metodo 3 impartito dall'insegnate 2, il
miglioramento nelle prestazioni è dovuto più al metodo o
R-Square Coeff Var Root MSE y Mean più all'insegnate? ... e rispetto alle prestazioni medie
0.242537 21.16562 10.58751 50.02222 generali?

Source DF Type I SS Mean Square F Value Pr > F


A 2 3407.011111 1703.505556 15.20 <.0001
... etc. etc.
B 1 2722.222222 2722.222222 24.28 <.0001
REGRESSIONE
A*B 2 116.077778 58.038889 0.52 0.5968

Dal test sulla differenza fra medie... al MODELLO ANOVA (lineare generalizzato classico)...
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie. Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento impartiti da diversi insegnanti,
... Illustrazione... (EFFETTO INTERAZIONE...) allora la loro velocità di lettura è differente>>
 metodo - A (1, 2, 3);  insegnante - B (1, 2)  30 individui ogni gruppo

 L'interazione rappresenta l'effetto CONGIUNTO" dei due trattamenti


Ovvero Disegno FATTORIALE (due trattamenti)
 Si ha la presenza di un effetto interazione quando le variazioni (attese sulla y) dovute ai (Completely Randomized Factorial CRF-32)  ANOVA a DUE VIE (Fattoriale) 
livelli di un trattamento sono differenti per due o più livelli dell’altro trattamento

y (B) 1 2 Tot. y (B) 1 2 Tot.


(A) (A)
ESEMPIO... 39.17 36.70 37.93 ESEMPIO...
1 51.07 38.93 45.00 -------------------- 1 --------------------
vedi file: vedi file:
2 62.10 50.83 56.47 ES_ANOVA2.SAS 2 65.83 57.83 61.83 ES_ANOVA3.SAS
ES_ANOVA2.XLS ES_ANOVA3.XLS
3 55.20 42.33 48.77 3 48.60 51.87 50.23

Tot. 56.12 44.03 50.08 Tot. 51.20 48.80 50.00

Dependent Variable: y Dependent Variable: y


Sum of Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 5 10694.84444 2138.96889 24.55 <.0001 Model 5 18352.53333 3670.50667 82.01 <.0001
Error 174 15160.06667 87.12682 Error 174 7787.46667 44.75556
Corrected Total 179 25854.91111 Corrected Total 179 26140.00000

R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.413648 18.63936 9.334175 50.07778 0.702086 13.37992 6.689959 50.00000

Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 2 4099.244444 2049.622222 23.52 <.0001 A 2 17141.20000 8570.60000 191.50 <.0001
B 1 6576.355556 6576.355556 75.48 <.0001 B 1 259.20000 259.20000 5.79 0.0172
A*B 2 19.244444 9.622222 0.11 0.8955 A*B 2 952.13333 476.06667 10.64 <.0001

B (1) B (1)
y6563hj B (2) y6765hj B (2)

61 63
59 61
57 Insegnante "1" 59
55 57
Insegnante "2"
53 55
51 53
51
49
49
47
47 Insegnante "1"
45
45
43 43
41 41
Insegnante "2"
39 PRECEDENTE... 39
37 37
35 35
Metodo (A) A (1) A (2) A (3) Metodo (A) A (1) A (2) A (3)
RIPASSO ..... R...

Regressione lineare semplice


Il modello lineare classico  "REGRESSIONE"

ESEMPIO Il modello è nato come uno strumento per stimare i parametri di


una relazione lineare fra due variabili entrambe cardinali.
Su un campione di 10 donne è stato rilevato
“l’atteggiamento nei confronti della Il termine “regressione” si deve al biologo Galton (1822-1911)
subordinazione della donna” (y) e un tratto che ha cercato di stabilire in che misura la statura dei figli segnasse
di personalità, “autoritarismo” (x) un ritorno (una regressione appunto) verso la statura media della
specie, allorché la statura dei genitori se ne allontanava
Entrambe le varibili sono a livello di scala di intervalli,
con punteggi che variano da 0 a 10
(10 = max subordinazione = max autoritarismo)

Id y x Dai dati...
yi  ˆ0  ˆ1 xi  ei
y  4.40; x  3.00 x 2  3.00 2  9.00
y

1 2 1
10

9
N
2 4 3 1 1
x y
8

7 xy  i i  144.00  14.40
3 5 2 N i 1 10
yˆ i  2.6  0.6 xi
6

5
4 5 5 1 N
1
x
4

3 x 
2 2
i  110.00  11.00
5 6 5 N 10
2 i 1
6 4 1 1

0
0 1 2 3 4 5 6 7 8 9 10 11
x sx  sx2  2.00  1.414 ; s y  1.44  1.20
7 4 4
8 3 2
COVxy xy  x  y 14.40  3.00  4.40 1.20
9 5 3 ˆ1      0.60 ˆ0  y  ˆ1 x  4.40  0.60  3.00  2.60
10 6 4 VARx x x2 2 11.00  9.00 2.00
N
DEVt    yi  y   14.40 ; GdLt  10  1  9 DEVs 7.20
2
R2    0.50
i 1 DEVt 14.40
N
DEVs    yˆ i  y   7.20 ; GdLs  1
2 DEVs
GdLs 7.20
i 1 F   8.00;
DEVr 0.90
N GDLr
DEVr   ei   7.20 ; GdLr  10  1  1  8 per α  0.05; Fcritico  5.32
2
(H0 : respinta)
i 1

t  F  8.00  2.83
GdLr  8; per α  0.05; tcritico  2.306 (H0 : respinta)
ESEMPIO  Quando le variabili (y e x) sono standardizzate, il coefficiente di
regressione stimato coincide con il coefficiente di correlazione (r)
 Coefficienti ˆ1 e ˆ1
 Interpretazione parametri ˆ ;ˆ ; ˆ 
0 1 1
 Questo coefficiente (peso ) esprime la variazione attesa in y, in
unità di deviazione standard, per la variazione di 1 dev. standard in x
 Stime (ŷ) al di là dei dati empirici (x = ???)
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
The REG Procedure proc reg data=uno; model y =x / stb;quit;
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Model: MODEL1
y 10 4.4000000 1.2000000 2.0000000 6.0000000 Dependent Variable: y
x 10 3.0000000 1.4142136 1.0000000 5.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
data uno;input y x;cards; Obs y x ystd xstd Model 1 7.20000 7.20000 8.00 0.0222
2 1 1 2 1 -2.00000 -1.41421 Error 8 7.20000 0.90000
4 3 Corrected Total 9 14.40000
2 4 3 -0.33333 0.00000
5 2
5 5 3 5 2 0.50000 -0.70711
4 5 5 0.50000 1.41421 Root MSE 0.94868 R-Square 0.5000
6 5 Dependent Mean 4.40000 Adj R-Sq 0.4375
4 1 5 6 5 1.33333 1.41421
Coeff Var 21.56098
4 4 6 4 1 -0.33333 -1.41421
3 2 7 4 4 -0.33333 0.70711
Parameter Estimates
5 3 8 3 2 -1.16667 -0.70711 Parameter Standard Standardized
6 4 9 5 3 0.50000 0.00000 Variable DF Estimate Error t Value Pr > |t| Estimate
; 10 6 4 1.33333 0.70711 Intercept 1 2.60000 0.70356 3.70 0.0061 0
x 1 0.60000 0.21213 2.83 0.0222 0.70711

The REG Procedure proc reg data=uno; model ystd = xstd ;quit;
y
yˆ i  2.6  0.6 xi Model: MODEL1
Dependent Variable: ystd
10
Analysis of Variance
9 Sum of Mean
ŷ = 7.4 Source DF Squares Square F Value Pr > F
8 Model 1 5.00000 5.00000 8.00 0.0222
7
Error 8 5.00000 0.62500
Corrected Total 9 10.00000
6
Root MSE 0.79057 R-Square 0.5000
5
Dependent Mean -2.8866E-16 Adj R-Sq 0.4375
4 Coeff Var -2.73878E17

3 Parameter Estimates
2 Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
1 Intercept 1 -2.8866E-16 0.25000 -0.00 1.0000
xstd 1 0.70711 0.25000 2.83 0.0222
0
0 1 2 3 4 5 6 7 8 9 10 11
x
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA UNIVERSITÀ DELLA VALLE D'AOSTA
Gennaio
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
2012
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli

UNIVERSITA' DEGLI STUDI DI TORINO


DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati

Indice degli argomenti Modello Lineare Classico


Introduzione
o Notazione e Assunti
o Qualche nozione di algebra delle matrici
o Stima dei parametri (OLS e ML) e principali proprietà
Una variabile esplicativa
o Scomposizione della variabilità (1 parte)
o Variabili categoriali e variabili booleane
o Esempio 1a
o Esempio 1b (regressione semplice)

Due (o più) variabili esplicative


o Interpretazione dei parametri. Variabili esplicative cardinali

o Interpretazione dei parametri. Variabili esplicative categoriali

o Diagnostica (adattabilità, fedeltà-eleganza, tenuta degli assunti)

o Scomposizione della variabilità (2 parte)

Esempi ed Esercizi
Dettagli
Introduzione SPIEGARE Perché Y ? “L’istruzione è la principale determinante del reddito”

Il modello lineare classico è un dispositivo che connette due entità... INCERTA STRUTTURALE

Esempio
Sono stati rilevati i valori ottenuti tramite due strumenti di misura (x e y)
 Si sa che lo strumento x è PRECISO (privo di errore)
 Si assume che il "dispositivo" sia di tipo lineare
yi  ~yi   i ~y     x
i 0 1 i
Id y x 50 y
1 22 -5 45

2 29 -4 40

3 27 -3 35

4
5
27
32
-2
-1
30
yi   0  1 xi   i
25

6 30 0
20
7 34 +1
15
8 34 +2

ˆ0 ˆ1
10
9 39 +3
5
10 42 +4 x
0
11 41 +5 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6

50 y
Id y x ŷ e
yˆ i  32.45455  1.80909  xi 1 22 -5 23 -1

yˆ i  ˆ0  ˆ1 xi
45
2 29 -4 25 +4
40

3 27 -3 27 0
35
4 27 -2 29 -2
30

yi  yˆ i  ei
5 32 -1 31 +1
25
6 30 0 32 -2
20
7 34 +1 34 0
15
8 34 +2 36 -2
10
9 39 +3 38 +1
5
x
10 42 +4 40 +2
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 11 41 +5 42 -1
Introduzione
INCERTA STRUTTURALE

Il modello lineare classico è un dispositivo che connette due entità...

Considerazioni:
yi  ~yi   i ~y     x
i 0 1 i

 Il "dispositivo" è di tipo PROBABILISTICO...

yi   0  1 xi   i
 ASIMMETRIA "sintattica" della relazione... osservato "vero"
yi ~y
i
 x è una variabile "fissa" o "matematica"
(valori NON soggetti a fluttuazioni probabilistiche) i "errore"
Stessa
Distribuzione
 y (e solo y) è una variabile stocastica di Probabilità

 Il vettore y di N osservazioni è una realizzazione di un vettore di N variabili casuali


indipendentemente e identicamente distribuite il cui valore atteso, dato X è:
~
 
E Y | X  X 

 A meno della componente fissa, le distribuzioni di probabilità associate agli y osservati


e quelle degli errori sono identiche

 Il termine di errore  non è altro che la componente stocastica di y osservato e,


in quanto tale, ne rispecchia le proprietà

 La forma delle distribuzioni di probabilità da cui possono essere stati estratti


i valori osservati di y è la stessa cui appartengono i valori di 
Introduzione

Il modello lineare classico è un dispositivo che connette due entità... INCERTA STRUTTURALE
Considerazioni:

 Ampia flessibilità applicativa... Un tale "dispositivo" consente di rappresentare:

EXPLANANDUM EXPLANANS
 RELAZIONI CAUSALI
Causa

DESTINAZIONE
 SCOMPOSIZIONI (FILTRAGGIO) (segnale + disturbo) SORGENTE

Filtro

VARIABILITÀ VARIABILITÀ
 RIPRODUZIONE (SIMULAZIONI)
Simulatore
Notazione  y1  1 x1   y1  1 x11 x21 ... xk1 
y  1 x  y  1 x x22 ... xk2 
 2  2  2  12 
In matrice dati... ... in generale... 1 ... ... ... 
yi   0  1 xi   i
 ...  1 ...   ...  ...
       
 yi  1 xi   yi  1 x1i x2i ... xki 
 ...  1 ...   ...  1 ... ... ... ... 
       
 yN  1 x N   yN  1 x1N x2 N ... xkN 
Notazione scalare...
K
yi   0  1 x1i   2 x2i  ...   k xki   i yi   0    k xki   i
Ovvero...

k 1

dove: y è un vettore di osservazioni di ordine N (o variabile dipendente); X è una matrice di


Notazione vettoriale... ordine N per K+1, in cui i K vettori colonna rappresentano altrettanti fattori o variabili
esplicative e il vettore aggiunto, per convenzione il primo o l’ultimo, ha valore 1 per tutte le
y  X    osservazioni e rappresenta il termine costante o intercetta;  è un vettore (di ordine K+1) di
parametri sconosciuti;  è un vettore sconosciuto (di ordine N) di errori o disturbi.
Nell’ambito di una prospettiva classica, si assume che il vettore dei disturbi sia una variabile
aleatoria i cui elementi sono indipendentemente e identicamente distribuiti secondo una
distribuzione di tipo Normale con media zero e varianza  2

! ATTENZIONE !

y  osservato   atteso (incognito)


~y  atteso (incognito)
ˆ  stimato
yˆ  stimato

  ERRORE atteso (incognito)


e  SCARTO stimato e  y  yˆ 
Assunti

 Il vettore y di N osservazioni è una realizzazione di un vettore di N variabili casuali


indipendentemente e identicamente distribuite il cui valore atteso, dato X è:
~

E Y | X  X 
(Gauss-Markov)

1  Il valore atteso di ogni (i ) è pari a zero E    0 Assenza di errori sistematici nei valori della ỹ

 Per ogni coppia di valori (i e h) del vettore


COV  i ,  h   0
2
degli errori ( ) la covarianza deve essere nulla Assenza di autocorrelazione nel vettore degli errori ( )

3  La varianza dell’errore deve essere costante VAR     2 Omoschedasticità del vettore degli errori ( )

(In ambito osservativo)

 Fra ciascuna variabile esplicativa e il vettore


4 COV  xk ,    0 Assenza di covariazione fra ciascuna x e 
degli errori ( ) la covarianza deve essere nulla

Congiuntamente...

nella parte sistematica del modello devono essere contemplate TUTTE le variabili rilevanti
Qualche nozione di algebra delle matrici (1/3)

• Una MATRICE è un insieme di NxT elementi (generalmente numeri reali) ordinati per righe e per colonne

 a11 a12 ... ... a1   a1 


a • VETTORE COLONNA a 
a21 ... ... a2   4 35  4 2 0 3 • VETTORE RIGA  2
 21   248  • TRASPOSTA a 
A'  3 4 1 2 
a a31 a3  • SCALARE a =  3
A 
... ...
A  A   31   .... 
 ... ... ... ... ...   012   .... 
 ... ... ... ... ...    5 8 2 4  a' = a1 a2 a3 ... a    
   324  a 
 a 1 a 2 ... ... a 
Matrice I  elemento neutro
QUADRATA SIMMETRICA (Es.: R) DIAGONALE IDENTITÀ = (I)
(nell'operazione di moltiplicazione fra matrici)
(Diagonale principale e secondaria)

 x 11 x 12 x 13   1 0 . 53 0 . 41   x 11 0 0  1 0 0
x x 22 x 23   0 . 53 1 0 . 98   0 x 22 0  0 1 0 X I  I X  X
 21       
 x 31 x 32 x 33   0 . 41 0 . 98 1   0 0 x 33   0 0 1 

• Prodotto scalare. Prodotto di due matrici o p. diretto di Kronecker


Viene detto PRODOTTO SCALARE il prodotto fra un vettore riga e un vettore colonna con lo stesso numero di elementi

a  b  
4 
3   5  
3
1 2
   a i b i  4  10  18  32
i1
 6 
Date due matrici A e B è possibile effettuare il loro prodotto solo se il numero di colonne di A è uguale al numero di righe di B
Si dice in tale caso che le matrici sono “conformate” o “compatibili”

A  B  C


A B C
3 3 1
3 2   9  5  2 ;9  1  6 ; 3  1  4   16 8 
1   
1 16
2  5 1   
 1 3   
 6  5  3 ;6  1  9 ; 2  1  6   14 16 9 
 1 3 2 
Qualche nozione di algebra delle matrici (2/3)
X
Esempio  XN,3 (3 vettori colonna: , ,  STANDARDIZZATI)  1 1 1 
 2  2 
X  X  devianze, codevianze  2
3 3 3 
 
1    2 
N N N
 1 1
 i  ii   i i   .... .... .... 
 1  2  3 ...  N    2 2  2   Ni 1 i 1 i 1
  N N  N 
 N N
   ...  N     3  3     i  i  i i 
 1 2 3   3
  i 1 
i 1
i
2

i 1

  1  2  3 ...  N   ... ... ...  N N N 
 N N  N     i i   i i   i
2

 i 1 i 1 i 1  varianze, covarianze
 N 2 N N
  1 N 2 1 N 1 N 
correlazioni 
 i   i i   
i i  N  i  ii
N i 1

N i 1
 i i 
1 r r 
 i 1 i 1 i 1
  N
i 1
  
1 N N N
1 N 2 1 N
 i i      i  i  i i   r r 
1
  ii  2
  i  1
N  i 1   N i 1 
i
i 1 i 1 N i 1 N i 1  r r 1 
N N N  1 N 1 N 1 N 
   i i   i i   i
2
    i i   i i  i 
 2

 i 1 i 1 i 1   N i 1 N i 1 N i 1 

• Il DETERMINANTE di una matrice quadrata A è uno scalare a a12 


A   11 ; | A | a11 a 22  a12 a 21
che si ottiene come funzione di tutti gli elementi di A e si indica con il simbolo: |A|
 a 21 a 22 

 a11 a11 a11 


A   a11 a11 a11  ; |A|=a 11 a 22 a 33 +a 12 a 23 a 31 +a 13 a 21 a 32 - a 13 a 22 a 31 -a 12 a 21 a 33 -a 11 a 23 a 32
 
 a11 a11 a11 

• Se il determinante di una matrice è uguale a zero, la matrice viene detta SINGOLARE


• Se due vettori (riga o colonna) di una matrice A sono linearmente dipendenti allora la matrice A è singolare.
Qualche nozione di algebra delle matrici (3/3)
DIPENDENZA LINEARE
• Una serie di t vettori (x1, x2, ..., xt) tutti dello stesso ordine, sono detti "linearmente dipendenti" se esiste una serie di
scalari (1,  2,..., t), non tutti uguali a zero, tali che:  1  x1   2  x 2  ...  t  xt  0
x1 x2 x3 x1 x2 x3 X
L'equazione è vera per:
 1  8  2 1  8  2 0 1 2
 2   5   3  1  2;  2  1;  3  3 8 X 0
     
 1   2   2    5   3    3  0
     2  5  3
 
 3  9  1  3  9  1 0 pertanto...
 3 9 1

x1 x2 x3 X

1 8  2  1 8 2
 2  3 5  2 3 5 X  54
       
 3 9  3  3 9 3

• Il RANGO di una MATRICE XN,T è il numero massimo di righe o colonne linearmente indipendenti

TEOREMA
• Data una matrice rettangolare X, il rango della matrice ottenuta dal prodotto di X per la sua trasposta e il rango della
matrice ottenuta dal prodotto della trasposta di X per la matrice stessa è uguale al rango della matrice X

rango(X·X') = rango(X'·X) = rango(X)

• Il rango di una matrice quadrata di ordine  è pari a  se, e solo se, il determinante della matrice è diverso da zero;
in questo caso si dice che la matrice è di "rango pieno"

1 Ovvero...
• L'INVERSIONE di una matrice è un'operazione che corrisponde alla divisione nell'algebra elementare  1
    1  1
• L'operazione di inversione è possibile SOLO su matrici QUADRATE

• L'INVERSA di una matrice quadrata X è pertanto quella matrice (X-1) che soddisfa la relazione: X  X 1  1

• NON ESISTE l'inversa di una MATRICE SINGOLARE


Stima dei parametri MINIMI QUADRATI ORDINARI Ordinary Least Squares (OLS) Legendre (1805)
Laplace (1812)
y  X    y  X  ˆ  e
Gauss (1821-23)

 L’idea consiste nello stimare i parametri del modello in modo da rendere MINIMO l'errore quadratico medio
 Nessun assunto sulla distribuzione di probabilità cui appartengono i singoli valori osservati in y

N
e   e   ei2  ( y  X  ˆ )  ( y  X  ˆ )  min Derivando ( y  X  ˆ )  ( y  X  ˆ ) riseptto a
ed eguaglaindo a zero, si ottiene un sistema di equazioni ...
ˆ
i 1

X   y  ( X   X )  ˆ ... da cui è possibile ottenere il vettore ˆ A CONDIZIONE CHE | X   X | 0

ˆ  ( X   X ) 1  X   y

yˆ  X  ˆ e  y  X  ˆ  y  yˆ
Stima dei parametri MASSIMA VEROSIMIGLIANZA Maximum Liklihood (ML)

 L’idea consiste nello stimare i parametri dove:


del modello in modo da rendere Una variabile casuale y ha una distribuzione Normale con
media  e varianza 2 se la sua densità di probabilità
    x  
MASSIMA la probabilità di aver (funzione di probabilità) è data da:
   3.1416
osservato quel particolare vettore di 
valori (y), dato X  e  2.7183
 y   
1
  1 2
2

f  y   
1 1    media
e 2 2
  exp    y     2
 Assunto sulla distribuzione di
2 2 2 2  2 
2
  var ianza
probabilità cui appartengono i singoli
valori osservati in y

 Se i valori osservati in y appartengono alla distribuzione normale, allora la funzione di probabilità della
generica (i-esima) osservazione yi sarà espressa da:

1 
  1   ˆ K
 

2

f ( yi )   exp    2    yi    0    k xik  


ˆ
2   2     
2
k 1

Le osservazioni yi sono tra loro indipendenti (assunto di assenza di autocorrelazione),


pertanto la funzione di probabilità congiunta per N osservazioni sarà data da:

N
1   1   ˆ K
 
2

f ( y1 , y2 ,..., yN )    exp    2    yi    0    k xik   
ˆ
i 1 2 2   2    k 1   

 1 
N
 N  1   ˆ K
  
2
ovvero:
f ( y1 , y2 ,..., yN )     exp     2    yi    0    k xik   
ˆ
 2   i 1  2      
2
k 1

1   1  N  ˆ K
 
2
 continua...
che può essere espressa
f ( y1 , y2 ,..., yN )   exp  2     yi   0   k xik  
ˆ
2    2  i 1 
anche come: N
2 2  k 1  
...segue Stima dei parametri MASSIMA VEROSIMIGLIANZA Maximum Liklihood (ML)

1 
f ( y1 , y2 ,..., yN )  L ˆ,  2 
doppio cambio di notazione...
N
   
y  X      y  X  ˆ 
2
2
 
y
 i 
 ˆ K ˆ
  0    x


k ik   

ˆ
i 1   k 1     

1   1  N  ˆ K
 
2

f ( y1 , y2 ,..., yN )   exp  2     yi    0  ˆk xik  
2 2
N
2
  2  i 1   k 1  


L ˆ ,  2  1   1     
 exp    2    y  X  ˆ    y  X  ˆ  
2  2
N
2   2     

Prendendo il logaritmo
(funzione di log-verosimiglianza)
 
 1 
 2 

1
l ˆ ,  2   2  y  Xˆ  y  Xˆ  N log 2 2
2
   

Derivando rispetto a ^ ed eguagliando a zero


 1 
 2 

  2   X   y  X   X  ˆ  0 

Risolvendo rispetto a ^
(2 è costante e può essere tralasciato) ˆ  ( X   X ) 1  X   y
(alcune) Proprietà delle stime
ˆ è uno stimatore campionari o del vettore 
Uno stimatore (stimatore campionario) è:
una formula o un metodo di calcolo impiegato per una stima puntuale;
 lineare quando può essere espresso come una somma di prodotti fra un coefficiente o peso fisso e una componente variabile o stocastica
(funzione lineare di una variabile stocastica);
 corretto se il suo valore medio, calcolato su un numero infinito di campioni casuali estratti dallo stesso universo di riferimento,
è uguale al parametro da stimare (non-distorto o non affetto da errore sistematico);
 efficiente se si tratta di quello stimatore cui corrisponde la minima varianza, fra tutti i possibili stimatori non affetti da errore sistematico

Le stime dei  sono “corrette” ed “efficienti” (teorema di Gauss-Markov);


Sono le "migliori" (le più efficienti) tra quelle ottenibili nell’ambito degli stimatori lineari corretti (B.L.U.E.)

Il vettore degli scarti ha sempre media uguale a zero (se è presente il vettore unitario u in rappresentanza di 0) e 0

La media dei valori riprodotti dal modello coincide sempre con la media della variabile dipendente yˆ  y
DIMOSTRAZIONE

y  yˆ  e moltiplicando entrambi i membri per ... 1 N u si ottiene ... 1 N uy  1 N uyˆ  1 N ue
n

MA ... 1 N ue  1 N  e i e  0
i 1

Il vettore degli scarti è sempre ortogonale a ciascuna colonna della matrice X Xe  0
DIMOSTRAZIONE
X   y  ( X   X )  ˆ X   y  X   X  ˆ  0 
X   y  X  ˆ  0  X    y  yˆ   0 Xe  0

Il vettore dei valori riprodotti dal modello è sempre ortogonale al vettore degli scarti yˆ   e  0
Segue dal fatto che ŷ è combinazione lineare di X
Una variabile esplicativa
Notazione vettoriale...

y  X     y1  1 x1 
y  1 x 
 2  2
In matrice dati...  ...  1 ... 
   
 yi  1 xi 
Notazione scalare...  ...  1 ... 
   
yi   0  1 xi   i  yN  1 x N 

y i  ˆ0  ˆ1 x i  e i

yˆ i  ˆ0  ˆ1 x i

y i  yˆ i  e i ; e i  y i  yˆ i
Scomposizione della variabilità (1)

TEOREMA
La somma dei quadrati totale o da spiegare (SQT) può sempre essere scomposta in due addendi: la somma dei
quadrati spiegata (SQS) e la somma dei quadrati residua o dello scarto (SQR)

DIMOSTRAZIONE

yi  yˆ i  e i Elevando al quadrato
e sommando ... 1  i  N  ...  y   yˆ
2
i
2
i  2 yˆ i ei   ei2 Ma...  yˆ i ei  0 ; pertanto...

Ovvero...

 yi2   yˆ i2   e i2 SQT  SQS  SQR (in notazione vettoriale)

yy  yˆ yˆ  e e
Se nel modello è presente l'intercetta...
SOMME dei QUADRATI = DEVIANZE
SQ
Sfruttando alcune proprietà delle stime
yˆ  y ; e  0 SQ1
vale, anche per le DEVIANZE, SQS
il precedente TEOREMA; infatti... SQ2

yi  y  yˆi  y ei e yi  yˆi ei DevT  DevS  Dev R SQT .…..

il TEOREMA vale anche per i Gradi di Libertà SQk

GdLT  GdLS  GdLR SQR


GdLT  N

Somme dei Quadrati GdLS  K
GdL  N  K
 R

Dove: GdLT  N  1
N = Osservazioni; 
Devianze GdLS  K
K = Variabili esplicative GdL  N  1  K
 R
Scomposizione della variabilità (1)
Le tre componenti (DevT ; DevS ; DevR) possono essere illustrate graficamente riportando
sugli assi cartesiani un'unica osservazione (yi) di un modello lineare classico bivariato

y  y   DevT
2
i

yˆ i  ˆ0  ˆ1 x i
  y  yˆ    e  Dev R
2 2
i i

yi
 yi  yˆ i 
 yi  y    yˆ  y   Dev S
2
ŷi i

 yˆ i  y 
y y
ˆ0
ˆ1

x
Variabili categoriali
Variabili booleane 12 individui... rilevazione di:
 GRUPPO di riferimento (A, B, C)  GENERE (1 = Maschio; 0 = Femmina)

variabile In MATRICE DATI (CxV)... Gruppo Genere


DUMMY

IDENT IDENT
Gruppo Genere A B C M F
FORMA
01 A 1 matrice  RIDOTTA 01 1 0 0 1 0
variabili COMPRESSA
02 A 1 02 1 0 0 1 0

03 A 0 03 1 0 0 0 1

04 A 0 04 1 0 0 0 1

05 B 1 05 0 1 0 1 0

06 B 1 06 0 1 0 1 0

07 B 0 07 0 1 0 0 1

08 B 0 08 0 1 0 0 1

09 C 1 09 0 0 1 1 0

10 C 1 FORMA 10 0 0 1 1 0
matrice  CANONICA o ESTESA
11 C 0 variabili  DISGIUNTIVA COMPLETA 11 0 0 1 0 1

12 C 0 12 0 0 1 0 1

classi di equivalenza valore

... ...
APPARTENENZA VERITÀ
xi xi

... ...
ESEMPIO (1a) ==> 2 gruppi di individui (3 individui ogni grupo) sono stati sottoposti a metodi diversi di insegnamento;
si potrebbero ottenere i seguenti dati...

PAROLE LETTE
INTERVALLO
DOMANDE...
di TEMPO (1) I due metodi producono una differenza statisticamente significativa?
(2) Qual è l’effetto del metodo "b" sulla velocità di lettura ?
Id y Metodo x
Two Sample t-test for the Means of y within metodo
(1)
1b 70 B 1
Sample Statistics
2b 80 B 1 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
3b 90 B 1 b 3 80 10 5.7735
c 3 20 5 2.8868
1c 20 C 0
Hypothesis Test
2c 15 C 0 Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0
3c 25 C 0
y i  ˆ0  ˆ1 x i  e i If Variances Are t statistic Df Pr > t
----------------------------------------------------
Equal 9.295 4 0.0007
(2) Not Equal 9.295 2.94 0.0029

y  50; x  0.5

y
90
80
70 In una situazione così elementare
è possibile seguire, passo-passo,
60 (50;0.5) il procedimento di stima del modello...
50 yˆ i  ˆ0  ˆ1 xi
40  
30 20 60
20
10 ˆ0
ˆ1
0 1 x
ESEMPIO (1a) N N

y i  ˆ0  ˆ1 x i  e i
Si tratta di trovare quei parametri (a; b) che... e  y
i 1
2
i
i 1
i  yˆ i   min
2

 
N N N
yˆ i  ˆ0  ˆ1 x i
 e    yi  yˆ i    yi  ˆ0  ˆ1 xi
è necessario calcolare 2 2
2
le derivate parziali
ed eguagliarle a zero i
y i  yˆ i  e i ; e i  y i  yˆ i i 1 i 1 i 1

Parametro: 0

 N
   2 y  ˆ  ˆ x   0
N

    2 z w  ˆ  ˆ z   0
2 1
yi  ˆ0  ˆ1 xi  N N


2 1
wi  ˆ0  ˆ1 zi
i i
ˆ0 i 1
0 1
i 1 i i 1 i
ˆ1 i 1
0
N N i 1

 yi  Nˆ0  ˆ1  xi  0 N N N
i 1 i 1
 wi zi  ˆ0  zi  ˆ1  zi2  0 ;
1 N 1 N i 1 i 1 i 1
 0   yi  ˆ1
ˆ
x i N N
N i 1 N i 1 Ma :  zi    xi  x   0
ˆ  y  ˆ x
0 1
i 1 i 1
N N
Parametro: 1 (traslazione degli assi)  wi  yi  y

 w z   y  y  x
i i i i  x
CoDev xy
100  zi  xi  x ˆ1  i 1
 i 1

N N
Dev x
z 
 i 
90 w y

2
80
70
2
i x x
60 i 1 i 1
50
N

  y  y  x  x
40
30
1
20
N
i i
Cov xy
10
1 Ovvero... ˆ1  i 1

N
Varx
0

 x i  x
-10 x 1 2
-20
-30
-40
N i 1
1 (y;x)
-50
-60 (w;z)
z
-0.5 0.0 +1.0
I calcoli...
yi  ˆ0  ˆ1 xi  ei yˆ i  ˆ0  ˆ1 xi
ESEMPIO (1a)
Qualche conto utile...

y  50; x  0.5 x 2  0.5 2  0.25


Id y x ŷ e N
1 1
1b 70 1 80 -10 xy   xi yi  240  40
2b
3b
80
90
1
1
80
80
0
+10
} ŷ = 80 = MEDIA ("B")
N
1
i 1

N
1
6

x  x  3  0.5
}
2 2
1c 20 0 20 0 i
2c 15 0 20 -5 ŷ = 20 = MEDIA ("C") N i 1 6
3c 25 0 20 +5

COVxy xy  x  y 40  0.5  50 15
ˆ1      60 ˆ0  y  ˆ1 x  50  60  0.5  20
VARx x2  x 2 0.5  0.25 0.25

Inoltre...
N N N
DEVt    yi  y   5650 ; GdLt  6  1  5 DEVs    yˆ i  y   5400 ; GdLs  1 DEVr   ei   250 ; GdLr  6  1  1  4
2 2 2

i 1 i 1 i 1

sx  sx2  0.25  0.5; s y  941.67  30.69


DEVs
GdLs
 86.4; per α  0.01; Fcritico  21.20 (H0 : respinta)
5400
F 
DEVr 62.5
GDLr

COVxy 15 DEVs DEVs 5400


r   0.98 R 2  r 2  0.98 2  0.96 R2     0.96
sx  s y 0.5  30.69 DEVt DEVs  DEVr 5650

con software statistico...


data uno;input y metodo $1.;cards; data uno;set uno;x=0;if metodo="b" then x=1;
ESEMPIO (1a) t-TEST 70 b
80 b
Two Sample t-test for the Means of y within metodo 90 b
20 c
Sample Statistics
15 c The GLM Procedure proc glm data=uno; model y =x;quit;
Group N Mean Std. Dev. Std. Error 25 c Dependent Variable: y
---------------------------------------------------- ;
b 3 80 10 5.7735
Sum of
c 3 20 5 2.8868 Source DF Squares Mean Square F Value Pr > F
Model 1 5400.000000 5400.000000 86.40 0.0007
Hypothesis Test Error 4 250.000000 62.500000
Null hypothesis: Mean 1 - Mean 2 = 0 Corrected Total 5 5650.000000
Alternative: Mean 1 - Mean 2 ^= 0
R-Square Coeff Var Root MSE y Mean
If Variances Are t statistic Df Pr > t 0.955752 15.81139 7.905694 50.00000
----------------------------------------------------
Equal 9.295 4 0.0007 Source DF Type I SS Mean Square F Value Pr > F
Not Equal 9.295 2.94 0.0029 x 1 5400.000000 5400.000000 86.40 0.0007
Source DF Type III SS Mean Square F Value Pr > F
x 1 5400.000000 5400.000000 86.40 0.0007
The REG Procedure proc reg data=uno; model y =x;quit;
Model: MODEL1 Standard
Dependent Variable: y Parameter Estimate Error t Value Pr > |t|
Analysis of Variance Intercept 20.00000000 4.56435465 4.38 0.0119
Sum of Mean x 60.00000000 6.45497224 9.30 0.0007
Source DF Squares Square F Value Pr > F
Model 1 5400.00000 5400.00000 86.40 0.0007
Error 4 250.00000 62.50000
Corrected Total 5 5650.00000 proc glm data=uno; class metodo;model y = metodo /solution;quit;

Root MSE 7.90569 R-Square 0.9558 The SAS System


Dependent Mean 50.00000 Adj R-Sq 0.9447 The GLM Procedure
Coeff Var 15.81139 Dependent Variable: y
Sum of
Parameter Estimates Source DF Squares Mean Square F Value Pr > F
Parameter Standard Model 1 5400.000000 5400.000000 86.40 0.0007
Variable DF Estimate Error t Value Pr > |t| Error 4 250.000000 62.500000
Intercept 1 20.00000 4.56435 4.38 0.0119 Corrected Total 5 5650.000000
x 1 60.00000 6.45497 9.30 0.0007
R-Square Coeff Var Root MSE y Mean
0.955752 15.81139 7.905694 50.00000
The GLM Procedure
Dependent Variable: y Source DF Type I SS Mean Square F Value Pr > F
Sum of metodo 1 5400.000000 5400.000000 86.40 0.0007
Source DF Squares Mean Square F Value Pr > F Source DF Type III SS Mean Square F Value Pr > F
Model 1 5400.000000 5400.000000 86.40 0.0007 metodo 1 5400.000000 5400.000000 86.40 0.0007
Error 4 250.000000 62.500000
Corrected Total 5 5650.000000 Standard
Parameter Estimate Error t Value Pr > |t|
R-Square Coeff Var Root MSE y Mean Intercept 20.00000000 B 4.56435465 4.38 0.0119
0.955752 15.81139 7.905694 50.00000
metodo b 60.00000000 B 6.45497224 9.30 0.0007
metodo c 0.00000000 B . . .
Source DF Type I SS Mean Square F Value Pr > F
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
x 1 5400.000000 5400.000000 86.40 0.0007
was used to solve the normal equations. Terms whose estimates are
Source DF Type III SS Mean Square F Value Pr > F
x 1 5400.000000 5400.000000 86.40 0.0007 followed by the letter 'B' are not uniquely estimable.

Standard
Parameter Estimate Error t Value Pr > |t| proc sort data=uno out=uno;by descending x;
Intercept 20.00000000 B 4.56435465 4.38 0.0119 proc glm data=uno order=data; class x;
x 1 60.00000000 B 6.45497224 9.30 0.0007
model y = x /solution;quit;
x 0 0.00000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Il modello lineare classico  "REGRESSIONE"

ESEMPIO (1b) Il modello è nato come uno strumento per stimare i parametri di
una relazione lineare fra due variabili entrambe cardinali.
Su un campione di 10 donne è stato rilevato
“l’atteggiamento nei confronti della Il termine “regressione” si deve al biologo Galton (1822-1911)
subordinazione della donna” (y) e un tratto che ha cercato di stabilire in che misura la statura dei figli segnasse
di personalità, “autoritarismo” (x) un ritorno (una regressione appunto) verso la statura media della
specie, allorché la statura dei genitori se ne allontanava
Entrambe le varibili sono a livello di scala di intervalli,
con punteggi che variano da 0 a 10
(10 = max subordinazione = max autoritarismo)

Id y x Dai dati...
yi  ˆ0  ˆ1 xi  ei
y  4.40; x  3.00 x 2  3.00 2  9.00
y

1 2 1
10

9
N
2 4 3 1 1
x y
8

7 xy  i i  144.00  14.40
3 5 2 N i 1 10
yˆ i  2.6  0.6 xi
6

5
4 5 5 1 N
1
x
4

3 x 
2 2
i  110.00  11.00
5 6 5 N 10
2 i 1
6 4 1 1

0
0 1 2 3 4 5 6 7 8 9 10 11
x sx  sx2  2.00  1.414 ; s y  1.44  1.20
7 4 4
8 3 2
COVxy xy  x  y 14.40  3.00  4.40 1.20
9 5 3 ˆ1      0.60 ˆ0  y  ˆ1 x  4.40  0.60  3.00  2.60
10 6 4 VARx x x2 2 11.00  9.00 2.00
N
DEVt    yi  y   14.40 ; GdLt  10  1  9 DEVs 7.20
2
R2    0.50
i 1 DEVt 14.40
N
DEVs    yˆ i  y   7.20 ; GdLs  1
2 DEVs
GdLs 7.20
i 1 F   8.00;
DEVr 0.90
N GDLr
DEVr   ei   7.20 ; GdLr  10  1  1  8 per α  0.05; Fcritico  5.32
2
(H0 : respinta)
i 1

t  F  8.00  2.83
GdLr  8; per α  0.05; tcritico  2.306 (H0 : respinta)
ESEMPIO (1b)  Quando le variabili (y e x) sono standardizzate, il coefficiente di
regressione stimato coincide con il coefficiente di correlazione (r)
 Coefficienti ˆ1 e ˆ1
 Interpretazione parametri ˆ ;ˆ ; ˆ 
0 1 1
 Questo coefficiente (peso ) esprime la variazione attesa in y, in
unità di deviazione standard, per la variazione di 1 dev. standard in x
 Stime (ŷ) al di là dei dati empirici (x = ???)
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
The REG Procedure proc reg data=uno; model y =x / stb;quit;
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Model: MODEL1
y 10 4.4000000 1.2000000 2.0000000 6.0000000 Dependent Variable: y
x 10 3.0000000 1.4142136 1.0000000 5.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
data uno;input y x;cards; Obs y x ystd xstd Model 1 7.20000 7.20000 8.00 0.0222
2 1 1 2 1 -2.00000 -1.41421 Error 8 7.20000 0.90000
4 3 Corrected Total 9 14.40000
2 4 3 -0.33333 0.00000
5 2
5 5 3 5 2 0.50000 -0.70711
4 5 5 0.50000 1.41421 Root MSE 0.94868 R-Square 0.5000
6 5 Dependent Mean 4.40000 Adj R-Sq 0.4375
4 1 5 6 5 1.33333 1.41421
Coeff Var 21.56098
4 4 6 4 1 -0.33333 -1.41421
3 2 7 4 4 -0.33333 0.70711
Parameter Estimates
5 3 8 3 2 -1.16667 -0.70711 Parameter Standard Standardized
6 4 9 5 3 0.50000 0.00000 Variable DF Estimate Error t Value Pr > |t| Estimate
; 10 6 4 1.33333 0.70711 Intercept 1 2.60000 0.70356 3.70 0.0061 0
x 1 0.60000 0.21213 2.83 0.0222 0.70711

The REG Procedure proc reg data=uno; model ystd = xstd ;quit;
y
yˆ i  2.6  0.6 xi Model: MODEL1
Dependent Variable: ystd
10
Analysis of Variance
9 Sum of Mean
ŷ = 7.4 Source DF Squares Square F Value Pr > F
8 Model 1 5.00000 5.00000 8.00 0.0222
7
Error 8 5.00000 0.62500
Corrected Total 9 10.00000
6
Root MSE 0.79057 R-Square 0.5000
5
Dependent Mean -2.8866E-16 Adj R-Sq 0.4375
4 Coeff Var -2.73878E17

3 Parameter Estimates
2 Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
1 Intercept 1 -2.8866E-16 0.25000 -0.00 1.0000
xstd 1 0.70711 0.25000 2.83 0.0222
0
0 1 2 3 4 5 6 7 8 9 10 11
x
Due (o più) variabili esplicative

Notazione vettoriale...
 y1  1 x11 x21 xk1 
y  X   
...
y  1 x x22 ... x k2 
 2  12 
In matrice dati...  ...  1 ... ... ... ... 
   
1 x1i x2i x ki 
Notazione scalare...  yi  ...
 ...  1 ... ... ... ... 
yi   0  1 x1i   2 x2i  ...   k xki   i  
 yN 

1 x1N x2 N ...

xkN 

K
yi   0    k xki   i
Ovvero...

k 1

yi  ˆ0  ˆ1 x1i  ˆ2 x2i  ...  ˆk xki  ei

yˆ i  ˆ0  ˆ1 x1i  ˆ2 x2i  ...  ˆk xki

y i  yˆ i  e i ; e i  y i  yˆ i
Interpretazione dei parametri DUE
DUE SEQUENZE
SEQUENZE DI
DI TRE
TRE ESEMPI...
ESEMPI...
(X  Cardinali)

Perchè varia il grado di AUTONOMIA DECISIONALE? ...


Si vuole spiegare la variabilità osservata nell' AUTONOMIA DECISIONALE (y) tramite:

 Sequenza esempi "A" .... COMPORTAMENTO COMPROMISSORIO (X1) ;  COMPORTAMENTO AGGRESSIVO (X2)
 Sequenza esempi "B" .... COMPORTAMENTO DEVIANTE (X1) ;  ETÀ (X2)

Per ciascuna variabile esplicativa si vuole stabilire l'eventuale presenza di un effetto, la sua direzione, la sua entità...

campione di 100 individui

ESEMPIO (Bivariato) A1
X y
Comportamento
Autonomia
decisionale
ESEMPIO (Bivariato) A2 ESEMPIO (Multivariato) A3
X1
Compromissorio Comportamento

y ˆ1  ? X ˆ1  ? Compromissorio

Autonomia
ˆ1  ?
Comportamento
y
Aggressivo Autonomia
decisionale
decisionale

ˆ2  ? X2
Comportamento
Aggressivo

ESEMPIO (Bivariato) B1
X y
Devianza
Autonomia
ESEMPIO (Bivariato) B2 ESEMPIO (Multivariato) B3
X1
decisionale Devianza
ˆ1  ?
y ˆ1  ? X y ˆ1  ?
Autonomia
Età Autonomia
decisionale
decisionale

ˆ2  ? X2
Età

Negli esempi si farà riferimento anche ai coefficienti ( o pesi) 


Contrariamente ai  i  NON dipendono dall'unità di misura delle variabili cui si riferiscono e, pertanto,
consentono di confrontare agevolmente gli effetti di variabili esplicative fra loro incommensurabili.
Interpretazione dei parametri SEQUENZA
(X  Cardinali)
SEQUENZA "A"
"A"
 due variabili metriche...
ESEMPIO (Bivariato) A1
(AUTO_DEC) ident AUTO_DEC COMPROM  analisi di REGRESSIONE (semplice)
n1 S82 0.16 0.12 (Modello Lineare Classico)
MISURAZIONE
n2 S87 2.55 0.21
n3 S84 -0.36 -1.86
n4 S27 -1.00 -2.10
n5 S60 5.70 1.51
n6 S71 1.18 0.84
n7 S47 2.19 1.88
n8 S75 1.15 -0.89
n9 S59 1.13 1.35
MISURAZIONE n10 S37 -0.12 0.77 => ~ 46% di variabilità spiegata
(COMPROM) :::::: :::: :::::: :::::: => al crescere di COMPROM
n100 S79 -1.21 -1.16 cresce l'AUTONOMIA DECISIONALE
=> per ogni variazione di +1 punto di COMPROM...
The MEANS Procedure il modello fornisce
Variable N Mean Std Dev Minimum Maximum
+0.80 punto (circa) di AUTONOMIA DECISIONALE
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ  +0.68 per variabili standardizzate
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL1
Dependent Variable: AUTO_DEC
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 113.22709 113.22709 84.88 <.0001


Error 98 130.72294 1.33391

yi  ˆ0  ˆ1 xi  ei
Corrected Total 99 243.95004
Il modello...
Root MSE 1.15495 R-Square 0.4641
Dependent Mean 0.19420 Adj R-Sq 0.4587
Coeff Var 594.72151

La teoria...
ˆ1  0.80 X Parameter Estimates

Comportamento Parameter Standard Standardized


Compromissorio Variable DF Estimate Error t Value Pr > |t| Estimate
y ˆ1  0.68
Intercept 1 0.19428 0.11549 1.68 0.0957 0
Autonomia
COMPROM 1 0.80052 0.08689 9.21 <.0001 0.68128
decisionale
Interpretazione dei parametri
(X  Cardinali) SEQUENZA
SEQUENZA "A"
"A"
ESEMPIO (Bivariato) A2
 due variabili metriche...
ident AUTO_DEC AGGRESS  analisi di REGRESSIONE (semplice)
(AUTO_DEC)
S82 0.16 -0.24 (Modello Lineare Classico)
MISURAZIONE n1
n2 S87 2.55 0.07
n3 S84 -0.36 -0.25
n4 S27 -1.00 0.19
n5 S60 5.70 -0.83
n6 S71 1.18 -0.96
n7 S47 2.19 0.53
n8 S75 1.15 0.11
n9 S59 1.13 0.53 => ~ 8% di variabilità spiegata (!!!!!)
MISURAZIONE n10 S37 -0.12 0.18
(AGGRESS) :::::: :::: :::::: :::: => al crescere di AGGRESS
n100 S79 -1.21 0.38
decresce l'AUTONOMIA DECISIONALE
The MEANS Procedure .............

Variable N Mean Std Dev Minimum Maximum


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
AGGRESS 100 1.249001E-18 0.4595824 -1.2700000 1.2300000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL2
Dependent Variable: AUTO_DEC
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 20.46164 20.46164 8.97 0.0035


Error 98 223.48840 2.28049
Il modello... yi  ˆ0  ˆ1 xi  ei Corrected Total 99 243.95004

Root MSE 1.51013 R-Square 0.0839


Dependent Mean 0.19420 Adj R-Sq 0.0745
Coeff Var 777.61607

y Parameter Estimates
Autonomia
decisionale
ˆ1  0.98 Variable DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Standardized
Estimate

ˆ1  0.29
X Intercept 1 0.19420 0.15101 1.29 0.2015 0
Comportamento
Aggressivo AGGRESS 1 -0.98425 0.32859 -3.00 0.0035 -0.28961
Interpretazione dei parametri
(X  Cardinali) SEQUENZA
SEQUENZA "A"
"A" ESEMPIO (Multivariato) A3
ident AUTO_DEC COMPROM AGGRESS  tre variabili metriche...
MISURAZIONEn1 S82 0.16 0.12 -0.24  analisi di REGRESSIONE (multipla)
n2 S87 2.55 0.21 0.07 (Modello Lineare Classico)
n3 S84 -0.36 -1.86 -0.25
n4 S27 -1.00 -2.10 0.19
n5 S60 5.70 1.51 -0.83
MISURAZIONE
n6 S71 1.18 0.84 -0.96
n7 S47 2.19 1.88 0.53
n8 S75 1.15 -0.89 0.11
n9 S59 1.13 1.35 0.53
MISURAZIONE n10
S37 -0.12 0.77 0.18 => ~ 55% di variabilità spiegata
(COMPROM) :::::: :::: :::::: :::::: ::::
(AGGRESS) n100 S79 -1.21 -1.16 0.38 => al crescere di COMPROM
cresce l'AUTONOMIA DECISIONALE
The MEANS Procedure => al crescere di AGGRESS
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
decresce l'AUTONOMIA DECISIONALE
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000 .....
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000
AGGRESS 100 1.249001E-18 0.4595824 -1.2700000 1.2300000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL3
Il modello...
Dependent Variable: AUTO_DEC
Analysis of Variance

yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ei Sum of Mean


Source DF Squares Square F Value Pr > F

Model 2 133.76745 66.88373 58.88 <.0001


Error 97 110.18258 1.13590
La teoria...
Corrected Total 99 243.95004

ˆ1  0.80 X1 Root MSE 1.06579 R-Square 0.5483


Comportamento Dependent Mean 0.19420 Adj R-Sq 0.5390
Compromissorio Coeff Var 548.80920

y ˆ1  0.68 Parameter Estimates


Autonomia
decisionale
ˆ2  0.98 Variable DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Standardized
Estimate
X2
ˆ2  0.29 Comportamento Intercept 1 0.19428 0.10658 1.82 0.0714 0
Aggressivo COMPROM 1 0.80080 0.08018 9.99 <.0001 0.68152
AGGRESS 1 -0.98614 0.23190 -4.25 <.0001 -0.29017

Riassumendo (sequenza di esempi "A")...


Interpretazione dei parametri SEQUENZA
(X  Cardinali)
SEQUENZA "A"
"A" (riassumendo...)
(riassumendo...)
yˆ i  0.19  0.80  xi yˆ i  0.19  0.98  xi
R 2  0.46 R 2  0.08

yˆ i  0.19  0.80  x1i  0.98  x 2i R 2  0.55

ˆ1  0.80 X1
Comportamento
Compromissorio
y ˆ1  0.68
Autonomia
decisionale
ˆ2  0.98
X2
ˆ2  0.29 Comportamento
Aggressivo

I coefficienti stimati
dei modelli BIVARIATI,
coincidono con quelli
del modello MULTIVARIATO
Interpretazione dei parametri SEQUENZA
(X  Cardinali)
SEQUENZA "B"
"B"
 due variabili metriche...
ESEMPIO (Bivariato) B1
(AUTO_DEC) ident AUTO_DEC DEVIANZA  analisi di REGRESSIONE (semplice)
MISURAZIONE n1 S82 0.16 0.08 (Modello Lineare Classico)
n2 S60 5.70 -0.48
n3 S47 2.19 -1.70
n4 S75 1.15 0.55
n5 S59 1.13 -1.33
n6 S79 -1.21 0.55
n7 S9 -0.89 -2.31
n8 S42 0.25 -0.29
n9 S3 2.04 -1.14
MISURAZIONE n10 S78 0.59 2.29 => ~ 30% di variabilità spiegata
(DEVIANZA) :::::: :::: ::::: :::::
n100 S81 -1.95 1.68
=> al crescere della DEVIANZA
diminuisce l'AUTONOMIA DECISIONALE
=> per ogni variazione di +1 punto di DEVIANZA...
The MEANS Procedure
il modello fornisce
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
-6/7 di punto (circa) di AUTONOMIA DECISIONALE
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000 => per ogni +1 dev. st. di DEVIANZA
DEVIANZA 100 0.000300000 0.9944923 -2.3600000 2.3400000 il modello fornisce
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
=> -½ (circa) dev. st. di AUTONOMIA DECISIONALE
=> etc. etc.

The REG Procedure


Il modello... yi  ˆ0  ˆ1 xi  ei Dependent Variable: AUTO_DEC

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 73.57670 73.57670 42.32 <.0001
Error 98 170.37334 1.73850
La teoria ˆ1  0.86 X Corrected Total 99 243.95004

Devianza Root MSE 1.31852 R-Square 0.3016

y ˆ1  0.55 Dependent Mean


Coeff Var
0.19420
678.95119
Adj R-Sq 0.2945

Autonomia
decisionale Parameter Estimates

Parameter Standard Standardized


Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 0.19446 0.13185 1.47 0.1435 0


DEVIANZA 1 -0.86252 0.13258 -6.51 <.0001 -0.54919
Interpretazione dei parametri SEQUENZA
(X  Cardinali)
SEQUENZA "B"
"B"
 due variabili metriche...
ESEMPIO (Bivariato) B2
 analisi di REGRESSIONE (semplice)
(AUTO_DEC) ident AUTO_DEC ETA
(Modello Lineare Classico)
MISURAZIONE n1 S82 0.16 13
n2 S87 2.55 13
n3 S84 -0.36 12
n4 S27 -1.00 11
n5 S60 5.70 15
n6 S71 1.18 14
n7 S47 2.19 14 => ~ 50% di variabilità spiegata
n8 S75 1.15 12
n9 S59 1.13 14
=> al crescere dell'ETÁ
MISURAZIONE cresce l'AUTONOMIA DECISIONALE
n10 S37 -0.12 13
(ETA  anni) :::::: :::: :::: ::: => per ogni variazione di +1 anno di ETÁ...
n100 S79 -1.21 12 il modello fornisce
+1 punto (circa) di AUTONOMIA DECISIONALE
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
ETA 100 12.9700000 1.0531382 10.0000000 16.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Dependent Variable: AUTO_DEC

Analysis of Variance
Il modello... yi  ˆ0  ˆ1 xi  ei Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 122.31419 122.31419 98.55 <.0001
Error 98 121.63585 1.24118
Corrected Total 99 243.95004
La teoria
Root MSE 1.11408 R-Square 0.5014
Dependent Mean 0.19420 Adj R-Sq 0.4963

y
Coeff Var 573.67844

Autonomia Parameter Estimates


decisionale
ˆ1  1.05 Parameter Standard Standardized

ˆ1  0.71
X Variable DF Estimate Error t Value Pr > |t| Estimate
Età
Intercept 1 -13.42630 1.37657 -9.75 <.0001 0
ETA 1 1.05015 0.10579 9.93 <.0001 0.70809
Interpretazione dei parametri SEQUENZA
(X  Cardinali)
SEQUENZA "B"
"B"
 tre variabili metriche...
ESEMPIO (Multivariato) B3
(AUTO_DEC)  analisi di REGRESSIONE (multipla)
n1 ident AUTO_DEC DEVIANZA ETA (Modello Lineare Classico)
MISURAZIONE
n2 S93 3.64 -0.57 14
n3 S14 -2.53 1.54 10
n4 S66 0.09 1.17 13
(ETA anni)
n5 S27 -1.00 1.35 11
MISURAZIONE S82 0.16 0.08 13
n6 => La DEVIANZA comportamentale
n7 S18 -2.25 0.98 13
S60 5.70 -0.48 15 NON ha alcuna influenza sul grado
n8
n9 S9 -0.89 -2.31 14 di AUTONOMIA DECISIONALE;
MISURAZIONE n10 S69 3.16 -2.22 16 => la variabilità osservata è spiegata
(DEVIANZA) :::::: :::: ::::: ::::: ::: dalla variabilità dell'ETÁ
n100 S39 -2.26 2.34 11

The MEANS Procedure


Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
DEVIANZA 100 0.000300000 0.9944923 -2.3600000 2.3400000
ETA 100 12.9700000 1.0531382 10.0000000 16.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Il modello... The REG Procedure

yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ei


Dependent Variable: AUTO_DEC

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 122.32863 61.16431 48.78 <.0001
Error 97 121.62141 1.25383
La teoria Corrected Total 99 243.95004

ˆ1  0.02 X1 Root MSE 1.11975 R-Square 0.5014


Devianza Dependent Mean 0.19420 Adj R-Sq 0.4912
Coeff Var 576.59374
y ˆ1  0.01 Parameter Estimates
Autonomia
decisionale
ˆ2  1.06 Variable DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Standardized
Estimate
X2
ˆ2  0.72 Età Intercept 1 -13.61219 2.21700 -6.14 <.0001 0
DEVIANZA 1 0.01940 0.18078 0.11 0.9148 0.01235
ETA 1 1.06449 0.17071 6.24 <.0001 0.71775

Riassumendo (sequenza di esempi "B")...


Interpretazione dei parametri SEQUENZA
(X  Cardinali)
SEQUENZA "B"
"B" (riassumendo...)
(riassumendo...)

yˆ i  0.19  0.86  xi yˆ i  13.43  1.05  xi


R 2  0.30 R 2  0.50

yˆ i  13.61  0.02  x1i  1.06  x 2i R 2  0.50


ˆ1  0.02 X1
Devianza

y ˆ1  0.01
Autonomia
decisionale
ˆ2  1.06
X2
ˆ2  0.72 Età

I coefficienti stimati
dei modelli BIVARIATI
(almeno uno...),
NON coincidono con quelli
del modello MULTIVARIATO

Riassumendo
(sequenze di esempi "A" e "B")...
Interpretazione dei parametri (RIASSUMENDO):
(X  Cardinali)
(RIASSUMENDO): SEQUENZA
SEQUENZA "A"
"A" ee "B"
"B" Con riferimento ai soli parametri standardizzati...

ESEMPIO (Bivariato) A1
X
Comportamento

y ˆ1  0.68
Compromissorio ESEMPIO (Multivariato) A3
X1

=
Comportamento
Autonomia Compromissorio
ˆ1  0.68
decisionale
y
Autonomia
decisionale

X2
y ˆ2  0.29 Comportamento
ESEMPIO (Bivariato) A2 Aggressivo
Autonomia
decisionale

ˆ1  0.29
X
Comportamento
Aggressivo

ESEMPIO (Bivariato) B1
X
Devianza

y ˆ1  0.55
Autonomia
ESEMPIO (Multivariato) B3
X1

decisionale Devianza

y ˆ1  0.01
Autonomia
decisionale

X2
y ESEMPIO (Bivariato) B2
ˆ2  0.72 Età
Autonomia
decisionale

ˆ1  0.71
X
Età

Perché ... ? Cosa differenzia le due sequenze di esempi...?


Interpretazione dei parametri (SEQUENZA
(SEQUENZA "A"
"A" ee "B")
"B")
(X  Cardinali) II coefficienti Perché ... ?
coefficienti dei modelli BIVARIATI NON coincidono con
dei modelli BIVARIATI NON coincidono con quelli
quelli del
del modello
modello MULTIVARIATO
MULTIVARIATO

In generale, considerate k variabili indipendenti, ciascun coefficiente di regressione multipla indica la variazione
sulla variabile dipendente (riprodotta), dovuta ad una variazione unitaria della corrispondente variabile esplicativa,
al netto dell’influenza esercitata sulla dipendente dalle altre k-1 variabili esplicative

Questa proprietà può essere compresa in maniera più diretta, facendo riferimento ai coefficienti ottenuti quando
TUTTE le variabili del modello sono STANDARDIZZATE (pesi )  (per una illustrazione precisa si veda qui in "dettagli") 

Zyˆ i  0  ˆ1 Zx1i  ˆ2 Zx 2 i


 Quando le variabili sono standardizzate, ciascun coefficiente può essere letto come coefficinete di correlazione
(particolare o parzializzato)

 Da questa prospettiva, ciascun coefficiente esprime una misura del contributo netto che ciascuna variabile
esplicativa fornisce alla spiegazione (riproduzione) della variabilità osservata in y

 ˆ ryx 1  rx 1 x 2  ryx 2 Esempio: ˆ1



 1 
1  R x21 x 2 [ryx1]
 esprime la varibilità di y, spiegata (riprodotta) da x1
 dopo aver tolto la variabilità spiegata da x2 che è in comune con x1 [  rx1x2  ryx2]
 ˆ ryx 2  rx 1 x 2  ryx 1  
 2  in rapporto alla variabilità non spiegata da x1 e x2 
 1 R 2 

 1  R 2
x 1x2
x1x 2

Se le variabili esplicative sono fra loro ortogonali rx 1x 2  0  , Pertanto : ˆ1  ryx1

ˆk
fra i ei vale la seguente relazione (dove s = dev. st.): ˆk   s xk
sy
Interpretazione dei parametri (SEQUENZA
(SEQUENZA "A"
"A" ee "B")
"B")
(X  Cardinali) II coefficienti
coefficienti dei modelli BIVARIATI NON coincidono con
dei modelli BIVARIATI NON coincidono con quelli
quelli del
del modello
modello MULTIVARIATO
MULTIVARIATO

Cosa differenzia le due sequenze di esempi...?


X X
Comportamento
Compromissorio Devianza

A1 y ˆ1  0.68
y ˆ1  0.55
Autonomia B1 Autonomia
decisionale
decisionale

y
A2
Autonomia y
decisionale B2 Autonomia
decisionale
X
ˆ1  0.29 Comportamento
ˆ1  0.71
X
Aggressivo Età

X1 X1
Comportamento
Compromissorio Devianza
ˆ1  0.68
y y ˆ1  0.01
A3 Autonomia B3 Autonomia
decisionale
decisionale
X2 X2
ˆ2  0.29 Comportamento
ˆ2  0.72
Aggressivo Età

A1, A2  A3 B1, B2  B3
Pearson Correlation Coefficients, N = 100 Pearson Correlation Coefficients, N = 100
Prob > |r| under H0: Rho=0 Prob > |r| under H0: Rho=0
AUTO_DEC COMPROM AGGRESS AUTO_DEC DEVIANZA ETA
AUTO_DEC 1.00000 0.68128 -0.28961 AUTO_DEC 1.00000 -0.54919 0.70809
<.0001 0.0035 <.0001 <.0001
COMPROM 0.68128 1.00000 0.00082 DEVIANZA -0.54919 1.00000 -0.78236
<.0001 0.9936 <.0001 <.0001
AGGRESS -0.28961 0.00082 1.00000 ETA 0.70809 -0.78236 1.00000
0.0035 0.9936 <.0001 <.0001
Interpretazione dei parametri (SEQUENZA
(SEQUENZA "A""A" ee "B")
"B")
(X  Cardinali) Il modello lineare classico è un dispositivo utile
II coefficienti
coefficienti dei
dei modelli
modelli BIVARIATI
BIVARIATI NON
NON
per "spiegare" (stabilire l'esistenza di nessi causali o di dipendenza)
coincidono
coincidono concon quelli
quelli del
del modello
modello
MULTIVARIATO
MULTIVARIATO

Stabilire l'esistenza di una relazione fra due fenomeni (variabili) significa essenzialmente riconsiderare tale
relazione alla luce di una terza variabile che assume il ruolo di "variabile di controllo"

"varianti" del concetto di controllo:

 Controllo come MANIPOLAZIONE (possibilità di ...)

 Controllo come DEPURAZIONE (canone dei residui ...)

{
si osserva  y (le variazioni in)
Approccio sperimentale: mentre si manipola  x
tenenendo costanti  z (tutte le altre)

{
si osserva  y (le variazioni in)
Approccio osservativo: si osserva  x (le variazioni in)
depurando da  z (tutte le altre)

Le stime ottenute nell'ambito del modello linare classico sono un esempio di controllo mediante depurazione
(un esempio di operativizzazione del "canone dei residui" di J.S. Mill; 1843)

<<Si sottragga dal fenomeno quella parte che si sa, per previe induzioni,
essere l'effetto di certi antecedenti e il residuo del fenomeno è l'effetto
dei rimanenti antecedenti>>

Il modello lineare classico si "nutre" correlazioni parziali (e semi-parziali)


ovvero di correlazioni semplici fra variabili "residuo"
correlazioni fra variabili cui è stato sottratto l'effetto della/e variabili di controllo (z)
Interpretazione dei parametri (SEQUENZA
(SEQUENZA "A""A" ee "B")
"B")
(X  Cardinali) Il modello lineare classico è un dispositivo utile
II coefficienti
coefficienti dei
dei modelli
modelli BIVARIATI
BIVARIATI NON
NON
per "scovare" RELAZIONI SPURIE...
coincidono
coincidono concon quelli
quelli del
del modello
modello
MULTIVARIATO
MULTIVARIATO

Il paradosso di P. Lazarsfeld (1955) Y = numero di bambini nati


<<nelle zone in cui vi sono più cicogne nascono più bambini>> X = numero di cicogne
Z Z = tipo di zona ( U  Urbana; R  Rurale)

ANALISI BIVARIATA ANALISI MULTIVARIATA

X Y

X2 Pearson Correlation Coefficients, N = 100


Prob > |r| under H0: Rho=0
Età
r = -0.78 r = +0.71 AUTO_DEC DEVIANZA ETA
AUTO_DEC 1.00000 -0.54919 0.70809
<.0001 <.0001
DEVIANZA -0.54919 1.00000 -0.78236
<.0001 <.0001
r =+0.01
X1 y ETA 0.70809
<.0001
-0.78236
<.0001
1.00000

Autonomia
Devianza
r = -0.55 decisionale
Interpretazione dei parametri  Un precedente ESEMPIO ...
Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
(X  Categoriali)
<<Se gli individui sono stati sottoposti a DUE diversi metodi di insegnamento
allora la loro velocità di lettura è differente>>
-------------------------------------------------
Metdo: "B"  metodo - (B, C);  3 individui ogni gruppo

Id y Metodo x yˆ i  ˆ0  ˆ1 x i


1b 70 B 1 y i  ˆ0  ˆ1 x i  e i y
 
2b 80 B 1
20 60
3b 90 B 1
1c 20 C 0 Il Metodo "C" è stato
2c 15 C 0 "CONSAPEVOLMENTE" (?) Quando x vale 1...
3c 25 C 0 tralasciato...
ŷ = 80 = MEDIA Metodo "B"
Cosa succede generalizzando (un poco)???. 0 1 x

 Proseguendo con ESEMPIO ANALOGO... Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a TRE diversi metodi di insegnamento
allora la loro velocità di lettura è differente>>
-------------------------------------------------
METODO= A (1, 2, 3);  4 individui ogni gruppo (N = 12)

The REG Procedure Proc reg; model y = a1 a2 a3; quit;


Metdo: "1" Metdo: "2" Model: MODEL1
Dependent Variable: y
Metdo: "3"

?
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F
Id y A a1 a2 a3
Model 2 11.62565 5.81282 137.18 <.0001
1 6.31 1 1 0 0 Error 9 0.38138 0.04238
Corrected Total 11 12.00703
2 6.56 1 1 0 0 yi  ˆ0  ˆ1a1i  ˆ2a2i  ˆ3a3i  ei Root MSE 0.20585 R-Square 0.9682
3 6.18 1 1 0 0 Dependent Mean 4.99250 Adj R-Sq 0.9612
Coeff Var 4.12322
4 6.03 1 1 0 0
NOTE: Model is not full rank. Least-squares solutions for the parameters are
5 4.91 2 0 1 0 not unique. Some statistics will be misleading. A reported DF of 0 or B
means that the estimate is biased.
6 5.06 2 0 1 0 NOTE: The following parameters have been set to 0, since the variables are a
linear combination of other variables as shown.
7 4.80 2 0 1 0 a3 = Intercept - a1 - a2
8 4.56 2 0 1 0 Parameter Estimates
Parameter Standard
9 4.00 3 0 0 1 Variable DF Estimate Error t Value Pr > |t|
10 4.03 3 0 0 1 Intercept B 3.87500 0.10293 37.65 <.0001
a1 B 2.39500 0.14556 16.45 <.0001
11 3.83 3 0 0 1 a2 B 0.95750 0.14556 6.58 0.0001
a3 0 0 . . .
12 3.64 3 0 0 1
Interpretazione dei parametri (X  Categoriali)
( per :1  i  N ;1  h  3)
Vettore di osservazioni y e
matrice X in forma ridotta
Matrice di disegno Modello lineare classico yih = 0   hA +  ih
y A u0 a1 a2 a3 y u0 a1 a2 a3  
 y1   6.31 1 1 1 0 0  6.31 1 1 0 0   111  D  X
 y  6.56   6.56  1   
 2  
1
 
1 1 0 0   
1 0 0
  211 
 
 y 3  6.18  1 1 1 0 0  6.18  1 1 0 0   312 

y
 4 
 
6.03


 
1

1 1 0 0
   
 6.03 1 1 0 0
 
  412 

y = X + 
 y 5   4.91  2 1 0 1 0  4.91 1 0 1 0   0    521 
             
0 1A    621 
stima
 y6   5.06   2 1 0 1 0 5.06   1 0 1
D
OLS
 y 7   4.80  2  
     
1 0 1 0 4.80  1 0 1 0  2A    7 22 
        
 y 8   4.56
 y   4.00
 2
 3 1 0 1 0 4.56  1 0 1 0  3A    822  ˆ  ( X   X ) 1  X   y
1 0 0 1 4.00  1 1  
 9     0 0
 931 
y10   4.03  3      
 y   3.83  3 1 0 0 1  4.03 1 0 0 1  1031  (X'X) NON invertibile!!!
 11      1 0 0 1  3.83 1 0 0 1   
       1132 
y12   3.64  3  1232 
1 0 0 1  3.64 1 0 0 1
È UTILE UNA
SEMPLIFICAZIONE....

Minimi Quadrati Ordinari Semplificazione SEMPLIFICAZIONE


ELIMINAZIONE della variabilità osservata intorno a
ciascuna media locale (componente stocastica del modello)
y  X  ˆ  e y  X  ˆ
y y u0 a1 a2 a3 Esempio: (Semplificazione)  Una variabile esplicativa
 y1  6.31 1 1 0 0
y  6.56  1 1 0 0
ˆ  ( X   X ) 1  X   y ˆ  ( X ) 1  y  2
 y3 

6.18 
 
1 1 0 0 (Ah) (Ah) y
      y y u0 a1 a2 a3
 y4  6.03  1 1 0 0
1 y1 1 6.27
 y5   4.91 1 0 1 0
       y1  6.2700 1 1 0 0 y2
a condizione che ...  y 6   5.06 
2 2 4.83
1 0 1 0  y   4.8325 1 0 1 0
 y7  4.80  1 0 1 0  2    3 y3 3 3.88
| X   X | 0 | X | 0 
y
 8
 
4.56 
 
1 0 1 0

 y3   3.8750 1 0 0 1 Tot. y Tot. 4.99
 y9  4.00  1 0 0 1
     
y
 10  4.03 1 0 0 1
y  3.83  1 0 0 1
parametrizzazione...  11     
 y12  3.64  1 0 0 1
Interpretazione dei parametri (X  Categoriali) Modello Lineare Classico  Parametrizzazione

 Una variabile esplicativa

yh   0  1A   2A   3A DIPENDENZA LINEARE


(Per ciascuna riga, il primo elemento  0 u0   1Aa1   2A a2   3A a3
è uguale alla somma degli altri) 
 u0  a1  a2  a3
 0  Sostituendo e raggruppando opportunamente...
 y1  1 1 0 0  A  INSUFFICIENZA DI RANGO

 y  1 0 1 0 1   0    
  1A a1   0   2A a2   0   3A a3
 2    A  INDISTINGUIBILITÀ INTRINSECA DEI PARAMETRI
 y3  1 0 0 1  2A 
 3   Le quantità distinguibili (e quindi stimabili in modo separato) sono tre e non quattro !!!

PROCEDIMENTO e NOTAZIONE

X D PARAMETRIZZAZIONE
P X
(NON INVERTIBILE) (DISEGNO) (PARAMETRIZZATA) (INVERTIBILE)

 Si definisce (OPPORTUNAMENTE) una matrice W (per stabilire il significato DESIDERATO dei parametri)

P  DW WW  
1
 Si ottiene la matrice P (parametrizzata)...

Esempi...
Interpretazione dei parametri (X  Categoriali)  Una variabile esplicativa Modello Lineare Classico  Parametrizzazione

(Ah) y
 0 
 y1  1 1 0 0  A   0  1 6.27
 y  1 0 1 0 1    vedi file:
yh   0  1A   2A   3A  2    A   3 parametri distinguibili   1 ES_ANOVA5.SAS 2 4.83

 y3  1 0 0 1  2A   2  3 3.88

 3  Tot. 4.99

 ESEMPIO ("degenere"): i parametri esprimono le medie locali

y+  y1  y+   y2  y+   y3  y+ 
 0 1 0   0  y  y1  y+   y1  1 0 0
 I   0 1 0
1 0
+
y2  y+   y2 P  D D D D
1
 In questo caso: D = W; pertanto:
W  1 1 0 1 0 1  y   

 2 1 0 0
 +
1  2  y 
 +
y3  y+   y3 0 0 1

y  P   ˆ  P 1 y
 y1  1 0 0  0 
A ˆ0A  1 0 0  y1  ˆ0A  y1  6 .2700
 y  0 1 0  A   ˆA      ˆA
 2   1  1   0 1 0   y2   1  y2  4 .8325
 y3  0 0 1  2A  ˆ2A  0 0 1  y3  ˆ2A  y3  3 .8750
      

Dependent Variable: y
Sum of
data MAT;input y a b;cards; Source DF Squares Mean Square F Value Pr > F
6.31 1 1 Model 2 11.62565000 5.81282500 137.18 <.0001
6.56 1 1 Error 9 0.38137500 0.04237500
6.18 1 2 Corrected Total 11 12.00702500
6.03 1 2
4.91 2 1 R-Square Coeff Var Root MSE y Mean
0.968237 4.123223 0.205852 4.992500
5.06 2 1
4.80 2 2 Source DF Type I SS Mean Square F Value Pr > F
4.56 2 2 proc glm data=MAT order=data;class a ;model y = a ; a 2 11.62565000 5.81282500 137.18 <.0001
4.00 3 1 estimate 'TETA0' intercept 1 a 1 0 0 ;
4.03 3 1 estimate 'TETA1' intercept 1 a 0 1 0 ; Standard
3.83 3 2 estimate 'TETA2' intercept 1 a 0 0 1 ; Parameter Estimate Error t Value Pr > |t|
3.64 3 2 TETA0 6.27000000 0.10292594 60.92 <.0001
quit;
; TETA1 4.83250000 0.10292594 46.95 <.0001
TETA2 3.87500000 0.10292594 37.65 <.0001
Interpretazione dei parametri (X  Categoriali) Modello Lineare Classico  Parametrizzazione
 Una variabile esplicativa

(Ah) y
 0 
 y1  1 1 0 0  A   0  1 6.27
 y  1 0 1 0 1    vedi file:
yh   0  1A   2A   3A  2    A   3 parametri distinguibili   1 ES_ANOVA5.SAS 2 4.83

 y3  1 0 0 1  A   2 


2
3 3.88

 3 Tot. 4.99

 ESEMPIO ("d'angolo"): i parametri esprimono SCARTI da una media locale (per esempio da y3)

y+  y1  y+  y2  y+   y3  y+  DW   WW 1  P
1 0 0 1   0  
y  y y y   1 1 0  4
3 1 1  1 1 0
4  

+ +
  
3 3 4
W  0 1 0  1  1  y y  y y y y 
P  DW WW   1 0
1 
1  1 
3  1   1 0 1
  
 
0 0 1  1  2 

 1 +
2 +
3
3
+
+
1
2
3
y y  y y y y
3
   4
2  1  1  1  1
 4
4
4
4  
3  1 0 0
4
y  P   ˆ P 1 y
 y1  1 1 0  0  ˆ0A  0 0 1 6.2700 ˆ0A  y3
A
 3.8750
 y  1 0 1  A   ˆA      ˆA
 2   1 1    1 0  1  4.8325  1   y1  y3   2.3950
 y3  1 0 0  2A  ˆ2A  0 1  1  3.8750 ˆ2A   y2  y3   0.9575
      

data MAT;input y a b;cards; Dependent Variable: y


6.31 1 1 Sum of
Source DF Squares Mean Square F Value Pr > F
6.56 1 1 Model 2 11.62565000 5.81282500 137.18 <.0001
6.18 1 2 Error 9 0.38137500 0.04237500
6.03 1 2 Corrected Total 11 12.00702500
4.91 2 1
5.06 2 1 R-Square Coeff Var Root MSE y Mean
0.968237 4.123223 0.205852 4.992500
4.80 2 2
Source DF Type I SS Mean Square F Value Pr > F
4.56 2 2 a 2 11.62565000 5.81282500 137.18 <.0001
4.00 3 1 Standard
4.03 3 1 Parameter Estimate Error t Value Pr > |t|
3.83 3 2 Package SAS: "default" della Proc GLM Intercept 3.875000000 B 0.10292594 37.65 <.0001
3.64 3 2 a 1 2.395000000 B 0.14555927 16.45 <.0001
a 2 0.957500000 B 0.14555927 6.58 0.0001
; a 3 0.000000000 B . . .
proc glm data=MAT order=data;class a ;model y = a /solution;
quit; NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Interpretazione dei parametri (X  Categoriali)  Una variabile esplicativa Modello Lineare Classico  Parametrizzazione

(Ah) y
 0 
 y1  1 1 0 0  A   0  1 6.27
 y  1 0 1 0 1    vedi file:
yh   0  1A   2A   3A  2    A   3 parametri distinguibili   1 ES_ANOVA5.SAS 2 4.83

 y3  1 0 0 1  2A   2  3 3.88

 3  Tot. 4.99

 ESEMPIO ("centrale"): i parametri esprimono SCARTI fra k-1 medie locali e la media totale Per es. : y1  y+ e y2  y+ 
y+  y1  y+  y2  y+   y3  y+  P y  P  

1 1 1

1   0  y 
+ 3
1
y1  y2  y3  3 y+   y+ 1 1 0  y1  1 1 0  2A 
 
P  DW WW   1
 y   1 1 1A 
y1  y2  y3   y1  y+
 3 3 3   1
 1  1 0  2 
0

W  0 2  1  1  1  y   
 3 3 3   1 3
1  1  1  y3  1  1  1  2A 
0  1 3 2 3  1 3   
 2
y 
2 3
1
y1  y2  y3   y2  y+
ˆ P 1 y
data MAT;input y a b;cards; A ˆ   13 1 1  6.2700
  ˆ0A  y  4.9925
  2 
6.31 1 1 3 3
ˆ 
0
 
    3  3  3    4.8325  1   y1  y   1.2775
6.56 1 1 proc glm data=MAT order=data;class a ;model y = a ; A 1 1 ˆ A
6.18 1 2 estimate 'TETA0' intercept 1 a 0.33333 0.33333 0.33333; 1
6.03 1 2 estimate 'TETA1' intercept 0 a 6.666667e-1 -0.33333 -0.33333; A ˆ   1 2

 1   3.8750  2   y2  y    0.1600
 ˆA
  3
estimate 'TETA2' intercept 0 a -0.33333 6.666667e-1 -0.33333 ;
4.91 2 1 quit;
2  3 3
5.06 2 1
4.80 2 2
4.56 2 2 Response Functions and Design Matrix
4.00 3 1 Package SAS: "default" della Proc CATMOD
Response Design Matrix
4.03 3 1 Sample Function 1 2 3
proc catmod data=MAT order=data;response mean;model y = a;
3.83 3 2 quit; ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
3.64 3 2 1 6.27000 1 1 0
; Dependent Variable: y 2 4.83250 1 0 1
Sum of 3 3.87500 1 -1 -1
Source DF Squares Mean Square F Value Pr > F
Model 2 11.62565000 5.81282500 137.18 <.0001
Analysis of Variance
Error 9 0.38137500 0.04237500
Corrected Total 11 12.00702500 Source DF Chi-Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
R-Square Coeff Var Root MSE y Mean Intercept 1 9411.23 <.0001
0.968237 4.123223 0.205852 4.992500 a 2 369.66 <.0001
Residual 0 . .
Source DF Type I SS Mean Square F Value Pr > F
a 2 11.62565000 5.81282500 137.18 <.0001
Analysis of Weighted Least Squares Estimates
Standard Standard Chi-
Parameter Estimate Error t Value Pr > |t| Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
TETA0 4.99248883 0.05942432 84.01 <.0001 Intercept 4.9925 0.0515 9411.23 <.0001
TETA1 1.27750327 0.08403869 15.20 <.0001 a 1 1.2775 0.0762 281.25 <.0001
TETA2 -0.15999198 0.08403869 -1.90 0.0893 2 -0.1600 0.0736 4.72 0.0298
Interpretazione dei parametri (X  Categoriali) Da  UNA ... A  DUE esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

Ident y Metodo
Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
(parole lette /
intervallo di <<Se gli individui sono stati sottoposti a diversi metodi di insegnamento (a; b; c;
tempo) ....; z), allora la loro velocità di lettura è differente>>
1a 50 a -------------------------------------------------
2a 40 a a y a  50 per semplicità:  3 metodi (a, b,c);  3 individui ogni campione
3a 60 a
Disegno ad Assegnazione Casuale completa
1b 70 b
y  50 (Completely Randomized CR-3)  ANOVA ad UNA VIA 
2b 80 b
b y b  80
VARS
3b 90 b
1c
2c
20
15
c
c
y c  20 H0 :  a   b  c F
3c 25 c c VARR

IDENT y A B Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI


<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento impartiti da
S1 62 1 1 diversi insegnanti, allora la loro velocità di lettura è differente>>
S2 51 1 1 -------------------------------------------------
::: ::: ::: :::  metodo - A (1, 2, 3);  insegnante - B (1, 2)  30 individui ogni gruppo
S30 48 1 1
S31 20 1 2
 Organizzando diversamente i dati, Disegno FATTORIALE (due trattamenti)
S32 23 1 2
si evidenziano TRE possibili EFFETTI, (Completely Randomized Factorial CRF-32)  ANOVA a DUE VIE (Fattoriale) 
::: ::: ::: :::
S60 45 1 2 ciascuno dei quali è SCOMPONIBILE in NOTAZIONE
S61 56 2 1 DUE FONTI DI VARIABILITÀ (VARS e VARR) y (B) 1 2 Tot. h  livelli trattament o A 1  h  3 
S62 70 2 1
::: ::: ::: ::: (A) j  livelli trattament o B 1  j  2 
S90 62 2 1
(B)
1 2 N  numerosità totale
S91 59 2 2 1 46.70 41.13 43.92
(A) nhj  numerosità gruppo
S92 43 2 2

RIGA
nhj
::: ::: ::: :::
S120 48 2 2 y1,11 = 62 y1,12 = 20 2 56.63 48.20 52.42 yhj 
1
y hj , i  media di cella
nhj
1
i 1
S121 57 3 1 y2,11 = 51 y2,12 = 23
S122 61 3 1 3 58.40 49.07 53.73 1 N

::: ::: ::: :::


::::::::: ::::::::: y  
N
y i  media generale
y30,11 = 48 y30,12 = 45 i 1
S150 63 3 1 Tot. 53.91 46.13 50.02
S151 50 3 2 y1,21 = 56 y1,22 = 59
S152 49 3 2 COLONNA ANALISI...
::: ::: ::: ::: 2 y2,21 = 70 y2,22 = 43
S180 56 3 2 ::::::::: :::::::::
y30,21 = 62 y30,22 = 48 INTERAZIONE...

(A)H 0 :1   2   3 y1,31 = 57 y1,32 = 50


VARS ( A ) VARS ( B ) VARS ( AB )
3 y2,31 = 61 y2,32 = 49 F F F
VARR VARR VARR
(B) H 0 : 1    2 :::::::::
y30,31 = 63
:::::::::
y30,32 = 56

( AB ) H 0 :  h j   h j   h j    h j   0 per ogni h,h, j e j , con h  h e j  j  


Interpretazione dei parametri (X  Categoriali) Da  UNA ... A  DUE esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

IDENT y A B ANALISI... INTERAZIONE...


S1 62 1 1
S2 51 1 1
::: ::: ::: :::
(B)
1 2
S30 48 1 1 (A)
S31 20 1 2 NOTAZIONE
S32 23 1 2 y1,11 = 62 y1,12 = 20 y (B) 1 2 Tot. h  livelli trattament o A 1  h  3 
::: ::: ::: :::
S60 45 1 2 1 y2,11 = 51 y2,12 = 23
(A) j  livelli trattament o B 1  j  2 
S61 56 2 1 ::::::::: ::::::::: N  numerosità totale
S62 70 2 1 y30,11 = 48 y30,12 = 45 1 46.70 41.13 43.92
nhj  numerosità gruppo
::: ::: ::: :::
y1,21 = 56 y1,22 = 59

RIGA
nhj
S90 62 2 1
2 56.63 48.20 52.42 yhj 
1
y  media di cella
S91
S92
59
43
2
2
2
2
2 y2,21 = 70 y2,22 = 43 nhj i 1
hj , i

::: ::: ::: :::


::::::::: ::::::::: 3 58.40 49.07 53.73 1 N

S120 48 2 2 y30,21 = 62 y30,22 = 48 y  


N
y
i 1
i  media generale
S121 57 3 1
y1,31 = 57 y1,32 = 50 Tot. 53.91 46.13 50.02
S122 61 3 1
::: ::: ::: ::: 3 y2,31 = 61 y2,32 = 49
COLONNA
S150 63 3 1 ::::::::: :::::::::
S151 50 3 2 y30,31 = 63 y30,32 = 56
S152 49 3 2
::: ::: ::: :::
S180 56 3 2  L'interazione rappresenta l'effetto CONGIUNTO" dei due trattamenti
(A)H 0 :1   2   3 Ovvero
 Si ha la presenza di un effetto interazione quando le variazioni (attese sulla
y) dovute ai livelli di un trattamento sono differenti per due o più livelli
dell’altro trattamento
vedi file: (B) H 0 : 1    2
ES_ANOVA1.SAS
ES_ANOVA1.XLS ( AB ) H 0 :  h j   h j   h j    h j   0 per ogni h,h, j e j , con h  h e j  j  
Dependent Variable: y ¿ Rispetto al metodo 3 impartito dall'insegnate 2, il metodo
Sum of 1 impartito dall'insegnante 1 ha un effetto positivo o
Source DF Squares Mean Square F Value Pr > F negativo e di che entità ?
Model 5 6245.31111 1249.06222 11.14 <.0001
Error 174 19504.60000 112.09540
Corrected Total 179 25749.91111 ¿ Rispetto al metodo 3 impartito dall'insegnate 2, il
miglioramento nelle prestazioni è dovuto più al metodo o
R-Square Coeff Var Root MSE y Mean più all'insegnate? ... e rispetto alle prestazioni medie
0.242537 21.16562 10.58751 50.02222 generali?

Source DF Type I SS Mean Square F Value Pr > F


A 2 3407.011111 1703.505556 15.20 <.0001 ... etc. etc.
B 1 2722.222222 2722.222222 24.28 <.0001
A*B 2 116.077778 58.038889 0.52 0.5968
INTERAZIONE...
Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
... Illustrazione... (EFFETTO INTERAZIONE...) <<Se gli individui sono stati sottoposti a diversi metodi di insegnamento impartiti da diversi insegnanti,
allora la loro velocità di lettura è differente>>
 metodo - A (1, 2, 3);  insegnante - B (1, 2)  30 individui ogni gruppo

 L'interazione rappresenta l'effetto CONGIUNTO" dei due trattamenti


Ovvero Disegno FATTORIALE (due trattamenti)
 Si ha la presenza di un effetto interazione quando le variazioni (attese sulla y) dovute ai (Completely Randomized Factorial CRF-32)  ANOVA a DUE VIE (Fattoriale) 
livelli di un trattamento sono differenti per due o più livelli dell’altro trattamento

y (B) 1 2 Tot. y (B) 1 2 Tot.


(A) (A)
ESEMPIO... 39.17 36.70 37.93 ESEMPIO...
1 51.07 38.93 45.00 -------------------- 1 --------------------
vedi file: vedi file:
2 62.10 50.83 56.47 ES_ANOVA2.SAS 2 65.83 57.83 61.83 ES_ANOVA3.SAS
ES_ANOVA2.XLS ES_ANOVA3.XLS
3 55.20 42.33 48.77 3 48.60 51.87 50.23

Tot. 56.12 44.03 50.08 Tot. 51.20 48.80 50.00

Dependent Variable: y Dependent Variable: y


Sum of Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 5 10694.84444 2138.96889 24.55 <.0001 Model 5 18352.53333 3670.50667 82.01 <.0001
Error 174 15160.06667 87.12682 Error 174 7787.46667 44.75556
Corrected Total 179 25854.91111 Corrected Total 179 26140.00000

R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.413648 18.63936 9.334175 50.07778 0.702086 13.37992 6.689959 50.00000

Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 2 4099.244444 2049.622222 23.52 <.0001 A 2 17141.20000 8570.60000 191.50 <.0001
B 1 6576.355556 6576.355556 75.48 <.0001 B 1 259.20000 259.20000 5.79 0.0172
A*B 2 19.244444 9.622222 0.11 0.8955 A*B 2 952.13333 476.06667 10.64 <.0001

B (1) B (1)
y6563hj B (2) y6765hj B (2)

61 63
59 61
57 Insegnante "1" 59
55 57
Insegnante "2"
53 55
51 53
51
49
49
47
47 Insegnante "1"
45
45
43 43
41 41
39 Insegnante "2" 39
37 37
35 35
Metodo (A) A (1) A (2) A (3) Metodo (A) A (1) A (2) A (3)
Interpretazione dei parametri (X  Categoriali)  Due variabili esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

Significato delle fonti di variazione

Modello saturo

Intercetta (costante) RIFERIMENTO

parametrizzazione
Effetti diretti SCARTI

Effetti di interazione (indiretti) ???

Data una generica matrice U, si definisce la matrice “doppiamente centrata” U come:


~
Dove : M , M e M sono matrici dello stesso ordine di U
~
U U  M  M  M M  medie marginali di colonna;
~
M  medie marginali di riga;
M  media marginale generale

Aggiungendo la quantità nulla: M  M e riordinando opportunamente :

Una generica matrice U può essere sempre scomposta in 4 componenti o EFFETTI...


U  M  M  M  M  M   U
~

GENERALE Riferimento

RIGA Scarti di riga ... Illustrazione... vai a...


( INTERAZ.  SCARTI ADDITIVITÀ...)

COLONNA Scarti di colonna

INTERAZIONE Scarti dall’additività


Interpretazione dei parametri (X  Categoriali)  Due variabili esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

Disegno FATTORIALE (Completely Randomized Factorial CRF-32)  Modello SATURO  y (Bj) 1 2 Tot.
(Ah)

yhj   0  1A   2A   3A + 1B +  2B + 11


AB
+ 12
AB
+ 21
AB
+ 22
AB
+  31
AB
+  32
AB
vedi file: 1 6.44 6.11 6.27

ES_ANOVA6.SAS 2 4.99 4.68 4.83

 12 parametri incogniti  6 DISTINGUIBILI  Per es.:  0 1A  2A 1B 11AB  21AB 


3
Tot.
4.02

5.15
3.74

4.84
3.88

4.99

La matrice di DISEGNO Le DIPENDENZE LINEARI

y y u0 a1 a2 a3 b1 b2 ab11ab12ab21ab22ab31ab32
 y11   6.435 1 1 0 0 1 0 1 0 0 0 0 0
a bj
h j  ah; a b
h
h j  bj; a b
hj
h j  u0 ; b
j
j  u0 ; a h
h  u0
 y   6.105 1 1 0 0 0 1 0 1 0 0 0 0
 12    
 y21   4.985 1 0 1 0 1 0 0 0 1 0 0 0
    
y
  
22 4 . 680  1 0 1 0 0 1 0 0 0 1 0 0  0 è marginale rispetto a : hA , jB ,hjAB
 y31   4.015 1 0 0 1 1 0 0 0 0 0 1 0 Dipendenze "intrinseche"  A
h è marginale rispetto a : hj
AB
(NON dipendenti dai dati)
     
 y32   3.735 1 0 0 1 0 1 0 0 0 0 0 1 e gerarchiche:
 B è marginale rispetto a :  AB
 j hj

In generale, considerando due variabili categoriali rispettivamente con HeJ livelli e il relativo modello saturo:

 Il numero delle colonne della matrice di disegno è pari a: (H+1)·(J+1) ;

 Il numero di parametri distinguibili (e quindi stimabili) è pari a: H ·J

 Il numero dei VINCOLI AGGIUNTIVI da imporre è pari a: (H+1)·(J+1) - H ·J

 Nell'esempio: H = 3; J = 2;  (3+1)·(2+1) - 3·2 = 6


Interpretazione dei parametri (X  Categoriali)  Due variabili esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

Disegno FATTORIALE (Completely Randomized Factorial CRF-32)  Modello SATURO  y (Bj) 1 2 Tot.
(Ah)

yhj   0  1A   2A   3A + 1B +  2B + 11


AB
+ 12
AB
+ 21
AB
+ 22
AB
+  31
AB
+  32
AB
vedi file: 1 6.44 6.11 6.27

ES_ANOVA6.SAS 2 4.99 4.68 4.83

 12 parametri incogniti  6 DISTINGUIBILI  Per es.:  0 1A  2A 1B 11AB  21AB 


3
Tot.
4.02

5.15
3.74

4.84
3.88

4.99

 ESEMPIO ("d'angolo"): i parametri esprimono SCARTI fra medie locali e una media locale (per esempio: y11 - y32)

vincoli imposti (esempio)   3A   2B   31AB   32AB   12AB   22AB  0 vincoli imposti (in generale)  hA   jB   hjAB  0 per h  max o j  max
W
P  DW WW  
1
A A A B B AB AB AB AB AB AB
θ0 θ1 θ2 θ3 θ1 θ2 θ11 θ12 θ 21 θ 22 θ 31 θ 32
1 1 0 1 1 0 The GLM Procedure
 1 1 1 0 0 0 0
1 0 0 1 0 1 0 0 0 0 0 Dependent Variable: y
 0 1 0 1 0 0 0 1 0 0 0 -1   Sum of
  Source DF Squares Mean Square F Value Pr > F
 0 0 1 1 0 0 0 0 0 1 0 -1 1 0 1 1 0 1
Model 5 11.90597500 2.38119500 141.39 <.0001
   
Error 6 0.10105000 0.01684167
 0 0 0 0 1 -1 0 0 0 0 1 -1 1 0 1 0 0 0
Corrected Total 11 12.00702500
 0 0 0 0 0 0 1 -1 0 0 -1 1 1 0 0 1 0 0

-1 -1
   R-Square Coeff Var Root MSE y Mean
 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0
0.991584 2.599408 0.129775 4.992500
ˆ  P 1  y Source DF Type I SS Mean Square F Value Pr > F
 ˆ0   a 2 11.62565000 5.81282500 345.15 <.0001
0 0 0 0 0 1 6.435   ˆ0  y32  3.735
 ˆA    b 1 0.27907500 0.27907500 16.57 0.0066
 1   0 1 0 0 0  1 6.105   ˆ1A   y12  y32   2.370 a*b 2 0.00125000 0.00062500 0.04 0.9638
  
 ˆ A   0 0 0 1 0  1 4.985   ˆ2A   y22  y32   0.945 Standard
 ˆ2B      
 1   0 0 0 0 1  1 4.680   ˆ1B   y31  y32   0.280 Parameter Estimate Error t Value Pr > |t|
ˆ AB   1 1 0 0 1 1 4.015  ˆ11AB   y11  y32    y12+y31   0.050 Intercept 3.735000000 B 0.09176510 40.70 <.0001
 11AB      
ˆ21   0 0 1 1 1 1  3.735 ˆ21AB   y21  y32    y22  y31   0.025 a 1 2.370000000 B 0.12977545 18.26 <.0001
a 2 0.945000000 B 0.12977545 7.28 0.0003
a 3 0.000000000 B . . .
data MAT;input y a b;cards;
b 1 0.280000000 B 0.12977545 2.16 0.0743
6.31 1 1 b 2 0.000000000 B . . .
6.56 1 1 a*b 1 1 0.050000000 B 0.18353020 0.27 0.7944
6.18 1 2 a*b 1 2 0.000000000 B . . .
6.03 1 2 a*b 2 1 0.025000000 B 0.18353020 0.14 0.8961
4.91 2 1 a*b 2 2 0.000000000 B . . .
5.06 2 1 a*b 3 1 0.000000000 B . . .
4.80 2 2 Package SAS: "default" della Proc GLM a*b 3 2 0.000000000 B . . .
4.56 2 2 NOTE: The X'X matrix has been found to be singular, and a generalized inverse
4.00 3 1 was used to solve the normal equations. Terms whose estimates are
4.03 3 1 proc glm data=MAT order=data;class a b; followed by the letter 'B' are not uniquely estimable.
3.83 3 2 model y = a b a*b / solution;
3.64 3 2
e naturalmen te
quit;
; 3  2  0 ; 31  32  12  ˆ22AB  0
ˆ A ˆ B ˆ AB ˆ AB ˆ AB
Interpretazione dei parametri (X  Categoriali)  Due variabili esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

Disegno FATTORIALE (Completely Randomized Factorial CRF-32)  Modello SATURO  y (Bj) 1 2 Tot.
(Ah)

yhj   0  1A   2A   3A + 1B +  2B + 11


AB
+ 12
AB
+ 21
AB
+ 22
AB
+  31
AB
+  32
AB
vedi file: 1 6.44 6.11 6.27

ES_ANOVA6.SAS 2 4.99 4.68 4.83

 12 parametri incogniti  6 DISTINGUIBILI  Per es.:  0 1A  2A 1B 11AB  21AB 


3
Tot.
4.02

5.15
3.74

4.84
3.88

4.99

 ESEMPIO ("centrale"): i parametri esprimono SCARTI fra medie locali marginali e la media totale Per es.: y1  y 
 1A   2A   3A  0;  1B   2B  0; vincoli imposti (in generale)
    0;     0;   0;    0;  hjAB  0 , per ogni j ;   hjAB  0 , per ogni h
AB AB AB AB AB AB A B
vincoli imposti (esempio)  11 21 31 12 22 32 h j

 11AB   12AB  0;  21AB   22AB  0;  31AB   32AB  0; h j h j

W
P  DW WW  
1
A A A B B AB AB AB AB AB AB
ˆ  P 1  y
0 1 2 3 1 2 11 12  21  22  31  32

 1 1 0 1 0
1  1 1 1 1 1 1 
 1 1 1 1 1 1 1 1 1 1 1 1   ˆ0   6 6 6 6 6 6   6.435
  0
3 3 3 2 2 6 6 6 6 6 6  ˆA   1
1 1 0 1 1 1  1  1 1  1   6.105
 0 2
3
1 1
3 3
0 01
3
1
3
-1
6
-1
6
-1
6
-1 
6    1   3 3 6 6 6 6  
  ˆ2A    1 1 1  1   4.985
 0 1 2 1 0 0 - 1 - 1 1 1 -1 -1   1 0 1 1 1
0 1 1
3 3 3 6 6 3 3 6 6    ˆB    6 6 3 3 6 6 
  
  1 1 0  1  1   1 6  1 6 1 1 1  1   4.680
 0 0 0 0 1 -1 1 -1 1 -1 1 -1   1 0 6 6 6 6
2 2 6 6 6 6 6 6 ˆ AB   1 1   4.015


0 0 0 0 0 0 1 -1 -1 1 -1 1 
6
 1 1 1 1  1  1  11AB   3  3  6
1 1 1
6
1
6 6  

3 3 6 6 6
1    ˆ21    1 1 1 1 1 1   3.735

0 0 0 0 0 0 -1
6
1
6
1
3
-1
3
-1
6 6  1 1 1 1 1 1  6 6 3 3 6 6


 0  6  y11  y12  y21  y22  y31  y32   y++ 
1
4.9925
e naturalmente...

1A   y11  y12    y11  y12+y21  y22  y31  y32    y1+  y++  
1 1
1.2775 ˆ A  ˆ A  ˆ A  1.1175;

3 1 2
2 6
 A  1  y  y   1  y  y +y  y  y  y    y  y   ˆ  ˆ  0.1525;
B B
 0.1600 2 1
 2 2 21 22
6
11 12 21 22 31 32 2+ ++
 ˆ12AB  ˆ11AB  0.0125;
1B   y11  y21  y31    y11  y12+y21  y22  y31  y32    y+ 1  y++  
1 1
0.1525 ˆ22AB  ˆ21AB  0.0000;
 3 6
 AB
11  y11  2  y11  y12   3  y11  y21  y31   6  y11  y12+y21  y22  y31  y32    y11  y1+  y+ 1  y++   0.0125
1 1 1 ˆ31AB  ˆ11AB  ˆ21AB  0.0125;
 AB ˆ32AB  ˆ12AB  ˆ22AB  ˆ31AB  0.0125;
 21  y21   y21  y22    y11  y21  y31    y11  y12+y21  y22  y31  y32    y21  y2+  y+ 1  y++   0.0000
1 1 1
 2 3 6

Package SAS: "default" della Proc CATMOD ... Stime con software matematico-statistico...
Interpretazione dei parametri (X  Categoriali)  Due variabili esplicative (disegno fattoriale) Modello Lineare Classico  Parametrizzazione

Disegno FATTORIALE (Completely Randomized Factorial CRF-32)  Modello SATURO  y (Bj) 1 2 Tot.
(Ah)

yhj   0  1A   2A   3A + 1B +  2B + 11


AB
+ 12
AB
+ 21
AB
+ 22
AB
+  31
AB
+  32
AB
vedi file: 1 6.44 6.11 6.27

ES_ANOVA6.SAS 2 4.99 4.68 4.83

 12 parametri incogniti  6 DISTINGUIBILI  Per es.:  0 1A  2A 1B 11AB  21AB 


3
Tot.
4.02

5.15
3.74

4.84
3.88

4.99

 ESEMPIO ("centrale"): i parametri esprimono SCARTI fra medie locali marginali e la media totale Per es.: y1  y 
data MAT;input y a b;cards;
6.31 1 1 proc glm data=MAT order=data;class a b;model y = a b a*b ;
6.56 1 1 estimate'int.' intercept 1 a .33333 .33333 .33333 b .5 .5 a*b 1.666667e-1 1.666667e-1 1.666667e-1 1.666667e-1 1.666667e-1 1.666667e-1;
6.18 1 2 estimate 'a1' intercept 0 a 6.666667e-1 -.33333 -.33333 b 0 0 a*b .33333 .33333 -1.666667e-1 -1.666667e-1 -1.666667e-1 -1.666667e-1;
6.03 1 2 estimate 'a2' intercept 0 a -.33333 6.666667e-1 -.33333 b 0 0 a*b -1.666667e-1 -1.666667e-1 .33333 .33333 -1.666667e-1 -1.666667e-1;
4.91 2 1 estimate 'b1' intercept 0 a 0 0 0 b 0.5 -0.5 a*b 1.666667e-1 -1.666667e-1 1.666667e-1 -1.666667e-1 1.666667e-1 -1.666667e-1;
5.06 2 1 estimate 'a1*b1' intercept 0 a 0 0 0 b 0 0 a*b .33333 -.33333 -1.666667e-1 1.666667e-1 -1.666667e-1 1.666667e-1;
4.80 2 2 estimate 'a2*b1' intercept 0 a 0 0 0 b 0 0 a*b -1.666667e-1 1.666667e-1 .33333 -.33333 -1.666667e-1 1.666667e-1;
quit;
4.56 2 2
4.00 3 1
4.03 3 1 Response Functions and Design Matrix
Response Design Matrix
The GLM Procedure
3.83
Sample 3 2 Function 1 2 3 4 5 6 Dependent Variable: y
3.64 3 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Sum of
; 1 6.43500 1 1 0 1 1 0 Source DF Squares Mean Square F Value Pr > F
2 6.10500 1 1 0 -1 -1 0 Model 5 11.90597500 2.38119500 141.39 <.0001
3 4.98500 1 0 1 1 0 1 Error 6 0.10105000 0.01684167
4 4.68000 1 0 1 -1 0 -1 Corrected Total 11 12.00702500
5 4.01500 1 -1 -1 1 -1 -1
6 3.73500 1 -1 -1 -1 1 1
R-Square Coeff Var Root MSE y Mean
Analysis of Variance 0.991584 2.599408 0.129775 4.992500

Source DF Type I SS Mean Square F Value Pr > F


Source DF Chi-Square Pr > ChiSq
a 2 11.62565000 5.81282500 345.15 <.0001
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ b 1 0.27907500 0.27907500 16.57 0.0066
Intercept 1 35519.13 <.0001 a*b 2 0.00125000 0.00062500 0.04 0.9638
a 2 1520.68 <.0001
b 1 33.14 <.0001 Standard
a*b 2 0.17 0.9179 Parameter Estimate Error t Value Pr > |t|

Residual 0 . . int. 4.99248895 0.03746294 133.26 <.0001


a1 1.27750306 0.05298061 24.11 <.0001
a2 -0.15999215 0.05298061 -3.02 0.0234
Analysis of Weighted Least Squares Estimates b1 0.15250000 0.03746294 4.07 0.0066
a1*b1 0.01249983 0.05298007 0.24 0.8213
Standard Chi- a2*b1 -0.00000008 0.05298007 -0.00 1.0000
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ proc catmod data=MAT order=data;response mean;model y = a b a*b ;
Intercept 4.9925 0.0265 35519.13 <.0001 quit;
a 1 1.2775 0.0398 1028.26 <.0001
2 -0.1600 0.0392 16.67 <.0001
b 1 0.1525 0.0265 33.14 <.0001 ... Illustrazione... vai a...
a*b 1 1 0.0125 0.0398 0.10 0.7537 ( INTERAZ.  SCARTI ADDITIVITÀ...)
2 1 -466E-17 0.0392 0.00 1.0000
Diagnostica. Valutazione dell'adeguatezza del modello e controllo delle ipotesi

Per: 1  i  N
parsimonia
M0  yi  0  i
K
M1  yi  0  k xik  i  per: k  N 
M0 M1 Mmax
k1
K
Mmax  yi  0  k xik  i  per:k  N 
k1
valori della funzione
di verosimiglianza L0 L1 Lmax

 una possibile misura di discrepanza fra dati osservati e riprodotti:


Lmax o in modo equivalente: log   log  Lmax   log  L1  e ponendo: lmax  log  Lmax  e l1  log  L1 
L1 l max  l1 
log   lmax  l1

Esprime: "QUANTO MANCA"... parsimonia


...la "STRADA CHE RESTA DA PERCORRERE"
M0 M1 Mmax

 un'altra possibile misura di discrepanza


fra dati osservati e riprodotti: 
L0
o in modo equivalente:log   log  L0  - log  L1   l0  l1
L1

l 0  l1  log   l0  l1

parsimonia
Esprime: "PERDITA"
M0 M1 Mmax ... la "STRADA NON PERCORSA" specularmente, però ...
Diagnostica. Valutazione dell'adeguatezza del modello e controllo delle ipotesi

... specularmente si può calcolare una misura inversa della perdita: il GUADAGNO. Cambiando segno a log si ottiene una misura
perfettamente complementare a log che esprime appunto IL GUADAGNO ... LA STRADA PERCORSA

 log   l1  l0 log 

 l 0  l1  l max  l1 
parsimonia

M0 M1 Mmax

 Nelder e Wedderburn (1972) chiamano "Devianza" (deviance) 2 log   2lmax  l1 


il doppio del valore del rapporto di log-verosimiglianza;
dove  indica il fattore di scala
la presenza in alcune distribuzioni di parametri detti di disturbo
(per esempio 2 nella normale) costringe a considerare D  2 log   e la statistica viene allora detta
“Devianza scalata” (scaled deviance)
la statistica "scalata":

D   N2  k H0: sostanziale uguaglianza fra modello saturo e quello sotto


valutazione; cioè: la strada che resta da percorrere è trascurabile;
(dove N = numero di osservaz.; rischio di errore di II specie (non respingere H0 quando falsa)
k = parametri modello) Modello adeguato se: D  N  k

 Aldrich e Nelson (1984) indicano con la lettera "c" la misura complementare a "D": c  2 log   2l0  l1 

c   2 log  
c   k21 H0: sostanziale uguaglianza fra modello dell'intercetta e quello sotto
valutazione; cioè: la strada percorsa è poca o trascurabile;
(dove:
rischio di errore di I specie (respingere H0 quando vera)
k = parametri modello)
D  2 log   2lmax  l1 
Diagnostica. Valutazione dell'adeguatezza del modello e controllo delle ipotesi

Le misure c e D sono complemetari (una misura può essere ottenuta a partire dall'altra)
infatti:
c  2 log   2l0  l1 

2lmax  l0 
D  c  2lmax  l1    2l0  l1   2lmax  l0 
è la D (Devianza) calcolata per
così che: e naturalmente: Ma...
il modello dell’intercetta, e può

D  2lmax  l0   c c  2lmax  l0   D pertanto essere indicata come


D0

Indicando con D1 e c1 le due statistiche relative al modello sottoposto c1  D0  D1


a valutazione si può scrivere:

Si può calcolare il peso relativo della strada fatta dal modello, sul totale della strada da fare

c1
 c1 D0  D1 ... e si può dimostrare che tale rapporto c1 dev S
  - nell'ambito del MODELLO LINEARE CLASSICO -  R2 
D0 D0 D0 coincide con il coefficiente di determinazione: R2 D0 devT

Si può calcolare il peso relativo della strada fatta dal modello,sulla strada che resta da percorre,
in rapporto alle "energie consumate" dal modello (numero di parametri):

1 D0  D1 D0  D1

k  k ... e si può dimostrare che tale rapporto
D0  D1 devS
 va rS
1 D D1 coincide con il test F
Foverall  k  k 
 1 (riferito al modello nel suo insieme: overall) D1 devR va rR
N  k 1  N  k 1
N  k 1 N  k 1

Nel modello è sempre presentel'intercetta; k=numero di variabili esplicative


(compreso 0 : k+1 parametri); dev = devianza; var = varianza; PER LE DIMOSTRAZIONI: cfr. Miceli, 2001, par. 2.4.1
i pedici: T = totale, S = spiegata (dal modello), R = residua (o non spiegata)
Diagnostica. Valutazione dell'adeguatezza del modello e controllo delle ipotesi

SI
ESEMPIO (Bivariato) A1
SI RIPRENDE
RIPRENDE QUI
QUI UN
UN ESEMPIO
ESEMPIO USATO
USATO IN
IN PRECEDENZA...
PRECEDENZA...
 due variabili metriche... (1) Continua..
(AUTO_DEC) ident AUTO_DEC COMPROM  analisi di REGRESSIONE (semplice)
n1 S82 0.16 0.12 (Modello Lineare Classico)
MISURAZIONE
n2 S87 2.55 0.21
n3 S84 -0.36 -1.86
n4 S27 -1.00 -2.10
n5 S60 5.70 1.51
n6 S71 1.18 0.84
n7 S47 2.19 1.88
n8 S75 1.15 -0.89
n9 S59 1.13 1.35
MISURAZIONE n10 S37 -0.12 0.77 => ~ 46% di variabilità spiegata
(COMPROM) :::::: :::: :::::: :::::: => al crescere di COMPROM
n100 S79 -1.21 -1.16 cresce l'AUTONOMIA DECISIONALE
The MEANS Procedure
=> per ogni variazione di +1 punto di COMPROM...
Variable N Mean Std Dev Minimum Maximum il modello fornisce
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
+0.80 punto (circa) di AUTONOMIA DECISIONALE
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000  +0.68 per variabili standardizzate
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL1
Dependent Variable: AUTO_DEC
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 113.22709 113.22709 84.88 <.0001


Error 98 130.72294 1.33391
Corrected Total 99 243.95004
Il modello... yi  ˆ0  ˆ1 xi  ei Root MSE 1.15495 R-Square 0.4641
Dependent Mean 0.19420 Adj R-Sq 0.4587
Coeff Var 594.72151

La teoria...
ˆ1  0.80 X Parameter Estimates

Comportamento Parameter Standard Standardized


Compromissorio Variable DF Estimate Error t Value Pr > |t| Estimate
y ˆ1  0.68
Intercept 1 0.19428 0.11549 1.68 0.0957 0
Autonomia
COMPROM 1 0.80052 0.08689 9.21 <.0001 0.68128
decisionale
yi  ˆ0  ˆ1 xi  ei y  X  ˆ  e
dove: y è un vettore di osservazioni di ordine
ESEMPIO (Bivariato) A1 Il modello... N (variabile dipendente);
X è una matrice di ordine N per K+1, in cui i K
Minimi Quadrati Ordinari vettori colonna rappresentano altrettante
variabili esplicative e il vettore unitario

  ( X   X ) 1  X   y y  X   e  y  yˆ aggiunto rappresenta il termine costante o


intercetta;
 ^ è un vettore (di ordine K+1) di parametri

DEVModello   yˆ  y    yˆ  y  DEVResiduo  e  e
stimati;

DEVTotale   y  y    y  y  e è un vettore (di ordine N) di scarti o residuo

GdLT  N  1 GdLM  K  1 GdLR  N  K

FOverall  H0 : ˆ1  ˆ2  ...  ˆk  0


DEVM
DEVM
R   1  R 2 
2 GdLT GdLM VARM
R 2
 1 Foverall  
t  H0 : ˆk  0
adj
DEVT GdLR DEVR VARR
GdLR
 Errore Standard dei Parametri Stimati ...................................................  ESTD(θk) Sia :
================================================================== s 2  (VARR ) varianza della componente d' errore (scarti);
 Due tipi di Errore Standard (...due tipi di Intervallo di Confidenza):
(a) relativo alla stima Media (valore atteso) .................................................  ESTDP xi  vettore riga (matrice X), iesima osservazione
(b) relativo alla stima Individuale (singolo valore riprodotto) detto anche
hi  xi   X   X   xi
1
"Intervallo di predizione" (forecasting) tiene conto sia della varianza dell'errore (s2),
sia della varianza della stima dei parametri ..................................................  ESTDI  X   X kk1  kesimo elemento diagonale della matrice  X   X 1
==================================================================
 Inoltre: errore standard della componente d'errore (residuo) ...............  ESTDR t 2  valore di tStudent (GdLt 2  GdLR )

ESTD  k    X   X kk  s 2
1 k
t k  ESTDPi  hi  s 2 ESTDI i  1  hi   s 2 ESTDR i  1  hi   s 2
ESTD( k )

ICM i  yˆ i  t 2  ESTDPi
ei
Intervalli di confidenza Residui "Studentizzati" STUD_RESi 
ICIi  yˆ i  t 2  ESTDI i ESTDR i

(2) Continua..
Calcolo Interv. Conf.:
... \SASUTI\REG_OUT.SAS Rappresentazioni grafiche...
ESEMPIO (Bivariato) A1 auto _ deci  ˆ0  ˆ1  compromi  ei R 2  0.4641 ˆ0  0.0 ˆ1  0.68128

N  100; k  2  Intercetta  1 variabile esplicativa

  0.05; GdLR  98; t 2  1.9845

ICM i  yˆ i  t 2  ESTDPi
_________
ESTDP  0.10

ICIi  yˆ i  t 2  ESTDI i
________
ESTDI  0.75

(3) Continua..
ESEMPIO (Bivariato) A1 auto _ deci  ˆ0  ˆ1  compromi  ei R 2  0.4641 ˆ0  0.0 ˆ1  0.68128

N  100; k  2  Intercetta  1 variabile esplicativa

  0.05; GdLR  98; t  1.6606 Identificazione osservazione eccentriche (outliers)... tramite Residui "Studentizzati"

ei 4
STUD_RESi  S60
ESTDR i 3,5

2,5
S50
2 S93
S87
t = +1.66 S78
1,5

Residui Stud.
1

0,5

-0,5

-1

-1,5
t = -1.66
S35
-2
S77
-2,5
S99 S9

-3 Ni (Osservazioni)

The REG Procedure


Dependent Variable: AUTO_DEC
Analysis of Variance (!?!?) Eliminando le 9 osservazioni eccentriche...(!?!?)
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 42.36114 42.36114 141.20 <.0001
Error
Corrected Total
89
90
26.70019
69.06132
0.30000 N  91; R 2  0.61
Root MSE 0.54772 R-Square 0.6134
Dependent Mean -0.02942 Adj R-Sq 0.6090
Coeff Var -1861.44058
Parameter Estimates
(4) Fine
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate
Intercept 1 -0.02354 0.05742 -0.41 0.6828 0
COMPROM 1 0.68384 0.05755 11.88 <.0001 0.78319
DIAGNO_GRAF1_A.SAS
...Assunti e diagnostica tramite l'analisi dei residui...
ESEMPI (Regressione)

yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ei


The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
y 600 -3.66374E-16 0.9991663 -2.9921636 2.8949935
x1 600 2.109424E-17 0.9991663 -2.8263784 2.5879096
x2 600 9.436896E-18 0.9991663 -3.1052700 2.9225777
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 2 548.66469 274.33235 3253.71 <.0001


Error 597 50.33531 0.08431
Corrected Total 599 599.00000

Root MSE 0.29037 R-Square 0.9160


Dependent Mean -3.6637E-16 Adj R-Sq 0.9157
Coeff Var -7.92547E16
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 -3.7575E-16 0.01185 -0.00 1.0000 0


x1 1 0.72834 0.01187 61.38 <.0001 0.72834
x2 1 -0.63451 0.01187 -53.47 <.0001 -0.63451

 Adattamento modello-dati: "MOLTO BUONO"

 Aspetto dei residui: "NESSUNA VIOLAZIONE" (Null Plot)

(1) Continua..
DIAGNO_GRAF1_B.SAS
ESEMPI (Regressione) ...Assunti e diagnostica tramite l'analisi dei residui...

yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ei


The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
y 600 -2.93747E-17 0.9991663 -3.1599559 4.0541752
x1 600 2.109424E-17 0.9991663 -2.8263784 2.5879096
x2 600 9.436896E-18 0.9991663 -3.1052700 2.9225777
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 2 2.73898 1.36949 1.37 0.2546


Error 597 596.26102 0.99876
Corrected Total 599 599.00000

Root MSE 0.99938 R-Square 0.0046


Dependent Mean -2.9375E-17 Adj R-Sq 0.0012
Coeff Var -3.40219E18
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 -3.0512E-17 0.04080 -0.00 1.0000 0


x1 1 0.06410 0.04084 1.57 0.1171 0.06410
x2 1 -0.02276 0.04084 -0.56 0.5775 -0.02276

 Adattamento modello-dati: "PESSIMO"

 Aspetto dei residui: "NESSUNA VIOLAZIONE" (Null Plot)

(2) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF2.SAS
ESEMPI (Regressione)
yi  ˆ0  ˆ1 x1i  ei

The REG Procedure


Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 156.91025 156.91025 329.08 <.0001


Error 298 142.08975 0.47681
Corrected Total 299 299.00000

Root MSE 0.69052 R-Square 0.5248


Dependent Mean -1.7356E-16 Adj R-Sq 0.5232
Coeff Var -3.97843E17
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 -1.745E-16 0.03987 -0.00 1.0000 0


x1 1 0.72442 0.03993 18.14 <.0001 0.72442

 Aspetto dei residui: "VIOLAZIONE LINEARITÁ"

(3) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF2.SAS
ESEMPI (Regressione)
yi  ˆ0  ˆ1 x1i  ei
The REG Procedure
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 7.39007 7.39007 7.55 0.0064


Error 298 291.60993 0.97856
Corrected Total 299 299.00000

Root MSE 0.98922 R-Square 0.0247


Dependent Mean 8.42474E-16 Adj R-Sq 0.0214
Coeff Var 1.174185E17
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 8.36773E-16 0.05711 0.00 1.0000 0


x1 1 -0.15721 0.05721 -2.75 0.0064 -0.15721

 Aspetto dei residui: "VIOLAZIONE LINEARITÁ"

(4) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF2.SAS
ESEMPI (Regressione)
yi  ˆ0  ˆ1 x1i  ei
The REG Procedure
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 145.01413 145.01413 280.64 <.0001


Error 298 153.98587 0.51673
Corrected Total 299 299.00000

Root MSE 0.71884 R-Square 0.4850


Dependent Mean -9.1408E-17 Adj R-Sq 0.4833
Coeff Var -7.86405E17
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 -1.1667E-16 0.04150 -0.00 1.0000 0


x1 1 -0.69642 0.04157 -16.75 <.0001 -0.69642

 Aspetto dei residui: "VIOLAZIONE LINEARITÁ"

(5) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF3_A.SAS
ESEMPI (Regressione)
yi  ˆ0  ˆ1 x1i  ei
The REG Procedure
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 2318.55304 2318.55304 449.95 <.0001


Error 598 3081.44696 5.15292
Corrected Total 599 5400.00000

Root MSE 2.27000 R-Square 0.4294


Dependent Mean -4.5219E-15 Adj R-Sq 0.4284
Coeff Var -5.01998E16
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 -3.45224 0.18728 -18.43 <.0001 0


x1 1 6.90283 0.32542 21.21 <.0001 0.65526

 Aspetto dei residui: "VIOLAZIONE OMOSCHEDASTICITÁ"

(6) Continua..
...Assunti e diagnostica tramite l'analisi dei residui... DIAGNO_GRAF3_B, C, D.SAS
ESEMPI (Regressione)
yi  ˆ0  ˆ1 x1i  ei Oppure... yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ...  ˆk xki  ei
... Ulteriori esempi...
 Aspetto dei residui: "VIOLAZIONE OMOSCHEDASTICITÁ"

R2 = 0.4033 R2 = 0.7437

(7) Continua

R2 = 0.0007
yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ...  ˆk xki  ei
ESE_ETERO1.SAS
ESEMPI (Regressione) ...Esercizio...

 La matrice dati: "PROFSCO" (N = 600) contiene le seguenti informazioni relative ad una ipotetica rilevazione condotta sugli studenti di un istituto
di istruzione superiore (tutte le variabili sono standardizzate e sono state ottenute utilizzando specifici e validati strumenti di misura):

ident y x1 x2 x3 x4 x5 x6

S1 -0.66933 -1.29755 -0.33919 -0.70616 -0.41809 0.62739 -0.56554


 Y = profitto scolastico S2 -1.44812 0.18018 -0.44727 -1.01440 1.72194 -0.32023 -1.77940
 X1 = puntualità alle lezioni S3 -0.69806 -0.05809 -0.09585 -0.70765 0.05623 -1.01193 0.13623
 X2 = attenzione durante le lezioni frontali S4 -0.91483 -1.70040 -0.89575 1.00143 0.82685 0.44287 0.63519
 X3 = comportamento disciplinato S5 -1.63283 0.46839 -0.87204 -1.27300 1.49662 1.60802 -0.78762
 X4 = assenze scolastiche S6 0.19679 0.22589 0.45929 1.33806 -0.13120 0.11093 1.44787
 X5 = ordine nel redigere i compiti assegnati S7 -0.68479 1.60852 -1.53878 0.21174 -1.25863 -1.50642 0.09522
 X6 = interesse (curiosità conoscitiva) S8 -0.94332 -1.01377 -1.56887 -0.72519 0.10649 1.19491 -1.14664
S9 -0.46438 -0.97939 -1.16773 -0.63060 1.06986 -0.42518 1.64434
S10 -0.88643 -0.05810 -1.64837 -0.52829 -1.55956 0.73762 -1.51255
:::: :::::::: :::::::: :::::::: :::::::: :::::::: ::::::::: :::::::
S600 -0.00702 0.97038 0.74730 1.36754 -0.36228 0.29414 0.60177

 Si chiede di analizzare i dati della matrice, cercando di definire il miglior modello (in termini di capacità esplicativa) relativo al profitto scolastico (Y);
commentare adeguatamente il risultato ottenuto...

Analisi commentata...

Pearson Correlation Coefficients, N = 600


Prob > |r| under H0: Rho=0

y x1 x2 x3 x4 x5 x6

y 1.00000 -0.01969 0.34970 0.04543 -0.26281 -0.02445 0.61343


0.6303 <.0001 0.2665 <.0001 0.5500 <.0001

x1 -0.01969 1.00000 0.00921 -0.06740 0.07199 0.01630 -0.00215


0.6303 0.8219 0.0991 0.0781 0.6903 0.9581

x2 0.34970 0.00921 1.00000 -0.01581 -0.02974 0.01635 0.05204


<.0001 0.8219 0.6992 0.4672 0.6894 0.2030

x3 0.04543 -0.06740 -0.01581 1.00000 0.02714 -0.03166 0.05348


0.2665 0.0991 0.6992 0.5069 0.4389 0.1908

x4 -0.26281 0.07199 -0.02974 0.02714 1.00000 -0.01466 -0.01302


<.0001 0.0781 0.4672 0.5069 0.7200 0.7502

x5 -0.02445 0.01630 0.01635 -0.03166 -0.01466 1.00000 -0.02556 VEDI, qui, ESERCIZIO 1
0.5500 0.6903 0.6894 0.4389 0.7200 0.5320

x6 0.61343 -0.00215 0.05204 0.05348 -0.01302 -0.02556 1.00000


<.0001 0.9581 0.2030 0.1908 0.7502 0.5320
 y   yˆ   e
Scomposizione della
variabilità (2° Parte) TEOREMA
2
i
2
i
2
i SQT  SQS  SQR DevT  DevS  DevR GdLT  GdLS  GdLR

Esempio numerico

SQ yi   0   x 1 x1i   x 2 x 2 i   x 3 x 3 i   i
Id y x1 x2 x3

SQ1 1 4 20 10 1
(ATTENZIONE alla NOTAZIONE)
SQS 2 10 35 20 2
SQ2 3 13 18 6 3
4 12 26 15 2 devT  564.90 (GdL  9)
SQT .…..
5 21 37 30 3
6 27 46 32 5 devS  529.93 (GdL  3)
SQk
7 11 19 12 2
8 26 50 60 4
SQR 9 7 21 35 1
devR  34.97(GdL  6)
10 20 42 48 2

Un modello si dice “annidato” o “concatenato” (nested) ad un altro quando la


Modelli annidati e notazione di riduzione variabile dipendente è la stessa e tutte le variabili esplicative del primo sono un
sottoinsieme del secondo (es.: b annidato in a; c annidato in b e in a)

notazione detta di "Riduzione" (della devianza residua)


[“Reduction Notation” (Littel R. C., Freund R. J., Spector P. C., 1991)] (a) yi   0   x 1 x1i   x 2 x 2 i   x 3 x 3 i   i

R  j |  0 ,  1 , θ2 , ..., θk 
(b) yi   0   x 1 x1i   x 2 x 2 i   i
(c ) yi   0   x 1 x1i   i

Per esempio 
R  x3 |  0 ,  x1 , θ x2  esprime:

1) la devianza spiegata da x3 (nel modello a) al netto dei contributi di x1 e x2;

2) lo scarto (generalmente un incremento) di devianza spiegata fra il modello (a) e il modello (b); devS a   devS b 
3) lo scarto (generalmente un decremento o riduzione appunto) di devianza residua fra il modello (b) e il modello (a) dev R b   devR a 
Scomposizione della variabilità (2° Parte)
yi   0   x 1 x1i   x 2 x 2 i   x 3 x 3 i   i
Modificando l'ordine (nel modello) delle 3 variabili esplicative,
si ottengono CONTRIBUTI DIVERSI, della stessa variabile, alla
variabilità spiegata... devS  529.93 (GdL  3)
yi   0   x 1 x1i   x 2 x 2 i   x 3 x 3 i   i y i   0   x 2 x 2i   x 3 x 3 i   x 1x 1i   i
Dependent Variable: y Dependent Variable: y
Sum of Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F

Model 3 529.9318856 176.6439619 30.31 0.0005 Model 3 529.9318856 176.6439619 30.31 0.0005
Error 6 34.9681144 5.8280191 Error 6 34.9681144 5.8280191
Corrected Total 9 564.9000000 Corrected Total 9 564.9000000

R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.938099 15.98761 2.414129 15.10000 0.938099 15.98761 2.414129 15.10000

Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F

x1 1 426.8460650 426.8460650 73.24 0.0001 x2 1 255.5486525 255.5486525 43.85 0.0006


x2 1 1.4099650 1.4099650 0.24 0.6403 x3 1 270.6409469 270.6409469 46.44 0.0005
x3 1 101.6758556 101.6758556 17.45 0.0058 x1 1 3.7422862 3.7422862 0.64 0.4535

Standard Standard
Parameter Estimate Error t Value Pr > |t| Parameter Estimate Error t Value Pr > |t|

Intercept -2.490599189 2.36233135 -1.05 0.3323 Intercept -2.490599189 2.36233135 -1.05 0.3323
x1 0.129684734 0.16183812 0.80 0.4535 x2 0.124057997 0.08688015 1.43 0.2032
x2 0.124057997 0.08688015 1.43 0.2032 x3 4.077497689 0.97621458 4.18 0.0058
x3 4.077497689 0.97621458 4.18 0.0058 x1 0.129684734 0.16183812 0.80 0.4535

Lo stesso fenomeno (CONTRIBUTI DIVERSI) può essere illustrato definendo DIVERSE SEQUENZE di modelli ANNIDATI...

SEQUENZA (A) SEQUENZA (B) SEQUENZA (C

 yi   0   x 2 x 2 i   x 3 x 3i   x 1 x1i   i  yi   0   x 1 x1i   i  yi   0   x 3 x 3 i   x 1 x1i   i


  
 yi   0   x1i   x 2 i   i  yi   0   x1i   x 3 i   x 2 i   i  yi   0   x 3 i   x 2i   i
x1 x2 x1 x3 x2 x3 x2

 y     x2 x2   x3 x3    y     x2 x2   x3 x3    y     x 2 x 2   x 1 x1   x 3 x 3  
 i 0 i i i  i 0 i i i  i 0 i i i i


R  x1 |  0 ,  x2 ,  x3  3.74  
R  x1 |  0   426 .85 
R  x1 |  0 ,  x 3   71 .14
R  x2
|  0 ,  x1   1.41 R  x2

|  0 ,  x1 ,  x3  11 .88 R  x2
|  0 ,  x3   79 .28
R  x3
| 0 , x 2   270 .64 R  x3

|  0 ,  x2  270 .64 R  x3

|  0 ,  x2 ,  x1  101 .68

Quanta variabilità spiega 1 ? .... quando nel modello è presente: 2?, 3 ?, etc.
Scomposizione della variabilità (2° Parte)
Controllo delle ipotesi (oltre che sul modello nel suo insieme) anche per ciascun
parametro (variabile esplicativa) e/o su ciascun sottoinsieme (p) di parametri
Modello (a)
GdLT  N  i
yi   0  1 x1i   2 x2i  ...   p x pi  ...   k xki   i Dove:
N = Osservazioni; 
K = Numero di variabili esplicative GdLS  K
GdL  N  i  K
i = 1 se nel modello è presente l'intercetta; 0 altrimenti  R

DEVS
SUL MODELLO NEL SUO INSIEME R 
2 DEVS
DEVT
ADJ R2  1
GdLT
GdLR
1  R2   Foverall 
DEVR
GdLS

VARS
VARR
GDLR

Foverall consente di controllare l’ipotesi nulla che tutti i parametri


dev S  R1 ,  2 ,...,  k |  0  H 0 : 1   2  ...   k  0
del modello (esclusa l’intercetta) siano zero

SU SOTTOINSIMI DI PARAMETRI yi   0   p 1 x p 1i  ...   k xki   i Modello (b) Con P parametri; (P < K)

DEVR b   DEVR a 
F P dev R b   dev R a   R p1 ,  p 2 ,...,  k |  0 , 1 ,  2 ,...,  p  H 0 :  p1   p 2  ...   k  0
DEVR a 
N  K 1

DEVS  j 
SU CIASCUN PARAMETRO
F 1 dev S  j   R  j |  0 ,  1 , θ2 , ..., θk  H0 :  j  0
DEVR
N  K 1

j
t
erst j
erst 
e e
N  K 1

 u   X X   I
1
 con u e I rispettivamente uguali a
un vettore unitario e una matrice
identità conformati

dove : erst j  errore standard del parametro j 


Scomposizione della variabilità (2° Parte)
Quanta variabilità spiega 1 ? .... quando nel modello è presente: 2?, 3 ?, etc.

Vengono generalmente utilizzati 3 tipi di scomposizione "standard"

SEQUENZA (A) SEQUENZA (B) SEQUENZA (C

 yi   0   x 2 x 2 i   x 3 x 3i   x 1 x1i   i  yi   0   x 1 x1i   i  yi   0   x 3 x 3i   x 1 x1i   i


  
 yi   0   x1i   x 2 i   i  yi   0   x1i   x 3 i   x 2 i   i  yi   0   x 3i   x 2 i   i
x1 x2 x1 x3 x2 x3 x2

 y     x2 x2   x3 x3    y     x2 x2   x3 x3    y     x 2 x 2   x 1 x1   x 3 x 3  
 i 0 i i i  i 0 i i i  i 0 i i i i

 
R  x1 |  0 ,  x2 ,  x3  3.74 
R  x1 |  0   426 .85 
R  x1 |  0 ,  x 3   71 .14
R  x2
| 0 , x1
  1.41 R  x2
| 0 , ,
x1 x3
 11.88 R  x2
| 0 ,x3
  79 .28
R  x3
| 0 , x2   270 .64 R  x3
|  0 ,  x2  270 .64 R  x3

|  0 ,  x2 ,  x1  101 .68


R  x1 |  0 ,  x2 ,  x3  3.74 
 
scomposizione scomposizione
SEQUENZIALE R  x2 |  0 ,  x1 ,  x3  11 .88 PARZIALIZZATA

R   101 .68
(Type I SS) (Type II SS)
x3
|  0 ,  x1 ,  x2

 dipende dalla sequenza (ordinamento) delle variabili esplicative;  è indipendente dalla sequenza (ordinamento) delle variabili esplicative;
 esprime il contributo di ciascuna variabile al netto delle precedenti,  esprime il contributo netto di ciascuna variabile;
ma al lordo delle successive;  la somma di tutti i contributi è uguale alla devianza spiegata solo se le
 la somma di tutti i contributi è uguale alla devianza spiegata; variabili esplicative sono fra loro ortogonali;
 coincide con la scomposizione parzializzata solo se le variabili  coincide con la scomposizione sequenziale solo se le variabili
esplicative sono fra loro ortogonali; esplicative sono fra loro ortogonali;

Risulta adeguata per l'analisi di: Risulta adeguata per l'analisi di:

 modelli ANOVA con dati bilanciati e effetti specificati in ordine  tutti i modelli ANOVA con dati bilanciati
(ovvero: le interazioni dopo gli effetti diretti)  tutti i modelli con solo effetti diretti (strettamente additivi)
 modelli annidati (mantenendo l'ordine di introduzione degli effetti)  tutti i modelli di regressione (in senso stretto)
 modelli di regressione polinomiale (garantendo l'ordinamento
degli effetti)  EFFETTI NON CONTENUTI IN ALCUN ALTRO EFFETTO (nel modello)....

?
Scomposizione della variabilità (2° Parte)

 Indicando con U un generico effetto (diretto o interazione), la quota di devianza attribuita a tale effetto dalla
scomposizione Type II è da considerarsi "netta o parzializzata" rispetto ad un altro generico effetto V,
se e solo se V non contiene U.

Segue pertanto che la scomposizione Type II è generalmente adeguata solo se:

1) il disegno è bilanciato;
2) il disegno è non-bilanciato, ma il modello è strettamente additivo

 Con un disegno non-bilanciato e presenza del termine di interazione (non-nullo), è generalmente adeguato un altro tipo
di scomposizione detto: Type III (o delle medie quadratiche ponderate di Yates)

Esempio: disegno non bilanciato con interazione (non nulla) The GLM Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 1169.400000 389.800000 11.96 0.0061
Error 6 195.500000 32.583333
yih =ˆ0  ˆ1A  ˆ2A  ˆ1B  ˆ2B  ˆ11
AB
 ˆ12
AB
 ˆ21
AB
 ˆ22
AB
+ eih Corrected Total 9 1364.900000

R-Square Coeff Var Root MSE y Mean


0.856766 35.45454 5.708181 16.10000

Id y A B A\B 1 2
Source DF Type I SS Mean Square F Value Pr > F
A 1 528.0666667 528.0666667 16.21 0.0069
1 39 1 1 y11 =39 y12 =12 B 1 92.1904762 92.1904762 2.83 0.1435
1 A*B 1 549.1428571 549.1428571 16.85 0.0063
2 35 1 1 y11 =35 y12 =14 Ŷ1+= 25 Source DF Type II SS Mean Square F Value Pr > F
3 12 1 2 Ŷ11= 37.0 Ŷ12= 13 A
B
1
1
443.4404762
92.1904762
443.4404762
92.1904762
13.61
2.83
0.0102
0.1435
4 14 1 2 A*B 1 549.1428571 549.1428571 16.85 0.0063
y21 =9 y22 =5
5 9 2 1 Source DF Type III SS Mean Square F Value Pr > F
2 y21 =2 y22 =16 A 1 585.1428571 585.1428571 17.96 0.0055
B 1 165.1428571 165.1428571 5.07 0.0653
6 2 2 1
A*B 1 549.1428571 549.1428571 16.85 0.0063
y22 =8
7 5 2 2 Ŷ2+= 10.2 Standard
y22 =21 Parameter Estimate Error t Value Pr > |t|
8 16 2 2
9 8 2 2 Ŷ21= 5.5 Ŷ11= 12.5 Intercept 12.50000000 B 2.85409063 4.38 0.0047
A 1 0.50000000 B 4.94342998 0.10 0.9227
A 2 0.00000000 B . . .
10 21 2 2
Ŷ+1= 21.3 Ŷ2+= 12.7 Ŷ++= 16.1 B 1 -7.00000000 B 4.94342998 -1.42 0.2065
B 2 0.00000000 B . . .
A*B 1 1 31.00000000 B 7.55121403 4.11 0.0063
A*B 1 2 0.00000000 B . . .
A*B 2 1 0.00000000 B . . .
Type I SS Type II SS Type III SS A*B 2 2 0.00000000 B . . .


R  1A |  0   528 .07 
R  1A |  0 ,  1B   443 .44 
R  1A |  0 ,  1B ,  11AB was 
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
 585
used .to
14solve the normal equations. Terms whose estimates are


R  1B |  0 ,  1A   92 .19 
R  1B |  0 ,  1A   92 .19 
R  1 |  0 ,  1 ,  11  165 .14
B A AB

followed by the letter 'B' are not uniquely estimable.

R  AB
11 
|  0 ,  1A ,  1B  549 .14 R  AB
11 
|  0 ,  1A ,  1B  549 .14 R  AB
11 |  0 ,  1A ,  1B  549 .14
Scomposizione della variabilità (2° Parte) ASSENZA EFFETTI DI INTERAZIONE disegno bilanciato e non bilanciato
Id y A B Id y A B
Esempio: disegno bilanciato Esempio: disegno NON bilanciato
1 7 1 1 1 7 1 1
2 9 1 1 2 9 1 1
A\B 1 2 3 3 1 2 3 5 1 2
A\B 1 2
4 7 1 2 4 . 1 2
y11 =7 y12 =3 y11 =7 y12 =5
5 6 2 1 5 8 2 1
1 y11 =9 y12 =7 1
Ŷ1+= 6.5 6 10 2 1 6 . 2 1 y11 =9 Ŷ1+= 7.0
7 4 2 2 7 4 2 2
Ŷ11= 8.0 Ŷ12= 5.0 8 6 2 2 8 6 2 2
Ŷ11= 8.0 Ŷ12= 5.0
UGUALI
y21 =6 y22 =4 MEDIE DI CELLA y21 =8 y22 =4
2 y21 =10 y22 =6 2
Ŷ2+= 6.5 y22 =6 Ŷ2+= 6.0
Ŷ21= 8.0 Ŷ11= 5.0 EFFETTO "A" Ŷ21= 8.0 Ŷ11= 5.0
NULLO
Ŷ+1= 8.0 Ŷ2+= 5.0 Ŷ++= 6.5 Ŷ+1= 8.0 Ŷ2+= 5.0 Ŷ++= 6.5
Type I SS Type II SS Type II SS
Type I SS

R  1A |  0   0 .0 
R  1A |  0   0 .0 Con Type I SS

R  1A |  0   1 .5 
R  1A |  0   0 .0
R   R   R  
compare un effetto per "A"
B
| 0 , A
 18 .0 B
| 0 , A
 18 .0 
R  1B |  0 ,  1A   12 .0 1
B
| 0 , 1
A
 12 .0
R  
1 1 1 1

R  |  0 ,  1 ,  1  0 .0  R  
|  0 ,  1 ,  1  0 .0 R   |  0 ,  1A ,  1B  0.0
AB
AB
11
A B AB
11
A B AB
11 |  0 ,  1A ,  1B  0.0 11
The GLM Procedure Type I I SS The GLM Procedure
Dependent Variable: y Dependent Variable: y
Sum of
ADEGUATA Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 3 18.00000000 6.00000000 1.20 0.4166 Model 3 13.50000000 4.50000000 2.25 0.3224
Error 4 20.00000000 5.00000000 Error 2 4.00000000 2.00000000
Corrected Total 7 38.00000000 Corrected Total 5 17.50000000

R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.473684 34.40105 2.236068 6.500000 0.771429 21.75713 1.414214 6.500000

Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 1 0.00000000 0.00000000 0.00 1.0000 A 1 1.50000000 1.50000000 0.75 0.4778
B 1 18.00000000 18.00000000 3.60 0.1306 B 1 12.00000000 12.00000000 6.00 0.1340
A*B 1 0.00000000 0.00000000 0.00 1.0000 A*B 1 0.00000000 0.00000000 0.00 1.0000

Source DF Type II SS Mean Square F Value Pr > F Source DF Type II SS Mean Square F Value Pr > F
A 1 0.00000000 0.00000000 0.00 1.0000 A 1 0.00000000 0.00000000 0.00 1.0000
B 1 18.00000000 18.00000000 3.60 0.1306 B 1 12.00000000 12.00000000 6.00 0.1340
A*B 1 0.00000000 0.00000000 0.00 1.0000 A*B 1 0.00000000 0.00000000 0.00 1.0000

Source DF Type III SS Mean Square F Value Pr > F Source DF Type III SS Mean Square F Value Pr > F
A 1 0.00000000 0.00000000 0.00 1.0000 A 1 0.00000000 0.00000000 0.00 1.0000
B 1 18.00000000 18.00000000 3.60 0.1306 B 1 12.00000000 12.00000000 6.00 0.1340
A*B 1 0.00000000 0.00000000 0.00 1.0000 A*B 1 0.00000000 0.00000000 0.00 1.0000

Standard Standard
Parameter Estimate Error t Value Pr > |t| Parameter Estimate Error t Value Pr > |t|

Intercept 5.000000000 B 1.58113883 3.16 0.0341 Intercept 5.000000000 B 1.00000000 5.00 0.0377
A 1 0.000000000 B 2.23606798 0.00 1.0000 A 1 0.000000000 B 1.73205081 0.00 1.0000
A 2 0.000000000 B . . . A 2 0.000000000 B . . .
B 1 3.000000000 B 2.23606798 1.34 0.2508 B 1 3.000000000 B 1.73205081 1.73 0.2254
B 2 0.000000000 B . . . B 2 0.000000000 B . . .
A*B 1 1 0.000000000 B 3.16227766 0.00 1.0000 A*B 1 1 -0.000000000 B 2.44948974 -0.00 1.0000
A*B 1 2 0.000000000 B . . . A*B 1 2 0.000000000 B . . .
A*B 2 1 0.000000000 B . . . A*B 2 1 0.000000000 B . . .
A*B 2 2 0.000000000 B . . . A*B 2 2 0.000000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable. followed by the letter 'B' are not uniquely estimable.
Scomposizione della variabilità (2° Parte)

SCHEMA RISSUNTIVO DEI DIVERSI TIPI DI SCOMPOSIZIONE (della devianza spiegata)

Scomposizione
Variabili esplicative "adeguata"

Se le variabili sono fra loro ortogonali


CARDINALI TYPE II SS (TYPE I SS = TYPE II SS)

CATEGORIALI

DATI BILANCIATI TYPE I SS (TYPE I SS = TYPE II SS = TYPE III SS)

DATI NON BILANCIATI

INTERAZIONI NULLE TYPE II SS (TYPE II SS = TYPE III SS)

INTERAZIONI NON NULLE TYPE III SS


UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli

UNIVERSITA' DEGLI STUDI DI TORINO


Gennaio 2012 DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati

Modello Lineare Classico


Esercizi (commentati)

 ESERCIZIO 1 (Solo variabili cardinali; controllo adattamento)

 ESERCIZIO 2 (Variabili cardinali e dicotomiche, controllo adattamento; miglior modello)

 ESERCIZIO 3 (Variabili categoriali e variabili cardinali di controllo)

 ESERCIZIO 4 (Variabili categoriali e cardinali; diversa parametrizzazione)


ESERCIZIO 1 yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ...  ˆk xki  ei

 La matrice dati: "PROFSCO" (N = 600) contiene le seguenti informazioni relative ad una ipotetica rilevazione condotta sugli studenti di un istituto
di istruzione superiore (tutte le variabili sono standardizzate e sono state ottenute utilizzando specifici e validati strumenti di misura):

ident y x1 x2 x3 x4 x5 x6

S1 -0.66933 -1.29755 -0.33919 -0.70616 -0.41809 0.62739 -0.56554


 Y = profitto scolastico S2 -1.44812 0.18018 -0.44727 -1.01440 1.72194 -0.32023 -1.77940
 X1 = puntualità alle lezioni S3 -0.69806 -0.05809 -0.09585 -0.70765 0.05623 -1.01193 0.13623
 X2 = attenzione durante le lezioni frontali S4 -0.91483 -1.70040 -0.89575 1.00143 0.82685 0.44287 0.63519
 X3 = comportamento disciplinato S5 -1.63283 0.46839 -0.87204 -1.27300 1.49662 1.60802 -0.78762
 X4 = assenze scolastiche S6 0.19679 0.22589 0.45929 1.33806 -0.13120 0.11093 1.44787
 X5 = ordine nel redigere i compiti assegnati S7 -0.68479 1.60852 -1.53878 0.21174 -1.25863 -1.50642 0.09522
 X6 = interesse (curiosità conoscitiva) S8 -0.94332 -1.01377 -1.56887 -0.72519 0.10649 1.19491 -1.14664
S9 -0.46438 -0.97939 -1.16773 -0.63060 1.06986 -0.42518 1.64434
S10 -0.88643 -0.05810 -1.64837 -0.52829 -1.55956 0.73762 -1.51255
:::: :::::::: :::::::: :::::::: :::::::: :::::::: ::::::::: :::::::
S600 -0.00702 0.97038 0.74730 1.36754 -0.36228 0.29414 0.60177

 Si chiede di analizzare i dati della matrice, cercando di definire il miglior modello (in termini di capacità esplicativa) relativo al profitto scolastico (Y);
commentare adeguatamente il risultato ottenuto...

Analisi commentata...

Pearson Correlation Coefficients, N = 600


\PSICOM4\ESELIN\ESE1.SAS
Prob > |r| under H0: Rho=0

y x1 x2 x3 x4 x5 x6 MATRICE  \...\PROFSCO
MATRICE  \...\PROFRES
y 1.00000 -0.01969 0.34970 0.04543 -0.26281 -0.02445 0.61343
0.6303 <.0001 0.2665 <.0001 0.5500 <.0001

x1 -0.01969 1.00000 0.00921 -0.06740 0.07199 0.01630 -0.00215


0.6303 0.8219 0.0991 0.0781 0.6903 0.9581

x2 0.34970 0.00921 1.00000 -0.01581 -0.02974 0.01635 0.05204


<.0001 0.8219 0.6992 0.4672 0.6894 0.2030

x3 0.04543 -0.06740 -0.01581 1.00000 0.02714 -0.03166 0.05348


0.2665 0.0991 0.6992 0.5069 0.4389 0.1908

x4 -0.26281 0.07199 -0.02974 0.02714 1.00000 -0.01466 -0.01302


<.0001 0.0781 0.4672 0.5069 0.7200 0.7502

x5 -0.02445 0.01630 0.01635 -0.03166 -0.01466 1.00000 -0.02556


0.5500 0.6903 0.6894 0.4389 0.7200 0.5320 (1/5) Continua

x6 0.61343 -0.00215 0.05204 0.05348 -0.01302 -0.02556 1.00000


<.0001 0.9581 0.2030 0.1908 0.7502 0.5320
yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ...  ˆk xki  ei
ESERCIZIO 1
La matrice dati: "PROFSCO" (N = 600)
 Y = profitto scolastico
 X1 = puntualità alle lezioni
The REG Procedure  X2 = attenzione durante le lezioni frontali
The REG Procedure
 X3 = comportamento disciplinato
Dependent Variable: y Metodi di selezione Dependent Variable: y
 X4 = assenze scolastiche
R-Square Selection Method Stepwise Selection: Step 3
automatica dei predittori Variable x4 Entered: R-Square = 0.5379 and C(p) = 2.2090
 X5 = ordine nel redigere i compiti assegnati
Number in  X6 = interesse (curiosità conoscitiva)
Analysis of Variance
Model R-Square Variables in Model
Sum of Mean
Source DF Squares Square F Value Pr > F
1 0.3763 x6
1 0.1223 x2 Model 3 322.74379 107.58126 231.26 <.0001
1 0.0691 x4 Error 596 277.25621 0.46519
------------------------------------------- Corrected Total 599 600.00000
2 0.4775 x2 x6
2 0.4412 x4 x6 Parameter Standard
2 0.3766 x1 x6 Variable Estimate Error Type II SS F Value Pr > F
------------------------------------------- Intercept 6.76922E-16 0.02784 2.74934E-28 0.00 1.0000
3 0.5379 x2 x4 x6 x2 0.31147 0.02789 58.00297 124.69 <.0001
x4 -0.24581 0.02786 36.21624 77.85 <.0001
3 0.4780 x1 x2 x6
x6 0.59402 0.02788 211.11122 453.81 <.0001
3 0.4779 x2 x3 x6 Bounds on condition number: 1.0036, 9.0223
------------------------------------------- ---------------------------------------------------------------------------------------------------
4 0.5385 x2 x3 x4 x6 -
4 0.5382 x2 x4 x5 x6 All variables left in the model are significant at the 0.1500 level.
4 0.5379 x1 x2 x4 x6 No other variable met the 0.1500 significance level for entry into the model.
------------------------------------------- Summary of Stepwise Selection
5 0.5388 x2 x3 x4 x5 x6 Variable Variable Number Partial Model
5 0.5386 x1 x2 x3 x4 x6 Step Entered Removed Vars In R-Square R-Square C(p) F Value Pr > F
5 0.5382 x1 x2 x4 x5 x6
1 x6 1 0.3763 0.3763 206.031 360.78 <.0001
-------------------------------------------
2 x2 2 0.1013 0.4775 77.8268 115.70 <.0001
6 0.5388 x1 x2 x3 x4 x5 x6
3 x4 3 0.0604 0.5379 2.2090 77.85 <.0001

The REG Procedure


Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 3 322.74379 107.58126 231.26 <.0001


Error 596 277.25621 0.46519
Corrected Total 599 600.00000

Root MSE 0.68205 R-Square 0.5379


Dependent Mean 6.36528E-17 Adj R-Sq 0.5356
Coeff Var 1.07152E18
Il miglior modello
(da commentare)... Parameter Estimates
Ma (?!?)....
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 6.76922E-16 0.02784 0.00 1.0000 0


(2/5) Continua
x2 1 0.31147 0.02789 11.17 <.0001 0.31147
x4 1 -0.24581 0.02786 -8.82 <.0001 -0.24581
x6 1 0.59402 0.02788 21.30 <.0001 0.59402
The REG Procedure
Dependent Variable: y
ESERCIZIO 1 Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 3 322.74379 107.58126 231.26 <.0001


La matrice dati: "PROFSCO" (N = 600) Error 596 277.25621 0.46519
 Y = profitto scolastico Corrected Total 599 600.00000
 X1 = puntualità alle lezioni
 X2 = attenzione durante le lezioni frontali Root MSE 0.68205 R-Square 0.5379
 X3 = comportamento disciplinato Dependent Mean 6.36528E-17 Adj R-Sq 0.5356
 X4 = assenze scolastiche Coeff Var 1.07152E18
 X5 = ordine nel redigere i compiti assegnati
Parameter Estimates
 X6 = interesse (curiosità conoscitiva)
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 6.76922E-16 0.02784 0.00 1.0000 0


x2 1 0.31147 0.02789 11.17 <.0001 0.31147
x4 1 -0.24581 0.02786 -8.82 <.0001 -0.24581
x6 1 0.59402 0.02788 21.30 <.0001 0.59402

I residui presentano un aspetto


chiaramente eteroschedastico...
Che fare?

(3/5) Continua
The REG Procedure
Dependent Variable: y
Analysis of Variance
ESERCIZIO 1 Source DF
Sum of
Squares
Mean
Square F Value Pr > F

Model 3 322.74379 107.58126 231.26 <.0001


Error 596 277.25621 0.46519
Corrected Total 599 600.00000
La matrice dati: "PROFSCO" (N = 600)
Root MSE 0.68205 R-Square 0.5379
 Y = profitto scolastico Dependent Mean 6.36528E-17 Adj R-Sq 0.5356
 X1 = puntualità alle lezioni Coeff Var 1.07152E18

 X2 = attenzione durante le lezioni frontali Parameter Estimates


 X3 = comportamento disciplinato
Parameter Standard Standardized
 X4 = assenze scolastiche Variable DF Estimate Error t Value Pr > |t| Estimate
In questo caso si potrebbe ragionare così...  X5 = ordine nel redigere i compiti assegnati
Intercept 1 6.76922E-16 0.02784 0.00 1.0000 0
 X6 = interesse (curiosità conoscitiva) x2 1 0.31147 0.02789 11.17 <.0001 0.31147
x4 1 -0.24581 0.02786 -8.82 <.0001 -0.24581
x6 1 0.59402 0.02788 21.30 <.0001 0.59402

 La variabile X6 è quella che presenta un impatto maggiore (in modulo) sulla Y;

 X6 (l'interesse per lo studio) potrebbe essere a sua volta correlata con un'altra variabile... Per esempio: la spesa annua per libri extrascolastici della famiglia;

 si potrebbe, ad esempio, sospettare che la variabilità nell'interesse per lo studio fra i ragazzi vari in funzione del livello di spesa per i libri extrascolastici;

 se così fosse, a questa ulteriore variabile (non presente nella precedente matrice e quindi omessa dal modello) potrebbe essere imputata l'etereschedasticità dei residui...

 La matrice dati "PROFRES" contiene proprio questa informazione (variabile: Z1), unitamente al codice identificativo (ident) di ciascuno studente;

 le due matrici dati possono essere opportunamente unite e diviene possibile controllare il precedente ragionamento con i dati a disposizione...

MATRICE  \...\PROFSCO
MATRICE  \...\PROFRES
(merge) MATRICE  \...\PROMERGE

Pearson Correlation Coefficients, N = 600


Prob > |r| under H0: Rho=0

y x2 x4 x6 z1

y 1.00000 0.34970 -0.26281 0.61343 0.83486


<.0001 <.0001 <.0001 <.0001

x2 0.34970 1.00000 -0.02974 0.05204 0.08069


<.0001 0.4672 0.2030 0.0482

x4 -0.26281 -0.02974 1.00000 -0.01302 -0.02401


<.0001 0.4672 0.7502 0.5573

x6 0.61343 0.05204 -0.01302 1.00000 0.49202


<.0001 0.2030 0.7502 <.0001

z1 0.83486 0.08069 -0.02401 0.49202 1.00000


<.0001 0.0482 0.5573 <.0001

(4/5) Continua
The REG Procedure
ESERCIZIO 1 Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 4 530.81800 132.70450 1141.33 <.0001


Error 595 69.18200 0.11627
La nuova matrice dati: "PROFSCO"+"PROFRES" (N=600) Corrected Total 599 600.00000
 Y = profitto scolastico
 X1 = puntualità alle lezioni Root MSE 0.34099 R-Square 0.8847
 X2 = attenzione durante le lezioni frontali Dependent Mean 9.4739E-17 Adj R-Sq 0.8839
 X3 = comportamento disciplinato Coeff Var 3.599226E17
Parameter Estimates
 X4 = assenze scolastiche
Parameter Standard Standardized
 X5 = ordine nel redigere i compiti assegnati Variable DF Estimate Error t Value Pr > |t| Estimate
 X6 = interesse (curiosità conoscitiva)
 Z1 = spesa (familiare) per libri extrascolastici Intercept 1 -2.1761E-17 0.01392 -0.00 1.0000 0
x2 1 0.27434 0.01397 19.63 <.0001 0.27434
x4 1 -0.23496 0.01393 -16.87 <.0001 -0.23496
x6 1 0.26255 0.01599 16.42 <.0001 0.26255
La stima del "nuovo" modello e il grafico dei residui... z1 1 0.67791 0.01603 42.30 <.0001 0.67791

(5/5) Fine
\PSICOM4\ESELIN\ESE2.SAS
ESERCIZIO 2 yi  ˆ0  ˆ1 x1i  ˆ2 x 2i  ...  ˆk xki  ei
MATRICE  \...\MATDAT2

The MEANS Procedure I dati sono di fantasia...


Variable Label N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
y1 PROP.COMP. DEVIANTI 100 3.552714E-17 0.9949874 -2.0583866 2.0946268
y2 AUTONOMIA DECISIONALE 100 4.615752E-16 0.9949874 -2.4365863 3.3519191
V1 ETA' 100 17.0200000 1.3489255 14.0000000 20.0000000
V2 PROFITTO SCUOLA 100 49.7800000 21.1582513 0 100.0000000
V3 RISORSE ECONOM. FAM. 100 51.2300000 18.5406877 0 100.0000000
V4 INDICE AUTORIT. FAM. 100 -0.4100000 3.8290861 -10.0000000 10.0000000
V5 NUMERO COMP. FAM. 100 3.4600000 1.1083321 0 6.0000000
V6 ORE_GIORNO TV 100 5.8800000 2.2462413 0 12.0000000
V7 NUMERO ROMANZI LETTI_ANNO 100 31.3600000 10.7326791 0 55.0000000
V8 GENERE (M=1 F=0) 100 0.4100000 0.4918333 0 1.0000000
V9 PRECED. PENALI (SI=1 NO=0) 100 0.4100000 0.4918333 0 1.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

proc corr data=arc.matdat2 vardef=n best=3 nosimple;var v1-v9;quit;


The CORR Procedure Esercizio 2 (a)
9 Variables: V1 V2 V3 V4 V5 V6 V7 V8 V9
Utilizzare come variabile DIPENDENTE Y1
Pearson Correlation Coefficients, N = 100
Prob > |r| under H0: Rho=0

V1 V1 V9 V7
ETA' 1.00000 0.10822 0.10311 Esercizio 2 (b)
0.2838 0.3073
V2 V2 V3 V4
Utilizzare come variabile DIPENDENTE Y2
PROFITTO SCUOLA 1.00000 0.78667 -0.09332
<.0001 0.3558
V3 V3 V2 V6
RISORSE ECONOM. FAM. 1.00000 0.78667 -0.11459
<.0001 0.2563
V4 V4 V6 V7
INDICE AUTORIT. FAM. 1.00000 -0.27197
0.0062
0.11771
0.2435
Esercizio 2 (a) e 2 (b)
V5 V5 V8 V9 Stimare il "miglior" modello; commentare...
NUMERO COMP. FAM. 1.00000 -0.18088 0.07595
0.0717 0.4526
V6 V6 V4 V7
ORE_GIORNO TV 1.00000 -0.27197 -0.11477
0.0062 0.2555
V7 V7 V9 V4
NUMERO ROMANZI LETTI_ANNO 1.00000 -0.17004 0.11771
0.0908 0.2435
V8 V8 V5 V7
GENERE (M=1 F=0) 1.00000 -0.18088 0.10465 1/3) Continua
0.0717 0.3001
V9 V9 V7 V1
PRECED. PENALI (SI=1 NO=0) run 1.00000 -0.17004 0.10822
0.0908 0.2838
Esercizio 2 (a) variabile DIPENDENTE Y1 Dependent Variable: y1

ESERCIZIO 2 R-Square Selection Method

The REG Procedure Number in


Model R-Square Variables in Model
Model: MODEL1
Dependent Variable: y1 PROP.COMP. DEVIANTI MIGLIORE
1 0.5326 V8
Analysis of Variance 1 0.0186 V7
Sum of Mean 1 0.0108 V4
Source DF Squares Square F Value Pr > F ----------------------------------------------------
2 0.5460 V8 V9
2 0.5402 V2 V8
Model 1 52.72856 52.72856 111.68 <.0001 2 0.5392 V4 V8
Error 98 46.27144 0.47216 ----------------------------------------------------
Corrected Total 99 99.00000 3 0.5548 V4 V8 V9
3 0.5531 V2 V8 V9
3 0.5525 V7 V8 V9
Root MSE 0.68714 R-Square 0.5326 ----------------------------------------------------
Dependent Mean 3.55271E-17 Adj R-Sq 0.5278 4 0.5609 V2 V3 V8 V9
Coeff Var 1.934119E18 4 0.5605 V2 V4 V8 V9
4 0.5600 V4 V7 V8 V9
----------------------------------------------------
Parameter Estimates 5 0.5684 V2 V3 V4 V8 V9
Parameter Standard 5 0.5668 V2 V3 V7 V8 V9
Variable Label DF Estimate Error t Value Pr > |t| 5 0.5661 V2 V4 V7 V8 V9
----------------------------------------------------
Intercept Intercept 1 -0.60533 0.08946 -6.77 <.0001 6 0.5731 V2 V3 V4 V7 V8 V9
6 0.5721 V1 V2 V3 V4 V8 V9
V8 GENERE (M=1 F=0) 1 1.47640 0.13971 10.57 <.0001 6 0.5712 V2 V3 V4 V5 V8 V9
----------------------------------------------------
7 0.5757 V1 V2 V3 V4 V7 V8 V9
The REG Procedure 7 0.5755 V2 V3 V4 V6 V7 V8 V9
Model: MODEL1 7 0.5754 V2 V3 V4 V5 V7 V8 V9
Dependent Variable: y1 PROP.COMP. DEVIANTI ----------------------------------------------------
Analysis of Variance 8 0.5787 V1 V2 V3 V4 V6 V7 V8 V9
Sum of Mean 8 0.5783 V1 V2 V3 V4 V5 V7 V8 V9
Source DF Squares Square F Value Pr > F 8 0.5778 V1 V2 V3 V4 V5 V6 V8 V9
----------------------------------------------------
9 0.5813 V1 V2 V3 V4 V5 V6 V7 V8 V9
Model 2 54.05118 27.02559 58.32 <.0001
Error 97 44.94882 0.46339
Corrected Total 99 99.00000
OPPURE...
Root MSE 0.68073 R-Square 0.5460
Dependent Mean 3.55271E-17 Adj R-Sq 0.5366
Coeff Var 1.916078E18
Parameter Estimates

Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t| Metodi di selezione automatica dei predittori...
Intercept Intercept 1 -0.70446 0.10629 -6.63 <.0001
V8 GENERE (M=1 F=0) 1 1.48424 0.13848 10.72 <.0001
V9 PRECED. PENALI (SI=1 NO=0) run 1 0.23396 0.13848 1.69 0.0943

The REG Procedure


Model: MODEL1
Dependent Variable: y1 PROP.COMP. DEVIANTI

Summary of Stepwise Selection

Variable Variable Number Partial Model


(2/3) Continua
Step Entered Removed Label Vars In R-Square R-Square C(p) F Value Pr > F

1 V8 GENERE (M=1 F=0) 1 0.5326 0.5326 4.4611 111.68 <.0001


2 V9 PRECED. PENALI (SI=1 NO=0) run 2 0.0134 0.5460 3.5895 2.85 0.0943
Esercizio 2 (b) variabile DIPENDENTE Y2
ESERCIZIO 2
The REG Procedure
Model: MODEL1 MIGLIORE
Dependent Variable: y2 AUTONOMIA DECISIONALE

Analysis of Variance
Sum of Mean Metodi di selezione
Source DF Squares Square F Value Pr > F
automatica dei predittori...
Model 3 67.30882 22.43627 67.96 <.0001
Error 96 31.69118 0.33012
Dependent Variable: y2
Corrected Total 99 99.00000
R-Square Selection Method
Root MSE 0.57456 R-Square 0.6799
Dependent Mean 4.61575E-16 Adj R-Sq 0.6699 Number in
Coeff Var 1.244776E17 Model R-Square Variables in Model

Parameter Estimates 1 0.4375 V6


Parameter Standard Standardized 1 0.1800 V3
1 0.1574 V2
Variable Label DF Estimate Error t Value Pr > |t| Estimate
----------------------------------------------------
2 0.5949 V2 V6
Intercept Intercept 1 -2.92429 0.76589 -3.82 0.0002 0 2 0.5606 V3 V6
V1 ETA' 1 0.21575 0.04273 5.05 <.0001 0.29250 2 0.5271 V1 V6
V2 PROFITTO SCUOLA 1 0.01839 0.00272 6.77 <.0001 0.39096 ----------------------------------------------------
V6 ORE_GIORNO TV 1 -0.28284 0.02566 -11.02 <.0001 -0.63852 3 0.6799 V1 V2 V6
3 0.6620 V1 V3 V6
3 0.6046 V2 V6 V9
The REG Procedure ----------------------------------------------------
Model: MODEL1 4 0.6886 V1 V2 V3 V6
Dependent Variable: y2 AUTONOMIA DECISIONALE 4 0.6843 V1 V2 V6 V9
4 0.6837 V1 V2 V6 V7
Analysis of Variance ----------------------------------------------------
Sum of Mean 5 0.6926 V1 V2 V3 V6 V9
Source DF Squares Square F Value Pr > F 5 0.6917 V1 V2 V3 V6 V7
5 0.6902 V1 V2 V3 V4 V6
Model 4 68.17491 17.04373 52.53 <.0001 ----------------------------------------------------
6 0.6973 V1 V2 V3 V6 V7 V9
Error 95 30.82509 0.32447
6 0.6938 V1 V2 V3 V4 V6 V7
Corrected Total 99 99.00000
6 0.6938 V1 V2 V3 V4 V6 V9
----------------------------------------------------
Root MSE 0.56963 R-Square 0.6886 7 0.6989 V1 V2 V3 V4 V6 V7 V9
Dependent Mean 4.61575E-16 Adj R-Sq 0.6755 7 0.6977 V1 V2 V3 V6 V7 V8 V9
Coeff Var 1.234093E17 7 0.6973 V1 V2 V3 V5 V6 V7 V9
----------------------------------------------------
Parameter Estimates 8 0.6993 V1 V2 V3 V4 V6 V7 V8 V9
Parameter Standard Standardized 8 0.6989 V1 V2 V3 V4 V5 V6 V7 V9
Variable Label DF Estimate Error t Value Pr > |t| Estimate 8 0.6977 V1 V2 V3 V5 V6 V7 V8 V9
----------------------------------------------------
Intercept Intercept 1 -3.24712 0.78461 -4.14 <.0001 0 9 0.6993 V1 V2 V3 V4 V5 V6 V7 V8 V9
V1 ETA' 1 0.22363 0.04264 5.24 <.0001 0.30317
V2 PROFITTO SCUOLA 1 0.01263 0.00443 2.85 0.0053 0.26867
V3 RISORSE ECONOM. FAM. 1 0.00833 0.00510 1.63 0.1056 0.15518 OPPURE...
V6 ORE_GIORNO TV 1 -0.27458 0.02593 -10.59 <.0001 -0.61989

Summary of Stepwise Selection

Variable Variable Number Partial Model


Step Entered Removed Label Vars In R-Square R-Square C(p) F Value Pr > F

1 V6 ORE_GIORNO TV 1 0.4375 0.4375 72.3806 76.22 <.0001 (3/3) Fine


2 V2 PROFITTO SCUOLA 2 0.1574 0.5949 27.2639 37.69 <.0001
3 V1 ETA' 3 0.0850 0.6799 3.8208 25.49 <.0001
4 V3 RISORSE ECONOM. FAM. 4 0.0087 0.6886 3.2021 2.67 0.1056
ESERCIZIO 3 Si dispone delle seguenti variabili rilevate tramite un'indagine campionaria che ha coinvolto
300 individui (N = 300) residenti in Italia
\PSICOM4\ESELIN\ESE3.SAS
XENOFOB  misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15);
ETA  età in anni compiuti (maggiorenni);
MATRICE  \...\FOBIA.XLS
MATRICE  \...\FOBIA
AREA_GEO  area geografica di residenza (N = nord, C = centro, S = sud e isole);
GENERE  genere (M = maschio, F = femmina)

l'esempio e
i dati sono di fantasia...
ESEMPIO1 --- MODELLO LINEARE CLASSICO (dati BILANCIATI)

The MEANS Procedure

Variable Label N Mean Std Dev Minimum Maximum


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
XENOFOB XENOFOB 300 0.0023333 6.0046494 -15.0000000 14.9000000
ETA ETA 300 53.0066667 13.0571149 20.0000000 81.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

xenofob eta
(GENERE) M F Tot. (GENERE) M F Tot.
(AREA_GEO) (AREA_GEO)

N (n=50) (n=50) (n=100) N (n=50) (n=50) (n=100)


+3.08 -1.14 +0.97 59.70 50.88 55.29

C (n=50) (n=50) (n=100) C (n=50) (n=50) (n=100)


-0.50 -3.50 -2.00 51.86 45.62 48.74

S (n=50) (n=50) (n=100) S (n=50) (n=50) (n=100)


+2.74 -0.67 +1.03 58.52 51.46 54.99

Tot. (n=150) (n=150) (n=300) Tot. (n=150) (n=150) (n=300)


+1.78 -1.77 +0.002 56.69 49.32 53.01

 L'AREA GEOGRAFICA e/o il GENERE hanno un qualche effetto e di quale entità sulla XENOFOBIA ?
 L'ETÀ anagrafica ha un qualche effetto e di quale entità sulla XENOFOBIA ? (1/4) Continua
xenofob
(GENERE) M F Tot.
ESERCIZIO 3 (AREA_GEO)

XENOFOB  misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15); N (n=50) (n=50) (n=100)
+3.08 -1.14 +0.97
ETA  età in anni compiuti (maggiorenni);
AREA_GEO  area geografica di residenza (N = nord, C = centro, S = sud e isole); C (n=50) (n=50) (n=100)
-0.50 -3.50 -2.00
GENERE  genere (M = maschio, F = femmina)
S (n=50) (n=50) (n=100)
+2.74 -0.67 +1.03
 L'AREA GEOGRAFICA e/o il GENERE hanno un qualche effetto e di quale entità sulla XENOFOBIA? Tot. (n=150) (n=150) (n=300)
+1.78 -1.77 +0.002

ESEMPIO1 --- MODELLO LINEARE CLASSICO (dati BILANCIATI)

proc glm data=esempio1 order=data; The GLM Procedure


class area_geo genere; Dependent Variable: XENOFOB
Sum of
model xenofob = area_geo genere area_geo*genere
Source DF Squares Mean Square F Value Pr > F
/ ss1 ss2 solution;
quit; Model 5 1564.07337 312.81467 9.98 <.0001

Error 294 9216.61500 31.34903

Corrected Total 299 10780.68837

R-Square Coeff Var Root MSE XENOFOB Mean


ESEMPIO1 --- MODELLO LINEARE CLASSICO (dati BILANCIATI) 0.145081 239958.0 5.599021 0.002333

The GLM Procedure Source DF Type I SS Mean Square F Value Pr > F


Class Level Information
AREA_GEO 2 600.9924667 300.4962333 9.59 <.0001
Class Levels Values
GENERE 1 943.7680333 943.7680333 30.11 <.0001
AREA_GEO 3 N C S AREA_GEO*GENERE 2 19.3128667 9.6564333 0.31 0.7351

GENERE 2 M F Source DF Type II SS Mean Square F Value Pr > F

Number of observations 300 AREA_GEO 2 600.9924667 300.4962333 9.59 <.0001


GENERE 1 943.7680333 943.7680333 30.11 <.0001
AREA_GEO*GENERE 2 19.3128667 9.6564333 0.31 0.7351
Type I SS = Type II SS
Standard
con i dati bilanciati Parameter Estimate Error t Value Pr > |t|

Intercept -0.674000000 B 0.79182107 -0.85 0.3953


AREA_GEO N -0.466000000 B 1.11980410 -0.42 0.6776
AREA_GEO C -2.826000000 B 1.11980410 -2.52 0.0121
AREA_GEO S 0.000000000 B . . .
GENERE M 3.416000000 B 1.11980410 3.05 0.0025
GENERE F 0.000000000 B . . .
AREA_GEO*GENERE N M 0.808000000 B 1.58364215 0.51 0.6103
AREA_GEO*GENERE N F 0.000000000 B . . .
AREA_GEO*GENERE C M -0.414000000 B 1.58364215 -0.26 0.7939
AREA_GEO*GENERE C F 0.000000000 B . . .
AREA_GEO*GENERE S M 0.000000000 B . . .
(2/4) Continua AREA_GEO*GENERE S F 0.000000000 B . . .

NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
xenofob
(GENERE) M F Tot.
ESERCIZIO 3 (AREA_GEO)

XENOFOB  misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15); N (n=50) (n=50) (n=100)
+3.08 -1.14 +0.97
ETA  età in anni compiuti (maggiorenni);
AREA_GEO  area geografica di residenza (N = nord, C = centro, S = sud e isole); C (n=50) (n=50) (n=100)
-0.50 -3.50 -2.00
GENERE  genere (M = maschio, F = femmina)
S (n=50) (n=50) (n=100)
+2.74 -0.67 +1.03

Tot. (n=150) (n=150) (n=300)


 L'ETÀ anagrafica ha un qualche effetto e di quale entità sulla XENOFOBIA? +1.78 -1.77 +0.002

proc reg data=esempio1;model xenofob = eta;quit;

ESEMPIO1 --- MODELLO LINEARE CLASSICO (dati BILANCIATI)

The REG Procedure


Model: MODEL1
Dependent Variable: XENOFOB
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 10522 10522 12109.9 <.0001


Error 298 258.91866 0.86885
Corrected Total 299 10781

Root MSE 0.93212 R-Square 0.9760


Dependent Mean 0.00233 Adj R-Sq 0.9759
Coeff Var 39948

Parameter Estimates

Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|

Intercept Intercept 1 -24.07964 0.22536 -106.85 <.0001


ETA ETA 1 0.45432 0.00413 110.05 <.0001

(3/4) Continua
ma... !???! controlliamo queste relazioni...
xenofob
XENOFOB  misura del grado di xenofobia ottenuta tramite TEST (-15 ≤ punteggio ≤+15);
ETA  età in anni compiuti (maggiorenni);
(GENERE) M F Tot.
ESERCIZIO 3 AREA_GEO  area geografica di residenza (N = nord, C = centro, S = sud e isole); (AREA_GEO)

GENERE  genere (M = maschio, F = femmina) N (n=50) (n=50) (n=100)


+3.08 -1.14 +0.97

C (n=50) (n=50) (n=100)


-0.50 -3.50 -2.00

S (n=50) (n=50) (n=100)


+2.74 -0.67 +1.03

Tot. (n=150) (n=150) (n=300)


ESEMPIO1 --- MODELLO LINEARE CLASSICO (dati BILANCIATI) +1.78 -1.77 +0.002
The GLM Procedure
Dependent Variable: XENOFOB
Sum of proc glm data=esempio1 order=data;
Source DF Squares Mean Square F Value Pr > F class area_geo genere;
Model 6 10527.78661 1754.63110 2032.83 <.0001 model xenofob = area_geo genere area_geo*genere eta
Error 293 252.90176 0.86315 / ss1 ss2 solution;
Corrected Total 299 10780.68837 quit;
R-Square Coeff Var Root MSE XENOFOB Mean
0.976541 39816.71 0.929056 0.002333

Source DF Type I SS Mean Square F Value Pr > F

AREA_GEO 2 600.992467 300.496233 348.14 <.0001


GENERE 1 943.768033 943.768033 1093.40 <.0001 ETA è correlata con AREA_GEO e GENERE
AREA_GEO*GENERE 2 19.312867 9.656433 11.19 <.0001 anche se i dati sono bilanciati, gli effetti NON
ETA 1 8963.713241 8963.713241 10384.9 <.0001 sono più tutti, fra loro, ortogonali!

Source DF Type II SS Mean Square F Value Pr > F

AREA_GEO 2 2.791187 1.395594 1.62 0.2003


GENERE 1 3.382057 3.382057 3.92 0.0487
AREA_GEO*GENERE 2 0.046458 0.023229 0.03 0.9734
ETA 1 8963.713241 8963.713241 10384.9 <.0001

Standard
Parameter Estimate Error t Value Pr > |t|

Intercept -23.88053537 B 0.26290883 -90.83 <.0001


AREA_GEO N -0.20444169 B 0.18582902 -1.10 0.2722
AREA_GEO C -0.19237842 B 0.18759991 -1.03 0.3060
AREA_GEO S 0.00000000 B . . .
GENERE M 0.23220405 B 0.18841953 1.23 0.2188
GENERE F 0.00000000 B . . .
AREA_GEO*GENERE N M 0.01430582 B 0.26289225 0.05 0.9566
AREA_GEO*GENERE N F 0.00000000 B . . .
AREA_GEO*GENERE C M -0.04421067 B 0.26280191 -0.17 0.8665
AREA_GEO*GENERE C F 0.00000000 B . . .
AREA_GEO*GENERE S M 0.00000000 B . . .
AREA_GEO*GENERE S F 0.00000000 B . . .
ETA 0.45096260 0.00442526 101.91 <.0001
(4/4) Fine
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
L'esempio si ispira all'analisi condotta in:
ESERCIZIO 4 Miceli, R., Roccato, M., & Rosato, R. (2004). Fear of Crime in Italy: Spread and Determinants. Environment and Behavior, 36, 776-789.
I dati qui utilizzati sono di fantasia...

Si dispone delle seguenti variabili rilevate tramite un'indagine che ha coinvolto un campione
\PSICOM4\ESELIN\ESE4.SAS statisticamente rappresentativo della popolazione residente in Italia (N = 1599)

MATRICE  \...\PAUCRI.XLS PAURA  misura della percezione del rischio criminalità;


MATRICE  \...\PAUCRI AREA_GEO  area geografica di residenza (NOVEST, NEST, CENTRO, SUD, ISOLE);
URBAN  indicatore di urbanizzazione della zona di abitazione (SI / NO)
DEGRADO  indicatore di degrado della zona di abitazione (SI / NO)

The MEANS Procedure


Analysis Variable : PAURA

N Mean Std Dev Minimum Maximum


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1599 0.0777361 20.0708094 -58.9000000 63.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

N
AREA_GEO Obs N Mean Std Dev Minimum Maximum N
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ AREA_GEO URBAN DEGRADO Obs N Mean Std Dev
CENTRO 327 327 -9.2681957 17.4831496 -58.9000000 32.9000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ISOLE 313 313 18.1683706 16.5858679 -28.6000000 63.0000000
CENTRO NO NO 80 80 -26.4812500 12.7326759
NEST 315 315 8.4231746 16.5785354 -33.2000000 50.6000000
NOVEST 327 327 -7.9128440 16.6761288 -52.4000000 33.8000000 SI 85 85 -4.2894118 11.7103640
SUD 317 317 -8.1940063 16.4773184 -44.3000000 37.7000000 SI NO 75 75 -16.2160000 10.7902489
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ SI 87 87 7.6850575 11.9433696
ISOLE NO NO 78 78 3.0692308 11.4417248
SI 77 77 22.8454545 11.7611486
SI NO 80 80 12.1487500 10.5450810
N SI 78 78 34.8243590 12.7135288
URBAN Obs N Mean Std Dev Minimum Maximum NEST NO NO 74 74 -7.0540541 10.4491618
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ SI 82 82 13.6695122 12.0906319
NO 808 808 -5.5628713 19.2176823 -58.9000000 52.4000000 SI NO 79 79 2.2886076 12.2593448
SI 791 791 5.8395702 19.2822333 -42.3000000 63.0000000 SI 80 80 23.4200000 13.2261096
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ NOVEST NO NO 82 82 -23.9024390 10.9635420
SI 85 85 -4.3152941 12.4181368
SI NO 80 80 -12.1337500 11.5193941
SI 80 80 8.8750000 12.0384248
N
SUD NO NO 83 83 -24.4891566 10.7520504
DEGRADO Obs N Mean Std Dev Minimum Maximum SI 82 82 -3.0451220 10.8777852
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ SI NO 75 75 -11.5973333 11.1473300
NO 786 786 -10.5568702 16.8254360 -58.9000000 44.4000000 SI 77 77 7.2025974 13.6690197
SI 813 813 10.3591636 17.4293572 -40.4000000 63.0000000 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

(1/4) Continua
proc glm data=esempio3 order=data;class area_geo urban degrado;
ESERCIZIO 4 model paura = area_geo urban degrado
area_geo*urban area_geo*degrado urban*degrado area_geo*urban*degrado
/ solution;quit;

--- ESEMPIO3 ---

The GLM Procedure

Dependent Variable: PAURA

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 19 424265.8270 22329.7804 160.66 <.0001

Error 1579 219468.3204 138.9920

Corrected Total 1598 643734.1474

R-Square Coeff Var Root MSE PAURA Mean

0.659070 15166.04 11.78949 0.077736

Source DF Type I SS Mean Square F Value Pr > F

AREA_GEO 4 195505.1558 48876.2890 351.65 <.0001


URBAN 1 48943.8066 48943.8066 352.13 <.0001
DEGRADO 1 178589.1024 178589.1024 1284.89 <.0001
AREA_GEO*URBAN 4 389.9737 97.4934 0.70 0.5910
AREA_GEO*DEGRADO 4 431.0455 107.7614 0.78 0.5412
URBAN*DEGRADO 1 58.3180 58.3180 0.42 0.5172
AREA_G*URBAN*DEGRADO 4 348.4249 87.1062 0.63 0.6435
Si può stimare il modello con
i soli effetti diretti....
Source DF Type III SS Mean Square F Value Pr > F

AREA_GEO 4 196309.0436 49077.2609 353.09 <.0001


URBAN 1 48713.0068 48713.0068 350.47 <.0001
DEGRADO 1 178053.6483 178053.6483 1281.04 <.0001
AREA_GEO*URBAN 4 387.6251 96.9063 0.70 0.5939
AREA_GEO*DEGRADO 4 440.1429 110.0357 0.79 0.5305
(2/4) Continua
URBAN*DEGRADO 1 57.4354 57.4354 0.41 0.5204
AREA_G*URBAN*DEGRADO 4 348.4249 87.1062 0.63 0.6435
proc glm data=esempio3 order=data;class area_geo urban degrado;
ESERCIZIO 4 model paura = area_geo urban degrado / ss3 solution;quit;

--- ESEMPIO3 ---

The GLM Procedure

Dependent Variable: PAURA PAURA

Sum of L'effetto "Risiedere nel NORD-EST"


Source DF Squares Mean Square F Value Pr > F
DIMINUISCE la percezione del rischio
Model 6 423038.0648 70506.3441 508.60 <.0001 criminalità !???! ....
.... rispetto a "risisedere nelle ISOLE in
Error 1592 220696.0826 138.6282
un ambiente URBANO e in DEGRADO !!!
Corrected Total 1598 643734.1474

R-Square Coeff Var Root MSE PAURA Mean

0.657163 15146.18 11.77405 0.077736

Source DF Type III SS Mean Square F Value Pr > F

AREA_GEO 4 196152.1581 49038.0395 353.74 <.0001


URBAN 1 49036.9520 49036.9520 353.73 <.0001
DEGRADO 1 178589.1024 178589.1024 1288.26 <.0001

Standard E' forse più utile una diversa


Parameter Estimate Error t Value Pr > |t|
parametrizzazione!
Intercept 34.32796924 B 0.78517819 43.72 <.0001
AREA_GEO NOVEST -26.10787328 B 0.93110407 -28.04 <.0001
AREA_GEO NEST -10.14825370 B 0.93974326 -10.80 <.0001
AREA_GEO CENTRO -27.98361542 B 0.93123593 -30.05 <.0001
AREA_GEO SUD -26.21681136 B 0.93832326 -27.94 <.0001
AREA_GEO ISOLE 0.00000000 B . . .
URBAN NO -11.07826750 B 0.58902794 -18.81 <.0001
URBAN SI 0.00000000 B . . .
DEGRADO NO -21.14444879 B 0.58910766 -35.89 <.0001
DEGRADO SI 0.00000000 B . . .

NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
(3/4) Continua
followed by the letter 'B' are not uniquely estimable.
ESERCIZIO 4 proc catmod data=esempio3 order=data;response mean;
model paura = area_geo urban degrado;
quit;

--- ESEMPIO3 ---

The CATMOD Procedure

Data Summary

Response PAURA Response Levels 701


Weight Variable None Populations 20
Data Set ESEMPIO3 Total Frequency 1599
Frequency Missing 0 Observations 1599

Analysis of Variance

Source DF Chi-Square Pr > ChiSq


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 1 0.26 0.6123
AREA_GEO 4 1469.28 <.0001
URBAN 1 359.38 <.0001
DEGRADO 1 1323.40 <.0001

Residual 13 9.16 0.7611 ... ora il riferimento è la media


generale (nazionale)
Analysis of Weighted Least Squares Estimates

Standard Chi-
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 0.1474 0.2909 0.26 0.6123
AREA_GEO NOVEST -7.9945 0.5764 192.37 <.0001
NEST 8.0327 0.5926 183.77 <.0001
CENTRO -9.9640 0.5799 295.20 <.0001
SUD -8.0797 0.5740 198.17 <.0001
URBAN NO -5.5228 0.2913 359.38 <.0001
DEGRADO NO -10.5886 0.2911 1323.40 <.0001 (4/4) Fine
UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA
del prof. Renato Miceli (a.a. 2011-2012) UNIVERSITÉ DE LA VALLÉE D'AOSTE
Per il Corso di Laurea Magistrale in Psicologia prof. Renato Miceli

UNIVERSITA' DEGLI STUDI DI TORINO


Gennaio 2012 DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati

Modello Lineare Classico


Dettagli

o Coefficienti di regressione semplice e multipla

o Interazioni e scostamenti dall'additività


DETTAGLI 1 per i dati
vedi il file: R_BIVAR.XLS
in SAS: R_BIVAR.SAS
ESEMPIO (coefficienti di regressione multipla  regressione semplice): ottenere i coefficienti 1 e 2 utilizzando solo modelli BIVARIATI...

Pearson Correlation Coefficients, N = 100


Variable N Mean Std Dev Sum Minimum Maximum
y x1 x2
y 100 1.96000 9.91657 196.00000 -20.00000 28.00000
x1 100 -2.97000 3.96347 -297.00000 -12.00000 6.00000
I dati...
y 1.00000 0.58699 0.70735
x2 100 0.51000 2.02729 51.00000 -5.00000 6.00000 x1 0.58699 1.00000 0.76847
x2 0.70735 0.76847 1.00000

Il modello... yˆ i  ˆ0  ˆ1 x1i  ˆ1 x 2i

The REG Procedure


La stima...
Dependent Variable: y
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 4965.58398 2482.79199 49.47 <.0001
Error 97 4868.25602 50.18821
Corrected Total 99 9833.84000
ˆ1
Root MSE 7.08436 R-Square 0.5049
Dependent Mean
Coeff Var
1.96000
361.44712
Adj R-Sq 0.4947 ˆ2
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|

Intercept Intercept 1 1.18663 1.27391 0.93 0.3539


x1 x1 1 0.26531 0.27933 0.95 0.3446
x2 x2 1 3.06144 0.54611 5.61 <.0001
DETTAGLI 1 ottenere il coefficiente 1 utilizzando solo modelli BIVARIATI... ˆ1  0.26531
Dependent Variable: y
si ricava la parte di y Analysis of Variance
NON spiegata da x2;
Source DF
Sum of
Squares
Mean
Square F Value Pr > F
RESyx 2i  yi  yˆ i
ovvero:
Model 1 4920.30892 4920.30892 98.14 <.0001
il RESIDUO del modello bivariato...
Error 98 4913.53108 50.13807
Corrected Total 99 9833.84000

Root MSE 7.08082 R-Square 0.5003


Dependent Mean 1.96000 Adj R-Sq 0.4952
Coeff Var 361.26654
Parameter Estimates RESyx 2i  yi  0.19538  3.46004  x 2i 
yˆ i  ˆ 0  ˆ 2 x 2i Variable Label DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Intercept Intercept 1 0.19538 0.73014 0.27 0.7896
x2 x2 1 3.46004 0.34928 9.91 <.0001

Dependent Variable: x1
Analysis of Variance
si ricava la parte di x1 Sum of Mean
NON spiegata da x2; Source DF Squares Square F Value Pr > F RESx1 x 2i  x1i  xˆ 1i
ovvero: Model 1 927.68486 927.68486 141.34 <.0001
il RESIDUO del modello bivariato... Error 98 643.22514 6.56352
Corrected Total 99 1570.91000

Root MSE 2.56194 R-Square 0.5905


Dependent Mean -2.97000 Adj R-Sq 0.5864
Coeff Var -86.26051
Parameter Estimates
xˆ 1i  ˆ0  ˆ2 x 2i Parameter Standard
Variable
Intercept
Label
Intercept
DF
1
Estimate
-3.73622
Error
0.26418
t Value
-14.14
Pr > |t|
<.0001
RESx1 x 2i  x1i   3.73622  1.50240  x 2i 
x2 x2 1 1.50240 0.12637 11.89 <.0001

Dependent Variable: resyx2


Analysis of Variance
si stima il coefficiente 1 Sum of Mean
del modello BIVARIATO... Source DF Squares Square F Value Pr > F
Model 1 45.27506 45.27506 0.91 0.3421
Error 98 4868.25602 49.67608
Corrected Total 99 4913.53108
ˆ1  ˆ1  0.26531
Root MSE 7.04813 R-Square 0.0092
Dependent Mean 3.9968E-17 Adj R-Sq -0.0009
Coeff Var 1.763441E19
Parameter Estimates
Parameter Standard
RESyx 2i  ˆ0  ˆ1 RESx1 x 2i Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 -4.4273E-17 0.70481 -0.00 1.0000
resx1x2 Residual 1 0.26531 0.27790 0.95 0.3421
DETTAGLI 1
ottenere il coefficiente 2 utilizzando solo modelli BIVARIATI... ˆ2  3.06144
Dependent Variable: y
Analysis of Variance
si ricava la parte di y Sum of Mean
NON spiegata da x1; Source
Model
DF
1
Squares
3388.35624
Square
3388.35624
F Value
51.52
Pr > F
<.0001
RESyx1i  yi  yˆ i
ovvero:
Error 98 6445.48376 65.77024
il RESIDUO del modello bivariato...
Corrected Total 99 9833.84000

Root MSE 8.10989 R-Square 0.3446


Dependent Mean 1.96000 Adj R-Sq 0.3379
Coeff Var 413.76967
Parameter Estimates
Parameter Standard RESyx1i  yi  6.32190  1.46865  x1i 
yˆ i  ˆ 0  ˆ1 x1i Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 6.32190 1.01342 6.24 <.0001
x1 x1 1 1.46865 0.20462 7.18 <.0001

Dependent Variable: x2
Analysis of Variance
Sum of Mean
si ricava la parte di x2
NON spiegata da x1;
Source
Model
DF
1
Squares
242.70595
Square
242.70595
F Value
141.34
Pr > F
<.0001
RESx 2 x1i  x 2i  xˆ 2i
ovvero: Error 98 168.28405 1.71718
il RESIDUO del modello bivariato... Corrected Total 99 410.99000

Root MSE 1.31041 R-Square 0.5905


Dependent Mean 0.51000 Adj R-Sq 0.5864
Coeff Var 256.94387
Parameter Estimates
Parameter Standard
xˆ 2i  ˆ0  ˆ1 x1i Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 1.67740 0.16375 10.24 <.0001 RESx 2 x1i  x 2i  1.67740  0.39307  x1i 
x1 x1 1 0.39307 0.03306 11.89 <.0001

Dependent Variable: resyx1


Analysis of Variance
Sum of Mean
si stima il coefficiente 1 Source DF Squares Square F Value Pr > F
del modello BIVARIATO...
Model 1 1577.22774 1577.22774 31.75 <.0001
Error 98 4868.25602 49.67608
Corrected Total 99 6445.48376
ˆ1  ˆ2  3.06144
Root MSE 7.04813 R-Square 0.2447
Dependent Mean -1.9096E-16 Adj R-Sq 0.2370
Coeff Var -3.69092E18
Parameter Estimates
Parameter Standard
RESyx1i  ˆ0  ˆ1 RESx 2 x1i Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 1.04744E-16 0.70481 0.00 1.0000
resx2x1 Residual 1 3.06144 0.54332 5.63 <.0001
vedi file:
... Illustrazione... (INTERAZIONE  SCARTI ADDTIIVITÀ...)
DOPPIAC0.SAS; DOPPIAC1.SAS; DOPPIAC2.SAS
DETTAGLI 2

Obs y a b SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 1 (Matrice ANOVA non additiva)


1 72.2190 1 1
2 72.7189 1 1
3 72.9873 1 1  0    77.0000
4 74.0987 1 1
 A   
1    19.0000
5 72.9760 1 1
6 57.4392 1 2
7 56.3137 1 2 Parametri stimati ("angolo")  2A    32.0000
8 58.1337 1 2
 B  
1    8.0000
9 59.1829 1 2
10 58.9306 1 2
11 81.8891 2 1  AB   23.0000
12 80.6461 2 1  11AB   
 21   45.0000
13 83.5230 2 1 a\b 1 2 +
14 82.7528 2 1
15 81.1890 2 1 1 73.0 58.0 65.5
16 45.5143 2 2
17 43.3772 2 2 2 82.0 45.0 63.5
18 45.4358 2 2
19 46.1368 2 2 3 69.0 77.0 73.0
20 44.5359 2 2  0   67.3333
21 68.2378 3 1 + 74.7 60.0 67.3  A   
1    1.8333
22 70.0242 3 1
23 71.7465 3 1
24 68.0865 3 1  2A    3.8333
25 66.9050 3 1
 B  
1    7.3333
26 77.5785 3 2
27 75.9276 3 2 Parametri stimati ("centrale")
28 77.3366 3 2  AB    0.1667 
29 76.7860 3 2
 11AB   
 21    11.1667 
30 77.3712 3 2

  ~
U U M  M  M

0.2 -0.2 73.0 58.0 74.7 60.0 65.5 65.5 67.3 67.3
11.2 -11.2 82.0 45.0 74.7 60.0 63.5 63.5 67.3 67.3

-11.3 11.3 69.0 77.0 74.7 60.0 73.0 73.0 67.3 67.3
3X2 NON ADDITIVA

The GLM Procedure DETTAGLI 2


Dependent Variable: y

Sum of (continua...)
Source DF Squares Mean Square F Value Pr > F SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 1 (Matrice ANOVA non additiva)
OUTPUT SAS
Model 5 4646.666667 929.333333 665.76 <.0001

Error 24 33.501397 1.395892  0    77.0000


 A   
1    19.0000
Corrected Total 29 4680.168064

Parametri stimati ("angolo")  2A    32.0000


R-Square Coeff Var Root MSE y Mean  B  
0.992842 1.754671 1.181479 67.33333
1    8.0000
 AB   23.0000
 11AB   
Source DF Type I SS Mean Square F Value Pr > F
a\b 1 2 +  21   45.0000
a 2 501.666667 250.833333 179.69 <.0001
1 73.0 58.0 65.5
b 1 1613.333333 1613.333333 1155.77 <.0001
a*b 2 2531.666667 1265.833333 906.83 <.0001
2 82.0 45.0 63.5

3 69.0 77.0 73.0


Source DF Type III SS Mean Square F Value Pr > F

a 2 501.666667 250.833333 179.69 <.0001


+ 74.7 60.0 67.3
b 1 1613.333333 1613.333333 1155.77 <.0001
a*b 2 2531.666667 1265.833333 906.83 <.0001

Standard
Parameter Estimate Error t Value Pr > |t|

Intercept 77.00000000 B 0.52837327 145.73 <.0001


a 1 -19.00000000 B 0.74723264 -25.43 <.0001
a 2 -32.00000000 B 0.74723264 -42.82 <.0001
a 3 0.00000000 B . . .
b 1 -8.00000000 B 0.74723264 -10.71 <.0001
b 2 0.00000000 B . . .
a*b 1 1 23.00000000 B 1.05674654 21.76 <.0001
a*b 1 2 0.00000000 B . . .
a*b 2 1 45.00000000 B 1.05674654 42.58 <.0001
a*b 2 2 0.00000000 B . . .
a*b 3 1 0.00000000 B . . .
a*b 3 2 0.00000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
(continua...) SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 1 (Matrice ANOVA non additiva)
OUTPUT SAS
DETTAGLI 2

3X2 NON ADDITIVA


 0   67.3333
 A   
1    1.8333
The CATMOD Procedure

Response Functions and Design Matrix Parametri stimati ("centrale")  2A    3.8333


 B  
Sample
Response
Function 1 2
Design Matrix
3 4 5 6
1    7.3333
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
 AB    0.1667 
1 73.00000 1 1 0 1 1 0  11AB   
2 58.00000 1 1 0 -1 -1 0 a\b 1 2 +  21    11.1667 
3 82.00000 1 0 1 1 0 1
4 45.00000 1 0 1 -1 0 -1 1 73.0 58.0 65.5
5 69.00000 1 -1 -1 1 -1 -1
2 82.0 45.0 63.5
6 77.00000 1 -1 -1 -1 1 1

3 69.0 77.0 73.0


Analysis of Variance
+ 74.7 60.0 67.3
Source DF Chi-Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 1 121797.9 <.0001
a 2 364.51 <.0001
b 1 1444.72 <.0001
a*b 2 1978.05 <.0001

  ~

Residual 0 . .
U U M  M M
Analysis of Weighted Least Squares Estimates 0.2 -0.2 73.0 58.0 74.7 60.0 65.5 65.5 67.3 67.3
11.2 -11.2 82.0 45.0 74.7 60.0 63.5 63.5 67.3 67.3
Standard Chi-
-11.3 11.3 69.0 77.0 74.7 60.0 73.0 73.0 67.3 67.3
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 67.3333 0.1929 121797.9 <.0001
a 1 -1.8333 0.2484 54.49 <.0001
2 -3.8333 0.2655 208.41 <.0001
b 1 7.3333 0.1929 1444.72 <.0001
a*b 1 1 0.1667 0.2484 0.45 0.5022
2 1 11.1667 0.2655 1768.53 <.0001
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 2 (Matrice ANOVA sostanzialmente additiva) DETTAGLI 2

Obs y a b

1 71.2190 1 1
2 71.7189 1 1  0   63.0000
3 71.9873 1 1  A   
4
5
73.0987
71.9760
1
1
1
1 1    2.0000
6 64.4392 1 2 Parametri stimati ("angolo")  2A    6.0000
7 63.3137 1 2  B  
8
9
65.1337
66.1829
1
1
2
2
1    5.0000
10 65.9306 1 2  AB    2.0000
11 63.8891 2 1  11AB   
 21    2.0000
12 62.6461 2 1 a\b 1 2 +
13 65.5230 2 1
14 64.7528 2 1 1 72.0 65.0 68.5
15 63.1890 2 1
16 57.5143 2 2 2 64.0 57.0 60.5
17 55.3772 2 2
18 57.4358 2 2 3 68.0 63.0 65.5
19 58.1368 2 2  0   64.8333
20 56.5359 2 2 + 68.0 61.7 64.8  A   
21
22
67.2378
69.0242
3
3
1
1 1    3.6667 
23 70.7465 3 1  2A    4.3333
24 67.0865 3 1  B  
25
26
65.9050
63.5785
3
3
1
2 Parametri stimati ("centrale") 1    3.1667 
27 61.9276 3 2  AB    0.3333
28 63.3366 3 2  11AB   
 21    0.3333
29 62.7860 3 2
30 63.3712 3 2

  ~
U U M  M  M
0.3 -0.3 72.0 65.0 68.0 61.7 68.5 68.5 64.8 64.8
0.3 -0.3 64.0 57.0 68.0 61.7 60.5 60.5 64.8 64.8

-0.7 0.7 68.0 63.0 68.0 61.7 65.5 65.5 64.8 64.8
3x2 SOSTANZIALMENTE ADDITIVA

The GLM Procedure DETTAGLI 2


Dependent Variable: y

Sum of (continua...)
Source DF Squares Mean Square F Value Pr > F SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 2 (Matrice ANOVA sostanzialmente additiva)
OUTPUT SAS
Model 5 634.1666667 126.8333333 90.86 <.0001

Error 24 33.5013972 1.3958916

Corrected Total 29 667.6680639

 0   63.0000
 A   
1    2.0000
R-Square Coeff Var Root MSE y Mean

0.949823 1.822332 1.181479 64.83333


Parametri stimati ("angolo")  2A    6.0000
 B  
Source DF Type I SS Mean Square F Value Pr > F 1    5.0000
a\b 1 2 +  AB    2.0000
a 2 326.6666667 163.3333333 117.01 <.0001
 11AB   
 21    2.0000
b 1 300.8333333 300.8333333 215.51 <.0001
a*b 2 6.6666667 3.3333333 2.39 0.1133 1 72.0 65.0 68.5
2 64.0 57.0 60.5
Source DF Type III SS Mean Square F Value Pr > F
3 68.0 63.0 65.5
a 2 326.6666667 163.3333333 117.01 <.0001
b 1 300.8333333 300.8333333 215.51 <.0001 + 68.0 61.7 64.8
a*b 2 6.6666667 3.3333333 2.39 0.1133

Standard
Parameter Estimate Error t Value Pr > |t|

Intercept 63.00000000 B 0.52837327 119.23 <.0001


a 1 2.00000000 B 0.74723264 2.68 0.0132
a 2 -6.00000000 B 0.74723264 -8.03 <.0001
a 3 0.00000000 B . . .
b 1 5.00000000 B 0.74723264 6.69 <.0001
b 2 0.00000000 B . . .
a*b 1 1 2.00000000 B 1.05674654 1.89 0.0705
a*b 1 2 0.00000000 B . . .
a*b 2 1 2.00000000 B 1.05674654 1.89 0.0705
a*b 2 2 0.00000000 B . . .
a*b 3 1 0.00000000 B . . .
a*b 3 2 0.00000000 B . . .

NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
(continua...)
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 2 (Matrice ANOVA sostanzialmente additiva)
OUTPUT SAS DETTAGLI 2

3x2 ADDITIVA

The CATMOD Procedure


 0   64.8333
Response Functions and Design Matrix  A   
1    3.6667 
Response Design Matrix Parametri stimati ("centrale")  2A    4.3333
Sample Function 1 2 3 4 5 6  B  
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1    3.1667 
1 72.00000 1 1 0 1 1 0
a\b 1 2 +  AB    0.3333
2 65.00000 1 1 0 -1 -1 0
 11AB   
3
4
64.00000
57.00000
1
1
0
0
1
1
1
-1
0
0
1
-1
1 72.0 65.0 68.5  21    0.3333
5 68.00000 1 -1 -1 1 -1 -1 2 64.0 57.0 60.5
6 63.00000 1 -1 -1 -1 1 1
3 68.0 63.0 65.5

Analysis of Variance
+ 68.0 61.7 64.8

Source DF Chi-Square Pr > ChiSq


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 1 112921.4 <.0001
  ~
a 2 370.19 <.0001 U U M  M  M
b 1 269.39 <.0001
0.3 -0.3 72.0 65.0 68.0 61.7 68.5 68.5 64.8 64.8
a*b 2 4.90 0.0863
0.3 -0.3 64.0 57.0 68.0 61.7 60.5 60.5 64.8 64.8
Residual 0 . . -0.7 0.7 68.0 63.0 68.0 61.7 65.5 65.5 64.8 64.8

Analysis of Weighted Least Squares Estimates

Standard Chi-
Parameter Estimate Error Square Pr > ChiSq
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 64.8333 0.1929 112921.4 <.0001
a 1 3.6667 0.2484 217.96 <.0001
2 -4.3333 0.2655 266.32 <.0001
b 1 3.1667 0.1929 269.39 <.0001
a*b 1 1 0.3333 0.2484 1.80 0.1796
2 1 0.3333 0.2655 1.58 0.2094
DETTAGLI 2
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 3 (Matrice ANOVA strettamente additiva)

Obs y a b

1 74.2190 1 1
2 74.7189 1 1
3 74.9873 1 1  0   57.0000
4 76.0987 1 1  A   
5
6
74.9760
62.4392
1
1
1
2 1    6.0000
7 61.3137 1 2 Parametri stimati ("angolo")  2A    2.0000
8 63.1337 1 2  B  
9
10
64.1829
63.9306
1
1
2
2 1    12.0000
11 66.8891 2 1  AB   0.0000
12 65.6461 2 1  11AB   
 21   0.0000
13 68.5230 2 1 a\b 1 2 +
14 67.7528 2 1
15 66.1890 2 1 1 75.0 63.0 69.0
16 55.5143 2 2
17 53.3772 2 2 2 67.0 55.0 61.0
18 55.4358 2 2
19 56.1368 2 2 3 69.0 57.0 63.0
20 54.5359 2 2  0   64.3333
21 68.2378 3 1 + 70.3 58.3 64.3  A   
1    4.6667 
22 70.0242 3 1
23 71.7465 3 1
24 68.0865 3 1  2A    3.3333
25 66.9050 3 1  B  
26
27
57.5785
55.9276
3
3
2
2 Parametri stimati ("centrale") 1    6.0000
28 57.3366 3 2  AB   0.0000
29 56.7860 3 2  11AB   
30 57.3712 3 2
 21   0.0000

  ~
U U M  M  M
0.0 0.0 75.0 63.0 70.3 58.3 69.0 69.0 64.3 64.3
0.0 0.0 67.0 55.0 70.3 58.3 61.0 61.0 64.3 64.3
0.0 0.0 69.0 57.0 70.3 58.3 63.0 63.0 64.3 64.3
3x2 STRETTAMENTE ADDITIVA
DETTAGLI 2
The GLM Procedure

Dependent Variable: y

Sum of (continua...)
Source DF Squares Mean Square F Value Pr > F SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 3 (Matrice ANOVA strettamente additiva)
OUTPUT SAS
Model 5 1426.666667 285.333333 204.41 <.0001

Error 24 33.501397 1.395892

Corrected Total 29 1460.168064

 0   57.0000
R-Square Coeff Var Root MSE y Mean  A   
1    6.0000
0.977056 1.836495 1.181479 64.33333
Parametri stimati ("angolo")  2A    2.0000
 B  
Source DF Type I SS Mean Square F Value Pr > F 1    12.0000
a 2 346.666667 173.333333 124.17 <.0001
 AB   0.0000
b 1 1080.000000 1080.000000 773.70 <.0001  11AB   
a*b 2 0.000000 0.000000 0.00 1.0000
a\b 1 2 +
 21   0.0000
1 75.0 63.0 69.0
Source DF Type III SS Mean Square F Value Pr > F
2 67.0 55.0 61.0
a 2 346.666667 173.333333 124.17 <.0001
b 1 1080.000000 1080.000000 773.70 <.0001
3 69.0 57.0 63.0
a*b 2 0.000000 0.000000 0.00 1.0000
+ 70.3 58.3 64.3

Standard
Parameter Estimate Error t Value Pr > |t|

Intercept 57.00000000 B 0.52837327 107.88 <.0001


a 1 6.00000000 B 0.74723264 8.03 <.0001
a 2 -2.00000000 B 0.74723264 -2.68 0.0132
a 3 0.00000000 B . . .
b 1 12.00000000 B 0.74723264 16.06 <.0001
b 2 0.00000000 B . . .
a*b 1 1 -0.00000000 B 1.05674654 -0.00 1.0000
a*b 1 2 0.00000000 B . . .
a*b 2 1 -0.00000000 B 1.05674654 -0.00 1.0000
a*b 2 2 0.00000000 B . . .
a*b 3 1 0.00000000 B . . .
a*b 3 2 0.00000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
(continua...) DETTAGLI 2
SCOSTAMENTI DALL'ADDITIVITA': ESEMPIO 3 (Matrice ANOVA strettamente additiva)
OUTPUT SAS

3x2 STRETTAMENTE ADDITIVA

The CATMOD Procedure

Response Functions and Design Matrix

Response Design Matrix


Sample Function 1 2 3 4 5 6
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ  0   64.3333
1 75.00000 1 1 0 1 1 0  A   
2 63.00000 1 1 0 -1 -1 0 1    4.6667 
3 67.00000 1 0 1 1 0 1
Parametri stimati ("centrale")  2A    3.3333
4 55.00000 1 0 1 -1 0 -1
 B  
1    6.0000
5 69.00000 1 -1 -1 1 -1 -1
6 57.00000 1 -1 -1 -1 1 1
 AB   0.0000
 11AB   
Analysis of Variance a\b 1 2 +  21   0.0000
Source DF Chi-Square Pr > ChiSq
1 75.0 63.0 69.0
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
2 67.0 55.0 61.0
Intercept 1 111186.4 <.0001
a 2 402.86 <.0001 3 69.0 57.0 63.0
b 1 967.12 <.0001
a*b 2 0.00 1.0000 + 70.3 58.3 64.3
Residual 0 . .

  ~
U U M  M  M
Analysis of Weighted Least Squares Estimates
0.0 0.0 75.0 63.0 70.3 58.3 69.0 69.0 64.3 64.3
Standard Chi- 0.0 0.0 67.0 55.0 70.3 58.3 61.0 61.0 64.3 64.3
Parameter Estimate Error Square Pr > ChiSq
0.0 0.0 69.0 57.0 70.3 58.3 63.0 63.0 64.3 64.3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 64.3333 0.1929 111186.4 <.0001
a 1 4.6667 0.2484 353.05 <.0001
2 -3.3333 0.2655 157.59 <.0001
b 1 6.0000 0.1929 967.12 <.0001
a*b 1 1 1.37E-14 0.2484 0.00 1.0000
2 1 6.98E-15 0.2655 0.00 1.0000
UNIVERSITÀ DELLA VALLE D'AOSTA
Lezioni di METODI AVANZATI PER LA RICERCA PSICOLOGICA UNIVERSITÉ DE LA VALLÉE D'AOSTE
Gennaio
del prof. Renato Miceli (a.a. 2011-2012)
2012 prof. Renato Miceli
Per il Corso di Laurea Magistrale in Psicologia
UNIVERSITA' DEGLI STUDI DI TORINO
DIPARTIMENTO DI PSICOLOGIA
Laboratorio di Psicometria e Analisi dei Dati

Modelli di probabilità
Indice degli argomenti

Regressione logistica

Misurazione di tratti mentali (Item Response Theory)


il contributo di G. Rasch
Misurare...

Variabili manifeste e latenti


da osservazioni qualitative a quantità (misure)

Modelli e confrontabilità

Il contributo di G. Rasch

Item response Theory (linee di evoluzione)

Esempi e applicazioni
Confrontabilità... (in un test)

Confrontabilità... (fra due o più test)

Realizzazione di “banche di domande”

Somministrazione di test adattivi


Modelli di probabilità: il modello LOGIT (regressione logistica)

Questa assunzione è particolarmente rilevante per le


Una delle assunzioni maggiormente vincolati del modello di
ripercussioni che ha sulla componente stocastica del
regressione lineare riguarda la forma della distribuzione di
modello (errore). Infatti essa consente di assumere a
probabilità alla quale (si può ritenere) che appartengano i valori
sua volta che (teorema di Gauss-Markov) :
(empiricamente rilevati) della variabile dipendente: i valori della y
- la media degli i è uguale a zero: E( i) = 0
devono poter essere pensati come “casi” estratti da una
- tra gli  i vi è assenza di autocorrelazione seriale
distribuzione normale.
- tra gli  i vi è omoschedasticità (varianza costante)

E' comodo esprimere K


E  yi | X   ~
K
yi   0    k x k i
... come valore atteso di y
il generico modello yi   0    k xk i   i (qualora conoscessimo i
lineare ... "veri" parametri  )
k 1 k 1

Se y può assumere soltanto due valori (dummy) è opportuno riflettere attentamente su almeno tre ordini di conseguenze:

1)  significato del valore atteso di y;

2)  violazione dell'assunto di omoschedasticità;

3)  difficoltà interpretative (e/o vincoli) dei parametri

1)  Se y può assumere soltanto i valori 0 e 1, il valore atteso di y [E(yi)] diventa la probabilità che y sia uguale a 1 [P(yi=1)]:
~
yi 1 P( yi 1)  0 P( yi 0)  P( yi 1) K

K yi   0    k x k i   i
~y   
Si potrà allora i 0 
k 1
k x ki pur restando valida la k 1

indifferentemente generica specificazione oppure


yi  ~
yi   i
K
scrivere: P y  1    0  
k 1
k x ki lineare
2  Se y può assumere soltanto i valori 0 e 1, anche i può assumere soltanto due valori (per ogni dato valore delle x).
Si tratta allora di controllare se, anche in questo caso, si può assumere che:
(a)
E ( i )  0 [media degli errori = 0 ===> stime corrette]
e che:
V ( i )  E ( i2 )   2  costante [omoschedasticità ===> stime efficienti (migliori)
varianza campionaria minima]

E’ possibile dimostrare che:

(a) la prima assunzione può essere mantenuta;

(b) viene invece a mancare la seconda; infatti la varianza degli  i varia sistematicamente al variare dei valori delle (xk)

Dimostrazioni (per comodità il parametro 0 viene compreso nelle sommatorie):

(a) K K
Se yi  0 allora; 0  k xki   i da cui  i  k xk K

k 0 k 0
i
dato che: P y1  k xki e che P y0 1 P y1
K K k0
Se yi  1 allora; 1  k xki   i da cui  i  1 k xk i
k 0 k 0
 K   K 
si ha: E i   P y0   k xki   P y1  1  k xki 
che può essere
riscritta come:
  
E  i    1  P y 1  P y 1  P y 1  1  P y 1  0 
 k 0   k 0 

(b) 2 2
   
    
K K
V (  i )  E (  )  P( y  0 )   k x k i   P( y  1 )   k x ki  2 2
i
2
   1   1  P( y  1 )  P( y  1 )  P( y  1 )  1  P( y  1 ) 
 k 0   k 0 

 P( y  1 )   P
2
( y 1)  3

 P( y  1 )  2  P( y  1 )   P
2
( y 1 ) 
3

 P( y  1 )  P( y  1 ) 
2
 
 P( y  1 )  1  P( y  1 ) 
 K   K

    k x ki   1   k x ki  (... gli i dipendono dai valori delle x, quindi eteroschedasticità ... WLS ???)
 k 0   k 0 
3)  Per comprendere le difficoltà interpretative cui si va incontro utilizzando il modello lineare classico, quando y è dicotomica,
è utile considerare un semplice modello bivariato

P yi 1   0  1 x1i   i Pˆ yi 1  ˆ0  ˆ1 x1i


Ovviamente la probabilità varia tra 0 e 1 e questa caratteristica deve essere rispettata dai valori riprodotti dal modello.

(a)  così facendo si è costretti ad accettare vincoli sui parametri ...


Se indichiamo i valori minimo e massimo della variabile x1 con [x1min, x1max] e stabiliamo che ˆ1  0 è facile vedere come il
modello lineare classico imponga dei vincoli che, oltre ad essere rigidi e arbitrari, sono sostanzialmente inaccettabili

Il precedente modello lineare classico


impone infatti:
   
0  ˆ0 ˆ1xmin  ˆ0 ˆ1xmax  1 e anche:   
0  ˆ0 ˆ1xmin  ˆ0 ˆ1xmax  1
Se x1 (per es. la propensione all’acquisto del bene A, rilevata tramite opportuna scala) facesse registrare valori compresi tra -100 e +100
[xmin = -100; xmax = +100] il modello classico lineare sarebbe soggetto ai seguenti vincoli:

 
0  ˆ0 100ˆ1  ˆ0 100ˆ1  1  Si supponga (per comodità) che i vincoli siano esatti: ˆ 100ˆ   0; ˆ 100ˆ  1
0 1 0 1

ˆ0 100ˆ1  0  ˆ0 100ˆ1  ˆ0  0.5


si può scrivere e risolvere il semplice sistema di due equazioni in due incognite: ˆ ˆ  ˆ ˆ ˆ
0 1001 1 1001 1001 1 1  0.005

Per ogni unità di incremento nella propensione all’acquisto del bene A, la probabilità di acquistarlo può crescer al massimo di 0.005 !!!

Seguendo lo stesso ragionamento è facile constatare che, se la variabile x contemplasse valori in un range assai più ampio (per
es. 0  100.000), si sarebbe vincolati ad incrementi ancora più piccoli (per es. 1 < 0.00001)
(b)  così facendo si è costretti ad assumere come costanti gli effetti marginali delle variazioni in x...

Esempio: si vuole spiegare la propensione all’acquisto P(y=1) di un bene molto costoso (per es. un'automobile), tramite il reddito degli
individui espresso in euro/anno (x). Per un incremento in x (per esempio) di 25.000 €, la specificazione lineare classica implica che
l'effetto sul comportamento di acquisto (y) è identica sia quando la base di partenza è pari a 0, sia quando si parte da un reddito di 50.000 € ,
o da un reddito di 100.000 €. Una diversa specificazione (non lineare) è sicuramente più idonea.

Funzione logistica
Funzione lineare P (y=1)

P(y=1) 1

1 0.8

0.8

0.5

0.5

0.4

0.1

0 25.000 50.000 x 0 25.000 50.000 x

 da 0 a 25.000 €   = +25.000  P(y=1) = 0.4  (0.4 - 0)  = +0.4;


 da 25.000 a 50.000 €   = +25.000  P(y=1) = 0.8  (0.8 – 0.4)  = +0.4; LOGISTICO
 da 50.000 a 75.000 €   = +25.000  P(y=1) = 1.2  (0.8 – 1.2)  = +0.4;
.... ma, ASSURDO !!!!!

 da 0 a 25.000 €   = +25.000  P(y=1) = 0.1  (0.1 - 0)  = +0.1;


 da 25.000 a 50.000 €   = +25.000  P(y=1) = 0.8  (0.8 – 0.1)  = +0.7;
LINEARE  da 50.000 a 75.000 €   = +25.000  P(y=1) = 0.9  (0.9 – 0.8)  = +0.1;
... la funzione è asintotica, l'incremento su P(y=1) è sempre minore ....
così da poter scrivere
Il generico modello lineare ... può essere scritto in modo da distinguere: (in notazione vettoriale)
K
~y   
K  la componente strutturale;   k xki y~
y 
yi   0    k xk i   i
i 0
k 1

k 1  la componente stocastica i

Con lo scopo di procedere alla generalizzazione del modello lineare classico y   ~


y
conviene isolare, a destra del segno di uguale, la componente strutturale e,
per alleggerire la notazione, conviene introdurre un altro simbolo per indicare COMPONENTE COMPONENTE
STOCASTICA STRUTTURALE
la parte sinistra dell'equazione (ponendo: y -  =  )
  ~y
La generalizzazione consiste nel consentire al legame funzionale (qui "identità")
LEGAME
di assumere forme diverse [ g( ) indica una generica funzione monotona differenziabile] FUNZIONALE

Con una tale formulazione si può esprimere:


Quando la variabile dipendente
è dicotomica, il legame funzionale
Compito g ( )  ~
y
svolto
deve garantire che i valori definiti dal legame
a) il modello lineare classico quando:
dalla componente strutturale siano funzionale
a1) il legame funzionale è la funzione identità
a2) la distribuzione di probabilità associata
compresi nell'intervallo 0 – 1 così
da garantire – anche – che i valori
“logit” log 1     ~
y
alla parte stocastica è normale attesi e riprodotti rispettino lo stesso   P y 1
intervallo
b) una vasta gamma di GLM quando:

b1) il legame funzionale è una qualsiasi


=========================
dato che  i  P y i 1  ; 0  ~
yi  1 
log P y 1  1  P y 1    ~
y 
funzione monotona differenziabile affinché: 0  P y i 1  1 ricavando : P y 1
b2) la distribuzione di probabilità associata
alla parte stocastica appartiene alla exp  ~
y
famiglia esponenziale  K
 P y 1 
exp 0    k xik  1  exp  ~
y
MODELLO LOGIT (regressione logistica) P yi 1   k 1 
 K

1  exp 0    k xik 
in notazione scalare ed esplicitando la componente strutturale

 k 1 
MODELLO LOGIT La relazione lineare log
P y i 1 
1  P y i 1 
(proporzionale, costante e additiva)
viene mantenuta fra i
1

P yi 1 K
log   0    k xik logit dei valori attesi
1  P yi 1 k 1
(logaritmo del rapporto di probabilità)
e la/le variabili esplicative

K
0
 0    k x ik
k 1

 K

exp 0    k xik  Invece la relazione fra i
valori attesi
P yi 1   k 1  della variabile dipendente
 K

1  exp 0    k xik  e le variabili esplicative è
non-lineare
 k 1 

 Struttura (anche in presenza di variabili esplicative categoriali)


 Metodo di stima dei parametri (Massima Verosimiglianza)
Rispetto al modello lineare classico
 Clausola "coetris paribus" nell'interpretazione dei parametri
RESTA INALTERATO
 Interpretazione del segno dei parametri
 Misure di adattamento modelo - dati

La non linearità della relazione fra i valori attesi e la componente strutturale del modello crea, invece, qualche complicazione
per interpretare i parametri in termini di entità o forza dell’effetto esercitato
DIVERSI MODI DI "VEDERE" IL MODELLO LOGIT (con riferimento ai parametri stimati)
(3)
(1) (2)
ˆ K

exp 0   ˆk xik 
Pˆ yi 1 K Pˆ yi 1  K
  
log   0   ˆk xik
ˆ  expˆ0   ˆk xik  Pˆ yi 1  k 1

1 P ˆ 1  Pˆ    K

 yi 1 1  expˆ0   ˆk xik 
k 1
 yi 1 k 1

 k 1 
DIVERSI (non alternativi) PERCORSI DI LETTURA E INTERPRETAZIONE DEI RISULTATI che
riguardano:
a) il segno dei parametri;
b) l’effetto marginale di una variabile esplicativa su g (  ) o su una trasformazione di g (  ) ;
c) i valori riprodotti (o predetti) di g (  ) o di una trasformazione di g (  ) , dato un certo insieme di
valori delle variabili esplicative;
d) i valori della probabilità riprodotti (o predetti), dato un certo insieme di valori delle variabili
esplicative;
e) l’effetto marginale di una variabile esplicativa sulla probabilità di un evento ().

Qui valgono le seguenti relazioni


P yi 1
g    log Tipo di legame (logit) adottato per la funzione di risposta
1  P yi 1

 P yi 1  P yi 1
expg    exp log   Trasformazione
 1  P yi 1  1  P yi 1

  P y 1 i
Probabilità dell'evento sotto osservazione
Ident y x z
Esempio: y  intenzione comportamentale dichiarata in risposta alla domanda:
1 1 16 8 (N = 35) <<Lei accetterebbe come amico/a un immigrato di colore? >>
2 1 17 8 (RISPOSTE AMMESSE: SI = 1 / NO = 0)
3 1 21 13
4 1 23 8
x  età (in anni compiuti)
5 1 25 8
6 1 30 13
7 1 33 8
z  scolarità (numero anni di studio corrispondente al titolo posseduto)
8 1 35 13
9 1 38 13
10 1 39 8 ADATTAMENTO Modello - dati

c  8.879 2 gdl; p  0.0118 


11 1 41 5
12 1 42 8
13 1 45 8
14 1 47 8
P yi 1 R 2  0.2769
  0   x xi   z z i   i
15 1 48 8
16 1 49 13 log
17 1 50 5 1  P yi 1 PARAMETRI STIMATI
18 1 53 13
19 1 60 5 ˆ0  4.5462
ˆ x  0.0875
20 1 60 8
21 1 62 5
22
23
1
1
62
64
5
5
ˆ z  0.3639
24 1 64 5
25 1 66 5
26 1 72 5
27 1 72 8
28 1 75 5
Percorso di lettura (a)  "In quale direzione agiscono le variabili esplicative ?"
29 1 75 8
30 0 53 5  Il parametro relativo alla variabile x (segno negativo) indica che al crescere dell’età decresce la propensione
31 0 65 8 a rispondere affermativamente (risposta “si” = 1) alla domanda;
32 0 67 5
33 0 71 5
 Il parametro relativo alla variabile z (segno positivo) indica che al crescere del numero di anni di scolarità
34 0 72 5
35 0 75 5
cresce la propensione a rispondere affermativamente
[In questo caso entrambe le variabili sono espresse in anni e,
Percorso di lettura (b)  " QUANTO incide l'età (x) e QUANTO la scolarità (z) ?" anche ragionando sul LOGARITMO DEL RAPPORTO DI
PROBABILITA', si può – considerando il modulo dei
In generale è preferibile ragionare sulla "RAGIONE DI SCOMMESSA" (odds); coefficienti – capire quale delle due ha un effetto più elevato]
'vedendo' il modello come in (2) la variabile dipendente è ora un ATTENZIONE però ......
RAPPORTO DI PROBABILITA'

se ˆ  0 allora 0  exp ˆ  1 
se ˆ   0 allora 1  expˆ   

 
exp ˆ x  exp 0.0875  0.916 da 0 a 1  
exp ˆ x  0.916
  2
Il rapporto di probabilità fra accettare come amico
Al netto degli altri effetti (fermo restando tutto il resto), da 1 a 2 exp ˆ x  0.839 un immigrato (risposta “si” = 1) e non accettarlo
expˆ   0.769
per ogni anno di età (x) in più, il rapporto di probabilità 3 (risposta “no” = 0) è, a parità di altre condizioni,
da 2 a 3 x
più che dimezzato (da 0.92 a 0.42) da un incremento
[(pr. rispondere "si") / (pr. rispondere "no")]
DECRESCE di un fattore pari a 0.916 ......... ........... pari a 10 anni di età
 
ˆ 10
da 9 a 10 exp  x  0.420

 
exp ˆ z  exp 0.3639  1.439 da 0 a 1  
exp ˆ z  1.439
  2
Il rapporto di probabilità fra accettare come amico
Al netto degli altri effetti (fermo restando tutto il resto), da 1 a 2 exp ˆ z  2.070 un immigrato (risposta “si” = 1) e non accettarlo
per ogni anno di scolarità (z) in più, il rapporto di
probabilità [(pr. rispondere "si") / (pr. rispondere "no")]
  3
da 2 a 3 exp ˆ z  2.980
(risposta “no” = 0) è, a parità di altre condizioni,
più che quadruplicato (da 1.44 a 6.17) da un incremento
CRESCE di un fattore pari a 1.439 ......... ........... pari a 5 anni di scolarità
  5
da 4 a 5 exp ˆ z  6.170

Per acquisire dimestichezza con l'uso del rapporto di probabilità, può essere utile consultare la tabella di pagina seguente ....
P yi 1
P yi 1 1  P yi 1 1  P yi 1 tabella esemplificativa: relazione fra Prob. e Rapporto di prob.
0.01 0.99 0.01010
.... . .... . .......
0.05 0.95 0.05263
.... . .... . ....... come dire: ~ 1 su 10
0.10 0.90 0.11111 0.17
.... . .... . .......  0.20482 come dire: ~ 1 su 5
0.83
0.20 0.80 0.25000 come dire: 1 su 4
.... . .... . .......
0.30 0.70 0.42857 0.33
.... . .... . .......  0.49254 come dire: ~ 1 su 2
0.67
0.40 0.60 0.66667
.... . .... . .......
0.45 0.55 0.81818
0.46 0.54 0.85185
0.47 0.53 0.88679
0.48 0.52 0.92308
0.49 0.51 0.96078
0.50 0.50 1.00000 come dire 1a 1
0.51 0.49 1.04082
0.52 0.48 1.08333
0.53 0.47 1.12766
0.54 0.46 1.17391
0.55 0.45 1.22222
.... . .... . .......
0.60 0.40 1.5000 0.67
 2.0303 come dire: ~ 2 a 1
.... . .... . ....... 0.33
0.70 0.30 2.3333
0.75
.... . .... . .......  3.0000 come dire: 3 a 1
0.80 0.20 4.0000 come dire 4a 1 0.25
.... . .... . .......
0.85 0.15 5.6667
.... . .... . .......
0.90 0.10 9.0000
0.91 0.09 10.1111
0.92 0.08 11.5000
0.93 0.07 13.2857
0.94 0.06 15.6667
0.95 0.05 19.0000 Può essere utile ricordare che:
0.96 0.04 24.0000 come dire 24a 1
P yi 1 
0.97 0.03 32.3333 se :   allora : P yi 1 
0.98 0.02 49.0000 1  P yi 1 1 
0.99 0.01 99.0000
Percorso di lettura (c)  " QUALI sono i valori del Rapporto di probabilità riprodotti dal modello ?"

Esempi: Qual é il rapporto di probabilità fra accettare / non-accettare come amico un immigrato, per ...

(1) ... l’individuo che ha 45 anni di età e una scolarità pari a 8 (codice identificativo: 13) ?
Il rapporto di probabilità è, per questo individuo,
circa 34 volte più favorevole verso l’accettazione
 
exp ˆ0  ˆ x  45  ˆ z  8  exp4.5462  0.0875  45  0.3639  8  33.78 (risposta: “si”), rispetto alla non-accettazione
(risposta: “no”)

(inoltre ...)
P yi 1 

exp ˆ0  ˆ x xi  ˆ z zi 

33.78
 0.9712

1  exp ˆ0  ˆ x xi  ˆ z zi 
34.78

(2) ... un individuo ... appena nato: età = 0, scolarità = 0 ?  


exp ˆ0  exp4.5462  94.27 P yi 1 
94.27
95.27
 0.9895

(4) ... un individuo di 45 anni con una scolarità pari a 13 anni ?

 
exp ˆ0  ˆ x  45  ˆ z  8  exp4.5462  0.0875  45  0.3639  13  208.39 P yi 1 
208.39
209.39
 0.9952

Nell’uomo adulto, rispetto al neonato,


Qual è la distanza che separa il concreto quarantacinquenne 33.78
con 8 anni di scolarità dal ... nostro neonato?  0.36 il rapporto di probabilità a favore
94.27 dell’accettazione di un immigrato
come amico è ridotto di quasi un terzo

... e se il quarantacinquenne 208.39 il diplomato (13 anni di scolarità) ha un rapporto di probabilità favorevole
 2.21 all’accettazione di un immigrato come amico che è più del doppio di quello del neonato
avesse 13 anni di scolarità ? 94.27

Quanto incidono 5 anni di scoalrità a parità di età ?  [(età=45, scolarità=13) - (età=45, scolarità=8)] = 208.39 / 33.78  6.17
[come già visto in precedenza ...]
Nuovo esempio per percorsi di lettura:
(d) i valori della probabilità riprodotti, dato un certo insieme di valori delle variabili esplicative;
(e) effetto marginale di una variabile esplicativa sulla probabilità di un evento

I dati sono tratti da un'indagine I.R.E.S.-Piemonte (effettutata nel 1990) sugli atteggiamenti e le aspettative
nei confronti degli immigrati stranieri. Il campione (816 osservazioni) è rappresentativo della popolazione
(in età 15-75 anni) del Comune di Torino.

Esempio: y  opinione espressa in risposta alla domanda:


(N = 816) <<Sarebbe favorevole all’introduzione della pena di morte per reati particolarmente gravi?>>
(RISPOSTE AMMESSE: SI = 1 / NO = 0)
La variabile A (titolo di studio) x  età (in anni compiuti)
e la B (provincia di nascita)
vengono ricodificate in forma A  titolo di studio
disgiuntiva completa in modo (1 = senza titolo o elementare; 2 = licenza media; 3= diploma di scuola superiore; 4 = laurea)
da omettere la cetegoria 1
per la variabile A B  provincia di nascita
e la categoria 2 per la B (1= prov. di Torino; 2 = altro)

parametri stimati  exp ˆ  P yi 1 


log     0   x xi   2A   3A   4A  1B   i
ˆ0  0.4163  0.659  1  P y 1 
 
ˆ x  0.0124
i
 1.013
ADATTAMENTO Modello - dati
ˆ A  0.4142  0.661
2
c  32.316 5 gdl; p  0.0001
ˆ  0.6316
3
A
 0.532
ˆ  1.3135
A
 0.269 R 2  0.0286  !!!
4

ˆ  0.4469
1
B
 1.564 con la notazione: “b1 = 1” si intende fare riferimento ai vettori booleani della matrice di disegno;
così che b1 è il vettore corrispondente al livello 1 (provincia di nascita Torino) della variabile B e
assume valore 1 per indicare che un certo individuo è nato nella provincia di Torino, valore 0 se
l’individuo è nato altrove
Percorso di lettura
 (d) "QUALI sono i valori della probabilità riprodotti (o predetti), dato un certo insieme di valori delle variabili esplicative ?"
Probabilità di dichiararsi favorevole all’introduzione della pena
di morte, stimata dal modello, per un individuo ...

exp 0.4163  0.0124  43  0.4142  0.4469 ETA'  43 anni (media del campione);
P̂ yi 1   0.54
1  exp 0.4163  0.0124  43  0.4142  0.4469 
LUOGO DI NASCITA in provincia di Torino;
TITOLO DI STUDIO  licenza media

exp 0.4163  0.0124  43  1.3135  0.4469  ETA'  43 anni (media del campione);
P̂ yi 1   0.32 LUOGO DI NASCITA in provincia di Torino;
1  exp 0.4163  0.0124  43  1.3135  0.4469  TITOLO DI STUDIO  laurea

exp 0.4163  0.0124  43  13135


.  ETA'  43 anni (media del campione);
P  yi 1   0.23 LUOGO DI NASCITA NON in prov. di Torino;
1  exp 0.4163  0.0124  43  13135
.  TITOLO DI STUDIO  laurea

Rappresentazione grafica di raffronto considerando simultaneamente


P
^ una variabile esplicativa di tipo metrico e una discreta
(y=1)
0.38
0.37
0.36
0.35 LAUREATI
0.34 NATI IN TO
0.33
0.32 la doppia freccia tratteggiata indica che la probabilità di
0.31
0.3
essere favorevole all’introduzione della pena di morte è
0.29
0.28
piuttosto bassa (circa 0.27) fra le persone anziane (60 anni
0.27 di età) laureate, nate fuori dalla provincia di Torino e che
0.26
0.25 LAUREATI NATI la stessa probabilità la si può ritrovare fra i laureati nati in
0.24 FUORI TO
0.23 provincia di Torino, ma giovani (25 anni di età)
0.22
0.21
0.2
0.19
0.18
18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62
Età
Percorso di lettura  (e) "QUANTO incide (qual è l'effetto marginale di) una variabile esplicativa sulla probabilità dell'evento ?"

Entità dell’effetto marginale della


variabile (B) “provincia di nascita”
sulla probabilità riprodotta dal modello;
  P(43 anni, laurea, Torino) - P(43 anni, laurea, altrove)  0.32  0.23  0.09
MA...

Contrariamente agli effetti marginali sul rapporto di probabilità che sono invarianti rispetto
ai valori delle variabili esplicative, gli stessi effetti sulla probabilità variano al variare dei
valori delle variabili esplicative, cioè variano al variare della probabilità riprodotta
Con x compresa fra 15 e 75, le probabilità riprodotte (per i nati in provincia
EFFETTO MARGINALE DELLA VARIABILE "B" di Torino e per i nati altrove) variano in un intervallo piuttosto circoscritto
In ordinata è rappresentata la variazione della probabilità () in modo tale che la loro differenza (l’effetto marginale di B) è anch’esso
dovuta all’effetto della variabile B, al variare di x (fissando a4 = 1) limitato;questa circostanza non è affatto comune a tutti i valori che x potrebbe
la variabile x – a scopo illustrativo – viene qui rappresentata in un assumere se avesse un altro significato empirico (diverso dall'età).
intervallo molto esteso (400)
P^(y=1) [laurea, altro] [laurea, Torino]
 1
0.12
0.11 0.9

0.1 0.8
0.09 0.7
0.08 0.6
0.07
0.5
0.06
0.4
0.05
0.3
0.04
0.03 0.2
0.02 0.1
0.01 0
0 -400 -350 -300 -250 -200 -150 -100 -50 0 50 100 150 200 250 300 350 400
-400 -350 -300 -250 -200 -150 -100 -50 0 50 100 150 200 250 300 350 400 x
x

Le due linee verticali indicano l’intervallo effettivo dei valori di x nel  Nel riportare l’entità dell’effetto marginale di una variabile esplicativa sulla probabilità
nostro esempio (dove x è l'età). In tale intervallo la differenza fra i valori è opportuno controllare che tale effetto, calcolato sulla base di particolari combinazioni
dell’effetto marginale di B è piuttosto contenuta, ma pur sempre presente di valori delle variabili esplicative, sia ragionevolmente simile a quello calcolato sulla
(compresa all’incirca fra 0.07 e 0.10) base di altre particolari combinazioni, nell’intervallo di valori che, sensatamente,
possono assumere le variabili esplicative
MISURAZIONE DI TRATTI MENTALI
Il contributo di G. Rasch (Item Response Theory)

Indice degli argomenti

Misurare...

Variabili manifeste e latenti


da osservazioni qualitative a quantità (misure)

Modelli e confrontabilità

Il contributo di G. Rasch

Item response Theory (linee di evoluzione)

Esempi e applicazioni
Confrontabilità... (in un test)

Confrontabilità... (fra due o più test)


Realizzazione di “banche di domande”

Somministrazione di test adattivi

Riferimenti bibliografici
MISURARE
-Quantocicivuole
-Quanto vuoleperperarrivare
arrivarea aMessene?
Messene?––chiese
chieseilil
viandante fermandosi presso un
viandante fermandosi presso un vecchio che vecchio che
sonnecchiavaalalciglio
sonnecchiava cigliodella
dellastrada.
strada.
Stabilire una relazione -Cammina,cammina
-Cammina, cammina––rispose
risposeililvecchio.
vecchio.
(omomorfismo) Paziente il viandante ripeté la
Paziente il viandante ripeté la domanda.domanda.
fra un certo sistema numerico -E-Ecammina!
cammina!––sisispazientì
spazientìililvecchio.
vecchio.
(con definite caratteristiche) Sconcertato, il viandante riprese lalasua
Sconcertato, il viandante riprese suastrada.
strada.
e qualche proprietà o -Ticicivorranno
-Ti vorrannodue dueore
ore––loloraggiunse
raggiunselalavoce
vocedel
delvecchio
vecchio
insieme di attributi dopouna
dopo unaventina
ventinadidipassi.
passi.
di un sistema empirico - E perché non me
- E perché non me lo hai lo haidetto
dettosubito?
subito?
(oggetti)... - -Come
Comepotevo
potevodirtelo
dirteloprima
primadidivedere
vederecome
comecammini?
cammini?

DaEsopo
Da Esopo

...con lo scopo di confrontare gli oggetti Indice


(relativamente a qualche specifico carattere)
utilizzando le operazioni aritmetiche elementari
(somma, sottrazione,...)

MISURARE
UTILIZZARE UNO
STRUMENTO (di misura)
MISURARE
GIA’ PREDISPOSTO
 Selezionare (almeno) una
caratteristica, proprietà
(attributo, tratto, dimensione)
dell’oggetto;
 Assumere una sufficiente
stabilità spazio-temporale;
 Rilevare lo stato dell’oggetto
sulla proprietà MISURARE
COSTRUIRE
UNO STRUMENTO
(di misura)
MISURARE
<<Quanto ci vuole per
UTILIZZARE UNO
arrivare a Messene?>> STRUMENTO (di misura)
GIA’ PREDISPOSTO

COSTRUIRE
UNO STRUMENTO Indice
(di misura)

O)
I
O)

I/N
I /N

(S
)

O)
NO

TEST
TESTdidi O N
(S

I/N
O

)
S I/

GI

NO
RE

TEST di

(S
Esopo
Esoposul G D (AGENTI)
)

AG
I A(

NO

sul
LA

SI /

NE
Esopo sul
MP

ES
viandante G I
GO

A(
S I/

STIMOLI

TO
viandante
AA

PA
A(

IC
RE

viandante

AS
E V
SP DOMANDE
IC
AT

RA

AB
O

PP

CE
T I
LC

TM

MI

ITEM
US
ZO

IN
AM
FA

RI

T D
S1 S2 S3 S4 S5 S6 S.... I U
Viandante_1 1 1 0 0 1 0 ... I
OSSERVAZIONI
Viandante_2 0 1 0 1 1 0 ... (qualitative)
Viandante_3 1 1 0 1 1 0 ...
Viandante_4 1 0 1 0 1 1 ... MATRICE DATI
Viandante_ .. ... ... ... ... ... ... ... (booleana)
MISURARE

COSTRUENDO Rilevare lo stato di oggetti su una proprietà; UTILIZZANDO UNO


UNO STRUMENTO STRUMENTO (di misura)
(di misura) GIA’ PREDISPOSTO
Confrontare gli oggetti tramite elementari operazioni aritmetiche

E’ un’operazione di interpretazione delle E’ una delle modalità di rilevazione


osservazioni (analisi dati); delle osservazioni (raccolta dati);
Riguarda l’interazione fra Riguarda l’interazione Modello fra
oggetto/i e agente/i; VARIABILI
oggetto/i e strumento; VARIABILI
Implica una rappresentazione analogica MANIFESTE LATENTI
Implica l’applicazione corretta delle
delle osservazioni (modellizzazione); norme di utilizzo dello strumento;
Consente di trasformare osservazioni E’ un’operazione descrittiva di
qualitative in quantità OSSERVAZIONI
selezione e riporto
QUALITATIVE MISURE
(attribuzione ad una classe di equivalenza);

<<L’idea che le osservazioni scientifiche siano originariamente


quantitative è un’illusione prodotta dalla familirità con i modelli
di misurazione su cui è fondato il successo delle scienze naturali.
Anche in fisica, le osservazioni iniziali sono qualitative. E’ il
modello di misurazione applicato alle osservazioni che fornisce
e garantisce la quantificazione>>
(Douglas G.A., Wright B.D., 1986, p. 3)

Indice
Variabili manifeste e latenti: un’analogia...
Si riferiscono a costrutti teorici (proprietà) DIRETTAMENTE OSSERVABILI

QUANTITATIVO
• per es. proprietà (degli individui) come: peso, altezza, età, condizione professionale,
QUALITATIVO MODELLO LATENTE accordo/disaccordo rispetto ad una certa affermazione, comportamento attuato in una
MANIFESTO MISURA
data situazione, etc.

• sono tutte proprietà ben definite (ampia condivisione a livello di definizione teorica e
– generalmente – anche di def. operativa)
variabili manifeste

Un’analogia...
Strumenti complessi (modelli, test) che:

 STABILISCONO LEGAMI (nessi causali o di indicazione) Indice


fra osservazioni empiriche (indirette) e il costrutto teorico
 PRODUCONO (come risultato) VARIABILI LATENTI

Si riferiscono a costrutti teorici (proprietà) NON DIRETTAMENTE OSSERVABILI

 per es. proprietà (generalmente mentali degli individui) come: le abilità, gli atteggiamenti, etc.

 complessità del costrutto e/o scarsa condivisione su def. operativa

 non sono rilevabili sulla base di un'osservazione diretta (es.:risposta a una domanda)

 necessitano di un INSIEME di fatti (di variabili manifeste)


[anche per giungere al semplice confronto ordinale (abilità dell'individuo a > b)]

 richiedono la messa a punto di COMPLESSI STRUMENTI (di rilevazione e di analisi)

 tanto più sofisticati quanto più:


. è controversa la corrispondenza fra fatti osservabili e proprietà (validità)
.. è alta la precisione desiderata dello strumento (attendibilità)
variabili latenti ... è elevato il 'livello di scala' desiderato (per la varibile ottenuta)
Variabili manifeste e latenti
COSTRUTTO TEORICO:
......... ..........
"Circonferenza terrestre"
240 a.C.
...UN’ANALOGIA: <<La prima misurazione scientifica di
una distanza cosmica>>
(I. Asimov, 1984, p.22)

1) EFFETTUO OSSERVAZIONI EMPIRICHE (indirette) ..... ... QUANTO MISURA???


ALESSANDRIA In metri ...
Teorema dei seni...
800 Km. (D) a  1.000
(A)
   90 a b c
b  0.128 ;  
 c  1.008   ?
SIENE
sen sen sen
Tropico del Cancro 
(C)
(B)
ALESSANDRIA (Egitto):
SIENE (Egitto): h. 12 solstizio d'estate
h. 12 solstizio d'estate (21 giugno) Quindi...
(21 giugno)
b
  arcsen 
c


 0.128 
?   arcsen   7.295  7 30'
(c)  1 . 008 
100 cm.
100 cm.

(a)

 

circa 13 cm. (b) Indice


Variabili manifeste e latenti
2) MODELLIZZO (assumo che la terra sia sferica) ....

......... ..........

ALESSANDRIA
...UN’ANALOGIA:
7° 30 '

TROPICO del CANCRO


SIENE

7° 30 '

EQUATORE

3) ESEGUO CALCOLI ..... C = "Circonferenza terrestre" (in Km.) C : 800  360 : 7 30'

800  360
4) OTTENGO UNA STIMA DELLA MISURA CERCATA ..... C  39452  40 mila Km.
7.30
 c 39452 
 diametro    12564  13 mila Km. 
  3 . 14  Indice
Variabili manifeste e latenti
Esempio di misurazione...
240 a.C.
......... ..........

...UN’ANALOGIA:
ASTROFISICA PSICOLOGICA

Costrutto teorico circonferenza terrestre abilità di far di conto

distanza fra due città


Osservazioni empiriche lunghezza ombra del bastone
risposte a domande

[probabilistica]
[deterministica]
Modellizzazione Terra = Sfera Prob  R  x   f abilità ;difficoltà ; etc . 

Calcoli algebra, trigonometria algebra, statistica

[errore di specifica