Sei sulla pagina 1di 112

UNIVERSITA' DEGLI STUDI DI TORINO

DIPARTIMENTO DI PSICOLOGIA
prof. Renato Miceli
OTTOBRE 2013

Il presente file (in formato PDF) contiene le diapositive che, nel loro insieme, forniscono supporto visivo alle
lezioni del docente. Si raccomanda di NON considerare questo materiale alla stregua di un libro di testo! In
particolare è fortemente sconsigliata la stampa (su carta) di questo materiale. Alcune diapositive possono
essere presenti più volte in questo stesso insieme (doppioni), perchè questa sequenza di diapositive NON
rappresenta necessariamente l'ordine di utilizzo delle medesime a lezione. Inoltre, NON tutte le diapositive qui
riportate sono sempre utilizzate durante le specifiche lezioni dell'anno in corso...
!!! Si ricorda comunque che il presente materiale didattico non sostituisce i libri di testo !!!
Il presente materiale didattico é:
- utile per ripassare, ripensare e riflettere sugli argomenti trattati a lezione;
- utile per approfondire lo studio svolto sui libri di testo, consentendo di
confrontare modi diversi di presentare gli stessi argomenti e disponendo
di specifici esempi, commenti etc.;
- provvisorio e soggetto a continue revisioni e aggiornamenti;
- nella versione qui resa disponibile può risultare incompleto o di difficile lettura
in quanto alcune diapositive sfruttano caratteri, colori e/o animazioni
specifiche del software utilizzato (PowerPoint) che non sono altrimenti
riproducibili.
Lezioni di Psicometria del prof. Renato Miceli (a.a. 2013-2014)
UNIVERSITA' DEGLI STUDI DI TORINO
Per il Corso di Laurea Triennale (II° ANNO)
DIPARTIMENTO DI PSICOLOGIA
prof. Renato Miceli
Indice degli argomenti OTTOBRE 2013

Introduzione

Ripasso → (vedi file: RIPASSO_ANNO2.pptx)


• Livelli di scala delle variabili
• Principali misure di relazione bivariata (per variabili cardinali)
• La logica della decisione in statistica, test sulle ipotesi

Principali aspetti metodologici


Epistemologia (cenni)
Psicometria e Ricerca empirica
"Raccolta" dati: Rilevazione-misurazione; questionari e test (cenni di teoria dei dati)

Approccio sperimentale e osservativo

Validità della ricerca


Attendibilità e validità della misurazione

Analisi dei dati


Analisi della varianza (ANOVA)

Regressione lineare (una variabile esplicativa)

Regressione lineare (due o più variabili esplicative; un'introduzione al modello lineare classico)

Analisi in Componenti Principali e Analisi Fattoriale (esplorativa)

Esempi ed esercizi di analisi dei dati → (vedi file: ESEMPI_ESERCIZI_ANNO2.pptx)


Introduzione (1 / 3)

 Il corso è articolato in 20 lezioni (3 h. ciascuna)


 La bibliografia di base...

Bibliografia di base

(a) A. Pedon, A. Gnisci, 2004, Metodologia della ricerca psicologica, Bologna, Il Mulino.

(b) C. Barbaranelli, 2007, Analisi dei dati, Milano, LED (*)

(*) (limitatamente ai Capitoli: 1, 2, 3, 4)

 Modalità d'esame...

L'esame è orale. Una parte, anche consistente, di domande (del tipo a "scelta multipla") potrà
essere formulata in modalità scritta (correzione e valutazione saranno contestuali).
Gli studenti degli anni precedenti possono portare all'esame il programma dell'anno di riferimento;
l'esame è orale

 Il ricevimento studenti si svolge (di norma) il mercoledì pomeriggio (h. 15-17) previo
appuntamento tramite e-Mail all'indirizzo: r.miceli@univda.it

 Il materiale didattico usato dal docente durante il corso (appunti, diapositive,


etc.) verrà reso disponibile agli studenti al termine delle lezioni
Introduzione (2 / 3)
..... AI DATI
DALLE IDEE .......

« Nissuna umana investigazione si può


dimandare vera scienza, s'essa non passa
per le matematiche dimostrazioni. »
(Leonardo da Vinci 1452-1519)

<<La matematica è la nostra lingua universale,


oscurata dalle stratificazioni delle lingue che
hanno accidentalmente colonizzato i luoghi e
i tempi in cui siamo nati>> (R. Kaplan, 1999, p. 118)

OSSERVAZIONI EMPIRICHE
(FATTI)
Introduzione (3 / 3)

MODELLI .......

DAI DATI... ...ALLE IDEE

<<La modellizzazione nella scienza rimane, almeno parzialmente, un’arte.


Esistono tuttavia alcuni principi che possono orientare l’analista.
Il primo è che tutti i modelli sono sbagliati; anche se alcuni sono meglio di altri e noi dobbiamo cercare i migliori. ...
Il secondo principio (che vale anche per gli artisti!) consiste nel non rimanere innamorati di un modello, escludendo
le alternative. ...>>
(McCullagh P., Nelder J. A., 1983, p. 6)
Epistemologia...Cenni (1 / 4)

Episteme  l'insieme dei presupposti teorici della conoscenza scientifica e filosofica (di una data epoca o autore)

Epistemologia  teoria della conoscenza  filosofia della scienza

REALTÁ

SCIENZA VERITÁ OPINIONE

2 metodi (di pensare, ragionare)


DEDUTTIVO
Premesse VERE  Conclusione VERA
sillogismo aristotelico
Teoria Ipotesi Osservazione (gli uomini sono mortali); ("U" è un uomo); ("U" è mortale)

Premesse VERE  Conclusione VERA/FALSA


INDUTTIVO PROBABILITÁ
Un certo numero di oggetti sono assimilabili in una classe
in quanto godono della proprietà (A); tutti gli A che
(storicamente) osservo godono della proprietà (B); tutti gli A sono B
tre concezioni di scienza
(tutti questi individui sono STUDENTI; tutti gli studenti che osservo
sono FANNULLONI; tutti gli STUDENTI sono FANNULLONI)

DIMOSTRATIVA

DESCRITTIVA

"AUTOCORREGIBILE"  (o "storico-critica")
5
Epistemologia...Cenni (2 / 4) Concezione DIMOSTRATIVA

La scienza come sistema di enunciati necessari


Secondo l'ideale classico (Aristotele)
e sufficienti rinuncia agli aspetti empirici
la scienza garantisce la propria validità
(esperienza) e si riduce alle sole discipline formali
perché è in grado di dimostrare le proprie
affermazioni che sono inserite in un
Bisogna attendere Galileo Galilei per vedere poste
sistema unitario perfettamente deduttivo
a fondamento della scienza sia "le dimostrazioni
Es.: Euclide (Elementi, sec. III a. C.)
necessarie" sia la "sensata esperienza"

Concezione DESCRITTIVA
Bacone  Newton ILLUMINISMO  POSITIVISMO

La scienza si fonda sull'interpretazione della natura (realtà)


Interpretare significa qui: osservare i fatti e, tramite l'induzione, giungere a conclusioni generali
La realtà è indagabile e spiegabile secondo leggi deterministiche
I fatti desunti dall'esperienza sono oggettivi
Le leggi scientifiche elaborate secondo nessi e strutture logico-razionali esitono in natura (nella
realtà prima e indipendentemente dallo scienziato che le "scopre")
Le categorie logiche della ragione umana corrispondono a nessi reali e naturali (non dipendono
dalla mente dell'uomo)
La scienza permette all'uomo di agire sulla natura e dominarla mediante la previsione dei fatti

Positivismo logico – Neopositivismo  "Circolo di Vienna" (anni '20 del XX secolo)


- dimensione sovrastorica (o astorica) della scienza
- oggettività ... intersoggettività
- (in psicologia)  Behaviorismo (J.Watson; I. Pavlov; B.F. Skinner; R.B. Cattel; ...)
6

Epistemologia genetica  J. Piaget (1896 – 1980)


- studio sperimentale delle strutture e dei processi cognitivi legati alla costruzione della
conoscenza nel corso dello sviluppo (dall'infanzia al mondo adulto)
Epistemologia...Cenni (3 / 4) Concezione "AUTOCORREGIBILE"  (o "storico-critica")

K. Popper (1902 – 1994) – Il razionalismo critico


- Una proposizione generale può solo essere FALSIFICATA, non CONFERMATA EMPIRICAMENTE
- Lo scopo della ricerca scientifica consiste nel trovare (sempre) una teoria migliore della
precedente (che spieghi di più e più precisamente)
- Possono essere considerate scientifiche solo le affermazioni falsificabili (sufficientemente
precise da poter essere smentite tramite dati sperimentali)
- Popper propone la sequenza: PROBLEMI  TEORIE  CRITICA
al posto di: OSSERVAZIONI -> INDUZIONE -> IPOTESI e VERIFICA (del positivismo logico)
- Un problema è una contraddizione fra teorie o fra una teoria e un fatto

T.S. Kuhn (1922 – 1996) – La teoria dei paradigmi


- Lo sviluppo della scienza può essere descritto dai concetti di:
PARADIGMA, SCIENZA NORMALE, ANOMALIE, SCIENZA STRAORDIANRIA, RIVOLUZIONE SCIENTIFICA

- <<I paradigmi sono conquiste scientifiche universalmente riconosciute che, per un certo
periodo, forniscono un modello di problemi e soluzioni accettabili da coloro che praticano un
certo campo di ricerca>> (T.S. Kuhn, 1995)
- I paradigmi sono incommensurabili (incomparabili)
Lo sviluppo della scienza è (pertanto) discontinuo e ateleologico

P. Feyerabend (1924 – 1994) – L'irrazionalismo


- La scienza usa e necessita di una pluralità di standard, senza alcun vincolo di paradigmi,
autorità (compresa quella della ragione)
- Non una teoria della verità, ma una teoria della critica e dell'errore nell'ambito di un benefico
"pluralismo teorico"

7
Epistemologia...Cenni (4 / 4) Ulteriori spunti di riflessione...

<<... Non abbiamo inteso di scrivere un testo di fisica. Né di esporre in ordine sistematico gli
elementi fenomenologici e teorici della fisica. Abbiamo piuttosto inteso di disegnare a larghi tratti
i tentativi dell'intelletto umano volti a scoprire un nesso fra il mondo delle idee ed il mondo dei
fenomeni. Abbiamo cercato di mostrare quali siano le forze agenti che inducono la scienza a
concepire idee rispondenti alla realtà del mondo in cui viviamo>>

(A. Einstein, L. Infeld, 1938, Prefazione degli Autori a: "L'Evoluzione della fisica")

<<In merito alla concezione del rigore logico ... non si tratta per noi di porre la Scienza su basi più
solide, ma semplicemente di riconoscere quanto tali basi siano fragili. ... Dobbiamo inventare il
mondo per inquadrarvi le nostre sensazioni, ma non dovremmo mai considerarlo come uno schema
rigido e fisso, come una costruzione definitiva: esso non è che il risultato provvisorio di uno sforzo
di sintesi. Le nostre sensazioni, i nostri concetti fondamentali, a cominciare da quelli di tempo e
spazio, non saranno mai i protagonisti di una commedia finita ove ciascuno ha la sua parte e il suo
ruolo, saranno sempre i "sei personaggi in cerca d'autore">>

(B. de Finetti, 1934, L'invenzione della verità; Ed. Raffaello Cortina, Milano, 2006, pag. 124)

8
Psicometria e ricerca empirica (1 / 9)

Settore di ricerca della psicologia che si


PSICOMETRIA occupa della rilevazione e della misurazione
di costrutti (tratti) della mente

psicofisica (Fechner, 1860); relazione fra mente e corpo;


legge della 'soglia' minima percepita (Weber e Fechner).

Thurstone (1928); aspetti soggettivi


(gradimento estetico, preferenze, etc.),
'confronti a coppie' e 'legge dei giudizi comparativi'.
STORICAMENTE
psicologia applicata (studio differenze individuali)
(Galton -- Pearson, 1850-1930).

?
 come rilevare e registrare i fenomeni manifesti
....
 che legame è possibile stabilire fra fenomeni METODOLOGIA
manifesti e costrutti teorici
MATEMATICA
 quali strumenti di misura utilizzare o costruire
STATISTICA
....
9
Psicometria e ricerca empirica (2 / 9)
Il "luogo" della Psicometria...

Indagine conoscitiva: (speculazione filosofica; scienza; contemplazione mistica; critica letteraria; etc)
Scienze (della vita)

Psicologia (scienza che studia, descrive, interpreta la fenomenologia dei processi mentali)

Ricerca empirica: (successione di operazioni per produrre risposte a domande sulla realtà)
- produce affermazioni sulla realtà (asserti) o stabilisce nessi fra asserti;
- giustifica le affermazioni su una base empirica;
- produce un sapere controllabile.

Con matrice dati: (operativizzazione)


(si avvale della) Analisi dei dati per:
DESCRIVERE
SPIEGARE MISURARE
INTERPRETARE

(fa ampio uso di) MATEMATICA e STATISTICA


(Ripasso) Il concetto di funzione... 10
Psicometria e ricerca empirica (3 / 9)
Ripasso Dati due insiemi non vuoti A e B, si chiama funzione
di A in B una qualsiasi legge che fa corrispondere ad
ogni elemento x di A, uno e un solo elemento y di B
Il concetto di "funzione"

y = f (x) f indica la funzione di A in B


y è l'elemento di B che la funziona assegna all'elemento x di A

yi = f ( xi )
B A

Si dice che fra gli elementi di due insiemi A e B, non vuoti,


intercorre una corrispondenza BIUNIVOCA (o biiezione) quando
esiste una legge che fa corrispondere ad ogni elemento di A uno
ed un solo elemento di B, e viceversa, ogni elemento di B è il
corrispondente di uno e un solo elemento di A

Attenzione!
x è un elemento di A;
f(x) è un elemento di B;
f è un ente matematico diverso sia da x, sia da f(x); f è la legge che associa all'elemento x di A, l'elemento f(x) di B.

 Spesso però si dice <<...la funzione f(x) >> invece di dire <<...la funzione f >>
 indicando così sia la funzione, sia il valore da essa assunto in x

11
Psicometria e ricerca empirica (4 / 9) 12
Ripasso

Rappresentazioni di una funzione


yi = xi
yi = 0 + 1 ⋅ xi Obs
1
y
-3
x
-3
2 -2 -2
3 -1 -1
4 0 0
5 1 1
6 2 2
7 3 3

i = 3 − 2 xi
yANALITICA GRAFICA TABULARE
Obs y x
1 5 -1
2 3 0
3 1 1
4 -1 2
5 -3 3
6 -5 4
Psicometria e ricerca empirica (5 / 9)
13
Ripasso
Rappresentazioni di una funzione
yi = x − 4 xi + 2
2
Obs y x
Obs y x
1 -1.00 -2.0
1 14.00 -2.0 2 -0.16 -1.9
3 0.57 -1.8
4 1.19 -1.7
3 7.00 -1.0 5 1.70 -1.6
6 2.13 -1.5
5 2.00 0.0 7 2.46 -1.4
8 2.70 -1.3
7 -1.00 1.0 9 2.87 -1.2
10 2.97 -1.1
9 -2.00 2.0 11 3.00 -1.0
12 2.97 -0.9
11 -1.00 3.0 13 2.89 -0.8
14 2.76 -0.7
13 2.00 4.0 15 2.58 -0.6
16 2.38 -0.5
15 7.00 5.0 17 2.14 -0.4
18 1.87 -0.3
19 1.59 -0.2
17 14.00 6.0 20 1.30 -0.1
21 1.00 0.0
22 0.70 0.1
23 0.41 0.2
24 0.13 0.3
25 -0.14 0.4
26 -0.38 0.5
27 -0.58 0.6
28 -0.76 0.7
29 -0.89 0.8
30 -0.97 0.9
31 -1.00 1.0
32 -0.97 1.1
33 -0.87 1.2
34 -0.70 1.3
yi = x 3 − 3 xi + 1 35
36
37
-0.46
-0.13
0.30
1.4
1.5
1.6
38 0.81 1.7
39 1.43 1.8
40 2.16 1.9
41 3.00 2.0
Psicometria e ricerca empirica (6 / 9)
Ripasso
Funzioni empiriche E' stata rilevata l'abilità logica (x) e il grado di Obs y x
comprensione di testi in lingua italiana (y) 1 -4.0 -10

yi = f ( xi ) in una classe di 21 allievi. 2 -2.5 -9


E' possibile stabilire
una "legge" che metta yi = a + b ⋅ xi a = ? ;b = ? 3 3.0 -8

...e i punti non sono 4 0.5 -7


in corrispondenza x e y?
perfettamente allineati ?!? 5 -1.0 -6
r = +0.78 6 -1.5 -5
7 -3.0 -4
yi = a + b ⋅ xi + ε i ... criterio dei
Minimi Quadrati... 8 0.5 -3
9 4.0 -2
10 3.5 -1
... stime...
11 2.0 0
12 -3.5 1
13 6.0 2
a = +2.52 14 4.5 3
b = +0.51 15 3.0 4

−−−−−−− 16 5.5 5
17 10.0 6
R 2 = 0.62 18 6.5 7
19 8.0 8
20 5.5 9
21 6.0 10
(Fine Ripasso)
Le fasi della ricerca (empirica)... 14
Psicometria e ricerca empirica (7 / 9)
? "Problema", CONTRADDIZIONE FRA ASSERTI; Es.:
Le fasi o il processo di ricerca (a) di fronte a richiesta di aiuto ci aspettiamo che le persone intervengano;
(b) osserviamo una situazione in cui ciò non accade;
(c) poniamo il problema: "quali sono i meccanismi alla base di comportamenti passivi
Identificazione del problema di fronte ad evidenti richieste di aiuto" (J. Darley, B. Latané, 1968)
Ricerca di base (fondamentale o pura) (d) formuliamo ipotesi: "quanto più numerose sono le persone che in una data
circostanza di pericolo sono effettivamente in condizione di prestare aiuto,
Ricerca applicata tanto meno ciascuna di esse si sente investita della responsabilità di agire"

? "Problemi", PRATICI; Es.:


(a) Come si può ridurre il comportamento a rischio negli adolescenti?
Le fasi o il processo di ricerca
(b) Come si può confrontare la preparazione in matematica fra allievi di scuole diverse?

DOMANDA DI RICERCA : "fra frustrazione e aggressività esiste una qualche relazione?"

IPOTESI DI RICERCA : "se le persone subiscono una frustrazione, allora divengono aggressive"

OPERATIVIZZAZIONE : dai concetti (frustrazione e aggressività) ai dati

OPERAZIONALIZZAZIONE: (ovvero contestualizzazione) "se un telefono pubblico non restituisce la


moneta all'utente, allora quest'ultimo attuerà comportamenti distruttivi
nei confronti del telefono stesso"

IPOTESI STATISTICA : (H0) "la frustrazione non ha effetto sull'aggressività"


(H1) "la frustrazione ha effetti sull'aggressività"
(H1 direzionale) "all'aumentare del livello di frustrazione,
aumenta il livello di aggressività"

rappresentazione grafica aggressività (y) frustrazione (x)

rappresentazione matematica (modellistica) y = f (x )


15
Psicometria e ricerca empirica (8 / 9)
Le fasi o il processo di ricerca SCELTE inerenti:
• oggetto/i da osservare
• condizioni operative e di controllo
Pianificazione della ricerca (disegno) • strumenti di rilevazione /misura
Approccio sperimentale • metodi di codifica delle osservazione (dati)
Approccio osservativo • procedure di analisi matematico-statistica
• etc.

repertori .... questionari e test


Il processo di ricerca (3)

Osservazioni (raccolta dati)


La trasformazione delle osservazioni empiriche (fatti) in dati variabili e livelli di scala

Il processo di ricerca (4)

Analisi dei dati


L'organizzazione dei dati in matrici
L'utilizzo di procedure appropriate
La messa a punto e la stima di appropriati modelli matematico-statistici

Il processo di ricerca (5)

Interpretazione
I risultati conseguiti forniscono una risposta all'ipotesi di ricerca?
Tale risposta costituisce un effettivo avanzamento della conoscenza?

Il processo di ricerca (6)


Comunicazione
Canali: "comunicazioni convegni", articoli su riviste scientifiche, libri 16
Esaustività, rigore e precisione per consentire ripetizione e controllo
Standardizzazione delle forme comunicative (APA)
Psicometria e ricerca empirica (9 / 9)
La pubblicazione scientifica (della ricerca) genere letterario
Le fasi o il processo di ricerca

Articolo su rivista

La struttura:
titolo, autore/i, istituzioni di appartenenza
riassunto (abstract), parole chiave (keywords)
introduzione, scopi generali (aspetti teorici), quadro della letteratura corrente
ipotesi (specifiche) di ricerca, metodo, dati
risultati, conclusioni
discussione
bibliografia

Il sistema del referaggio fra pari (peer-review) o dei "referees" o "reviewers"

importanza-prestigio
Accettazione subordinata
Accettazione RIVISTA
a modifiche lievi
 repertori di settore
(PsychInfo)
Accettazione
Accettazione ESITI POSSIBILI subordinata  Indice delle riviste
a modifiche scientifiche (I.S.I)
con priorità
sostanziali
 Indici quantitativi
(per es.: IF di una rivista nell'anno t)
Rifiuto con possibilità
di risottomissione nuova versione Rifiuto
N°articoli citati (t − 1) + (t − 2)
IF(t ) =
N°articoli pubblicati (t − 1) + (t − 2)

17
Questionari e test (1 / 9)
Strumenti di rilevazione/misura

Questionario
(Intervista, Indagine demoscopica, sondaggio, survey) Questionari
 modalità di somministrazione
 scopi...
caratteristiche demografiche
comportamenti
opinioni
Domande Dati
etc... (Stimoli-Risposte)

Test

Test Strumenti di misura  Valutazione abilità raggiunte o potenziali (massima performance)


 Personalità, valori, aspettative, atteggiamenti (tipica performance)

TEST INSIEME DI DOMANDE (STIMOLI) CAPACE


DI FAR EMERGERE RISPOSTE VALUTABILI
E INTERPRETABILI QUANTITATIVAMENTE
SULLA BASE DI CRITERI SPECIFICI E STANDARD
PRESTAZIONALI
18
Questionari e test (2 / 9) 19
Cos'é una INTERROGAZIONE?

- insieme di domande cui l'allievo risponde;


- le risposte (o i silenzi) sono interpretate e valutate quantitativamente
- dall'insegnante sulla base dei propri criteri e standard di prestazione

Cosa distingue una interrogazione da un test?


 somministrazione orale o scritta ?
 risposte precodificate o aperte ?
 supporto cartaceo o elettronico ?

Modalità attraverso cui si ottiene la confrontabilità dei voti (o punteggi)

EQUANIMITA'

STESSO
DOCENTE

Interrogazione ? Test
DOCENTI
DIVERSI

PROCEDURA
PROFESSIONALITA' IMPERSONALE
Questionari e test (3 / 9)

Affinche' una procedura impersonale occupi lo spazio di un'interrogazione è necessario


appurare che essa garantisca (almeno) un livello di confrontabilità dei voti (punteggi)
analogo (o superiore).....

Comprendere potenzialità e limiti di una tale procedura è indispensabile per


valutare pacatamente l'opportunità o meno del suo utilizzo...

Porre domande e registrare


le risposte è una cosa
semplice?
Un lungo percorso può iniziare Ovvero
"incidenti cognitivi"
chiedendosi: I dati "parlano" da soli? (Gobo, 1997, p.45)

Una stessa domanda può essere posta in molti modi diversi e il modo di porla (il fraseggio) influenza le risposte

Una stessa domanda, posta nello stesso modo può essere compresa in modo diverso da gruppi di persone diversi

Ad una stessa domanda si può rispondere in maniera diversa in funzione del contesto definito dal questionario

Gli effetti dovuti al contesto sono stati studiati tramite la messa a punto di un ampio disegno Un esempio...
sperimentale in cui una domanda sull'interesse delle persone per la politica (negli U.S.A.)
veniva posta agli intervistati prima e dopo altre domande (Zammuner V. L., 1996, pp. 87-93);
(l'esempio qui presentato è una semplificazione)

Etc.,etc., ... 20
Questionari e test (4 / 9) Esempio di distorsione indotta dal contesto: la stessa domanda viene posta nell'ambito dello stesso questionario
prima e dopo la domanda (B) contestualizzante...
2 DOMANDE
DOMANDA "A" DOMANDA "B" (B) contestualizzante;
costringe gli intervistati a
riflettere su un comportamento
<<Alcune persone seguono le vicende politiche la maggior parte che concretamente denota
del tempo anche quando non ci sono elezioni imminenti, interesse per le vicende politiche
mentre altre persone non sono molto interessate alla politica.
Lei direbbe di seguire le vicende politiche: <<Si ricorda come ha votato il suo rappresentante presso il Parlamento
(1) la maggior parte del tempo; in una o due leggi che siano state discusse negli ultimi due anni?
(2) in modo abbastanza frequente; (1) Si;
(3) solo qualche volta; (2) No.
(4) quasi mai>> Se si, quale legge ....... come ha votato .... >>

Campione 1
A_B
analogamente rappresentativi
della stessa popolazione 2 CAMPIONI (Diverso ordine di presentazione)
(anche se di numerosità diversa)
Campione 2 B_A
RISULTATI: Risposte alla domanda "A" (interesse per la politica)

frequenze Risposte alla Campione 1 Campione 2 Campione 1 Campione 2


frequenze
osservate domanda A A_B B_A attese A_B B_A
Interesse ALTO 654 249 603 300
(risposte=1 o 2) (72.03%) (55.09%) 66.41% 66.37%
Interesse BASSO 254 203 305 152
(risposte=3 o 4) (27.97%) (44.91%) 33.59% 33.62%
χ 2 = 38.8043 TOTALE 908 452
( pr . < .0.0001) (100.00%) (100.00%) 21
Questionari e test (5 / 9) "Teoria" e "Dati" condividono una stessa natura congetturale

<<I dati non esistono al di fuori delle operazioni che il ricercatore compie in rapporto a un
determinanto quadro di riferimento teorico>>

<<I cosiddetti "dati" non crescono nei prati e i ricercatori non li raccolgono, essi sono
piuttosto "costruiti" dal ricercatore stesso attraverso procedure di interpretazione e di
attribuzione di significato>>
trascrizione (su un qualche
Qualche definizione: definisce una qualche supporto) di un "fatto" (risultato
caratteristica dell’entità di un PROCESSO DI
(Oggetto) sotto osservazione DATO RILEVAZIONE)
CONCETTO, (Idea),
COSTRUTTO TEORICO,
TRATTO, PROPRIETA' insieme di REGOLE (algoritmo,
procedura) che governa la
rilevazione e che permette di
evento semplice, asserto rilevare lo STATO di un oggetto VARIABILE..
descrittivo intersoggettivamente DEFINIZIONE (o caso) rispetto ad una
FATTO condiviso (il valore segnato dalla OPERATIVA proprietà (trasformando
lancetta della bilancia; l'osservazione in un "fatto")
il contenuto del documento
amministrativo; la risposta scritta
sul foglio di carta; etc.)
<< [oggettività nella scienza] ... non
implica che lo scienziato si
distacchi freddamente dall’oggetto
dei suoi studi, né che egli tratti la
CONCETTO DATO gente come oggetti anziché come
persone. Essa non comporta
neppure che ciò che lo scienziato
osserva sia ciò che realmente
accade. Oggettività significa che
delle persone, che avessero
guardato sopra la spalla dello
ENTITA' (OGGETTO) STATO dell'OGGETTO scienziato mentre faceva
sotto osservazione (rispetto alla proprietà) l’osservazione,
avrebbero visto le stesse cose>>
(McBurney D.H., 1983, p.19).

DEFINIZIONE OPERATIVA
22
Questionari e test (6 / 9)
grandezza, generalmente indicata con una delle ultime lettere dell'alfabeto (x, y, z),
che può assumere tutti i valori appartenenti a un determinato insieme e che
rappresenta in generale tutti gli elementi di tale insieme
VARIABILE...

MUTABILE
sequenza ordinata e codificata di rilevazioni (osservazioni)  vettore (colonna) di una matrice dati

Il processo di rilevazione può riguardare:  UNA entità in UN arco temporale


statura
Renato ha una statura pari a 1.75 mt.  Renato 1.75

 UNA entità in PIU' archi temporali (processo DIACRONICO)


Stefano
(statura) T0 T1 T2 ...
T0 0.50
T1 0.67 Stefano 0.50 0.67 1.05 .......
T2 1.05 (statura)
.......... ......

 PIU' entità in PIU' archi temporali  PIU' entità in UN arco temporale (processo SINCRONICO)

T0 T1 T2 ..... statura

A ...
Renato 1.75
xA,0 xA,1 xA,2
Maria 1.63
B xB,0 xB,1 xB,2 ...
Giuseppe 1.94
C xC,0 xC,1 xC,2 ... .......... ......
23
.... .... ... ... ... esempi...
(Limitatamente a processi SINCRONICI) Questionari e test (7 / 9) Matrici elementari: "2-vie 1-modo"
TEORIA DEI DATI
(Cattel, 1940; Coombs, 1964; Carol, Arabie, 1980)
(Km.) Amsterdam Milano Roma Venezia

vettori matrice CxV


Insieme (collettivo) di 5 individui x w A Amsterdam 0 1130 1750 1430

 Alberto  23 M 23 M 


 Maria  18 F 18 F  Milano 1130 0 630 300
       
 Francesca  
 età (proprietà) ⇒ variabile " x"  21 F  21 F  Roma 1750 630 0 580
 Federico  genere (proprietà) ⇒ variabile " w"      
  19 M 19 M  Venezia 1430 300 580 0
 Anna  19  F  19 F 

Matrici elementari: "2-vie 2-modi"

un esempio...

Relazione ASIMMETRICA di APPARTENENZA (ad una classe di equivalenza) Relazione ASIMMETRICA di DOMINANZA [se = 1]

CxV D1, D2, D3, ... Domande Likert S1, S2, S3, ...
Stimoli Test

ident statura genere voto ident D1 D2 D3 ident S1 S2 S3


1 175 M 108 1 1 3 5 1 1 0 1
2 150 F 100 2 2 4 2 2 1 1 0
3 183 M 98 3 4 1 3 3 0 0 1
4 ... ... .... 4 ... ... .... 4 ... ... ....

24

CONDIZIONATA PER COLONNA CONDIZIONATA PER RIGA NON CONDIZIONATA


Questionari e test (8 / 9) Un esempio ... MATRICE DATI ELEMENTARE (2 VIE, 2 MODI)

Le elencherò alcuni comportamenti che le persone adottano per far fronte


Pensando ai prossimi 5 anni, ad un evento alluvionale con ai pericoli idrogeologici. Pensando ad una tale eventualità, Lei o qualcuno
frane e smottamenti che coinvolga la zona in cui abita della sua famiglia ...
quanto è PROBABILE che... ["SI", "NO"]
 Genere? ["per nulla", "poco", "abbastanza", "molto"]  (1) Ha seguito un corso di pronto soccorso?
 Età?  (1) viabilità interrotta...  (2) Tiene in efficienza (e/o in un luogo particolare) radio e torcia
 (2) servizi (luce, telefono, acqua, etc.) interrotti... elettrica funzionanti a pile?
 (3) suoi beni ... danneggiati...  (3) Ha messo da parte scorte di cibo e acqua?
 (4) sua abitazione principale danneggiata...  (4) Ha trascritto (in un luogo particolare) i numeri di telefono da
 (5) Lei, o persone care, subiscano danni fisici chiamare in caso di emergenza?
 .... etc. etc. (9 comportamenti)

condizionata condizionata <<NON>>


<<colonna>> <<riga>> condizionata
_N_ IDENT genere eta d12_3 d12_4 d12_5 d85_1 d85_2 d85_3 d85_4 d85_5
1 31 F 51 2 2 2 1 0 1 1 1
2 35 M 42 1 1 1 0 0 1 1 1
3 41 F 32 1 1 1 0 0 0 0 0
4 50 F 45 0 0 2 0 0 0 0 1
5 53 M 64 0 0 2 0 0 1 0 0
6 66 F 43 0 1 2 1 0 1 1 1
7 88 F 64 2 1 2 1 1 1 1 1
8 91 F 73 2 0 1 0 0 0 0 0
9 104 F 55 1 1 1 0 0 1 1 1
10 107 M 21 3 1 1 0 0 1 0 1
11 132 F 41 1 1 0 0 1 1 0
12 141 F 41 0 0 0 0 0 0 0 0
13 201 F 20 1 3 2 1 0 1 1 0
14 245 F 49 1 1 1 0 0 0 0 0
15 279 M 33 1 1 1 0 0 1 1 0
16 289 F 70 0 0 0 1 0 1 1 0
17 305 F 43 0 1 2 0 0 1 0 1
18 320 M 41 0 1 0 1 0 1 0 0
19 327 F 39 3 3 3 1 0 1 1 0
20 333 M 70 3 3 1 0 0 1 1 1
21 349 F 43 1 1 1 0 1 1 1 0
22 352 M 80 0 0 1 1 1 1 1 0
23 383 F 50 1 1 1 1 0 1 1 1
24 396 F 31 0 0 0 1 0 0 0 0
25 418 M 74 1 0 0 0 0 1 0 0
26 449 M 65 1 2 2 1 0 1 1 1
27 506 M 69 1 3 3 0 0 1 0 1
28 550 F 85 0 0 2 0 0 1 1 0
29 581 F 61 2 3 3 1 0 1 1 1
..... .... .... .... .... .... .... .... .... .... .... ....

25
Tratto da:
R. Miceli, "Gli abitanti della valle del Lys e il rischio idrogeologico",
Indagine psico-sociologica, 2006 (N = 407)
Questionari e test (9 / 9) Inoltre le matrici elementari si distinguono...

 PRIMARIE  PICO
Esempio di matrice derivata (micro  macro)
 SECONDARIE  MICRO

 DERIVATE  MACRO

--- Es. di matrice dati DERIVATA (versione elementare):  Tabella di contingenza

Rappresentazione dei dati individuali (2 variabili - X e Y - categoriali) in forma tabellare:

(frequenze; conteggi)
(esempio : f12 = 2)
Ident X Y (esempio : f 21 = 0)
1 1 2 X \ Y 1 2 .. K Tot.

2 1 2
1 f11 f12 .. f1K f1+
3 1 1
4 2 3 2 f21 f22 .. f22 f2+

5 3 1
... .. .. .. .. ...
6 3 3
7 H K H fH1 fH2 .. fHK fH+

… … …
Tot. f+1 f+2 .. f+K f++
N ... ...

26
Approccio
sperimentale
Il processo di rilevazione può essere svolto seguendo due approcci
e osservativo (per matrici di tipo: PRIMARIO-MICRO)
(1 / 9)

SPERIMENTALE OSSERVATIVO
Disegno CONTROLLO Rilevazione

VARIABILI MANIPOLAZIONE VARIABILI QUESTIONARIO


RILEVANTI RILEVANTI STRUTTURATO

CONCETTO DI DISEGNO STRATEGIE


CONCETTO DI MESSA A PUNTO
CONTROLLO CONTROLLO STRUMENTO DI STRATEGIE DEPURAZIONE
RILEVAZIONE

VARIABILI DI DEPURAZIONE VARIABILI DI


DISTURBO DISTURBO
TEST
ARTICOLAZIONE
(del disegno)

Possibilità di: Questionario strutturato:


 domande (generalmente) "chiuse"
 manipolare le (presunte) cause  comportamenti; opinioni; socio-demo; etc.
 far restare immutato tutto il resto (coeteris paribus)  assenza (a priori) di vincoli teorici
 definire il disegno più opportuno ("fra" , "intra", etc.)
Test:
 domande capaci di elicitare risposte interpretabili quantitativamente
SPERIMENTALE OSSERVATIVO
sulla base di criteri specifici o di standard prestazionali
 modello matematico-statistico ("regole") capaci di consentire il confronto
qunatitativo fra diversi individui e/o diverse occasioni
 TECNICHE DI CAMPIONAMENTO

 TIPI DI DISEGNO ("controllo" tramite assegnazione a gruppi)


27
Approccio
sperimentale SPERIMENTALE  ALCUNE TECNICHE DI CAMPIONAMENTO OSSERVATIVO
e osservativo
(2 / 9) Insieme comprendente la totalità di determinati eventi dotati di proprietà specifiche comuni
(Es.: "studenti maschi di psicologia"  3 proprietà)
FINITA --- INFINITA
"POPOLAZIONE" (la teoria statistica dei campioni è più semplice quando la popolazione è infinita)
("UNIVERSO")
Numerosità (n) del campione
Alcune distribuzioni (es.: t, chi-quadrato) sono diverse per piccoli o grandi campioni

Modalità di estrazione del campione


NON PROBABILISTICO
PROBABILISTICO (ogni unità ha una probabilità nota di essere estratta)

Parte limitata della popolazione (o dell'universo) che viene presa in esame


"CAMPIONE" [sottoinsieme "ORDINATO" di un insieme dato]

TECNICHE PER L'ESTRAZIONE DI CAMPIONI PROBABILISTICI

CASUALE SEMPLICE CASUALE A DUE (O PIÚ) STADI

(CON RIPETIZIONE o REINSERIMENTO) Si ottiene con due (o più) operazioni di


Le "prove" corrispondenti al numero di sorteggio: estrazione casuale delle unità
elementi (n) scelti per formare il "aggregate" (primo stadio o più); estrazione
campione sono indipendenti casuale degli ementi (secondo o ultimo stadio)

CASUALE STRATIFICATO

Si ottiene separando gli elementi della


"AD HOC"
popolazione in gruppi (o strati) disgiunti
e all'interno di ciascun strato si procede ?
al campionamento casuale semplice
28
Approccio
sperimentale SPERIMENTALE  TIPI DI DISEGNO ("controllo" tramite assegnazione CASUALE a gruppi)
e osservativo
(3 / 9)
Disegno: "FRA I SOGGETTI" (between)
dipendente esplicativa
IDENT TRATTAMENTO MISURAZIONE IN MATRICE DATI IDENT MISURAZIONE TRATT.
(A) (Y) (A)
1 y1 1 y1 a1
2 a1 y2
2 y2 a1
3 y3
3 y3 a1
4 y4
5 a2 y5 4 y4 a2
6 y6 5 y5 a2
6 y6 a2

Disegno: "ENTRO I SOGGETTI" (within)

La modalità “a1” del trattamento può anche


corrispondere a: “nessun trattamento” IN MATRICE DATI dipendente dipendente

IDENT TRATTAMENTO MISURAZIONE TRATTAMENTO MISURAZIONE IDENT MISURAZIONE MISURAZIONE


(A) (A) Y1 Y2

1 y11 y21 1 y11 y21


2 y12 y22 2 y12 y22
3 a1 y13 a2 y23
3 y13 y23
4 y14 y24
5 y15 y25 4 y14 y24
6 y16 y26 5 y15 y25
6 y16 y26
t1 t2
(TEMPO) 29
Approccio
sperimentale SPERIMENTALE  TIPI DI DISEGNO ("controllo" tramite assegnazione CASUALE a gruppi)
e osservativo
(4 / 9)
Disegno: "IBRIDO" (Pre-Post)

La modalità “a1” del trattamento può anche


corrispondere a: “nessun trattamento” IN MATRICE DATI dipendente dipendente esplicativa

IDENT MISURAZIONE MISURAZIONE TRATT.


IDENT MISURAZIONE TRATTAMENTO MISURAZIONE
(A) Y1 Y2 A

1 y11 y21 1 y11 y21 a1


2 y12 y22 2 y12 y22 a1
a1
3 y13 y23 3 y13 y23 a1
4 y14 y24
4 y14 y24 a2
5 y15 a2 y25
6 y16 y26 5 y15 y25 a2
6 y16 y26 a2
t1 t2
(TEMPO)

Esempio: Disegno IBRIDO MULTIVARIATO PRE-POST TEST

Una ditta di servizi desidera sapere se l'introduzione di una novità tecnologica (a2) influisce posititvamente sulla
soddisfazione dei suoi clienti. Due campioni rappresentativi di clienti vengono estratti rispettivamente da due zone
territorialmente distinte (Z e W). La soddisfazione viene misurata tramite due indicatori che riguardano:
1) la percezione di efficienza del servizio (YE);
2) la soddisfazione inerente i costi del servizio (YC).

t1) Tutti gli individui (di Z e W) vengono misurati rispetto agli indicatori di soddisfazione (YE e YC)  PRE-TEST
t1 - t2) In Z il servizio resta immutato; in W viene introdotta la modifica tecnologica (a2)  TRATTAMENTO
t2) Tutti gli stessi individui vengono nuovamente misurati (con gli stessi strumenti)  POST-TEST

[Ulteriore variabile di disturbo controllata: eventuale differente grado "di base" della soddisfazione in Z e W]

Esempio: segue... 30
Approccio
sperimentale SPERIMENTALE  TIPI DI DISEGNO ("controllo" tramite assegnazione CASUALE a gruppi)
e osservativo
(5 / 9) Esempio: Disegno IBRIDO MULTIVARIATO PRE-POST TEST

 TERRITORIO (campioni): zona Z e W in cui si svolge l'esperimento;  MISURE: yE e yC rispettivamente soddisfazione per Efficienza e per Costi)
 TRATTAMENTO: a1 = nulla; a2 = innovazione tecnologica;  TEMPO: fasi temporali 1 e 2 di esecuzione dell'esperimento

 INDIVIDUI: identificati dagli indici i e j (1 ≤ i ≤ NZ ); (1 ≤ j ≤ NW ); dove NZ e NW sono le numerosità dei campioni nelle due zone
Disegno che conduce ad una analisi dei dati che considera:
 più variabili esplicative o indipendenti (analisi multivariata);  effetti "entro" i soggetti (misure ripetute)

1 2 3 4 5 (colonne)

IDENT MISURAZIONE MISURAZIONE TRATTAMENTO MISURAZIONE MISURAZIONE


(Campione-Zona)

....
Z y 1EZ
i y 1CZ
i
a1 y 2EZi y 2CZi 1
... (Righe)
...
W y 1EW
j y 1CW
j
a2 y 2EW
j y 2CW
j
2
...

t1 t2
(TEMPO)
Disegno che può essere visto come una "combinazione" dei tipi "base" ... considerando solo certe righe e/o colonne

2 1 3 4 "ENTRO" 1 2 3 4 "FRA"

1 2 1 3 4 "IBRIDO"
31

E anche... 1 2 3 4 5 "MULTIVARIATO (senza ripetizione)"


Approccio assegnazione: CASUALE
sperimentale SPERIMENTALE  ALCUNI ESEMPI di DISEGNO FRA I SOGGETTI
struttura dati tipo: BILANCIATO
e osservativo
(6 / 9) MANIPOLAZIONE VARIABILI DI PRIMARIO INTERESSE CONTROLLO VARIABILI DI DISTURBO

DISEGNO CON ASSEGNAZIONE CASUALE COMPLETA (CR-p) (Completely Randomized) (CR-3)


(nessuna variabile di disturbo ....)

Esempio (di fantasia)


Valutazione efficienza di 3 metodi di insegnamento (A) per il perfezionamento della capacità di lettura (adulti, diplomati).
(Numero totale degli individui coinvolti nell'esperimento = 45)

y i,h ; dove : per N (1 ≤ i ≤ 45 ); per A (1 ≤ h ≤ 3)


TRATTAMENTO MISURAZIONE
(A)

y1,1=700
1 y2,1=640
...
y15,1=850
y16,2=570
2 y17,2=580
... H0 :µ + ,1 = µ + ,2 = µ + ,3 (Ovvero: i diversi metodi NON hanno alcun effetto)

y30,2=460
y31,3=610
3 y32,3=580
...
y45,3=550
32
Approccio assegnazione: CASUALE
sperimentale SPERIMENTALE  ALCUNI ESEMPI di DISEGNO FRA I SOGGETTI
struttura dati tipo: BILANCIATO
e osservativo
(7 / 9)

DISEGNO A BLOCCHI CON ASSEGNAZIONE CASUALE (RB-p) (Randomized Block) (RB-3)


(1 variabile di disturbo ... "C" = "esperienza di lettura pregressa")

Esempio (di fantasia)


Valutazione efficienza di 3 metodi di insegnamento (A) per il perfezionamento della capacità di lettura (adulti, diplomati).
Controllo (non manipolabile) = "esperienza pregressa"  N° libri letti ultimi 3 anni (categorizzata in 5 livelli)
(Numero totale degli individui coinvolti nell'esperimento = 45)
(9 individui in ogni blocco... 3 individui in ogni cella)

y i,h, j; dove : per N (1 ≤ i ≤ 45 );


<= (variabile di disturbo C) =>

TRATTAMENTO BLOCCO 1 BLOCCO 2 BLOCCO ... BLOCCO 5


per A (1 ≤ h ≤ 3); per C (1 ≤ j ≤ 5 )
(A)

y1,1,1=700 y4,1,2=690 y13,1,5=730


1 y2,1,1=640 y5,1,2=670 ....... y14,1,5=790 H0 :µ + ,1, + = µ + ,2, + = µ + ,3, +
y3,1,1=850 y6,1,2=950 y15,1,5=890 (Ovvero: i diversi metodi NON hanno alcun effetto)

y16,2,1=600 y19,2,2=610 y28,2,5=710


2 y17,2,1=590 y20,2,2=580 ....... y29,2,5=680
y18,2,1=750 y21,2,2=850 y30,2,5=870
H0 :µ + , + ,1 = µ + , + ,2 = ... = µ + , + ,5
y31,3,1=550 y34,3,2=560 y43,3,5=540
3 (Ovvero: i diversi livelli di esperienza pregressa
y32,3,1=540 y35,3,2=550 ....... y44,3,5=500 NON hanno alcun effetto)
y33,3,1=650 y36,3,2=660 y45,3,5=670

33
 ALCUNI ESEMPI di DISEGNO FRA I SOGGETTI Se le lettere dell'alfabeto
Approccio
sperimentale SPERIMENTALE latino fossero 3...
assegnazione: CASUALE struttura dati tipo: BILANCIATO
e osservativo
(8 / 9)
DISEGNO A QUADRATO LATINO (LS-p) (Latin Square) (LS-3) P Q R
(2 variabili di disturbo ... "C" e "D" (stesso numero di modalità) Q
"C" = "esperienza di lettura pregressa" (3 livelli)
R P
"D" = "tipo di diploma conseguito" (3 livelli) R P Q
Esempio (di fantasia)
Valutazione efficienza di 3 metodi di insegnamento (A) per il perfezionamento della capacità di lettura (adulti, diplomati).
Controllo (non manipolabile) = "esperienza pregressa"  N° libri letti ultimi 3 anni (categorizzata in 3 livelli)
Controllo (non manipolabile) = "tipo diploma"  Liceo, Tecnici, Professionale (categorizzata in 3 livelli)
(Numero totale degli individui coinvolti nell'esperimento = 45)
(5 individui in ogni cella... Ad ogni cella viene assegnato uno dei 3 livelli del Trattamento "A")

<= tipo diploma =>


y i,h, j,k ; dove : per N (1 ≤ i ≤ 45 ); per A (1 ≤ h ≤ 3);
C\D 1 2 3
per C (1 ≤ j ≤ 3); per D (1 ≤ k ≤ 3)
e A=1 A=2 A=3
s
p
1 y1,1,1,1=700 y6,2,1,2=690 y11,3,1,3=730 H0 :µ + ,1, + , + = µ + ,2, + , + = µ + ,3, + , +
e
r
...... ...... ......
(Ovvero: i diversi metodi NON hanno alcun effetto)
i y5,1,1,1=850 y10,2,1,2=950 y15,3,1,3=890
e
n A=2 A=3 A=1
z
a 2 y16,2,2,1=600 y21,3,2,2=610 y26,1,2,3=710 H0 :µ + , + ,1, + = µ + , + ,2, + = µ + , + ,3, +
p
...... ...... ......
(Ovvero: i diversi livelli di esperienza pregressa NON hanno alcun effetto)
r y20,2,2,1=750 y25,3,2,2=850 y30,1,2,3=870
e
g
r
A=3 A=1 A=2
e 3 y31,3,3,1=550 y36,1,3,2=560 y41,2,3,3=540 H0 :µ + , + , + ,1 = µ + , + , + ,2 = µ + , + , + ,3
s
s ...... ...... ...... (Ovvero: i diversi livelli di diploma conseguito NON hanno alcun effetto)
a
y35,3,3,1=650 y40,1,3,2=660 y45,2,3,3=670
34
Approccio assegnazione: CASUALE
sperimentale SPERIMENTALE  ALCUNI ESEMPI di DISEGNO FRA I SOGGETTI
struttura dati tipo: BILANCIATO
e osservativo
(9 / 9)
DISEGNO FATTORIALE (CFR-pq) (Completely Randomized Factorial) (CRF-32)
(2 variabili TRATTAMENTO... "A" e "B" nessuna variabile di disturbo)
"A" = "metodo di insegnamento" (3 livelli)
"B" = "docente" (2 livelli) ... ciascun docente impartisce lezioni con i diversi metodi

Esempio (di fantasia)


Valutazione efficienza di 3 metodi di insegnamento (A) per il perfezionamento della capacità di lettura (adulti, diplomati),
tramite lezioni impartite – con i diversi metodi - da 2 diversi docenti (B)
(Numero totale degli individui coinvolti nell'esperimento = 30)
(5 individui in ognuna delle 6 celle definite dall'incrocio dei due trattamenti)

y i,h, j; dove : per N (1 ≤ i ≤ 30); per A (1 ≤ h ≤ 3); per B (1 ≤ j ≤ 2)


A\B 1 2

y1,1,1=700 y6,1,2=730
1 H0 :µ + ,1, + = µ + ,2, + = µ + ,3, + (Ovvero: i diversi metodi NON hanno alcun effetto)
y2,1,1=640 y7,1,2=590
..... .....
H0 :µ + , + ,1 = µ + , + ,2 (Ovvero: i diversi docenti NON hanno alcun effetto)
y5,1,1=850 y10,1,2=790
Inoltre è possibile controllare l'effetto congiunto dei due trattamenti...
y11,2,1=570 y16,2,2=650 ovvero l'effetto: INTERAZIONE
2 y12,2,1=580 y17,2,2=850 H 0 : µ + h j − µ + h′ j − µ + h j ′ + µ + h′ j ′ = 0
..... .....
y15,2,1=460 y20,2,2=430


per ogni h,h ′,j e j ′, con h ≠ h ′ e j ≠ j ′ 

y21,3,1=610 y26,3,2=670 Si ha la presenza di un effetto interazione quando le


3 y22,3,1=580 y26,3,2=640 variazioni (attese sulla y) dovute ai livelli di un trattamento
sono differenti per due o più livelli dell’altro trattamento
..... .....
y25,3,1=550 y30,3,2=710
35
Validità della ricerca
(1 / 6)

La "VALIDITÁ della ricerca" riguarda gli asserti che l'attività di studio produce; questi ultimi
sono tanto più validi quanto più sono il frutto di procedure rigorose, controllate (ovvero in cui
sono state adottate le più adeguate forme di controllo) e controllabili (da terzi)

La "VALIDITÁ della ricerca" (quindi delle proposizioni che essa produce) deve essere
considerata in funzione degli SCOPI che la ricerca stessa si è data

DESCRIVERE (Com'é Y ?)

Una utile classificazione degli SCOPI SPIEGARE (Perché Y ?)

INTERPRETARE - MISURARE (Cos'é Y ?)

Generalmente si considerano cinque aspetti (tipi) di validità

Nell'ambito di operazioni di "spiegazione", riguarda la "genuinità" della


INTERNA relazione (causale o meno)
VALIDITÁ

ESTERNA Riguarda la generalizzabilità dei risultati ad altri contesti o individui

Riguarda le DEFINIZIONI OPERATIVE adottate rispetto ai costrutti


di COSTRUTTO (concetti) utilizzati

Riguarda la dimensione della componente erratica (caso) del modello/i


STATISTICA utilizzato/i

Riguarda una variante della validità esterna con specifico riferimento alla
ECOLOGICA generalizzabilità alla vita quotidiana e agli studi sulla percezione

36
Validità della ricerca
(2 / 6)
(BREVE DIGRESSIONE) Può essere opportuno precisare il significato di alcuni termini...

RELAZIONE Si intende il RAPPORTO (o connessione) fra due variabili (che rimandano ai relativi
concetti); generalmente ci si riferisce a variabili espresse almeno ad un livello di scala
di intervalli (il termine "connessione" - più generale - può essere usato anche per
variabili categoriali

CORRELAZIONE Il termine rimanda all'uso del coefficiente (r) di Bravais- Pearson, pertanto si
riferisce esclusivamente a RELAZIONI LINEARI fra variabili espresse almeno
ad un livello di scala di intervalli

Rappresentazione grafica di RELAZIONI x Y


(simmetria)
RELAZIONE L'espressione indica una relazione alla quale è stato attribuito
di SPIEGAZIONE o di DIPENDENZA un verso (una direzione); si riferisce alla definizione di
un'ipotesi asimmetrica e alla possibilità di controllarla; in
generale si fa riferimento ad un dispositivo (anche molto
complesso) che tenta di rispondere ad un "perché y ?"
facendo in modo di RENDERE CONTO (SPIEGARE) la variabilità
osservata in y con quella osservata in x; giungendo ad
affermazioni del tipo <<SE ...., ALLORA ....>>; NON implica
necessariamente un RAPPORTO di CAUSA-EFFETTO; i
fenomeni coinvolti possono essere concomitanti...
Es.: ETÁ (x) → AUTONOMIA DECISIONALE (y)

RELAZIONE CAUSALE L'espressione restringe l'ambito delle relazioni di spiegazione a quelle in


cui esiste una sensata sequenza temporale: la CAUSA (x) deve precedere
nel tempo l'effetto (y).
Es.: INTENSITÁ_ADDESTRAMENTO (x) → SUCCESSO_SCOLASTICO (y)

Rappresentazione grafica di RELAZIONI


di DIPENDENZA o CAUSALI x Y
(asimmetria)
37
Validità della ricerca
(3 / 6) VALIDITÁ INTERNA
(introduzione della "terza variabile" per "spiegare" una relazione bivariata)

Operando con due sole variabili (x e y) tutto ciò che si può fare è DESCRIVERE la relazione e
formulare una congettura sul tipo di legame che le unisce. Per CONTROLLARE la congettura
(sottoporla ad un "test") è necessario - come minimo - introdurre nell'analisi una TERZA variabile

La maggior parte delle congetture sulle relazioni fra variabili sono riconducibili a due tipi logici:

Tipo A Tipo B
(y DIPENDE da x ?) (y e x si comportano come se DIPENDESSERO
da una medesima variabile ?)
x
?
? ? ?

Y
x Y
due variabili (semanticamente autonome,
correlate o no); la prima (y) è assunta due variabili (correlate, semanticamente
come variabile DIPENDENTE, la autonome o no); si assume che fra esse
seconda (x) come "candidata" al ruolo di non vi sia alcun legame diretto
INDIPENDENTE

"modelli di misurazione" 38
"modelli causali"
(analisi fattoriale
(path analysis; equazioni
confermativa; teoria dei
strutturali; etc.)
test; etc.)

Per ulteriori approfondimenti s: L. Ricolfi (1993) Tre Variabili. Un'introduzione all'analisi multivariata, Milano, Franco Angeli
Validità della ricerca
(4 / 6) VALIDITÁ INTERNA
(introduzione della "terza variabile" per "spiegare" una relazione bivariata)
→ Limitatamente alle congetture di tipo A e ryx ≠ 0

L'introduzione di una terza variabile (z) comporta la possibilità delle seguenti relazioni

Relazione originaria Relazione originaria Relazione originaria


AUTONOMA (genuina) MEDIATA (indiretta) SPURIA (non genuina)

x x x x

z z z z

Y Y Y Y
esempi

Una variante di una relazione CAUSALE INDIRETTA o MEDIATA viene


talvolta indicata con il termine di MODERATA e così raffigurata;
x l'introduzione della terza variabile (z) può confermare la relazione
originaria (in tal caso si tratterebbe di una relazione "genuina") o può
annullare la relazione originaria (come nella "mediazione").
z La variante terminologica viene invocata quando la terza variabile (z)
NON può avere un effetto CAUSALE sulla y. Per esempio: 39
l'esposizione al sole (x) ha un effetto causale sull'abbronzatura (y).
L'uso di creme protettive (z) diminuisce l'effetto dell'esposizione
Y (modera la relazione), ma le creme protettive non possono causare
l'abbronzatura in assenza di esposizione al sole.
Validità della ricerca
(5 / 6) Esempio di relazione originaria MEDIATA

Relazione MEDIATA o INDIRETTA: effetto della pioggia sulla depressione (Brewer, 2000)

pioggia (x) pioggia (x)


+
+ isolamento
sociale (z)

+
depressione (y) depressione (y)

40
Validità della ricerca 41
(6 /6) Esempio di relazione originaria SPURIA

Relazione SPURIA o NON GENUINA: il paradosso delle cicogne e dei bambini ( Lazarsfeld, 1955)
<<nelle zone in cui vi sono più cicogne nascono più bambini>>
ANALISI
BIVARIATA Y = numero di bambini nati
X = numero di cicogne
Z = tipo di zona ( U  Urbana; R  Rurale)

N° cicogne
(x)

tipo zona
(z)

N° nati
(y)

ANALISI
MULTIVARIATA
Attendibilità e validità
misurazione  variabili: manifeste/latenti  dimensionalità  attendibilità  validità
della misurazione (1 / 12)
variabili: manifeste/latenti 42

Si riferiscono a costrutti teorici (proprietà)


DIRETTAMENTE OSSERVABILI
variabili manifeste • per es. proprietà (degli individui) come: peso, altezza, età,
condizione professionale, accordo/disaccordo rispetto ad una certa
affermazione, comportamento attuato in una data situazione, etc.

• sono tutte proprietà ben definite (ampia condivisione a livello di


definizione teorica e – generalmente – anche di def. operativa)
Strumenti complessi (modelli, test) che:

 STABILISCONO LEGAMINella (nessi causali


scienza o dispesso
si opera indicazione)
con costrutti teorici (proprietà)
fra osservazioni empiriche (indirette) e il costrutto teorico
NON DIRETTAMENTE OSSERVABILI
 per es. proprietà (generalmente mentali degli individui) come: le abilità, gli
 PRODUCONO (come risultato)
atteggiamenti, i valori, leVARIABILI
percezioni, leLATENTI
aspettative, etc.

 POSSONO PRODURRE
 complessitàMISURE
del costrutto e/o scarsa condivisione su def. operativa
(quando – tali variabili -godono di specifiche proprietà formali)
 non sono rilevabili sulla base di un'osservazione diretta (es.:risposta a una domanda)

 necessitano di un INSIEME di (Analogia)


fatti (di variabili manifeste)
[anche per La primaalmisurazione
giungere scientifica
semplice confronto ordinaledi una distanza
(abilità dell'individuo a > b)]
cosmica, quella della CIRCONFERENZA
TERRESTRE, fu eseguita da Eratostene di Cirene,
 richiedono
nella240
messa a punto
a.C., di COMPLESSI
tramite STRUMENTI
OSSERVAZIONI (di rilevazione e di analisi)
EMPIRICHE
 tanto più sofisticati quanto più:
INDIRETTE ...
. è controversa la corrispondenza Vaifra
a...fatti osservabili e proprietà (validità)
DIGRESSIONE (Eratostene)
.. è alta la precisione desiderata dello strumento (attendibilità)
variabili latenti ... è elevato il 'livello di scala' desiderato (per la varibile ottenuta)
Attendibilità e validità
misurazione  variabili: manifeste/latenti  dimensionalità  attendibilità  validità
della misurazione (2 /12)

dimensionalità dei costrutti UN ESEMPIO: un fatto un dato  tanti fatti un dato

 un concetto (o un tratto degli individui) generale e articolato può essere rilevato


tramite un'unica domanda diretta ed esplicita?
Es.: abilità di far di conto con la tabellina pitagorica

PER SAPERE QUANTO E'


PREPARATO

Rispondi alle seguenti domande:


<<Quanto ti senti preparato  2x5=
sulla tabellina pitagorica?>>  7x9=
 6x7=
 molti "fatti" permettono di ottenere un dato....  etc...

(1 = risposta esatta; 0 = risposta errata)

43
Attendibilità e validità
misurazione  variabili: manifeste/latenti  dimensionalità  attendibilità  validità
della misurazione (3 /12)

Es.: abilità di far di conto con la tabellina pitagorica dimensionalità dei costrutti

Rispondi alle seguenti domande:


 2x5=
 7x9=
VIOLAZIONE DI
 6x7=
UNIDIMENSIONALITÁ
 In che anno nacque Dante Alighieri?
 5x3=
 etc..

2 domande...
Es.: prudenza degli individui

"Salendo in automobile lei ritiene si debbano


allacciare le cinture di sicurezza?" SONO INDICATORI
DELLO STESSO
"Salendo in automobile lei allaccia CONCETTO?
abitualmente le cinture di sicurezza?"

Definizione
del concetto...

<<... Quando si dice che un uomo è prudente, significa che egli adotta un certo numero di comportamenti
caratteristici della prudenza: che contrae assicurazioni, che non punta tutto su un solo cavallo, che non si
getta a occhi chiusi in un affare ... Il termine "prudente" è così un modo pratico di esprimere astrattamente
un aspetto comune alle sue azioni abituali ... Vi sono nel suo sistema psicofisico dei caratteri che lo portano
ad agire prudentemente ...>> (tratto da: William James, The Meaning of Truth; in Lazarsfeld, 1969)

44
Attendibilità e validità
misurazione  variabili: manifeste/latenti  dimensionalità  attendibilità  validità
della misurazione (4 /12)

Definito il concetto, si possono predisporre alcune domande inerenti dimensionalità dei costrutti
ai comportamenti della vita quotidiana; per esempio...

 "Salendo in automobile lei allaccia abitualmente le cinture di sicurezza?"


 "In automobile lei rispetta i limiti di velocità?"
 "Lei guida abitualmente a fari spenti nella notte?"
 "Lei fuma tabacco?"
 "Lei consuma grandi quantità di dolci?"
 "Lei gioca d'azzardo?"
 "Lei contrae assicurazioni?"
 etc.. etc..

?
TIZIO = CAIO
molto prudente rispetto al patrimonio economico un pò prudente rispetto al patrimonio economico
molto imprudente rispetto alla sua salute un pò prudente rispetto alla sua salute

 alcuni concetti (come quello di prudenza) sono così complessi che il loro processo di
trasformazione in dati (la loro operativizzazione) richiede una pluralità di dimensioni

guida auto
patrimonio

etc., etc.

salute
45
Attendibilità e validità
della misurazione (5 /12)
misurazione: attendibilità  validità

• La VALIDITÁ (di uno strumento) è il grado in cui lo strumento misura ciò che intende misurare
• L'ATTENDIBILITÁ è il grado di concordanza fra misurazioni indipendenti dello stesso costrutto

Generalmente una misura NON ATTENDIBILE è anche NON


VALIDA
(l'attendibilità è condizione necessaria, ma non sufficiente per la validità)

Aspetti dell'attendibilità sono: PRECISIONE e STABILITÁ (nel tempo)

Aspetti della validità sono (schematicamente):

CONTENUTO = grado in cui gli agenti elicitanti la proprietà (ITEM) sono rappresentativi dell'universo degli agenti per
quella proprietà
FACCIATA = grado in cui gli agenti elicitanti la proprietà (ITEM) sembrano (SIC!) appropriati
CRITERIO = grado di associazione fra la misurazione del costrutto e misurazioni di altri costrutti che possono essere
considerati come riferimento esterno
 PREDITTIVA (se intervine un lasso di tempo fra la misura e il rifeirmento esterno)
 CONCORRENTE (quando le misure coinvolte sono concomitanti)
COSTRUTTO = grado in cui la misura riflette accuratamente il costrutto che si intende misurare
 CONVERGENTE (presenza di relazione con misurazioni diverse dello stesso costrutto)
 DISCRIMINANTE (assenza di relazione con misurazioni inerenti costrutti diversi)
NOMOLOGICA = grado in cui la misurazione del costrutto si inserisce in una serie di relazioni (predittive) con
costrutti affini e/o con criteri di riferimento

46
Attendibilità e validità
della misurazione (6 /12) misurazione  attendibilità (teoria classica)

Il punteggio ottenuto tramite la misurazione (X) è sempre composto da:


una componente VERA (V) e una componente d'ERRORE (E); X =V +E
(assumendo che l'errore di misurazione sia indipendente dal valore vero)
(Cov V ,E = 0)

Analogamente la varianza del punteggio osservato (su n osservazioni): σ X2 = σ V2 + σ E2


σ V2 σ E2 σ V2 σ E2
 Dividendo entrambi i termini dell'equazione 1 = 2 + 2 ; ovvero : 2 = 1 − 2
per( σ2x) si ottiene: σX σX σX σX
L'ATTENDIBILITÁ (rtt) può essere definita come RAPPORTO fra VARIANZA VERA e OSSERVATA
(quota di varianza vera contenuta nella varianza osservata)

σ V2 σ E2 (0 ≤ rtt ≤ 1)
rtt = 2 rtt = 1 − 2 Coefficiente di determinazione
σX σX

Due misure di attendibilità come coerenza (o consistenza) interna

Scala (Test) Osservatori (giudici)


insieme di ITEM 2 (o più) valutatori

47

α di Cronbach K di Cohen
Attendibilità e validità
della misurazione (7 /12)
misurazione  attendibilità α di Cronbach

Per ottenere un punteggio complessivo, ha senso sommare fra loro solo Item (molto) interrelati
Il coefficiente α fornisce una stima dell'attendibilità in termini di coerenza interna del test
Il coefficiente α può essere pensato come una correlazione media degli item entro il test

Si considerino K item e la nota relazione fra punteggio osservato (X), X j = V j + E j ; (dove : 1 ≤ j ≤ K )


punteggio vero (V) ed errore di misurazione (E)

Gli errori di misurazione (Ej) sono indipendenti fra loro e dai valori veri (Vj)

Siano così definiti il punteggio totale osservato e il punteggio totale vero: X 0 = ∑ X j ;V0 = ∑V j
j j

(K − 1)∑ σ 2V j ≥ ∑ cov(Vi ,V j )
∑ cov(Vi ,V j )
Dato che: Un limite inferiore per σ 2V0 K
j i≠ j è dato da : K − 1 i≠ j

Assumendo : Cov (X i , X j ) = Cov (Vi ,V j ); per i ≠ j , un limite inferiore per il


σ 2V0
coefficiente di attendibilità di : 2 è dato dal coefficiente α di Cronbach.. .
σ X0

 K 
∑ cov(X , X )
i j
 K  ∑σ Xj 
2

α = 
i≠ j
=  1−
j 
 K − 1  σ 2X0  K − 1  σ X0 
2

continua...

48
Attendibilità e validità
della misurazione (8 /12)
misurazione  attendibilità α di Cronbach

Se le varianze degli item variano in maniera ampia è conveniente standardizzare gli item, prima di calcolare α
α raggiunge il valore massimo 1 quando la correlazione fra ogni coppia di item è 1
In presenza di correlazioni negative fra coppie di item α può assumere valori negativi
Se gli item sono dicotomici, α è equivalente alla misura di attendibilità di Kuder-Richardson (KR-20)
Per valutare quanto ciascun item rispecchi l'attendibilità della scala, si calcola un coefficiente α
(indipendentemente per ciascun item) dopo aver cancellato dalla scala quell'item

 α relativo a tutti gli item ECCETTO l'i-esimo item è dato da:

 K −1

 K − 1 
 ∑ σ 2
Xj 
αi =  j ≠i 
  1 − K −1 
K − 2 σ 2∑ X j
 
 j ≠i 

Se α CRESCE dopo che un item è stato cancellato dalla scala, si può ritenere che quell'item
NON è fortemente CORRELATO con gli altri

Se α DECRESCE si può ritenere che quell'item È fortemente CORRELATO con gli altri

Esempio continua...

49
Attendibilità e validità misurazione  attendibilità Esempio tratto da ... Miceli, R., Sotgiu, I., & Settanni, M. (2008).
della misurazione (9 /12) Disaster preparedness and perception of flood risk:
A study in an alpine valley in Italy
PERCEZIONE DEL RISCHIO IDROGEOLOGICO
α di Cronbach Journal of Environmental Psychology 28, 164-173.

(D11_1-D11_5) VALUTAZIONE COGNITIVA... N = 379 (D12_1-D12_5) VALUTAZIONE EMOTIVA...

Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE
con FRANE e smottamenti che coinvolga la zona in cui abita con FRANE e smottamenti che coinvolga la zona in cui abita
quanto è PROBABILE che... quanto è PREOCCUPATO/A che...
["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3] ["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3]

 viabilità interrotta...  viabilità interrotta...


 servizi (luce, telefono, acqua, etc.) interrotti...  servizi (luce, telefono, acqua, etc.) interrotti...
 suoi beni ... danneggiati...  suoi beni ... danneggiati...
 sua abitazione principale danneggiata...  sua abitazione principale danneggiata...
 Lei, o persone care, subiscano danni fisici  Lei, o persone care, subiscano danni fisici
Variable N Mean Std Dev Sum Minimum Maximum

d11_1 379 1.45383 1.03630 551.00000 0 3.00000


Cronbach Coefficient Alpha
d11_2 379 1.81794 0.93497 689.00000 0 3.00000
d11_3 379 1.55673 1.02034 590.00000 0 3.00000
d11_4 379 1.81530 1.08021 688.00000 0 3.00000 Variables Alpha
d11_5
d12_1
379
379
2.04485
1.45910
1.03412
1.04162
775.00000
553.00000
0
0
3.00000
3.00000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
d12_2 379 2.08443 0.81536 790.00000 0 3.00000 Raw 0.771568
d12_3 379 1.33245 0.91158 505.00000 0 3.00000
d12_4 379 1.33773 0.93827 507.00000 0 3.00000 Standardized 0.775442
d12_5 379 1.48285 0.89773 562.00000 0 3.00000

Cronbach Coefficient Alpha with Deleted Variable

Raw Variables Standardized Variables

Deleted Correlation Correlation


Variable with Total Alpha with Total Alpha

?
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
d11_1 0.137704 0.792294 0.146843 0.792814
d11_2 0.532856 0.740070 0.529757 0.744839
d11_3 0.575723 0.732727 0.566770 0.739863
d11_4 0.677670 0.715834 0.670265 0.725619

?
d11_5 0.609470 0.727500 0.603324 0.734888
d12_1 -.046961 0.815073 -.047664 0.814855
d12_2 0.332153 0.764587 0.339227 0.769495 50
d12_3 0.551915 0.738056 0.557794 0.741075
d12_4 0.622569 0.728094 0.629054 0.731349
d12_5 0.499762 0.744861 0.503281 0.748361
Attendibilità e validità
misurazione  attendibilità K di Cohen Esempio
della misurazione (10 /12)

51
Misura di concordanza per varibili categoriali (ACCORDO FRA GIUDICI) -- (J. Cohen, 1960)

Due psicologi clinici sono chiamati ad esprimere (in modo indipendente) la diagnosi su 200 pazienti;
essi devono stabilire a quale fra le seguenti categorie appartiene ciascun paziente:
schizofrenico; nevrotico; danno cerebrale.
Frequenze Osservate Frequenze Attese (Indipendenza)

A(Giudice_1) B(Giudice_2) A(Giudice_1) B(Giudice_2)


Frequenza‚Schizof.‚Nevrot. ‚Danno C.‚ Totale Previsto ‚Schizof.‚Nevrot. ‚Danno C.‚ Totale
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Schizof. ‚ 50 ‚ 26 ‚ 24 ‚ 100 Schizof. ‚ 40 ‚ 30 ‚ 30 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Nevrot. ‚ 24 ‚ 4 ‚ 32 ‚ 60 Nevrot. ‚ 24 ‚ 18 ‚ 18 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Danno C. ‚ 6 ‚ 30 ‚ 4 ‚ 40 Danno C. ‚ 16 ‚ 12 ‚ 12 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 80 60 60 200 Totale 80 60 60 200

Misure di Associazione Proporzioni


STATISTICHE PER LA TABELLA DI A PER B A(Giudice_1) B(Giudice_2)
Statistica DF Valore Prob Percent ‚Schizof.‚Nevrot. ‚Danno C.‚ Totale
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Chi quadro 4 64.594 0.001 Schizof. ‚ 0.25 ‚ 0.13 ‚ 0.12 ‚ 0.50 ACCORDO
Likelihood Ratio Chi-Square 4 63.372 0.001
INFERIORE
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
(a quanto
Mantel-Haenszel Chi-Square 1 3.830 0.050 Nevrot. ‚ 0.12 ‚ 0.02 ‚ 0.16 ‚ 0.30 previsto dal)
Phi Coefficient 0.568 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ CASO
Contingency Coefficient 0.494 Danno C. ‚ 0.03 ‚ 0.15 ‚ 0.02 ‚ 0.20
Cramer's V 0.402 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
continua...
Sample Size = 200 Totale 0.40 0.30 0.30 1.00

I J I J
Po = 0.25 + 0.02 + 0.02 = 0.29;
Po = ∑∑ pij ; Pc = ∑∑ pˆ ij ; ( per i = j )
Dove : Po = ACCORDO OSSERVATO (proporzioni)
Pc = ACCORDO ATTESO (proporzioni)
i =1 j =1 i =1 j =1 Pc = 0.20 + 0.09 + 0.06 = 0.35
Attendibilità e validità
della misurazione (11 /12) K di Cohen Tre assunti:
1) Le unità (nell'esempio i pazienti) sono indipendenti
misurazione  attendibilità 2) Le categorie rispettano i requisiti della logica classica
3) I giudici operano in modo indipendente

nell'esempio c'é associazione, ma – "a occhio" - si vede che non c'é accordo
CHI-QUADRO (e misure derivate) sono INADEGUATE

Il K-Cohen si limita a considerare la DIAGONALE PRINCIPALE e confronta l'accordo complessivo


osservato con l'accordo dovuto al caso, pesando tale differenza con l'accordo che i giudici possono
raggiungere al di là del caso

k può essere ottenuto considerando Po =ACCORDO OSSERVATO (proporzioni)  Fo (frequenze)


sia le proporzioni, sia le frequenze assolute Pc =ACCORDO ATTESO (proporzioni)  Fc (frequenze)

Po − Pc Fo − Fc
k= k=
1 − Pc N − Fc

k = 0  l'accordo osservato fra i giudici COINCIDE con quello dovuto al caso;

k > 0  l'accordo osservato è maggiore di quello dovuto al caso (MAX = +1);

k < 0  !! DISACCORDO !! l'accordo osservato è minore di quello dovuto al caso; (MIN ≠ -1)

(Con riferimento all'esempio...) Po = 0.25 + 0.02 + 0.02 = 0.29; Pc = 0.20 + 0.09 + 0.06 = 0.35

(Operando sulle proporzioni) (Operando sulle frequenze)

0.29 − 0.35 58 − 70 52
k= = −0.09 k= = −0.09
1 − 0.35 200 − 70 continua...
Attendibilità e validità
misurazione  attendibilità K di Cohen Ulteriore Esempio
della misurazione (12 /12)

Frequenze Osservate (Attese)


A(Giudice_1) B(Giudice_2)
Frequenza‚ Fo = 88 + 40 + 12 = 140 ;
Previsto ‚Schizof.‚Nevrot. ‚Danno C.‚ Totale
Fc = 60 + 18 + 4 = 82 ;
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Schizof. ‚ 88 ‚ 14 ‚ 18 ‚ 120 140 − 82 58
‚ (60) ‚ ‚ ‚ k= = = +0.492
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
200 − 82 118
Nevrot. ‚ 10 ‚ 40 ‚ 10 ‚ 60
La misura K gode di proprietà asintotiche ed ha
‚ ‚ (18) ‚ ‚ una distribuzione campionaria Normale (z)
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Danno C. ‚ 2 ‚ 6 ‚ 12 ‚ 20
H0: k =0
‚ ‚ ‚ (4) ‚
(Ovvero: l'accordo osservato coincide con quello dovuto al caso)
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 100 60 40 200

= 8.34 (Pr . < 0.001)


L'errore standard della stima k 0.492
per H0: k =0 si calcola: z= =
σk 0.059
Fc  Pc 
σk = ; σ k = 
N (N − Fc ) 
 N (1 − Pc ) 

σk =
82
= 0.059 H0: RESPINTA
200(200 − 82)

53
Analisi della Varianza (Fisher, 1935) Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento
...Come estensione del TEST sulla differenza fra medie... (a; b; c; ....; z), allora la loro velocità di lettura è differente>>
-------------------------------------------------
per semplicità:  3 metodi (a, b,c);  3 individui ogni campione
Ident y Metodo
Disegno ad Assegnazione Casuale completa
(parole lette / (Completely Randomized CR-3)  ANOVA ad UNA VIA 
intervallo di

H0 : µ a = µ b = µ c
tempo)
1a 50 a
2a 40 a a ya = 50
3a 60 a
1b 70 b
y = 50
2b 80 b b yb = 80
3b 90 b  Per utilizzare il TEST (t) sulla differenza
fra due medie è necessario effettuare
1c 20 c 3 CONFRONTI...
2c 15 c
c yc = 20  In generale con k medie, k ⋅ (k − 1)
3c 25 c il numero dei confronti è pari a: c=
2
 Fissato il coefficiente di fiducia (α),
la probabilità di incorrere in un ERRORE
del I° TIPO aumenta all'aumentare dei confronti!

<< Se il diverso metodo di insegnamento influenza la velocità di lettura, allora le medie dei campioni saranno diverse>>
MA SI TRATTA DI DIFFERENZE STATISTICAMENTE SIGNIFICATIVE?
Ovvero:
I tre campioni possono essere ricondotti ad ununico universo di riferimento (con la stessa media)?
Ovvero:
Le differenze osservate fra le medie dei tre campioni sono oscillazioni casuali intorno ad un'unica media?

 La Prob. di incorrere in un errore del I° tipo può essere approssimata per eccesso (confronti tutti ortogonali)

Per esempio:
Pr = 1 − (1 − α )
c
Medie Confronti (c) −−−− − −−−−− − Pr. Errore I° tipo
con α = 0.05
2 1 1 − 0.951 = 1 − 0.950 = 0.050
4 6 1 − 0.956 = 1 − 0.735 = 0.265
6 15 1 − 0.9515 = 1 − 0.463 = 0.537
54
8 28 1 − 0.95 28 = 1 − 0.238 = 0.762
10 45 1 − 0.9545 = 1 − 0.099 = 0.901
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie...

H0 : µ a = µ b = µ c ? H1 : µ a ≠ µ b ≠ µ c
<<eventuali differenze fra le medie empiriche dei <<almeno una differenza fra le medie empiriche dei
campioni sono POCO MARCATE così che possono campioni è ABBASTANZA MARCATA così che
essere attribuite ad oscillazioni casuali intorno si può sostenere l’appartenenza dei diversi
ad un’unica media dell’universo di riferimento>> campioni a universi distinti con medie differenti>>
Test F
 Organizzando diversamente i dati dell'esempio, si evidenziano
DUE FONTI DI VARIABILITÀ (unico EFFETTO: "metodo")...

Ident y Metodo
(parole lette /
intervallo di  Effettuando i calcoli...
tempo)
NOTAZIONE
1a 50 a
N = numerosità totale
2a 40 a
3a 60 a
n = na = nb = nc = numerosità campione
1b 70 b k = numero di campioni
2b 80 b GdL = Gradi di Libertà
3b 90 b DEV = devianze
1c 20 c VAR = varianze
2c 15 c DEVS ⇔ VARS =" Spiegata" , "FRA" , "between"
3c 25 c DEVR ⇔ VARR ="Residua" , "ENTRO" , " within"

DEVs = n∑ ( y j − y ) = n( ya − y ) + n( yb − y ) + n( yc − y ) =
K
2 2 2 2
GdLS = k − 1 = 3 − 1 = 2
j =1

= 3(50 − 50 ) + 3(80 − 50 ) + 3(20 − 50 ) = 5400


2 2 2 GdLR = N − k = 9 − 3 = 6

DEVR = ∑∑ ( yij − y j ) =
n K
2

i =1 j =1

= ( y1a − ya ) + ( y2 a − ya ) + ( y3 a − ya ) + ( y1b − yb ) + ( y2 b − yb ) + ( y3 b − yb ) + ( y1c − yc ) + ( y2 c − yc ) + ( y3 c − yc ) =


2 2 2 2 2 2 2 2 2

= (50 − 50 ) + (40 − 50 ) + (60 − 50 ) + (70 − 80 ) + (80 − 80 ) + (90 − 80 ) + (20 − 20 ) + (15 − 20 ) + (25 − 20 ) = 450
2 2 2 2 2 2 2 2 2

DEVs 5400 DEVr 450 55


VARs = = = 2700 VARR = = = 75
GdLs 2 GdLr 6
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie... VARS
F=
VARS e VARR sono stime INDIPENDENTI (calcolate con riferimento a medie diverse) della variabilità dei dati VARR
VARS è priva di errore sistematico (Teorema del Limite Centrale), se le differenze fra le medie sono dovute ad oscillazioni casuali (campionarie)

VARS è affetta da errore sistematico, se le differenze fra le medie sono dovute a universi di riferimento con medie diverse e, in tal caso l'errore
condurrà ad una sovrastima (della varianza fra le medie dei campioni) dato che il numero di campioni è sempre inferiore al numero degli individui

VARR è una stima (campione per campione) e pertanto è sempre priva di errore sistematico

 F ha una distribuzione campionaria che fornisce la probabilità di ottenere, per effetto del caso, un valore uguale o maggiore a quello empirico

 Ritornando all'esempio empirico... NOTAZIONE : FE = empirico; FT = teorico (critico)

VARs 2700 Dalle tavole per α = 0.01;


FE =
VARr
=
75
= 36.00
con : GdLS = 2; GdLR = 6; ⇒ FT = 10.92
FE > FT

Obs y x Dependent Variable: y


Sum of
1 50 a Source DF Squares Mean Square F Value Pr > F
Model 2 5400.000000 2700.000000 36.00 0.0005
2 40 a
Error 6 450.000000 75.000000
3 60 a Corrected Total 8 5850.000000
in SAS vedi il file:
4 70 b ES_ANOVA0.SAS
5 80 b R-Square Coeff Var Root MSE y Mean
6 90 b 0.923077 17.32051 8.660254 50.00000
7 20 c
8 15 c Source DF Type I SS Mean Square F Value Pr > F
9 25 c x 2 5400.000000 2700.000000 36.00 0.0005

H0 : (µ a = µ b = µ c ) ⇒ RESPINTA Il metodo di insegnamento influenza la velocità di lettura; individui sottoposti a diversi


metodi rimandano a universi di riferimento con differente velocità di lettura...

56
Analisi della Varianza (Fisher, 1935) Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento
...Come estensione del TEST sulla differenza fra medie... impartiti da diversi insegnanti, allora la loro velocità di lettura è differente>>
-------------------------------------------------
 metodo - A (1, 2, 3);  insegnante - B (1, 2)  30 individui ogni gruppo

IDENT y A B  Organizzando diversamente i dati, Disegno FATTORIALE (due trattamenti)


si evidenziano TRE possibili EFFETTI, (Completely Randomized Factorial CRF-32)  ANOVA a DUE VIE (Fattoriale) 
S1 62 1 1
ciascuno dei quali è SCOMPONIBILE in NOTAZIONE
S2 51 1 1
::: ::: ::: ::: DUE FONTI DI VARIABILITÀ (VARS e VARR) y (B) 1 2 Tot. h = livelli trattamento A (1 ≤ h ≤ 3 )
S30 48 1 1
(A) j = livelli trattamento B (1 ≤ j ≤ 2)
S31
S32
20
23
1
1
2
2
(B)
1 2 N = numerosità totale
::: ::: ::: ::: (A)
1 46.70 41.13 43.92
nhj = numerosità gruppo
S60 45 1 2

RIGA
2 56.63 48.20 52.42
nhj
1
S61 56 2 1 y1,11 = 62 y1,12 = 20 yhj =
nhj
∑y hj , i = media di cella
S62 70 2 1
1
i =1
y2,11 = 51 y2,12 = 23
::: ::: ::: ::: 3 58.40 49.07 53.73 1 N

S90 62 2 1 ::::::::: ::::::::: y+ + = ∑y i = media generale


y30,11 = 48 y30,12 = 45 N
Tot. 53.91 46.13 50.02
i =1
S91 59 2 2
S92 43 2 2
::: ::: ::: ::: y1,21 = 56 y1,22 = 59 vai a...
... Illustrazione...
S120
S121
48
57
2
3
2
1
2 y2,21 = 70 y2,22 = 43 COLONNA
(EFFETTO INTERAZIONE...)
::::::::: :::::::::
S122 61 3 1
y30,21 = 62 y30,22 = 48
::: ::: ::: :::
S150 63 3 1 y1,31 = 57 y1,32 = 50  L'interazione rappresenta l'effetto CONGIUNTO" dei due trattamenti
S151 50 3 2 Ovvero
S152 49 3 2 3 y2,31 = 61 y2,32 = 49  Si ha la presenza di un effetto interazione quando le variazioni (attese sulla
::: ::: ::: ::: ::::::::: ::::::::: y) dovute ai livelli di un trattamento sono differenti per due o più livelli
S180 56 3 2 y30,31 = 63 y30,32 = 56 dell’altro trattamento

vedi file: H0 :µ1+ = µ 2+ = µ 3+ H0 :µ +1 = µ + 2 H0 : µ h j − µ h′ j − µ h j′ + µ h′ j′ = 0 (per ogni h,h′, j e j′, con h≠h′ e j≠ j′ )


ES_ANOVA1.SAS
ES_ANOVA1.XLS

Dependent Variable: y ¿ Rispetto al metodo 3 impartito dall'insegnate 2, il metodo


Sum of 1 impartito dall'insegnante 1 ha un effetto positivo o
Source DF Squares Mean Square F Value Pr > F negativo e di che entità ?
Model 5 6245.31111 1249.06222 11.14 <.0001
Error 174 19504.60000 112.09540
Corrected Total 179 25749.91111 ¿ Rispetto al metodo 3 impartito dall'insegnate 2, il
miglioramento nelle prestazioni è dovuto più al metodo o
R-Square Coeff Var Root MSE y Mean più all'insegnate? ... e rispetto alle prestazioni medie
0.242537 21.16562 10.58751 50.02222 generali?

Source DF Type I SS Mean Square F Value Pr > F


A 2 3407.011111 1703.505556 15.20 <.0001
... etc. etc.
B 1 2722.222222 2722.222222 24.28 <.0001 57
A*B 2 116.077778 58.038889 0.52 0.5968

Dal test sulla differenza fra medie... al MODELLO ANOVA (lineare generalizzato classico)...
ANOVA  Modello lineare  Regressione semplice Scomposizione della variabilità (1)

TEOREMA
La somma dei quadrati totale o da spiegare (SQT) può sempre essere scomposta in due addendi: la somma dei
quadrati spiegata (SQS) e la somma dei quadrati residua o dello scarto (SQR)

DIMOSTRAZIONE

yi = yˆ i + ei Elevando al quadrato
e sommando ... (1 < i < N ) ... ∑ y = ∑ yˆ
2
i
2
i + 2∑ yˆ i ei + ∑ ei2 Ma... (∑ yˆ i ei = 0 ); pertanto...

Ovvero...

∑ yi2 = ∑ yˆ i2 + ∑ e i2 SQT = SQS + SQR (in notazione vettoriale)

y′y = yˆ ′yˆ + e ′e
Se nel modello è presente l'intercetta...
SOMME dei QUADRATI = DEVIANZE
SQθ0
Sfruttando alcune proprietà delle stime
(yˆ = y ; e = 0) SQθ1
vale, anche per le DEVIANZE, SQS
il precedente TEOREMA; infatti... SQθ2

yi − y = yˆ i − y + ei − e yi = yˆ i + ei DevT = DevS + Dev R SQT .…..

il TEOREMA vale anche per i Gradi di Libertà SQθ k

GdLT = GdLS + GdLR SQR


GdLT = N

Somme dei Quadrati GdLS = K

GdLR = N − K
Dove: GdLT = N − 1

N = Osservazioni; Devianze GdLS = K
K = Variabili esplicative GdL = N − 1 − K 58
 R
Scomposizione della variabilità (1)
Le tre componenti (DevT ; DevS ; DevR) possono essere illustrate graficamente riportando
sugli assi cartesiani un'unica osservazione (yi) di un modello lineare classico bivariato

∑ ( y − y) = DevT
2
i

yˆ i = θˆ0 + θˆ1 xi
∑ ( y − yˆ ) = ∑ e = Dev R
2 2
i i

yi
( yi − yˆ i )
( yi − y ) ∑ ( yˆ − y ) = Dev S
2
ŷi i

( yˆ i − y )
y y
θˆ0
θˆ1

59
Variabili categoriali
Variabili booleane 12 individui... rilevazione di:
 GRUPPO di riferimento (A, B, C)  GENERE (1 = Maschio; 0 = Femmina)

variabile In MATRICE DATI (CxV)... Gruppo Genere


DUMMY

IDENT IDENT
Gruppo Genere A B C M F
FORMA
01 A 1 matrice  RIDOTTA 01 1 0 0 1 0
variabili COMPRESSA
02 A 1 02 1 0 0 1 0

03 A 0 03 1 0 0 0 1

04 A 0 04 1 0 0 0 1

05 B 1 05 0 1 0 1 0

06 B 1 06 0 1 0 1 0

07 B 0 07 0 1 0 0 1

08 B 0 08 0 1 0 0 1

09 C 1 09 0 0 1 1 0

10 C 1 FORMA 10 0 0 1 1 0
matrice  CANONICA o ESTESA
11 C 0 variabili  DISGIUNTIVA COMPLETA 11 0 0 1 0 1

12 C 0 12 0 0 1 0 1

classi di equivalenza valore

... ...
APPARTENENZA VERITÀ
xi xi

... ... 60
ESEMPIO (1a) ==> 2 gruppi di individui (3 individui ogni grupo) sono stati sottoposti a metodi diversi di insegnamento;
si potrebbero ottenere i seguenti dati...

PAROLE LETTE DOMANDE...


INTERVALLO
di TEMPO (1) I due metodi producono una differenza statisticamente significativa?
(2) Qual è l’effetto del metodo "b" sulla velocità di lettura ?
Id y Metodo x
Two Sample t-test for the Means of y within metodo
(1)
1b 70 B 1
Sample Statistics
2b 80 B 1 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
3b 90 B 1 b 3 80 10 5.7735
c 3 20 5 2.8868
1c 20 C 0
Hypothesis Test
2c 15 C 0 Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0
3c 25 C 0
yi = θˆ0 + θˆ1 xi + ei If Variances Are t statistic Df Pr > t
----------------------------------------------------
Equal 9.295 4 0.0007
(2) Not Equal 9.295 2.94 0.0029

y = 50; x = 0.5

y
90
80
70 In una situazione così elementare
è possibile seguire, passo-passo,
60 (50;0.5) il procedimento di stima del modello...
50 yˆ i = θˆ0 + θˆ1 xi
40 ⇓ ⇓
30 20 60
20
10 θˆ0
θˆ1
61
0 1 x
ESEMPIO (1a) N N

yi = θˆ0 + θˆ1 xi + ei
Si tratta di trovare quei parametri (a; b) che... ∑e = ∑(y
i =1
2
i
i =1
i − yˆ i ) = min
2

yˆ i = θˆ0 + θˆ1 xi
( )
N N N

∑ e = ∑ ( yi − yˆi ) = ∑ yi − θˆ0 − θˆ1 xi


è necessario calcolare 2 2 2
le derivate parziali
ed eguagliarle a zero i
yi = yˆ i + ei ; ei = yi − y
ˆi i =1 i =1 i =1

Parametro: θ0

∂ N
( ) ( )
N

∑ i 0 1i ∑
2
θ θ θˆ − θˆ x 1 = 0
− − = − −
( ) ( )
ˆ ˆ
y x 2 y ∂ N N

∑ i 0 1i ∑
2
∂θˆ0 i =1 i =1
i 0 1 i
w − θˆ − θˆ z = − 2 z w − θˆ − θˆ z 1 = 0
∂θˆ1 i =1
i i 0 1 i
N N i =1

∑ yi − Nθˆ0 − θˆ1 ∑ xi = 0 N N N
i =1 i =1
∑ wi zi − θˆ0 ∑ zi − θˆ1 ∑ zi2 = 0 ;
i =1 i =1 i =1
1 N 1 N
θ0 = ∑ yi − θˆ1
ˆ
∑ xi N N
N i =1 N i =1
Ma: ∑ zi = ∑ ( xi − x ) = 0
θˆ = y − θˆ x
0 1
i =1 i =1
N N
Parametro: θ1 (traslazione degli assi)  wi = yi − y

∑ w z ∑(yi i i − y )( xi − x )
CoDev xy
 zi = xi − x θˆ1 = i =1
= i =1
=
Dev x
100
N N

∑z (
∑ i )
y

90 w 2
2
80
70
i x x
60 i =1 i =1
50
N

∑(y − y )( xi − x )
40 1
Cov xy
30
i
20
N
10
θ1 Ovvero... θˆ1 = i =1
=
N
Varx
0

∑ (x − x )
-10 x 1 2
-20 i
-30 N i =1
-40
θ1 (y;x)
-50
-60
z
(w;z)
62
-0.5 0.0 +1.0
I calcoli...
yi = θˆ0 + θˆ1 xi + ei yˆ i = θˆ0 + θˆ1 xi
ESEMPIO (1a)
Qualche conto utile...

y = 50; x = 0.5 x 2 = 0.5 2 = 0.25


Id y x ŷ e N
1 1
1b 70 1 80 -10 xy =
N
∑ xi yi = 6
240 = 40
2b
3b
80
90
1
1
80
80
0
+10
} ŷ = 80 = MEDIA ("B")

1
i =1

N
1
1c 20 0 20 0 x =
2
∑x 2
= 3 = 0.5
2c
3c
15
25
0
0
20
20
-5
+5
} ŷ = 20 = MEDIA ("C") N i =1
i
6

COVxy xy − x ⋅ y 40 − 0.5 ⋅ 50 15
θ1 =
ˆ = 2 = = = 60 θˆ0 = y − θˆ1 x = 50 − 60 ⋅ 0.5 = 20
VARx x −x 2 0.5 − 0.25 0.25

Inoltre...
N N N
DEVt = ∑ ( yi − y ) = 5650 ; GdLt = 6 − 1 = 5 DEVs = ∑ ( yˆ i − y ) = 5400 ; GdLs = 1 DEVr = ∑ (ei ) = 250 ; GdLr = 6 − 1 − 1 = 4
2 2 2

i =1 i =1 i =1

sx = sx2 = 0.25 = 0.5; s y = 941.67 = 30.69


DEVs
= 86.4; {per α = 0.01; Fcritico = 21.20 } (H0 : respinta)
GdLs 5400
F= =
DEVr 62.5
GDLr

COV xy 15 DEVs DEVs 5400


r= = = +0.98 R 2 = r 2 = 0.98 2 = 0.96 R2 = = = = 0.96
sx ⋅ s y 0.5 ⋅ 30.69 DEVt DEVs + DEVr 5650

con software statistico...


63
data uno;input y metodo $1.;cards; data uno;set uno;x=0;if metodo="b" then x=1;
ESEMPIO (1a) t-TEST 70 b
80 b
Two Sample t-test for the Means of y within metodo 90 b
20 c
Sample Statistics
15 c The GLM Procedure proc glm data=uno; model y =x;quit;
Group N Mean Std. Dev. Std. Error 25 c Dependent Variable: y
---------------------------------------------------- ;
b 3 80 10 5.7735
Sum of
c 3 20 5 2.8868 Source DF Squares Mean Square F Value Pr > F
Model 1 5400.000000 5400.000000 86.40 0.0007
Hypothesis Test Error 4 250.000000 62.500000
Null hypothesis: Mean 1 - Mean 2 = 0 Corrected Total 5 5650.000000
Alternative: Mean 1 - Mean 2 ^= 0
R-Square Coeff Var Root MSE y Mean
If Variances Are t statistic Df Pr > t 0.955752 15.81139 7.905694 50.00000
----------------------------------------------------
Equal 9.295 4 0.0007 Source DF Type I SS Mean Square F Value Pr > F
Not Equal 9.295 2.94 0.0029 x 1 5400.000000 5400.000000 86.40 0.0007
Source DF Type III SS Mean Square F Value Pr > F
x 1 5400.000000 5400.000000 86.40 0.0007
The REG Procedure proc reg data=uno; model y =x;quit;
Model: MODEL1 Standard
Dependent Variable: y Parameter Estimate Error t Value Pr > |t|
Analysis of Variance Intercept 20.00000000 4.56435465 4.38 0.0119
Sum of Mean x 60.00000000 6.45497224 9.30 0.0007
Source DF Squares Square F Value Pr > F
Model 1 5400.00000 5400.00000 86.40 0.0007
Error 4 250.00000 62.50000
Corrected Total 5 5650.00000 proc glm data=uno; class metodo;model y = metodo /solution;quit;

Root MSE 7.90569 R-Square 0.9558 The SAS System


Dependent Mean 50.00000 Adj R-Sq 0.9447 The GLM Procedure
Coeff Var 15.81139 Dependent Variable: y
Sum of
Parameter Estimates Source DF Squares Mean Square F Value Pr > F
Parameter Standard Model 1 5400.000000 5400.000000 86.40 0.0007
Variable DF Estimate Error t Value Pr > |t| Error 4 250.000000 62.500000
Intercept 1 20.00000 4.56435 4.38 0.0119 Corrected Total 5 5650.000000
x 1 60.00000 6.45497 9.30 0.0007
R-Square Coeff Var Root MSE y Mean
0.955752 15.81139 7.905694 50.00000
The GLM Procedure
Dependent Variable: y Source DF Type I SS Mean Square F Value Pr > F
Sum of metodo 1 5400.000000 5400.000000 86.40 0.0007
Source DF Squares Mean Square F Value Pr > F Source DF Type III SS Mean Square F Value Pr > F
Model 1 5400.000000 5400.000000 86.40 0.0007 metodo 1 5400.000000 5400.000000 86.40 0.0007
Error 4 250.000000 62.500000
Corrected Total 5 5650.000000 Standard
Parameter Estimate Error t Value Pr > |t|
R-Square Coeff Var Root MSE y Mean Intercept 20.00000000 B 4.56435465 4.38 0.0119
0.955752 15.81139 7.905694 50.00000
metodo b 60.00000000 B 6.45497224 9.30 0.0007
metodo c 0.00000000 B . . .
Source DF Type I SS Mean Square F Value Pr > F
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
x 1 5400.000000 5400.000000 86.40 0.0007
was used to solve the normal equations. Terms whose estimates are
Source DF Type III SS Mean Square F Value Pr > F
x 1 5400.000000 5400.000000 86.40 0.0007 followed by the letter 'B' are not uniquely estimable.

Standard
Parameter Estimate Error t Value Pr > |t| proc sort data=uno out=uno;by descending x;
Intercept 20.00000000 B 4.56435465 4.38 0.0119 proc glm data=uno order=data; class x;
x 1 60.00000000 B 6.45497224 9.30 0.0007 64
model y = x /solution;quit;
x 0 0.00000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Il modello lineare classico  "REGRESSIONE"

ESEMPIO (1b) Il modello è nato come uno strumento per stimare i parametri di
una relazione lineare fra due variabili entrambe cardinali.
Su un campione di 10 donne è stato rilevato
“l’atteggiamento nei confronti della Il termine “regressione” si deve al biologo Galton (1822-1911)
subordinazione della donna” (y) e un tratto che ha cercato di stabilire in che misura la statura dei figli segnasse
di personalità, “autoritarismo” (x) un ritorno (una regressione appunto) verso la statura media della
specie, allorché la statura dei genitori se ne allontanava
Entrambe le varibili sono a livello di scala di intervalli,
con punteggi che variano da 0 a 10
(10 = max subordinazione = max autoritarismo)

Id y x Dai dati...
yi = θˆ0 + θˆ1 xi + ei
y = 4.40; x = 3.00 x 2 = 3.00 2 = 9.00
y

1 2 1
10

9
N
2 4 3 1 1
∑x y
8

7 xy = i i = 144.00 = 14.40
3 5 2 N i =1 10
yˆ i = 2.6 + 0.6 xi
6

5
4 5 5 1 N
1
∑x
4

3 x2 = 2
= 110.00 = 11.00
5 6 5 N
i
10
2 i =1
6 4 1 1

0
0 1 2 3 4 5 6 7 8 9 10 11
x sx = sx2 = 2.00 = 1.414 ; s y = 1.44 = 1.20
7 4 4
8 3 2
COVxy xy − x ⋅ y 14.40 − 3.00 ⋅ 4.40 1.20
9 5 3 θˆ1 = = = = = 0.60 θˆ0 = y − θˆ1 x = 4.40 − 0.60 ⋅ 3.00 = 2.60
10 6 4 VARx x −x2 2 11.00 − 9.00 2.00
N
DEVt = ∑ ( yi − y ) = 14.40 ; GdLt = 10 − 1 = 9 DEVs 7.20
2
R2 = = = 0.50
i =1 DEVt 14.40
N
DEVs = ∑ ( yˆ i − y ) = 7.20 ; GdLs = 1
2 DEVs
GdLs 7.20
i =1 F= = = 8.00;
DEVr 0.90
N GDLr
DEVr = ∑ (ei ) = 7.20 ; GdLr = 10 − 1 − 1 = 8 {per α = 0.05; Fcritico = 5.32}
2
(H0 : respinta)
i =1
65
t = F = 8.00 = 2.83
GdLr = 8; {per α = 0.05; tcritico = 2.306} (H0 : respinta)
ESEMPIO (1b)  Quando le variabili (y e x) sono standardizzate, il coefficiente di
regressione stimato coincide con il coefficiente di correlazione (r)
 Coefficienti θˆ1 e βˆ1
 Interpretazione parametri (θˆ ;θˆ ; βˆ )
0 1 1
 Questo coefficiente (peso β ) esprime la variazione attesa in y, in
unità di deviazione standard, per la variazione di 1 dev. standard in x
 Stime (ŷ) al di là dei dati empirici (x = ???)
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
The REG Procedure proc reg data=uno; model y =x / stb;quit;
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Model: MODEL1
y 10 4.4000000 1.2000000 2.0000000 6.0000000 Dependent Variable: y
x 10 3.0000000 1.4142136 1.0000000 5.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
data uno;input y x;cards; Obs y x ystd xstd Model 1 7.20000 7.20000 8.00 0.0222
2 1 1 2 1 -2.00000 -1.41421 Error 8 7.20000 0.90000
4 3 Corrected Total 9 14.40000
2 4 3 -0.33333 0.00000
5 2
5 5 3 5 2 0.50000 -0.70711
4 5 5 0.50000 1.41421 Root MSE 0.94868 R-Square 0.5000
6 5 Dependent Mean 4.40000 Adj R-Sq 0.4375
4 1 5 6 5 1.33333 1.41421
Coeff Var 21.56098
4 4 6 4 1 -0.33333 -1.41421
3 2 7 4 4 -0.33333 0.70711
Parameter Estimates
5 3 8 3 2 -1.16667 -0.70711 Parameter Standard Standardized
6 4 9 5 3 0.50000 0.00000 Variable DF Estimate Error t Value Pr > |t| Estimate
; 10 6 4 1.33333 0.70711 Intercept 1 2.60000 0.70356 3.70 0.0061 0
x 1 0.60000 0.21213 2.83 0.0222 0.70711

The REG Procedure proc reg data=uno; model ystd = xstd ;quit;
y
yˆ i = 2.6 + 0.6 xi Model: MODEL1
Dependent Variable: ystd
10
Analysis of Variance
9 Sum of Mean
ŷ = 7.4 Source DF Squares Square F Value Pr > F
8 Model 1 5.00000 5.00000 8.00 0.0222
7
Error 8 5.00000 0.62500
Corrected Total 9 10.00000
6
Root MSE 0.79057 R-Square 0.5000
5
Dependent Mean -2.8866E-16 Adj R-Sq 0.4375
4 Coeff Var -2.73878E17

3 Parameter Estimates
2 Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
1 Intercept 1 -2.8866E-16 0.25000 -0.00 1.0000
xstd 1 0.70711 0.25000 2.83 0.0222
0
0 1 2 3 4 5 6 7 8 9 10 11
x

66
Introduzione al Modello Lineare Classico

Due (o più) variabili esplicative


o Aspetti generali e Assunti

o Algebra delle matrici (cenni)

o Stime OLS

o Interpretazione dei parametri. Variabili esplicative cardinali


SPIEGARE Perché Y ? “L’istruzione è la principale determinante del reddito”

Il modello lineare classico è un dispositivo che connette due entità... INCERTA STRUTTURALE

Esempio
Sono stati rilevati i valori ottenuti tramite due strumenti di misura (x e y )
 Si sa che lo strumento x è PRECISO (privo di errore)
 Si assume che il "dispositivo" sia di tipo lineare
yi = ~yi + ε i ~y = θ + θ x
i 0 1 i
Id y x 50 y
1 22 -5 45

2 29 -4 40

3 27 -3 35

4
5
27
32
-2
-1
30
yi = θ 0 + θ1 xi + ε i
25

6 30 0
20

7 34 +1
15
8 34 +2

θˆ0 θˆ1
10
9 39 +3
5
10 42 +4 x
0
11 41 +5 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6

Id y x ŷ e
50 y
yˆ i = 32.45455 + 1.80909 ⋅ xi 1 22 -5 23 -1

yˆ i = θˆ0 + θˆ1 xi
45
2 29 -4 25 +4
40
3 27 -3 27 0
35
4 27 -2 29 -2
30

yi − yˆ i = ei
5 32 -1 31 +1
25
6 30 0 32 -2
20
7 34 +1 34 0
15
8 34 +2 36 -2
10
9 39 +3 38 +1
5
x
10 42 +4 40 +2
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 11 41 +5 42 -1
INCERTA STRUTTURALE

Il modello lineare classico è un dispositivo che connette due entità...

Considerazioni:
yi = ~yi + ε i ~y = θ + θ x
i 0 1 i

 Il "dispositivo" è di tipo PROBABILISTICO...

yi = θ 0 + θ1 xi + ε i
 ASIMMETRIA "sintattica" della relazione... osservato "vero
yi ~y "
i
 x è una variabile "fissa" o "matematica"
(valori NON soggetti a fluttuazioni probabilistiche) εi "errore"
Stessa
 y (e solo y) è una variabile stocastica Distribuzione
di Probabilità

 Il vettore y di N osservazioni è una realizzazione di un vettore di N variabili casuali


indipendentemente e identicamente distribuite il cui valore atteso, dato X è:
~
( )
E Y | X = X ⋅θ

 A meno della componente fissa, le distribuzioni di probabilità associate agli y osservati


e quelle degli errori sono identiche

 Il termine di errore ε non è altro che la componente stocastica di y osservato e,


in quanto tale, ne rispecchia le proprietà

 La forma delle distribuzioni di probabilità da cui possono essere stati estratti


i valori osservati di y è la stessa cui appartengono i valori di ε
Il modello lineare classico è un dispositivo che connette due entità... INCERTA STRUTTURALE
Considerazioni:

 Ampia flessibilità applicativa... Un tale "dispositivo" consente di rappresentare:

EXPLANANDUM EXPLANANS
 RELAZIONI CAUSALI

Causa

DESTINAZIONE
 SCOMPOSIZIONI (FILTRAGGIO) (segnale + disturbo) SORGENTE

Filtro

VARIABILITÀ VARIABILITÀ
 RIPRODUZIONE (SIMULAZIONI)

Simulatore
Notazione  y1  1 x1   y1  1 x11 x21 ... xk1 
y  1 x  y  1 x x22 ... x k2 
 2  2  2  12 
In matrice dati... ... in generale... 1 ... ... ... 
yi = θ 0 + θ1 xi + ε i
 ...  1 ...   ...  ...
       
 yi  1 xi   yi  1 x1i x2i ... xki 
 ...  1 ...   ...  1 ... ... ... ... 
       
 yN  1 x N   yN  1 x1N x2 N ... xkN 
Notazione scalare...
K
yi = θ 0 + θ1 x1i + θ 2 x2i + ... + θ k xki + ε i yi = θ 0 + ∑ θ k xki + ε i
Ovvero...

k =1

dove: y è un vettore di osservazioni di ordine N (o variabile dipendente); X è una matrice di


Notazione vettoriale... ordine N per K+1, in cui i K vettori colonna rappresentano altrettanti fattori o variabili
esplicative e il vettore aggiunto, per convenzione il primo o l’ultimo, ha valore 1 per tutte le

y = X ⋅θ + ε osservazioni e rappresenta il termine costante o intercetta; θ è un vettore (di ordine K+1) di


parametri sconosciuti; ε è un vettore sconosciuto (di ordine N) di errori o disturbi.
Nell’ambito di una prospettiva classica, si assume che il vettore dei disturbi sia una variabile
aleatoria i cui elementi sono indipendentemente e identicamente distribuiti secondo una
distribuzione di tipo Normale con media zero e varianza σ 2

! ATTENZIONE !

y ⇒ osservato θ ⇒ atteso (incognito)


~y ⇒ atteso (incognito)
θˆ ⇒ stimato
yˆ ⇒ stimato

ε ⇒ ERRORE atteso (incognito)


e ⇒ SCARTO stimato (e = y − yˆ )
Assunti

 Il vettore y di N osservazioni è una realizzazione di un vettore di N variabili casuali


indipendentemente e identicamente distribuite il cui valore atteso, dato X è:
~
(
E Y | X = X ⋅θ)
(Gauss-Markov)

1  Il valore atteso di ogni (εi ) è pari a zero E (ε ) = 0 Assenza di errori sistematici nei valori della ỹ

 Per ogni coppia di valori (i e h) del vettore


COV (ε i , ε h ) = 0
2
degli errori (ε ) la covarianza deve essere nulla Assenza di autocorrelazione nel vettore degli errori (ε )

3  La varianza dell’errore deve essere costante VAR(ε ) = σ 2 Omoschedasticità del vettore degli errori (ε )

(In ambito osservativo)

 Fra ciascuna variabile esplicativa e il vettore


4 COV ( xk , ε ) = 0 Assenza di covariazione fra ciascuna x e ε
degli errori (ε ) la covarianza deve essere nulla

Congiuntamente...

nella parte sistematica del modello devono essere contemplate TUTTE le variabili rilevanti
Qualche nozione di algebra delle matrici (1/3)

• Una MATRICE è un insieme di NxT elementi (generalmente numeri reali) ordinati per righe e per colonne

 a11 a12 ... ... a1τ   a1 


• VETTORE COLONNA a 
a a21 ... ... a2τ  435  4 2 0 3 • VETTORE RIGA  2
 21   248  • TRASPOSTA a 
A' = 3 4 1 2 
a a3τ  • SCALARE a=  3
A= 
a31 ... ...
A = Aν τ =  31   .... 
 ... ... ... ... ...  012   .... 
 ... ... ... ... ...    5 8 2 4  a' = [a1 a2 a3 ... aν ]  
   324  aν 
 aν 1 aν 2 ... ... aν τ 
Matrice I  elemento neutro
QUADRATA SIMMETRICA (Es.: R) DIAGONALE IDENTITÀ = (I)
(nell'operazione di moltiplicazione fra matrici)
(Diagonale principale e secondaria)

 x11 x12 x13   1 0.53 0.41  x11 0 0  1 0 0


x x22 x23  0.53 1 0.98  0 x22 0  0 1 0 X⋅I = I⋅X = X
 21       
 x31 x32 x33   0.41 0.98 1   0 0 x33  0 0 1

• Prodotto scalare. Prodotto di due matrici o p. diretto di Kronecker


Viene detto PRODOTTO SCALARE il prodotto fra un vettore riga e un vettore colonna con lo stesso numero di elementi

a′ ⋅ b = π
4
3] ⋅  5  =
3
[1 2
  ∑a b i i = 4 + 10 + 18 = 32
i =1

6 
Date due matrici A e B è possibile effettuare il loro prodotto solo se il numero di colonne di A è uguale al numero di righe di B
Si dice in tale caso che le matrici sono “conformate” o “compatibili”

Aν τ ⋅ Bτγ = Cν γ
A B C
3 3 1
3 2   9 + 5 + 2;9 + 1 + 6;3 + 1 + 4  16 8
1 = 
1 16
2 ⋅ 5 1   =
 1 3
    6 + 5 + 3;6 + 1 + 9;2 + 1 + 6 

14
 16 9


1 3 2

Qualche nozione di algebra delle matrici (2/3)
X
Esempio  XN,3 (3 vettori colonna: α, β, δ STANDARDIZZATI)  α1 β1 δ1 
α β2 δ 2 
X′ ⋅ X = [devianze, codevianze ]  2
α3 β3 δ3 
 
δ1   α 2 
N N N
 α1 β1
∑ i ∑α iβi ∑α δ   .... .... .... 
... α N   α 2 δ 2   Ni =1
i i
α 1 α 2 α 3 β2 i =1 i =1
 α N βN δ N 

β β β ... β N  ⋅  α 3
N N

 1   β3 δ 3  = ∑ α i β i ∑β 2
∑ β iδ i 
2 3
  i =1 i =1
i
i =1

 δ 1 δ 2 δ 3 ... δ N   ... ... ...  N N N 
α N βN δ N   ∑ α iδ i ∑β δ ∑ δ 2

 i =1 
i i i
i =1 i =1
[varianze, covarianze]
 N 2 N N
  1 N 2 1 N 1 N 
[correlazioni ]
 ∑α i ∑α β i i ∑ α δ
i i  N ∑α i ∑α iβi
N i =1

N i =1
α iδ i 
1 rαβ rαδ 
 Ni =1 i =1
N
i =1
N   N
i =1
  
1 N 2 1 N
β iδ i  =  ∑ α i β i ∑ β iδ i 
1  1
⋅ ∑α iβi
N  i =1
∑β i
2
∑   N i =1 ∑ βi  rαβ
 rαδ
1 rβδ 
i =1 i =1 N i =1 N i =1 rβδ 1 
N N N  1 N 1 N 1 N 2 
 ∑ α iδ i ∑β δ ∑ δ 2
  ∑ α iδ i ∑ β iδ i ∑ δ i 
 i =1   N i =1
i i i
i =1 i =1 N i =1 N i =1 

• Il DETERMINANTE di una matrice quadrata A è uno scalare a a12 


A =  11 ; | A |= a11a22 − a12a21
che si ottiene come funzione di tutti gli elementi di A e si indica con il simbolo: |A|
 a21 a22 

 a11 a11 a11 


A =  a11 a11 a11 ; |A|=a11a22a33+a12a23a31+a13a21a32 -a13a22a31 -a12a21a33 -a11a23a32
 
 a11 a11 a11 

• Se il determinante di una matrice è uguale a zero, la matrice viene detta SINGOLARE


• Se due vettori (riga o colonna) di una matrice A sono linearmente dipendenti allora la matrice A è singolare.
Qualche nozione di algebra delle matrici (3/3)
DIPENDENZA LINEARE
• Una serie di t vettori (x1, x2, ..., xt) tutti dello stesso ordine, sono detti "linearmente dipendenti" se esiste una serie di
scalari (γ1, γ 2,..., γt), non tutti uguali a zero, tali che: γ 1 ⋅ x1 + γ 2 ⋅ x 2 + ... + γt ⋅ xt = 0
x1 x2 x3 x1 x2 x3 X
L'equazione è vera per:
1  8  2 1  8  2  0  1 2
 2  − 5  − 3 γ 1 = +2; γ 2 = −1; γ 3 = +3 8 X =0
     
   
γ 1 ⋅  2 + γ 2 ⋅  − 5 + γ 3 ⋅  − 3 = 0  2 − 5 − 3
 
 3  9  1  3  9  1 0 pertanto...
 3 9 1

x1 x2 x3 X

1 8  2  1 8 2
 2  3 5  2 3 5 X = 54
       
 3 9  3  3 9 3

• Il RANGO di una MATRICE XN,T è il numero massimo di righe o colonne linearmente indipendenti

TEOREMA
• Data una matrice rettangolare X, il rango della matrice ottenuta dal prodotto di X per la sua trasposta e il rango della
matrice ottenuta dal prodotto della trasposta di X per la matrice stessa è uguale al rango della matrice X

rango(X·X') = rango(X'·X) = rango(X)

• Il rango di una matrice quadrata di ordine τ è pari a τ se, e solo se, il determinante della matrice è diverso da zero;
in questo caso si dice che la matrice è di "rango pieno"

1 Ovvero...
• L'INVERSIONE di una matrice è un'operazione che corrisponde alla divisione nell'algebra elementare α⋅ =1
α α ⋅ α −1 = 1
• L'operazione di inversione è possibile SOLO su matrici QUADRATE

• L'INVERSA di una matrice quadrata X è pertanto quella matrice (X-1) che soddisfa la relazione: X ⋅ X −1 = 1
• NON ESISTE l'inversa di una MATRICE SINGOLARE
Stima dei parametri MINIMI QUADRATI ORDINARI Ordinary Least Squares (OLS) Legendre (1805)
Laplace (1812)
y = X ⋅θ + ε y = X ⋅ θˆ + e
Gauss (1821-23)

 L’idea consiste nello stimare i parametri del modello in modo da rendere MINIMO l'errore quadratico medio
 Nessun assunto sulla distribuzione di probabilità cui appartengono i singoli valori osservati in y

N
e ′ ⋅ e = ∑ ei2 = ( y − X ⋅ θˆ )′ ⋅ ( y − X ⋅ θˆ ) = min Derivando ( y − X ⋅ θˆ )′ ⋅ ( y − X ⋅ θˆ ) riseptto a
ed eguaglaindo a zero, si ottiene un sistema di equazioni ...
θˆ
i =1

X ′ ⋅ y = ( X ′ ⋅ X ) ⋅ θˆ ... da cui è possibile ottenere il vettore θˆ A CONDIZIONE CHE | X ′ ⋅ X |≠ 0

θ = (X ⋅ X) ⋅ X′⋅ y
ˆ ′ −1

yˆ = X ⋅ θˆ e = y − X ⋅ θˆ = y − yˆ
(alcune) Proprietà delle stime
θˆ è uno stimatore campionario del vettore θ
Uno stimatore (stimatore campionario) è:
una formula o un metodo di calcolo impiegato per una stima puntuale;
 lineare quando può essere espresso come una somma di prodotti fra un coefficiente o peso fisso e una componente variabile o stocastica
(funzione lineare di una variabile stocastica);
 corretto se il suo valore medio, calcolato su un numero infinito di campioni casuali estratti dallo stesso universo di riferimento,
è uguale al parametro da stimare (non-distorto o non affetto da errore sistematico);
 efficiente se si tratta di quello stimatore cui corrisponde la minima varianza, fra tutti i possibili stimatori non affetti da errore sistematico

Le stime dei θ sono “corrette” ed “efficienti” (teorema di Gauss-Markov);


Sono le "migliori" (le più efficienti) tra quelle ottenibili nell’ambito degli stimatori lineari corretti (B.L.U.E.)

Il vettore degli scarti ha sempre media uguale a zero (se è presente il vettore unitario u in rappresentanza di θ0) e =0

La media dei valori riprodotti dal modello coincide sempre con la media della variabile dipendente yˆ = y
DIMOSTRAZIONE

y = yˆ + e moltiplicando entrambi i membri per ... (1 N )u′ si ottiene ... (1 N )u′y = (1 N )u′yˆ + (1 N )u′e
n

MA ... (1 N )u′e = (1 N )∑ ei =e = 0
i =1

Il vettore degli scarti è sempre ortogonale a ciascuna colonna della matrice X X′⋅e = 0
DIMOSTRAZIONE
X ′ ⋅ y = ( X ′ ⋅ X ) ⋅ θˆ X ′ ⋅ y − X ′ ⋅ X ⋅ θˆ = 0 (
X ′ ⋅ y − X ⋅ θˆ = 0 ) X ′ ⋅ ( y − yˆ ) = 0 X′⋅e = 0

Il vettore dei valori riprodotti dal modello è sempre ortogonale al vettore degli scarti yˆ ′ ⋅ e = 0
Segue dal fatto che ŷ è combinazione lineare di X
Due (o più) variabili esplicative
Interpretazione dei parametri (variabili esplicative: CARDINALI)
Notazione vettoriale...
 y1  1 x11 xk1 
y = X ⋅θ + ε
x21 ...
y  1 x x22 ... x k2 
 2  12 
In matrice dati...  ...  1 ... ... ... ... 
   
Notazione scalare...  yi  1 x1i x2i ... x ki 
 ...  1 ... ... ... ... 
yi = θ 0 + θ1 x1i + θ 2 x2i + ... + θ k xki + ε i  
 yN 

1 x1N x2 N ...

xkN 

K
yi = θ 0 + ∑ θ k xki + ε i
Ovvero...

k =1

yi = θˆ0 + θˆ1 x1i + θˆ2 x2i + ... + θˆk xki + ei

yˆ i = θˆ0 + θˆ1 x1i + θˆ2 x2i + ... + θˆk xki

yi = yˆ i + ei ; ei = yi − y
ˆi
Interpretazione dei parametri DUE SEQUENZE DI TRE ESEMPI...
(X  Cardinali)

Perchè varia il grado di AUTONOMIA DECISIONALE? ...


Si vuole spiegare la variabilità osservata nell' AUTONOMIA DECISIONALE (y) tramite:

 Sequenza esempi "A" .... COMPORTAMENTO COMPROMISSORIO (X1) ;  COMPORTAMENTO AGGRESSIVO (X2)
 Sequenza esempi "B" .... COMPORTAMENTO DEVIANTE (X1) ;  ETÀ (X2)

Per ciascuna variabile esplicativa si vuole stabilire l'eventuale presenza di un effetto, la sua direzione, la sua entità...

campione di 100 individui

ESEMPIO (Bivariato)
X y
X1
A1
Autonomia ESEMPIO (Bivariato) A2 ESEMPIO (Multivariato) A3
Comportamento decisionale
Compromissorio Comportamento

y X
Compromissorio
θˆ1 = ? θˆ1 = ?
Autonomia
θˆ1 = ?
Comportamento
y
decisionale Aggressivo Autonomia
decisionale

θˆ2 = ? X2
Comportamento
Aggressivo

ESEMPIO (Bivariato) B1
X y
Devianza
Autonomia
ESEMPIO (Bivariato) B2 ESEMPIO (Multivariato) B3
X1
decisionale Devianza
θˆ1 = ?
y θˆ1 = ? X y θˆ1 = ?
Autonomia
Età Autonomia
decisionale
decisionale

θˆ2 = ? X2
Età

Negli esempi si farà riferimento anche ai coefficienti ( o pesi) β


Contrariamente ai θ i β NON dipendono dall'unità di misura delle variabili cui si riferiscono e, pertanto,
consentono di confrontare agevolmente gli effetti di variabili esplicative fra loro incommensurabili.
Interpretazione dei parametri SEQUENZA "A"
(X  Cardinali)
ESEMPIO (Bivariato) A1
 due variabili metriche...
(AUTO_DEC) ident AUTO_DEC COMPROM  analisi di REGRESSIONE (semplice)
n1 S82 0.16 0.12 (Modello Lineare Classico)
MISURAZIONE
n2 S87 2.55 0.21
n3 S84 -0.36 -1.86
n4 S27 -1.00 -2.10
n5 S60 5.70 1.51
n6 S71 1.18 0.84
n7 S47 2.19 1.88
n8 S75 1.15 -0.89
n9 S59 1.13 1.35
MISURAZIONE n10 S37 -0.12 0.77 => ~ 46% di variabilità spiegata
(COMPROM) :::::: :::: :::::: ::::::
=> al crescere di COMPROM
n100 S79 -1.21 -1.16
cresce l'AUTONOMIA DECISIONALE
=> per ogni variazione di +1 punto di COMPROM...
The MEANS Procedure
il modello fornisce
Variable N Mean Std Dev Minimum Maximum +0.80 punto (circa) di AUTONOMIA DECISIONALE
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ  +0.68 per variabili standardizzate
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL1
Dependent Variable: AUTO_DEC
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 113.22709 113.22709 84.88 <.0001


Error 98 130.72294 1.33391
Corrected Total 99 243.95004
Il modello... yi = θˆ0 + θˆ1 xi + ei Root MSE 1.15495 R-Square 0.4641
Dependent Mean 0.19420 Adj R-Sq 0.4587
Coeff Var 594.72151

La teoria...
θˆ1 = +0.80 X Parameter Estimates

Comportamento Parameter Standard Standardized


Compromissorio Variable DF Estimate Error t Value Pr > |t| Estimate
y βˆ1 = +0.68
Intercept 1 0.19428 0.11549 1.68 0.0957 0
Autonomia
COMPROM 1 0.80052 0.08689 9.21 <.0001 0.68128
decisionale
Interpretazione dei parametri
(X  Cardinali) SEQUENZA "A"
ESEMPIO (Bivariato) A2
 due variabili metriche...
ident AUTO_DEC AGGRESS  analisi di REGRESSIONE (semplice)
(AUTO_DEC)
S82 0.16 -0.24 (Modello Lineare Classico)
MISURAZIONE n1
n2 S87 2.55 0.07
n3 S84 -0.36 -0.25
n4 S27 -1.00 0.19
n5 S60 5.70 -0.83
n6 S71 1.18 -0.96
n7 S47 2.19 0.53
n8 S75 1.15 0.11
n9 S59 1.13 0.53
MISURAZIONE n10 S37 -0.12 0.18 => ~ 8% di variabilità spiegata (!!!!!)
(AGGRESS) :::::: :::: :::::: ::::
n100 S79 -1.21 0.38 => al crescere di AGGRESS
decresce l'AUTONOMIA DECISIONALE
The MEANS Procedure
.............
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
AGGRESS 100 1.249001E-18 0.4595824 -1.2700000 1.2300000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL2
Dependent Variable: AUTO_DEC
Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 20.46164 20.46164 8.97 0.0035


Error 98 223.48840 2.28049
Il modello... yi = θˆ0 + θˆ1 xi + ei Corrected Total 99 243.95004

Root MSE 1.51013 R-Square 0.0839


Dependent Mean 0.19420 Adj R-Sq 0.0745
Coeff Var 777.61607

y Parameter Estimates
Autonomia
decisionale
θˆ1 = −0.98 Variable DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Standardized
Estimate

βˆ1 = −0.29
X Intercept 1 0.19420 0.15101 1.29 0.2015 0
Comportamento
Aggressivo
AGGRESS 1 -0.98425 0.32859 -3.00 0.0035 -0.28961
Interpretazione dei parametri
(X  Cardinali) SEQUENZA "A"
ESEMPIO (Multivariato) A3
ident AUTO_DEC COMPROM AGGRESS  tre variabili metriche...
MISURAZIONE n1 S82 0.16 0.12 -0.24  analisi di REGRESSIONE (multipla)
n2 S87 2.55 0.21 0.07 (Modello Lineare Classico)
n3 S84 -0.36 -1.86 -0.25
n4 S27 -1.00 -2.10 0.19
n5 S60 5.70 1.51 -0.83
MISURAZIONE
n6 S71 1.18 0.84 -0.96
n7 S47 2.19 1.88 0.53
n8 S75 1.15 -0.89 0.11
n9 S59 1.13 1.35 0.53
MISURAZIONE n10 S37 -0.12 0.77 0.18
(COMPROM) :::::: :::: :::::: :::::: :::: => ~ 55% di variabilità spiegata
(AGGRESS) n100 S79 -1.21 -1.16 0.38 => al crescere di COMPROM
cresce l'AUTONOMIA DECISIONALE
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
=> al crescere di AGGRESS
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ decresce l'AUTONOMIA DECISIONALE
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000 .....
COMPROM 100 -0.000100000 1.3292408 -3.0300000 3.4200000
AGGRESS 100 1.249001E-18 0.4595824 -1.2700000 1.2300000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Model: MODEL3
Il modello...
Dependent Variable: AUTO_DEC
Analysis of Variance

yi = θˆ0 + θˆ1 x1i + θˆ2 x 2i + ei Sum of Mean


Source DF Squares Square F Value Pr > F

Model 2 133.76745 66.88373 58.88 <.0001


Error 97 110.18258 1.13590
La teoria...
Corrected Total 99 243.95004

θˆ1 = +0.80 X1 Root MSE 1.06579 R-Square 0.5483


Comportamento Dependent Mean 0.19420 Adj R-Sq 0.5390
Compromissorio Coeff Var 548.80920

y βˆ1 = +0.68 Parameter Estimates


Autonomia
decisionale
θˆ2 = −0.98 Parameter Standard Standardized

X2
Variable DF Estimate Error t Value Pr > |t| Estimate

βˆ2 = −0.29 Comportamento Intercept 1 0.19428 0.10658 1.82 0.0714 0


Aggressivo COMPROM 1 0.80080 0.08018 9.99 <.0001 0.68152
AGGRESS 1 -0.98614 0.23190 -4.25 <.0001 -0.29017

Riassumendo (sequenza di esempi "A")...


Interpretazione dei parametri SEQUENZA "A" (riassumendo...)
(X  Cardinali)

yˆ i = 0.19 + 0.80 ⋅ xi yˆ i = 0.19 − 0.98 ⋅ xi


R 2 = 0.46 R 2 = 0.08

yˆ i = 0.19 + 0.80 ⋅ x1i − 0.98 ⋅ x 2i R 2 = 0.55

θˆ1 = +0.80 X1
Comportamento
Compromissorio
y βˆ1 = +0.68
Autonomia
decisionale
θˆ2 = −0.98
X2
βˆ2 = −0.29 Comportamento
Aggressivo

I coefficienti stimati
dei modelli BIVARIATI,
coincidono con quelli
del modello MULTIVARIATO
Interpretazione dei parametri SEQUENZA "B"
(X  Cardinali)
ESEMPIO (Bivariato) B1
 due variabili metriche...
(AUTO_DEC) ident AUTO_DEC DEVIANZA  analisi di REGRESSIONE (semplice)
MISURAZIONE n1 S82 0.16 0.08 (Modello Lineare Classico)
n2 S60 5.70 -0.48
n3 S47 2.19 -1.70
n4 S75 1.15 0.55
n5 S59 1.13 -1.33
n6 S79 -1.21 0.55
n7 S9 -0.89 -2.31
n8 S42 0.25 -0.29
n9 S3 2.04 -1.14
MISURAZIONE n10 S78 0.59 2.29
(DEVIANZA) :::: ::::: :::::
:::::: => ~ 30% di variabilità spiegata
n100 S81 -1.95 1.68
=> al crescere della DEVIANZA
diminuisce l'AUTONOMIA DECISIONALE
The MEANS Procedure
=> per ogni variazione di +1 punto di DEVIANZA...
Variable N Mean Std Dev Minimum Maximum il modello fornisce
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000 -6/7 di punto (circa) di AUTONOMIA DECISIONALE
DEVIANZA 100 0.000300000 0.9944923 -2.3600000 2.3400000 => per ogni +1 dev. st. di DEVIANZA
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
il modello fornisce
=> -½ (circa) dev. st. di AUTONOMIA DECISIONALE
=> etc. etc.
The REG Procedure
Il modello... yi = θˆ0 + θˆ1 xi + ei Dependent Variable: AUTO_DEC

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 73.57670 73.57670 42.32 <.0001
Error 98 170.37334 1.73850
La teoria θˆ1 = −0.86 X Corrected Total 99 243.95004

Devianza Root MSE 1.31852 R-Square 0.3016

y βˆ1 = −0.55 Dependent Mean 0.19420 Adj R-Sq 0.2945


Coeff Var 678.95119
Autonomia
decisionale Parameter Estimates

Parameter Standard Standardized


Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 0.19446 0.13185 1.47 0.1435 0


DEVIANZA 1 -0.86252 0.13258 -6.51 <.0001 -0.54919
Interpretazione dei parametri SEQUENZA "B"
(X  Cardinali)
ESEMPIO (Bivariato) B2
 due variabili metriche...
 analisi di REGRESSIONE (semplice)
(AUTO_DEC) ident AUTO_DEC ETA
(Modello Lineare Classico)
MISURAZIONE n1 S82 0.16 13
n2 S87 2.55 13
n3 S84 -0.36 12
n4 S27 -1.00 11
n5 S60 5.70 15
n6 S71 1.18 14
n7 S47 2.19 14 => ~ 50% di variabilità spiegata
n8 S75 1.15 12
n9 S59 1.13 14 => al crescere dell'ETÁ
MISURAZIONE cresce l'AUTONOMIA DECISIONALE
n10 S37 -0.12 13
(ETA  anni) :::::: :::: :::: ::: => per ogni variazione di +1 anno di ETÁ...
n100 S79 -1.21 12 il modello fornisce
+1 punto (circa) di AUTONOMIA DECISIONALE
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
ETA 100 12.9700000 1.0531382 10.0000000 16.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The REG Procedure


Dependent Variable: AUTO_DEC

Analysis of Variance
Il modello... yi = θˆ0 + θˆ1 xi + ei Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 122.31419 122.31419 98.55 <.0001
Error 98 121.63585 1.24118
Corrected Total 99 243.95004
La teoria
Root MSE 1.11408 R-Square 0.5014
Dependent Mean 0.19420 Adj R-Sq 0.4963

y
Coeff Var 573.67844

Autonomia Parameter Estimates


decisionale
θˆ1 = +1.05 Parameter Standard Standardized

βˆ1 = +0.71
X Variable DF Estimate Error t Value Pr > |t| Estimate
Età
Intercept 1 -13.42630 1.37657 -9.75 <.0001 0
ETA 1 1.05015 0.10579 9.93 <.0001 0.70809
Interpretazione dei parametri SEQUENZA "B"
(X  Cardinali)
ESEMPIO (Multivariato) B3
 tre variabili metriche...
(AUTO_DEC)  analisi di REGRESSIONE (multipla)
n1 ident AUTO_DEC DEVIANZA ETA (Modello Lineare Classico)
MISURAZIONE
n2 S93 3.64 -0.57 14
n3 S14 -2.53 1.54 10
n4 S66 0.09 1.17 13
(ETA anni)
n5 S27 -1.00 1.35 11
MISURAZIONE S82 0.16 0.08 13
n6 => La DEVIANZA comportamentale
n7 S18 -2.25 0.98 13 NON ha alcuna influenza sul grado
n8 S60 5.70 -0.48 15
S9 -0.89 -2.31 14 di AUTONOMIA DECISIONALE;
n9
MISURAZIONE n10 S69 3.16 -2.22 16 => la variabilità osservata è spiegata
(DEVIANZA) :::::: :::: ::::: ::::: ::: dalla variabilità dell'ETÁ
n100 S39 -2.26 2.34 11

The MEANS Procedure


Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AUTO_DEC 100 0.1942000 1.5618900 -3.6700000 5.7000000
DEVIANZA 100 0.000300000 0.9944923 -2.3600000 2.3400000
ETA 100 12.9700000 1.0531382 10.0000000 16.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Il modello... The REG Procedure

yi = θˆ0 + θˆ1 x1i + θˆ2 x 2i + ei


Dependent Variable: AUTO_DEC

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 122.32863 61.16431 48.78 <.0001
Error 97 121.62141 1.25383
La teoria Corrected Total 99 243.95004

θˆ1 = +0.02 X1 Root MSE 1.11975 R-Square 0.5014


Devianza Dependent Mean 0.19420 Adj R-Sq 0.4912
Coeff Var 576.59374
y βˆ1 = +0.01 Parameter Estimates
Autonomia
decisionale
θˆ2 = +1.06 Variable DF
Parameter
Estimate
Standard
Error t Value Pr > |t|
Standardized
Estimate
X2
βˆ2 = +0.72 Età
Intercept
DEVIANZA
1
1
-13.61219
0.01940
2.21700
0.18078
-6.14
0.11
<.0001
0.9148
0
0.01235
ETA 1 1.06449 0.17071 6.24 <.0001 0.71775

Riassumendo (sequenza di esempi "B")...


Interpretazione dei parametri SEQUENZA "B" (riassumendo...)
(X  Cardinali)

yˆ i = 0.19 − 0.86 ⋅ xi yˆ i = −13.43 + 1.05 ⋅ xi


R 2 = 0.30 R 2 = 0.50

yˆ i = −13.61 + 0.02 ⋅ x1i + 1.06 ⋅ x 2i R 2 = 0.50


θˆ1 = +0.02 X1
Devianza

y βˆ1 = +0.01
Autonomia
decisionale
θˆ2 = +1.06
X2
βˆ2 = +0.72 Età

I coefficienti stimati
dei modelli BIVARIATI
(almeno uno...),
NON coincidono con quelli
del modello MULTIVARIATO

Riassumendo
(sequenze di esempi "A" e "B")...
Interpretazione dei parametri (RIASSUMENDO): SEQUENZA "A" e "B" Con riferimento ai soli parametri standardizzati...
(X  Cardinali)

ESEMPIO (Bivariato) A1
X
Comportamento

y βˆ1 = +0.68
Compromissorio ESEMPIO (Multivariato) A3 X1

=
Comportamento
Autonomia Compromissorio
βˆ1 = +0.68
decisionale
y
Autonomia
decisionale

X2
y ESEMPIO (Bivariato)
βˆ2 = −0.29 Comportamento
Aggressivo
Autonomia A2
decisionale

βˆ1 = −0.29
X
Comportamento
Aggressivo

ESEMPIO (Bivariato) B1
X
Devianza

y βˆ1 = −0.55
Autonomia
ESEMPIO (Multivariato) B3
X1

decisionale Devianza

y βˆ1 = +0.01
Autonomia
decisionale

X2
y ESEMPIO (Bivariato) B2
βˆ2 = +0.72 Età
Autonomia
decisionale

βˆ1 = +0.71
X
Età

Perché ... ? Cosa differenzia le due sequenze di esempi...?


Interpretazione dei parametri (SEQUENZA "A" e "B")
(X  Cardinali) I coefficienti dei modelli BIVARIATI NON coincidono con quelli del modello MULTIVARIATO Perché ... ?

In generale, considerate k variabili indipendenti, ciascun coefficiente di regressione multipla indica la variazione
sulla variabile dipendente (riprodotta), dovuta ad una variazione unitaria della corrispondente variabile esplicativa,
al netto dell’influenza esercitata sulla dipendente dalle altre k-1 variabili esplicative

Questa proprietà può essere compresa in maniera più diretta, facendo riferimento ai coefficienti ottenuti quando
TUTTE le variabili del modello sono STANDARDIZZATE (pesi β)

Zyˆ i = 0/ + βˆ1 Zx1i + βˆ2 Zx 2i


 Quando le variabili sono standardizzate, ciascun coefficiente può essere letto come coefficinete di correlazione
(particolare o parzializzato)

 Da questa prospettiva, ciascun coefficiente esprime una misura del contributo netto che ciascuna variabile
esplicativa fornisce alla spiegazione (riproduzione) della variabilità osservata in y

ˆ ryx 1 − rx 1 x 2 ⋅ ryx 2 Esempio: βˆ1


β
 1 =
1 − Rx21 x 2
 esprime la varibilità di y, spiegata (riprodotta) da x1 [ryx 1 ]
 dopo aver tolto la variabilità spiegata da x2 che è in comune con x1 [ − rx1 x 2 ⋅ ryx 2 ]
ˆ ryx 2 − rx 1 x 2 ⋅ ryx 1  
β 2 = in rapporto alla variabilità non spiegata da x1 e x2 
 1− R 2 

 1 − R 2
x 1x2
x1 x 2

Se le variabili esplicative sono fra loro ortogonali (rx 1 x 2 = 0 ) , Pertanto : βˆ1 = ryx1

θˆk
fra i βeiθ vale la seguente relazione (dove s = dev. st.): βˆk = ⋅ s xk
sy
Interpretazione dei parametri (SEQUENZA "A" e "B")
(X  Cardinali) I coefficienti dei modelli BIVARIATI NON coincidono con quelli del modello MULTIVARIATO

Cosa differenzia le due sequenze di esempi...?


X X
Comportamento
Compromissorio Devianza

A1 y βˆ1 = +0.68
y βˆ1 = −0.55
Autonomia B1 Autonomia
decisionale
decisionale

y
A2
Autonomia y
decisionale B2 Autonomia
decisionale
X
βˆ1 = −0.29 Comportamento
βˆ1 = +0.71
X
Aggressivo Età

X1 X1
Comportamento
Compromissorio Devianza
βˆ1 = +0.68
y y βˆ1 = +0.01
A3 Autonomia B3 Autonomia
decisionale
decisionale
X2 X2
βˆ2 = −0.29 Comportamento
βˆ2 = +0.72
Aggressivo Età

A1, A2  A3 B1, B2  B3
Pearson Correlation Coefficients, N = 100 Pearson Correlation Coefficients, N = 100
Prob > |r| under H0: Rho=0 Prob > |r| under H0: Rho=0
AUTO_DEC COMPROM AGGRESS AUTO_DEC DEVIANZA ETA
AUTO_DEC 1.00000 0.68128 -0.28961 AUTO_DEC 1.00000 -0.54919 0.70809
<.0001 0.0035 <.0001 <.0001
COMPROM 0.68128 1.00000 0.00082 DEVIANZA -0.54919 1.00000 -0.78236
<.0001 0.9936 <.0001 <.0001
AGGRESS -0.28961 0.00082 1.00000 ETA 0.70809 -0.78236 1.00000
0.0035 0.9936 <.0001 <.0001
Interpretazione dei parametri (SEQUENZA "A" e "B")
(X  Cardinali) I coefficienti dei modelli BIVARIATI NON
Il modello lineare classico è un dispositivo utile
coincidono con quelli del modello per "spiegare" (stabilire l'esistenza di nessi causali o di dipendenza)
MULTIVARIATO

Stabilire l'esistenza di una relazione fra due fenomeni (variabili) significa essenzialmente riconsiderare tale
relazione alla luce di una terza variabile che assume il ruolo di "variabile di controllo"

"varianti" del concetto di controllo:

 Controllo come MANIPOLAZIONE (possibilità di ...)

 Controllo come DEPURAZIONE (canone dei residui ...)

si osserva → y (le variazioni in)


Approccio sperimentale:
{ mentre si manipola
tenenendo costanti
→ x
→ z (tutte le altre)

si osserva → y (le variazioni in)


Approccio osservativo:
{ si osserva
depurando da
→ x (le variazioni in)
→ z (tutte le altre)

Le stime ottenute nell'ambito del modello linare classico sono un esempio di controllo mediante depurazione
(un esempio di operativizzazione del "canone dei residui" di J.S. Mill; 1843)

<<Si sottragga dal fenomeno quella parte che si sa, per previe induzioni,
essere l'effetto di certi antecedenti e il residuo del fenomeno è l'effetto
dei rimanenti antecedenti>>

Il modello lineare classico si "nutre" correlazioni parziali (e semi-parziali)


ovvero di correlazioni semplici fra variabili "residuo"
correlazioni fra variabili cui è stato sottratto l'effetto della/e variabili di controllo (z)
Interpretazione dei parametri (SEQUENZA "A" e "B")
(X  Cardinali) I coefficienti dei modelli BIVARIATI NON
Il modello lineare classico è un dispositivo utile
coincidono con quelli del modello per "scovare" RELAZIONI SPURIE...
MULTIVARIATO

Il paradosso di P. Lazarsfeld (1955) Y = numero di bambini nati


<<nelle zone in cui vi sono più cicogne nascono più bambini>> X = numero di cicogne
Z Z = tipo di zona ( U  Urbana; R  Rurale)

ANALISI BIVARIATA ANALISI MULTIVARIATA

X Y

X2 Pearson Correlation Coefficients, N = 100


Prob > |r| under H0: Rho=0
Età
r = -0.78 r = +0.71 AUTO_DEC DEVIANZA ETA
AUTO_DEC 1.00000 -0.54919 0.70809
<.0001 <.0001
DEVIANZA -0.54919 1.00000 -0.78236
<.0001 <.0001
r =+0.01
X1 y ETA 0.70809
<.0001
-0.78236
<.0001
1.00000

Autonomia
Devianza
r = -0.55 decisionale
L’ANALISI FATTORIALE. Una illustrazione introduttiva e informale... Un esempio di modello per "misurare"
tratti "latenti" multidimensionali
Attenzione:
ACP  sostituire le variabili osservate con nuove variabili che delle prime sono una combinazione lineare e una sintesi

AF  individuare poche dimensioni (o variabili) "non osservabili" che spiegano la covariazione fra le variabili originarie

DUE LIVELLI (o piani)


GIOCO: Nella stanza accanto vi sono 10 individui adulti (sconosciuti) di cui sappiamo:
 fenomeneico, superficiale, manifesto
 Peso corporeo (Kg.) (la matrice dei dati)
 N° di ospedalizzazioni subite nell'ultimo anno
 N° (taglia) delle scarpe indossate  noumenico, profondo, latente
 N° di serate danzanti (ballo liscio) trascorse nell'ultimo anno
 N° di collegamenti effettuati a internet nell'ultimo anno
 N° di sorbetti al limone gustati nell'ultimo anno
costrutti ipotetici (variabili latenti)
Si chiede di stimare [indovinare (?)] la STATURA e l 'ETA' di ciascun individuo.

X1

X2 Nucleo logico: la correlazione tra le variabili (x) viene inputata ad


una o più variabili latenti (y) e le relazioni di quest’ultima/e con le
variabili di partenza (x) sono presentate come relazioni causali.
X3
Y (???)

X4

X5
ANALISI FATTORIALE
Pearson Correlation Coefficients, N = 10
Prob > |r| under H0: Rho=0
LIVELLO MANIFESTO
PESO OSPEDALE SCARPE B_LISCIO INTERNET SORBETTO

PESO 1.00000 0.23203 0.89746 0.07543 -0.37430 0.27841


0.5189 0.0004 0.8359 0.2866 0.4360

OSPEDALE 0.23203 1.00000 0.19668 0.50170 -0.65066 -0.06068


0.5189 0.5860 0.1395 0.0416 0.8677 ident PESO OSPEDALE SCARPE B_LISCIO INTERNET SORBETTO

SCARPE 0.89746 0.19668 1.00000 0.18933 -0.08363 0.10020 ID_01 55 2 37 9 33 123


0.0004 0.5860 0.6004 0.8183 0.7830 ID_02 83 3 38 29 23 250
ID_03 110 10 43 39 0 58
B_LISCIO 0.07543 0.50170 0.18933 1.00000 -0.12454 -0.01862 ID_04 52 6 37 29 45 89
0.8359 0.1395 0.6004 0.7318 0.9593 ID_05 130 4 46 30 48 150
ID_06 109 2 40 0 12 98
INTERNET -0.37430 -0.65066 -0.08363 -0.12454 1.00000 -0.35297 ID_07 50 0 37 17 100 0
0.2866 0.0416 0.8183 0.7318 0.3171 ID_08 72 4 37 45 27 101
ID_09 63 7 36 35 9 73
SORBETTO 0.27841 -0.06068 0.10020 -0.01862 -0.35297 1.00000 ID_10 73 6 36 6 18 137
0.4360 0.8677 0.7830 0.9593 0.3171

Correlazione lineare fra coppie di indicatori (r ≥ | 0.25 | )

(+)

PESO SCARPE B_LISCIO


Variable N Mean Std Dev Minimum Maximum

(-) PESO 10 79.70 26.38 50.00 130.00


(+) OSPEDALE 10 4.40 2.76 0 10.00
(+)
SCARPE 10 38.70 3.16 36.00 46.00
B_LISCIO 10 23.90 14.31 0 45.00
INTERNET 10 31.50 27.02 0 100.00
SORBETTO 10 107.90 62.36 0 250.00

SORBETTO INTERNET OSPEDALE

(-)
(-)
(con j < k) The FACTOR Procedure
Initial Factor Method: Principal Components

 F1 = λ1 x1 + λ2 x2 + λ3 x3 + ... + λk xk Prior Communality Estimates: ONE

 F = λ x + λ x + λ x + ... + λ x
 2 1 1 2 2 3 3 k k Eigenvalues of the Correlation Matrix: Total = 6 Average = 1

 F3 = λ1 x1 + λ2 x2 + λ3 x3 + ... + λk xk Eigenvalue Difference Proportion Cumulative

 ...................
1
2
2.44153716
1.44261151
0.99892565
0.27251001
0.4069
0.2404
0.4069
0.6474
 3 1.17010150 0.43302997 0.1950 0.8424

 F j = λ1 x1 + λ2 x2 + λ3 x3 + ... + λk xk
4 0.73707152 0.56116373 0.1228 0.9652
5 0.17590779 0.14313727 0.0293 0.9945
6 0.03277052 0.0055 1.0000

2 factors will be retained by the NFACTOR criterion.

Rotated Factor Pattern

Factor1 Factor2

PESO 0.96118 0.16492 (Pesi)


OSPEDALE 0.07462 0.93376
SCARPE 0.89296 0.09040
B_LISCIO -0.03281 0.68258
INTERNET -0.28031 -0.71376 Statura Eta'
SORBETTO 0.44110 0.02125 Ident (F1) (F2)
(Punteggi)
ID_01 -0.43405 -0.77189
ID_02 0.48431 -0.10543
Variance Explained by Each Factor ID_03 0.72176 1.69381
ID_04 -0.90468 0.33857
Factor1 Factor2 ID_05 1.99178 -0.39490
2.0010379 1.8831108
ID_06 0.95240 -0.86498
ID_07 -1.07146 -1.68050
Final Communality Estimates: Total = 3.884149 ID_08 -0.53582 0.59017
ID_09 -0.92088 1.15378
PESO OSPEDALE SCARPE B_LISCIO INTERNET SORBETTO
ID_10 -0.28335 0.04137
0.95106011 0.87748252 0.80555338 0.46699273 0.58803568 0.19502426
La soluzione del 'gioco' .... (a meno di medie e varianze) ....

(Vecchi)

ID_05

ID_06

ID_03
ID_02

ID_10 (Alti)
ID_01

ID_08
ID_04 ID_09
ID_07

Per concludere ... SOLO PERCHE' E' UN GIOCO, possiamo immaginare di conoscere le medie e le varianze ....
ident vera_s stima_s vera_e stima_e
Supponendo di conoscere ...
ID_01 170 169 35 35
[VERA\ STIMATA]
Media Dev. St.
ID_02 189 183 32 46 r (Bravais-Pearson)
ID_03 193 187 78 77
Statura 176 (cm.) 15.4 ID_04 162 162 48 54
ID_05 203 207 41 41 Statura = + 0.94
ID_06 186 191 36 33
ID_07 160 159 27 19
Età = + 0.92
Età 48 (anni) 17.3
ID_08 156 168 58 58
ID_09 162 162 78 68
ID_10 174 172 43 49

Legenda
= VERA

* = STIMATA
In sintesi le caratteristiche del precedente gioco:

 due tratti manifesti degli individui (statura ed età) sono stati immaginati come latenti;

 i dati a disposizione riguardavano alcune proprietà manifeste degli individui;

 i dati a disposizione erano tutti organizzati in variabili di tipo cardinale;

 sfruttando le intercorrelazioni reciproche fra le variabili sono state individuate 2 dimensioni;

 le due dimensioni sono state interpretate come: statura ed età;

 il modello matematico statistico (analisi fattoriale) ha permesso di collocare gli individui


in uno spazio bidimensionale dove le coordinate degli individui sono le "misure" cercate;

 il precedente “gioco” è quindi uno strumento di misura ...


QUALCHE ULTERIORE CONSIDERAZIONE....

L’analisi fattoriale, ovvero, una “galassia” di procedimenti (tecniche e modelli)


Analisi fattoriale esplorativa (ACP; ACP troncata; AF);
Analisi fattoriale confermativa (modelli di equazioni strutturali);

L’analisi fattoriale è un procedimento che obbliga a PRENDERE DECISIONI

controllare l’adeguatezza delle variabili manifeste (livello di scala e distribuzione);


controllare l’adeguatezza della matrice di correlazione (e/o) ‘varianze-covarianze’;
stabilire il metodo di estrazione dei fattori;
stabilire il numero di fattori da “trattenere”;
stabilire il modello di rotazione più adeguato;
interpretare i fattori;
controllare l’adeguatezza della soluzione ottenuta

 Opzioni “default” delle procedure informatizzate;

 Il programma che "gira" sul calcolatore non sa prendere decisioni !!!;

UN ESEMPIO…
Batteria di domande in un questionario sulla precezione soggettiva del rischio idrogeologico…

SCOPO: valutare il processo di attribuzione causale relativo ad un disastro ambientale

<<Persone intervistate prima di Lei hanno indicato diversi fattori che, secondo la loro opinione,
possono contribuire a provocare un disastro ambientale.
Le leggerò ora un elenco di tali fattori e, sempre pensando all'alluvione dell'ottobre 2000,
Le chiedo di dirmi quanto- secondo Lei - ciascuno di tali fattori è importante nel provocare
un disastro ambientale>>
(esprima il Suo giudizio con un voto: 0=per nulla importante; 10=molto, del tutto importante)

[somministrare in ordine casuale]

D62_01 la volontà di Dio


D62_02 il destino e la cattiva sorte
D62_03 il Male (il diavolo)
D62_04 il cambiamento del clima
D62_05 l'inquinamento atmosferico e delle acque
D62_06 le caratteristiche del suolo
D62_07 la costruzione di nuove case e strade
D62_08 la costruzione di fabbriche e centrali di produzione dell'energia elettrica
D62_09 la costruzione di insediamenti e infrastrutture turistiche
D62_10 la modifica del corso di fiumi e torrenti
D62_11 l'apertura di cave per l'estrazione dei minerali
D62_12 il disboscamento
D62_13 l'abbandono dei lavori agricoli
D62_14 la scarsa manutenzione e pulizia dei corsi d'acqua
D62_15 la mancanza di opere di difesa idraulica (argini, briglie, etc.)
D62_16 il disinteresse degli amministratori pubblici locali (sindaci, consiglieri regionali, etc.)
D62_17 la carenza dei servizi di prevenzione e controllo dell'ambiente
D62_18 la scarsa sensibilità dei cittadini verso i problemi dell'ambiente
D62_19 la scarsa considerazione per i consigli degli anziani del posto
D62_20 la scarsa considerazione per i consigli degli esperti (geologi, ingegneri,
metereologi, etc.)

??? SOPRANNATURALE ANTROPIZZAZIONE CATTIVA GESTIONE TERRITORIO ???


Domande eliminate…

D62_01 la volontà di Dio


D62_02 il destino e la cattiva sorte
D62_03 il Male (il diavolo)
D62_04 il cambiamento del clima
D62_05 l'inquinamento atmosferico e delle acque
D62_06 le caratteristiche del suolo
D62_07 la costruzione di nuove case e strade
D62_08 la costruzione di fabbriche e centrali di produzione dell'energia elettrica
D62_09 la costruzione di insediamenti e infrastrutture turistiche
D62_10 la modifica del corso di fiumi e torrenti
D62_11 l'apertura di cave per l'estrazione dei minerali
D62_12 il disboscamento
D62_13 l'abbandono dei lavori agricoli
D62_14 la scarsa manutenzione e pulizia dei corsi d'acqua
D62_15 la mancanza di opere di difesa idraulica (argini, briglie, etc.)
D62_16 il disinteresse degli amministratori pubblici locali (sindaci, consiglieri regionali, etc.)
D62_17 la carenza dei servizi di prevenzione e controllo dell'ambiente
D62_18 la scarsa sensibilità dei cittadini verso i problemi dell'ambiente
D62_19 la scarsa considerazione per i consigli degli anziani del posto
D62_20 la scarsa considerazione per i consigli degli esperti (geologi, ingegneri,
metereologi, etc.)

proc factor method=principal priors=one nfact=3 rotate=varimax ;


var d62_01-d62_03 d62_07-d62_17 d62_20;
Valutazione e scelta numero fattori...

The SAS System


The FACTOR Procedure
Initial Factor Method: Principal Components
Prior Communality Estimates: ONE
Eigenvalues of the Correlation Matrix: Total = 15 Average = 1

Eigenvalue Difference Proportion Cumulative

1 4.51335006 2.70940288 0.3009 0.3009


2 1.80394718 0.55251298 0.1203 0.4212
3 1.25143420 0.23713130 0.0834 0.5046
4 1.01430291 0.09480295 0.0676 0.5722
5 0.91949995 0.14305219 0.0613 0.6335
6 0.77644776 0.03364707 0.0518 0.6853
7 0.74280069 0.12923271 0.0495 0.7348
8 0.61356799 0.03839652 0.0409 0.7757
9 0.57517146 0.02134423 0.0383 0.8140
10 0.55382723 0.01277632 0.0369 0.8510
11 0.54105091 0.02746353 0.0361 0.8870
12 0.51358739 0.09152379 0.0342 0.9213
13 0.42206359 0.00496438 0.0281 0.9494
14 0.41709922 0.07524977 0.0278 0.9772
15 0.34184945 0.0228 1.0000

3 factors will be retained by the NFACTOR criterion.


CATTIVA GESTIONE TERRITORIO
Interpretazione fattori...

Rotated Factor Pattern ANTROPIZZAZIONE

Factor1 Factor2 Factor3 SOPRANNATURALE

d62_01 0.07321 -0.13033 0.79655 dio


d62_02 -0.05048 0.09833 0.72175 destino

d62_03 0.13336 0.04536 0.76099 male

d62_07 0.14337 0.71012 -0.11852 nuove case

d62_08 0.22851 0.62068 -0.00304 nuove fabbriche

d62_09 0.14575 0.77874 0.02022 infrast. turistiche

d62_10 0.25526 0.52666 -0.00047 modifica corsi d’acqua

d62_11 0.20326 0.63612 0.18923 nuove cave

d62_12 0.52336 0.53539 -0.00640 disboscamento

d62_13 0.45339 0.20585 0.04181 abbandono agricoltura

d62_14 0.65212 0.14412 0.05999 scarsa manutenzione

mancano opere idrauliche


d62_15 0.77831 0.09818 -0.01173
disinteresse amministrat.
d62_16 0.64865 0.25913 0.00853
carenza servizi prevenzione
d62_17 0.66915 0.18131 0.10324
scarsa attenz. anziani
d62_20 0.66843 0.21895 0.04020
Calcolo dei punteggi individuali...

The SAS System


The MEANS Procedure
N
Variable N Miss Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
sopranna 262 118 2.288246E-17 0.9980898 -1.1960590 4.0467054
antropi 262 118 3.135744E-17 0.9980898 -3.4314271 2.2545266
nogest 262 118 -3.34762E-17 0.9980898 -2.6957067 2.5817654
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
punteggi individuali...
DIGRESSIONE COSTRUTTO TEORICO:
(ERATOSTENE)
ANALOGIA "Circonferenza terrestre"
<<La prima misurazione scientifica
∼240 a.C.
di una distanza cosmica>>
(I. Asimov, 1984,
p.22)

1) EFFETTUO OSSERVAZIONI EMPIRICHE (indirette) ..... ... QUANTO MISURA???


ALESSANDRIA In metri ...
Teorema dei seni...
800 Km. (D) a = 1.000
(A)
 γ = 90 a b c
b = 0.128 ; = =
 c = 1.008 β = ? senα senβ senγ
SIENE
Tropico del Cancro 
(C)
(B)
ALESSANDRIA (Egitto):
SIENE (Egitto): h. 12 solstizio d'estate
h. 12 solstizio d'estate (21 giugno) Quindi...
(21 giugno)
b
β = arcsen 
c

β
 0.128 
? β = arcsen  = 7.295 ≅ 7° 30'
(c)  1 .008 
100 cm.
100 cm.

(a)

γ α

circa 13 cm. (b) 42a


DIGRESSIONE 2) MODELLIZZO (assumo che la terra sia sferica) ....
(ERATOSTENE)
ANALOGIA

ALESSANDRIA

7° 30 '

TROPICO del CANCRO


SIENE

7° 30 '

EQUATORE

3) ESEGUO CALCOLI ..... C = "Circonferenza terrestre" (in Km.) C : 800 = 360° : 7° 30'

800 ⋅ 360
4) OTTENGO UNA STIMA DELLA MISURA CERCATA ..... C= = 39452 ≅ 40mila Km.
7.30
 c 39452 
 diametro = = = 12564 ≅ 13 mila Km. 
 π 3.14  42b
DIGRESSIONE Esempio di misurazione...
(ERATOSTENE)
ANALOGIA ∼240 a.C.

ASTROFISICA PSICOLOGICA

Costrutto teorico circonferenza terrestre abilità di far di conto

distanza fra due città


Osservazioni empiriche risposte a domande
lunghezza ombra del bastone

[probabilistica]
[deterministica]
Modellizzazione Prob( R = x ) = f (abilità ;difficoltà ;etc .)
Terra = Sfera

Calcoli algebra, trigonometria algebra, statistica

[errore di specificazione +
Stima [errore di specificazione]
errore stocastico]

42c
DIGRESSIONE
(ERATOSTENE)
ANALOGIA D’altra parte, con riferimento al concetto di “tempo” (cronologico)...

<<L'uomo ... non riuscì mai a delimitare,


misurare, circosrcivere
il tempo come lo spazio; dovette sempre
percepirlo e rappresentarlo
attraverso segni che a loro volta necessitavano
d'interpretazione e
potevano essere variamente spiegati>>
(A. Borst, 1997, p.13)

FINE (digressione)

42d
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie. Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento impartiti da diversi insegnanti,
... Illustrazione... (EFFETTO INTERAZIONE...) allora la loro velocità di lettura è differente>>
 metodo - A (1, 2, 3);  insegnante - B (1, 2)  30 individui ogni gruppo

 L'interazione rappresenta l'effetto CONGIUNTO" dei due trattamenti


Ovvero Disegno FATTORIALE (due trattamenti)
 Si ha la presenza di un effetto interazione quando le variazioni (attese sulla y) dovute ai (Completely Randomized Factorial CRF-32)  ANOVA a DUE VIE (Fattoriale) 
livelli di un trattamento sono differenti per due o più livelli dell’altro trattamento

y (B) 1 2 Tot. y (B) 1 2 Tot.


(A) (A)

1 39.17 36.70 37.93


ESEMPIO... ESEMPIO...
1 51.07 38.93 45.00 -------------------- --------------------
vedi file: vedi file:
2 62.10 50.83 56.47 ES_ANOVA2.SAS 2 65.83 57.83 61.83 ES_ANOVA3.SAS
ES_ANOVA2.XLS ES_ANOVA3.XLS
3 55.20 42.33 48.77 3 48.60 51.87 50.23

Tot. 56.12 44.03 50.08 Tot. 51.20 48.80 50.00

Dependent Variable: y Dependent Variable: y


Sum of Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 5 10694.84444 2138.96889 24.55 <.0001 Model 5 18352.53333 3670.50667 82.01 <.0001
Error 174 15160.06667 87.12682 Error 174 7787.46667 44.75556
Corrected Total 179 25854.91111 Corrected Total 179 26140.00000

R-Square Coeff Var Root MSE y Mean R-Square Coeff Var Root MSE y Mean
0.413648 18.63936 9.334175 50.07778 0.702086 13.37992 6.689959 50.00000

Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
A 2 4099.244444 2049.622222 23.52 <.0001 A 2 17141.20000 8570.60000 191.50 <.0001
B 1 6576.355556 6576.355556 75.48 <.0001 B 1 259.20000 259.20000 5.79 0.0172
A*B 2 19.244444 9.622222 0.11 0.8955 A*B 2 952.13333 476.06667 10.64 <.0001

B (1) B (1)
y6563hj B (2) y6765hj B (2)

61 63
59 61
57 Insegnante "1" 59
55 57
Insegnante "2"
53 55
51 53
51
49
49
47
47 Insegnante "1"
45
45
43 43
41 41
39 Insegnante "2" 39
37 37
35 ritorna 35
Metodo (A) A (1) A (2) A (3) Metodo (A) A (1) A (2) A (3)