Sei sulla pagina 1di 131

Lezioni di Teoria e Tcniche dei Test del prof. Renato Miceli (a.a.

2011-2012) UNIVERSITA' DEGLI STUDI DI TORINO


Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche DIPARTIMENTO DI PSICOLOGIA
prof. Renato Miceli
OTTOBRE 2011

Il presente file (in formato PDF) contiene le diapositive che, nel loro insieme, forniscono supporto visivo alle
lezioni del docente. Si raccomanda di NON considerare questo materiale alla stregua di un libro di testo! In
particolare è fortemente sconsigliata la stampa (su carta) di questo materiale. Alcune diapositive possono
essere presenti più volte in questo stesso insieme (doppioni), perchè questa sequenza di diapositive NON
rappresenta necessariamente l'ordine di utilizzo delle medesime a lezione. Inoltre, NON tutte le diapositive qui
riportate sono sempre utilizzate durante le specifiche lezioni dell'anno in corso...
!!! Si ricorda comunque che il presente materiale didattico non sostituisce i libri di testo !!!
Il presente materiale didattico é:
- utile per ripassare, ripensare e riflettere sugli argomenti trattati a lezione;
- utile per approfondire lo studio svolto sui libri di testo, consentendo di
confrontare modi diversi di presentare gli stessi argomenti e disponendo
di specifici esempi, commenti etc.;
- provvisorio e soggetto a continue revisioni e aggiornamenti;
- nella versione qui resa disponibile può risultare incompleto o di difficile lettura
in quanto alcune diapositive sfruttano caratteri, colori e/o animazioni
specifiche del software utilizzato (PowerPoint) che non sono altrimenti
riproducibili.
Lezioni di Teoria e Tcniche dei Test del prof. Renato Miceli (a.a. 2011-2012)
UNIVERSITA' DEGLI STUDI DI TORINO
Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche
DIPARTIMENTO DI PSICOLOGIA
OTTOBRE 2011 prof. Renato Miceli

Indice degli argomenti


Introduzione

Primo Modulo: La Teoria Classica dei Test e i suoi fondamenti

Questionari e test; dalle proprietà alle variabili (cenni di teoria dei dati)
vettori e matrici; algebra delle sommatorie e delle produttorie

Teoria dei livelli di scala

Distribuzioni empiriche; operatori di tendenza centrale e di dispersione

Teoria della probabilità (cenni); principali distribuzioni di probabilità e loro proprietà

La logica della decisione in statistica, test sulle ipotesi

Principali misure di relazione bivariata

La Teoria Classica dei Test (attendibilità e validità)

La Teoria Classica dei Test (punteggi grezzi, standardizzati, norme statistiche)

Cenni introduttivi alla Item Response Theory


Lezioni di Teoria e Tcniche dei Test del prof. Renato Miceli (a.a. 2011-2012)
Introduzione (1 / 2)
Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche

 Il corso è articolato in due Moduli per un totale di 20 lezioni (3 h. ciascuna); la successione degli
argomenti trattati è soggetta al criterio di propedeuticità: in generale lo svolgimento del Primo
Modulo è propedeutico allo svolgimento del Secondo. Si consiglia pertanto una frequenza assidua.

ll corso fornisce le conoscenze teoriche e metodologiche iniziali per la realizzazione e l'utilizzo critico dei test psicologici.
Il contesto generale di riferimento è quello della Teoria Classica dei Test (T.C.T.) accompagnato da brevi cenni sugli
sviluppi più recenti della Item Response Theory (I.R.T.).
Il primo modulo è prevalentemente dedicato all'acquisizione (e/o ripasso) degli elementi di matematica e statistica
indispensabili per lo studio dei processi di misurazione in psicologia e allo studio della Teoria Classica dei Test;
il secondo modulo si concentra prevalentemente sugli aspetti applicativi dei test psicologici (scopi, uso, modalità di
somministrazione, deontologia, interpretazione dei punteggi, etc.)

 Bibliografia di base

(a) L. PEDRABISSI, M. SANTINELLO, I test psicologici, Il Mulino, Bologna, 1997 (Escluso il capitolo 9).

(b) R. SARTORI, Psicologia Psicometrica, LED, Milano, 2008 (Cap. 2, 3; pag. 15-57).

(c) R. MICELI, Questionari e test, dati e modelli,


In: R. MICELI (a cura di), Numeri, Dati, Trappole, Carocci, Roma, 2004 (Cap. 3; pag. 53-105).

L'esame è orale. Una parte, anche consistente, di domande (del tipo a "scelta multipla") potrà essere
formulata in modalità scritta (correzione, valutazione e validità saranno contestuali).
Gli studenti degli anni precedenti possono portare all'esame il programma dell'anno di riferimento;
l'esame è orale

 Il ricevimento studenti si svolge (di norma) il giovedì pomeriggio (h. 15-17) previo
appuntamento tramite e-Mail all'indirizzo: g.molinengo@univda.it oppure: renato.miceli@unito.it

 Il materiale didattico usato dal docente durante il corso (appunti, diapositive,


etc.) verrà reso disponibile agli studenti al termine delle lezioni
Lezioni di Teoria e Tcniche dei Test del prof. Renato Miceli (a.a. 2011-2012)
Introduzione (2 / 2)
Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche

 PROGRAMMA DETTAGLIATO DEL CORSO


La prova serve a fini didattici; la valutazione finale
del corso (l'esame) non sarà in alcun modo
Accertamento delle conoscenze influenzata dai dati qui raccolti.
preliminari....
L'esito della prova verrà valutato e discusso
collegialmente, in aula, al termine della stessa.

Primo modulo (La Teoria Classica dei Test e i suoi fondamenti ) prof. Renato Miceli

• Questionari e test; dalle proprietà alle variabili (cenni di teoria dei dati)
 Vettori e matrici; algebra delle sommatorie e delle produttorie
 Teoria dei livelli di scala
 Distribuzioni empiriche; operatori di tendenza centrale e di dispersione
 Teoria della probabilità (cenni); principali distribuzioni di probabilità e loro proprietà
 La logica della decisione in statistica, test sulle ipotesi
 Principali misure di relazione bivariata
 La Teoria Classica dei Test (attendibilità e validità)
 Cenni introduttivi alla Item Response Theory

Secondo modulo (La Teoria Classica dei Test: aspetti applicativi) dott.sa Giorgia Molinengo

 Definizione e scopi dei test psicologici


 Modalità di somministrazione dei test
 Criteri per la scelta di un test e regole deontologiche
 Interpretazione dei punteggi
 Presentazione di esempi ed esercizi
Questionario Questionari e test (1 / 9)
Quiz
Strumenti di rilevazione
Test composti da...
Intervista
Indagine demoscopica Domande (item; stimoli; agenti elicitanti)
Sondaggio
Survey che producono...
Scale di valutazione
Scale di giudizio Risposte (comportamenti)
Check-list
Inventario
Griglia di codifica
Reattivo Dati
etc. etc.

Sono tutti strumenti di rilevazione che si


differenziano (almeno) per:

 modalità di somministrazione e/o utilizzo...


 presenza/assenza di uno (o più) codificatori
 scopi... I Test sono strumenti di MISURA
 oggetto di rilevazione (comportamenti; opinioni...)
 etc.

Test Strumenti di misura  Valutazione abilità raggiunte o potenziali (massima performance)


 Personalità, valori, aspettative, atteggiamenti (tipica performance)

INSIEME DI DOMANDE (STIMOLI) CAPACE


INSIEME
DI FAR DI DOMANDE
EMERGERE (STIMOLI)
RISPOSTE CAPACE
VALUTABILI
TEST DI FAR EMERGERE RISPOSTE
E INTERPRETABILI VALUTABILI
QUANTITATIVAMENTE
E INTERPRETABILI QUANTITATIVAMENTE
SULLA BASE DI CRITERI SPECIFICI E STANDARD
SULLA BASE DI CRITERI SPECIFICI E STANDARD
PRESTAZIONALI
PRESTAZIONALI
Questionari e test (2 / 9)
Cos'é una INTERROGAZIONE?

- insieme di domande cui l'allievo risponde;


- le risposte (o i silenzi) sono interpretate e valutate quantitativamente
- dall'insegnante sulla base dei propri criteri e standard di prestazione

Cosa distingue una interrogazione da un test?


 somministrazione orale o scritta ?
 risposte precodificate o aperte ?
 supporto cartaceo o elettronico ?

Modalità attraverso cui si ottiene la confrontabilità dei voti (o punteggi)

EQUANIMITA'

STESSO
DOCENTE

Interrogazione ? Test
DOCENTI
DIVERSI

PROCEDURA
PROFESSIONALITA' IMPERSONALE
Questionari e test (3 / 9)

Affinche' una procedura impersonale occupi lo spazio di un'interrogazione è necessario


appurare che essa garantisca (almeno) un livello di confrontabilità dei voti (punteggi)
analogo (o superiore).....

Comprendere potenzialità e limiti di una tale procedura è indispensabile per


valutare pacatamente l'opportunità o meno del suo utilizzo...

Porre domande e registrare le


risposte è una cosa semplice?
Ovvero
Un lungo percorso può iniziare I dati "parlano" da soli?
"incidenti cognitivi"
chiedendosi: (Gobo, 1997, p.45)

Una stessa domanda può essere posta in molti modi diversi e il modo di porla (il fraseggio) influenza le risposte

Una stessa domanda, posta nello stesso modo può essere compresa in modo diverso da gruppi di persone diversi

Ad una stessa domanda si può rispondere in maniera diversa in funzione del contesto definito dal questionario

Gli effetti dovuti al contesto sono stati studiati tramite la messa a punto di un ampio disegno Un esempio...
sperimentale in cui una domanda sull'interesse delle persone per la politica (negli U.S.A.)
veniva posta agli intervistati prima e dopo altre domande (Zammuner V. L., 1996, pp. 87-93);
(l'esempio qui presentato è una semplificazione)

Etc.,etc., ...
Questionari e test (4 / 9) Esempio di distorsione indotta dal contesto: la stessa domanda viene posta nell'ambito dello stesso questionario
prima e dopo la domanda (B) contestualizzante...
2 DOMANDE
DOMANDA "A" DOMANDA "B" (B) contestualizzante;
costringe gli intervistati a
riflettere su un comportamento
<<Alcune persone seguono le vicende politiche la maggior parte che concretamente denota
del tempo anche quando non ci sono elezioni imminenti, interesse per le vicende politiche
mentre altre persone non sono molto interessate alla politica.
Lei direbbe di seguire le vicende politiche: <<Si ricorda come ha votato il suo rappresentante presso il Parlamento
(1) la maggior parte del tempo; in una o due leggi che siano state discusse negli ultimi due anni?
(2) in modo abbastanza frequente; (1) Si;
(3) solo qualche volta; (2) No.
(4) quasi mai>> Se si, quale legge ....... come ha votato .... >>

Campione 1
A_B
analogamente rappresentativi
della stessa popolazione 2 CAMPIONI (Diverso ordine di presentazione)
(anche se di numerosità diversa)
Campione 2 B_A
RISULTATI: Risposte alla domanda "A" (interesse per la politica)

frequenze Risposte alla Campione 1 Campione 2 frequenze Campione 1 Campione 2


osservate domanda A A_B B_A attese A_B B_A
Interesse ALTO 654 249 603 300
(risposte=1 o 2) (72.03%) (55.09%) 66.41% 66.37%
Interesse BASSO 254 203 305 152
(risposte=3 o 4) (27.97%) (44.91%) 33.59% 33.62%
 2  38.8043 TOTALE 908 452
( pr .  .0.0001) (100.00%) (100.00%)
Questionari e test (5 / 9) "Teoria" e "Dati" condividono una stessa natura congetturale

<<I dati non esistono al di fuori delle operazioni che il ricercatore compie in rapporto a un
determinanto quadro di riferimento teorico>>

<<I cosiddetti "dati" non crescono nei prati e i ricercatori non li raccolgono, essi sono
piuttosto "costruiti" dal ricercatore stesso attraverso procedure di interpretazione e di
attribuzione di significato>>
trascrizione (su un qualche
Qualche definizione: definisce una qualche supporto) di un "fatto"
caratteristica dell’entità (risultato di un PROCESSO DI
(Oggetto) sotto osservazione DATO RILEVAZIONE)
CONCETTO, (Idea),
COSTRUTTO TEORICO,
TRATTO, PROPRIETA' insieme di REGOLE (algoritmo,
procedura) che governa la
rilevazione e che permette di
evento semplice, asserto rilevare lo STATO di un oggetto VARIABILE..
descrittivo intersoggettivamente DEFINIZIONE (o caso) rispetto ad una
FATTO condiviso (il valore segnato dalla OPERATIVA proprietà (trasformando
lancetta della bilancia; l'osservazione in un "fatto")
il contenuto del documento
amministrativo; la risposta
scritta sul foglio di carta; etc.)
<< [oggettività nella scienza] ... non
implica che lo scienziato si
distacchi freddamente dall’oggetto
dei suoi studi, né che egli tratti la
gente come oggetti anziché come
CONCETTO DATO persone. Essa non comporta
neppure che ciò che lo scienziato
osserva sia ciò che realmente
accade. Oggettività significa che
delle persone, che avessero
guardato sopra la spalla dello
ENTITA' (OGGETTO) STATO dell'OGGETTO scienziato mentre faceva
sotto osservazione (rispetto alla proprietà) l’osservazione,
avrebbero visto le stesse cose>>
(McBurney D.H., 1983, p.19).

DEFINIZIONE OPERATIVA
Questionari e test (6 / 9)
grandezza, generalmente indicata con una delle ultime lettere dell'alfabeto (x, y, z),
che può assumere tutti i valori appartenenti a un determinato insieme e che
rappresenta in generale tutti gli elementi di tale insieme
VARIABILE...

MUTABILE
sequenza ordinata e codificata di rilevazioni (osservazioni)  vettore (colonna) di una matrice dati

Il processo di rilevazione può riguardare:  UNA entità in UN arco temporale


statura
Renato ha una statura pari a 1.75 mt.  Renato 1.75

 UNA entità in PIU' archi temporali (processo DIACRONICO)


Stefano
(statura) T0 T1 T2 ...
T0 0.50
T1 0.67 Stefano 0.50 0.67 1.05 .......
T2 1.05 (statura)
.......... ......

 PIU' entità in PIU' archi temporali  PIU' entità in UN arco temporale (processo SINCRONICO)

T0 T1 T2 ..... statura

A ...
Renato 1.75
xA,0 xA,1 xA,2
Maria 1.63
B xB,0 xB,1 xB,2 ...
Giuseppe 1.94
C xC,0 xC,1 xC,2 ... .......... ......

.... .... ... ... ... esempi...


(Limitatamente a processi SINCRONICI) Questionari e test (7 / 9) Matrici elementari: "2-vie 1-modo"
TEORIA DEI DATI
(Cattel, 1940; Coombs, 1964; Carol, Arabie, 1980)
(Km.) Amsterdam Milano Roma Venezia

vettori matrice CxV


Insieme (collettivo) di 5 individui x w A Amsterdam 0 1130 1750 1430

 Alberto  23  M 23 M


 Maria  18 F 18 F
Milano 1130 0 630 300
       
Francesca 
 età (proprietà)  variabile" x" 21 F  21 F Roma 1750 630 0 580
 Federico  genere(proprietà)  variabile" w"      
  19  M 19 M
Venezia 1430 300 580 0
 Anna 
 
19  F  19 F 

Matrici elementari: "2-vie 2-modi"

un esempio...

Relazione ASIMMETRICA di APPARTENENZA (ad una classe di equivalenza) Relazione ASIMMETRICA di DOMINANZA [se = 1]

CxV D1, D2, D3, ... Domande Likert S1, S2, S3, ...
Stimoli Test

ident statura genere voto ident D1 D2 D3 ident S1 S2 S3


1 175 M 108 1 1 3 5 1 1 0 1
2 150 F 100 2 2 4 2 2 1 1 0
3 183 M 98 3 4 1 3 3 0 0 1
4 ... ... .... 4 ... ... .... 4 ... ... ....

CONDIZIONATA PER COLONNA CONDIZIONATA PER RIGA NON CONDIZIONATA


Questionari e test (8 / 9) Un esempio ... MATRICE DATI ELEMENTARE (2 VIE, 2 MODI)

Le elencherò alcuni comportamenti che le persone adottano per far fronte


Pensando ai prossimi 5 anni, ad un evento alluvionale con ai pericoli idrogeologici. Pensando ad una tale eventualità, Lei o qualcuno
frane e smottamenti che coinvolga la zona in cui abita della sua famiglia ...
quanto è PROBABILE che... ["SI", "NO"]
 Genere? ["per nulla", "poco", "abbastanza", "molto"]  (1) Ha seguito un corso di pronto soccorso?
 Età?  (1) viabilità interrotta...  (2) Tiene in efficienza (e/o in un luogo particolare) radio e torcia
 (2) servizi (luce, telefono, acqua, etc.) interrotti... elettrica funzionanti a pile?
 (3) suoi beni ... danneggiati...  (3) Ha messo da parte scorte di cibo e acqua?
 (4) sua abitazione principale danneggiata...  (4) Ha trascritto (in un luogo particolare) i numeri di telefono da
 (5) Lei, o persone care, subiscano danni fisici chiamare in caso di emergenza?
 .... etc. etc. (9 comportamenti)

condizionata condizionata <<NON>>


<<colonna>> <<riga>> condizionata
_N_ IDENT genere eta d12_3 d12_4 d12_5 d85_1 d85_2 d85_3 d85_4 d85_5
1 31 F 51 2 2 2 1 0 1 1 1
2 35 M 42 1 1 1 0 0 1 1 1
3 41 F 32 1 1 1 0 0 0 0 0
4 50 F 45 0 0 2 0 0 0 0 1
5 53 M 64 0 0 2 0 0 1 0 0
6 66 F 43 0 1 2 1 0 1 1 1
7 88 F 64 2 1 2 1 1 1 1 1
8 91 F 73 2 0 1 0 0 0 0 0
9 104 F 55 1 1 1 0 0 1 1 1
10 107 M 21 3 1 1 0 0 1 0 1
11 132 F 41 1 1 0 0 1 1 0
12 141 F 41 0 0 0 0 0 0 0 0
13 201 F 20 1 3 2 1 0 1 1 0
14 245 F 49 1 1 1 0 0 0 0 0
15 279 M 33 1 1 1 0 0 1 1 0
16 289 F 70 0 0 0 1 0 1 1 0
17 305 F 43 0 1 2 0 0 1 0 1
18 320 M 41 0 1 0 1 0 1 0 0
19 327 F 39 3 3 3 1 0 1 1 0
20 333 M 70 3 3 1 0 0 1 1 1
21 349 F 43 1 1 1 0 1 1 1 0
22 352 M 80 0 0 1 1 1 1 1 0
23 383 F 50 1 1 1 1 0 1 1 1
24 396 F 31 0 0 0 1 0 0 0 0
25 418 M 74 1 0 0 0 0 1 0 0
26 449 M 65 1 2 2 1 0 1 1 1
27 506 M 69 1 3 3 0 0 1 0 1
28 550 F 85 0 0 2 0 0 1 1 0
29 581 F 61 2 3 3 1 0 1 1 1
..... .... .... .... .... .... .... .... .... .... .... ....

Tratto da:
R. Miceli, "Gli abitanti della valle del Lys e il rischio idrogeologico",
Indagine psico-sociologica, 2006 (N = 407)
Questionari e test (9 / 9) Inoltre le matrici elementari si distinguono...

 PRIMARIE  PICO Esempio di matrice derivata (micro  macro)


 SECONDARIE  MICRO

 DERIVATE  MACRO

--- Es. di matrice dati DERIVATA (versione elementare):  Tabella di contingenza

Rappresentazione dei dati individuali (2 variabili - X e Y - categoriali) in forma tabellare:

(frequenze; conteggi)
(esempio : f12  2)
Ident X Y (esempio : f 21  0)
1 1 2 X \ Y 1 2 .. K Tot.

2 1 2
L'algebra delle sommatorie e delle
1 f11 f12 .. f1K f1+
3 1 1 produttorie
(unitamente all'algebra della matrici)
4 2 3 2 f21 f22 .. f22 f2+ sono strumenti utili per operare su
tali
5 3 1 "strutture di dati"
... .. .. .. .. ...
6 3 3
7 H K H fH1 fH2 .. fHK fH+

… … …
Tot. f+1 f+2 .. f+K f++
N ... ...
Algebra delle sommatorie e delle produttorie (vettori)

1 1 N
 x1 
x 
media aritmetica =
N
  x1  x2  x3  x...  x N  x N
x
i 1
i

 2
x   x3  1
   N

  i
N

 x...  media geometrica = x1  x2  x3  x...  xN 


1
xg  x
 i 1 
N
 xN 

ATTENZIONE! Non confondere...


1
1
1 N
2
2

xq  1 N
2
2
x2 x  2 1 N

x sx     

N

i 1
xi 
 N i 1
2
i
N
 i 1
xi x 

scarto quadratico medio
media quadratica quadrato della media media dei quadrati (deviazione standard)

x
N
In assenza di ambiguità (quando è superfluo...) 
x
i 1
i i
Algebra delle sommatorie (alcune proprietà)

N
(1) c  N  c
i 1

(2) c  x i  c   xi

(3)
 x   y   z   x  y
i i i i i  zi 

(4)  x  y   x 2
 y 2
 2 x y 
 i i  i i i i  i  i  2 xi yi
2
 x 2
 y 2

 x  x    x 
N N N N
 x  2 x xi   x  N x  2 x  xi
2 2 2 2 2
(5)
i i i
i 1 i 1 i 1 i 1
Più indici (contatori) Matrici (sommatorie e produttorie) La TABELLA DI CONTINGENZA riporta le frequenze di N individui
sottoposti a due trattamenti (T1 e T2)
con, rispettivamente, H e K modalità

Id T1i T2j
1 1 1 Freq. y 1 .......... K Totale
2 1 1 (T1 / T2)
     
3 1 1 K
     
f11 f1 j f1 K f1   f1 j
4 1 2
1
j 1
5 1 2
     
6 1 2 K
 ... 
 
1
 
... 
 
....... f i1 f ij f iK f i    f ij
 ...  1 K  j 1
 ...  2 1
      K
 ...  2 1
 ...  2 2
H fH1 f Hj f HK f H    f Hj
      j 1
 ...  2 2
 ...  2 2 H
f 1   f i1
H H H K
      f     f ij
 ...  2 3
Totale f  j   f ij f  K   f iK
i 1 i 1 j 1
      i 1 i 1
 ...  2 ... 
 ...  2 K 
     
 ...   ...  ... 
 ... 
 
 ... 
 
... 
 
f   N
N  H  K 
Livelli di scala delle variabili (1 / 8)
Il processo di rilevazione può seguire quattro percorsi...

... producendo VARIABILI DIVERSE per quanto riguarda il loro LIVELLO DI SCALA (caratteristiche formali) ...
(Stevens, 1946; Torgerson, 1958; Galtung, 1967; Krantz, Luce e altri, 1971; Conti, 1972; Marradi, 1984; Ricolfi, 1985; Miceli, 2001)

3 principi della logica classica:


- unicità del "fundamentum diviosionis" (tutte le categorie in funzione unica proprietà);
CLASSIFICAZIONE in
(1) categorie:
(es. di violazione: << Lei è Maschio o ha 20 anni di età ?)
- mutua esclusività (partizione / ricoprimento);
- esaustività (es. uso della categoria "altro")

NON-ORDINATE
ORDINATE
(sconnesse)

(2) ORDINAMENTO di “oggetti” ; attribuzione di rango (rank, ranking); pareggi (tie)

(3) CONTEGGIO Numeri interi positivi; frequenze assolute

Intesa come:

(4) MISURAZIONE => modalità di rilevazione quando si dispone di uno strumento e di una unità
=> processo di misura quando si costruisce lo strumento e si definisce l’unità
Livelli di scala delle variabili (2 / 8)

Teoria della
Il PROCESSO DI RILEVAZIONE misurazione
stabilisce una relazione ...

ELEMENTI ELEMENTI
SISTEMA EMPIRICO SISTEMA NUMERICO
(tratti o dimensioni)

Teoria dei livelli di scala Tecniche e modelli


delle variabili di analisi dei dati

OPERAZIONE DI RILEVAZIONE UNITA' DI ORIGINE TRASFORMAZIONE LIVELLO DI


MISURA O AMMISSIBILE SCALA
CONTO

1 CLASSIF IC AZIONE assente assente ---- CATEGORIALE


(transcodifica)
2 ORDINAMENTO assente non (monotona crescente) ORDINALE
(ASSEGNAZIONE A CATEGORIE convenzionale m ( y )
y   m ( y );  0
ORDINATE) y
3A MISURAZIONE non convenzionale (traslazione) DIFFERENZE
convenzionale y  y  a
3B MISURAZIONE convenzionale convenzionale (affine) INTERVALLI
y   b  y  a ; b  0 
4 MISURAZIONE convenzionale non (dilatazione) RAPPORTI
convenzionale y   b  y ; b  0 
5 CONTEGGIO non non (identica) ASSOLUTA
convenzionale convenzionale y  y
Livelli di scala delle variabili (3 / 8)
Qualche esempio...

Matrice dati

ID x z y w q
(Genere) (Graduatoria) (punti al test) (reddito) (N° romanzi)
A M 2 80 4 3
B M 6 20 2 0
C F 3 40 0 1
D M 1 45 3 4
E F 4 70 6 6
.... .... .... .... .... ....

ID Codice identificativo individui


x Genere
z Posizione in graduatoria per l'ammissione ad un corso di specializzazione
y Punteggio grezzo (0-100) al test di "comprensione e lettura"
w Reddito netto mensile (migliaia di Euro)
q N° romanzi letti negli ultimi 3 mesi
Livelli di scala delle variabili (4 /8)

LIVELLO DI SCALA CATEGORIALE (SCALA NOMINALE) SI SI

ID x Confronti ammessi: ID x' x''


(Genere)
A M A = B; B  C; B = D; etc... A 1 1

B M B 1 1
trasformazione ammessa TRANSCODIFICA
C F (restano costanti le "diversità") C 0 2

D M D 1 1

E F E 0 2

.... .... .... .... ....

LIVELLO DI SCALA ORDINALE (SCALA ORDINALE)


SI SI SI

ID z Confronti ammessi: ID z' z'' z'''


(Graduatoria) z'=0.5*z z''=ln(z) z'''=exp(z)
A < B; B > C;C = E; etc...
A 2 A 1.0 0.69 7.39
B 6 trasformazione ammessa B 3.0 1.79 403.43
MONOTONA CRESCENTE
C 3 (restano costanti le posizioni d'ordine) C 1.5 1.10 20.09
D 1 D 0.5 0.00 2.72
m z 
E 4 z   m  z ; dove : 0 E 2.0 1.39 54.60
z
.... .... .... .... .... ...
Livelli di scala delle variabili (5 / 8)
LIVELLO DI SCALA INTERVALLI (SCALA DI INTERVALLI) SI NO!

ID y Confronti ammessi: ID y' y''


(punti al test) y'=2+0.1*y y''=ln(y)
(A-B) / (A-C); (A-B) / (B-C); etc...
A 80 A 10.0 4.38
B 20 B 4.0 2.30
trasformazione ammessa
C 40 AFFINE C 6.0 3.69
(restano costanti i rapporti fra le differenze)
D 45 D 6.5 3.81
y   a  b  y ; dove : b  0 
E 70 E 9.0 4.25
.... .... .... .... ....

Esempio di costanza dei rapporti fra le differenze


nonostante il cambiamento di "scala" (unità di misura)...

rapporti fra differenze


(Es.:)

(A-B) / (A-C) (A-B) / (B-C)

Y (80-20) / (80-40) = 60 / 40 = +1.50 (80-20) / (20-40)= 60 / (-20) = -3.00

Y' (10-4) / (10-6) = 6 / 4 = +1.50 (10-4) / (4-6) = 6 / (-2) = -3.00 SI

Y'' (4.38-2.30) / (4.38-3.69) = 2.08 / 0.69 = +3.01 (4.38-2.30) / (2.30-3.69) = 2.08 / (-1.39) = -1.50 NO!
Livelli di scala delle variabili (6 / 8)
LIVELLO DI SCALA INTERVALLI (SCALA DI INTERVALLI)

Esempio di costanza dei rapporti fra le differenze


nonostante il cambiamento di "scala" (unità di misura)...

Si dispone dei dati relativi alla temperatura media, in gradi Fahrenhheit (F), registrata nella citta X,
durante il GIORNO e la NOTTE, in due stagioni: ESTATE e INVERNO...

Dati F°
A ESTATE - GIORNO 86.0 (A – B) / (C –D)
B ESTATE - NOTTE 50.0
C INVERNO - GIORNO 46.4
86.0  50.0 46.4  39.2  36.0 7.2  5
D INVERNO - NOTTE 39.2

C  F  32  1.8 l’escursione termica (GIORNO-NOTTE) ESTIVA è 5 volte superiore a


quella INVERNALE (!!!)
F  C  1.8  32

Conversione C°
unità di misura
(A – B) / (C –D)
A ESTATE - GIORNO 30
B
C
ESTATE - NOTTE
INVERNO - GIORNO
10
8
30  10 8  4   20 4  5
D INVERNO - NOTTE 4
Livelli di scala delle variabili (7 / 8) LIVELLO DI SCALA RAPPORTI (SCALA DI RAPPORTI) 1 € = 1.32 $; 1 $ = 0.76 €

(migliaia di $)
ID w Confronti ammessi: SI
ID w'
(reddito)
A/ B; A / C; B / C; etc... w'=0.76*w
(migliaia di €)
A 3.04
A 4 trasformazione ammessa
DILATAZIONE B 1.52
B 2
(restano costanti i rapporti)
C 0
C 0
D 3 w   b  w ; dove : b  0  D 2.28
E 4.56
E 6
.... ....
.... ....

LIVELLO DI SCALA ASSOLUTA (SCALA ASSOLUTA)

ID q Confronti ammessi: ID q' SI


(N° romanzi) q' = q
A/ B; A / C; B / C; etc...
A 3 A 3
B 0 trasformazione ammessa B 0
IDENTICA
C 1 (restano costanti i rapporti) C 1
D 4 D 4
E 6
q  q E 6
.... .... .... ....
Livelli di scala delle variabili (8 /8)
Schema terminologico riassuntivo dei livelli di scala

Indicando come "livelli" i valori distinti (stati) di una generica variabile....

Scala di rappporti
Scala di intervalli
Scala di differenze Variabili
Quantità cardinali
o VARIABILI
L quantitative CONTINUE
Scala assoluta O
o METRICHE
I conteggio

Ordinamenti
V
Ranghi Scala
o
E Gradi
ordinale
VARIABILI
DISCRETE
Attribuzione a
L categorie ordinate

L
Categorie Variabili
o categoriali
I Classi Scala nominale Politomiche
Dicotomiche
o Dummy o Booleane
Modalità
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)
K K
VARIABILI CATEGORIALI (distribuzioni di frequenza)
F
k 1
k N f k 1
k 1
==> Distribuzione di frequenze (variabile categoriale con K classi) K
=> ASSOLUTE Fk
=> RELATIVE (o proporzioni) fk = Fk / N
p k 1
k  100

=> PERCENTUALI pk = fk * 100


SAS System
SAS System
Cumulative Cumulative
Cumulative Cumulative VARC2 Frequency Percent Frequency Percent
VARC1 Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ELEMENTARE 80 16.0 80 16.0
LICEO 216 54.0 216 54.0 MEDIA INF. 162 32.4 242 48.4
PROFESS. 123 30.8 339 84.8 MEDIA SUP. 212 42.4 454 90.8
ALTRO 61 15.3 400 100.0 LAUREA 46 9.2 500 100.0
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

SERIAZIONE DI FREQUENZE (riduzione in classi di una variabile cardinale)

Classi di età
LIMITI TABULATI --- LIMITI VERI
Cumulative Cumulative
ETA Frequency Percent Frequency Percent 18  27 17.527.5 17.5  età  27.5
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
18-27 73 14.6 73 14.6
28  37 27.537.5 27.5  età  37.5
28-37 114 22.8 187 37.4 38  47 37.547.5 37.5  età  47.5
38-47 145 29.0 332 66.4
48-57 76 15.2 408 81.6
48  57 47.557.5 47.5  età  57.5
58-67 82 16.4 490 98.0 58  67 57.567.5 57.5  età  67.5
68-80 10 2.0 500 100.0
68  80 67.580.5 67.5  età  80.5

limiti fk
k tabul. veri fk ak dk dk 
---------------------------------------------------------- ak
1 18  27 17.527.5 73 10 7.300
2 28  37 27.537.5 114 10 11.400
3 38  47 37.547.5 145 10 14.500
4 48  57 47.557.5 76 10 7.600
5 58  67 57.567.5 82 10 8.200
6 68  80 67.580.5 10 13 0.769

FREQUENZA
AMPIEZZA
DENSITÁ

=> La base dei rettangoli è proporzionale alla ampiezza della classe.


=> L'area dei rettangoli rappresenta la frequenza.
=> L'altezza dei rettangoli indica il numero di osservazioni per ogni
sottoclasse di ampiezza unitaria
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

Operatori monovariati di tendenza centrale (indici di posizione centrale)

=> MODA = il livello della variabile che ricorre con maggiore frequenza;

=> MEDIANA = il livello cui appartiene il caso al di sopra e al di sotto del quale sta il 50% dei casi;

1 N
=> MEDIA ARIT. = il livello che rappresenta il "centro di gravità" della distribuzione; x   xi
N i 1

MODA:
Modificando l'ordine delle modalità ==>

Diploma Diploma
conseguito f % conseguito f %
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
LICEO 216 54.0 <== MODA PROFESS. 123 30.8
PROFESS. 123 30.8 ALTRO 61 15.3
ALTRO 61 15.3 LICEO 216 54.0 <== MODA
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

Variabili ordinali  MEDIANA: si calcola su un insieme ORDINATO di valori;


si calcola in modo diverso se la variabile è:
(a) CONTINUA e N è dispari;
(b) CONTINUA e N è pari;
(c) DISCRETA

(a) Variabile continua; N dispari N 1


==> il valore che corrisponde all'i-esimo caso del vettore ORDINATO; dove: i
2
Es.: x ==> punteggio al test di abilità .......
ORDINANDO ===> (prestazione peggiore  migliore)

ident xi ni ident xi

a 5 1 b 3

b 3 2 a 5
11  1
c 9 3 c 9 i 6
4 e 12
2
d 34

e 12 5 m 15 La mediana (Me) è pari a 17;

f 23 6 h 17 pari cioè al valore del 6° elemento


della serie ordinata (individuo "h")
g 18 7 g 18

h 17 8 f 23

i 24 9 i 24

l 31 10 l 31

m 15 11 d 34
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

Intervallo: N N
(b) Variabile continua; N pari  i  1
==> si ordinano gli elementi del vettore; 2 2
==> si individua l'intervallo i-esimo in cui cade;
==> il valore della mediana si ottiene per "interpolazione"
xN  xN
1
Me  2 2
2
ni ident xi

6 6 x 3  x 4 8  12
1 a 1  i   1; 3  i  4 Me    10
2 2 2 2
2 b 5

}
3 c 8
La mediana (Me=10) è compresa fra il valore 8 e 12
4 d 12

5 e 23

6 f 35
(c) Variabile discreta (raggruppata in classi):
==> si individua la classe mediana o l'intervallo mediano;
==> il valore della mediana si ottiene per "interpolazione"

N
 Finf dove (con riferimento alla classe mediana) :
Me  Linf  2  m Linf  limite inferiore; fm  frequenza;
fm ωm  ampiezza; Finf  freq. cumulata;
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

x1  x 2  x 3  ...  x n 1 N
Variabili cardinali  MEDIA ARITMETICA: x   xi
N N i 1
Principali proprietà:

N N 2

(1)  x
i 1
i  x  0 (2)  x
i 1
i  x   min

La somma dei QUADRATI DEGLI SCARTI da qualunque valore (a media arit.) è più grande

1
1  N r Per r = 1 ==> ARITMETICA

Altre medie; in generale: Mr    x ir  Per


Per
r
r
= 2 ==> QUADRATICA
= -1 ==> ARMONICA
 N i 1  Per r che tende a zero ==> GEOMETRICA

=> La media aritmetica è meno ROBUSTA della mediana; Es.:


ni x1 x2
1 100 001
valore "eccentrico" in x2
2 150 150

Me  x1   200 ;
3 200 200
x1  200 ;
4 300 300

5 250 250
x 2  180.2 ; Me  x 2   200 ;
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

Altri indici di posizione ===> QUANTILI, (PER)CENTILI, RANGO (PER)CENTILE

Definizioni:
 RANGO = numero che esprime la posizione di un valore osservato (o punteggio) nell'ambito
dell'insieme, serie o vettore ORDINATO(!) cui il valore osservato appartiene;

 QUANTILE = il valore osservato del vettore ORDINATO (MINMAX) che corrsiponde ad una
qualsiasi suddivisione in parti dei dati (es: quartili, decili, centili)

 (PER)CENTILE = il QUANTILE (quando la suddivisione è operata su 100 parti); in tal modo l'm-esimo
percentile corrisponde a quel valore osservato, del vettore ORDINATO (MINMAX),
al di sotto del quale cade l'm-esima percentuale dei valori osservati

 RANGO PERCENTILE =è la percentuale di valori (in funzione dell'attribuzione di RANGO) che si


trova al di sotto di un dato RANGO (cui corrisponde un dato valore osservato)

!! ATTENZIONE !!
il RANGO PERCENTILE di un valore osservato (o punteggio) è una percentuale
un QUANTILE o PERCENTILE è un valore osservato (o punteggio) del vettore di dati

Per esempio:
 se il risultato ottenuto da Pierino ad un test è superiore a quello dell'80% degli altri individui,
diremo che Pierino occupa l'80° rango percentile (ovvero l'80% degli inividui sottoposti al test ha
ottenuto una prestazione peggiore);

 l'80° percentile (P80) nella serie di punteggi prodotti dalla somministrazione del test (cui Pierino ha
partecipato) è – per esempio – il valore (o punteggio): 33
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione) Attribuzione del RANGO: esempi

l'attribuzione di RANGO può avvenire:


- sia attribuendo il RANGO MINORE (1) al VALORE MINORE della serie (R1Vmin),
- sia attribuendo il RANGO MINORE (1) al VALORE MAGGIORE della serie (R1Vmax)
Generalmente, nell'ambito dei test (soprattutto nei test di "massima performance") si usa la regola:
R1Vmax
Una difficoltà nell'attribuzione del rango ai valori osservati (o punteggi) consiste nel comportamento da tenere in
presenza di valori osservati uguali (pareggi o ties)...

senza "pareggi"  10 individui sottoposti al test (x1) di abilità verbale  con "pareggi"

RANGO (TIES=HIGH)
N_PROG IDENT x1 RANGO
1 a 15 7 RANGO (TIES=LOW)
2 b 8 10
N_PROG IDENT X1 RANGO RANGO RANGO
3 c 10 9
1 a 5 9.5 9 10
RANGO (TIES=MEAN)
4 d 12 8
2 b 8 7.0 7 7
5 e 19 4
3 c 10 6.0 6 6
6 f 23 2
4 d 12 5.0 5 5
7 g 24 1
N_PROG IDENT X1 RANGO
5 e 19 4.0 4 4
8 h 17 6
9 i 21 3 1 g 24 1 6 f 23 2.0 2 2

10 l 18 5 2 f 23 2 7 g 24 1.0 1 1

3 i 21 3 8 h 6 8.0 8 8
4 e 19 4 9 i 21 3.0 3 3
5 l 18 5 10 l 5 9.5 9 10
Ordinando in funzione
6 h 17 6
del RANGO
(R1Vmax) 7 a 15 7
8 d 12 8
9 c 10 9
10 b 8 10
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione) Calcolo dei QUANTILI: esempi
10 individui sottoposti al test (x1) di abilità verbale
Quartili
N_PROG IDENT x1
1  1 
1 a 15 Q1  ?;  N   i   N  1; 2.5  i  3.5; ... cioè ... i  3;  Q1  12;
2 b 8 4  4 
3 c 10
xN  xN
4 d 12
2  2  1 x 5  x 6 17  18
5 e 19
Q2  Me  ?;  N   i   N  1; 5  i  6; Q2  Me  2 2
   17.5
4  4  2 2 2
6 f 23
7 g 24
3  3 
8 h 17 Q3  ?;  N   i   N  1 ; 7.5  i  8.5;....i  8;  Q3  21;
9 i 21 4  4  (output SAS )
10 l 18 Percentili In generale, l'm-esimo percentile SAS System
è dato da: Univariate Procedure
(N < i < N+1 per N pari)
Variable=X1
N Moments
Ordinando: MINMAX
Pm  x i ; dove : i  m Pertanto...
100 N 10 Sum Wgts 10
Mean 16.7 Sum 167

P25  Q1; P50  Q2  Me; P75  Q3 ; P100  Q4 ; Std Dev


Skewness
5.139066
-0.24686
Variance
Kurtosis
26.41
-1.13212
USS 3053 CSS 264.1
N_PROG IDENT x1 CV 30.77285 Std Mean 1.625115
... e, ad esempio: T:Mean=0 10.27619 Pr>|T| 0.0001
1 b 8 Num ^= 0 10 Num > 0 10
2 c 10 M(Sign) 5 Pr>=|M| 0.0020
Sgn Rank 27.5 Pr>=|S| 0.0020
1°Q 3 d 12 P90  ?;
4 a 15 Quantiles(Def=5)
 10   10 
5 h 17  90   i   90  1; 9  i  10; 100% Max 24 99% 24
2°Q
6 l 18  100   100  75% Q3 21 95% 24
50% Med 17.5 90% 23.5
7 e 19 23  24 25% Q1 12 10% 9
3°Q 8 i 21
P90   23.5; 0% Min 8 5% 8
2 1% 8
9 f 23 Range 16
Q3-Q1 9
10 g 24
Mode 8
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)
Calcolo dei ranghi percentili: esempio
N_PROG IDENT x1 RANGO
Punteggi (dati) osservati su 10 individui sottoposti a test x1 e RANGO (R1Vmax)
1 a 15 7
Legenda :
2 b 8 10
RC  Rango Percentile
3 c 10 9 N  Numero totale individui (punteggi osservati)
Formula 1 Formula 2
4 d 12 8 G  Rango (posizione in graduatoria)
(Galton-Ferguson) (Claparède)
5 e 19 4
6 f 23 2 N  G  0.5  RC  100 
N G
RC  100 
7
8
g
h
24
17
1
6
N N 1
9 i 21 3 Rango Percentile dell'individuo "d" nel test X1 (punteggio=12) ?
10 l 18 5
Arrotondamento
Formula 1 Formula 2 all'unità superiore

10  8  0.5  2.5 10  8 2
RC  100   100   25 RC  100   100   22.2  23
10 10 10  1 9

L'individuo "d" (punteggio=12) occupa il 23° (25°) rango percentile nel test X1;
ovvero:
la sua prestazione è SUPERIORE a quella del 25% (circa) e INFERIORE a quella del restante 75%

 X  La   100  fa   100  fcb  Per punteggi


RC      raggruppati in classi
 a   N   N 
dove (oltre agli simboli che mantengono il loro significato) :
X  punteggio grezzo;
La  limite inferiore (vero) della classe
fa  frequenza nella classe
fcb  frequenza cumulata dal basso dei valoro della serie
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione) Utilizzo dei ranghi percentili: esempio

10 individui sottoposti a test (x1) di abilità verbale e (x2) di abilità logica; ci si chiede:
Ranghi
=> l'individuo "h" ha conseguito un risultato(relativamente) migliore al test 1 o 2 ? (R1Vmax)
=> l'individuo "c" ha conseguito un risultato (relativamente) migliore al test 1 o 2 ?

N_PROG IDENT X1 RANGO X2 RANGO


X1 X2
IDENT X1 R_X1 X2 R_X2
1 a 15 7 15 1
Punteggi e ranghi di "h" e "c"
h 17 6 6 9
2 b 8 10 8 7
3 c 10 9 7 8 Calcolo del rango percentile: c 10 9 7 8

4 d 12 8 11 4
Formula 1 (Galton-Ferguson):
5 e 19 4 14 2
6 f 23 2 10 5
7 g 24 1 12 3 N  G  0.5 
8 h 17 6 6 9 RC  100 
9 i 21 3 5 10 N
10 l 18 5 9 6

10  6  05 
la prestazione di "h" si è collocata al di sopra del 45% degli
X1  Rc " h"   100   45 altri risultati nel test X1 e al di sopra del 15% nel test X2.
10 L'individuo "h" ha conseguito un risultato relativamente
10  9  05 
X2  Rc " h"   100   15 migliore nel test X1 (dove ha anche conseguito un punteggio
10 più elevato)

10  9  05  La prestazione di "c" si è collocata al di sopra del 15% degli


X1  Rc " c "  100   15
10 altri risultati nel test X1 e al di sopra del 25% nel test X2.

10  8  05  L'individuo "c" ha conseguito un risultato relativamente


X2  Rc " c "   100   25 migliore nel test X2 (nonostante il punteggio sia inferiore)
10
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione) ==> devianza = d;
==> varianza = s2;
Due gruppi (A e B) di 6 elementi ==> dev. st. = s
Operatori monovariati di dispersione
VARIABILI CARDINALI
ID Gr. yi
1 A 44
2 A 46
 d AB  3385. 9 gruppo A  B (N  12); y ( AB )  50;
N

d   y i  y  gruppo A (N  6); y ( A)  50;
2
3 A 48  d A  136.0000
gruppo B (N  6); y (B )  50;
4 A 50 i 1 d  3250.000
5 A 54
 B
6 A 58
 sA2 B  282.16667
1 1 N 
s   d    y i  y 
ID Gr. yi 2
2
  s A2  22.66667
1 B 25 N N i 1  s 2  541.66667
2 B 30  B
3 B 35
4 B 50  s AB  16.7978
1 N

  y i  y 
2
5 B 70 s  s2    sA  4.7610
6 B 90 N i 1  s  23.2737
 B

Per il calcolo (manuale) della varianza


si può anche usare ==> s2  x 2  x 2

Gruppo A e Gruppo B hanno la stessa media;


i valori di y sono dello stesso ordine di grandezza (stessa unità di misura);
facile stabilire che sB è circa 5 volte sA (23.3 / 4.8 = 4.9) ... Cv ==>
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

COEFFICIENTE DI VARIAZIONE
(In genere, come qui, viene moltiplicato per 100;
I valori di varianza e deviazione standard esprime così
dipendono dall'unità di misura! LA PERCENTUALE DI VARIABILITA’ per ogni
UNITA’ DI VALORE MEDIO)

Ora i dati del gruppo A sono cambiati...

s
ID Gr. yi
CV  100 
1 A 0.001
 y A  0.4405 x
2 A 0.013
 2
3 A 0.998
 s A  0.1935 0.4399
4 A 0.753
 s  0.4399 CV  100   99.86
5
6
A
A
0.005
0.873
 A 0.4405

MAGGIORE VARIABILITA' IN "B" ? NO !!!

ID Gr. yi
1 B 25  y B  50.0000 23.2737
2 B 30  2 CV  100   46.55
3 B 35  sB  541.667 50.0000
4 B 50
 s  23.2737
5 B 70
 B
6 B 90
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
dispersione)

STANDARDIZZAZIONE DI VARIABILI CARDINALI (Punti z)

6 individui sono stati sottoposti ad un test di abilità matematica (x) e ad un test di abilità verbale (y);
ci si chiede, ad esempio:
 Andrea risulta più bravo al test di matematica o a quello di verbalizzazione ?
 Stessa domanda per Petra

IDENT X Y
 x  57.83  y  71.33
Marco 52 60
 
Diana 53 63  s x  4.49  sy  9.25
Andrea 56 65
Petra 60 75
 Il confronto è reso disagevole dal fatto che si hanno medie e
Luca 62 80
deviazioni standard diverse (o diverse unità di misura)
Simona 64 85
IDENT Zx Zy
Marco -1.30 -1.22
xi  x
In generale... zi  ;  per : 1i N  Diana -1.08 -0.90

sx Andrea -0.41 -0.68


Petra +0.48 +0.40
PROPRIETA': Luca +0.93 +0.94
N N
1 N Simona +1.37 +1.48
1)  zi  0; (2)  z  N ; (3) s   zi  z   1
2 2 2
i z
i 1 i 1 N i 1
FORMA DELLE DISTRIBUZIONI DI FREQUENZE (Cenni alla teoria dei MOMENTI – PRODOTTO)

1 N
1 N
1 N

 xi ;  xi  x  ;  i
2
SONO TUTTI VALORI MEDI ...
concetto più generale: "MOMENTO"
x s 2
x 
2
x 2

N i 1 N i 1 N i 1

Un momento è sempre la media fra prodotti i cui fattori hanno esponenti interi.

• L’ordine del momento è definito dal numero di fattori, ciascuno preso con il proprio esponente
• I prodotti possono coinvolgere 1 o più variabili
• I prodotti possono essere ottenuti sui valori grezzi o sugli scarti dalla media

valori Definizione generale di MOMENTO OMOGENEO (e notazione)

grezzi scarti 1 N
M
N
 z  1 ;
i 1
i

omogenei omogenei
1 variabile (non-centrali o centrali (o OMOGENEI
1 N

 x  1
rispetto origine) rispetto media)
RISPETTO
ORIGINE
per z  x    i
misti
N i 1
misti
variabili centrali
1 N
per z   xi  x     
 i 
OMOGENEI 
CENTRALI x  x 1
RISPETTO MEDIA N i 1
Esempio: x’ = [1.0 2.0 3.0 4.0 4.5 5.0 5.5] N=7
Momenti omogenei
grezzi (intorno origine) centrali (intorno media)

1 N 1 N
 1   x i  1  3 .57 1   ( xi  x) 1  0
N i 1 N i 1
1 N 2 1 N
 2   x i  1  15 .07  2   ( xi  x) 2 1  2.32
N i 1 N i 1

1 N 3 1 N
 3   x i  1  68 .93 3   ( xi  x)3 1  1.44
N i 1 N i 1

1 N 4 1 N
 4   x i  1  329 .16  4   ( xi  x) 4 1  9.81
N i 1 N i 1

FORNISCONO 1  TENDENZA CENTRALE 3  SIMMETRIA


IN FORMAZIONI DI: 2  DISPERSIONE 4  CURTOSI
SIMMETRIA E
CURTOSI
Esempio: x’ = [1.0 2.0 3.0 4.0 4.5 5.0 5.5]
Misure di ASIMMETRIA o SKEWENESS
N=7

 32
1  3 ; 
 1.44 
2

2.07
 0.17 1  0.17
Pearson ==>
2 2.32 12.49
3
CON IL SEGNO DEL
MOMENTO TERZO

Fischer ==>  1  1  0.17  0.41


 1  0.41

 0  asimmetria valori bassi (a sinistra)



1 ;  1   0  simmetria
  0  asimmetria valori alti (a destra)

CURTOSI:

4 9.81 9.81
2  ;    1.82
 22 2.322
5 . 38

 2   2  3  1.82  3  1.18
Misure di CURTOSI Esempio: x’ = [1.0 3.3 3.4 3.5 3.6 3.7 3.8 5.0] N=8

1  3.41  1  0.00   0  leptocurtica


  12.72    1.08 
 2  2  2  0  mesocurtica (normale)  2  3
  
 3  49.54   3  1.24   0  platicurtica
 4  199.02  4  5.03
4 5.03 5.03
2  ;    4.30
Pearson ==>
2
2
1.08 1.17
2

Fischer ==>  2   2  3  4.30  3  1.30

ASIMMETRIA:
 32
1  3 ; 
 1.24 1.54
2
  1.22   1.22 
2 1.08 1.26
3

 1  1  1.22  1.10   1.10


probabilità (cenni)
Teoria della probabilità

==> La riflessione filosifica sul concetto di "probabilità" è successiva alla sua trattazione
matematica che nasce nel 1654 (Pascal; Fermat);
==> Approfondimenti:
Ian Hacking, 1975, L'emergenza della probabilità, Milano Il Saggiatore;
Paolo Vinais, 1999, Nel crepuscolo della probabilità, Torino, Einaudi.
==> Tre concezioni teoriche (le prime due convergono tecnicamente):

(1) FREQUENTISTA [Bernulli (1654-1705)]: La probabilità è una cartteristica complessiva di una serie infinita
(indefinitamente numerosa) di eventi ripetibili. (<<<< definizione: ex-post o empirica)
fi
Es.: E1 = "evento faccia 1 del dado" PE1  lim
N  N
(2) CLASSICA [Pascal (1623-1662); Laplace (1749-1827)]: La probabilità è definita come rapporto fra casi
favorevoli e casi equamente possibili. (<<<< definizione tautologia: ex-ante o teorica)
1
Es.: k = "numero eventi equamente possibili" PE1 
k

Convergenza: un dado con 6 facce numerate tutte equiprobabili permette di dire


(ex-ante) che E1 = 1/6; lo stesso dado lanciato infinite volte farà osservare
(ex-post) una frequenza relativa per E1 = 1/6

(3) SOGGETIVISTA [De Finetti (1906-1985)]: La probabilità è definita come rapporto (quota di scommessa) fra
rischio e guadagno. (<<<< implica soggetto razionale posto in condizioni olimpiche - Simon - di conoscenza)
r
Es.: r = "somma giocata"; t = "somma vinta" PE1 
t
Fenomeno (esperimento):

==> deterministico: lascio cadere un oggetto e, conoscendo condizioni iniziali e equazioni


del moto, posso dire quale sarà lo stato dell'oggetto (la sua posizione nello spazio) al tempo t.

==> aleatorio (casuale): lancio una moneta e non posso dire (con certezza) su quale faccia cadrà.

DEFINIZIONI => EVENTO FAVOREVOLE (ottenuto, verificato)

A " evento faccia 1"; A " non A";


Es.:
le 6 facce del dado => INSIEME DEGLI EVENTI A  A   " evento certo" , " insieme degli eventi",
evento: faccia "1" => EVENTO ELEMENTARE
evento: numero pari => EVENTO COMPLESSO
" spazio probabilistico";
(formato da più eventi semplici)   " evento impossibile"

Dato un insieme degli eventi  è possibile definire ==> L'INSIEME DELLE PARTI (B) ; l'insieme, cioè, dei possibili
eventi semplici e complessi associati a 
Es.: spazio probabilistico di una moneta

  T , C;
B  0 , T , C , TC 
EVENTO IMPOSSIBILE EVENTO CERTO
(nè testa, nè croce) (testa oppure croce)

probabilità (cenni)
Teoria della probabilità
E  AB Si legge "INTERSEZIONE" indica un elemento che appartiene SIA ad A SIA a B
ASSIOMI E  AB Si legge "UNIONE" indica un elemento che appartiene ad A OPPURE a B

1) (definizione di evento) Gli eventi sono sottoinsiemi di uno spazio  e formano una classe additiva;

2) Ad ogni evento è assegnato un numero reale positivo, detto probabilità dell'evento, indicato con: P(Ei), tale che:

0  PEi   1
3) La probabilità dell'evento certo è 1;

4) (della probabilità totale o della somma) Se Ei ed Ej sono eventi incompatibili (disgiunti) dello stesso spazio
 i j 
probabilistico, allora: P E  E  P E   P E
i   j In termini formali, quando due
Ei  E j  0
eventi sono incompatibi si ha che:

Es.: Spazio probabilistico ==> lancio di un dado;


Evento congiunto ==> numero pari (3 eventi semplici incompatibili)
La probabilità dell'evento congiunto (unione dei 3 eventi semplici incompatibili) è data da:

1 1 1 3 1
P  P E2   P E 4   P E6      
6 6 6 6 2

P0   0;
P E   1  PE ;
Dai precedenti assiomi si ricava anche:

(dove : E indica l' evento complementare ad E )


probabilità (cenni)
Teoria della probabilità
LEGGE della SOMMA o TEOREMA della PROBABILITA' TOTALE SI RIFERISCE AD EVENTI QUALSIASI;
Quando gli eventi sono INCOMPATIBILI
 
P E i  E j   P E i   P E j   P E i  E j 
si ha che: P Ei  E j  0

Esempio: mazzo di 40 carte


4 1
P   0.1
=> Evento: ESTRAZIONE DI UN RE ==> 40 10
10 1
=> Evento: ESTRAZIONE DI UNA CARTA DI DENARI ==> P    0.25
40 4
1
=> Evento: ESTRAZIONE DEL RE DI DENARI ==> P   0.025
40
=> Evento (composto): 1 1 1 13
ESTRAZIONE DI UN RE OPPURE DI UNA CARTA DI DENARI ==> P      0.325
10 4 40 40

EVENTI NON INCOPATIBILI

Esempio:
Studenti di psicologia (III anno); si sa che: 91% ha superato "Generale"; 40% ha superato "Psicometria";
35% ha superato entrambi. Estraendo a sorte uno studente qual è la probabilità che abbia superato uno
dei due esami ("Generale" OPPURE "Psicometria") ?

=> Superato "Generale" ==> P = 0.91;


=> Superato "Psicometria" ==> P = 0.40;
=> Superato "Generale" E "Psicometria" ==> P = 0.35;

=> Superato "Generale" OPPURE "Psicometria" ===> P = 0.91 + 0.40 - 0.35 = 0.96
probabilità (cenni)
Teoria della probabilità
... DA 1 EVENTO A ... 2 EVENTI ... Concetto di => INDIPENDENZA STOCASTICA: due eventi A e B si dicono
stocasticamente indipendenti se la Prob. di B non è influenzata
dall'avverarsi di A (o viceversa).

==> INDIPENDENZA STOCASTICA  INDIPENDENZA STATISTICA (assenza di associazione, correlazione)

Esempio (INDIPENDENZA): ottenere la faccia 6 in 2 lanci (successivi) di 1 dado.

Esempio (NON INDIPENDENZA): estrarre il re di denari da un mazzo di 40 carte in 2 estrazioni senza reimmissione;
=> alla prima estrazione la Prob. è 1/40; se l'evento non accade e non si reintroduce la carta estratta, alla seconda
estrazione la Prob. è 1/39. L'evento B (alla seconda estrazione) non è stocasticamente indipendente da A (alla prima)
e si indica: P(B|A) = 1/39 = 0.026

Teorema della probabilità composta (o del prodotto):


LA PROBABILITA' DI OTTENERE L'EVENTO A e L'EVENTO B è data da:

Situazione 1: EVENTI STOCASTICAMENTE INDIPENDENTI ==> PA  PB  PA  PB


Situazione 2: EVENTI STOCASTICAMENTE NON INDIPENDENTI ==> PA  PB  PA  PB| A
1 1 1
Esempio Situazione 1: Qual è la Prob. di ottenere "faccia 1" e "faccia 2" in due lanci di un dado? P    0.03
6 6 36
Esempio Situazione 2: Un'urna contiene 5 palline bianche e 3 nere; in 2 estrazioni senza reimmissione, qual è la Prob. di estrarre:
(prima estrazione, evento A) = bianca e (seconda estrazione, evento B) = bianca ?
5 4 quindi, Prob. "bianca" e "bianca"=
PA   0.625; se è uscita " bianca" e non si reimmette : PB| A   0.57 5 4 20
8 7    0.36
8 7 56

probabilità (cenni)
Teoria della probabilità
ESEMPI ed ESERCIZI ... 1 1
  0.25
2 2 0 (ZERO)
Prob. di ottenere "T" e "T" lanciando 2 monete non truccate

Lanciando un dado (6 facce) definiamo i seguenti eventi: "A" = uscita numero pari; "B" = uscita numero 5;
Calcolare la probabilità esatta dell'evento: "A" e "B".

Calcolare la Prob. di ottenere 7 lanciando due dadi (numerati a 6 facce e sommando i valori delle due facce)

Vi sono 6 combinazioni di valori possibili; ognuna ha prob. 1/36; 6*(1/36) = 1/6 = 0.1666666

Un'urna contiene 90 palline numerate;


si procede all'estrazione senza reimmisione;
I numeri dispari sono 45;
1° estrazione => 3
1 è già stato estratto (ne restano 44);
2° estrazione => 14
dopo 3 estrazione l'urna contiene 87 palline;
3° estrazione => 64
quindi: Prob. = 44 / 87 = 0.51
Qual è la prob. che nella 4° estrazione
venga estratto un numero dispari ?

Calcolare la Prob. di fare "13" giocando una sola colonna al totocalcio (1; x; 2)

13
3 simboli; Prob.: 1 1
    0.000000627  6.27 E  07  6.27 10 7
1/3* 1/3*1/3* ...... =
3 1594323
probabilità (cenni)
Teoria della probabilità
Dati due insiemi non vuoti A e B, si chiama funzione
di A in B una qualsiasi legge che fa corrispondere ad
ogni elemento x di A, uno e un solo elemento y di B
Il concetto di "funzione"

y  f (x) f indica la funzione di A in B


y è l'elemento di B che la funziona assegna all'elemento x di A

yi  f ( xi )
B A

Si dice che fra gli elementi di due insiemi A e B, non vuoti,


intercorre una corrispondenza BIUNIVOCA (o biiezione) quando
esiste una legge che fa corrispondere ad ogni elemento di A uno
ed un solo elemento di B, e viceversa, ogni elemento di B è il
corrispondente di uno e un solo elemento di A

Attenzione!
x è un elemento di A;
f(x) è un elemento di B;
f è un ente matematico diverso sia da x, sia da f(x); f è la legge che associa all'elemento x di A, l'elemento f(x) di B.

 Spesso però si dice <<...la funzione f(x) >> invece di dire <<...la funzione f >>
 indicando così sia la funzione, sia il valore da essa assunto in x

Il concetto di "funzione"
yi  xi Rappresentazioni di una funzione

yi  0  1  xi Obs
1
y
-3
x
-3
2 -2 -2
3 -1 -1
4 0 0
5 1 1
6 2 2
7 3 3

i  3  2 xi
yANALITICA GRAFICA TABULARE
Obs y x
1 5 -1
2 3 0
3 1 1
4 -1 2
5 -3 3
6 -5 4

Il concetto di "funzione"
Rappresentazioni di una funzione
yi  x  4 xi  2
2
Obs y x
Obs y x
1 -1.00 -2.0
1 14.00 -2.0 2 -0.16 -1.9
3 0.57 -1.8
3 7.00 -1.0 4 1.19 -1.7
5 1.70 -1.6
6 2.13 -1.5
5 2.00 0.0 7 2.46 -1.4
8 2.70 -1.3
7 -1.00 1.0 9 2.87 -1.2
10 2.97 -1.1
9 -2.00 2.0 11 3.00 -1.0
12 2.97 -0.9
11 -1.00 3.0 13 2.89 -0.8
14 2.76 -0.7
13 2.00 4.0 15 2.58 -0.6
16 2.38 -0.5
15 7.00 5.0 17 2.14 -0.4
18 1.87 -0.3
17 14.00 6.0 19 1.59 -0.2
20 1.30 -0.1
21 1.00 0.0
22 0.70 0.1
23 0.41 0.2
24 0.13 0.3
25 -0.14 0.4
26 -0.38 0.5
27 -0.58 0.6
28 -0.76 0.7
29 -0.89 0.8
30 -0.97 0.9
31 -1.00 1.0
32 -0.97 1.1
33 -0.87 1.2
34 -0.70 1.3
yi  x 3  3 xi  1 35
36
37
-0.46
-0.13
0.30
1.4
1.5
1.6
38 0.81 1.7
39 1.43 1.8
40 2.16 1.9
41 3.00 2.0

Il concetto di "funzione"
Funzioni empiriche E' stata rilevata l'abilità logica (x) e il grado Obs y x
di comprensione di testi in lingua italiana (y) 1 -4.0 -10
in una classe di 21 allievi.
yi  f ( xi ) 2 -2.5 -9
E' possibile stabilire
una "legge" che metta yi  a  b  xi a  ? ;b  ? 3 3.0 -8

...e i punti non sono 4 0.5 -7


in corrispondenza x e y?
perfettamente allineati ?!? 5 -1.0 -6
r  0.78 6 -1.5 -5
7 -3.0 -4
yi  a  b  xi   i ... criterio dei
Minimi Quadrati... 8 0.5 -3
9 4.0 -2
10 3.5 -1
... stime...
11 2.0 0
12 -3.5 1
13 6.0 2
a  2.52 14 4.5 3
b  0.51 15 3.0 4

 16 5.5 5
17 10.0 6
R 2  0.62 18 6.5 7
19 8.0 8
20 5.5 9
21 6.0 10

Il concetto di "funzione"
Principali distribuzioni di probabilità e loro proprietà - Il concetto di: VARIABILE CASUALE (ALEATORIA)

==> Una variabile casuale è un'applicazione "x" che trasforma gli eventi (di uno spazio ) in eventi
numerici cui è associata una probabilità;
... si tratta cioè del risultato dell'attribuzione ad ogni punto dello spazio campione  di un NUMERO
REALE che rappresenta l'immagine numerica degli eventi.

Ident. N°
Es.: a 4 individui si chiede di comunicare il numero di figli; si ottiene... figli
a 2
L'immagine numerica dei 4 individui è data da 3 valori:
b 3
c 3
2 3 4 <====== immagine numerica
d 4
----------------------------------
a bc d <====== eventi

Dato che ad ogni "punto" o elemento dell'immagine 2 accade 1 volta su 4 ---------- 1/4 = 0.25
numerica può essere associata una probabilità di 3 accade 2 volte su 4 ----------- 2/4 = 0.50
accadere, si avrà che: 4 accade 1 volta su 4 ----------- 1/4 = 0.25

diciamo allora che la precedente applicazione (x) è una VARIABILE ALEATORIA

==> Per definire x come variabile aleatoria abbiamo implicitamente definito una FUNZIONE di
PROBABILITA', cioè una LEGGE di DISTRIBUZIONE che permette di stabilire la misura
dell'incertezza con la quale la variabile casuale x può assumere i suoi valori.

(Una variabile casuale è una funzione che associa PROBABILITA' ai valori numerici ......)

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
VARIABILI CASUALI (ALEATORIE) o FUNZIONI DI PROBABILITA' o DISTRIBUZIONI DI PROBABILITA'

1) DISCRETE; se i valori numerici che può assumere solo discreti (es.: N° di figli)

2) CONTINUE; se possono assumere un qualsiasi valure numerico in un dato intervallo dei numeri reali (-; +)

==> Per una v.c. discreta è sempre possibile assegnare ad ogni valore una probabilità
non nulla tale che la somma delle probabilità sia uguale a 1.
==> Per una v.c. continua è matematicamente impossibile assegnare probabilità non nulle
a tutti i punti dell'intervallo e soddisfare la condizione di somma uguale a 1

Es.: Statura pari a 1 mtero e 756 millimetri (1.756); anche se si osservano molti individui con una statura compresa fra 1.750 e 1.760 è del
tutto verosimile che si potrebbe NON osservare mai l'esatto valore 1.756;

Così, se la v.c. è continua la probabilità che essa assuma un determinato valore può essere
nulla, anche se l'evento non è impossibile ...
==> Per ovviare alla difficoltà si definisce la probabilità in un intervallo infinitesimo
(x; x+dx) e si definisce P(x) la probabilità che la v.c. x cada nell'intervallo infinitesimo dx.

==> La Probabilità è definita dalla FUNZIONE DI DENSITA' (di probabilità);


graficamente .....................

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
Generica funzione di densità di probabilità f(x)
b
P a  x  b    f  x dx
a

La probabilità è il numero che rappresenta l'area


della regione piana sottesa alla curva (area del
trapezoide con base dx e altezza f(x)

(in generale ad ogni evento è associata una probabilità del suo verificarsi e tale
probabilità assume una distribuzione ben precisa)

==> Come per le distribuzioni di frequenze, anche per le distribuzioni di probabilità si


definiscono i VALORI CARATTERISTICI (momenti e forma):

Media => valore atteso => speranza matematica => 


Varianza => => => 2

Principali distribuzioni di probabilità:


Per v.c. DISCRETE ==> Binomiale o Bernulliana, Poisson;
Per v.c. CONTINUE ==> Normale (Gauss) ,Chiquadrato, t (di "student" pseudonimo di Gosset) ,
F (di Fischer-Snedecor)

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
Distribuzione BINOMIALE probabilità e loro proprietà
Principali distribuzioni di probabilità proprietà

==> Quando gli eventi possono assumere soltanto due valori (giusto /sbagliato) e si tratta di eventi
INDIPENDENTI e RECIPROCAMENTE ESCLUDENTESI, allora la distribuzione teorica di
probabilità è quella BINOMIALE

Se p = Prob. che si presenti un evento => SUCCESSO e q = 1-p (INSUCCESSO), allora la Prob. che l'evento "successo"
si presenti esattamente k volte in n prove è dato da:

n n!
  
 n  k nk  k  K !n  k !
Dove:
n = numero di prove;

Pk    p  q k = numero di successi ; n-k = numero di insuccessi;


p = Probabilità di successo;
combinatoria di n elementi a k a k
k  n 
k  q = 1-p

Es.: La prob. che si presenti 4 "testa" in 10 lanci di una moneta non truccata:
n  10; p  0.5;
k  4; q  1  05  0.5

10  4 10!
P4   0.5  0.510 4   0.54  0.56  210  0.0625  0.015625  0.205
4 4!10  4 !
Se, in modo analogo, si calcola la Prob. di ottenere 0, 1, 2, ..... 10 "testa" in 10 lanci, si ottiene:
n = 10 Prob.
k (numero di "testa") La distrib. delle Prob. è:
0 0.001 ==> SIMMETRICA perché p = q = 0.5;
1 0.010 => Se p  q è ASIMMETRICA (positiva per p > 0.5);
==> DISCRETA perché k assume solo valori interi;
2 0.044 ==> ha somma = 1;
3 0.117 ==> I parametri p e q sono detti "caratteristici della distribuzione"
4 0.205

5 0.246

6 0.205
Si può anche ragionare così => un esperimento aleatorio,
7 0.117 che produce 2 esiti (es.: GIUSTO / SBAGLIATO)
indipendenti e reciprocamente escludentesi, ripetuto 10
8 0.044 volte (si pensi ad una prova d’esame con 10 domande a
ciascuna delle quali si può risposdere solo: SI / NO e solo
9 0.010
una delle due possibili risposte è GIUSTA) produce un A B C B/C
10 0.001 insieme degli eventi foramto da 10!
210 = 1024 sequenze possibili. Di queste sequenze solo k k! 10  k ! 2 10 Prob.

10! 0 1 1024 0.001

k! 10  k !
1 10 1024 0.010
Altre proprietà: 2 45 1024 0.044
=> media presentano k successi (es: GIUSTO). 3 120 1024 0.117
(valore atteso) =>   n p Se si pensa di rispondere in maniera casuale (facendo in modo 4 210 1024 0.205
che la probabilità di rispondere “GIUSTO” sia uguale a quella 5 252 1024 0.246
=> varianza =>   n p q
2 di rispondere “SBAGLIATO” (p = q = 0.5), la probabilità di
ottenere k successi può essere calcolata anche .... =====>
6 210 1024 0.205

q p 7 120 1024 0.117


=> asimmetria => m 3  D’altra parte l’equazione della distribuzione binomiale è utile 8 45 1024 0.044
npq soprattutto quando p  0.5; in questi casi la distribuzione delle 9 10 1024 0.010
=> curtosi => 1  6 pq probabilità non è più simmetrica ....
m4  3  10 1 1024 0.001
npq

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
probabilità e loro proprietà
Principali distribuzioni di probabilità proprietà
Esempi di distribuzione binomiale simmetrica e non simmetrica.
Una prova (test) di profitto è composta da 16 domande con alternative di risposta precodificate, una
sola delle quali corrisponde alla risposta GIUSTA. Di un tale test vengono predisposte 3 versioni:

2   n p a) 2 alternative di risposta (1 sola giusta)  p = 0.5 ; q = 0.5


b) 5 alternative di risposta (1 sola giusta);  p = 0.2 ; q = 0.8
Test (a)    16  0.5  8.0 c) 10 alternative di risposta (1 sola giusta)  p = 0.1 ; q = 0.9

Si chiede
Test (b)    16  0.2  3.2 1) calcolare la probabilità di rispondere GIUSTO a 6 domande (su 16) in ciascuna versione del test
sotto la condizione che le risposte vengano vengano fornite casualmente;
Test (c)    16  0.1  1.6 2) stabilire il valore atteso (numero di risposte GIUSTO) che, nelle diverse versioni del test, ci si può
attendere per effetto del caso
1
[NOTA: nella sottostante figura i valori di probabilità delle 3 curve sono rappresentati da linee continue per ragioni di semplicità grafica; essendo la
v.c. binomiale discreta, in corrispondenza dei diversi valori sull’ascissa, la probabilità dovrebbe essere rappresentata con un punto separato. La possibilità
di cogliere visivamente le 3 distribuzioni risulterebbe, tuttavia, del tutto compromessa]

Probabilità di successi su 16 prove con:


Successi (p = 0.5) (p = 0.2) (p = 0.1) p 1  0 .1
10
1 0.0002441 0.11259 0.3294258
2 0.0018311 0.2111062 0.2745215
3 0.0085449 0.2462906 0.1423445
p  1  0 .2
4 0.027771 0.2001111 0.0514022 5
5 0.0666504 0.1200667 0.0137072
6 0.1221924 0.0550306 0.0027922 p  1  0 .5
2
7 0.1745605 0.0196538 0.0004432
8 0.1963806 0.0055276 0.0000554
9 0.1745605 0.0012284 5.5E-6
10 0.1221924 0.000215 4E-7
11 0.0666504 0.0000293 0
12 0.027771 3.1E-6 0
13 0.0085449 2E-7 0
14 0.0018311 0 0
15 0.0002441 0 0
16 0.0000153 0 0
Distribuzione NORMALE probabilità e loro proprietà
Principali distribuzioni di probabilità proprietà

==> Quando gli eventi possono assumere un qualsiasi valore (in un qualsiasi intervallo, anche - + )
allora la distribuzione teorica di probabilità può essere quella NORMALE
=> Molte variabili si distribuiscono approssimativamente in modo normale;
=> Gode di comode proprietà come la simmetria;
=> Viene anche detta "curva degli errori" perché si può dimostrare (Gauss) che essa descrive la LEGGE DI DISTRIBUZIONE DEGLI
ERRORI ACCIDENTALI (per es.: di misurazione di una lunghezza)

==> Una variabile casuale x ha una distribuzione normale con media  e varianza 2 se la sua densità
di probabilità (funzione di probabilità) è data da:     x  
1
 2  x   2
   3.1416
1 1  1 
f x    exp  2   x     
2
 e 2  con:  e  2.7183
2 2 2 2  2     media
 2
  var ianza

  1;  2  3; Asimm  0; Curtosi  0;

1
  0;  2  ; Asimm  0; Curtosi  0;
3
1
  1;  2  ; Asimm  0; Curtosi  0;
5
  0;  2  1; Asimm  0; Curtosi  0;
probabilità e loro proprietà
Principali distribuzioni di probabilità proprietà

Caratteristiche delle curva normale:

=> è SIMMETRICA (moda = mediana = media);


=> è ASINTOTICA (per x  );
=> è completamente CARATTERIZZATA da 2 parametri ( e 2 );
=> ha 2 punti di FLESSO (da convessa a concava) situati a  1  ;
=> la probabilità relativa ad intervalli di valori è definita dall'AREA SOTTESA alla porzione di curva e
quindi dall'integrale della funzione (per xi = a):
2
a 1  x 
1   
Pa    e 2  
dxi
 2 2

 Opportunità di definire una distribuzione NORMALE STANDARDIZZATA ( = 0 e 2 =1)

1
xi   1  z 2
zi  f z   e 2
 Per cui: 2
 disponendo di una distribuziane empirica, normale, può essere utile definire
"nuovi" valori (punteggi o scale) avendo come riferimento la distribuzione dei valori Z

 I valori Z della distribuzione normale standardizzata possono essere facilmente tabulati e


fornire un criterio per l'assunzione di decisioni statistiche ("verifica" o controllo delle ipotesi)
probabilità e loro proprietà
Principali distribuzioni di probabilità proprietà

Usando come riferimento i valori (Z) della distribuzione nomale standardizzata è possibile definire
"nuovi" valori (punteggi o scale). Alcuni esempi...

La scala T (proposta da McCall, 1922, in onore di E.L. Thorndike) usa: media = 50 e dev.st. = 10

Ti  50  10  zi
La scala C (Guilford, 1956), considera 11 valori ed è definita con media = 5 e dev.st. = 2

La scala STANINE ("standard nine"), considera 9 valori ed è definita con media = 5 e dev.st. = 1.96

Originalmente (per es. nell'adattamento americano Età Mentale


della scala d'intelligenza di Binet e Simon, 1905, da QI   100
Età Crono log ica
allora detta: Stanford-Binet)
il QI era definito:

Nelle revisioni più recenti (1960) viene invece utilizzato il cosiddetto QI di deviazione...

Il QI di deviazione della Stanford-Binet è ottenuto considerando: media = 100 e dev.st. = 16

Il QI di deviazione della serie di scale Wechsler è invece basato: media = 100 e dev.st. = 15

Corrispondenze fra alcune delle più comuni scale normalizzate


100.00 %

Corrispondenze
fra alcune 99.87 %
delle più
comuni scale 97.73 %
normalizzate
(valori arrotondati) 84.14 %

50.00 %

Percentuale
(cumulata) 15.86 %
di casi
sotto la curva
2.50% (Z=-1.96)
2.27 %

0.13 %

Deviazioni standard

Percentuale
(negli intervalli)
0.02 0.11 0.49 1.65 4.41 9.18 14.99 19.15 19.15 14.99 9.18 4.41 1.65 0.49 0.11 0.02
di casi %  0.13   2.14   13.59   34.14   34.14   13.59   2.14   0.13 
%
sotto la curva

Z -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 +0.5 +1.0 +1.5 +2.0 +2.5 +3.0 +3.5 +4.0

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
T
C (stanine) 1 2 3 4 5 6 7 8 9

QI di deviazione
Wechsler (100;15) 40 48 55 63 70 78 85 93 100 108 115 123 130 138 145 153 160
----------------------
Stanford-Binet
(100;16) 36 44 52 60 68 76 84
+0.25 92 100 108 116 124 132 140 148 156 164
+0.13
-0.39

+2.33
+0.39

+1.28
+0.84

+1.64
+1.04
+0.67
+0.52
Valori Z
-0.13
-1.04

-0.67

-0.25
-1.28

-0.52
-0.84

0.00
-1.64
-2.33

e relativi
PERCENTILI % 1 5 10 20 30 40 50 60 70 80 90 95 99 %
probabilità e loro proprietà
Principali distribuzioni di probabilità proprietà
I valori Z possono essere facilmente tabulati...

Distribuzione NORMALE STANDARDIZZATA

-4 -3 -2 -1 0 z 1 2 3 4

1-p

Generalmente, il software statistico fornisce direttamente (sotto l'etichetta "prob.") il valore: 1-p

Se zt è il valore del test e l'ipotesi alternativa è biderizionale;


1-p  Prob. di ottenere un valore ≥ +zt e ≤ -zt
La distribuzione CHI-QUADRATO 2 Helmert, 1876 (astronomo tedesco)
Pearson, 1900

Data una popolazione di numerosità N distribuita NORMALMENTE con media  e varianza 2 , è possibile
estrarre innumerevoli campioni di n osservazioni.

Ogni campione di osservazioni è una variabile casuale NORMALE con media  e varianza 2 .

Se si standardizzano i valori di k campioni, si avranno k variabili casuali z1, z2, ..., zk normali con stessa media
e stessa varianza.

La sommatoria dei quadrati di k variabili normali standardizzate è una variabile casuale detta CHI-QUADRO
che viene espressa dalla seguente forma funzionale:

2 dove :   gradi di libertà della distribuzione;



   C   
P 2

2 2 1
e

2
0   2
   C   costante (che dipende da G.d.L.)
tale da assicurare area sottesa  1

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
La distribuzione CHI-QUADRO è di tipo CONTINUO (non può assumere valori negativi) e assume FORME diverse
in funzione di 

Proprietà:
=> per    la curva tende alla Normale;
=> la media (valore atteso) = 

(Uso tavole): Probabilità di osservare un


valore uguale o maggiore di 2a = area
1-p
sottesa alla curva p

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
La distribuzione F (Fischer - Snedecor, 1924-1934)

==> E' definita come rapporto di DUE VARIABILI CASUALI CHI-QUADRO;


==> molto usata in ANOVA => test F;
==> è caratterizzata da due parametri (1 2) corrispondenti ai GdL numeratore e denominatore;
==> è UNIMODALE e ASIMMETRICA, comprende come casi speciali le altre distribuzioni;

==> per 1 = 1 e 2   F tende alla Normale Standardizzata;


==> per 1 = 1 e 2 = (valore piccolo) F = t2;
==> per 1 = (valore piccolo) e 2   F tende alla 2;

La distribuzione t di Student (W. S. Gosset, 1908)

==> E' definita come rapporto fra una variabile casuale Normale Standardizzata e la radice quadrata
di una variabile 2 divisa per il numero dei suoi GdL, sotto la condizione che le due variabili
siano fra loro indipendenti;

==> molto usata per lo studio di fenomeni casuali relativi a campioni piccoli (n < 30);
==> significatività dei parametri stimati in modelli lineari classici;
==> La forma della distribuzione dipende dai GdL; le diverse curve sono CAMPANULARI e
SIMMETRICHE (platicurtiche)
==> al crescere dei GdL, t tende alla normale

probabilità e loro proprietà


Principali distribuzioni di probabilità proprietà
La logica della decisione in statistica, test sulle ipotesi
Perché la velocità di lettura è differente
nell'ambito di un certo insieme di
individui ? Dipenderà dal metodo di
insegnamento ???
Dalle domande di conoscenza alle ipotesi teoriche ==>
Se gli individui sono stati sottoposti a
due diversi metodi di insegnamento (a; b)
allora la loro velocità di lettura è differente

Indicando con a e b le medie incognite della velocità di lettura, rispettivamente per la popolazione
di coloro che hanno seguito il metodo a e b, è possibile scrivere la corrispondente ipotesi statistica:
H: a  b che naturalmente implica anche l'ipotesi opposta H: a = b

Generalmente si preferisce porsi nella condizione di RESPINGERE l'ipotesi che riveste interesse per
lo studio; e tale ipotesi viene detta IPOTESI NULLA; l'altra IPOTESI ALTERNATIVA
H0: a = b H1: a  b

L'ipotesi alternativa H1: a  b implica due situazioni a < b e  a > b


e viene pertanto detta COMPOSTA o BIDIREZIONALE o BILATERALE
Si possono formulare ipotesi teoriche PIU' SPECIFICHE; per es.: Se gli individui sono stati sottoposti
al metodo diinsegnamento "a", allora leggono più velocemente di quelli sottoposti al metodo "b".

H0: a  b (H0: a - b  0) H1: a > b (H0: a - b > 0)

Ora l'ipotesi alternativa H1: a > b viene detta; SEMPLICE o


MONODIREZIONALE o UNILATERALE

==> Il controllo delle ipotesi consiste nello stabilire una regola che permetta di decidere;

==> Tale regola viene detta "TEST STATISTICO";

==> Un test statistico è una variabile casuale i cui valori (definiti dalla regola di calcolo)
stanno in un certo intervallo e seguono una distribuzione di probabilità nota.

==> I valori del test (spazio campionario) vengono generalmente suddivisi in:
- una regione di ACCETTAZIONE di H0
- una regione di RIFIUTO di H0 (accettazione di H1)
sulla base di un valore (Vc) che viene detto VALORE CRITICO (al di là del quale si
estende la regione di rifiuto)

La logica della decisione in statistica, test sulle ipotesi


In generale lo spazio delle decisioni possibili (spazio delle ipotesi) può essere così suddiviso:

Quando si pensa H0 come ... decidere di ... ... comporta ... ... errore di ... ... con probabilità ...
RESPINGERE H0 DECISIONE I° TIPO 
SBAGLIATA
VERA
ACCETTARE H0 DECISIONE NESSUN ERRORE 1-
GIUSTA
RESPINGERE H0 DECISIONE NESSUN ERRORE 1-
GIUSTA
FALSA ACCETTARE H0 DECISIONE II° TIPO 
SBAGLIATA

==> La quantità  dipende dal valore prefissato di  e dal valore del parametro incognito .....
==> Si desidera minimizzare sia  sia ; ma POSSONO ESSERE RIDOTTI ENTRAMBI SOLO
AUMENTANDO LA DIMENSIONE DEL CAMPIONE ...

Ecco perché generalmente si preferisce porsi nella condizione di RESPINGERE (H0) l'ipotesi che riveste interesse per lo studio:
==> Es. Il ricercatore desidera sostenere che il diverso metodo di insegnamento influisce sulla velocità di lettura. Definendo:
H0: a = b
si dice: “fra i due gruppi che hanno seguito metodi diversi di insegnamento NON vi è alcuna differenza significativa”.
==> MAI SI POTRA’ SAPERE SE HO E’ VERA O FALSA; ma così facendo (assumendo che sia vero a = b) si “restringe” lo spazio
decisionale ai primi due casi (illustrati in tabella);
==> ORA PER MINIMIZZARE IL RISCHIO DI SBAGLIARE E’ SUFFICIENTE SCEGLIERE UN  ABBASTANZA PICCOLO !!!

In genere si formulano le ipotesi statistiche in modo che sia più vantaggioso avere un  piccolo (e consegunetemente un  grande) piuttosto che il contrario: Esempio dell'accusato.
Porre H0 = innocente (H1 = colpevole) e scegliere un  piccolo significa preferire la liberazione di un colpevole piuttosto che la condanna di un innocente;
viceversa, con H0 = colpevole (H1 = innocente) e sempre  piccolo, significa preferire un innocente in galera piuttosto che un colpevole in libertà.

La logica della decisione in statistica, test sulle ipotesi


CONTROLLO DELLE IPOTESI: sulla media --- sulla differenza fra medie

=> “sulla media" implica un solo campione e la decisione riguarda SE la media campionaria è (o non è)
significativamente diversa dalla media della popolazione;

=> “sulla differenza fra medie" implica (almeno) due campioni e la decisione riguarda SE la differenza riscontrata è
tale da far ritenere che i campioni provengano da popolazioni con medie diverse (oppure così piccola da far
ritenere che sia dovuta al caso (fluttuazioni campionarie).
[importante distinguere: CAMPIONI INDIPENDENTI / CAMPIONI DIPENDENTI]

In generale il procedimento può essere articolato in:

1) Formulazione delle ipotesi statistiche e definizione coefficiente di fiducia;

2) Calcolo (uso tavole) del valore critico della variabile casuale associata al test [zc; tc; Fc; 2c];

3) Trasformazione dei valori campionari in quelli della variabile associata opportuna [ze; te; Fe; 2e]
(e = empirico);

4) Decisione (respingere / non-respingere H0)

(Esempi ...)

La logica della decisione in statistica, test sulle ipotesi


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) Z

=> Due campioni (casuali e indipendenti) di studenti vengono sottoposti ad una prova di memoria;
Il primo campione è composto interamente da 43 studenti maschi che ottengono un punteggio
medio pari a 20 con uno scarto quadratico medio di 4.6; il secondo campione è composto
interamente da 40 studentesse che ottengono un punteggio medio pari a 18 con una deviazione
standard pari a 4.4. Si chiede di stabilire, con un livello di fiducia del 99%, se la differenza fra
studenti maschi e femmine è statisticamente significativa.

Dati: xM  20; xF  18; nM  43; nF  40; sM  4.6; s F  4.4


H 0 : M  F   0.01; 0.99
1 2  0.495  zc  2.58
H1 è bidirezionale:  /2 =>
H1 :  M   F 1    0.99; 2

xM  x F 20  18
3 ze    2.0
sM  s F 4.6  4.4
n1  n2  2 43  40  2

4 ze cade nella zona di NON rifiuto (interna)


(+2.0 < +2.58) con software statistico...
H0 ==> NON RESPINTA

La logica della decisione in statistica, test sulle ipotesi


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) con software statistico...

La logica della decisione


ident genere x
in statistica, test sulle ipotesi
 = 0.01
1 M 16.1018
2 F 16.1969
3 M 13.8570
4 M 20.1517
5 F 30.7632
6 M 14.7090
7 M 15.3023 I DATI...
8 F 18.6471
9 M 23.3436
10 M 22.3045
::::::::::::::::::::::::::
::::::::::::::::::::::::::
80 F 17.7992 Two Sample t-test for the Means of x within genere
81 F 20.7040
Sample Statistics
82 M 18.6702
83 M 15.6051 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
The SAS System
The GLM Procedure F 40 18 4.4 0.6957
Dependent Variable: x
Sum of
M 43 20 4.6 0.7015
Source DF Squares Mean Square F Value Pr > F

Model 1 82.891566 82.891566 4.08 0.0466 Hypothesis Test

Error 81 1643.760000 20.293333 Null hypothesis: Mean 1 - Mean 2 = 0

Corrected Total 82 1726.651566


Alternative: Mean 1 - Mean 2 ^= 0

R-Square Coeff Var Root MSE x Mean


F If Variances Are t statistic Df Pr > t
0.048007 23.66452 4.504812 19.03614
----------------------------------------------------
Source DF Type I SS Mean Square F Value Pr > F
Equal -2.021 81 0.0466
genere 1 82.89156627 82.89156627 4.08 0.0466 Not Equal -2.024 80.93 0.0462
Standard
Parameter Estimate Error t Value Pr > |t|

Intercept 18.00000000 B 0.71227336 25.27 <.0001


genere
genere
M
F
2.00000000 B
0.00000000 B
0.98958139
.
2.02
.
0.0466
.
t
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Esempio 2. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE: ( ig noto) t

=> Per controllare se un nuovo tipo di psicofarmaco influisce o meno sulla memoria delle persone si
organizza un esperimento. 60 individui che hanno trovato giovamento dallo psicofarmaco vengono
suddivise (casualmente) in due gruppi di 30 individui; al gruppo 1 viene somministrato il
medicinale, al gruppo 2 un placebo. Dopo un certo intervallo di tempo tutti sono sottoposti ad una
prova di memoria che fornisce i seguenti risultati: media pari a 13.30 e deviazione standard 1.77
per il gruppo 1 (sperimentale); media pari a 16.03 e deviazione standard 1.74 per il gruppo 2
(controllo). Si chiede di stabilire se lo psicofarmaco influisce significativamete sulla memoria
(alfa = 0.05).

Dati: x1  13.30; x2  16.03; n1  30; n2  30; s1  1.77; s2  1.74


H 0 : 1   2   0.05;
1 2 H1 è bidirezionale: GdL = 58 => Gdl  60  tc  2.0
H1 : 1   2 1    0.95;

x1  x2 13.30  16.03  2.73


3
te     5.93
n1s12  n2 s22 n1  n2 30 1.77 2  30 1.74 2 30  30 0.46
 
n1  n2  2 n1  n2 30  30  2 30  30

4 te cade nella zona di rifiuto (esterna)


(-5.93 < -2.0) (lo psicofarmaco influisce con software statistico...
H0 ==> RESPINTA (negativamente) sulla memoria

La logica della decisione in statistica, test sulle ipotesi


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE ( ig noto) con software statistico...

 = 0.05

I DATI...

Two Sample t-test for the Means of x within gruppo


Sample Statistics
Group N Mean Std. Dev. Std. Error
------------------------------------------------------
1 30 13.3 1.77 0.3232
2 30 16.03 1.74 0.3177

Hypothesis Test
Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0

If Variances Are t statistic Df Pr > t


----------------------------------------------------
Equal -6.024 58 <.0001
Not Equal -6.024 57.98 <.0001

La logica della decisione in statistica, test sulle ipotesi


La logica della decisione in statistica, test sulle ipotesi
Esempio 3. TEST del CHI-QUADRATO

f 
=> Assume un valore compreso fra 0 e un numero positivo
2
J K  fˆ jk che dipende da N e dai GdL;
  
2 jk

j 1 k 1 fˆjk
=> I valori seguono l'omonima distribuzione, per cui è possibile
stabilire se il valore ottenuto è significativamente diverso
da zero

Esempio: Con lo scopo di conoscere il giudizio degli studenti nei confronti dell'introduzione di una
modifica organizzativa del corso di laurea, è stato intervistato un campione casuale di 150
studenti. I risultati dell'indagine sono riportati in forma tabellare distinguendo i giudizi (y)
rispetto al genere (x) degli intervistati. Si chiede di stabilire se:
a) fra genere e giudizio esiste un qualche grado di associazione;
b) l'eventuale associazione fra genere e giudizio é statisticamente significativa (alfa = 0.05)
TABELLA DI X PER Y STATISTICHE PER LA TABELLA DI X PER Y
X Y
Frequenza‚favorev.‚contrari‚incerti ‚ Totale Statistica DF Valore Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Chi quadro 2 12.959 0.002
maschi ‚ 28 ‚ 29 ‚ 17 ‚ 74 Likelihood Ratio Chi-Square 2 13.220 0.001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Mantel-Haenszel Chi-Square 1 2.110 0.146

femmine ‚ 12 ‚ 51 ‚ 13 ‚ 76 Phi Coefficient 0.294


Contingency Coefficient 0.282
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Cramer's V 0.294
Totale 40 80 30 150
Sample Size = 150
con software statistico...

H0: CHI-QUADRO calcolato = 0; L'associazione fra le due variabili è statisticamente significativa per alfa = 0.05 ?
Principali misure di relazione bivariata (variabili CARDINALI)

I valori di due variabili cardinali (x e y) possono essere rappresentati geometricamente come punti (coordinate) in
uno spazio cartesiano a due dimensioni ...

FORMA DELLA RELAZIONE ............

RELAZIONI PERFETTE ..... NON PERFETTE ...... LINEARI e NON-LINEARI

==> Nessuna statistica capace di cogliere (misurare o esprimere) una relazione lineare è anche
capace di cogliere l'esistenza di una relazione non-lineare

=> due variabili vengono dette: ortogonali (o indipendenti) quando si osserva una totale assenza di
relazione;
=> quando la relazione è lineare e perfetta, le variabili vengono dette collineari.
Principali misure di relazione bivariata (variabili CARDINALI)
Misure (statistiche) della relazione LINEARE fra due variabili cardinali

==> COVARIANZA; riprendendo la formula della varianza (di x), questa può essere espressa come
covarianza di x CON SE STESSA ...

1 N 1 N
s    xi  x     xi  x    xi  x   x 2  x 2
2 2 ==> con due variabili (x e y)
si può scrivere la
N i 1 N i 1 COVARIANZA come:

1N 1 N ==> se le due variabili sono

covxy  xi  x   yi  y  xi yi  xy xy xy ortogonali ... covxy = 0


... diversamente il valore
N i1 N i1 dipende dai dati ...

La misura o indice di CORRELAZIONE (Bravais-Pearson - 1889) si ottiene "pesando" la covarianza


con il prodotto delle deviazioni standard ...

Se entrambe le varibili sono STANDARDIZZATE...


1 N
covxy  xi  x   yi  y  sx  s y  1 e il coefficiente di correlazione può

N i1 essere definito anche come MEDIA DEI PRODOTTI


rxy   DELLE VARIABILI STANDARDIZZATE
sx  s y 1 N 1 N
 i  x  x 2
  i  y  y 2
1 N

N i1 N i1 rxy 


N
z
i 1
xi z yi
==> Proprietà: -1  r xy  +1

Principali misure di relazione bivariata (variabili CARDINALI)


Esempio ....

Id. X Y X2 y2 XY
s  x2  x 2 cov xy  xy  x  y
1 2 10 4 100 20
2 3 9 9 81 27
3
4
4
5
9
7
16
25
81
49
36
35 covxy
5 6 5 36 25 30 rxy 
6 7 3 49 9 21
---------------------------------
sx  sy
Media 4.5 7.17 23.17 57.50 28.17

s x  23.17  20.25  1.71 s y  57.5  51.41  2.47

cov xy  28.17  4.5  7.17   SAS System


Correlation Analysis

 4.095 2 'VAR' Variables: X Y


Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

 4.095 X 6 4.50000 1.70783 27.00000 2.00000 7.00000

rxy   0.97 Y 6 7.16667 2.47768 43.00000


Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6
3.00000 10.00000

1.71 2.47 X 1.00000


X
-0.96500
Y

0.0 0.0018
Y -0.96500 1.00000
0.0018 0.0
con software statistico...

Principali misure di relazione bivariata (variabili CARDINALI)


Principali misure di relazione bivariata (variabili CATEGORIALI) – Il test CHI-
CHI-QUADRATO

ID X Y UTILIZZO DI UN MODELLO A SCOPO DESCRITTIVO


Dalla matrice CxV alla Il modello di indipendenza (due variabili categoriali)
1 a c tabella di contingenza ....
2 a c ident esito docente
3 a d 1 0 A
2 0 A ESEMPIO
4 a d 3 0 A
5 a d ... ... ...
6 a e
11 0 B
12 0 B
7 a e 13 0 B I SUCCESSI (o gli insuccessi) degli studenti
8 a e 14 0 B
15 0 B SONO EQUAMENTE DISTRIBUITI FRA I
9 a e
L H 16 0 B DOCENTI (A,B,C) ???
 f
10 a e
11 b c jk  f  N ...
37
...
0
...
C
j 1 k 1 38 0 C
12 b c
39 0 C
13 b c 40 0 C
14 b d 41 1 A Le variabili categoriali "esito" e "docente"
... ... ...
15 b e
45 1 A
sono fra loro indipendenti o esiste una
16 b e 46 1 A qualche associazione ?
17 b e ... ... ...
56 1 B
18 b e
... ... ...
... ... ... 98 1 C
... ... ... 99 1 C
100 1 C
... ... ...

X \ Y 1 2 ... H Tot.
esito docente
1 f11 f12 ... f1H f1+
Frequenze ‚A ‚B ‚C ‚ Totale
2 f21 f22 ... f2H f2+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
... ... ... ... ... ... ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
L fL1 fL2 ... fLH fL+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 25 50 25 100
Tot. f+1 f+2 ... f+H f++
 In un'urna (x) ci sono 50 palline "N" e 70 palline "R";
Modello teorico
(nella situazione di indipendenza) .... in un'altra urna (y) ci sono 80 palline "N" e 40 palline "R";
in 120 estrazioni (con ripetizione) qual è la Prob. di estrarre "N" e "N" ???

xj\ yk N R Tot.
 fˆNN ?
ˆ
 f NR ?
N ? ? 50 (Prob.) * (N° di estrazioni) = Frequenza attesa = fˆ jk ˆ
 f RN ?
R ? ? 70  fˆ
 RR ?
Tot. 80 40 120

Dalla teoria della probabilità ... Teorema della probabilità composta (o del prodotto):
SE DUE EVENTI SONO STOCASTICAMENTE INDIPENDENTI, LA PROBABILITA' DI

OTTENERE L'EVENTO A e L'EVENTO B è data da: PA  PB  PA  PB

50 80
Facendo qualche calcolo ... in x  P N    0.416 6 in y  P N    0.666 6
120 120

50 80
fˆNN    0.277 7 120  33.333 3  33
120 120

In generale ... ˆf  f j   f  k  f  f j   f  k
jk 
f  f  f 

Principali misure di relazione bivariata (variabili CATEGORIALI)


... dati i marginali, è possibile ottenere la tabella delle frequenze attese fˆ jk nella situazione di indipendenza (fra x e y) ...
frequenze attese
... che può essere confrontata con la tabella delle frequenze empiriche ...
fˆ jk ....
(xj\ yk) N R Tot.

 fˆ11 ... utilizzando


f11  N 33 17 .... 50
 ˆ 
 f12 f12  R 47 23 .... 70
 ... ... 
 
f 
........... ........... ........... .... ...........
In generale ... 2
 fˆ jk f jk  L H
 fˆjk Tot. 80 40 .... 120
 ... ...    
2 jk


  che assume un valore compreso fra 0
 ... ...  j 1 k 1 jk e un numero positivo che dipende da
ˆ 
 f LH f LH  N (f++) e dai GdL
GdL  L  1  H  1

A scopo descrittivo possono essere ricavate altre misure (SIMMETRICHE) di associazione basate sul CHI-quadro (forza della relazione ...)

2 2
Coefficiente PHI ==> φ φ  2
MIN = 0 ; MAX = 1 SOLO PER TABELLE: 2 * H

N N
φ2 MIN = 0 ; MAX = 1 PER TABELLE: L * H
Coefficiente V (Cramer) ==> V
minL  1, H  1

Per tabelle 2x2 ==>  V Inoltre, per variabili booleane ....


φ  f11  f22  f12  f21  f1  f2  f1  f 2 
MIN = -1 ; MAX =+ 1
A scopo inferenziale ... i valori di CHI2 seguono l'omonima distribuzione ...

Principali misure di relazione bivariata (variabili CATEGORIALI)


Ritornando all'esempio empirico ... The SAS System

The FREQ Procedure

Table of esito by docente


I SUCCESSI (o gli insuccessi) SONO EQUAMENTE
DISTRIBUITI FRA I DOCENTI (A,B,C) ??? esito docente

Frequency ‚
Expected ‚
Le variabili categoriali "esito" e "docente" Percent ‚
Row Pct ‚
sono fra loro indipendenti o esiste una Col Pct ‚A ‚B ‚C ‚ Total
qualche associazione ? ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
‚ 10 ‚ 20 ‚ 10 ‚
‚ 10.00 ‚ 20.00 ‚ 10.00 ‚ 40.00
‚ 25.00 ‚ 50.00 ‚ 25.00 ‚
‚ 40.00 ‚ 40.00 ‚ 40.00 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
esito docente 1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
‚ 15 ‚ 30 ‚ 15 ‚
Frequenze ‚A ‚B ‚C ‚ Totale ‚ 15.00 ‚ 30.00 ‚ 15.00 ‚ 60.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 25.00 ‚ 50.00 ‚ 25.00 ‚
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40 ‚ 60.00 ‚ 60.00 ‚ 60.00 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60 Total 25 50 25 100
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 25.00 50.00 25.00 100.00
Totale 25 50 25 100

Statistics for Table of esito by docente

Statistic DF Value Prob


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
con software statistico... Chi-Square 2 0.0000 1.0000
Likelihood Ratio Chi-Square 2 0.0000 1.0000
Mantel-Haenszel Chi-Square 1 0.0000 1.0000
Phi Coefficient 0.0000
Contingency Coefficient 0.0000
Cramer's V 0.0000

Sample Size = 100

Principali misure di relazione bivariata (variabili CATEGORIALI)


Altro esempio empirico, stessa domanda ... I SUCCESSI (o gli insuccessi) SONO EQUAMENTE DISTRIBUITI FRA I DOCENTI (A,B,C) ???

con software statistico...


Frequenze (e %) OSSERVATE esito docente

esito docente Frequency‚


Expected ‚
Frequenze‚ Percent ‚
% (Tot.) ‚A ‚B ‚C ‚ Totale
Row Pct ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96
Col Pct ‚A ‚B ‚C ‚ Total
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ 69 ‚ 6 ‚ 21 ‚ 96
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 ‚ 60.706 ‚ 14.118 ‚ 21.176 ‚
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 ‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 71.88 ‚ 6.25 ‚ 21.88 ‚
Totale 86 20 30 136 ‚ 80.23 ‚ 30.00 ‚ 70.00 ‚
63.24 14.71 22.06 100.00 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40
‚ 25.294 ‚ 5.8824 ‚ 8.8235 ‚
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41
... qualche informazione in più ... ‚ 42.50 ‚ 35.00 ‚ 22.50 ‚
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚
esito docente ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 86 20 30 136
Frequency‚ 63.24 14.71 22.06 100.00
Percent ‚
Row Pct ‚
Col Pct ‚A ‚B ‚C ‚ Total Statistics for Table of esito by docente
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96 Statistic DF Value Prob
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ 71.88 ‚ 6.25 ‚ 21.88 ‚
‚ 80.23 ‚ 30.00 ‚ 70.00 ‚ Chi-Square 2 19.7279 <.0001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Likelihood Ratio Chi-Square 2 18.1787 0.0001
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 Mantel-Haenszel Chi-Square 1 3.6911 0.0547
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 Phi Coefficient 0.3809
‚ 42.50 ‚ 35.00 ‚ 22.50 ‚ Contingency Coefficient 0.3559
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚ Cramer's V 0.3809
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 86 20 30 136
Sample Size = 136
63.24 14.71 22.06 100.00

... FREQUENZE ATTESE E CONFRONTO CON IL MODELLO DI INDIPENDENZA

Principali misure di relazione bivariata (variabili CATEGORIALI)


Teoria Classica dei Test Premessa: misurazione  variabili: manifeste/latenti  dimensionalità
(attendibilità e validità
(attendibilità validità)
variabili: manifeste/latenti 

Si riferiscono a costrutti teorici (proprietà)


DIRETTAMENTE OSSERVABILI
variabili manifeste • per es. proprietà (degli individui) come: peso, altezza, età,
condizione professionale, accordo/disaccordo rispetto ad una certa
affermazione, comportamento attuato in una data situazione, etc.

• sono tutte proprietà ben definite (ampia condivisione a livello di


definizione teorica e – generalmente – anche di def. operativa)
Strumenti complessi (modelli, test) che:

 STABILISCONO LEGAMI Nella (nessi causali


scienza o dispesso
si opera indicazione)
con costrutti teorici (proprietà)
fra osservazioni empiriche (indirette) e il costrutto teorico
NON DIRETTAMENTE OSSERVABILI
 per es. proprietà (generalmente mentali degli individui) come: le abilità, gli
 PRODUCONO (come risultato)
atteggiamenti, VARIABILI
i valori, le LATENTI
percezioni, le aspettative, etc.

 POSSONO PRODURRE
 complessitàMISURE
del costrutto e/o scarsa condivisione su def. operativa
(quando – tali variabili -godono di specifiche proprietà formali)
 non sono rilevabili sulla base di un'osservazione diretta (es.:risposta a una domanda)

 necessitano di un INSIEME di (Analogia)


fatti (di variabili manifeste)
La prima misurazione scientifica
[anche per giungere al semplice confronto ordinaledi una distanza
(abilità dell'individuo a > b)]
cosmica, quella della CIRCONFERENZA TERRESTRE,
fu eseguita da Eratostene di Cirene, nel 240 a.C.,
 richiedono la messa
tramite a punto di COMPLESSI
OSSERVAZIONI STRUMENTI
EMPIRICHE (di rilevazione
INDIRETTE ... e di analisi)
 tanto più sofisticati quanto più:
. è controversa la corrispondenza Vaifra
a...fatti osservabili e proprietà (validità)
DIGRESSIONE (Eratostene)
.. è alta la precisione desiderata dello strumento (attendibilità)
variabili latenti ... è elevato il 'livello di scala' desiderato (per la varibile ottenuta)
DIGRESSIONE
(ERATOSTENE)
COSTRUTTO TEORICO:
ANALOGIA "Circonferenza terrestre"
240 a.C.
<<La prima misurazione scientifica di
una distanza cosmica>>
(I. Asimov, 1984, p.22)

1) EFFETTUO OSSERVAZIONI EMPIRICHE (indirette) ..... ... QUANTO MISURA???


ALESSANDRIA In metri ...
Teorema dei seni...
800 Km. (D) a  1.000
(A)
   90 a b c
b  0.128 ;  
 c  1.008   ?
SIENE
sen sen sen
Tropico del Cancro 
(C)
(B)
ALESSANDRIA (Egitto):
SIENE (Egitto): h. 12 solstizio d'estate
h. 12 solstizio d'estate (21 giugno) Quindi...
(21 giugno)
b
  arcsen 
c


 0.128 
?   arcsen   7.295  7 30'
(c)  1 . 008 
100 cm.
100 cm.

(a)

 

circa 13 cm. (b)


DIGRESSIONE 2) MODELLIZZO (assumo che la terra sia sferica) ....
(ERATOSTENE)
ANALOGIA

ALESSANDRIA

7° 30 '

TROPICO del CANCRO


SIENE

7° 30 '

EQUATORE

3) ESEGUO CALCOLI ..... C = "Circonferenza terrestre" (in Km.) C : 800  360 : 7 30'

800  360
4) OTTENGO UNA STIMA DELLA MISURA CERCATA ..... C  39452  40 mila Km.
7.30
 c 39452 
 diametro    12564  13 mila Km. 
  3 . 14 
DIGRESSIONE Esempio di misurazione...
(ERATOSTENE)
ANALOGIA 240 a.C.

ASTROFISICA PSICOLOGICA

Costrutto teorico circonferenza terrestre abilità di far di conto

distanza fra due città


Osservazioni empiriche lunghezza ombra del bastone
risposte a domande

[probabilistica]
[deterministica]
Modellizzazione Terra = Sfera Prob  R  x   f abilità ;difficoltà ; etc . 

Calcoli algebra, trigonometria algebra, statistica

[errore di specificazione +
Stima [errore di specificazione]
errore stocastico]
DIGRESSIONE
(ERATOSTENE)
ANALOGIA D’altra parte, con riferimento al concetto di “tempo” (cronologico)...

<<L'uomo ... non riuscì mai a delimitare,


misurare, circosrcivere
il tempo come lo spazio; dovette sempre
percepirlo e rappresentarlo
attraverso segni che a loro volta necessitavano
d'interpretazione e
potevano essere variamente spiegati>>
(A. Borst, 1997, p.13)

FINE (digressione)
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità) Premessa...

dimensionalità dei costrutti UN ESEMPIO: un fatto un dato  tanti fatti un dato

 un concetto (o un tratto degli individui) generale e articolato può essere rilevato


tramite un'unica domanda diretta ed esplicita?
Es.: abilità di far di conto con la tabellina pitagorica

PER SAPERE QUANTO E'


PREPARATO

Rispondi alle seguenti domande:


<<Quanto ti senti preparato  2x5=
sulla tabellina pitagorica?>>  7x9=
 6x7=
 molti "fatti" permettono di ottenere un dato....  etc...

(1 = risposta esatta; 0 = risposta errata)


(attendibilità e validità
Teoria Classica dei Test (attendibilità validità) Premessa...

Es.: abilità di far di conto con la tabellina pitagorica dimensionalità dei costrutti

Rispondi alle seguenti domande:


 2x5=
 7x9=
VIOLAZIONE DI
 6x7=
UNIDIMENSIONALITÁ
 In che anno nacque Dante Alighieri?
 5x3=
 etc..

2 domande...
Es.: prudenza degli individui

"Salendo in automobile lei ritiene si debbano


allacciare le cinture di sicurezza?" SONO INDICATORI
DELLO STESSO
"Salendo in automobile lei allaccia CONCETTO?
abitualmente le cinture di sicurezza?"

Definizione
del concetto...

<<... Quando si dice che un uomo è prudente, significa che egli adotta un certo numero di comportamenti
caratteristici della prudenza: che contrae assicurazioni, che non punta tutto su un solo cavallo, che non si
getta a occhi chiusi in un affare ... Il termine "prudente" è così un modo pratico di esprimere astrattamente
un aspetto comune alle sue azioni abituali ... Vi sono nel suo sistema psicofisico dei caratteri che lo portano
ad agire prudentemente ...>> (tratto da: William James, The Meaning of Truth; in Lazarsfeld, 1969)
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità) Premessa...

Definito il concetto, si possono predisporre alcune domande inerenti dimensionalità dei costrutti
ai comportamenti della vita quotidiana; per esempio...

 "Salendo in automobile lei allaccia abitualmente le cinture di sicurezza?"


 "In automobile lei rispetta i limiti di velocità?"
 "Lei guida abitualmente a fari spenti nella notte?"
 "Lei fuma tabacco?"
 "Lei consuma grandi quantità di dolci?"
 "Lei gioca d'azzardo?"
 "Lei contrae assicurazioni?"
 etc.. etc..

?
TIZIO = CAIO
molto prudente rispetto al patrimonio economico un pò prudente rispetto al patrimonio economico
molto imprudente rispetto alla sua salute un pò prudente rispetto alla sua salute

 alcuni concetti (come quello di prudenza) sono così complessi che il loro processo di
trasformazione in dati (la loro operativizzazione) richiede una pluralità di dimensioni

guida auto
patrimonio Nel seguito (se non
altrimenti specificato) si
etc., etc. farà riferimento
esclusivo alla
misurazione di costrutti
(o tratti mentali) con
strumenti di tipo
salute UNIDIMENSIONALE
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
La misurazione: attendibilità  validità

• La VALIDITÁ (di uno strumento) è il grado in cui lo strumento misura ciò che intende misurare
• L'ATTENDIBILITÁ è il grado di concordanza fra misurazioni indipendenti dello stesso costrutto

Generalmente una misura NON ATTENDIBILE è anche NON VALIDA


(l'attendibilità è condizione necessaria, ma non sufficiente per la validità)

Aspetti dell'attendibilità sono: PRECISIONE e STABILITÁ (nel tempo)

Aspetti della validità sono (schematicamente):

CONTENUTO = grado in cui gli agenti elicitanti la proprietà (ITEM) sono rappresentativi dell'universo degli agenti per
quella proprietà
FACCIATA = grado in cui gli agenti elicitanti la proprietà (ITEM) sembrano (SIC!) appropriati
CRITERIO = grado di associazione fra la misurazione del costrutto e misurazioni di altri costrutti che possono essere
considerati come riferimento esterno
 PREDITTIVA (se intervine un lasso di tempo fra la misura e il riferimento esterno)
 CONCORRENTE (quando le misure coinvolte sono concomitanti)
COSTRUTTO = grado in cui la misura riflette accuratamente il costrutto che si intende misurare
 CONVERGENTE (presenza di relazione con misurazioni diverse dello stesso costrutto)
 DISCRIMINANTE (assenza di relazione con misurazioni inerenti costrutti diversi)
NOMOLOGICA = grado in cui la misurazione del costrutto si inserisce in una serie di relazioni (predittive) con
costrutti affini e/o con criteri di riferimento
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità) La misurazione: attendibilità (teoria classica)

L'ATTENDIBILITÁ è il grado di concordanza fra misurazioni indipendenti dello stesso costrutto...


La caratteristica, costrutto (o tratto mentale) degli
individui che si intende misurare e che si ritiene
sufficientemente stabile nel tempo
Il punto di partenza del ragionamento consiste nel [COMPONENTE VERA]
ritenere che i punteggi conseguiti in un test sono
"determinati" da due (e solo due) componenti Aspetti diversi indipendenti dalla caratteristica
misurata, che – tuttavia – influenzano la
(fattori o cause) misurazione (es.: scelta degli item; condizioni di
somministrazione; incertezza intrinseca; etc.)
[COMPONENTE D'ERRORE]

Il punteggio ottenuto tramite la misurazione (X) è sempre composto da: X V E


una componente VERA (V) e una componente d'ERRORE (E);
Cov V ,E  0
(assumendo che l'errore di misurazione sia indipendente dal valore vero)

Analogamente la varianza del punteggio osservato (su n osservazioni):  X2   V2   E2


 Dividendo entrambi i termini dell'equazione  V2  E2  V2  E2
1  2  2 ; ovvero : 2  1  2
per( 2x) si ottiene: X X X X
L'ATTENDIBILITÁ (rtt) può essere definita come RAPPORTO fra VARIANZA VERA e OSSERVATA
(quota di varianza vera contenuta nella varianza osservata)

 V2  E2 (0 ≤ rtt ≤ 1)
rtt  2 rtt  1  2
X X Coefficiente di determinazione

L'ATTENDIBILITÁ così definita suggerisce direttamente UN metodo per calcolarla: somministrare


lo stesso test due volte agli stessi individui e calcolare la correlazione fra i due punteggi...
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
Utile quindi ricordare alcune misure di correlazione (o più in generale di associazione)...

1 N

cov xy N
 x i  x    yi  y  Coefficiente r (Bravais-Pearson)
(1) rxy   i 1 quando x e y sono entrambe variabili cardinali
sx  s y 1 N
1 N

 x  x  y  y
2 2
i  i
N i 1 N i 1

 R   S 
N

i  R i  S Coefficiente Rho (Spearman) per ranghi


(2)  xy  i1
quando x e y sono entrambe variabili ordinali

 R   S 
N
2 2
i  R i  S Dove :
i 1 R e S indicano rispettiva mente i ranghi di x e y
R e S sono le rispettive medie

M  Mq Coefficiente r punto-biseriale (Lord e Novick)


(3) r pbi 
p
 pq quando una variabile è cardinale e l'altra una (vera) dicotomia
SD
Dove:
Mp = media dei punteggi degli individui che hanno risposto correttamente all'item i
Mq = media dei punteggi degli individui che hanno risposto in modo errato all'item i
p e q = rispettivamente, proporzione di individui che hanno risposto corretto e errato all'item i
SD = deviazione standard dei punteggi complessivi al test

rpbi è utilizzato, ad esempio, quando in un test tutti gli item sono di tipo dicotomico e si vuole
stabilre il grado di relazione fra il punteggio ottenuto dagli individui su un item e il punteggio
totale su tutti gli Item
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
Nella Teoria Classica dei Test l'attendibilità è sostanzialmente intesa come COERENZA (grado di
ASSOCIAZIONE o CONCORDANZA) dei punteggi fra diverse somministrazioni; ovvero:
con che probabilità i risultati di un test sono replicabili o si avvicinano all'accuratezza desiderata?
Metodi:

richiedono (almeno) DUE SOMMINISTRAZIONI (Stabilità dei punteggi nel tempo)

test-retest

Si somministra lo stesso reattivo due volte allo stesso gruppo di individui e si calcola la CORRELAZIONE
(r) fra i punteggi.
Difficoltà: (1) metodo inadatto per caratteristiche degli individui suscettibili di "fluttuazioni" nel tempo
come: tono dell'umore, apprendimento, etc. (2) quanto tempo deve intercorre fra una somministrazione
e l'altra?

forme parallele

Si predispongono due versioni (A e B) il più possibile equivalenti dello stesso test; si somministra la
versione A a un gruppo di individui; trascorso un appropriato lasso di tempo, si somministra la versione
B allo stesso gruppo di individui e si calcola la CORRELAZIONE (r) fra i punteggi.
Difficoltà: (1) campionamento degli item? (2) ordine di somministrazione (AB o BA);
(3) quanto tempo deve intercorre fra una somministrazione e l'altra?

richiedono SINGOLA SOMMINISTRAZIONE (Coerenza interna)


(Grado di accordo)
(1927) split-half in presenza di 2 (o più)
VALUTATORI (o GIUDICI)

(1937) Formula KR20


(1960) K di Cohen

(1951)  di Cronbach
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
split-half misurazione  attendibilità

Si ottiene la stima dell'attendibilità calcolando la CORRELAZIONE (r) fra i punteggi, dopo aver suddiviso
in due metà equivalenti gli item del test. Difficoltà: la divisione del test in due parti EQUIVALENTI:
suddivisione casuale? Item pari e item dispari?

(1) si suddividono gli item del test in due parti equivalenti (parte X e parte Y)
(2) si calcola la CORRELAZIONE (rXY)
(3) si stima l'attendibilità correggendo il coefficiente di correlazione con la formula di Spearman-Brown

La formula di Spearman-Brown (1927) è molto generale e viene detta "profetica" perchè, dato il
coefficiente di correlazione (rXY) del test originale, permette di "prevedere" il coefficiente di
attendibilità (rSB) di un test di qualsiasi lunghezza. Inoltre consente di sapere di quanto deve essere
"allungato" un test per ottenere un dato coefficiente di attendibilità

k  rXY Formula generale. Dove:


rSB  k è il fattore (moltiplicativo) che indica quanto
1  k  1  rXY il test è stato allungato/accorciato

S
Se: allora: k
L
e qualora rXY sia stato
S = n° di item DESIDERATO del test (o n° di item del test originale)
L = n° di item (del test dimezzato) su cui è stato clacolato rXY ottenuto sulla metà degli
item originali: k = 2

Formula da utilizzare nel Formula per stabilire il n° di item


caso dello split-half necessari per raggiungere un
desiderato livello di attendibilità
2  rXY
rSB  rˆXX  1  rXX  Dove :
1  rXY k rˆXX  attendibil ità desiderata
rXX  1  rˆXX  rXX  attendibil ità del test originale
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
misurazione  attendibilità
Formula KR20

La formula KR20 (Kuder-Richardson, 1937) può essere utilizzata per stimare l'attendibilità
Per test formati da item dicotomici (Vero/Falso)

0 ≤ rKR20  1 ; per valori prossimi a 1 (>0.90)  omogeneità degli item; adeguata attendibilità del test

rKR20 è sensibile alla difficoltà del test, all'estensione dei punteggi, al n° di item presenti nel test
In presenza (in un test) di item a difficoltà crescente (non tau-equivalenti) rKR20 indica il limite
inferiore del grado di omogeneità degli item (attendibilità)
L' di Cronbach può essere visto come una generalizzazione (applicabile anche ad item politomici)
della formula KR20

 K
 Dove :

K
  p j  q j  K  n di item del test
rKR 20   1 j 1   X2  varianza dei punteggi del test
K 1   X2  p  proporzion e di risposte corrette ad un item
  q  proporzion e di risposte errate ad un item
 
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)  di Cronbach (1951) misurazione  attendibilità

Per ottenere un punteggio complessivo, ha senso sommare fra loro solo Item (molto) interrelati
Il coefficiente  fornisce una stima dell'attendibilità in termini di coerenza interna del test
Il coefficiente  può essere pensato come una correlazione media degli item entro il test
Difficoltà: computazionale (quasi indispensabile l'uso dell'elaboratore e di un software idoneo)

Si considerino K item e la nota relazione fra punteggio osservato (X),


X j  V j  E j ; dove : 1  j  K 
punteggio vero (V) ed errore di misurazione (E)

Gli errori di misurazione (Ej) sono indipendenti fra loro e dai valori veri (Vj)

Siano così definiti il punteggio totale osservato e il punteggio totale vero: X0  X


j
j ; V0  V
j
j

K  1  2V j   cov Vi ,V j 


 cov Vi ,V j 
Dato che: Un limite inferiore per  2V0 K
j i j è dato da : K  1 i j

Assumendo : Cov X i , X j   Cov Vi ,V j ; per i  j , un limite inferiore per il


 2V0
coefficien te di attendibil ità di : 2 è dato dal coefficien te  di Cronbach.. .
 X0

 K 
 cov X , X i j
 K    Xj 
2

  
i j
  1
j 
 K  1  2X0  K  1    X0 
2

continua...
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
 di Cronbach misurazione  attendibilità

Se le varianze degli item variano molto è conveniente standardizzare gli item, prima di calcolare 
 raggiunge il valore massimo 1 quando la correlazione fra ogni coppia di item è 1
In presenza di correlazioni negative fra coppie di item  può assumere valori negativi
Se gli item sono dicotomici,  è equivalente alla misura di attendibilità di Kuder-Richardson (KR-20)
Per valutare quanto ciascun item rispecchi l'attendibilità della scala, si calcola un coefficiente 
(indipendentemente per ciascun item) dopo aver cancellato dalla scala quell'item

  relativo a tutti gli item ECCETTO l'i-esimo item è dato da:

 K 1


 K  1 
  2X j 
i   j i 
 1  K 1 
K  2  Xj
2
 
 j i 

Se  CRESCE dopo che un item è stato cancellato dalla scala, si può ritenere che quell'item
NON è fortemente CORRELATO con gli altri

Se  DECRESCE si può ritenere che quell'item È fortemente CORRELATO con gli altri

Esempio continua...
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità) Esempio tratto da ... Miceli, R., Sotgiu, I., & Settanni, M. (2008).
Disaster preparedness and perception of flood risk:
A study in an alpine valley in Italy
 di Cronbach PERCEZIONE DEL RISCHIO IDROGEOLOGICO Journal of Environmental Psychology 28, 164-173.

(D11_1-D11_5) VALUTAZIONE COGNITIVA... N = 379 (D12_1-D12_5) VALUTAZIONE EMOTIVA...

Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE Pensando ai prossimi 5 anni, ad un EVENTO ALLUVIONALE
con FRANE e smottamenti che coinvolga la zona in cui abita con FRANE e smottamenti che coinvolga la zona in cui abita
quanto è PROBABILE che... quanto è PREOCCUPATO/A che...
["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3] ["per nulla", "poco", "abbastanza", "molto"] [0,1,2,3]

 viabilità interrotta...  viabilità interrotta...


 servizi (luce, telefono, acqua, etc.) interrotti...  servizi (luce, telefono, acqua, etc.) interrotti...
 suoi beni ... danneggiati...  suoi beni ... danneggiati...
 sua abitazione principale danneggiata...  sua abitazione principale danneggiata...
 Lei, o persone care, subiscano danni fisici  Lei, o persone care, subiscano danni fisici
Variable N Mean Std Dev Sum Minimum Maximum

d11_1 379 1.45383 1.03630 551.00000 0 3.00000


Cronbach Coefficient Alpha
d11_2 379 1.81794 0.93497 689.00000 0 3.00000
d11_3 379 1.55673 1.02034 590.00000 0 3.00000
d11_4 379 1.81530 1.08021 688.00000 0 3.00000 Variables Alpha
d11_5
d12_1
379
379
2.04485
1.45910
1.03412
1.04162
775.00000
553.00000
0
0
3.00000
3.00000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
d12_2 379 2.08443 0.81536 790.00000 0 3.00000 Raw 0.771568
d12_3 379 1.33245 0.91158 505.00000 0 3.00000
d12_4 379 1.33773 0.93827 507.00000 0 3.00000 Standardized 0.775442
d12_5 379 1.48285 0.89773 562.00000 0 3.00000

Cronbach Coefficient Alpha with Deleted Variable

Raw Variables Standardized Variables

Deleted Correlation Correlation


Variable with Total Alpha with Total Alpha

?
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
d11_1 0.137704 0.792294 0.146843 0.792814
d11_2 0.532856 0.740070 0.529757 0.744839
d11_3 0.575723 0.732727 0.566770 0.739863
d11_4 0.677670 0.715834 0.670265 0.725619

?
d11_5 0.609470 0.727500 0.603324 0.734888
d12_1 -.046961 0.815073 -.047664 0.814855
d12_2 0.332153 0.764587 0.339227 0.769495
d12_3 0.551915 0.738056 0.557794 0.741075
d12_4 0.622569 0.728094 0.629054 0.731349
d12_5 0.499762 0.744861 0.503281 0.748361
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
K di Cohen Esempio

Misura di concordanza per varibili categoriali (ACCORDO FRA GIUDICI) -- (J. Cohen, 1960)

Due psicologi clinici sono chiamati ad esprimere (in modo indipendente) la diagnosi su 200 pazienti;
essi devono stabilire a quale fra le seguenti categorie appartiene ciascun paziente:
schizofrenico; nevrotico; danno cerebrale.
Frequenze Osservate Frequenze Attese (Indipendenza)

A(Giudice_1) B(Giudice_2) A(Giudice_1) B(Giudice_2)


Frequenza‚Schizof.‚Nevrot. ‚Danno C.‚ Totale Previsto ‚Schizof.‚Nevrot. ‚Danno C.‚ Totale
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Schizof. ‚ 50 ‚ 26 ‚ 24 ‚ 100 Schizof. ‚ 40 ‚ 30 ‚ 30 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Nevrot. ‚ 24 ‚ 4 ‚ 32 ‚ 60 Nevrot. ‚ 24 ‚ 18 ‚ 18 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Danno C. ‚ 6 ‚ 30 ‚ 4 ‚ 40 Danno C. ‚ 16 ‚ 12 ‚ 12 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 80 60 60 200 Totale 80 60 60 200

Misure di Associazione Proporzioni


STATISTICHE PER LA TABELLA DI A PER B A(Giudice_1) B(Giudice_2)
Statistica DF Valore Prob Percent ‚Schizof.‚Nevrot. ‚Danno C.‚ Totale
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Chi quadro 4 64.594 0.001 Schizof. ‚ 0.25 ‚ 0.13 ‚ 0.12 ‚ 0.50 ACCORDO
INFERIORE
Likelihood Ratio Chi-Square 4 63.372 0.001 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
(a quanto
Mantel-Haenszel Chi-Square 1 3.830 0.050 Nevrot. ‚ 0.12 ‚ 0.02 ‚ 0.16 ‚ 0.30 previsto dal)
Phi Coefficient 0.568 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ CASO
Contingency Coefficient 0.494 Danno C. ‚ 0.03 ‚ 0.15 ‚ 0.02 ‚ 0.20
Cramer's V 0.402 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
continua...
Sample Size = 200 Totale 0.40 0.30 0.30 1.00

I J I J
Po  0.25  0.02  0.02  0.29;
Po   pij ; Pc   pˆ ij ; ( per i  j )
Dove : Po  ACCORDO OSSERVATO (proporzioni)
Pc  ACCORDO ATTESO (proporzioni)
i 1 j 1 i  1 j 1 Pc  0.20  0.09  0.06  0.35
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità)
Tre assunti:
1) Le unità (nell'esempio i pazienti) sono indipendenti
K di Cohen 2) Le categorie rispettano i requisiti della logica classica
3) I giudici operano in modo indipendente

nell'esempio c'é associazione, ma – "a occhio" - si vede che non c'é accordo
CHI-QUADRO (e misure derivate) sono INADEGUATE

Il K-Cohen si limita a considerare la DIAGONALE PRINCIPALE e confronta l'accordo complessivo


osservato con l'accordo dovuto al caso, pesando tale differenza con l'accordo che i giudici possono
raggiungere al di là del caso

k può essere ottenuto considerando Po =ACCORDO OSSERVATO (proporzioni)  Fo (frequenze)


sia le proporzioni, sia le frequenze assolute Pc =ACCORDO ATTESO (proporzioni)  Fc (frequenze)

Po  Pc Fo  Fc
k k
1  Pc N  Fc

k = 0  l'accordo osservato fra i giudici COINCIDE con quello dovuto al caso;

k > 0  l'accordo osservato è maggiore di quello dovuto al caso (MAX = +1);

k < 0  !! DISACCORDO !! l'accordo osservato è minore di quello dovuto al caso; (MIN  -1)

(Con riferimento all'esempio...) Po  0.25  0.02  0.02  0.29; Pc  0.20  0.09  0.06  0.35

(Operando sulle proporzioni) (Operando sulle frequenze)

0.29  0.35 58  70
k  0.09 k  0.09
1  0.35 200  70 continua...
(attendibilità e validità
Teoria Classica dei Test (attendibilità validità) K di Cohen Ulteriore Esempio (ALTRI DATI)

Frequenze Osservate (Attese)


A(Giudice_1) B(Giudice_2)
Frequenza‚ Fo  88  40  12  140 ;
Previsto ‚Schizof.‚Nevrot. ‚Danno C.‚ Totale
Fc  60  18  4  82 ;
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Schizof. ‚ 88 ‚ 14 ‚ 18 ‚ 120 140  82 58
‚ (60) ‚ ‚ ‚ k   0.492
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
200  82 118
Nevrot. ‚ 10 ‚ 40 ‚ 10 ‚ 60
La misura K gode di proprietà asintotiche ed ha
‚ ‚ (18) ‚ ‚ una distribuzione campionaria Normale (z)
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Danno C. ‚ 2 ‚ 6 ‚ 12 ‚ 20
‚ ‚ ‚ (4) ‚
H0: k =0
(Ovvero: l'accordo osservato coincide con quello dovuto al caso)
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 100 60 40 200

k 0.492
 8.34 Pr .  0.001
L'errore standard della stima
per H0: k =0 si calcola: z 
k 0.059
Fc  Pc 
k  ;  k  
N N  Fc  
 N 1  Pc  

k 
82
 0.059 H0: RESPINTA
200200  82
La Teoria Classica dei Test (punteggi grezzi, standardizzati, norme
norme statistiche)

Per semplicità si immagini di aver realizzato un test composto da L item (S1, S2, etc.), tutti che
prevedono una risposta dicotomica (Vero/Falso; 1/0) e di averlo somministrato a N individui
(O_1, O_2, etc.) che hanno in comune la proprietà di essere studenti della stessa età di un'unica
struttura scolastica

Supponiamo anche di aver ottemperato con rigore a tutte le procedure inerenti la definizione
degli item e del test in generale

Supponiamo anche di aver attentamente valutato validità e attendibilità del test e di aver ottenuto
risultati ottimi

Supponiamo infine di aver trasformato i punteggi grezzi in tutti i modi che la T.C.T. (e la statistica)
ci mettono a disposizione (percentuali, ranghi, percentili, ranghi percentili, punti Z, T, "stanini", etc.)
(per es.) O_2 è più bravo di O_1?
PUNTEGGIO
S1 S2 S3 S... GREZZO
(per es.) la prestazione di O_4 è superiore
O_1 1 1 0 ... 5
a quella del 20% degli altri individui?
O_2 0 1 0 ... 10 SI (ovvero O_4 occupa il 20° rango percentile?)
O_3 1 1 0 ... 2

O_4 1 0 1 ... 7 (per es.) il punteggio di O_3 corrisponde ad un


O_.. ... ... ... ... ... punteggio standardizzato (Z) pari a -1?
(Ovvero la prestazione di O_3 si colloca al di sotto
Ora, a quali domande sappiamo rispondere? di quella media di 1 deviazione standard?)

(per es.) O_2 è il doppio più bravo di O_1?

NO (per es.) la distanza in bravura che separa


O_4 da O_3 (5 punti) è la setssa che separa O_2 da O_1?
La situazione diventa ulteriormente
imbarazzante se volessimo confrontare (per es.) la prestazione di O_4 (con un punteggio pari a 7)
i risultati a questo test con quelli è soddisfacente?
ottenuti, per es., da studenti della
stessa età appartenenti ad un'altra struttura scolastica, sottoposti ad un test non
perfettamente identico (con qualche item diverso)...
La Teoria Classica dei Test (punteggi grezzi, standardizzati, norme
norme statistiche)
per interpretare
Le difficoltà: (come "misure")
• possiamo effettuare SOLO valutazioni di tipo ORDINALE i punteggi (grezzi
• manca un'UNITÁ DI MISURA che permetta di interpretare i punteggi o variamente trasformati)
la T.C.T. richiede di...
• mancano informazioni sulla difficoltà (relativa) di item e test

porre i punteggi ottenuti ad un test in relazione con delle NORME


NORME STATISTICHE ottenibili tramite la somministrazione del test ad un
CAMPIONE DI STANDARDIZZAZIONE o CAMPIONE NORMATIVO
NORME STATISTICHE

CAMPIONE
TEST DATI
NORMATIVO

PUNTEGGI
GRUPPO
(appartenente alla
stessa popolazione DATI INTERPRETAZIONE
del campione normativo)

! ULTERIORI DIFFICOLTÁ ("ORGANIZZATIVE")! I modelli proposti da Georg Rasch


stesso IDENTICO test e la Item Response Theory (I.R.T)
 stesse modalità di somministrazione sono UNA risposta a queste
 stessa POPOLAZIONE di riferimento ulteriori difficoltà...
 NORME AGGIORNATE
 COSTI
Cenni introduttivi alla Item Response Theory
MISURARE

COSTRUENDO Rilevare lo stato di oggetti su una proprietà; UTILIZZANDO UNO


UNO STRUMENTO STRUMENTO (di misura)
(di misura) GIA’ PREDISPOSTO
Confrontare gli oggetti tramite elementari operazioni aritmetiche

E’ un’operazione di interpretazione delle E’ una delle modalità di rilevazione


osservazioni (analisi dati); delle osservazioni (raccolta dati);
Riguarda l’interazione fra Riguarda l’interazione Modello fra
oggetto/i e agente/i; VARIABILI
oggetto/i e strumento; VARIABILI
Implica una rappresentazione analogica MANIFESTE LATENTI
Implica l’applicazione corretta delle
delle osservazioni (modellizzazione); norme di utilizzo dello strumento;
Consente di trasformare osservazioni E’ un’operazione descrittiva di
qualitative in quantità OSSERVAZIONI
selezione e riporto
QUALITATIVE MISURE
(attribuzione ad una classe di equivalenza);

<<L’idea che le osservazioni scientifiche siano originariamente


quantitative è un’illusione prodotta dalla familirità con i modelli
di misurazione su cui è fondato il successo delle scienze naturali.
Anche in fisica, le osservazioni iniziali sono qualitative. E’ il
modello di misurazione applicato alle osservazioni che fornisce
e garantisce la quantificazione>>
(Douglas G.A., Wright B.D., 1986, p. 3)
 Ogni processo di misurazione coinvolge sempre tre classi di entità: (escludendo...) RILEVATORE

con riferimento a una


caratteristica, proprietà’,
OGGETTO UNITA’ D’ANALISI
attributo, tratto, DIMENSIONE
INDIVIDUI

STIMOLI
AGENTE ITEM elicitano la risposta; sono pertanto
QUANTITATIVO
DOMANDE reattivi, reagenti, RIVELATORI
QUALITATIVO MODELLO LATENTE
MANIFESTO MISURA

INTERAZIONI sono “fatti” osservabili e registrabili


RISPOSTA
OSSERVAZIONI di tipo CATEGORIALE (al più ordinale)

 Quando lo strumento di misura è REALIZZATO “prevale” l’interazione... rilevatore oggetto

 Quando lo strumento di misura è DA REALIZZARE “prevale” l’interazione... rivelatore oggetto

INSIEME DI DOMANDE (STIMOLI) CAPACE


INSIEME DI DOMANDE
DI FAR EMERGERE (STIMOLI)
RISPOSTE CAPACE
VALUTABILI
DIEFAR EMERGERE RISPOSTE VALUTABILI TEST
INTERPRETABILI QUANTITATIVAMENTE
E SULLA
INTERPRETABILI QUANTITATIVAMENTE
BASE DI CRITERI SPECIFICI
SULLA BASE DI CRITERI SPECIFICI

RAPPRESENTARE ANALOGICAMENTE L’INTERAZIONE

 IL MODELLO DEVE
GARANTIRE LA CONFRONTABILITA’ DEI PUNTEGGI

Cenni introduttivi alla Item Response Theory


Rappresentazione analogica delle osservazioni

Una persona in possesso di T.C.T.


una maggiore abilità,
errore
QUANTITATIVO dovrebbe rispondere
su test
QUALITATIVO MODELLO LATENTE correttamente ad un
MANIFESTO MISURA
maggior numero di
domande
ad esempio...

Se assumo: Scalogramma
Una persona capace di GUTTMAN
LE DOMANDE rispondere correttamente ad errore
HANNO UGUALE una domanda più difficile di ???
DIFFICOLTA' un’altra, risponderà altrettanto
correttamente a tutte le
domande più facili di quella

Se assumo:
LE DOMANDE
HANNO DIFFERENTI
DIFFICOLTA'
I.R.T.
errore
su risposta

Una persona capace di rispondere


correttamente ad una domanda più difficile di
un’altra dovrebbe avere una maggiore
probabilità di rispondere altrettanto
correttamente a tutte le domande più facili di
quella

Cenni introduttivi alla Item Response Theory


Cenni introduttivi alla Item Response Theory

Garantire la confrontabilità
NON
CONFRONTABILTA’

QUANTITATIVO
QUALITATIVO MODELLO LATENTE (Domande di difficoltà crescente...; 1= risposta corretta; 0 = risposta sbagliata)
MANIFESTO MISURA

D1 D2 D3 PUNTEGGIO

TEST “A” (punteggi uguali) 2+2=? 5*9=? 10/2=?


ROSSI 1 1 0 2
ROSSI =???≠ BIANCHI BIANCHI 1 0 1 2

Ogni confronto (nello stesso test) è privo di fondamento

TEST “B” (punteggi diversi) D1 D2 D3 PUNTEGGIO


2+2=? 7/8=? 2+7*8=?
VERDI > NERI
VERDI 1 1 0 2
NERI 1 0 0 1
Ma quanto???
Ogni confronto (fra test diversi) è privo di fondamento

TEST “A” ≠ TEST “B”

E BIANCHI ???=??? VERDI


INOLTRE...

ROSSI ???>??? NERI


Garantire la confrontabilità
Cenni introduttivi alla Item Response Theory

MODELLO CONFRONTABILITA'

T.C.T. I.R.T.

 CAMPIONE NORMATIVO  OGGETTIVITA' SPECIFICA


 DOMANDE "PARALLELE"  DIFFICOLTA' (domande)  ABILITA' (individui)
 STANDARDIZZAZIONE (dist. Normale)  UNITA' DI MISURA (logit)
 CONFRONTI ORDINALI (percentili)  CONFRONTI (cardinali: "intervalli equivalenti")

PUNTEGGIO
PUNTEGGIO S1 S2 S3 S.... (riga)
S1 S2 S3 S.... (riga) O_1 1 1 0 ... 5
O_1 1 1 0 ... 5 O_2 0 1 0 ... 10
O_2 0 1 0 ... 10 O_3 1 1 0 ... 2
O_3 1 1 0 ... 2 O_4 1 0 1 ... 7
O_4 1 0 1 ... 7 O_.. ... ... ... ... ...
O_.. ... ... ... ... ... PUNTEGGIO 25 10 18 ...
colonna
CAMPIONE
NORMATIVO

DIFFICOLTA'
S_2 S_3 S_1 DOMANDE

z
ABILITA' ABILITA'
INDIVIDUI O_1 O_2 O_3 INDIVIDUI
O_2 O_1 O_3
Cenni introduttivi alla Item Response Theory
<<Maxwell’s very detailed analysis
<<L’analisi molto dettagliata, condotta
[of the concepts of mass and force] ...
da Maxwell sui concetti di massa e forza,
has greatly fascinated me on finding
mi ha molto affascinato dato che lo stesso
that the same sort of argument should
tipo di argomenti può essere applicato in
be applicable elsewhere, in particular
altri contesti, in particolare nei problemi
in problems of measurement in
di misurazione in psicologia.>>
psychology.>> (G. Rasch, 1960, p. 111)

(Pag. 112 e seguenti) <<... Ora si immagini la seguente condizione sperimentale cui prendono parte due gruppi di elementi. Un
gruppo è formato da un ampio numero di oggetti: O1, O2, ...,On che definiamo come “corpi solidi” (non vogliamo finire
nell’idrodinamica o nella teoria dei gas) e che possono avere dimensioni molto diverse ed essere costituiti da diversi materiali.
L’altro gruppo: I1, I2, ..., Ik può essere definito come “strumenti” dato che ciascuno di essi può esercitare una influenza meccanica
(vogliamo evitare l’elettromagnetismo) su ogni oggetto del primo gruppo. [...] Se ogni strumento Ij viene applicato a ciascun
oggetto O , un insieme di valori numerici (rapporti di) accelerazione può essere osservato e riportato in una tabella come quella
seguente:
strumenti
j I1 I2 ... Ij ... Ik
 [...] Complessivamente il dato di fatto empirico può essere riassunto nella seguente
O1 A11 A12 ... A1j ... A1k affermazione che, per il nostro scopo attuale, possiamo indicare come la
legge moltiplicativa dell’accelerazione (in corsivo nel testo):
O2 A21 A22 ... A2j ... A2k l’accelerazione Aj ricevuta dall’oggetto solido O sotto l’influenza meccanica dello
oggetti strumento Ij è il prodotto di due fattori, uno relativo all’oggetto, uno allo strumento.
O A1 A2 ... Aj ... Ak
Indicando i due fattori con 1/M e Fj la precedente affermazione può venire espressa
On An1 An2 ... Anj ... Ank tramite la formula:

Fj
A j 
M

e potremo chiamare M la massa dell’oggetto O e Fj la forza dello strumento Ij.


Si vede bene, pertanto, che M e Fj sono soltanto parametri di una formalizzazione
matematica della legge generale cui, come ben sappiamo, le accelerazioni obbediscono.>>
(mie le sottolineature)
Cenni introduttivi alla Item Response Theory

S1 S2 S3 S....
O_1 1 1 0 ... DIFFICOLTA'
S_2 S_3 S_1 DOMANDE
O_2 0 1 0 ...
O_3
O_4
O_..
1
1
...
1
0
...
0
1
...
...
...
...
? O_1 O_2 O_3
ABILITA'
INDIVIDUI

<<Una persona in possesso di una maggiore abilità rispetto a un'altra dovrebbe avere
una maggiore probabilità di rispondere correttamente a ogni domanda di quel tipo, e
analogamente, se una domanda è più difficile di un'altra ciò significa che per ogni
persona la probabilità di rispondere correttamente alla seconda domanda è
maggiore>> (G. Rasch, 1960)

I parametri forza e massa (Fj e M) ABILITA’ e DIFFICOLTA’ (n e s )

L’accelerazione (Aj) PROBABILITA’ (p. es.: di rispondere correttamente) P(xns=1)

Quale formulazione matematica consente di:


? - modellizzare una probabilità;

- ottenere i parametri; ?
- garantire il principo di misurazione fondamentale (oggettività specifica)
Cenni introduttivi alla Item Response Theory

misurazione fondamentale
concatenazione (fisica) di oggetti nuovo oggetto
(oggettività specifica)

Per esempio...
oggetti: A, B; proprietà (carattere): PESO;
OGGETTO A || OGGETTO B == OGGETTO AB
osservo A > B e posso chiedere:
PESO A + PESO B == PESO AB
<<Quanto peso deve essere aggiunto a B affinchè i due oggetti siano uguali
(rispetto alla proprietà “peso”) ? >>

Anche quando la proprietà non ottempera empiricamente al requisito


TEMPER. A + TEMPER. B  TEMPER. AB
di concatenazione (p.es: temperatura) si può giungere ad una misura:

Molte proprietà (abilità, intelligenza, atteggiamenti,…) non ottemperano R. Duncan Luce, J.W. Tukey, 1964
(nel sistema fisico di riferimento) al requisito della concatenazione;
ma, analogamente alla temperatura, possono essere misurate D.H. Krantz, R. Duncan Luce, P. Suppes, A. Tversky, 1971

Disponendo di due tipi di entità (Oggetto e Agente) e di una risposta frutto


dell’interazione fra O e A è possibile (tramite un’opportuna trasformazione) G. Rasch, 1960
giungere ad una rappresentazione additiva dei dati (risposte), anche in C.H. Coombs, R. M. Dawes, A. Tversky, 1970
assenza di un’operazione empirica di concatenazione B. D. Wright, M. H. Stone, 1979
B.D. Wright, G.N. Masters, 1982
D. Andrich, 1988
G. H. Fischer, I. W. Molenaar, 1995

MODELLI ADDITIVI DI MISURAZIONE CONGIUNTA

? Quale trasformazione (funzione) ?


Cenni introduttivi alla Item Response Theory

misurazione fondamentale
(oggettività specifica) Quale trasformazione (funzione) ?
A
Oggetto/i (O)
I = f(O,A)
confronto
interazione (I)
I1=f(O1,A) e I2=f(O2,A)
fra due entità g(I1,I2) = g [f(O1,A),f(O2,A)]
Agente/i (A) g(I1,I2) = g [f(O1,A),f(O2,A)] = v(O1,O2) A
Affinché il confronto O1,O2 sia oggettivo è necessario ottenere la funzione v

Analogamente per quanto riguarda il confronto fra Agenti: g(I1,I2) = g [f(O,A1),f(O,A2)] = w(A1,A2) O O

NOTAZIONE
O ==> oggetti ---------- individui ==>  (abilità)
A ==> agenti ---------- domande ==>  (difficoltà)
I ==> interazioni ----- risposte ==> x (giusto/sbagliato; 1/0)

Alla domanda ...


... definendo una opportuna
<<se l’individuo O1 ha maggiore abilità La risposta di Rasch... trasformazione (v) di (g) che
dell’individuo O2, quanta “abilità” deve essere
rende indipendente (oggettivo)
aggiunta a O2 affinché la prestazione di O2 sia Operando con riferimento gli individui...
il confronto tra 1 e 2
(appaia) uguale alla prestazione di O1?>>

g(I1,I2) = g [f(O1,A),f(O2,A)] = v(O1,O2)

g P  x1 , P  x 2   g P  1 ,  , P  2 ,    v P  1 , P  2 

Si può dimostrare che ...


misurazione fondamentale
(oggettività specifica) Quale trasformazione (funzione) ?
una tale funzione (v) ESISTE;

 fornisce una formulazione algebrica (modello)


i cui parametri ( e ) esprimono rispettivamente
l’abilità (degli individui) e la difficoltà (degli item);

 è possibile giungere a stime asintoticamente tale funzione può essere espressa come...
corrette ed efficienti di tali parametri;

 tali stime consentono di confrontare l’ABILITA’ degli


INDIVIDUI, in modo INDIPENDENTE dalle domande
usate per elicitarla (item free);

exp n   s 
INVARIANZA
 simmetricamente consentono di confrontare la
Pxn ,s 1| ,  
1  exp n   s 
DIFFICOLTA’ delle DOMANDE, in modo INDIPENDENTE
dagli individui cui sono state sottoposte (sample free)

P(xn,s=1)
1

Dimostrazioni...

0.5 SALTANDO LE
DIMOSTRAZIONI...

0 (n - s )
exp n   s  Cenni introduttivi alla Item Response Theory
Pxn ,s 1| ,  
1  exp n   s  Traccia di tre item (1=-1.0; 2=0.0; 3=+1.0)
Traccia di un item (1=0.0)
P(xn,s=1) P(xn,s=1)
1 1

0.85

0.68
0.5

0.50
0.44
0
(n - s ) 0.27
0.12
un individuo più abile ha una probabilità maggiore,
rispetto ad un individuo meno abile, di superare 0 (n - s )
ciascun item;
ogni individuo ha una probabilità maggiore di
superare un item facile rispetto ad un item più
difficile

 n  1.0  n  1.0  n  1.0  n  0.65  n  0.65  n  0.65


IL MODELLO ESPRIME...
 s  1.0  s  0.0  s  1.0  s  1.00  s  0.00  s  1.00

(A) (B) (C)


il rapporto di probabilità il logaritmo del rapporto di probabilità la probabilità di rispondere con successo
(successo/insuccesso) come (successo/insuccesso) come come
RAPPORTO DIFFERENZA FUNZIONE LOGISTICA
fra l’abilità e la difficoltà (fra i logaritmi) dell’abilità e della difficoltà (dei logaritmi) dell’abilità e della difficoltà

Pn , s bn  Pn , s  exp  n   s 
 log    n  Pn , s 
1  Pn , s ds  1  Pn , s


s
1  exp  n   s 
xn,s = 1 oppure 0 Cenni introduttivi alla Congruenza
Item Response Theory DATI  MODELLO
D_1 D_2 ... D_K D_1 D_2 ... D_K
I_1 x1,1 x1,2 ... x1,K
exp n   s  I_1 P̂1,1 P̂1, 2 ... Pˆ1, K
Pxn ,s 1| ,  
1  exp n   s  Pˆ2, K
I_2 x2,1 x2,2 ... x2,K I_2 P̂2,1 P̂2, 2 ...

I_3 x3,1 x3,2 ... x3,K

Pˆxn ,s 1 

exp ˆn  ˆs  I_3 P̂3,1 P̂3, 2 ... Pˆ3, K

 
.... ... ... ... ... STIME .... ... ... ... ...
I_H xH,1 xH,2 ... xH,K 1  exp ˆn  ˆs I_H PˆH ,1 PˆH , 2 ... PˆH , K

Le misure a cui si è giunti sono compatibili Individui e


CONTROLLO ASSUNTI con le aspettative teoriche del processo che domande si
MODELLIZZAZIONE si assume abbia prodotto i dati osservati? comportano
secondo le attese
del modello?
La matrice dati osservata possiede le
CONTROLLO ASSUNTI FORMALI caratteristiche minime necessarie per
MISURAZIONE giungere a delle misure?

dello scarto fra ciò che è stato osservato


Per ogni risposta (xn,s) e ciò che viene riprodotto ens  xns  Pˆns

 
è possibile ottenere una stima ...
della varianza delle risposte riprodotte
wns  Pˆns  1  Pˆns
... e può essere ottenuto
... così da ottenere una prima e immediata indicazione sulla capacità del processo di
l’errore standard
misurazione messo in atto di rappresentare efficacemente il tratto latente considerato
per ogni misura stimata...

1 1 ITEM1 ITEM2
  2   2
 1   1 
SE  n    K  SE  s    H   
SE ˆ1 ITEM1 ITEM2  
SE ˆ2
 w   w 
  ns 
   ns  ?

s 1 n 1
 
SE ˆ1  
SE ˆ2
xn,s = 1 oppure 0 Cenni introduttivi alla Congruenza
Item Response Theory DATI  MODELLO
D_1 D_2 ... D_K D_1 D_2 ... D_K
I_1 x1,1 x1,2 ... x1,K
exp n   s  I_1 P̂1,1 P̂1, 2 ... Pˆ1, K
Pxn ,s 1| ,  
1  exp n   s  Pˆ2, K
I_2 x2,1 x2,2 ... x2,K I_2 P̂2,1 P̂2, 2 ...

I_3 x3,1 x3,2 ... x3,K

Pˆxn ,s 1 

exp ˆn  ˆs  I_3 P̂3,1 P̂3, 2 ... Pˆ3, K

 
.... ... ... ... ... STIME .... ... ... ... ...
I_H xH,1 xH,2 ... xH,K 1  exp ˆn  ˆs I_H PˆH ,1 PˆH , 2 ... PˆH , K
Individui e domande si
La matrice dati osservata possiede le comportano secondo le
CONTROLLO ASSUNTI FORMALI caratteristiche minime necessarie per attese del modello?
MISURAZIONE giungere a delle misure?

M e L indicano qui livelli (SCORE) rispettivamente di riga e di colonna


M L  p 
 g ns  gˆ ns  g ns  log ns 
2
 1  p ns 
DISTORSIONE o STRESS [0  S  1] (S = 0  assenza distorsione) S n 1 s 1
M L dove:
 g   pˆ 
2
ns gˆ ns  log ns 
n 1 s 1  1  pˆ ns 

DOPPIA MONOTONICITA’ [0  W  1] (Wr=Wc = 1  soddisfatta) [W  Coefficiente di concordanza di Kendall, 1995]

Soddisfatta se le righe e le colonne della generica matrice AML possono essere permutate in modo tale che i suoi elementi crescano monotonicamente da sinistra a destra
e dall'alto al basso. In modo tale da generare la matrice A’ML il cui generico elemento p gode delle seguenti proprietà:

pij  pik (per : 1  i  M per : 1  j  k  L) e pht  p ft (per : 1  h  f  M per : 1  t  L)

DOPPIA CANCELLAZIONE (DC  0  soddisfatta) [DC = B / (T – C)]

Soddisfatta se la generica matrice AML esprime le seguenti relazioni:


per tutti : i, j , k , h, f , t con : 1  i, j , k  M e : 1  h, f , t  L e da classificare (“SI”/”NO” = rispetto diseguaglianze):
Sottomatrici  M   L M! L! (A) SODDISFATTA: “SI” in (I) e “SI” in (II);
T        
SE pif    p jt e p jh    pkf direzione (I) quadrate
    3!M  3! 3!L  3! (B) VIOLATA: “SI” in (I), “NO” in (II);
3 3
di ordine 3 (C) NON CONTROLLABILE: “NO” in (I)
ALLORA pih    pkt direzione (II) da eseminare:
xn,s = 1 oppure 0 Cenni introduttivi alla Congruenza
Item Response Theory DATI  MODELLO D_1 D_2 ... D_K
D_1 D_2 ... D_K
I_1 P̂1,1 P̂1, 2 ... Pˆ1, K
I_1 x1,1 x1,2 ... x1,K
exp n   s  Pˆ2, K
Pxn ,s 1| ,   I_2 P̂2,1 P̂2, 2 ...
I_2 x2,1 x2,2 ... x2,K
1  exp n   s  I_3 P̂3,1 ... Pˆ3, K
 
I_3 x3,1 x3,2 ... x3,K
P̂3, 2
exp ˆn  ˆs .... ... ... ... ...
Pˆxn ,s 1 
 
.... ... ... ... ... STIME
I_H xH,1 xH,2 ... xH,K 1  exp ˆn  ˆs I_H PˆH ,1 PˆH , 2 ... PˆH , K
Individui e
Le misure a cui si è giunti sono compatibili domande si
CONTROLLO ASSUNTI con le aspettative teoriche del processo che comportano
MODELLIZZAZIONE secondo le attese
si assume abbia prodotto i dati osservati? del modello?

1 1

 
 2  2
ens  x ns  Pˆns w ns  Pˆns  1  Pˆns 
SE  n    K
1 


SE  s    H
1 

   
  
w w
 s 1
ns
 n 1
ns


Residui
standardizzati

zns 
x ns  Pˆns 
1
Medie quadratiche non ponderate (OUTFIT) w ns2 Medie quadratiche ponderate (INFIT)

(individui) (item) (individui) (item)


H individui (1 ≤ n ≤ H)
 w ns  zns   w 
K K H
1 1 H 2
z U s   zns  zns
2 2
Un  2
ns K item (1 ≤ s ≤ K)
ns
K s 1 H n 1 Vn  s 1
K Vs  n 1
H

 w ns 
s 1
 w  ns
n 1
Individui e
Congruenza domande si Cenni introduttivi alla Item Response Theory
DATI  MODELLO comportano
secondo le attese
del modello?

H individui (1 ≤ n ≤ H) K item (1 ≤ s ≤ K) Qui con riferimento agli ITEM (e specularmente per gli INDIVIDUI)...

 ˆ   
2 1
Varianza 1 K
 

1 K

 S 
H
delle Stime
SD 
2
s
Errore
S s    wns 
2 Varianza del
MSE 
2 2
K Standard Errore Standard s
s 1
 n 1  K s 1

Varianza Corretta
SA2  SD2  MSE2 Radice Quadrata della
(delle Stime)
Varianza dell'Er.Std. RMSE   MSE2

Indice di SA2 Numero 4  G  1


Separazione G  Strati H 
RMSE  3

SA2 MSE2 G2


Attendibilità R   1 
SD2 SD2 1  G2
(esempio di stima )
Cenni introduttivi alla Item Response Theory
 Software: WINSTEPS Version 3.68.2
Esempio di stima: modello di Rasch (base)  matrice dati: D2XTH02M (98x30) 2 Cat. di risposta
 (I dati sono ottenuti tramite SIMULAZIONE)
Codice
RISPOSTE Istruzioni (Winsteps)
IDENTificativo
(nell'ordine: da sinistra a destra, elenco
(98 individui) &INST
CODICE IDENTIFICATIVO di ciascuna DOMANDA
XFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\XFILE.RWF
PFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\PFILE.RWF
S4M07_00000000000000000000000000001100 IFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\IFILE.RWF
S4M07_04000000000000000000001000010000 D4P50_00 ISFILE=F:\WT\WTPROVA\D2XTH02M\RASCH_R\SFILE.RWF
D5P39_00 CSV=N
S4M07_05000000000000000000000000011000
D4P50_01 HLINES=N
S2M85_03000000000000000000000100001000 PRCOMP=S
S4M07_02000000000000000000001000000101 D5P39_01
DISCRIM=YES
D2P82_00
S4M07_03000000000000000001000000000011 OUTFIT=Y
D2P82_01
S2M99_07000000000000000000000000001101 TITLE='MATRICE: D2XTH02M 98X30'
D2P02_01 NI=30
S0M57_01000000000000010111111111111111 D2P02_00 XWIDE=2
S0M57_06000000000010110101011111111111 D1P56_01 CODES=" 0 1"
S0P48_01000000000001001110111111111111 D1P56_00 CLFILE=*
S0P48_08000000000001101110111111111111 D0P53_01 0_FALSO
S0P48_06000000001000001111111111111111 D0P53_00 1_VERO
S0P48_04000000000000111111101111111111 D0M06_00 *
D0M06_01 ITEM=ITEM
S2P78_03000100101011111111111111111111
D0M52_00 ITEM1=9
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: NAME1=1
::::::::::::::::::::::::::::::::::::::::::::::::::: D0M91_00
PERSON=USER
D0M52_01
S2P78_01000000011111111111111111111111 NAMLEN=8
D0M91_01
S3P16_05011000001111111111111111111111 D1M79_01
MODELS=R
S3P16_02000011011111011111111111111111 GROUPS=
D1M53_01 STKEEP=Y
S3P16_01000001011111111111111111111111 D1M53_00 CURVES=111
S2P78_09000010111111110111111111111111 D2M34_00 DATA=F:\WT\WTPROVA\D2XTH02M\RASCH_R\D2XTH02M.DAT
S2P78_06000001011111111111111111111111 D1M79_00 &END
S2P78_05000011111011011111111111111111 D2M34_01 D4P50_00
S2P78_04000000111111111111111111111111 D3M04_01 D5P39_00
D3M19_00 D4P50_01
S3P16_08010010101111111111111111111111
D3M04_00 D5P39_01
S3P16_03000011011111111111111111111111 ::::::::::::::::::: (elenco domande prosegue) ::::::::
S4P54_07000101111111111111111111111111 D3M19_01
D3M46_01
D3M46_01
S4P54_05010101110111111111111111111111 D3M46_00
D3M46_00
S4P54_01000011111111111111111111111111 END NAMES
S4P54_02001111111111111111111111111111 &END
S4P54_03101111111111111111111111111111
Cenni introduttivi alla
Item Response Theory REAL e MODEL sono due modi di
OUTPUT TABLES  (3.1) Summary Statistics
calcolare le stesse statistiche:
possono essere considerati come
TABLE 3.1 MATRICE: D2XTH02M 98X30 "limiti di confidenza"
INPUT: 98 USERS 30 ITEMS MEASURED: 98 USERS 30 ITEMS 2 CATS WINSTEPS 3.68.2
-------------------------------------------------------------------------------- REAL=> Inferiore ("peggiore";
MODEL => Superiore ("migliore")
SUMMARY OF 98 MEASURED USERS
-------------------------------------------------------------------------------
Radice Quadrata della
| RAW MODEL INFIT OUTFIT | 1 Varianza dell'Er.Std.
| SCORE COUNT MEASURE ERROR MNSQ ZSTD MNSQ ZSTD |
|-----------------------------------------------------------------------------|
| MEAN 14.9 30.0 -.08 .67 .98 -.1 .85 .1 | Radice Quadrata della
| S.D. 8.5 .0 3.23 .11 .38 1.0 1.26 .8 | 2 Varianza Corretta
| MAX. 29.0 30.0 6.95 1.13 2.63 2.9 9.90 4.8 | (delle Stime)
| MIN. 2.0 30.0 -4.93 .54 .33 -2.1 .09 -.8 |
1 2 3 4
|-----------------------------------------------------------------------------| ADJ.SD  SA2
| REAL RMSE .72 ADJ.SD 3.15 SEPARATION 4.35 USER RELIABILITY .95 |
|MODEL RMSE .68 ADJ.SD 3.16 SEPARATION 4.65 USER RELIABILITY .96 | Indice di
| S.E. OF USER MEAN = .33 | 3 Separazione
-------------------------------------------------------------------------------
USER RAW SCORE-TO-MEASURE CORRELATION = .99
4 Attendibilità
CRONBACH ALPHA (KR-20) USER RAW SCORE RELIABILITY = .95

ATTENDIBILITÁ; può essere letta


SUMMARY OF 30 MEASURED ITEMS
anche come "coerenza interna" (
-------------------------------------------------------------------------------
di Cronbach) o come attendibilità
| RAW MODEL INFIT OUTFIT |
secondo la formula (Kuder-
| SCORE COUNT MEASURE ERROR MNSQ ZSTD MNSQ ZSTD |
Richardson)
|-----------------------------------------------------------------------------|
KR-20, quando le risposte sono
| MEAN 48.7 98.0 .00 .37 .99 -.1 1.00 -.1 |
dicotomiche
| S.D. 25.3 .0 3.14 .06 .21 1.1 1.44 1.1 |
| MAX. 85.0 98.0 6.24 .58 1.46 2.2 8.18 4.3 |
| MIN. 4.0 98.0 -4.35 .33 .44 -3.4 .21 -1.6 | LOG-LIKELIHOOD CHI-SQUARE
|-----------------------------------------------------------------------------|
| REAL RMSE .39 ADJ.SD 3.12 SEPARATION 8.07 ITEM RELIABILITY .98 | è l'unica statistica di adattamento
|MODEL RMSE .37 ADJ.SD 3.12 SEPARATION 8.37 ITEM RELIABILITY .99 | globale riportata.
| S.E. OF ITEM MEAN = .58 | Sostanzialmente è riconducibile
------------------------------------------------------------------------------- alla statistica G2
UMEAN=.000 USCALE=1.000 (Bishop, Fienberg, Holland, 1975)
ITEM RAW SCORE-TO-MEASURE CORRELATION = -1.00
2940 DATA POINTS. LOG-LIKELIHOOD CHI-SQUARE: 1484.93 with 2813 d.f. p=1.0000
Cenni introduttivi alla
Item Response Theory OUTPUT TABLES  (13.1) ITEM Statistics

TABLE 13.1 MATRICE: D2XTH02M 98X30


INPUT: 98 USERS 30 ITEMS MEASURED: 98 USERS 30 ITEMS 2 CATS WINSTEPS 3.68.2
--------------------------------------------------------------------------------
ITEM STATISTICS: MEASURE ORDER
----------------------------------------------------------------------------------------------------
|ENTRY TOTAL MODEL| INFIT | OUTFIT |PT-MEASURE |EXACT MATCH|ESTIM| |
|NUMBER SCORE COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD|CORR. EXP.| OBS% EXP%|DISCR| ITEM |
|------------------------------------+----------+----------+-----------+-----------+-----+---------|
| 1 4 98 6.24 .58| .99 .1| .45 -.7| .32 .32| 96.9 96.2| .98| D4P50_00|
| 2 5 98 5.92 .54|1.38 1.1| .40 -.8| .31 .36| 92.9 95.3| .80| D5P39_00|
| 3 7 98 5.41 .48|1.02 .2| .46 -.7| .40 .41| 94.9 93.7| .95| D4P50_01|
| 4 9 98 4.99 .44| .70 -1.3| .23 -1.4| .51 .46| 95.9 92.5| 1.30| D5P39_01|
| 5 15 98 3.99 .38|1.14 .7| .56 -.5| .55 .57| 86.7 90.4| .89| D2P82_00|
| 6 22 98 3.03 .36| .76 -1.3| .33 -.9| .69 .65| 90.8 88.5| 1.28| D2P82_01|
| 7 22 98 3.03 .36| .92 -.3| .37 -.8| .68 .65| 86.7 88.5| 1.16| D2P02_01|
| 8 28 98 2.29 .35| .85 -.7| .38 -.8| .74 .71| 88.8 88.3| 1.20| D2P02_00|
| 9 33 98 1.69 .34| .97 -.1| .60 -.4| .75 .74| 87.8 88.1| 1.05| D1P56_01|
| 10 33 98 1.69 .34| .94 -.2|8.18 4.3| .72 .74| 89.8 88.1| .89| D1P56_00|
| 11 40 98 .87 .34|1.12 .7| .67 -.2| .76 .77| 84.7 87.4| .94| D0P53_01|
| 12 44 98 .41 .34|1.05 .3|1.09 .4| .76 .78| 88.8 87.7| .92| D0P53_00|
| 13 44 98 .41 .34|1.46 2.2|2.75 2.0| .68 .78| 82.7 87.7| .43| D0M06_00|
| 14 49 98 -.17 .34| .89 -.5| .79 -.1| .79 .78| 89.8 88.1| 1.08| D0M06_01|
| 15 50 98 -.29 .34|1.04 .3| .94 .1| .77 .78| 86.7 88.2| .96| D0M52_00|
| 16 57 98 -1.10 .34| .44 -3.4| .21 -1.6| .84 .76| 96.9 88.1| 1.48| D0M91_00|
| 17 58 98 -1.22 .34|1.21 1.0| .71 -.2| .74 .76| 81.6 88.1| .89| D0M52_01|
| 18 58 98 -1.22 .34|1.01 .1|1.50 .9| .74 .76| 89.8 88.1| .90| D0M91_01|
| 19 62 98 -1.68 .34| .91 -.4| .59 -.5| .75 .73| 91.8 87.9| 1.10| D1M79_01|
| 20 65 98 -2.02 .34| .91 -.4| .92 .1| .72 .71| 89.8 87.5| 1.06| D1M53_01|
| 21 67 98 -2.24 .33|1.15 .8| .91 .1| .67 .70| 83.7 87.1| .85| D1M53_00|
| 22 68 98 -2.35 .33|1.01 .1| .67 -.3| .69 .69| 88.8 86.9| 1.00| D2M34_00|
| 23 68 98 -2.35 .33| .63 -2.4| .30 -1.1| .75 .69| 92.9 86.9| 1.42| D1M79_00|
| 24 70 98 -2.57 .33| .88 -.7| .40 -.8| .70 .67| 87.8 86.5| 1.20| D2M34_01|
| 25 72 98 -2.80 .33| .82 -1.1| .36 -.9| .69 .65| 87.8 86.4| 1.28| D3M04_01|
| 26 79 98 -3.59 .34|1.33 1.8| .71 -.2| .52 .57| 82.7 87.4| .64| D3M19_00|
| 27 81 98 -3.83 .35|1.11 .7|1.75 1.1| .50 .54| 86.7 88.1| .77| D3M04_00|
| 28 82 98 -3.96 .35|1.03 .3|1.66 1.0| .49 .52| 89.8 88.4| .77| D3M19_01|
| 29 84 98 -4.22 .36| .98 -.1| .38 -.9| .50 .49| 87.8 89.1| 1.10| D3M46_01|
| 30 85 98 -4.35 .37| .94 -.3| .83 .0| .47 .47| 90.8 89.3| 1.01| D3M46_00|
|------------------------------------+----------+----------+-----------+-----------+-----+---------|
| MEAN 48.7 98.0 .00 .37| .99 -.1|1.00 -.1| | 89.1 88.8| | |
| S.D. 25.3 .0 3.14 .06| .21 1.1|1.44 1.1| | 3.9 2.4| | |
----------------------------------------------------------------------------------------------------
Cenni introduttivi alla
Item Response Theory OUTPUT TABLES  (6.1) USER Statistics
(... Output qui ulteriormente ridotto rispetto al default del software)

TABLE 6.1 MATRICE: D2XTH02M 98X30


INPUT: 98 USERS 30 ITEMS MEASURED: 98 USERS 30 ITEMS 2 CATS WINSTEPS 3.68.2
--------------------------------------------------------------------------------
USER STATISTICS: MISFIT ORDER
----------------------------------------------------------------------------------------------
|ENTRY TOTAL MODEL| INFIT | OUTFIT |PT-MEASURE |EXACT MATCH| |
|NUMBER SCORE COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD|CORR. EXP.| OBS% EXP%| USER |
|------------------------------------+----------+----------+-----------+-----------+---------|
| 5 2 30 -4.93 .80|1.31 .7|9.90 4.8|A .08 .30| 93.3 93.3| S4M07_07|
| 62 19 30 1.01 .63|1.95 2.2|5.75 2.3|B .57 .77| 76.7 88.5| S0P48_02|
| 94 27 30 5.19 .84|1.23 .6|4.08 1.7|C .44 .55| 93.3 93.1| S4P54_04|
| 57 18 30 .63 .61| .84 -.3|3.47 1.7|D .75 .77| 90.0 87.7| S0P48_05|
| 75 23 30 2.79 .71|2.63 2.9|2.40 1.2|E .50 .74| 80.0 90.9| S2P78_07|
| 72 23 30 2.79 .71|1.82 1.7|2.58 1.3|F .60 .74| 80.0 90.9| S3P16_07|
| 47 15 30 -.42 .57|1.54 1.5|2.55 1.3|G .62 .74| 80.0 86.1| S0M57_00|
| 27 7 30 -2.87 .56|1.02 .2|1.99 1.1|H .48 .54| 93.3 85.0| S1M78_03|
| 28 7 30 -2.87 .56|1.60 1.9|1.92 1.0|I .39 .54| 73.3 85.0| S1M78_08|
| 21 6 30 -3.20 .58|1.39 1.3|1.81 1.0|J .40 .50| 83.3 86.1| S2M99_08|
| 76 23 30 2.79 .71|1.24 .7| .57 .1|Z .72 .74| 86.7 90.9| S2P78_03|
| BETTER FITTING OMITTED +----------+----------+ | | |
| 55 18 30 .63 .61| .55 -1.4| .25 -.5|k .84 .77| 96.7 87.7| S0P48_09|
| 38 11 30 -1.66 .55| .54 -1.9| .29 -.6|j .74 .65| 96.7 83.8| S0M57_05|
| 14 4 30 -3.93 .64| .51 -1.7| .20 -.6|i .51 .42| 96.7 87.8| S2M99_05|
| 92 27 30 5.19 .84| .46 -1.4| .10 -.6|h .62 .55|100.0 93.1| S4P54_09|
| 80 24 30 3.32 .74| .44 -1.4| .14 -.6|g .78 .71| 96.7 91.8| S3P16_01|
| 82 24 30 3.32 .74| .44 -1.4| .14 -.6|f .78 .71| 96.7 91.8| S2P78_06|
| 84 24 30 3.32 .74| .44 -1.4| .14 -.6|e .78 .71| 96.7 91.8| S2P78_04|
| 48 16 30 -.09 .59| .42 -2.1| .21 -.6|d .84 .75| 96.7 86.5| S0M57_01|
| 77 23 30 2.79 .71| .39 -1.8| .13 -.6|c .82 .74|100.0 90.9| S2P78_01|
| 65 20 30 1.42 .65| .37 -2.1| .15 -.5|b .86 .77|100.0 89.1| S1P23_05|
| 89 26 30 4.52 .80| .33 -1.8| .09 -.7|a .70 .62|100.0 93.1| S4P54_01|
|------------------------------------+----------+----------+-----------+-----------+---------|
| MEAN 14.9 30.0 -.08 .67| .98 -.1| .85 .1| | 89.1 88.8| |
| S.D. 8.5 .0 3.23 .11| .38 1.0|1.26 .8| | 6.0 3.4| |
----------------------------------------------------------------------------------------------
TABLE 1.1 MATRICE: D2XTH02M 98X30 Cenni introduttivi alla Item Response Theory
INPUT: 98 USERS 30 ITEMS MEASURED: 98 USERS 30 ITEMS 2 CATS WINSTEPS 3.68.2
--------------------------------------------------------------------------------

MAP OF USERS AND ITEMS OUTPUT TABLES  (1.1)MAPPA USERS e ITEMS


MEASURE | MEASURE
<more> --------------------- USERS -+- ITEMS ----------------- <rare>
7 X + 7
|
|
T|
|T X
6 X + X 6
|
|
| X
XXXXX |
5 + X 5
|
XXXXX |
|
|
4 + X 4
XX |
|
XXXXXXX |
S|S
3 + XX 3
XXXXXX |
|
XX |
| X
2 + 2
XXXX |
| XX
XX |
|
1 XXXXXX + 1
| X
XXXX |
| XX
XXX |
0 XXX M+M 0
| XX
X |
|
XXX |
-1 XXX + -1
| XXX
XX |
XX | X
|
-2 X + X -2
XX | X
| XX
XXXXX | X
XXXXXX | X
-3 + -3
XXX |S
S|
XXXXX | X
| X
-4 XX + X -4
| X
XXX | X
|
|
-5 XXXXXXXXX + -5
<less> --------------------- USERS -+- ITEMS ----------------- <frequent>
Cenni introduttivi alla
Item Response Theory
(1 di 3) Ulteriori elaborazioni grafiche ottenute con il software SAS
Cenni introduttivi alla
Item Response Theory
(2 di 3) Ulteriori elaborazioni grafiche ottenute con il software SAS
Cenni introduttivi alla
Item Response Theory (3 di 3) Ulteriori elaborazioni grafiche ottenute con il software SAS
Lezioni di Teoria e Tcniche dei Test del prof. Renato Miceli (a.a. 2011-2012)
Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche

Potrebbero piacerti anche