Sei sulla pagina 1di 16

LEZIONE 1

La psicometria nasce nell’Ottocento come Psicofisica grazie a Galton. Come la conosciamo oggi nasce a fine
Ottocento: si dovevano trovare delle misure che andassero al di là della fisica. Binet creò i test di
intelligenza per identificare i bambini con necessità particolari nelle scuole.

LEZIONE 2

Psicometria significa misurare la mente. Misurare è un’esigenza di tutte le scienze.

In psicologia la misurazione nasce con l’idea di assegnare numeri a individui in maniera sistematica e
replicabile. Bisogna stabilire cosa misurare e come misurare, stabilire cioè oggetto e unità.

Perché si misura? Le motivazioni sono sia applicative che scientifiche:

 Per conoscere un fenomeno è importante misurarlo


 Per valutare per scopi applicativi

In psicologia l’oggetto che vogliamo misurare e conoscere non è direttamente visibile ma riguarda entità
inferite da indicazioni comportamentali: esse sono i COSTRUTTI, cioè entità teoriche che spiegano e
giustificano una serie di specifici indicatori comportamentali. Ipotizziamo che i comportamenti osservabili
covariano poiché alla base c’è uno stesso costrutto: esso è perciò la sorgente della variabilità e
covariazione. La psicologia vuole misurare quelle entità che non rispondono ai canoni tradizionali
dell’osservazione e della replicabilità delle osservazioni che troviamo nelle scienze fisiche. Un costrutto è
definito in relazione a delle teorie, è un’entità teorica di cui si vuole misurare il grado di presenza in una
persona. La TEORIA postula la presenza di tale entità come elementi che spiegano determinati
comportamenti. I costrutti sono anche definiti VARIABILI LATENTI. Possono essere misurati attraverso
correlazioni tra comportamenti e per collegare i comportamenti alla variabile latente, quindi misurarli,
utilizziamo le SCALE, cioè strumenti per misurare costrutti ma che non coincidono con essi poiché misurano
le manifestazioni dei costrutti. Esse fanno riferimento a COME MISURARE, il costrutto è invece COSA
MISURARE. Nella misurazione possono esserci degli ERRORI perciò quello che facciamo è una STIMA della
variabile latente. Le scale misurano quantità di variabili di una stessa entità e il punteggio che avremo
associato consentirà di distribuire i punteggi in un continuum omogeneo.

Non tutte le variabili sono latenti (come sesso ed età) quindi non sempre servono le scale, ma altri casi le
richiedono (ansia, auto-efficacia, ecc). Nelle scale l’unità di ricerca è spesso l’individuo, cioè la fonte di
variabilità della misura. Per misurare costrutti psicologici si costruisce una scala assumendo che una
variabile latente sia in relazione causale dei comportamenti, cioè che li determina. Perciò un test
psicologico è una scala. Avendo una variabile latente collegata a comportamenti costruiamo una scala
proponendo degli item che sono collegati a questi comportamenti ma c’è una quota di errore nella scala.
Altro problema è che ci potrebbe essere un’altra variabile latente collegata agli stessi comportamenti in
considerazione e di conseguenza legati agli item: quindi c’è la possibilità che con gli stessi item stiamo
misurando 2 costrutti diversi.

Creare le scale non è facile: non esiste un unico approccio alla creazione di scale, inoltre le misurazioni dei
costrutti sono spesso basate su pochi esempi di comportamento, inoltre ci possono essere errori nella
misurazione, inoltre spesso mancano unità di misura ben definite, inoltre è importante definire i costrutti in
relazione ad altri costrutti.
Dopo che si è creata una scala psicometrica, cioè superati i precedenti problemi, i passaggi poi saranno:

1. Si deve arrivare alla STANDARDIZZAZIONE (della somministrazione e dei punteggi)


2. Valutare l’ATTENDIBILITA’ (qual è la quantità di errori nella misurazione)
3. Verificare la VALIDITA’ (se la scala è appropriata al costrutto)
4. Fare riferimento alle NORME DELLA POPOLAZIONE (cioè punteggi caratteristici di una popolazione)
5. INTERPRETARE i punteggi dei soggetti e gruppi di soggetti

Nella misurazione si mette in relazione il SISTEMA EMPIRICO con il SISTEMA NUMERICO e si stabilisce una
RAPPRESENTAZIONE di essi tale che le relazioni che osserviamo nel SE siano rispettate in SN e attraverso
questa funzione colleghiamo i 2 sistemi. Quando stabiliamo questa relazione, se esiste un SE cioè se
osserviamo una relazione tra b e a (bRa) allora la funzione di a e b che corrisponde al sistema numerico
[f(a)Sf(b)] dovrà rispettare la relazione che abbiamo osservato in SE: esempio-> a è alto 160cm e b 175cm
allora b è più alto di a (SE), cioè f(b)>f(a). Dopo questa misurazione possiamo collocare a e b su un
continuum. Le regole di corrispondenza che possiamo stabilire tra i 2 sistemi cambiano in base alle variabili
che stiamo considerando, possiamo perciò avere diversi livelli di misurazione di scale. Il tipo di scala che
utilizziamo definisce le operazioni numeriche che possiamo compiere e le statistiche ammissibili. Abbiamo:

 Scala Nominale: definisce categorie qualitative.


 Scala Ordinale: oltre a definire più categorie per una variabile, possiamo ordinare rispetto a un
grado della caratteristica considerata. Definisce delle relazioni di ordine rispetto a una certa
caratteristica (scala di valutazione per esempio).
 Scala ad Intervalli Equivalenti: è una scala propriamente definita in cui è definibile un’unità di
misura. La differenza tra i valori numerici assegnati corrisponde alla differenza tra i livelli della
caratteristica posseduta. C’è un’unità di misura e l’origine della misurazione, ma non sono assolute
bensì convenzionali (temperatura).
 Scalata a Rapporti Equivalenti: si definisce uno 0 assoluto che implica una quantità nulla. L’unità di
misura è convenzionale, si possono interpretare i rapporti tra valori (peso, altezza, età).

Bisogna effettuare misurazioni appropriate rispetto alla scala utilizzata. La SIGNIFICANZA è l’ammissibilità di
una statistica rispetto alla scala di misurazione della variabile (per esempio la media non si può calcolare su
scala nominale perché fa riferimento a un sistema numerico). Il livello di misura determina quali sono le
analisi statistiche che si potranno condurre.

LEZIONE 3

Il processo di rilevazione di una variabile latente è detto SCALING, cioè una misurazione che definiamo
come l’atto di attribuire numeri a delle entità secondo una regola facendo in modo che le relazioni presenti
nel sistema empirico vengono riprodotte in quello numerico. Lo scaling implica il processo di costruzione di
una scale e ha come scopo la creazione di un continuum psicologico omogeneo i punteggi dei soggetti
ottenuti dalla misurazione. Le tecniche dello scaling sono un insieme di procedure finalizzate alla rilevazione
della variabile latente. C’è una classificazione di Giampaglia riguardo gli scaling:

1. Si concentra sulla variabilità della risposta in cui possiamo avere: approcci centrati sul soggetto
(differenze legate all’individuo. Scala Likert), approcci centrati sugli stimoli (differenza tra stimoli.
Confronto a coppie di Thurstone), approcci centrati sulle risposte (sia negli stimoli che nei soggetti-
Scale di Rasch).
2. Dimensionalità dell’insieme di item utilizzati: unidimensionale cioè gli item si focalizzano sullo
stesso costrutto (scale autoefficacia di Bandura), multidimensionale (scala di Rahim per la
risoluzione dei conflitti).
3. Rispetto all’errore: modelli deterministici (non viene considerato l’errore dovuto al caso), modelli
stocastici (viene considerato l’errore dovuto al caso).
4. Rispetto al tipo di dati: relativi a scelte di preferenza, relativi a stimoli singoli, riguardanti confronti
tra stimoli, di similarità.

Alcuni autori sottolineano la distinzione tra OSSERVAZIONE e DATI, i quali sono INTERPRETAZIONI DELLE
OSSERVAZIONI. Il processo prevede: registrazione delle osservazioni, inferenza sulle osservazioni (ciò che
porta ai dati), scelta della tecnica o modello di scaling da utilizzare.

Le scale sono costituite da insiemi di affermazioni (item) rispetto a cui il soggetto deve esprimere
un’opinione o preferenza. Nei test che misurano il comportamento non ci sono risposte corrette, ma ci
sono nei test che misurano la performance. I risultati degli item vengono combinati tra loro, spesso in
maniera additiva solo però nella unidimensionalità. Le relazioni tra punteggi e costrutti vengono definite dal
modello teorico di riferimento.

Si parte dal presupposto che la PROPRIETA’ sia interpretabile come un continuum sul quale un individuo
può essere collocato in base al proprio punteggio di riferimento alla scala. La posizione sulla scala è
rilevabile grazie alla risposta ad uno stimolo. Della proprietà possiamo misurare la DIREZIONE (favorevole o
meno) e il GRADO (intensità del favore o sfavore rispetto alla proprietà).

Una scala è costituita da INDICATORI a cui corrispondono una serie di stimoli, cioè item. Ogni item rileva
aspetti della variabile latente in esame attraverso le scelte del soggetto rispondente. Gli item vengono
raggruppati in BATTERIE che si riferiscono a una o più proprietà; una batteria genera un punteggio che
permette di stabilire grado e direzione di una proprietà.

Per costruire una scala bisogna decidere il tipo di risposta e la teoria e metodo di riferimento che
adottiamo. Decidere il tipo di risposta è definito come ANCORAGGIO e varia in relazione all’uso di parole o
numeri: ancoraggio semantico (disapprovo….approvo) e ancoraggio numerico (1…5).

Nel momento in cui scegliamo un ancoraggio, non esistono ancore delle UNITA’ DI MISURA. Lo scaling però
produrrà dei valori che possono avere proprietà numeriche. Per attribuire proprietà numeriche devono
essere rispettati alcuni limiti:

 La funzine che unisce il SE al SN deve essere iniettiva, cioè che ad ogni x corrisponde una sola y così
che se x1 è diverso da x2 allora anche le loro funzioni saranno diverse, e monotòna, cioè che se per
ogni x1 è minore uguale di x2 allora anche le loro funzioni saranno tali e ciò significa che
conservano l’ordinamento.
 L’unità di misura deve essere replicabile e non soggettiva
 Le categorie devono avere autonomia semantica molto bassa.

Quest’ultimo punto riguarda il rapporto che ciascuno stato (etichetta, categoria, modalità) della variabile ha
con gli altri stati della stessa variabile. Il trattamento dei dati raccolti tramite tecniche di scaling dipenderà
dal grado di autonomia semantica delle categorie delle variabili trattate. Possiamo avere diversi livelli di
AUTONOMIA SEMANTICA:
 Modalità semanticamente autonome: un’etichetta può essere interpretata senza fare ricorso ad
altre etichette, quindi non è necessario conoscere il significato di tutte le altre alternative (es.
maschio e femmina).
 Modalità a parziale autonomia semantica: il significato di ogni modalità è parzialmente autonomo
dalle altre quando non possiamo sapere se le diverse modalità di risposta sono tra loro equidistanti.
Quindi ogni etichetta deve essere raffrontata con altre etichette (scale Likert).
 Modalità a bassa autonomia semantica: il soggetto colloca la sua posizione all’interno del
continuum definito da 2 estremi (differenziale semantico)

In base alla proprietà che ha suggerito la definizione operativa delle variabili avremo:

 Variabili categoriali ordinate e non ordinate, cioè valori numerici attribuiti alle modalità non hanno
valore cardinale.
 Variabili cardinali, cioè valori numerici assegnati alle modalità hanno valore numerico assegnato.
 Variabili quasi cardinali, cioè la valutazione viene codificata con un processo di rappresentazione
numerica e vengono poi trattate come cardinali.

LEZIONE 4

La scala di Thurstone ci propone diversi metodi per effettuare uno scaling. Il presupposto da cui parte è che
se un soggetto può discriminare e ordinare stimoli fisici sulla base della sua percezione, potrà anche
ordinare affermazioni sulla base del proprio favore o sfavore. L’obiettivo non è quello di misurare il
comportamento ma l’atteggiamento. Le opinioni sono punti di riferimento che vengono collocate lungo un
continuum ( da atteggiamenti più sfavorevoli a più favorevoli).

 Il primo metodo proposto da Thurstone è quello del Confronto a coppie: la scala viene creata
misurando le distanze tra diversi item confrontandoli a coppie. In pratica due item vengono
presentati ad alcuni giudici che dovranno valutare quale dei due sia maggiore dell’altro per creare
poi un ordinamento. Dopo, si raggruppano le opinioni dei giudici confrontando le coppie in una
tabella e si passerà poi alla costruzione della scala. Le frequenze relative di risposta vengono
trasformate in punti Z (costruiti confrontandoc iascun punteggio con la sua media ed usando come
unità di misura la deviazione standard-> z=( X- media)/S) di una curva normale e permettono di
stabilire le distanze tra gli item; gli item sono quindi ordinati in base alle frequenze di risposte.
 Altro metodo è quello degli Intervalli apparentemente uguali in cui si parte da un gran numero di
item e si richiede una valutazione a dei giudici non in base al grado di accordo o disaccordo, se il
significato della frase sia a favore o a sfavore dell’argomento. Ogni item può ricevere un giudizio da
1 a 10 con estremi favorevoli e sfavorevoli. Fatto questo vedremo che l’individuo si colloca su un
segmento del continuum. Fatto ciò le frasi verranno ordinate in base alla mediana dei punteggi
attribuiti dai giudici. Il vantaggio è che l’ordine e la distanza fra le frasi dovrebbe essere adeguato al
contesto culturale dei giudici e degli intervistati. Si stabilisce quindi un continuum sulla base delle
frequenze di risposta e si calcola la mediana o la media dei punteggi assegnati dai giudici alle
diverse affermazioni e anche un indice di variabilità; successivamente si sceglieranno gli item con
variabilità piccola cioè quelli con forte concordanza di giudizio da parte dei giudici.

Altra scala è quella di Guttman, che è composta da item selezionati in maniera tale che se un soggetto
supera, o risponde affermativamente ad un item, avrà superato o ha risposto affermativamente anche agli
item precedenti. E’ come una sequenza di gradini, una successione di elementi con difficoltà crescente:
perciò viene chiamata scala cumulativa o scalogramma, differentemente dalla scala Likert che è additiva,
perciò gli elementi non sono tutti allo stesso livello. Gli elementi di una scala sono quindi cumulativi
(scalabili) e questa cumulatività è considerata come un assunto dell’esistenza di un continuum sottostante
dove gli item si collocano. Un esempio di scala di Guttman è la scala del distanziamento sociale di Bogardus.

Altre scale sono quelle auto-ancoranti in cui solo le due categorie agli estremi hanno significato e il soggetto
intervistato colloca la sua posizione all’interno del continuum definito dai due estremi. Non c’è un’unità di
misura univoca ma soggettiva.

Altra scala è il differenziale semantico che è una tecnica di rilevazione dei significati che determinati
concetti assumono per gli intervistati. Si basa sulle associazioni che un soggetto instaura tra ciascun
concetto ed una serie di aggettivi contrapposti, separati da una scala graduata. I soggetti devono indicare su
questa scala graduata a quale dei due estremi si avvicinano. Il differenziale semantico originale di Osgood
prevedeva delle coppie di aggettivi che erano pensate per rilevare alcune dimensioni importanti:
valutazione, la potenza, l’attività. Per creare il differenziale semantico bisogna indicare l’oggetto rispetto a
cui si intende rilevare una reazione (seguiti dalle coppie di aggettivi), disporre gli aggettivi in modo casuale,
non devono essere utilizzare necessariamente le coppie di aggettivi pensate originariamente da Osgood, la
risposta deve essere indicata velocemente senza troppe riflessioni da parte dell’intervistato. In alcuni casi le
coppie di aggettivi sono “apparentemente” estranee al concetto in esame poiché in ogni caso l’associazione
consente di avere delle informazioni sul modo in cui un oggetto viene visto dal rispondente, inoltre è utile
se il tema in esame richiede un coinvolgimento di elementi personali o delicati riducendo così il bias della
desiderabilità sociale. I soggetti devono indicare su questa scala graduata a quale dei due poli si avvicinano
e la misurazione avviene lungo la gradazione tra le coppie di aggettivi contrapposte e i risultati vengono poi
aggregati. Ciò è molto utile nello studio della connotazione delle parole.

Altra scala è quella di Likert che è costruita sulla base di un insieme di item a cui il soggetto è invitato a
rispondere ad alcune affermazioni (giudizi), esprimendo il proprio accordo o disaccordo sulla base di una
griglia di valutazione a 5, 7 o più punti. Il modello si basa sull’assunzione che esista una funzione monotòna
tra item e la proprietà latente che si vuole misurare. La scala deve essere unidimensionale, cioè gli item
devono misurare tutti lo stesso atteggiamento. Per ciascun soggetto viene calcolato il punteggio
complessivo, quindi la somma dei punteggi riportati in ogni singolo item, ma bisogna fare attenzione al
verso degli item. Gli item vengono scelti sulla base di varie analisi: si eliminano gli item che hanno una bassa
correlazione con il totale di tutti gli item e poi per ogni item si prendono le medie dei giudici nelle prime
posizioni e nelle ultime posizioni dell’ordinamento (si considerano i giudici che hanno dato valori molto alti
e bassi) e si può applicare un t-test per stimare la discriminazione. Seppur molto utilizzata ha degli aspetti
negativi:

 Distorsioni: response set (tendenza a rispondere in maniera meccanica, acquiescenza (tendenza a


dirsi sempre d’accordo), reazione all’oggetto ( l’intervistato reagisce ad un solo oggetto cognitivo
della frase e non al significato complessivo della stessa).
 Curvilinearità: anziché discriminare tra i soggetti “favorevoli” da un lato e quelli “sfavorevoli”
dall’altro, la formulazione di un item di questo tipo produce la scelta della stessa alternativa da
parte di due soggetti che hanno opinioni, atteggiamenti molto diversi. Il continuum non è più
lineare.
LEZIONE 5-6-7-8

Teoria classica dei test è la teoria di riferimento per la costruzione e l’analisi dei test. E’ anche chiamata
teoria classica dell’errore, si fonda sull’idea che il punteggio osservato su una data scala psicometrica in un
test sia formato da 2 componenti: valore vero della variabile e un errore casuale (x=V+E) che modifica il
valore non rendendolo più reale. L’errore diventa parte integrante del processo di misurazione. La teoria
classica dell’errore definisce un apparato statistico che cerca di trattare e comprendere come questo errore
modifica le misurazioni. Ci sono 2 tipi di errore: casuali, che variano in maniera casuale e simmetrica (in
eccesso o in difetto) tra le diverse misurazioni e non sono predicibili, e sistematici, che si presentano in
maniera costante e predicibile rendendo le misurazioni errate costanti e sono dovuti ad esempio a
problematiche dello strumento di misurazione. I punteggi di un soggetto ad un test è un campione di
un’infinita popolazione di possibili punteggi affetti da errori casuali; tutti i punteggi osservati possono
essere considerati come valori differenti di un’unica variabile (che abbiamo in considerazione) che può
assumere valori secondo una data distribuzione di probabilità. Ciò che differenzia la teoria classica dei test
è che all’interno di tutti i possibili valori che può assumere la variabile esiste il valore vero della misurazione
e inoltre, essendo gli errori simmetrici, la distribuzione di probabilità delle misurazione assume una forma
normale, cioè gaussiana.

Il punteggio vero rappresenta il valore atteso della distribuzione di probabilità associata ai punteggi
osservati -> E(X)=V. Essendo una distribuzione normale, il valore atteso è la media di tutti i punteggi
osservati. Se le misure si distribuiscono secondo una curva normale dopo moltissime misurazioni allora il
valore medio delle osservazioni corrisponderà al valore vero. Da W=V+E segue che V rappresenta la parte
attendibile del punteggio dal momento che E(X)=V. Questa assunzione porta delle conseguenze, del tipo
che ci aspettiamo che il valore vero resti un valore fisso per ogni soggetto rispetto ad un test. Dunque in
una serie infinita di misurazioni l’errore casuale tende a 0, cioè il valore atteso degli errori del punteggio
vero: ciò significa che la media egli errori di infinite misurazioni sarà uguale a 0. Inoltre, se l’errore è casuale
e il punteggio vero è determinato , dalle precedenti assunzioni segue anche che non ci debba essere
nessuna covarianza tra punteggio vero ed errore, dunque altra assunzione è che la covarianza tra 2
distribuzioni è nulla, anche tra due distribuzioni di errore di due diverse misurazioni. Diverso sarebbe se
esistesse un errore sistematico, in quel caso ci sarebbe covariazione. Dalle assunzioni è possibile definire il
concetto di precisione di uno strumento di misura (test psicometrico), cioè fare uno studio sull’attendibilità;
ma anche del contenuto del test cioè facendo uno studio della validità che ha a che fare con l’esattezza
dello strumento di misura (sempre test psicometrico).

Partendo dall’assunzione che il punteggio osservato sia uguale al punteggio vero più l’errore diventa
interessante capire come la teoria riesce a separare la parte di informazione che c’è in un’osservazione con
la parte di errore: ciò significa misurare il grado di coerenza e di stabilità di un test. Queste due cose ci
permettono di comprendere quanto sia preciso uno strumento di misurazione psicometria nel misurare un
costrutto. Dall’assunzione fondamentale X=V+E, si può riscrivere la varianza in modo uguale
s^2x=s^2v+s^2e: da ciò se diamo a 1 la varianza di errore avremo che l’attendibilità (rtt) sarà s^2v/s^2x, più
è alta la varianza del punteggio vero più attendibile sarà il test. Mentre più è basso l’errore, più attendibile
sarà il test rtt=1-s^2e/s^2x. L’attendibilità si riferisce alla coerenza che possiamo osservare tra
manifestazioni che possono essere apparentemente diversi di uno stesso costrutto e si basa sull’idea di
correlazione tra strumenti paralleli, cioè strumenti psicometrici che misurano lo stesso costrutto nello
stesso modo. Ciò è una sorta di ipotesi che non possiamo riscontrare, ma il ricorso a questo concetto di
strumento parallelo ci consente di vedere come la correlazione tra strumenti paralleli rappresenti
l’attendibilità. Se interpretiamo come strumento parallelo due test che hanno lo stesso valore vero, la
stessa varianza totale e la stessa varianza di errore e analizzando la correlazione tra i due, osserviamo che la
correlazione attraverso una trasformazione algebrica non è altro che una rappresentazione
dell’attendibilità, in quanto risulterà il rapporto tra varianza del punteggio vero e quella totale. Nella pratica
è impossibile misurare l’attendibilità così in quanto non sappiamo separare la varianza vera da quella
dell’errore, perciò esistono dei metodi empirici di stima dell’attendibilità che insistono sulla coerenza tra gli
item di un test:

 Metodo delle forme parallele: somministrare agli stessi soggetti 2 versioni equivalenti (paralleli) di
un test. Su questi punteggi si calcola una correlazione che diventa una stima dell’attendibilità. Lo
usiamo quando misuriamo caratteristiche suscettibili di sensibili fluttuazioni nel tempo. Prevede
che si costruiscano due forme alternative dello stesso test il più possibile equivalenti per contenuto,
modalità e proprietà. Dopo vengono somministrati in tempi diversi e si calcola il coefficiente di
correlazione tra le due serie di punteggi che sarà l’indice dell’attendibilità del test. Questa
procedura pone la questione problematica del campionamento degli item che può diventare fonte
della varianza dovuta ad errore. Altro problema è verificare che i due strumenti siano
effettivamente paralleli, cioè significa avere una coerenza di tutte le caratteristiche del test. Il
modello più stringente prevede un parallelismo perfetto del test (model of parallel tests), altri
meno restringenti sono i test tau-equivalenti (model of true score equivalent test) e i test
congenerici (model of congeneric test). Richiedono molto tempo.
 Metodo del test-retest: cerca di studiare l’attendibilità intesa come stabilità nel tempo. Lo stesso
test psicometrico viene somministrato agli stessi soggetti ma in due momenti diversi. Dopo aver
acquisito i punteggi, si fa la correlazione tra essi. Fa parte dei metodi di calcolare l’attendibilità
basati su due applicazioni del test. L’intervallo prestabilito non deve essere più ampio di 6 mesi.
Valuta soprattutto la stabilità nel tempo dei punteggi ed il coefficiente di correlazione tra le due
distribuzioni di punteggi ci sa la misura del coefficiente di affidabilità. Il coefficiente test-retest si
riduce all’aumentare del tempo trascorso fra le rilevazione; inoltre è interpretabile se si assume che
il concetto misurato non varia nel tempo. Spesso ci si deve perciò affidare alla stabilità a breve
termine, cioè per i costrutti per cui alcuni fattori non influenzano il risultato; altre volte servono
intervalli di tempo più ampi e quindi una stabilità a lungo termine, di solito per i costrutti che non
hanno effetto sul risultato.
 Metodo dello split-half: si somministra il test in un unico tempo, poi viene diviso in 2 parti che
vengono interpretate come forme parallele, che vengono correlate. La correlazione va corretta con
la formula profetica Spearman-Brown, poiché un test dimezzato avendo un numero minore di item
subirà una riduzione del coefficiente di attendibilità. Si usano anche coefficienti di attendibilità
calcolati con la formula di Guttman e di Rulon. Si può calcolare l’affidabilità con una sola
somministrazione, poi valuteremo come il coefficiente varia. Per dividere il test in due parti
confrontabili si può assegnare casualmente gli item alla prima e alla seconda parte o si può dividere
il test in item pari e dispari
 Metodo della coerenza interna: si calcola l’alfa di Cronbach, che è un indice di attendibilità che si
trova spesso. L’attendibilità viene interpretata come una misura del grado di accordo tra diverse
misurazioni dello stesso costrutto. E’ dunque un caso generale dei metodi precedenti che
interpretavano le scale psicometriche, qui la scala psicometrica collassa verso il singolo item e i
singoli item vengono considerati come istanze diverse della misurazione di uno stesso costrutto.
L’attendibilità si può interpretare come grado di accordo e similarità tra gli item della stessa scala, si
parla di interscambiabilità degli item in quanto essi sono uguali. Esistono vari modi di calcolare la
coerenza interna: il primo è stato presentato per item dicotomici (due valori) da Kuder-Richardson
e si chiama metodo KR20 e si fonda sull’idea che la varianza dei singoli item sia diversa dalla
varianza totale, in particolare che la somma delle varianze dei singoli item sia minore della varianza
totale. Una generalizzazione degli item non solo dicotomici è la alfa di Cronbach data da (k/k-
1)x(somma della varianza degli item/ varianza totale): si stabilisce quindi un confronto tra la somma
della varianze degli item con la varianza totale, considerando che la varianza totale quando viene
considerata come somma delle varianze parziali dei singoli item non solo contiene la somma delle
varianze ma anche due volte le loro covarianze. Se gli item non sono coerenti le loro covarianze
saranno basse per cui la somma delle varianze sarà simile alla varianza totale, se invece sono
altamente coerenti tra loro hanno una forte covarianza allora la varianza totale includerà anche
queste covarianze per cui la varianza totale sarà più grande della somma dei singoli item. L’alfa di
Cronbach viene interpretata empiricamente e si valuta:
 <.60 è inadeguato
 .60-.70 è sufficiente
 .70-.80 è discreto/buono
 >.90 è ottimo

Bisogna considerare anche che, essendo la scala psicometrica una serie di misurazioni coerenti di uno sesso
costrutto, l’attendibilità è fortemente determinata dalla lunghezza di un test, la quale migliora
l’attendibilità.

Abbiamo detto che secondo la teoria classica dei test, la misurazione è affetta da errori, sistematici o
casuali. Attendibilità, affidabilità e fedeltà sono 3 sinonimi per riferirsi al grado di accuratezza e precisione
di una misurazione. Un test è affidabile quando i punteggi ottenuti allo stesso test da un gruppo di soggetti
sono coerenti, stabili nel tempo e costanti dopo molte somministrazioni e in assenza di cambiamenti
evidenti quali variazioni psicologiche e fisiche dei soggetti che si sottopongo al test o anche all’ambiente in
cui questo ha luogo. Quindi l’attendibilità esprime la misura in ci le differenze tra i punteggi di un gruppo di
soggetti sottoposti allo stesso test possono essere attribuite a errori casuali nella misurazione o all’effettivo
variare delle caratteristiche nei soggetti.

Altro aspetto della stima dell’attendibilità è relativo all’accordo tra rater; spesso capita di fare ricerche in
cui vanno codificati dei comportamenti o delle risposte in alcune categorie. Per evitare classificazioni
totalmente soggettive si ricorre spesso a più osservatori. Per valutare l’accordo tra i rater si calcola il
coefficiente K di Cohen, che tiene conto della percentuale di accordo corretta per la probabilità casuale di
accordo. Una fonte di errore può essere dovuta alla valutazione dei risultati ad un test, dunque è relativo
all’affidabilità della procedura di scoring. Perciò è spesso necessario calcolare il rapporto di affidabilità tra
scorer che assegnano i punteggi ad un campione di protocolli indipendentemente l’uno dall’altro e
successivamente si correlano questi punteggi.

LEZIONE 9

Vari calcoli

LEZIONE 10

Calcoli e chiarimenti
LEZIONE 11

CLASSIFICAZIONE DEI TEST

La classificazione avviene in base allo stimolo che può essere standardizzato o non standardizzato, e alla
situazione che può essere controllata o non controllata.

 SITUAZIONE CONTROLLATA E STIMOLO NON STANDARDIZZATO ->Test proiettivi, intervista;


 SITUAZIONE CONTROLLATA E STIMOLO STANDADIZZATO ->Test cognitivi, Test di personalità, scale
di atteggiamento;
 SITUAZIONE NON CONTROLLATA E STIMOLO NON STANDARDIZZATO ->Osservazione libera;
 SITUAZIONE NON CONTROLLATA E STIMOLO STANDARDIZZATO ->Intervista semi strutturata,
Osservazione sistematica.

I test psicologici in particolare possono essere definiti in base a:

 area che si propongono di misurare; di conseguenza avremo i test cognitivi (test di intelligenza,
attitudine e profitto, memoria, linguaggio) e test non cognitivi (test di personalità e scale di
atteggiamento). (Nel caso specifico dei test della personalità possiamo operare una distinzione in
base allo stimolo che utilizzano e avremo quindi test proiettivi e test non proiettivi);
 materiale usato: carta e matita oppure strumentali, ossia test che utilizzano strumenti e non
prevedono la compilazione con carta e matita.
 tipo di somministrazione, che può essere individuale o collettiva (di gruppo);
 scopo: sono nomotetici se il loro obiettivo è quello di stabilire leggi comuni a tutti gli individui; sono
invece ideografici se tentano di cogliere l’unicità del paziente e questo test è applicato
prevalentemente nella pratica clinica;
 modalità di risposta: distinguiamo, quindi, test verbali e non verbali;
 tempo: alcuni hanno come elemento fondamentale di analisi l’osservazione della velocità (test di
velocità); per altri è fondamentale l’effetto (test di potenza).

Possiamo inoltre classificare diversi tipi di item per i test cognitivi: ad esclusione, a sequenza, di
vocabolario, analogici, di abilità spaziale.

Nel caso dei test non cognitivi invece troviamo altri tipi di item: dicotomici (che prevedono due risposte,
come “sì” – “no” oppure “vero” – “falso”); e i tricotomici (che prevedono tre risposte, come “vero” –
“falso”- “incerto” oppure “sì” – “ no” – “non so” oppure “di solito” – “qualche volta” – “mai”).

Vi sono inoltre quelli a risposta libera o quelli che prevedono una scala di valutazione.

Ulteriore ed importante distinzione è quella tra i test di massima performance e i test di tipica
performance.

Nei test di massima performance ciò che si vuole misurare è la prestazione ottimale del soggetto, quindi si
utilizzano test di intelligenza, test attitudinali o test di rendimento.

Nei test di tipica performance invece non esistono risposte giuste o sbagliate e un esempio fra questi sono i
test di personalità.
Infine la scale di atteggiamento mirano proprio a misurare un atteggiamento, ossia il grado di favore o
sfavore che un individuo associa ad un oggetto. Le più comunemente usate sono la scala di Thurstone, la
scala di Guttman, la scala Likert e il differenziale sema

GLI STRUMENTI DI MISURA

In psicologia possiamo usare diversi strumenti di misura, ad esempio:

 Test psicologici
 Scale di misura degli atteggiamenti
 Interviste
 Questionari
 Protocolli di osservazione

Test e Questionari

Test e questionari sono tra gli strumenti più utilizzati; spesso si presentano con una forma grafica simile ma
non sono sinonimi ed hanno obiettivi, fasi di costruzione e metodologie di analisi dei dati differenti. (In
questa lezione analizzeremo proprio le loro differenze)

TEST : I test sono STANDARDIZZATI:

 l’ aspetto che distingue i test è l’ esistenza di un valore normativo, cioè un valore che sarà termine
di confronto per le successive rilevazioni
 un test deve essere valido (misurare esattamente ciò che si propone), attendibile o affidabile
(rilevare misure costanti nel tempo) e sensibile (discriminare fra gli individui o fra diversi livelli di
sviluppo e apprendimento dello stesso individuo).

QUESTIONARI

 un questionario consiste in un insieme di domande riguardanti atteggiamenti, stili di vita,


comportamenti e credenze
 bisogna fare attenzione a scegliere forme di distorsione (desiderabilità sociale: tendenza a scegliere
i contenuti più graditi alla società, acquiescenza: rispondere in modo da far piacere all’
investigatore, response set: tendenza a prendere posizioni estreme o posizioni centrali)

Confronto tra Test e Questionari considerando gli obiettivi:

 Si ha a che fare con i test quando si deve misurare un tratto individuale, una capacità etc. e nella
valutazione si tiene conto delle risposte che altri soggetti hanno dato alle stesse domande. Può
avere una funzione diagnostica
 Il questionario ha come obiettivo partire dalle risposte dei singoli per arrivare a risultati su un
collettivo.

Confronto tra Test e Questionari considerando la validazione:

 Un test è validato: cioè rispondenti e domande subiscono un processo di selezione al fine di creare
dei valori di riferimento dopo molte prove
 Un questionario può anche non essere validato: può essere usato anche una sola volta per tutte e
non subisce un processo di validazione vero e proprio, ma una verifica su un piccolo numero di
soggetti (pre-test)

Confronto tra Test e Questionari considerando le caratteristiche:

 Un test riguarda un numero limitato di dimensioni


 Il questionario si estende a molteplici aspetti dell’ oggetto di studio

Confronto tra Test e Questionari considerando l’uso:

 Un test viene utilizzato molto frequentemente anche da chi non l’ha costruito
 Un questionario, invece, è costruito ad hoc per un’ indagine dallo stesso gruppo che lo utilizzerà.

Confronto tra Test e Questionari considerando la statistica:

 Quando si conduce un’ indagine col questionario, la statistica interviene al momento della scelta
del campione e nell’ analisi dei dati
 Nei test la statistica è fondamentale della messa a punto dello strumento, mentre resta implicita
quando si utilizza

Confronto tra Test e Questionari considerando il percorso:

 Nella costruzione di un test le fasi principali sono: costruzione della batteria di item, scelta del
campione di riferimento, somministrazione, calcolo punteggi normativi, stesura modalità di utilizzo,
commercializzazione.
 Per in questionario: progettazione di un’ indagine, costruzione questionario, scelta del campione,
costruzione matrice dati, analisi statistica dei dati, rapporto finale.

TEST PSICOLOGICO: Si definisce test psicologico o reattivo psicologico una situazione scandalizzata nella
quale il comportamento di una persona viene campionato, osservato e descritto producendo una misura
oggettiva e scandalizzata di un campione di comportamento.

 Si definiscono test psicologici gli strumenti che misurano alcuni aspetti del comportamento umano
avvalendosi di procedure, metodi di “somministrazione” e interpretazione accuratamente
scandalizzati.
 I test servono a valutare quasi tutti gli aspetti del funzionamento dell’individuo, inclusi anche tratti
di personalità, atteggiamenti e motivazioni.
 L’interpretazione è basata sulla comparazione tra le risposte del soggetto e i punteggi scandalizzati
previsti per ogni risposta dal test stesso.

SITUAZIONE STANDARDIZZATA: Per situazione standardizzata s’intende una situazione in cui tutto rimane
costante, tranne il variare delle reazioni individuali; per MISURA s’intende il prodotto dell’applicazione di
regole per classificare o assegnare dei numeri a degli oggetti, in modo tale che il numero rappresenti la
quantità degli attributi o il grado in cui una qualità è presente.

 MISURA OGGETTIVA: S’intende replicabile.


 MISURA STANDARDIZZATA: S’intende che il singolo dato empirico sia ricondotto a un sistema di
riferimento più generale.

Si fa ricorso alla nozione di CAMPIONE DI COMPORTAMENTO perché un test si basa sostanzialmente sulla
selezione di alcuni comportamenti fra quelli che costituiscono il repertorio comportamentale di una
persona; infatti i comportamenti elicitati dal test devono essere rappresentativi dei comportamenti che
potrebbero osservarsi al di fuori della situazione testistica.

CARATTERISTICHE IMPRESCINDIBILI DEL TEST:

 STANDARDIZZAZIONE: La somministrazione del test deve avvenire con procedure uniformi, ossia
con le stesse modalità per tutti i soggetti.
 La standardizzazione prevede anche la determinazione delle norme statistiche, senza le quali non si
può attribuire un punteggio.

Il test inoltre deve essere VALIDO ovvero deve realmente misurare ciò che si è prefissato di misurare e
ATTENDIBILE ovvero fornire misurazioni precise, stabili e oggettive. Se in un test si vogliono mettere in
evidenza le differenze tra i soggetti dobbiamo far variare solo le caratteristiche di questi ultimi mantenendo
costante il resto. Per garantire la COSTANZA deve essere costante la situazione stimolo, quella che sarà in
grado di produrre reazioni individuali.

I test devono rispettare alcune condizioni:

 La variabile oggetto di misurazione deve essere individuata e circoscritta


 Questa variabile va chiarita prima e dopo la misurazione
 Vanno elaborate regole per la quantificazione dei risultati

L’elaborazione delle regole per la quantificazione deve tener conto di alcune problematiche:

• Le ipotesi sulla distribuzione delle risposte a un singolo item in riferimento alla distribuzione
generale della caratteristica psicologica misurata
• Le ipotesi sulla distribuzione della caratteristica psicologica nella popolazione
• L’identificazione di un punto di riferimento a cui concordare la scala numerica

La quantificazione delle risposte ai sin gli item è detta scaling, procedimento che designa la disposizione dei
tipi di risposta lungo una scala d’intensità.

CAMPIONE NORMATIVO: Il gruppo di soggetti le cui risposte al test vengono prese come termine di
riferimento per valutare le risposte di qualsiasi altro soggetto che successivamente venga sottoposto a quel
test. Per un campione normativo può essere utile evidenziare le distinzioni fra sub-campioni (es. maschio-
femmina). Si procede poi all’estrazione di un campione casuale stratificato.

Un problema basilare nell’estrazione di un campione è quello relativo alla sua ampiezza. È Inoltre
importante tener presente che quando si parla di ampiezza di un campione n normativo ci si riferisce anche
all’eterogeneità dello stesso, in termini spazio-temporali e quindi: geografici, socioculturali e di fascia d’età.

STANDARDIZZAZIONE

Non è riferita al test ma dei punteggi. Un punteggio infatti all’interno di una distribuzione ha poco senso se
viene considerato da solo, va sempre visto in relazione alla distribuzione in cui si colloca. Per capire il
significato di un dato valore dobbiamo riferirlo a una distribuzione di punteggi del gruppo di cui fa parte e
dobbiamo trovare il modo di definire la posizione di un soggetto all’interno di una distribuzione di
frequenza. In questo modo possiamo confrontare 2 prestazioni dello stesso soggetto entro due diverse
distribuzioni e anche confrontare le prestazione di soggetti diversi in differenti distribuzioni. In questo caso
standardizzare significa riferire la misura ad una scala standard di cui sono noti i parametri (media e
varianza).

NOTA: Quando parliamo di test, la standardizzazione è un sinonimo di taratura cioè la somministrazione di


un test ad un ampio e rappresentativo campione di soggetti in condizioni uniformi al fine di determinare le
norme statistiche.

Quando dobbiamo standardizzare i punteggi, utilizzeremo degli indicatori di tendenza centrale e di


dispersione (media e deviazione standard).

La standardizzazione ha lo scopo di rendere i dati direttamente confrontabili, caratteristica che i dati grezzi
non possiedono se vengono mantenuti nella forma originale.

Una delle scale più comunemente utilizzare è quella standard o z, che ha media=0 e varianza=1. Questa
scala si ottiene trasformando i punteggi x(i) di una distribuzione in punteggi z(i) tramite la formula z= (X-
media)/ s per cui ad ogni punteggio sottraiamo la media e lo dividiamo per la deviazione standard. Ciò
significa spostare l’origine sulla media e usare come unità di misura la deviazione standard. Effettuare
questo tipo di trasformazione, consente di riferire una misura ad una scala standard con media uguale a 0 e
deviazione standard uguale a 1. Questa trasformazione significa esprimere i valori come distanza dalla
media in termini di deviazione standard. Possiamo in questo modo anche confrontare due risultati relativi
allo stesso soggetto che ha ottenuto due punteggi in due test che misurano due elementi diversi.

Oltre alla scala in punti Z possiamo usare altre scale come:

 scala in punti T: abbiamo media=50 e deviazione standard=10, varierà tra 0 e 100 (non prevede
valori negativi). Per calcolare i punti T dobbiamo calcolare i punti Z che verranno moltiplicati per 10
e aggiunti a 50 (T=50+10z).
 scala stanine (standard nine): abbiamo media=5 e deviazione standard=2. La formula sarà stanine=
5+2z.
 scala sten (standard ten): abbiamo media=5,5 e deviazione standard=2. Avremo così sten=5,5+2z

Possiamo usare anche il rango percentile di un punteggio x, cioè RP(x), può essere definito come la
percentuale di dati che assumono valore minore o uguale a x. Anche in questo caso, è una
standardizzazione che si basa sulle posizioni dei soggetti nella distribuzione dei punteggi. Se un soggetto a
un punteggio x(i), dire che RP(xi)=45 significa dire che nella distribuzione ordinata dei dati il punteggio x(i)
lascia alla sua sinistra il 45% dei dati della distribuzione. Percentile e rango percentile sono due cose
diverse, in quanto il percentile è un valore mentre il rango percentile è una posizione associata ad una
percentuale.

LEZIONE 12-13

Errore standard di misurazione: uno dei modi di utilizzo dell’attendibilità.

Ogni misurazione è affetta da errori X=V+E e da ciò deriva che E=X-V. Da questo approccio è possibile
stabilire una relazione tra i punteggi veri e gli errori dei punteggi osservati: questa relazione è detta
attendibilità. Non è possibile quantificare la componente di errore ma è possibile stimarne la varianza.
L’errore di misurazione è possibile calcolarlo solo con numerosissime misurazioni di uno stesso soggetto.
Utilizzando il coefficiente di attendibilità e i punteggi osservati in un campione di soggetti, abbiamo la
possibilità di stimare l’errore. Dalla formula della varianza di errore cioè s^2e=s^2x(1-attendibilità)
possiamo calcolare la deviazione standard, cioè la radice quadrata della varianza che corrisponde all’errore
standard di misurazione se=s radquad(1-attendibilità). Esso è importante perché espresso in termini di
punteggi che osserviamo e ci permette di applicare alcuni processi statistici per i quali possiamo stimare la
relazione tra i punteggi che osserviamo e quelli veri.

L’errore standard di misurazione ci permette di calcolare l’intervallo di fiducia al cui interno si trova il
punteggio vero, cioè in termini di probabilità possiamo stabilire un range di punteggi osservati dove
possiamo trovare il punteggio vero e che quindi il punteggio osservato coincida con quello vero P(X-V=0). La
relazione X-V si può rappresentare secondo la curva a campana o gaussiana, quindi interpretala in termini
di distribuzioni di frequenza. Rapportando quindi ad una curva normale, si metterà la probabilità uguale a
1-alpha e parleremo così dell’area della curva normale che rappresenta la probabilità -> P(X-V=0)=1-alpha.
Essendo impossibile che X e V coincidano in quanto c’è sempre una percentuale di errore, nella curva
considereremo e rappresenteremo X (punteggio osservato) più a destra o più a sinistra di V (punteggio vero
e fisso in questo caso) e l’errore E sarà la distanza tra X e V. P(X-V=0)=1-alpha significa misurare la distanza
tra X e V e decidere sulla base di alpha (errore di inferenza che noi accettiamo) che X e V possano essere
uguali; ciò ci permette di dire con una certa fiducia che esiste il punteggio vero, poiché se ciò che fa
spostare il punteggio osservato da quello vero è l’errore allora il parametro fondamentale che determina lo
scostamento è la deviazione standard di questo errore che è esattamente l’errore standard di misurazione.
1-alpha è l’area in cui accettiamo l’ipotesi nulla che X sia uguale a V, mentre alpha è l’area in cui la
rifiutiamo e accettiamo alpha. Perciò possiamo scrivere anche P(Xinf minoreuguale V minoreuguale
Xsup)=1-alpha, cioè di trovare il punteggio vero all’interno di una distribuzione di punteggi osservati.
Attraverso l’errore standard di misurazione possiamo stabilire la distanza che c’è tra il punteggio osservato
e quello vero, cioè qual è il valore di un determinato valore della curva normale in termini di punteggio. 1 è
tutta la curva e alpha è il pezzetto di curva che potrebbe essere erronea. l'utilizzo della distribuzione di
probabilità serve a raggirare l'impossibilità di fare infinite misurazioni perchè appunto il punteggio vero
sarebbe la media di infinite misurazioni. Xinf e Xsup dicono che facciamo una buona rappresentazione del
punteggio vero, per trovarli utilizziamo la curva normale e i parametri della curva: Xsup=x+ valore Z critico
moltiplicato per l’errore standard, Xinf=x-valore Z critico moltiplicato per l’errore standard. Si moltiplica per
l’errore standard perché la curva è standardizzata.

L’errore standard è importante per calcolare la differenza tra punteggi: le domande a cui possiamo
rispondere sono “come possiamo stimare le differenze di punteggi di due soggetti allo stesso test?” e
“come possiamo stimare le differenze di punteggi dello stesso soggetto a due test diversi?”. Anche in
questo caso si utilizza l’errore standard per calcolare la deviazione standard delle differenze tra i punteggi,
cioè come gli errori si distribuiscono tenendo conto delle differenze dei punteggi, e ciò ci consente di
verificare la significatività statistica della differenza dei due punteggi. Per stimare la differenza tra i
punteggi veri di A e di B, abbiamo bisogno di ricondurre i loro punteggi veri alle loro osservazioni Xa e Xb,
cioè ai loro punteggi che sono affetti da errore. Tramite la differenza di Xa e Xb, dobbiamo stimare la
differenza tra Va e Vb. Ma la differenza di Xa e Xb può essere molto diversa a parità di differenza di
punteggi veri, infatti possono essere più vicino o più distanti. Per verificare se i due punteggi osservati di 2
soggetti sottoposti allo stesso test, dobbiamo verificare delle ipotesi: innanzitutto nell’ipotesi nulla che i due
punteggi veri siano uguali(H0: Va=Vb) e l’ipotesi alternativa in cui i due punteggi veri sono diversi (H1: Va
diverso da Vb). Per verificare le ipotesi, dobbiamo riportare la differenza dei punteggi veri Va-Vb su una
curva normale e dal calcolo della differenza dei punteggi osservati (Xa-Xb) dobbiamo stabilire se i punteggi
veri sono uguali o meno (cioè verificare le due ipotesi).

 Perciò andiamo a vedere sulla curva se la differenza nei punteggi osservati sia distante dal punto
zero (centro della distribuzione) così da far ricadere la differenza all’interno dell’area di rifiuto
dell’ipotesi nulla o all’interno dell’area di accettazione dell’ipotesi nulla.
 Lo scostamento che abbiamo tra la differenza dei punteggi veri e la differenza dei punteggi
osservati dipende dall’errore, perciò dobbiamo prima trovare e poi calcolare quale sia l’unità di
misura di questa curva normale affinchè ci permetta di rapportare in maniera corretta i due
punteggi. Quindi dobbiamo calcolare l’alpha e individuare il rapporto critico cioè il punteggio che
ricade dove inizia l’area di rifiuto;
 poi calcoliamo l’errore standard;
 poi dobbiamo calcolare l’unità di misura di quella curva, cioè calcolare qual è la deviazione standard
che ci permette di rapportare la differenza tra i due punteggi, ovvero calcolare l’errore standard
delle differenze tra i due punteggi, perciò dobbiamo tenere conto dei due errori standard dei due
punteggi (sigma diff è l’errore standard delle differenze dei punteggi).
 Per determinare sigma diff notiamo che i due test di A e B sono uguali per cui hanno la varianze di
errore uguali;
 in seguito notiamo che la varianza della differenza degli errori deve essere scomposta nei suoi
elementi, per la regola delle varianza che dice che la somma o la differenza di 2 varianze si
scompone nella varianza del primo termine (s^2EA)+ la varianza del secondo termine (S^2EB) – 2
volte la covarianza dei due termini. Dalla teoria classica sappiamo che la covarianza è nulla perciò la
varianza della differenza degli errori è uguali alla somma delle varianze di errore dei due termini. Da
ciò segue, siccome che le due varianze sono le stesse perché i soggetti sono sottoposti allo stesso
test, possiamo dire che la varianza di A e la varianza di B sono uguali (s^2EA=s^2EB) e perciò
possiamo identificarle nella varianza dell’errore del test totale (s^2E).
 Dunque la varianza della differenza degli errori è uguale a 2 volte la varianza dell’errore (s^2EA-
EB=2s^2E) la cui deviazione standard sarà la radice quadrata di s^2E e perciò si deduce la
deviazione standard delle differenze degli errori (cioè sigma diff) è uguale a all’errore standard per
la radice di 2 (cioè 1,4142), ovvero la nostra unità di misura che ci permette di rapportare nella
curva normale.
 Il valore standardizzato si calcola dal rapporto critico della differenza (z diff) cioè (Xa-Xb)/sigma
diff. Bisogna poi verificare se lo z diff sia maggiore dello z critico (cioè il numero nella tabella dei
punteggi standardizzati che corrisponde all’alpha che abbiamo), se lo fosse rientrerà nell’area di
rifiuto dell’ipotesi nulla.

Per stimare le differenze tra i punteggi di uno stesso soggetto a due test differenti si usa lo stesso
procedimento: essendo i due test diversi avremo le due varianze di errore diverse (s^2EA diverso da s^2EB)
per cui la varianza della differenza di errore di A e B sarà la radice quadrata della somma delle due varianze
di errore di A e B. Calcoliamo alpha e il rapporto critico, calcoliamo l’errore standard per i due test,
calcoliamo la deviazione standard dell’errore della differenza tra i punteggi, calcoliamo il rapporto critico
della differenza cioè lo z diff, ci chiediamo se z diff sia maggiore dello z critico.

Per alcuni valori specifici di alcuni soggetti all’interno di una popolazione particolare e a causa delle
distorsioni dovute alla natura della curva normale, in alcuni casi la stima dell’intervallo di fiducia di soggetti
distanti dal punto medio della popolazione non è accurata. Per una stima corretta, bisogna corregere la
lettura del punteggio osservato e questo lo si fa stimando il punteggio vero e dopo calcolando l’intervallo di
fiducia sul punteggio vero stimato e non su quello osservato. Per la stima del punteggio vero, si utilizza
l’attendibilità per correggere la differenza che troviamo tra il punteggio del soggetto e la sua media ovvero
V’= media + Rtt (attendibilità) moltiplicata per (X- media); se l’attendibilità fosse 1 e quindi non ci fossero
errori sarebbe solamente V’= media + (X – media). Dopo aver stimato il punteggio vero calcoliamo
l’intervallo di fiducia: Vsuperiore= V’ + z1-alpha per sE, Vinferiore= V’ – z1-alpha per sE, P (Vinf minore
uguale V minore uguale Vsup)=1-alpha.

Potrebbero piacerti anche