Sei sulla pagina 1di 41

Buono studio!!!


Monica

MODULO 5
DISPENSA - LA VALIDITÀ
Pedon e Gnisci (2004) hanno proposto un approccio ben strutturato che può agevolare la
comprensione di un concetto complesso e multisfaccettato come quello della validità e che in
fondo recupera la concezione tradizionale che distingue diversi aspetti: la validità di contenuto,
l'attendibilità, la validità di criterio (concorrente e predittiva) e la validità di costrutto (esterna
e interna). Con la comprensione di queste nozioni i successivi approfondimenti e le altre riflessioni
più ampie di validità possono essere acquisite con facilità. Laddove si discuta di validità di uno
strumento di misura, è necessario considerare che si intende, oltre ad una definizione concettuale e
operativa del costrutto che si vuole misurare, anche la definizione delle relazioni con misurazioni
diverse del costrutto, con misure di altri costrutti all'interno di un sistema teorico e con misure di
variabili presenti nel mondo reale.
LA VALIDITÀ PER LA RICERCA
Lo svolgimento delle attività di ricerca sperimentale ha la necessità di avere dei riferimenti, sia
di carattere progettuale e organizzativo come il piano di ricerca sia le procedure di controllo in
modo da poter dare dimostrazione di validità per tutte le attività condotte per la ricerca stessa.
La definizione di Cook e Campbell si riferisce alla validità come alla «migliore
approssimazione disponibile alla verità o alla falsità di proposizioni» relative alle conclusioni
della ricerca stessa [Cook e Campbell 1979, 37].
Considerando il progetto di ricerca nella sua totalità alla parola validità è possibile assegnare
un significato molto ampio corrispondente alla logicità, coerenza, robustezza, e attendibilità
della ricerca stessa, e delle sue parti e attività, e quindi alla effettiva corrispondenza tra mondo
reale, trasposizione concettuale e conclusioni derivate dalle attività d’indagine e di analisi
compiute. Poiché la conoscenza e il controllo delle/sulle condizioni di un esperimento, soprattutto
nelle situazioni di quasi sperimentazione, sono sempre ridotte è indispensabile
accentuare gli aspetti del verifica di tutti gli elementi che, nell’ambito della ricerca, possono
pregiudicare sia le singole attività sia la logica della ricerca stessa. Per questa ragione è stata
assegnata molta importanza alla problematica della validità distinguendone, per i vari livelli e
fasi della ricerca, le forme, lo scopo e i procedimenti per assicurarne il raggiungimento.
Pedon e Gnisci (2004) mettono in evidenza i cinque aspetti generalmente connessi alla validità
il primo dei quali riguarda l'esistenza o meno di una relazione causale tra variabile indipendente
e quella dipendente nelle condizioni e sui soggetti realmente studiati. Il secondo aspetto il
secondo tende a verificare se la relazione riscontrata tra le suddette variabili in una particolare
ricerca vale anche per persone diverse da quelle esaminate, per altre situazioni, altri luoghi e
altri tempi. Il terzo mira ad assicurare che la ricerca effettivamente misuri quello che il
ricercatore si è proposto di misurare, mentre il quarto aspetto della validità controlla se i risultati
della ricerca sono dovuti alla manipolazione della variabile indipendente oppure a variazioni
casuali. L’ultimo punto il quinto riguarda la possibilità o meno di generalizzare i risultati
ottenuti in laboratorio alla vita vissuta in un ambiente naturale. Nei livelli e nelle fasi della ricerca gli
elementi importanti sono i seguenti: la presenza di una, o più, relazione causale tra variabili
indipendenti e dipendenti; la verifica dell’evidenza di simili o analoghe relazioni riscontrate tra le
variabili analizzate nella ricerca in altre situazioni, altri luoghi, altri tempi, per persone simili o diverse
da quelle esaminate; l’assicurare che nella ricerca si arrivi ad ottenere i risultati attesi, ovvero si misuri
effettivamente quello che si era proposti di misurare; la verifica della possibilità di generalizzare i
risultati sulla base del riscontro positivo delle variazioni causali ottenute; la verifica della possibilità
o meno di generalizzare i risultati complessivi della ricerca, o di una sua parte, nell’ambito della realtà
o educativa o psicologica o sociale. Alle forme della validità sono stati associati nomi diversi, anche
in funzione degli scopi da soddisfare. In particolare, gli scopi possono essere ricondotti a due grandi
aree: complesso della ricerca e complesso delle misure. Considerando questo raggruppamento si
hanno le seguenti forme di validità:
area del progetto di ricerca (o della indagine) (Cook e Campbell (1979) hanno distinto questi cinque
tipi di validità):
- validità interna
- validità esterna
- validità di costrutto
- validità statistica
- validità ecologica
area della misurazione (o dello strumento)
- validità di contenuto
- validità di criterio
- validità concorrente
- validità convergente
- validità discriminante
Di seguito si descriveranno le diverse forme della validità, considerando comunque che le stesse
non sono indipendenti le une dalle altre; la suddivisione operata è stata realizzata per rendere
evidente che gli aspetti della validità sono compresenti in tutte le categorie e aree.

LA VALIDITÀ DEL PROGETTO DI RICERCA


In questo ambito sono state inserite le forme di validità che attengono alla struttura della ricerca
sia logica sia concettuale sia di trasposizione della struttura concettuale in struttura di indicatori
e variabili misurabili.
La validità interna
Tra le forme di validità che sono stati inseriti nell’area della ricerca, la validità interna occupa
una fondamentale posizione in quanto riguarda la teoria, o teorie, di riferimento e la logica della
ricerca stessa; lo scopo è di spiegare i fenomeni osservati e di prevederne di nuovi. Dal punto
di vista della sperimentazione questa forma è collegata alla verifica dell’esistenza di un legame
costante tra la variabile indipendente (VI) e quella dipendente (VD). Si ha validità interna, quindi,
quando sperimentalmente è possibile stabilire una relazione, tra queste due variabili, confermandone
la causalità; cioè, quando risulta che una modifica applicata alla variabile indipendente provoca
direttamente, ovvero causa, una modifica nella variabile dipendente.
La relazione, comunque, per essere considerata causale deve soddisfare due requisiti: la
direzione, ovvero la simmetria, e l’assenza di fattori di confusione. La direzione riguarda il
verso del legame tra la VI e la VD; infatti, occorre la certezza che il cambiamento determinato
volontariamente sulla variabile indipendente è causa dei cambiamenti sulla variabile dipendente
e non il viceversa. La direzione è ricavata dalla catena temporale: se la modificazione della
variabile indipendente precede e influisce sul cambiamento della variabile dipendente, allora si
può ragionevolmente supporre che la prima, cioè VI, influisce sulla seconda, cioè VD. Il
requisito dell’esclusione dei fattori di confusione, invece, implica il controllo di tutte le variabili
che sono potenzialmente in grado di influire sulla relazione causale. L’accertamento della
validità interna consiste nell'esaminare e respingere perché logicamente non plausibili le
interpretazioni alternative delle relazioni tra variabili, ovvero nel provare che le modifiche della
variabile dipendente sono determinate direttamente da quelle della variabile indipendente e non
dipendono dall'influenza di terze variabili (dette di disturbo). In questo caso, il compito del
ricercatore consiste nell'eliminare tutte le possibili minacce alla validità e nel creare procedure
adeguate perché la relazione di causa ed effetto sia genuina.
Vari motivi possono minacciare la validità interna di un esperimento. Tra questi ci sono: le
variabili di confusione, gli errori derivati dai partecipanti alla sperimentazione, gli errori
cagionati dallo sperimentatore. Con l’espressione di variabili di confusione si vuole designare il
possibile scambio nell’ambito dell’attività sperimentale di variabili importanti con variabili
indipendenti o sperimentali. In pratica, in molte situazioni sperimentali il ricercatore non può
controllare alcune variabili sperimentali, come quando i soggetti devono essere selezionati secondo
la presenza o assenza di una condizione anziché essere assegnati a queste. Ad esempio, una variabile
che non può essere assegnata dal ricercatore è il sesso: i gruppi di genere sono già formati (se la
variabile sesso è quella indipendente e di fondamento per l’esperimento allora siamo in una situazione
di quasi-esperimento). Altre importanti condizioni in un esperimento, per evitare la confusione, sono
relative a: la selezione, la mortalità, l’effetto storia, i processi di maturazione, la strumentazione,
l’effetto statistico, l’effetto delle prove. E coinvolge anche le possibili relazioni, come la selezione e
maturazione, l‘interazione tra selezione e storia, ecc.
In particolare:
1. Selezione. Nella progettazione ed esecuzione di un disegno sperimentale, occorre
considerare che il gruppo sperimentale e quello di controllo devono essere equivalenti
rispetto a tutte le variabili d’interesse. Alcuni fattori o condizioni possono minacciare
l’equivalenza iniziale dei gruppi, come ad esempio: la motivazione, il livello di
intelligenza, la rapidità di apprendimento, ecc.. Tali variabili possono impedire che il
risultato del gruppo di controllo sia la misura di paragone per il gruppo sperimentale.
Se i due gruppi non risultano equivalenti, in base proprio alla non corretta selezione e
numerosità dei soggetti, ogni effettiva differenza rilevata tra gruppo sperimentale e
gruppo di controllo nel post-test, può essere erroneamente attribuita al trattamento.
2. Mortalità. Riguarda la possibile perdita, o defezione, differenziale dei soggetti nei due
gruppi. Nell’attività sperimentale può verificarsi, anche frequentemente, che, dopo il
pre-test, alcuni soggetti si ritirino da uno dei due gruppi. Tale sottrazione può influire
sui risultati dell’esperimento.
3. Effetto storia. Con questa espressione si fa riferimento ad ogni evento che, durante il
corso di un esperimento, produce un effetto che si sovrappone a quello della variabile
indipendente (vedi anche effetto delle prove), producendo confusione sul rapporto
causale tra le variabili sperimentali. L’effetto storia riguarda eventi, anche personali, che possono
verificarsi durante il periodo di compimento dell’esperimento. Gli effetti
storia si verificano soprattutto negli esperimenti che hanno due misurazioni: una prima
del trattamento ed una dopo (cioè il pre-test ed il post-test).
4. Processi di maturazione. Rientrano in questa categoria i cambiamenti, di ordine
biologico e psicologico, che avvengono col trascorrere del tempo. Ad esempio, tra gli
aspetti biologici si rilevano la coordinazione, la fame, la fatica, ecc. Tra gli aspetti psicologici, invece:
la stanchezza, la noia, l’acquisizione di nuove conoscenze, la motivazione, l’interesse, ecc.. Un
esempio di confusione prodotta dalla maturazione può essere preso dagli studi sulla teoria della
detenzione del segnale, o teoria della rivelazione. Queste ricerche prevedono che ai soggetti sia
assegnato il compito di discriminare, e di rispondere al minimo indizio, in uno stimolo uditivo, visivo
o tattile, il vero segnale rispetto al possibile rumore, o disturbo. Nella pratica si è evidenziato che, tra
una prova e l’altra, i soggetti modificano i loro criteri di decisione nel riconoscimento del segnale in
presenza degli stimoli. L’origine della modifica, e quindi dei cambiamenti, si ritiene che derivi dai
soggetti stessi che durante le prove modificano le proprie aspettativa, le motivazioni, oppure si
stancano. Sulla base di questi processi, la possibile differenza, positiva o negativa, riscontrata sulle
variabili nel post-test, oltre che al trattamento, può quindi derivare da fattori di ordine o biologico
oppure psicologico.
5. Strumentazione. La strumentazione o educativa o psicologica (interviste, questionari,
test), può esercitare una influenza sull’affidabilità delle misurazioni attraverso alcune variabili. Ad
esempio l’aumento di esperienza, la stanchezza, la disattenzione. Inoltre, con l’aspetto della
strumentazione si comprende anche, non solo la variabilità dovuta alla struttura degli strumenti, la
variabilità dovuta agli sperimentatori. Se nella fase di post-test, rispetto al pre-test, il somministratore
è diverso da chi aveva gestito la prima, le differenze riscontrate tra i risultati, oltre al trattamento,
possono essere dovute anche alla sostituzione o degli strumenti o degli sperimentatori o di entrambi.
6. Effetto statistico. Nella sperimentazione occorre considerare che gli effetti derivanti
dalla storia, maturazione, prove, hanno anche un effetto, ovvero sono rilevabili, sulle stesse
elaborazioni utilizzate per accertare, ad esempio, la presenza di causalità. Ad esempio, in
sperimentazioni in cui si realizzano delle prove ripetute sugli stessi soggetti
e sulla stessa variabile, risulta che i punteggi estremi tendono a regredire verso la media; cioè, i
soggetti con punteggi di valore estremo (o positivo o negativo) in una prova, in quella successiva (o
successive) ottengono dei punteggi più vicini ai valori medi. Questa manifestazione non implica
comunque la presenza di assenza di affidabilità dei punteggi molto alti e molto bassi; semplicemente
registra gli effetti derivanti dalla partecipazione alle prove stesse e quindi è possibile predire la
probabile direzione dei risultati nelle prove successive. Così, i punteggi molto alti tenderanno
lievemente a regredire, pur rimanendo nei ranghi più alti della distribuzione; nello stesso tempo anche
i risultati più estremi tenderanno a migliorare, pur rimanendo nei ranghi più bassi della distribuzione.
7. Effetto delle prove. La partecipazione alle prove sperimentali, le stesse più volte, produce un effetto
di apprendimento che può influire sui risultati delle prove successive (ad esempio nelle prove di
logica, di matematica, ecc.). Questi effetti, quindi, sono più pronunciati nei reattivi che misurano le
abilità, come la memoria, l'intelligenza, la soluzione di problemi, ecc. Poiché il presupposto
fondamentale del disegno con un gruppo sperimentale ed uno di controllo è l’equivalenza dei gruppi,
a volte il ricercatore controllo a volte costituisce una minaccia alla validità interna, poiché i
risultati del post-test potrebbero essere dovuti alla combinazione dell’effetto del trattamento e
dell’abilità acquisita nella prova preliminare.
Per le relazioni,
1. Interazione tra selezione e storia, selezione e maturazione, ecc.. In questo caso i
possibili rischi per la validità, presentate precedentemente, derivano dall’agire
interdipendente, degli effetti di confusione, e spesso producono effetti nuovi, diversi da
quelli che provocano da soli.
1. Le minacce alla validità interna
Per contrastare le minacce alla validità interna sono stati proposti alcuni metodi per controllare o le
minacce nel loro complesso oppure le minacce dovute a particolari variabili. Per ridurre gli effetti
della storia in genere è possibile utilizzare i seguenti metodi:
1. Casualizzazione delle condizioni sperimentali. Questo criterio si riferisce al distribuire equamente
le più importanti fonti di errore tra gruppi sottoposti ad esperimento (ad esempio, lo svolgimento della
sperimentazione come il momento del giorno o il giorno della settimana),.
2. Controllo della costanza. Questo criterio riguarda il mantenere costanti, il più possibile, le
condizioni delle sperimentazioni, per tutti i soggetti e per tutto il periodo
sperimentale, ad eccezione del trattamento.
3. Unica sessione e stessa situazione. Per mantenere costanti e comuni a tutti i soggetti le
distorsioni, dovute a sessioni sperimentali diverse e a situazioni differenti, si deve eseguire
l’esperimento, quando è possibile, in un'unica sessione e nello stesso ambiente. Inoltre, per evitare
che fattori estranei concorrano con il trattamento a influenzare i soggetti sperimentali, e quindi i
risultati rilevati, si può ridurre il tempo tra il pre-test e il post-test.
I processi di maturazione possono essere resi inefficaci attraverso l’uso di misurazioni ripetute
ad intervalli costanti, avvalendosi sempre di un gruppo di controllo. La variabilità dovuta alla
strumentazione è annullata attraverso il mantenere costanti tutte le variabili della sperimentazione.
Gli effetti delle prove, invece, possono essere rimossi utilizzando i seguenti procedimenti:
- far passare il pre-test come evento ordinario della vita dei gruppi, ad esempio si può considerare
come pre-test un compito scolastico sull’argomento della ricerca;
- eliminazione del pre-test, quando l’equivalenza dei gruppi è assicurata dalla effettiva scelta casuale
dei singoli partecipanti e la loro numerosità è conforme alle regole del campionamento;
- utilizzare il disegno di Salomon, che prevede nel suo schema sperimentale il
controllo degli effetti del pre-test.
Gli effetti statistici sono resi inefficaci estraendo a caso, dalla stessa popolazione, un gruppo di
controllo che mantiene le caratteristiche nel tempo per valutare i cambiamenti dovuti alle
elaborazioni statistiche. Per quanto riguarda la mortalità non vi sono procedimenti di controllo
sufficientemente efficaci. E’ consigliabile effettuare le prove in tempi molto ravvicinati, qualora sia
possibile, in modo da limitare l’allontanamento dei soggetti.
La validità esterna
L’obiettivo in questo caso è quello di accertare che la relazione riscontrata fra le variabili in una
data ricerca risulti generalizzabile, ovvero inferire le conclusioni anche a situazioni, popolazioni,
ambienti e tempi diversi (ma con caratteristiche simili) da quelli in cui è stata condotta la ricerca. In
pratica la componente esterna della validità relativa ad un esperimento consiste nel poter
generalizzare le conclusioni per gli individui e per contesti differenti da quelli che sono stati
considerati nella ricerca condotta. La validità esterna, quindi, riguarda l’applicabilità dei risultati sia
a soggetti diversi da quelli sperimentali, sia a situazioni, condizioni, luoghi e tempi differenti da quelli
utilizzati durante la ricerca. Del resto, lo scopo della ricerca sperimentale è quella di giungere a
risultati e conoscenze generalizzabili (La possibilità che i risultati di un esperimento possano essere
generalizzati si basa su tre assunzioni della scienza: l’ordine della natura, per il quale se una
situazione sperimentale consente di verificare un effetto in modo obiettivo per un particolare gruppo
di soggetti, lo stesso effetto si verificherà probabilmente con altri soggetti e in altre situazioni;
l'assunzione di parsimonia, il quale prevede che, a parità di condizioni, tra due spiegazioni è migliore
la più semplice; il determinismo, secondo cui tutti gli eventi naturali sono determinati da precedenti
eventi e il loro accadere obbedisce a leggi naturali universali). Il modo più semplice per ottenere la
validità esterna è di ripetere la ricerca stessa, cambiando una o più variabili riguardanti o i soggetti
e/o l'esperimento. In questo modo si può ottenere una attendibilità (reliability) della ricerca;
richiedendo un notevole sforzo, risorse e tempi questo metodo è poco praticato. Un altro metodo per
ottenere la validità esterna consiste nel scegliere la giusta popolazione di riferimento e la numerosità
campionaria adeguata a rappresentare la popolazione da cui i soggetti sono tratti (ampiezza del
campione). Infatti, l’ampiezza del campione è in diretta relazione con la probabilità che esso
rappresenti l'intera popolazione, di conseguenza più grande è il campione maggiore sarà la sua
rappresentatività.
Le minacce alla validità esterna
Le minacce alla validità esterna possono derivare in particolare dai limiti della validità di
popolazione, e del campione, e temporale. La prima riguarda essenzialmente la difficoltà di reperire
i soggetti che rientrano nella popolazione della ricerca; in questo caso occorre stabilire sempre in
modo preciso la popolazione di riferimento e le modalità di accesso ai suoi individui per la
realizzazione del campione. Per situazioni specifiche, si fa riferimento ai criteri e alle tecniche di
campionamento statistico. Per la validità temporale, invece, le minacce possono derivare dalle
variazioni stagionali, da quelle cicliche e da quelle della persona o dell’individuo. Ad esempio, gli
studenti e i docenti durante il periodo estivo (variazione stagionale) non sono presenti a scuola e
quindi una campagna pubblicitaria durante la stagione estiva nelle scuole contro il bullismo sarebbe
vanificata.
Nelle situazioni che possono minacciare la validità esterna ci sono anche le seguenti:
1. La struttura del disegno sperimentale può limitare la validità esterna quando, ad esempio, si utilizza
il pre-test che, oltre a limitare la validità interna, può ridurre anche quella esterna, producendo nel
soggetto sperimentale una certa maturazione, per cui il soggetto affronterà il post-test in modo diverso
da chi non è stato sottoposto al pre-test.
2. La tendenza dei soggetti sperimentali a rispondere in modo compiacente in assenza
di qualsiasi intervento dello sperimentatore.
3. La mancanza di conoscenza di alcuni parametri importanti dei soggetti partecipanti
alla sperimentazione relativi a qualità particolari degli stessi soggetti. Per controllare queste variabili
di solito sono adottati criteri statistici successivi a quelli utilizzati preliminarmente per la
randomizzazione dei soggetti destinati ai vari trattamenti.
Infine, un limite per la generalizzazione dei risultati ottenuti con i disegni a misure ripetute
deriva dalla ripetizione delle prove, che può provocare effetti di confusione dovuti all'ordine e alla
sequenza. Anche se, i ricorsi alle tecniche di controllo, come il contro-bilanciamento (vedi paragrafo
successivo del controllo), e l’uso di intervalli adeguati possono ridurre gli effetti, l’esposizione
multipla ai trattamenti comporta sempre qualche minaccia alla validità esterna. Possono, comunque,
essere utilizzati degli stratagemmi per aumentare la validità esterna, e possono essere adoperati tanto
negli esperimenti sul campo quanto in quelli di laboratorio. Il primo metodo è quello di adoperare
misurazioni non intrusive, il secondo quello di raccogliere i dati prima che i soggetti si accorgano che
il ricercatore ha iniziato il suo lavoro d'indagine; e quando è possibile, si consiglia di condurre la
ricerca in condizioni naturali. Come abbiamo precedentemente visto, gli studi condotti in ambienti
naturali, presentano maggiori garanzie degli studi di laboratorio per la validità esterna.
Ma si deve tener presente che gli esperimenti non sono sempre condotti per generalizzare i dati a tutte
le situazioni, ma anche per altri scopi, per cui in questi casi è inutile preoccuparsi troppo della validità
esterna. Per esempio, è possibile condurre un esperimento per determinare se qualcosa può accadere
e non se essa accade nella vita di tutti i giorni.
LA VALIDITÀ STATISTICA
Validità statistica: controlla, attraverso l'applicazione di specifiche tecniche statistiche, che i
risultati della ricerca non siano dovuti al caso ma ad un'effettiva relazione causale tra le
variabili, e quindi alla diretta manipolazione della variabile indipendente. (Miragliotta, Catalano,
Cerniglia, 2009 p.54 )
La validità statistica è collegata alla validità interna; ambedue hanno per scopo la verifica del
rapporto tra le variabili sperimentali, ovvero se è di tipo causale o meno. L'importanza di questa
validità è legata al fatto che, nella pratica degli esperimenti, i risultati sperimentali sono spesso
caratterizzati da un’ampia variabilità; in effetti unità sperimentali diverse, sottoposte allo stesso
trattamento forniscono risultati diversi. Questo esito può risiedere, in primo luogo, dalle
caratteristiche, o proprietà, dei soggetti sottoposti a trattamento e può essere attribuita alle
differenze individuali che non sono state o non possono essere controllate. Dalla grandezza di
questa variabilità dipende la precisione dell’esperimento, cioè la possibilità di ottenere risultati
simili, se non uguali, qualora la ricerca venga ripetuta. In secondo luogo, può mancare
l’uniformità nel modo in cui l'esperimento viene materialmente eseguito, o allo scarso controllo
delle variabili di confusione; ovvero, alla mancanza di accuratezza. Infine, è possibile attribuire
al caso, cioè ad una molteplicità pressoché infinita di condizioni non analizzabili singolarmente,
l’influenza sui risultati sperimentali. In questi casi, comunque, la variabilità può essere valutata
mediante i metodi statistici. Per le prime due situazioni, il controllo della variabilità si può compiere
con determinate tecniche di campionamento ed appropriati disegni sperimentali; la variabilità
introdotta dal caso, invece, può essere controllata dalla validità statistica. Si deve far presente, però,
che il controllo e la procedura di randomizzazione sono stabiliti prima di raccogliere i dati e ciò
consente di modificare le condizioni sperimentali, finché sembrano sufficientemente precise ed
accurate. La validità statistica, invece, può aver luogo solo dopo che i dati sono stati raccolti e
quindi non consente di anticipare alcun rimedio immediato, ma può indicare se esiste la
necessità di modificare le condizioni sperimentali e di controllo in successivi esperimenti.
La validità statistica raggiunge il suo scopo attraverso il calcolo delle probabilità e l’inferenza
statistica, ovvero considerando i procedimenti che consentono di valutare, entro certi limiti, la
variabilità dei fenomeni che avrebbe luogo se agisse solo il caso. In genere, questi procedimenti
comportano il confronto tra la variabilità empiricamente osservata e quella teorica prevista dal
calcolo delle probabilità. Se da tale confronto emerge che la variabilità empiricamente osservata
è molto superiore alla variabilità teorica, il residuo può essere spiegato solo stabilendo che oltre
al caso deve aver agito qualche altro fattore; ossia è plausibile che fattori sistematici dovuti ai
trattamenti sperimentali abbiano determinato la variabilità dei risultati. Questa conclusione può
accettarsi solo dopo aver stabilito delle precisazioni relative alle distribuzioni di probabilità
delle variabili considerate; cioè dopo aver definito le ipotesi statistiche. Un’ipotesi statistica
attribuisce determinate probabilità di manifestazione ai singoli valori di una variabile, ad
esempio la probabilità di ottenere 1 tirando un dado è pari ad 1/6. Le ipotesi statistiche
riguardano il valore dei parametri o la forma di una legge di distribuzione di una popolazione,
della quale ci si propone di verificare la validità in base ad osservazioni su delle unità
(campione) appartenenti a tale popolazione o sui risultati di uno schema sperimentale.
Per affermare l'esistenza (su basi probabilistiche) di relazioni empiricamente difendibili fra le
variabili al centro delle ricerche vengono utilizzati test statistici, che permettono di rispondere
a due tipi di domande circa la relazione fra le variabili:
1. La relazione individuata è diversa da zero nella popolazione?
2. Se la relazione è differente da zero, quanto è grande l'effetto (o la relazione) individuato?

La relazione di interesse può essere rilevata attraverso diverse tecniche: analisi delle
correlazioni, della regressione, o confronti fra le medie. Sorvolando sulle differenze fra gli
obiettivi delle diverse tecniche di analisi, dal punto di vista concettuale il quesito cui le varie tecniche
statistiche tentano di dare una risposta riguarda sempre l'esistenza o meno di una associazione fra
due o più misure, e l'intensità (o forza) di tale associazione o effetto. (Ercolani, 2007 p.29)

Ciascuna procedura statistica di analisi dei dati implica degli assunti che vanno rigorosamente
rispettati. Altri fattori minacciano la validità statistica gonfiando l'errore di misurazione. La
scarsa affidabilità degli strumenti di misura ad esempio, aumenta la variabilità d’errore, impedendo
così di cogliere le differenze attese; la mancata standardizzazione delle procedure di manipolazione
della variabile indipendente introduce una variabilità incontrollata nella variabile dipendente a causa
del cambiamento nelle modalità di presentazione dei trattamenti che devono rimanere gli stessi anche
quando cambiano le persone, i tempi e i luoghi; l’eterogeneità dei soggetti sperimentali ancora può
aumentare l'errore sperimentale. Le strategie volte a migliorare la validità delle conclusioni statistiche
sono essenzialmente tese a ridurre la varianza d’errore: da qui l'uso di disegni sperimentali con prove
ripetute, il ricorso a gruppi omogenei ecc. Oltre a queste strategie generali, vi sono strategie
specifiche. Secondo John Anderson (Cfr. John R Anderson, Psicologia cognitiva e sue implicazioni,
Prima edizione, Bologna, Zanichelli, 1993) vi sono tre possibilità per aumentare la probabilità di
scoprire un vero rapporto tra le variabili studiate: la prima riguarda il livello di significatività, che si
può aumentare, migliorando la sensibilità del disegno, pur considerando che tale operazione
diminuisce la possibilità di non riconoscere false inferenze (errore di II° tipo). Una seconda possibilità
può riguardare l’ampliamento dell’intervallo tra i valori della variabile indipendente, usati per definire
le condizioni sperimentali, aumentando la grandezza dell’effetto. Ad esempio, ipotizzando per
l’apprendimento un rapporto tra lunghezza di una lista di parole e il numero di parole che vengono
apprese, occorre utilizzare liste composte di parole di ampiezza molto diverse, e non di ampiezze
simili o lievemente diverse. In questo caso occorre considerare che il rapporto tra variabile
indipendente e dipendente può assumere un andamento monotonico. La terza possibilità prevede la
riduzione dell’errore casuale, operando sulla riduzione degli errori dipendenti dal campionamento,
derivanti dall’assegnazione dei soggetti alle condizioni sperimentali, dalla somministrazione delle
condizioni stesse o dalla misurazione della variabile dipendente.
LA VALIDITÀ ECOLOGICA
La validità ecologica riguarda la percezione del soggetto sperimentale sia verso il compito sia
verso l’ambiente durante lo svolgimento della sperimentazione. Occorre perciò considerare
l’importanza dell’ambiente per com’è vissuto dal soggetto, ciò di cui ha esperienza, che non si
risolve con il solo riferimento all’ambiente naturale o quotidiano, per garantire la validità
ecologica, bensì considerando anche la conoscenza di quello che il soggetto percepisce e vive
nella situazione sperimentale. In questo caso occorre considerare due situazioni in grado di
compromettere la validità ecologica. La prima riguarda il contesto laboratoriale che con la
presenza di oggetti sconosciuti o poco familiari rende poco naturali le reazioni o le prestazioni
del soggetto. La maggior parte degli esperimenti, quindi, può garantire la validità interna, assicurare
una certa validità esterna, ma costituisce una minaccia alla validità ecologica, in quanto non consente
di generalizzare i risultati alla vita quotidiana. La seconda situazione considera come minaccia per la
validità ecologica tutto ciò che impedisce allo sperimentatore di conoscere come il soggetto
percepisce la situazione. Non ha molta importanza che la situazione sia artificiosa o meno; ciò che
importa è che lo sperimentatore ne sia al corrente ed abbia incluso nel disegno sperimentale tale
variabile. Le minacce in questo caso saranno uguali alle minacce alla validità esterna ed alla validità
interna. Ogni tipo di validità presentata risulta molto importante per la ricerca; occorre considerare,
però, che si devono distinguere gli studi in cui sono indispensabili le validità, ad esempio interna ed
esterna, da quelli che esigono, invece, la validità ecologica, poiché spesso il rispetto e la garanzia
dell’una, presuppone un minor rispetto della garanzia delle altre.

DISPENSA
LA VALIDITÀ NELLA MISURAZIONE
Uno dei momenti più difficili nel processo di sviluppo di una misura è quello
dell'interpretazione dei punteggi ottenuti dalla misurazione. La registrazione di una significativa
affidabilità rivela solo che lo strumento misura veramente qualcosa ma non dà alcuna
informazione sulla natura di ciò che si sta misurando. La difficoltà deriva dal fatto che la
validazione può essere verificata all'interno di un sistema di relazioni ipotizzate tra il costrutto
di interesse e altri costrutti; tali relazioni possono essere di causa, effetto o di correlazione. Le misure
empiriche sono utilizzate per verificare tali ipotesi; il supporto empirico per le ipotesi comporta la
validità della misura. Le prove di validità implicano la verifica simultanea dell'ipotesi riguardante i
costrutti e lo strumento. Come si è già detto, molti costrutti nelle scienze pedagogiche e psicologiche
rappresentano astrazioni teoriche che non esistono nell'esperienza reale; per tale motivo gli indicatori
che li rappresentano devono essere sottoposti a verifica di validità. La validazione di una misura può
quindi essere vista come la verifica di una teoria. Il processo di validazione non può essere affrontato
prima che non sia stato portato a termine quello di verifica dell'affidabilità. Come abbiamo visto la
validità rappresenta la capacità di una procedura di misurazione di misurare ciò che si intende
misurare.
E’ possibile distinguere diversi tipi di validità della misurazione cui corrispondono metodi
diversi di verifica. Nella tabella successiva si propongono i diversi tipi di validità per la
misurazione organizzati rispetto alla traduzione e alla correlazione a un criterio. Questa
classificazione dipende essenzialmente dalla fase di definizione operativa, cioè ogni volta che
si traduce un concetto o un costrutto, interni ad un problema di ricerca, della realtà d’interesse; sorge
quindi la domanda se l’operativizzazione, ovvero la traduzione dei concetti in variabili
e/o indicatori, è stata realizzata in modo da ottenere i risultati che si attendono. Questo problema
è rilevante quando si parla di trattamenti o di indagini per una ricerca educativa o psicologica.
Validità nella misurazione Tipo di validità
di traduzione facciata
contenuto
costrutto o teorica
correlata al criterio
criterio o predittiva
concorrente
convergente
discriminante
Precedentemente sono state fornite alcune informazioni e definizioni relative alle tipologie della
validità; esse valgono anche per le misurazioni. Per queste sono aggiunte ulteriori specificazioni
rispetto all’oggetto, ovvero la misura, e al controllo, ovvero i procedimenti utilizzabili per
effettuare i controlli della validità sulle misure operate.
In particolare per le misure valgono le seguenti definizioni:
a. facciata: è determinata dalla significatività che una misura presenta che viene riconosciuta dai
soggetti in modo apparente ed esteriore; si valuta, quindi, sulla base dei giudizi di esperti.
b. Contenuto: una misura ha validità di contenuto quando rappresenta in modo accurato l’universo
del contenuto misurato; anche questo tipo di validità necessita del giudizio di esperti. Se, ad esempio,
una prova di verifica della preparazione di matematica di un gruppo di studenti è composta solo da
domande riguardanti le potenze difficilmente potrà essere riconosciuta valida per il contenuto rispetto
ai polinomi. Tale validità viene verificata, quindi, misurando il grado di rappresentatività degli
indicatori che compongono la misura: se gli indicatori rappresentano uno specifico dominio di
contenuto, lo strumento ha una buona validità di contenuto. La verifica della validità di contenuto è
particolarmente importante e deve essere effettuata al momento della costruzione dello strumento di
misura e quindi prima della raccolta dati e dell’analisi statistica; questa, in particolare, dovrebbe
fornire solo informazioni aggiuntive su tale validità, ovvero dovrebbe fornire solo un sostegno e una
giustificazione statistica. Per verificare la validità di contenuto occorre controllare e valutare i
seguenti standard: a) qualità e della rappresentatività degli indicatori, cioè identificare un profilo
dettagliato delle dimensioni e dei concetti che devono essere rilevate. Il profilo, però, deve essere
collegato direttamente con l’ipotesi di ricerca che deve guidare e condurre alla
della costruzione degli indicatori: per le quali è possibile utilizzare alcune verifiche, tra cui un alto
livello di correlazione tra misura da validare e altri indicatori consente di concludere che lo strumento
misura ciò che si desidera misurare. Questa valutazione è da effettuare con estrema cautela in quanto
l’osservazione di alti livelli di correlazione non è garanzia di validità di contenuto: gli strumenti
confrontati potrebbero misurare male nello stesso modo la stessa dimensione.
c. Costrutto: si accerta se gli indicatori misurano accuratamente i costrutti teorici che interessa
misurare; in pratica è verificata attraverso la correlazione tra un indicatore ed altri indicatori secondo
particolari modelli teorici. Poniamo, per esempio, di voler costruire uno strumento che misuri le
inclinazioni di intolleranza verso gli extracomunitari; se l’ipotesi afferma che esiste una
relazione tra autostima e intolleranza, allora l’indice sarà una buona misura di intolleranza, ovvero
avrà validità di costrutto, se risulterà essere inversamente correlato con l’autostima. Quindi esiste una
teoria che riguarda la relazione tra autostima e intolleranza. Per questo tipo di validità, di tipo teorico,
la verifica rappresenta un problema che deve essere risolta logicamente con il sostegno
statistico. Questo mira a determinare quanto gli indicatori tendono a misurare la stessa cosa o cose
diverse; ciò rappresenta una condizione necessaria ma non sufficiente per verificare la validità teorica.
Gli strumenti statistici utilizzati per studiare la validità teorica possono essere espressi in termini di:
- consistenza interna, ovvero sulla base della tendenza di misure diverse a correlare molto tra
loro e ad essere influenzate allo stesso modo da trattamenti sperimentali; - correlazione della misura
del costrutto con altre misure relative ad altri costrutti;
- analisi fattoriale.
Il risultato conclusivo del processo descritto dovrebbe condurre a sostenere che il costrutto è:
a) ben definito in termini di osservazione;
b) ben rappresentato in termini di variabili manifeste;
c) eventualmente correlato con altri costrutti. E' comunque molto importante tener presente che la
validità di costrutto può essere sostenuta ma mai provata; è infatti possibile che successive ricerche e
studi possano dare nuove interpretazioni dei risultati precedenti utilizzando anche nuovi modelli.
d. Criterio / predittiva: rappresenta la capacità di uno strumento di misurazione di realizzare
previsioni accurate; in questo caso il risultato ottenuto è adeguato per predire un criterio esterno. Alla
base del modello di verifica vi è il confronto tra la misura da validare e le altre misure dette criteri:
tra questi è possibile distinguere le seguenti tipologie:
1. product criteria, rappresentati da variabili legate a particolari prestazioni e risultati di alcune
specifiche attività (per esempio numero di lettere battute a macchina, numero di scatole ispezionate,
ecc.);
2. action criteria, che riguardano un’attività stessa (per esempio, le misurazioni di particolari
prestazioni come la velocità o numero di errori nell'eseguire qualcosa, ecc.) e che vengono utilizzabili
quando il risultato di una certa attività non è rappresentato da un prodotto tangibile. L'indicatore
operativo del grado di corrispondenza tra il risultato ottenuto con lo strumento e il criterio è di solito
rappresentato dalla dimensione della loro correlazione; in altre parole
il confronto tra misura e criteri è realizzato e misurato in termini di analisi della correlazione, estesa
anche al caso multivariato. Il livello di correlazione ottenuto specifica il grado di validità; per questo
il coefficiente di correlazione viene indicato spesso come coefficiente di validità. Se i risultati
statistici conducono a decisioni e scelte ragionevoli allora il gruppo di variabili in questione ha
validità predittiva. Secondo un’altra strategia (validità attraverso gruppi noti), per tale
validità si verifica l'ipotesi che determinati gruppi di soggetti ottengano punteggi più alti rispetto ad
altri; l’effettiva significatività della differenza tra i gruppi viene verificata calcolando la media dei
punteggi ottenuti sullo strumento per ciascun gruppo ed effettuando, attraverso strumenti statistici,
un test sulle medie osservate (t di Student, analisi della varianza). La validità predittiva diviene
particolarmente importante quando a livello pratico la misura da validare ha funzioni operative e
decisionali (assunzione di personale, creazione di servizi sulla base di previste necessità di un gruppo
di cittadini, ecc.).
e. concorrente: collega uno strumento ad altri per la misurazione di una stessa
caratteristica; la risultanza di una relazione statisticamente significativa è considerata come verifica
di questa validità. Se, per esempio, si vuole verificare se con uno strumento si misura l’intolleranza
verso gli extracomunitari, si possono correlare le misure ottenute con altre provenienti per gli stessi
soggetti da un altro strumento con una scala che misura sempre l’intolleranza; un
correlazione tra le due misure evidenzierà la validità del nuovo test o, comunque, che i due strumenti
misurano la stessa cosa.
f. Convergente: in questo caso le misure non riguardano gli strumenti bensì i
costrutti: si correlano perciò le misure relative ad un costrutto con quelle ottenute per un altro
costrutto, teoricamente legato al primo. In questo caso, quindi, la possibilità di accertare la presenza
della validità dipende dall’esistenza di costrutti, e relative misure, legate con quello da validare.
Poiché si ipotizza sempre un certo livello di errore che abbassi il livello di affidabilità, tali correlazioni
osservate non raggiungono mai il massimo livello.
g. discriminante: corrisponde inversamente alla validità convergente e quindi
risulta alta quando la misura del costrutto da validare non correla con le misure di altri costrutti,
teoricamente distinti dal primo. Ad esempio un test psicologico ha capacità discriminante rispetto ad
una certo comportamento se riesce a distinguere e separare i soggetti sani da quelli della patologia.
Volendo, ad esempio predisporre un test strutturato per misurare il costrutto difficoltà di
lettura in relazione al quale si può ipotizzare che negli individui esista una reale patologia rispetto a
una situazione non patologica; in questo caso è possibile costruire un test che, pur non risultando
completo ed esaustivo per la diagnosi diagnosi, permette di ridurre enormemente il numero di soggetti
da sottoporre ad indagine clinica e, nello stesso tempo, indica i soggetti che hanno bisogno
dell'esame clinico. Per la ricerca della validità convergente e discriminante due ricercatori, Campbell
e Fiske (Cfr. Campbell, Donald T.; Fiske, Donald W., Convergent and discriminant validation by the
multitraitmultimethod matrix. Psychological Bulletin, Vol 56(2), Mar 1959, 81-105.,) proposero un
particolare approccio, definito Multitrait-Multimethod Matrix (MTMM), che ha dato un impulso verso
una particolare metodologia di verifica della validità. Il MTMM consente di indagare simultaneamente
la validità convergente e la validità discriminante; l’applicazione del MTMM richiede che vengano
misurati almeno due costrutti e che ciascuno di essi sia misurato con almeno due metodi distinti.

LEZIONE 1 – VALIDITÀ DI FACCIATA O ESTERIORE


Partiamo subito dal confronto tra validità della ricerca e validità dello strumento di misurazione.
La validità di una ricerca, intesa come validità interna e validità esterna di uno studio o indagine, nella
definizione terminologica di validità secondo Dunham (1998), e in una accezione più generale,
riguarda la solidità e l'attendibilità della ricerca. Questo significa postulare l'esistenza di una
corrispondenza tra il “mondo reale” e le conclusioni dell'indagine, ovvero affermare con una certa
sicurezza la robustezza, la correttezza e la veridicità (per quanto probabilisticamente consentito) delle
conclusioni raggiunte mediante un’indagine empirica.
Diversamente, ma non troppo, ci sono due aspetti fondamentali e intrinseci della validità di un test o
strumento di misurazione: la sua validità di contenuto e la sua attendibilità, e l'esame cosiddetto
«indiretto» della validità di un test, valutato in base alla sua maggiore o minore concordanza con altre
misure; queste altre misure possono essere altri test, giudizi di esperti ecc. Inoltre, sarà poi necessario
affrontare la questione relativa alla validità strutturale cioè “rispetto alla funzione” che deve espletare
il test in una indagine, cioè chiarire qual è la caratteristica psicologica misurata dal test in questione.
Su questo punto vale la definizione di Kline riguardo ai reattivi che dice che un test è valido se misura
ciò che dichiara di misurare (Kline, 1996 p. 22). Questa è una definizione abbastanza tautologica, nel
senso che in se stessa ha già la propria risposta. Si racconta che quando il monaco di S. Colombano
approdò in Irlanda per presentare il cristianesimo ai pagani locali si trovò in difficoltà a spiegare la
trinità e prese una fogliolina di trifoglio e disse che come la foglia era una con tre lobi, allo stesso
modo si può credere alla trinità di Dio. Il trifoglio poi è diventato il simbolo nazionale degli irlandesi.
Con le necessarie distinzioni, anche per la validità dei test arriviamo ad un punto nodale e non di
facile comprensione, perché la validità rispetto alla funzione o “validità strutturale” è una, ma
sintetizza in se le altre forme di validità che andremo ad esaminare (come il trifoglio). In questo tipo
più complesso di validità troveremo la validità di contenuto, concorrente, di criterio, predittiva, di
costrutto, nomologica ecc. rimanendo all’interno di un’unica validità strutturale. Per andare ad
approfondire diversi aspetti della validità un testo è quello di John e Martinez del 2000.
Di seguito le definizioni di validità secondo l’APA, come tradotto da Pedon e Gnisci nel 2012.
Contenuto: grado in cui gli item sono un campione rappresentativo dell’universo di comportamenti
che si vuole misurare.
Facciata: grado in cui gli item sembrano misurare il costrutto che si intende misurare
Criterio: grado di associazione tra la misurazione del costrutto tramite lo strumento e le misurazioni
di altri costrutti utilizzati come criteri di riferimento esterno.
a) Predittiva: quando la misura viene eseguita prima del criterio
b) Concorrente: quando la misura viene eseguita insieme al criterio
Costrutto: grado in cui la misura riflette accuratamente il costrutto che si vuole misurare
a) Convergente: grado di correlazione tra misurazioni diverse dello stesso costrutto
b) Discriminante: mancanza di correlazione tra la misurazione del costrutto e misure di costrutti
diversi
Nomologica: grado in cui il costrutto si inserisce in una serie di relazioni predittive con costrutti affini
e con criteri di riferimento (rete di relazioni)
Molti sono i metodi per dimostrare se un test è valido e diversamente da quella che è la validità di
uno strumento di misurazione, non esiste un singolo coefficiente di validità per un test. Come ha
sottolineato Vernon nel 1960, un test è sempre valido per qualche scopo e risulterà più o meno valido
secondo le circostanze. Tipi diversi di validità stabiliscono diverse sfaccettature che vanno
considerate caso per caso per le finalità diagnostiche o di ricerca. Per questa ambivalenza di utilizzo
dei reattivi psicologici è bene stabilire come selezionare i diversi test. Dimostrare la validità di un test
psicologico significa misurarla e non vi è un procedimento diretto per dimostrarla. Si analizzano in
un processo alcune condizioni (validità di costrutto, contenuto, di facciata, di criterio) e poi si esprime
un giudizio su quello che è la propria sicurezza rispetto alla validità dello strumento. L’attendibilità
invece ha dei test statistici abbastanza strutturati e consolidati che permettono la valutazione precisa,
anche se c’è un dibattito per differenziare un test attendibile da uno mediamente attendibile ma è un
discorso molto meno complesso rispetto alla validità di misurazione.
Come possiamo dire se un test è valido o no dal punto di vista della validità di misurazione?
Immaginiamo di aver costruito un test sulla coscienziosità, una variabile che si è rivelata molto
importante nella valutazione della personalità (già Norman nel 1963 ne parlava). Non è affatto ovvio
che si possa dimostrare che un tale test sia valido, la questione sarebbe più facile se esistesse una
qualche misura indipendente della coscienziosità, (noi abbiamo lo standard del metro che è esposto
in un museo, se vogliamo creare un’altra misura della lunghezza dovremmo confrontarla con quello)
se fosse così per la coscienziosità non ci sarebbe bisogno di un test, invece ne abbiamo bisogno perché
misurare la coscienziosità è complicato, tuttavia non è privo di senso discutere se una persona sia più
o meno coscienziosa, quindi è evidente che ci deve essere un modo per misurarla. Tutti noi adottiamo
questi metri di giudizio giornalmente per capire se una persona è più o meno stressata, ansiosa,
coscienziosa ecc. Dunque anche una certa forma di valutazione deve essere possibile. Una soluzione
potrebbe essere far valutare la coscienziosità da persone che non conoscono bene i nostri soggetti e
potremmo correlare i punteggi ottenuti dal test con le valutazioni di coscienziosità magari di esperti.
Però non si può assumere che le valutazioni di questi aspetti siano valide a priori perché la realtà
come sappiamo è observer dependent, quindi per alcuni tipi di validità, come quella di costrutto o di
criterio si può ricorrere a procedimenti di ricerca, raccolte dati e anche in questo caso fare delle
correlazioni raccogliendo ad esempio test somministrati a più gruppi di soggetti per analizzare una
serie di analisi statistiche e qualcosa si riesce a fare. Per la validità di contenuto e la validità di facciata
non si prevedono analisi statistiche vere e proprie e ultimamente sono nate modalità alternative
mutuate spesso da altre scienze sociali e dato che i classici indici con cui supportare le nostre ipotesi
non producono questi tipi di validità, allora vengono ignorati o trascurati dal punto di vista della
analisi dell’attendibilità. (L’alfa di Cronbach viene sempre riportato nei test statistici perché ormai è
di facile calcolo e “tutti” gli esperti del settore comprendono che l’attendibilità possa essere misurata
con questo metodo dal punto di vista della coerenza interna)
Sottovalutare la validità di contenuto e di facciata perché non ci sono test statistici che le valutano
precisamente è un errore grave. Dato che la procedura di analisi della validità e di taratura di un test
(selezione item e creazione delle norme – con la selezione item che, a partire dal pool più grande
generato inizialmente e poi lavorato e definito per arrivare agli item che costituiranno la versione
finale del test, comincia proprio dall’analisi di validità di contenuto e di facciata) Valutiamo prima la
validità di facciata perché possiamo somministrare la versione preliminare di questo
ipotetico test sulla coscienziosità a un centinaio di persone e questo ci consente di raccogliere i dati
che ci consentono poi di verificare con delle analisi statistiche la concordanza dei soggetti su alcune
di queste caratteristiche del nostro test.
Validita’ esteriore o di facciata
(Meglio utilizzare validità di facciata o esteriore per non confondersi con la validità esterna della
ricerca) Si dice che un test è esteriormente valido se sembra misurare ciò che dichiara di misurare al
soggetto che sta compilando questo test, quindi di fatto, non esiste nessuna relazione logica fra
validità esteriore e validità reale, anche se in alcuni casi esse potrebbero essere correlate
positivamente, mentre in altre circostanze la validità esteriore può rappresentare un vero svantaggio.
(Kline p. 23)
È detta anche validità estetica o cosmetica, perché:
La validità di facciata riguarda il fatto che il test "sembri valido" agli esaminandi che lo compilano,
ma anche al personale amministrativo (dirigente scolastico, consiglio docenti ecc.) che ne decide
l'impiego (è difficile somministrare un test a scuola), e ad altri osservatori non tecnicamente formati.
Quindi un’apparenza di scientificità, o di opportunità rispetto a quelli che sono gli obiettivi del test,
può influenzare le performance e le risposte dei soggetti, per questo è necessario distinguere la validità
di facciata da quella di contenuto in modo da non confondere una con l’altra (la validità di facciata è
come appare esteriormente il test, se è ben fatto dal punto di vista semplicemente della grafica, se è
completo nel senso che le domande sono tutte in scala Likert a 5 livelli non abbiano domande in cui
la risposta è su tre livelli, oppure se abbiamo quesiti a scelta multiple non dobbiamo avere il caso in
cui due risposte sono uguali o altri errori, in realtà queste piccole imperfezioni del test, come un foglio
stampato male, sono qualità estetiche del test, non ne cambiano la difficoltà, la lunghezza ecc. ma
influenzano la percezione e la motivazione a portare a termine il compito in modo coerente. Se ad es.
un soggetto che è in ambito di selezione del personale, ritiene che il test che gli è stato somministrato
non è fatto in modo corretto, sarà demotivato a portarlo a termine e penserà che se nessuno si è
impegnato a creare un test fatto bene non è necessario il suo impegno in questo test). Siamo in un
contesto diverso rispetto alla validità di contenuto e non è una validità nel senso tecnico del termine
e non si riferisce a ciò che il test effettivamente misura ma a cosa sembra misurare superficialmente
Superficiale, esteriore, cosmetico, estetico, definiscono la validità esteriore o di
facciata, un tipo di validità che ha degli effetti sulla compilazione del test che fanno i soggetti. È uno
dei casi in cui banalmente ma sostanzialmente, l’abito fa il monaco. È l’impressione che dà il test di
esser valido che aumenta la motivazione a completarlo e anche questo influisce sulla capacità del test
di produrre dati attendibili. La valutazione della validità di facciata di solito proviene dagli esperti,
psicologi, psichiatri, esperti, dall’ambito che sceglie l’uso del test per un uso specifico. Una
alternativa a questa di somministrazione a un gruppo di esperti è la somministrazione a un gruppo di
soggetti rappresentativo degli individui ai quali verrà somministrato il test. Non deve essere un
campione perché non è necessario in questa fase, ma ad es. a degli studenti, se il test è un test per
studenti, compilano il test e poi gli vengono affiancate altre domande che riguardano la loro
valutazione sull’adeguatezza e bontà del test. Questa definizione è in linea con quella di Anastasi che
sostiene che la validità di facciata può potenzialmente avere degli effetti sia positivi che negativi sulla
validità dei punteggi ad un test perché la validità di facciata può essere considerata importante se la
rilevanza degli item influisce sulla motivazione e in alcune situazioni in particolare nella selezione di
personale, se il test non ha buona validità di facciata può demotivare i soggetti che lo considereranno
irrilevante. In altre situazione una bassa validità di facciata è ancora più grave e può creare problemi
nella risposta dei soggetti nei quali possono attivarsi processi di dissimulazione. Anastasi conclude
dicendo che la validità di facciata sebbene non garantisca una misurazione accurata può avere
un’influenza sulla motivazione e quindi deve essere provata in qualche modo.
La validità di facciata può essere analizzata attraverso la correlazione? Falso. Non ci sono test
statistici specifici
Content validity should not be confused with face validity. The latter
is not validity in the technical sense; it refers not to what the test actually measures, but to what it
appears superficially to measure. Pace validity pertains to whether the test "looks valid" to the
examinees who take it, the administrative personnel who decide on its use, and other technically
untrained observers. (Anastasi 1988, p. 144)
I vantaggi di una validità esteriore stanno nel fatto che la motivazione è importante nella performance
ed è importante che i soggetti ci mettano la massima cura evitando missing data (valori mancanti).
Ad es. se vogliamo selezionare die piloti o personale specializzato, dei test non esteriormente validi
scoraggeranno i soggetti dal completarli. Anche gli adulti sono restii a compilare un test che non
sembri serio perché lo percepiscono come uno spreco di tempo e anche se sono costretti a farlo, come
nella selezione del personale, avranno un atteggiamento non favorevole. Gli studenti, soprattutto in
ambito universitario sono più abituati a questo tipo di test perché chiamati spesso a partecipare alle
ricerche.
Nel campo delle abilità non ci sono molte differenze legate alla validità esteriore perché forse la
percezione che è uno strumento che misura l’intelligenza, non influisce sulla capacità di rispondere
correttamente, non è vero questo nell’ambito dello studio della personalità, e quindi bisogna studiare
le domande in modo che risultino coerenti con quanto si aspettano i soggetti che devono rispondere.
In una selezione di piloti civili sono richiesti piloti con basso livello di ansia e un test sull’ansia
esteriormente valido potrebbe non funzionare, perché a delle domande esplicite come “si sente
ansioso se ci sono delle difficoltà?” o “la disturba lavorare sotto pressione”? la validità esterna
incoraggerebbe la distorsione deliberata, quindi in questi casi è accettabile avere un livello di validità
di facciata leggermente inferiore, un po’ come avviene per la dissimulazione e l’offuscamento
all’interno del disegno di ricerca. Nel 1947 Mosier sosteneva che il termine implicasse che un test
doveva essere utilizzato in una situazione pratica e quindi oltre ad avere una validità di tipo
pragmatico doveva anche essere pertinente e coerente con lo scopo della somministrazione.
Successivamente il concetto di un test che appaia valido è sempre stato accettato con riserva e spesso
viene messo anche in disparte in alcune citazioni degli standard for educational psychological test.
La valutazione della validità di facciata è stata inizialmente considerata appannaggio degli esperti,
ma con il tempo il focus si è spostato su gruppi principali di potenziali utilizzatori, giudici, costituiti
da coloro a cui il test verrà somministrato e gli utilizzi dei test nei contesti applicativi e relativi a
situazioni particolari prevede anche un trade off ovvero una scelta tra quella che sia una validità
esteriore o di facciata rilevante e quelle che sono le funzioni del test all’interno di una ricerca.

LEZIONE 2 – VALIDITÀ DI CONTENUTO


Lo scopo di una validazione di contenuto è quello di valutare se gli item, gli elementi dello strumento,
rappresentano adeguatamente un dominio di prestazioni o un costrutto psicologico specifico
(definizione Algina e Crocker 1986). Il termine “assess”, to assess, valutare, significa che il nostro
strumento è un assessment instrument, quindi uno strumento di valutazione. Abbiamo visto la
differenza tra valutazione psicologica e assessment psicologico, quindi l’applicabilità della validità
di contenuto del nostro strumento deve essere coerente coi metodi di valutazione psicologica. La
valutazione psicologica è la misurazione sistematica del comportamento di una persona nelle varie
dimensioni che comprendono da una parte gli obiettivi e le strategie di misurazione e dall’altra le
inferenze, i giudizi, l’idea, la riflessione che uno psicologo o professionista riesce a trarre dalle misure
ottenute e quindi la validità di contenuto è il grado con cui gli item del test costituiscono un campione
rappresentativo dell’universo dei possibili comportamenti relativi al costrutto che si vuole misurare
(Pedon, Gnisci) che dovrebbe far pensare subito alla definizione di Anastasi nel primo modulo in cui
si fa riferimento a questo campione di misurazione dei comportamenti del soggetto.
La validità di contenuto effettivamente valuta se questo campione è realmente rappresentativo del
nostro costrutto che vogliamo misurare o del dominio di prestazione e ciò vuol dire che se sto parlando
di competenza in matematica, riesco a coprire tutti quelli che sono gli elementi che costituiscono una
competenza in matematica, sia la parte più legata al calcolo sia quella legata alla soluzione di
problemi, problem solving ecc. Una parte di questa definizione di validità di contenuto di Algina e
Crocker fa riferimento al giudizio che dovrebbe essere espresso in linea di principio su base
quantitativa con stime di rilevanza e rappresentatività.
Questo vorrebbe dire che la validità di contenuto potrebbe essere considerata come una caratteristica
dimensionale del test e non come un aspetto qualitativo come invece comunemente si ritiene (questo
succede perché sia per la validità di facciata che per quella di contenuto non esistono dei test statistici
adeguati che ci possano dare un riferimento quantitativo, ma esistono tecniche e metodi per cui si
giunge a poter definire se un test o reattivo psicologico ha realmente una buona validità di contenuto.)
La rilevanza di un questionario self report che misura un particolare dominio della personalità o della
intelligenza sarà una funzione del grado in cui la misura conterrà item che riflettono le sfaccettature
del costrutto, per cui sarà bassa la validità se la scala o il test contengono item al di fuori del dominio
di contenuto o mancano di operazionalizzazione che invece è necessaria. Questa è la distinzione che
si può dare rispetto alla rilevanza del test rispetto alla validità di contenuto.
La valutazione della validità di contenuto è fondamentale nel momento in cui questa ci mette in
condizioni di ottenere delle prove empiriche a supporto del fatto che gli item del test sono rilevanti e
rappresentativi del costrutto che è il nostro obiettivo. Nell’assessment psicologico e nella valutazione
psicologica in generale, l’importanza della validità di contenuto per la validazione del costrutto varia
in base a quanto viene definito il costrutto e il grado in cui gli esperti concordano sul dominio e sulle
sfaccettature del costrutto. Le uniche modalità che ci permettono di valutare la validità di contenuto
sono metodi che fanno riferimento al giudizio degli esperti, mentre per la validità di facciata si fa
riferimento ai soggetti che partecipano alla somministrazione del test e a cui si chiede una loro
valutazione circa la qualità del test. Gli esperti vengono chiamati in causa con varie modalità: c’è il
metodo delphi e c’è anche il metodo del Q-sorting in cui i soggetti mettono in ordine gli item e
quindi c’è un riferimento non solo di tipo qualitativo (se siamo più vicini o meno al contenuto del
costrutto) ma c’è anche un ordine nella gerarchia.
La validità di contenuto è sempre più importante perché ci si è accorti della criticità che in alcuni casi
può determinare, soprattutto per i costrutti con confini concettuali vaghi oppure con definizioni che
non sono particolarmente consistenti con qualcosa che non ha una letteratura di riferimento molto
chiara. Ad es. fino a 20 anni fa vi erano diversi strumenti di auto somministrazione per la misurazione
del supporto sociale da una ricerca di Heitzman e Kaplan del 1988 e molti di questi erano sviluppati
a partire da concezioni completamente diverse circa il dominio di contenuto e le sfaccettature di tale
costrutto. È chiaro che il supporto sociale dovrebbe avere un minimo di coerenza e che la costruzione
di misurazioni diverse ci fanno capire come fosse labile e ambiguo questo tipo di costrutto. C’è una
tecnica per lo studio della validità di contenuto che si chiama facet analysis (analisi delle
sfaccettature) e questa analisi prevede il lavoro di individuazione degli aspetti basilari del costrutto
per fare una specie di mappa esplicita e chiara del dominio concettuale e si stabilisce in questo caso
anche il peso relativo che ciascuna parte costitutiva ha nella definizione del costrutto, questo ci
permetterebbe di andare poi a controllare che la quantità di item all’interno del test sia proporzionale
al peso delle varie sfaccettature che è stato individuato inizialmente. Ad es. se si vuole costruire una
scala per misurare l’aggressività è necessario campionare un certo numero di dati della popolazione,
di tutti i possibili item e quindi è necessario individuare gli aspetti costitutivi dell’aggressività (rabbia,
violenza, ostilità ecc) e anche i contesti (i contesti in cui si possono attivare aspetti
dell’aggressività potrebbero essere: scuola, famiglia, gruppo dei pari ecc. o delle attività: quando si
guida, quando si sta giocando ecc) e bisogna anche definire dal punto di vista teorico qual è il peso
di ognuno di questi aspetti in termine di numerosità degli item che andranno a far parte di questo test.
Se noi sotto rappresentiamo un aspetto importante della definizione del costrutto o lo sovra
rappresentiamo, questo determina un indebolimento della validità di contenuto. Lo stesso concetto di
aggressività, o altro, può essere misurato in modi diversi a seconda gli scopi della nostra ricerca e a
seconda della teoria o delle conoscenze di background del fenomeno che stiamo andando
a studiare e quindi ci deve essere quindi una congruenza tra questa molteplicità di elementi che
garantisca la validità di contenuto. Il fatto di non avere un buon test statistico basato ad esempio sulla
correlazione, che è la base della misurazione della validità in altre situazioni, per quello che riguarda
il criterio e il costrutto, rende in un certo senso più discutibile quelle che sono le modalità di
misurazione e verifica di questa sfaccettatura di validità. Ad esempio nei test di profitto che sono un
insieme di reattivi dove il dominio degli item è particolarmente ben definito, così come in quello dei
test di abilità, allora è più facile applicare la ricerca della validità di contenuto, ad esempio per
dimostrare la validità di contenuto di un test musicale per studenti del quinto anno del conservatorio,
dovremmo presentare il test a un certo numero di musicisti per sapere se il test copre tutte le
conoscenze musicali più importanti utili ad uno studente. Questa metodologia di verifica è un’analisi
indipendente dello strumento da parte di un gruppo di esperti, questo è il cuore, il nucleo dell’utilizzo
del metodo delphi. Se gli esperti sono chiamati a specificare eventuali carenze del test e indicare se
certi item sono inutili e inadatti alla popolazione, siamo in grado di garantire che il contenuto finale
del test sia pertinente e rilevante per il suo scopo. Il motivo per cui il test (in questo caso di abilità
musicale) è un rilevante e valido candidato è che esiste una buona misura di accordo rispetto alle
abilità specifiche e competenze di base così come avviene anche per i test di competenza linguistica
e matematica. Anche se attualmente la validità di contenuto, è considerata una componente
importante anche per i test di performance tipica, si è sviluppata a partire da quelli di
intelligenza e per la valutazione di reattivi di profitto. In un certo senso, sia la validità di facciata ma
anche quella di contenuto, sono sottovalutate e ritenute come una forma particolare di validità esterna,
in realtà non è così. Nel test musicale di cui parlavamo, l’item che chiede al soggetto di riconoscere
un accordo è un esempio dell’abilità specifica di riconoscere un accordo e se si risponde correttamente
a questo (il test costituito da un solo item non è mai attendibile, in linea teorica c’è bisogno di almeno
3 item) o alla maggior parte di questi item, è vero che è in grado di riconoscere gli accordi. In questo
caso si potrebbe dire che la validità di contenuto rispetto alla validità esterna del test dovrebbe essere
similare. Non è così nel caso di un test di personalità, ad esempio per la valutazione dell’ansia (item
del tipo “a volte ti senti ansioso senza alcun motivo?”), il test ha validità esterna per la misurazione
dell’ansia ma bisogna dimostrare in modo empirico se c’è validità di contenuto perché questo tipo di
item può risultare distorto per una volontà deliberata di mentire o presentare una versione di sé diversa
o per una volontà di rispondere sempre di sì o di no o utilizzare solo gli estremi delle scale o fornire
una risposta socialmente desiderabile, (affronteremo la questione dell’acquiescenza content free bias
e della desiderabilità content related bias sociale facendo riferimento a un libro di Roccato che
rappresenta una concezione storica di queste due definizioni di acquiescenza e desiderabilità e questo
tipo di azioni determinano la possibile non validità del nostro item)
La validità di contenuto necessita di esperti per la sua valutazione? Vero, la maggioranza delle
tecniche si basa sul coinvolgimento di esperti.
Quindi la misurazione della validità di contenuto è raggiungibile ad es.con il metodo delphi che è
riassumibile nell’analisi indipendente degli item da parte di un gruppo di esperti, e in linea generale
la maggioranza delle tecniche si basa sul coinvolgimento di esperti in vari metodi e per quello delphi
abbiamo un processo strutturato che raccoglie e approfondisce informazioni dal patrimonio
conoscitivo di questi esperti e lo scopo è quello di approfondire le risposte individuali al problema
specifico. Nella tecnica delphi si affina in modo progressivo il punto di vista degli esperti man mano
che il gruppo progredisce nella sua valutazione. È un metodo più strutturato e formalizzato per cui
uno specifico set di item viene sottoposto a giudizio di gruppi di esperti che in successivi e ripetuti
momenti di valutazione esprime la propria opinione e il metodo prevede che questo giudizio avvenga
in modo del tutto indipendente e quindi i componenti del gruppo non dovrebbero mai incontrarsi
personalmente per non influenzare la valutazione con interazioni e comunicazione fra i soggetti. La
validità di contenuto per quanto è importante e per quanto supportabile dalla tecnica delphi non è mai
da considerare come un metodo unico per validare uno strumento, lo studio della validità di uno
strumento non deve essere mai ridotto alla sola validità di contenuto che deve essere sempre
considerata in rapporto ad altre verifiche della validità e se è coerente coi risultati di validità predittiva
che di solito adottabile per test di performance massima che sono più facili da verificare anche la
validità di contenuto, allora questi giudizi dovrebbero essere congruenti tra loro.
Occorre inoltre distinguere fra relevance (rilevanza) e representativeness (rappresentatività) (Haynes
et al., 1995) di un test. La rilevanza di uno strumento di misura si riferisce all'appropriatezza dei suoi
elementi per la valutazione del costrutto oggetto del test (Guion, 1977; Messick, 1993). La
rappresentatività di un test si riferisce invece al grado in cui i suoi elementi sono rappresentativi delle
varie sfaccettature del costrutto target e riescono a coprire in modo adeguato il dominio di contenuto

LEZIONE 3 – VALIDITÀ DI CRITERIO


Andiamo ora ad analizzare uno dei due tipi di validità che può essere effettivamente quantificata
attraverso un test statistico. Mentre per la validità di contenuto non sempre si è in grado di garantire
che gli stimoli identificati come indicatori della variabile psicologica del costrutto che si vuole
misurare siano effettivamente corrispondenti, quindi attendibili e validi, per la validità rispetto a un
criterio è possibile avere delle indicazioni più chiare, ad esempio per quello che riguarda la validità
di contenuto, nella storia dello sviluppo dei test vi sono esempi illustri che ci testimoniano come degli
stimoli ideati per misurare un costrutto, una variabile latente, si siano poi rivelati più validi per
misurarne un’altra come ad esempio nel caso del Bender Visual Motor Gestalt Test che attualmente
è adoperato prevalentemente come tecnica proiettiva per valutare disturbi dell’emotività mentre
originariamente era stato progettato per misurare caratteristiche di tipo cognitivo. Un po’ come
talvolta succede in medicina quando un farmaco ideato per un certo tipo di utilizzo, poi si rivela utile
in altre condizioni. Ad es. tutti sanno che il Viagra originariamente era un farmaco utilizzato per
questioni legate a tenere sotto controllo il battito cardiaco e come effetto inaspettato si è rilevata
un’attivazione sessuale. Per i test psicologici il discorso è più complicato perché non siamo in grado
di avere effettivamente delle risultanze percettive e visivamente misurabili rispetto ai costrutti.
I test hanno in realtà come funzione anche una funzione di tipo predittivo perché dovrebbero darci
indicazioni sulle modalità di comportamento del soggetto nel futuro rispetto a un dato punteggio. In
genere si ricorre ai test per predire comportamenti socialmente rilevanti e prendere più velocemente
e in modo più efficace decisioni pratiche. Con altrettanta frequenza si utilizzano i test anche per poter
verificare delle ipotesi teoriche. Se i punteggi del test che abbiamo costruito non predicono e non
correlano con niente di interessante di ciò che può essere osservato nella realtà empirica, nel mondo
reale, quindi i comportamenti effettivi dei soggetti, che utilità avrebbe il nostro test? Quindi in molti
casi il ricercatore vuole tirare le fila di alcune somministrazioni del test per individuare quali saranno
le performance del soggetto rispetto a un criterio che potrebbe essere misurato in altro modo, ad es.
quando c’è un’ammissione all’università viene di solito somministrato un test e in questo modo il
punteggio a questo test di performance massima dovrebbe dare delle indicazioni sul comportamento
futuro del soggetto in relazione alle performance nello studio e quindi nella riuscita accademica. Per
quello che riguarda la validità rispetto a un criterio è possibile darne una definizione non esaustiva:

DEFINIZIONE NON ESAUSTIVA:


La validità di criterio si riferisce alla correlazione esistente tra il test da validare e un criterio esterno
quando questi siano somministrati a distanza di tempo tra loro. (Miragliotta, Catalano, Cerniglia,
2009 p. 69).
In realtà è importante indicare come la finalità è legata alla previsione delle prestazioni del soggetto
e quindi la capacità che ha il soggetto di eseguire un compito. Questo compito o performance, che
siano misurate in modo diverso, costituiscono il criterio esterno rilevante. Il criterio esterno è un
risultato di prestazione, di performance, che il soggetto ottiene in un momento successivo rispetto a
quello della somministrazione del test che ci interessa. Questo momento successivo potrà essere
nell’immediato, cioè subito dopo, o può verificarsi a distanza di lungo tempo.
DEFINIZIONE ESAUSTIVA:
La validità rispetto a un criterio permette di comprendere quanto un test sia efficace nel prevedere le
prestazioni future di un soggetto in una determinata attività o compito specifico.
Essa pertanto indica il grado di associazione fra il risultato del test e un criterio esterno rilevante.
La definizione di Argentero si focalizza sulla correlazione tra due misure che ci dà il livello di validità
di criterio dello strumento che stiamo validando. Questa forma di validità si ottiene quando lo
strumento dimostra di essere ben correlato con un criterio, il quale deve necessariamente anch'esso
essere valido, attendibile, rilevante rispetto a ciò che si vuole
misurare e «non contaminato» cioè realmente indipendente dal test. Essa può essere misurata
attraverso il calcolo del coefficiente di correlazione tra le due misure che esprime appunto il livello
di validità dello strumento. (Argentero 2006 p. 72) Questa correlazione può essere analizzata con un
semplice coefficiente di correlazione lineare di Pearson che è in grado di darci il livello della validità
del nostro strumento di misurazione. C’è anche una indicazione relativamente al fatto che ciò che si
vuole misurare è non contaminato, sta ad indicare il fatto che questa prestazione nel futuro è
indipendente e diversa rispetto a quella che stiamo facendo nel nostro test, quindi
non è solo una questione di momenti ma anche una questione di modalità con cui questa misurazione
viene effettuata.
COSA SI INTENDE PER CRITERIO. DEFINIZIONE E CARATTERISTICHE:
Il criterio è la prestazione o rendimento (la capacità di portare a termine un compito) prevista per il
soggetto in funzione dei punteggi ottenuti al test in esame e fondati su misurazioni esterne di una
stessa variabile. La performance prevista diviene di fatto uno standard o un insieme di elementi su
cui basare un giudizio in relazione a situazioni differenti e per questo è definito criterio.
Bisogna mettere in evidenza come queste misurazioni facciano riferimento a cose simili, a elementi
simili, ma non esattamente alla stessa variabile. Se io faccio un test di ingresso in cui misuro la
competenza, la capacità, il QI, le conoscenze del soggetto che è entrato all’università, questa non
corrisponde esattamente con la misurazione che effettuerò dopo quattro anni o cinque anni in base al
percorso di studi scelto e che riguarderà la performance e la prestazione del soggetto. Naturalmente
c’è una vicinanza semantica tra la performance del test e la performance da prestazione in questo
ambito ma non deve essere la stessa identica variabile, quindi è importante che questa misura sia una
misurazione che sia indipendente, esterna rispetto al costrutto originale e possa essere utilizzata come
un criterio di riferimento. Quindi il rendimento che viene previsto è chiamato criterio. Talvolta con
criterio si intende un fatto o una norma intesa come uno standard, un insieme di elementi su cui si
può confrontare un giudizio rispetto al test che si vuole somministrare e il criterio con cui si effettua
questo confronto ci serve a stabilire se il nostro test in realtà sta misurando quel tratto o attributo per
cui è stato costruito e progettato. Questi criteri come tutte le altre misurazioni sono stati validati e
quindi dobbiamo essere sicuri che anche il criterio sia stato nella sua storia validato e potrebbero
esserci più criteri, quindi anche i criteri devono essere dei buoni criteri Caratteristiche principali di
un “buon” criterio: (Pedon, Gnisci p. 135)
• RILEVANZA: deve realmente riflettere gli aspetti fondamentali del costrutto che si vuole misurare
• REPERIBILITÀ: essendo variabile deve essere facilmente individuabile.
• ASSENZA DI DISTORSIONI: la misura-criterio non deve essere alterata (bias). È una caratteristica
che è cruciale quando la misura che noi prendiamo come criterio è una scala di punteggi. Se coloro
che assegnano i punteggi criteri sulla base di altri rendimenti, ad esempio il giudizio sull’operato del
lavoratore, questo può essere un punteggio criterio che può essere distorto e bisogna essere sicuri che
il punteggio che noi usiamo come criterio non abbia avuto distorsioni. Un frequente caso di
distorsione è dovuto a una contaminazione del criterio, soprattutto quando è influenzato da
conoscenze precedenti, ad esempio un docente che sa che quel soggetto è il fratello di un bambino
che andava molto bene e quindi tende a valutare in modo positivo i suoi punteggi o se sa che il
soggetto è andato sempre bene è tentato a assegnare un punteggio superiore. Durante uno studio di
validazione i soggetti che avranno poi la possibilità di influenzare i punteggi di criterio non
dovrebbero avere accesso ai punteggi del soggetto al test, questo potrebbe creare delle distorsioni.
Questa è anche una situazione per cui tornando al discorso della rilevanza è importante che il criterio
rifletta aspetti importanti del costrutto che stiamo misurando per il nostro test. Se l’esito lavorativo,
la performance sarà un criterio ritenuto rilevante per la misurazione del rendimento al lavoro allora
questa valutazione della performance deve riflettere direttamente le abilità del lavoratore che vengono
studiate in fase di selezione del personale.
• PRAGMATICAMENTE VANTAGGIOSA: deve essere quello più semplice da usare e più
facilmente reperibile, dal punto di vista pragmatico è più vantaggiosa la misura che è più facile da
utilizzare, proprio dal punto di vista del calcolo del punteggio e di quelle che sono le trasformazioni
del punteggio necessarie per poterle confrontare, questo perché come misure criterio si possono
utilizzare numerose variabili e le misurazioni che vengono di solito utilizzate sono le conseguenze di
un risultato di un test, il rendimento, la persistenza di comportamenti che sono indagati e legati al
nostro costrutto che stiamo studiando e possono costituire il nostro criterio. Nella psicologia del
lavoro e delle organizzazioni ci sono un numero di criteri che possono essere utilizzati nell’analisi
delle performance di un soggetto. E’ evidente il caso di Amazon in cui le prestazioni dei lavoratori
che vengono studiate in base a quanti pacchetti riescono a predisporre in un certo periodo di tempo,
magari nella selezione del personale per Amazon questi stessi lavoratori hanno
sostenuto un test sulle abilità spaziali o di ragionamento logico e matematico ecc. e quindi possono
essere utilizzati, come criteri utili alla valutazione della prestazione, il numero di creazione di
pacchetti o il tempo con cui riescono a individuare dei prodotti .
Il criterio è un altro test o scala psicometrica? Falso: è una prestazione del soggetto.

Validità rispetto a un criterio: può essere concorrente o predittiva


A proposito della validità concorrente essa consiste nell’ottenere in un tempo contemporaneo o
immediatamente successivo sia punteggi del test che stiamo validando, sia quelli di un criterio in una
specifica, preselezionata popolazione e nel calcolare la correlazione fra le due serie di dati accertando
la corrispondenza fra le prestazioni del test e la valutazione delle stesse caratteristiche effettuata con
procedure diverse. In pratica rappresenta dunque la corrispondenza tra i risultati ottenuti e un criterio
esterno correlato. Per poterla misurare si confrontano i risultati ottenuti da un pre test con altri risultati
noti o confrontando i risultati ottenuti da un pre test con un fatto oggettivo. Questa è la situazione che
si verifica meno spesso per ciò che riguarda la validità rispetto a un criterio. Si può dimostrare che il
nostro test correla con altri test somministrati in modo contemporaneo, però bisogna prima avere
individuato che la popolazione, quindi i soggetti che stiamo analizzando, siano un campione ampio e
rappresentativo della popolazione di riferimento e siano in grado di avere delle ricadute sulle nostre
norme di riferimento. Dal punto di vista della validità predittiva abbiamo una situazione un po’ più
chiara, nel senso che di solito lo studio della validità rispetto al criterio è quasi sempre predittivo
perché poi effettivamente è lo scopo per cui noi vogliamo validare il nostro test: trovare un criterio
che sia preciso e sia lontano nel tempo. La validità predittiva si riferisce alla relazione statistica
esistente tra il punteggio di un test ottenuto da un soggetto e il suo successivo comportamento,
misurato attraverso criteri. Nella definizione di validità predittiva abbiamo ad es. un caso di un test
di intelligenza che esemplifica molto le problematiche comuni che richiedono una soluzione per un
soggetto e la validità predittiva di un test di intelligenza può essere ad esempio dimostrata prendendo
un test di intelligenza di un gruppo di soggetti di 5 anni correlandoli con un risultato al diploma o
laurea di questi stessi soggetti. Ciò presuppone che il successo accademico dipenda almeno in parte
dall’intelligenza e quindi la prestazione accademica sia in relazione con l’intelligenza. In realtà un
esempio più chiaro sulla validità predittiva è legata al fatto che vi siano dei college o università che
facciano una selezione di soggetti in base a quelle che sono caratteristiche dei soggetti come QI,
competenza ecc. per poi essere sicuri di avere dei laureati che appartengano al top, al miglior 5%
(così si dice) dei soggetti. Alcuni studiosi (ad es. Howe) sostengono che la relazione che esiste tra Qi
e successo accademico non prova la validità del test perché queste correlazioni che dovrebbero
suffragare la validità predittiva del test sono spiegate in termini di un’altra influenza comune che
agisca sul soggetto accademico e contemporaneamente sul test. Ad es. la classe sociale di
appartenenza spiega talvolta in modo soddisfacente parte della variabilità del punteggio del QI e di
quello ottenuto in ambito accademico. Ancora più difficile da valutare è la validità predittiva di un
test di performance tipica, di un test non cognitivo di personalità, e ad es. stabilire la validità predittiva
dell’Eysenck personality questionnaire è molto complicato, per il nevroticismo ad es. che è la
variabile forse meno difficile da misurare tra le dimensioni del test, in quanto abbastanza definito
come costrutto, una buona misura della validità predittiva potrebbe essere la correlazione dopo 1 o 2
anni con il criterio costituito dall’ammissione in un reparto psichiatrico per il trattamento come
pazienti internati “in patients” o clienti esterni “out patients” cui si dovrebbe aggiungere la fruizione
di un trattamento psichiatrico da parte di operatori di competenza. Ci sarebbe una certa validità se i
pazienti psicotici fossero in partenza esclusi perché hanno punteggi alti di psicoticismo piuttosto che
di nevroticismo e ciò suggerisce che un criterio per la scala di psicoticismo potrebbe essere la diagnosi
di una psicosi di qualsiasi tipo, ma ciò non è corretto perché in realtà la scala è una scala
dell’insensibilità. Ci si aspetterebbe dai pazienti psicotici un punteggio alto in questa variabile ma lo
avrebbero anche molti altri anche non malati totalmente e quindi utilizzare quel tipo di criterio
potrebbe essere difficoltoso. In alternativa si potrebbe usare come criterio la diagnosi psichiatrica di
uno studio specifico predittivo della validità ma la correlazione che ci si potrebbe aspettare non
sarebbe molto elevata. Questo è ancora più difficile per l’estroversione perché per un soggetto
espansivo, socievole, avventuroso, allegro è difficile immaginare come possa crearsi uno studio di
validità predittiva, sarebbe poco accettabile andare a vedere quanti amici hanno i soggetti in questione
su facebook o se hanno un particolare rilievo nella comunità ecc. Torniamo un attimo alla validità di
criterio concorrente di solito come buon esempio si utilizza quelle del vecchio esame di scuola guida
in cui si faceva una parte dell’esame carta e matita con 30 domande e subito dopo, se il punteggio
ottenuto era alto, si poteva effettuare la prova pratica. Il test carta e matita potrebbe essere lo
strumento di misurazione che vogliamo validare come misura del costrutto “capacità di guidare in
modo corretto – competenza di guida” e il criterio invece è una performance che avviene subito dopo
nella guida di una macchina, quindi il costrutto non è lo stesso perché nella prima parte riguarda la
conoscenza delle regole del codice della strada e la seconda è un’analisi della prestazione che richiede
altre capacità. Il nostro strumento carta e matita ha alta validità di criterio concorrente se molti
soggetti che passano l’esame scritto riescono a passare anche l’esame pratico, se quindi la
correlazione tra il buon esito di questi due test è elevata, e se elevata posso dire che effettivamente il
mio test carta e matita ha altra validità di criterio concorrente. Il discorso sulla validità concorrente è
ancora più rilevante se pensiamo al caso della scuola guida di un aereo. È chiaro che non si dà in
mano a un pilota un aereo se non si è certi che abbia delle competenze di base dal punto di vista della
sua conoscenze tali da avere una buona probabilità di riuscita nella guida di un aereo. Da un punto di
vista pragmatico, a noi interessa ottenere un’alta validità di criterio che sia concorrente o che sia
predittiva perché riusciamo a evitare delle problematiche che si sviluppano nel corso accademico
oppure che si possono verificare successivamente. Stesso discorso varrebbe se stiamo utilizzando un
test di abilità specifica per una dattilografa allo scopo di essere sicuri che sia in grado di riportare
nell’ambito di un processo in modo corretto ciò che avviene in aula, in questo caso si potrebbe
utilizzare ad es. anche un basket test purché sia valido dal punto di vista della validità concorrente e
predittiva e ci dimostri che la performance del soggetto sia realmente elevata e la differenza sia
semplicemente in questo caso il tempo che intercorre tra le prestazioni che abbiamo scelto di
utilizzare.
La struttura generale di uno studio della validità di criterio presenta le seguenti fasi:
• Identificare un criterio di comportamento idoneo e un metodo per misurarlo
• Identificare un campione appropriato di esaminandi, rappresentativo della popolazione dei soggetti
su cui il test sarà utilizzato successivamente.
• Somministrare il test e registrare singolarmente i punteggi ottenuti da ciascun esaminando.
• Laddove i dati di criterio siano disponibili, ottenere una misura di prestazione sul criterio per ciascun
soggetto esaminato.
• Determinare la forza della relazione tra i punteggi al test e le prestazioni rispetto al criterio

DISPENSA
LA VALIDITÀ DI COSTRUTTO
Validità di costrutto, concerne la questione della conformità fra i risultati e la teoria che sta
alla base della ricerca. V'è un'altra teoria che avrebbe predetto gli stessi risultati? Ciascun
esperimento è progettato per vagliare qualche ipotesi, ma l'ipotesi non può essere vagliata in
un vacuum. Condizioni particolari dell'esperimento costituiscono delle ipotesi ausiliarie che
devono anch'esse essere vere al fine di vagliare l'ipotesi principale. (Cioffi, 2002 p. 65)
Il concetto di validità di costrutto, nell’ambito della sperimentazione, ha un'importanza
rilevante perché spesso le traslazioni imperfette dei costrutti astratti determinano che le
operazioni sperimentali possano non rappresentare gli stessi costrutti che interessa analizzare.
Con il termine di costrutto, in particolare nella ricerca educativa e psicologica, si intende un
concetto astratto che indica un complesso organizzato della vita degli individui (ad esempio
intelligenza, ansia, emozioni e via di seguito). I costrutti non sono osservabili, vengono inferiti
dal comportamento, grazie a variabili manifeste, ovvero indicatori osservabili come, ad
esempio, il risultato di un test di apprendimento, il ritmo del battito cardiaco, la sudorazione
delle mani, la tensione nervosa, ecc.. Tali indicatori però dipendono dalle teorie dei ricercatori
e dagli strumenti adottati per misurarli. Data la difficoltà di scegliere i comportamenti che
esemplificano i costrutti, non è sorprendente trovare nella letteratura scientifica numerose
contraddizioni.
Per cui interrogarsi sulla validità di costrutto significa verificare se i vari elementi che
compongono il processo sperimentale, ovvero la struttura concettuale, le variabili e gli
indicatori, riflettono accuratamente il costrutto che si intende studiare e non altri concetti. E’
quindi necessario dare una definizione teorica dei costrutti chiara e sufficiente a identificare
correttamente gli aspetti più significativi del fenomeno, che da essi è indicato e gli indicatori
più pertinenti. Solo con una definizione chiara del costrutto astratto, gli indicatori empirici che
possono rappresentarlo porteranno a procedure di manipolazione soddisfacenti. Ad esempio, solo
dopo aver stabilito una definizione chiara di euforia, si può procedere a specificare le operazioni atte
a produrre tale costrutto; oppure, supponendo che l’ansia sia utile all’apprendimento, scegliendo
come popolazione di riferimento coloro che si mangiano le unghie, dopo avere vagliato l’ipotesi,
concludendo che è falsa, si deve anche considerare che oltre a vagliare che l’ansia sia utile
all’apprendimento è stato anche vagliato, contemporaneamente, che chi mangia
le unghie è ansioso. La validità di costrutto è simile alla validità interna. Questa si raggiunge cercando
di eliminare le variabili alternative che possono essere considerate come cause potenziali del
comportamento in esame. Nella validità di costrutto, invece, occorre escludere altre possibili
spiegazioni teoriche dipendenti dai risultati ottenuti. Se ad esempio, un ratto è affamato, in
conseguenza di questo stato inizierà a consumare una maggiore quantità di cibo, tollererà un livello
più alto di chinino, premerà più velocemente e più volte la leva che gli procurerà del cibo e così via.
Per verificare se è stata raggiunta dunque la validità di costrutto, si raccoglieranno sia i dati
convergenti (gli esiti attesi), sia quelli divergenti (gli esiti che non sono correlati con la variabile
concettuale), e si verificherà che i secondi non portino a spiegazioni che configgono con quella attesa.
La validità di costrutto è importante perché, ancora prima di iniziare l'esperimento, garantisce
la congruenza tra variabili teoriche e variabili operative, e quindi anche tra operazioni di
trattamento e quelle di misurazione degli effetti in relazione ai rispettivi costrutti.

LEZIONE 4 – VALIDITA’ DI COSTRUTTO


Anche per la validità di costrutto è possibile analizzare il risultato del nostro test in base a indicazioni
di carattere statistico, quindi è possibile calcolare un coefficiente di correlazione tra i risultati del
nostro test e un altro punteggio. Parliamo preliminarmente di validità incrementale e validità
differenziale. Sono due forme abbastanza specializzate di validità che ci permettono di capire il ruolo
della validità di costrutto all’interno dello studio di validità per lo strumento di misurazione, anche
essendo simile alla validità di costrutto per la ricerca. Queste due validità hanno importanza
particolare nel selezionare procedure. Esempio: se abbiamo una batteria di test durante una procedura
di selezione e stiamo analizzando varie dimensioni e costrutti che ci permettono di selezionare le
persone. Se un test correla in modo moderato con un certo criterio, potremmo pensare che questo test
non sia utile. Se però il test avesse una correlazione uguale a zero con tutti gli altri test della nostra
batteria e questa correlazione scarsa con il criterio che ci interessa, per quanto scarsa, questa
correlazione, aggiungerebbe nuova informazione e sarebbe pertanto di grande valore (questo è il
concetto di validità incrementale di un test); questo esempio ci fornisce un’altra indicazione
abbastanza importante: evidenzia che non esiste un solo coefficiente di validità ma che un test è
sempre valido per qualche scopo, anche se non è quello che ci proponiamo. Un certo grado di validità
un test ce lo ha sempre. La validità incrementale di un certo test si applica alla selezione di quel caso
particolare. In realtà la validità incrementale è ancora più specifica perché si applica alla selezione di
quel lavoro in relazione alla batteria di test per cui abbiamo detto che c’è correlazione nulla. Il test
che stiamo analizzando per quanto riguarda la validità ha una correlazione nulla, quindi una validità
differenziale rispetto agli altri e incrementale rispetto al nostro criterio originale. Questo vale per
questa particolare batteria per la quale c’è una correlazione pari a zero. Se cambiassimo questi test
della batteria, altri test potrebbero correlare con il test che ha una scarsa validità incrementale e in
questo caso sparirebbe anche questa validità incrementale. Il metodo che si utilizza in statistica si
chiama regressione multipla e quello che ci interessa di questa disamina della validità incrementale
è che l’argomentazione che assegna la validità incrementale al test anche quando la correlazione con
il criterio è bassa è identica a quella esiste quando si parla di item ideale, quando si diceva che
malgrado una necessità di avere una omogeneità tra gli item perché devono essere tutti relativi allo
stesso costrutto, gli item idealmente dovrebbero correlare col punteggio del test ma avere correlazione
nulla tra di loro per concorrere in maniera individuale, in modo importante alla variabilità del
punteggio totale, quindi ogni item stesso avrebbe una validità incrementale. La validità differenziale
può essere capita meglio con un esempio su un test di interesse, un test di atteggiamento, ad esempio
un test di questo tipo correla in modo moderato con il successo universitario ma lo fa in modo diverso
per le diverse discipline quindi si potrebbe dire che possiede una validità differenziale per la
prestazione accademica. I test di intelligenza hanno invece correlazioni più alte col successo
universitario ma non possono differenziare tra le discipline, questo non dovrebbe sorprendere perché
la natura dei test di intelligenza è diversa da quelli di interesse, come abbiamo visto nel primo modulo.
L’intelligenza come ha detto Kline è considerata un fattore coinvolto in ogni prestazione individuale
intellettiva e per questo è universale su tutti i campi. È improbabile ad esempio che l’interesse per la
scienza sia collegato con prestazioni in musica e storia mentre ci aspetteremmo che il successo nelle
materie scientifiche lo sia, in questo senso può essere differenziale. Bisogna ricordare che i costrutti
psicologici non sono direttamente osservabili (Algina, Crocker p.230, autori classici che
sottolineano questo elemento) Che cos’è un costrutto? Un costrutto psicologico è definito come un
prodotto di una immaginazione scientifica informata, un’idea sviluppata per permettere la
categorizzazione e descrizione di alcuni comportamenti direttamente osservabili. È un processo
creativo del ricercatore che ha delle basi sulla letteratura disponibile e su quelle che sono le
indicazioni che vengono dagli studi precedenti. Esiste un’ampia validità di test per i quali non è
appropriato nessuno dei concetti di validità fino ad ora visti (contenuto, criterio, facciata ecc.) e per
superare questa difficoltà si giunge alla seguente definizione da parte di Cronbach e Meehl nel 1955:
La validità di costrutto si definisce come il grado in cui uno strumento misura il costrutto che si
intende misurare, cioè gli attributi o le qualità psicologiche che si presuppone siano posseduti dalle
persone. Sembra molto tautologica come definizione perché si riferisce a se stessa “…è la validità
per cui uno strumento misura il costrutto che deve misurare” ma in realtà l’opportunità di questa
definizione è da attribuire al fatto che la validità come concetto è sfaccettato su tutte queste
dimensioni, ma in realtà è una cosa unica e in questo si differenzia dall’attendibilità che nei suoi
diversi livelli di analisi si differenzia, ad esempio l’attendibilità per misure ripetute è diversa
dall’attendibilità come coerenza interna. Qui invece la validità è un concetto unico SFACCETTATO
(come il trifoglio, pianta unica con tre foglie). In questo caso abbiamo un concetto unico con cinque
dimensioni che contribuiscono tutte quante a dare una stessa concezione, definizione.
Tradizionalmente questa validità di costrutto è nata in modo complementare a quelle che abbiamo
precedentemente detto e che vedremo successivamente (validità nomologica e inter rater), ma questa
complementarietà è assurta a un ruolo principale nel momento in cui nel costrutto è stato possibile
inserire una serie di relazioni con altri costrutti e queste relazioni sono state teoricamente fondate. Un
altro volume degli autori Pedrabissi e Santinello indica come per validità di costrutto si intende se il
test è strettamente connesso con la struttura teorica e concettuale delle funzioni da esso misurate. In
questa condizione è da differenziare quello che poi sarà la validità nomologica che è una validità di
tipo teorico più allargato, in questo caso quando ci riferiamo alla struttura teorica e concettuale delle
funzioni di un concetto, vuol dire se effettivamente ci sia una appropriatezza di deduzione effettuate
a partire dai punteggi di un test che poi misura una determinata variabile chiamata costrutto.
La validità di costrutto detta in modo diverso può essere intesa come la validità rispetto a una
funzione. Quale funzione? Il giudizio sull’appropriatezza di deduzione effettuata a partire dai
punteggi di un test che misurano una determinata variabile latente che viene chiamata in questo caso
costrutto. “Latente” vuol dire che non è direttamente osservabile. Per costrutto si intende un concetto
o una definizione legato a una teoria, che non può essere direttamente osservato ma solo inferito. In
questa prospettiva la validità di costrutto rappresenta un'analisi del significato del test in relazione al
costrutto psicologico che il test misura, ovvero un'analisi di quanto una data operazionalizzazione
(per esempio un G test) misura effettivamente il costrutto che intende misurare (Cook, Campbell,
1979) (in realtà è significato della funzione di un test). La validità di costrutto non è espressa da un
unico indice statistico, (può essere espressa anche dal coefficiente di correlazione) ma è data più in
generale da una serie di osservazioni e dati che forniscono un'informazione sulla natura del costrutto
che stiamo andando ad analizzare. (Barbaranelli Natali p. 259) In genere si costruisce una scala per
misurare una determinata caratteristica o costrutto psicologico e partono dalla definizione di elementi
fondamentali che costituiscono questo costrutto, se sto parlando della personalità possiamo scegliere
una dimensione di essa es, coscienziosità e da quella dimensione si sviluppano attraverso il processo
di operazionalizzazione una serie di item che sono adatti a cogliere questi elementi fondamentali.
Questa relazione che unisce i costrutti agli indicatori, nei modelli psicometrici che sono la base di
questo corso, è ipotizzata. È solitamente ipotizzato che i costrutti e le variabili latenti influenzino,
cioè generino, determinino, causino, gli indicatori o le variabili osservate e quindi diciamo che questo
è il modello riflessivo che riprenderemo parlando di modelli regressivi e fattoriali e avremo modelli
riflessivi che vengono studiati attraverso l’analisi fattoriale e modelli formativi che vengono studiati
attraverso le regressioni. Questa relazione tra le variabili latenti e gli indicatori sono giustificate da
questa relazione di tipo riflessivo e gli item e i punteggi degli item vengono combinati tra loro in
modo additivo, cioè sommando i risultati dei singoli item per ottenere un punteggio complessivo che
può essere la presenza di un costrutto, come ansia o socievolezza ecc. Il costrutto però è qualcosa di
più della etichetta che gli viene data, all’inizio viene compresa o inferita dalla rete di intercorrelazioni
che ci possono essere con costrutti similari o dissimili: un costrutto è definibile anche come una
qualità o un tratto teorico intangibile rispetto al quale gli individui differiscono dagli altri, quindi si
tratta di una categoria astratta di un’idea utilizzata per descrivere un dato comportamento e per
operare collegamenti logici tra comportamenti diversi. Sul concreto il termine costrutto è legato alle
variabili direttamente osservabili e necessitano di essere inferite da ciò che noi effettivamente
riusciamo a misurare, cioè i comportamenti dei soggetti. Esempi tipici di costrutti psicologici sono
l’intelligenza, la motivazione, capacità di leadership ecc. Come si stabilisce se il test fornisce una
buona misura di un costrutto specifico come strumento di misurazione? Il costrutto astratto, teoretico,
si deve tradurre in termini di comportamenti concreti, tale processo di traduzione viene chiamato
anche ESPLICAZIONE DEL COSTRUTTO e costituisce la chiave per determinare la tipologia di
validità di un test. Le tre fasi principali dell’esplicazione del costrutto sono
1) l’identificazione dei comportamenti concreti che possono avere una relazione col costrutto da
misurare
2) l’individuazione di altri costrutti che possono essere collegati con i precedenti
3) decisione di quali comportamenti hanno una relazione, ciascuno di questi, con costrutti
supplementari e sulla base della connessione tra i diversi costrutti scelti, dei comportamento che
hanno una relazione col costrutto che si vuole misurare.
Sembra quindi che la valutazione dei punteggi di un test sullo strumento sia legata in modo
imprescindibile alla validazione della teoria riguardante la natura del costrutto di interesse, sembra
che questi due aspetti siano collegati in modo inseparabile. Se questo è vero allora le ipotesi di
relazioni teoriche tra il costrutto e altri costrutti sono ipotesi che possono essere confermate e
disconfermate e contemporaneamente utilizzate come studio della validità della misura in esame. La
misurazione empirica di costrutti diversi o similari viene utilizzata per confermare o disconfermare
ipotesi teoriche e in questi casi poi si riesce ad attribuire ciò alla validità di uno strumento. I tipi di
validità di costrutto sono la validità convergente e la validità discriminante, quindi anche la validità
di costrutto così come la validità di criterio, è suddivisa in due sfaccettature. C’è un’altra modalità di
conferma di validità di costrutto che è l’Analisi fattoriale. Il problema che i metodi di analisi fattoriale
cercano di risolvere si può fondamentalmente formulare come: dato un insieme di misure vediamo se
tutte misurano sostanzialmente la stessa variabile psicologica o se invece misurano aspetti diversi
identificabili con sottogruppi di misure (Boncori 1993). Vedremo anche un altro
metodo di conferma di validità (che contemporaneamente valida il metodo e il costrutto) che si
chiama matrice multitratto e multimetodo. La procedura più semplice per valutare la validità
convergente (o congruente) consiste nel correlare i punteggi di un nuovo test con i punteggi di un test
già ampiamente validato; per esempio i punteggi di nuovi test di intelligenza possono essere
confrontati con altre misure validate come quelle dello Stanford-Binet o del test di Wechsler-
Bellevue. in realtà la validità convergente presuppone che vi sia una convergenza tra le misurazioni
del costrutto della nostra analisi e quelle di un costrutto similare che dovrebbe convergere con quelle
del costrutto in esame. Mentre per i test di intelligenza i vari approcci (come fattore g, fattore unico,
fattore multiplo o come analisi delle intelligenze multiple ecc.) possono essere considerati
convergenti. Quando parliamo invece ad es. di un costrutto come l’amicalità, e vogliamo validare dal
punto di vista della validità convergente il nostro test, allora bisogna vedere se i punteggi ottenuti a
questo test sull’amicalità convergono, cioè hanno una correlazione alta e positiva (sale l’amicalità e
sale anche il punteggio di un test che misura un costrutto convergente come ad es. l’apertura mentale).
Per costrutti misurati da test diversi che in linea teorica dovrebbero andare nella stessa direzione,
come per esempio amicalità alta e apertura mentale alta e viceversa, se riusciamo a confermare questo
tipo di correlazione possiamo anche dire che c’è una validità convergente alta per il nostro test. La
validità discriminante è il grado di discriminazione tra due misurazioni di costrutti diversi. In altre
parole, si ha validità discriminante quando si ottiene un basso livello di correlazione tra i punteggi al
test con quelli di altre variabili con le quali teoricamente ci si aspetta che il test non correli.
Validità discriminante: come si misura? In questo caso si effettua una correlazione, però questa volta
il costrutto con cui noi andiamo a correlare la nostra misurazione, dal punto di vista teorico dovrebbe
avere una relazione di tipo divergente, cioè ad alti punteggi del nostro costrutto dovrebbero, dal punto
di vista teorico, corrispondere bassi punteggi del costrutto in esame, ad es. amicalità e ansia. Rispetto
ad un soggetto che è ansioso è meno disponibile a mettersi in gioco per avere relazioni sociali, dal
punto di vista teorico dovrei osservare, se il mio test ha un’alta validità di costrutto discriminante,
una correlazione negativa alta, cioè verso -1, quindi -0.80-90 ecc. perché quando aumenta il livello
di amicalità diminuisce l’ansia e viceversa. Anche in questo caso il tipo di misurazione è semplice in
quanto è strettamente legata alla correlazione ed è da mettere in evidenza come questo tipo di verifica
della validità di costrutto con la semplice correlazione è stata sopravanzata dall’analisi fattoriale che
riesce ad individuare se effettivamente il costrutto che stiamo analizzando attraverso il nostro test ha
le stesse dimensioni di quelle teoricamente presupposte o se ha una sola dimensione, un solo costrutto
che influenza tutti gli item, e quindi come tecnica statistica più complessa (attraverso l’inevitabile
utilizzo dei personal computer) ha sostituito in modo molto estensivo tutti i tipi di studi di validità
convergente e discriminante legati alla correlazione semplice, anche perché questo tipo di studi è
molto legato al tipo di strumenti e misurazioni che utilizziamo per la correlazione, per questo servono
strumenti validati, e la ricorsività che riscontriamo utilizzando la semplice correlazione può essere
superata e resa meno rilevante con l’analisi fattoriale.
Per avere un livello di validità discriminante accettabile il coefficiente di correlazione deve essere
uguale a zero? -> Falso: si sceglie un costrutto che sia correlato negativamente, quindi più si avvicina
a -1 e meglio è.
Riassumendo:
La validità discriminante consiste nel dimostrare un ragionevole grado di indipendenza tra le varie
aree che compongono lo strumento. Per misurarla si può utilizzare il coefficiente di cograduazione di
Spearman.
Per validità convergente si intende la misura della dipendenza di ogni item con il fattore di
riferimento. Si misura tramite correlazione tra ogni domanda/item e la sua scala di appartenenza.

LEZIONE 5 - VALIDITA’ NOMOLOGICA e MMTMM

Questo disegno fornisce un’idea dell’interconnessione tra i vari elementi della validità. Le freccette
collegano i vari tipi di validità dello strumento di misurazione in un unico concetto di validità
sfaccettato con elementi che contribuiscono tutti a determinare la validità di uno strumento, per
quanto invece riguarda l’attendibilità, i differenti metodi di misurazione dell’attendibilità si
riferiscono ad attendibilità diverse. Mentre per facciata, costrutto, contenuto, criterio e nomologico,
la validità ha uno stesso contenuto, per l’attendibilità diversi metodi portano a diverse concezioni di
attendibilità.
Quando si parla di validità di uno strumento di misura bisogna tener conto non solo della definizione
concettuale e operativa del costrutto che si vuole misurare, ma anche delle relazioni con misurazioni
diverse del costrutto, con misure di altri costrutti, con misure di altri costrutti all’interno di un sistema
teorico e con misure di variabili presenti nel mondo reale. (Crocker, Algina, 1986). L’ultima tipologia
di validità di uno strumento di misurazione che vedremo è la validità nomologica. A partire dalla
validità di costrutto, cioè la relazione tra il nostro costrutto misurato dal nostro strumento di
misurazione con costrutti similari o divergenti ma singoli, quindi non costituenti una rete tra di loro,
la validità nomologica costituisce un passo ulteriore perché si va ad analizzare che, dal punto di vista
teorico generale, diversi altri costrutti dovrebbero posizionarsi all’interno della nostra teoria in un
certo ordine e contemporaneamente ci dovrebbero essere altre variabili osservabili che ci danno
un’idea sull’effettiva coerenza del costrutto con comportamenti direttamente osservabili nei soggetti.
Cronbach e Meehl definiscono la validità nomologica come dimostrazione che è effettivamente il
costrutto a specificare le leggi statistiche o deterministiche che reggono le sue manifestazioni
costrutto in termini di relazioni tra le sue proprietà osservabili, cioè tra il costrutto e le variabili
osservate e tra costrutti diversi. Nella valutazione della validità di costrutto non ci si può limitare solo
alle manifestazioni empiriche ma si devono prendere in considerazione anche le relazioni con altri
costrutti o criteri della rete nomologica nella quale è inserito. Una rete nomologica si può intendere
come indicato nella slide di seguito

Questa rappresentazione può essere definita anche come un modello logico. Ci sono variabili
direttamente osservabili come il comportamento delinquenziale, c’è un legame tra costrutti diversi
come disimpegno morale e propensione all’aggressione. Se il nostro strumento misura la propensione
all’aggressione, evidentemente ha inserito altri costrutti, comportamenti osservati (Comportamento
prosociale Colpa e riparazione, che sono altri costrutti) in questa rete nomologica e teorica di relazione
tra costrutti. Le freccette sono le relazioni statistiche per cui è calcolato anche il coefficiente di
correlazione. C’è una correlazione media (0.51) tra disimpegno morale e propensione all’aggressione,
ce ne è una di 0.31 tra propensione all’aggressione e comportamento delinquenziale e comunque
l’idea che la propensione all’aggressione dovrebbe determinare comportamenti delinquenziali è
confermata, anche se non completamente, perché ci sono altri elementi che evidentemente possono
contribuire al comportamento delinquenziale.
La rete nomologica di un costrutto può essere ampliata grazie alla ricerca che deve andare ad
analizzare in particolare le relazioni del costrutto con altri costrutti non considerati in precedenza,
quindi la propensione all’aggressione può essere considerata in assenza di colpa e riparazione oppure
in presenza di colpa e riparazione e vedremo che questo potrebbe essere considerato secondo quanto
visto precedentemente: se analizziamo semplicemente la relazione tra disimpegno morale,
comportamento delinquenziale e propensione all’aggressione, potremmo anche dire che c’è una
relazione tra disimpegno morale e comportamento delinquenziale che è mediata dalla propensione
all’aggressione (nel modulo 3 abbiamo visto le variabili moderatore e mediatore). In questo caso è
una mediazione non completa perché evidentemente rimane una certa parte di relazione tra
disimpegno morale e comportamento delinquenziale non spiegata dalla propensione all’aggressione,
infatti in questo modello permane una relazione tra disimpegno morale e comportamento
delinquenziale positiva e non è una relazione completamente spiegata da questa terza variabile,
possiamo inserire ulteriori costrutti in base alla ricerca e la valutazione della validità di costrutto non
può essere limitata alle sole manifestazioni empiriche (variabili nel rettangolo), quindi non si possono
andare a vedere solo relazioni col comportamento prosociale e comportamento delinquenziale ma
deve essere legata anche ad ulteriori costrutti. È necessario utilizzare alcune osservazioni per stimare
il valore di ogni costrutto e quindi la verifica della validità nomologica di uno strumento diventa
ancora più onerosa dal punto di vista della raccolta dati e la validità dell’interpretazione proposta dei
punteggi al test in termini di validità di costrutto viene valutata in base a quanto i punteggi supportano
la teoria in generale, quindi non solo o non più relazioni singole ma quanto all’interno di tutte le
relazioni in termini generali c’è o non c’è una congruenza. Se le osservazioni sono coerenti con la
teoria, la validità della teoria e delle procedure di misurazione utilizzate per stimare questi costrutti
che sono definiti dalla teoria risulta allora a sua volta corroborata, altrimenti si può procedere a
considerare alcune parti della rete nomologica come non corrispondenti e quindi addirittura a
rifiutarle, però bisogna stare attenti che questo difetto non sia nel sistema di misurazione ma sia negli
assiomi perché se noi andiamo a rifiutare le azioni postulate e verificate in precedenza dal punto di
vista teorico, bisogna stare attenti che le regole utilizzate per la misurazione e le procedure di
misurazione siano state perfettamente seguite. Con questa validità abbiamo terminato la disamina dei
principali metodi di conferma e studio della validità di uno strumento di misurazione così come
definito dall’American Psychological Association e questo però non vuol dire che non ci siano altri
metodi. Vi è l’analisi fattoriale per la validità di costrutto e c’è un altro metodo interessante che è la
MATRICE MULTI TRATTO MULTI METODO. È uno strumento particolarmente efficace in alcuni
casi perché ci permette di verificare condizioni di validità convergente e discriminante
contemporaneamente a una misurazione di più di un tratto ottenute con misurazioni con più metodi,
quindi Matrice multi tratto e multi metodo perché ci permette questa verifica di tratti diversi ottenuti
con misurazioni diverse e metodi diversi ma allo stesso tempo la verifica è una verifica integrata che
ci permette di avere una visione di insieme più interessante che non le singole validità suddivise.
Campbell e Fiske per primi nel 1959 propongono la MMTMM come metodo per verificare le
associazioni tra questo insieme di misure che vanno organizzate in una matrice (una specie di tabella
con righe e colonne) e da questa tabella possono essere ricavate le informazioni necessarie per poter
valutare la validità convergente e discriminante contemporaneamente ma allo stesso momento metodi
diversi. Supponiamo di voler misurare in un campione di soggetti l’intolleranza verso l’ambiguità, la
chiusura cognitiva e l’apertura mentale e determinare per questi 3 elementi la validità delle misure.
Per ognuno di questi 3 tratti sono state raccolte 3 misure che differiscono tra loro per formato degli
item e modalità di risposta disponibili per i partecipanti. Ognuno dei tratti è stato successivamente
misurato con i 3 metodi e le associazioni tra le misurazioni che sono state elaborate vengono disposte
in questa matrice in cui i tratti verranno chiamati A B C e sono misurati con 3 metodi diversi indicati
con metodo 1, 2 e 3. L’ esempio di matrice MMTMM corrispondente all’esempio fatto di seguito
riportata una volta predisposta va interpretata.
Campbell e Fiske hanno proposto di individuare diversi sottotriangoli nella matrice e utilizzarli per
la valutazione della validità convergente e discriminante. I triangoli hanno dei bordi disegnati in modo
diverso, solidi o tratteggiati. Quelli con bordi continui contengono le correlazioni tra i tratti diversi
misurati col medesimo metodo, nel primo triangolo in alto abbiamo la relazione tra il tratto b1 e a1
misurate col metodo 1 (b1a1), c1 e a1 col metodo 1 (c1a1) e c1 e b1 col metodo 1 (c1b1). I triangoli
tratteggiati identificano i settori della matrice che includono correlazioni tra tratti diversi misurati con
metodi differenti. Per non confonderci possiamo chiamare i triangoli con bordo continuo triangoli
eterotratto monometodo (tratti differenti ma un unico metodo) e i triangoli tratteggiati che vengono
chiamati eterotratto eterometodo (metodi diversi e tratti diversi). Sotto il triangolo più alto,
scendendo verso destra, abbiamo il triangolo tratteggiato con Metodo 2 e 1 incrociati in questo
triangolo e quindi abbiamo delle relazioni che devono essere interpretate in modo diverso. Le
diagonali che vengono identificate in grassetto racchiudono i coefficienti di validità convergente in
quanto riflettono le correlazioni tra medesimi tratti misurati con metodi diversi, ad esempio tra i primi
due triangoli tratteggiati dall’alto vediamo in grassetto A2A1 rappresenta il tratto A misurato con il
metodo 1 e col metodo 2. Sotto abbiamo la stessa cosa per il tratto B, mentre due valori più in basso,
seguendo la diagonale, abbiamo B3b2 CHE è il tratto B misurato col metodo 3 e il metodo 2 e così
via. Per indagare quindi la validità convergente e discriminante vengono valutati 4 criteri. Il primo
criterio concerne la validità convergente mentre gli altri 3 criteri riguardano la validità
discriminante. Per quanto riguarda la validità convergente questa viene supportata dai coefficienti
nella diagonale della validità in grassetto e dobbiamo verificare quelli che sono più elevati e i valori
più elevati che siano anche statisticamente significativi. Questi valori ci possono indicare metodi
diversi di misura di un medesimo costrutto che sono ampiamente convergenti e ciò depone a favore
della loro validità. Se io attraverso metodi diversi misuro lo stesso tratto e la correlazione tra queste
due misurazioni è alta allora ci dovrebbe essere validità convergente. Il secondo criterio di validità
discriminante si basa invece sul confronto di ogni coefficiente di validità coi coefficienti racchiusi
nei triangoli eterotratto-monometodo, quindi all’interno dei triangoli con tratto continuo. La validità
discriminante viene supportata se le misure di un medesimo tratto che non condividono un medesimo
metodo risultano maggiormente associate rispetto alle misure di tratti diversi che però condividono il
medesimo metodo. L’ultima modalità per la verifica del supporto della validità discriminante vede
che le correlazioni tra i diversi tratti debbano conformarsi al medesimo ordine sia nei triangoli
monometodo (continui) che in quelli eterometodo (tratteggiati). Per esempio se, considerando il
metodo M1, cioè il primo, osservassimo che i tratti A1B1 risultano più correlati dei tratti B1C1 e
questi ultimi sono a loro volta associati in modo più stretto con i tratti A1C1, allora il medesimo
ordine delle correlazioni deve essere rispettato per gli altri metodi di misura, quindi per il metodo 2 e
3. Variazioni di questo criterio ci porterebbero a pensare che almeno per alcuni metodi o per alcuni
tratti manca validità discriminante, quindi non si è in grado di differenziare tra i tipi di misurazione.
Questo tipo di analisi è abbastanza complessa anche perché richiede di analizzare
contemporaneamente una intera matrice e difficilmente si riesce ad avere una perfetta distribuzione
secondo i criteri che abbiamo appena indicato e avere una chiara differenziazione sulla validità
convergente e discriminante. La logica dei criteri di una matrice MMTMM è relativamente semplice
e intuitiva per queste regole già stabilite ma l’applicazione pratica risulta ambigua e difficile da gestire
perché non è chiaro quale conclusione si debba ad esempio trarre se ci troviamo nella condizione in
cui alcuni criteri sono rispettati ed altri no, è facile determinare quali sono i criteri ma poi non c’è una
chiara indicazione su quale sia quello da seguire nel caso ci siano elementi divergenti; inoltre siccome
i criteri si basano su correlazioni tra variabili osservate e siccome sappiamo che esiste l’errore di
misura, cioè che questo punteggio osservato in realtà non corrisponde direttamente al punteggio vero
e quindi questa validità meno che perfetta dovrebbe abbassare i coefficienti di correlazione, allora
l’applicazione dei criteri diventa un po’ più ambigua e in alcuni casi affidarsi solo alle correlazioni
può risultare fuorviante. Questo però non vale solo per la MMTMM ma vale anche per i coefficienti
di validità calcolati per costrutto e criterio in modo precedente.
La validità nomologica concerne le relazioni con misurazioni diverse del costrutto, con misure di
altri costrutti all’interno di un sistemateorico e con misure di variabili presenti nel mondo reale.->
Vero

Un ultima cosa da affrontare è un confronto fra la concezione degli elementi fondamentali per la
misurazione di una caratteristica attraverso un test e una volta che abbiamo definito qual è il costrutto
o l’abilità o il tratto che il test propone di misurare e il metodo con cui verrà definita la quantificazione
dei risultati dobbiamo scegliere gli stimoli e fissare le modalità di risposta. Sia gli stimoli che le
modalità di risposta debbono essere appropriati per la caratteristica da misurare es. se si vuole
misurare la creatività le risposte dovrebbero essere necessariamente aperte, se si vuole misurare la
capacità di risolvere dei problemi sono più vantaggiosi item con risposte chiuse magari a scelta
multipla con una risposta sola di tipo alfa cioè corretta o se si vuole misurare un tratto di personalità
probabilmente le risposte più adatte sono quelle con alternative chiuse disposte lungo una scala che
rispecchi il continuum delle differenze individuali. La scelta dei tipi di risposta è molto connessa con
i problemi relativi alla corrispondenza che ci sono tra test ed esigenze pratiche. Gli stimoli devono
essere scelti o realizzati in modo che attivino solo risposte attinenti alla caratteristica da misurare e
ad es, se parliamo di un questionario psicopatologico che ha domande con vocaboli difficili, persone
meno colte potrebbero dare una risposta di tipo alfa, cioè quella che corrisponde a una psicopatologia
anche quando non hanno quel disturbo solo perché hanno frainteso. Se lo stimolo è una figura e ci si
aspetta risposte alfa in rapporto a un dettaglio bisogna essere sicuri che quel dettaglio non presenti
difficoltà percettive e quindi che le risposte alfa non si presentano perché è assente la caratteristica o
perché invece è stata assente la percezione di quella figura. Tutti questi problemi, per economia di
lavoro, devono essere affrontati già prima di sottoporre il test al soggetto, per questo si parla di validità
a priori del test, mentre ciò di cui abbiamo parlato finora è la validità a posteriori. Di solito questi
sono problemi che vengono esaminati all’interno del gruppo di esperti che costruiscono il test. Nei
test costituiti con cura vengono anche consultati esperti esterni al gruppo che si occupa del test e
vengono fatti controlli preliminari su piccoli gruppi di soggetti che vengono chiamati try out.
L’insieme di questi controlli rappresenta la validità esaminata a priori cioè quando ancora non si
conoscono le risposte dei soggetti al test, invece una volta trovati gli stimoli e predisposto il test
comincia la validazione esterna di esso, la chiamiamo validazione a posteriori per non confonderci
con la validità esterna della ricerca, quindi abbiamo la validità a priori e a posteriori che è invece
associabile ai 5 tipi di validità precedentemente affrontati. Questi procedimenti di validità a posteriori
durano in genere più di un anno perché richiedono la raccolta di un campione normativo molto
numeroso e sono chiamati controlli a posteriori perché vengono fatti post somministrazione del test,
la maggior parte delle problematiche riguarda la scelta del campione o dei campioni su cui procedere
a effettuare i controlli e la maggior parte dei test non vengono validati su campioni stocastici, cioè
aleatori, né rigorosamente casuali che permetterebbero di avere migliori garanzie di generalizzabilità
ma che sono particolarmente difficili per diverse tipologie di popolazioni. Gli studi di validità che
abbiamo visto sono premessa degli studi di attendibilità, cioè sulle garanzie che le misure fornite
siano stabili anche se cambiano gli operatori, se passa un po’ di tempo, se si usa una o l’altra forma
del test. E una volta accertato che la misura è stabile si cerca di chiarire se si misura quello che ci si
proponeva. Lo psicologo che decide di utilizzare un test invece di un altro strumento lo fa anche per
vantaggi pratici perché il test corrisponde a esigenze pratiche. Se bisogna misurare l’ansia o la
depressione si può ad esempio utilizzare il CDI 2 e questo test è una versione ridotta che potrebbe
essere scelta per motivi di praticità legati al poco tempo o alla caratteristica della persona. Se ad es.
il test scelto non può essere utilizzato per persone di modesta cultura allora bisogna scegliere un altro
tipo di test se la persona non ha un buon background culturale. Ci sono anche molti altri problemi
etici e deontologici per i quali ad es. è bene non utilizzare test con item dalla particolare connotazione
politica e religiosa, inoltre si potrebbe valutare il costo o la validità per la popolazione di riferimento
e tanto altro ancora.

DISPENSA
IL CONTROLLO
In psicologia il concetto di controllo è usato in due modi. Il significato fondamentale del
termine è quello di fornire un punto di paragone fisso con cui confrontare l'effetto di una
particolare variabile indipendente. Se due condizioni sperimentali differiscono solo per una
variabile indipendente, qualsiasi differenza che compaia fra le due condizioni a seguito del
trattamento può essere attribuita all'azione di quella variabile. Tutte le altre spiegazioni sono
eliminate dall'esistenza di una seconda condizione di controllo. Un secondo significato del
termine controllo è distinto ma strettamente legato al primo; vale a dire la capacità di limitare
o guidare le sorgenti di variabilità nella ricerca. (Cioffi, 2002 p. 67)
L’attività di controllo, soprattutto nella ricerca sperimentale, può essere considerata come la
seconda faccia della medaglia della validità. Infatti, nell’esperimento per il controllo della
validità si utilizza un gruppo di controllo insieme al gruppo sperimentale. Il gruppo di controllo
è costituito con le stesse caratteristiche di quello sperimentale ed ha la funzione di offrire un
punto di comparazione per la verifica degli effetti della variabile indipendente. Questa verifica
avviene confrontando i risultati del gruppo sperimentale che riceve il trattamento con quello di
controllo che non è sottoposto ad alcun trattamento. La comparazione può anche riguardare i
risultati sia dello stesso gruppo sperimentale (ad esempio una classe) sottoposto a differenti
livelli della stessa variabile indipendente (esperimento entro i gruppi), sia di due, o più, gruppi
che ricevono però livelli diversi dello stesso trattamento. Nel caso si utilizzi lo stesso gruppo si
stabilisce una condizione di controllo, in quanto lo stesso gruppo fa da controllo a se stesso; inoltre,
occorre considerare che si possono verificare degli effetti combinati dovuti all’ordine e
alla sequenza, dato che il gruppo esegue più volte le prove ed è sottoposto al trattamento almeno
due volte.
In tutti i casi si ricorre ad un pre-test per assicurare che o il gruppo singolo o i gruppi siano
effettivamente omogenei per quanto riguarda le variabili più importanti per l'esperimento.
Per ovviare alle possibili sorgenti di variabilità o confusione di effetti sono utilizzate specifiche
strategie di controllo. Di seguito sono presentate alcune strategie più comunemente utilizzate.

LE STRATEGIE GENERALI DI CONTROLLO


In generale nella sperimentazione le strategie di controllo utilizzano metodi che sono applicati
contemporaneamente e la loro azione si aggiunge a quella del controllo esercitato mediante il
disegno sperimentale.
L’ambiente di ricerca, o setting. Il laboratorio, come ambiente, è sempre stato considerato
ideale, in quanto permette di eliminare o di tenere sotto controllo le variabili estranee e di
confusione. Inoltre, permette una semplificazione della situazione sperimentale riducendo le
variabili che non interessano e aumentando, invece, il controllo sulla variabile indipendente. Il
laboratorio consente anche di mantenere costanti tutte le altre variabili che non sono eliminabili
poiché si sottopongono i soggetti alle stesse prove, nello stesso luogo (aula o stanza), con lo
stesso sperimentatore (docente o somministratore o psicologo) e nel medesimo momento della
giornata, e così via. Perciò, eventuali differenze tra il gruppo sperimentale e quello di controllo
possono essere attribuite con maggiore sicurezza alla manipolazione della variabile
indipendente. L'efficacia del controllo sperimentale è strettamente connessa sia alla scelta, da
parte del ricercatore, delle varie strategie, strumenti, dispositivi per eseguire la sua ricerca (a
questo proposito non vi sono indicazioni generali poiché ogni esperimento comporta soluzioni
diverse, e quindi una rassegna completa è impossibile), sia alle caratteristiche e qualità degli
strumenti di misura adoperati nella ricerca. Ogni strumento di misura per essere valido deve
essere oggettivo attendibile e sensibile - e questo vale per qualsiasi studio condotto con qualsiasi
metodo -. A volte, soprattutto se si ha il dubbio che un’eventuale assenza dell’effetto della
variabile indipendente sia dovuta allo strumento di misura, si ripete l'esperimento con un altro
strumento di misura per aumentare l’affidabilità della misurazione. Se il risultato delle due
diverse misurazioni coincidono, ovvero se un fenomeno osservato in un primo esperimento si
verifica anche in un secondo e in un terzo, allora si può ritenere che le misurazioni, e lo
strumento, siano attendibili. Un esperimento che non può essere ripetuto, lascia invece il dubbio
che i dati ottenuti possano essere dovuti ad eventi casuali.
Quando si ripete un esperimento in modo più fedele possibile all’originale, si parla di
ripetizione; quando invece si opera una modifica rispetto alla prima sperimentazione per vedere, ad
esempio, se nonostante la modifica si otterrà un risultato analogo, si parla di replica o
ripetizione sistematica. Occorre osservare che se in uno studio la presenza di talune variabili di
confusione causano particolari errori, e se si ripete il procedimento in maniera esatta, si
produrranno gli stessi errori. Per questo motivo occorre utilizzare più procedimenti di controllo
insieme, mai uno soltanto, per garantire la validità della sperimentazione e della ricerca nel
complesso.
In generale, possono essere introdotti numerosi effetti di disturbo nei dati di una ricerca dagli
stessi soggetti partecipanti alla sperimentazione. Questi, possono essere influenzati da
motivazioni diverse, dalle aspettative, dall’interazione con lo sperimentatore e da altri elementi
soggettivi. Nello stesso modo, anche il ricercatore o il personale di ricerca può, anche
inconsapevolmente, influenzare il comportamento dei soggetti sperimentali inficiandone le
prestazioni. Per ridurre questi possibili effetti di confusione si può operare, ad esempio, nascondendo
ai soggetti sperimentali sia lo scopo generale della ricerca, sia la condizione alla
quale ognuno di essi è sottoposto per quanto riguarda gli effetti di disturbo (è il metodo del
singolo cieco, in inglese single-blind control procedure). Per quanto riguarda, invece, le
minacce provenienti dallo sperimentatore è necessario ridurre al minimo i contatti diretti tra
ricercatore e i soggetti partecipanti. Queste minacce si possono realizzare attraverso la
preparazione e collaborazione del personale di ricerca appositamente addestrato e formato, che
gestiscono i rapporti con i soggetti, a patto che siano anch’essi all’oscuro oltre che dell’ipotesi
dell’esperimento anche della formazione dei gruppi (non devono sapere cioè a quale gruppo di
trattamento sono stati assegnati i singoli soggetti) e, inoltre, a quale gruppo appartengono le
risposte che sono chiamati a valutare. In questo modo i collaboratori, anche involontariamente, non
trasmettono ai soggetti informazioni sul trattamento (o inganno), sulle risposte attese, e, nello stesso
tempo, non hanno la possibilità di interpretare in modo differenziato i risultati.
Questo procedimento è tecnicamente chiamato doppio cieco perché risulta cieco, cioè senza
informazioni che possono modificare i propri giudizi, sia il soggetto sia lo sperimentatore. Tale
situazione non sempre è utilizzabile, soprattutto quando entrano in gioco motivi etici; in
alternativa è possibile procedure sistematizzate, anche attraverso il computer, per dare le
istruzioni ai soggetti, e ai somministratori. Con il metodo osservativo, quando cioè le
osservazioni sono soggettive e prevedono la registrazione di informazioni destrutturate, o altri
metodi obiettivi, il controllo si effettua mediante l’impiego di parecchi osservatori e i dati
rilevati possono essere comparati e valutati mediante un coefficiente di accordo. Questa tecnica
è conosciuta come inter-rater reliability, cioè dimostra la concordanza tra valutatori per la
stessa valutazione e ciò caratterizza l’affidabilità della misura, o giudizio, realizzata.
Una selezione scrupolosa dei soggetti può assicurare l’equivalenza dei gruppi e la possibilità di
generalizzare i risultati alla popolazione, anche attraverso il giusto uso delle regole di
campionamento.
Pur rimandando alla descrizione dei vari tipi di campionamento si evidenzieranno i punti
fondamentali in modo da mettere in evidenza il funzionamento rispetto agli elementi del
controllo. Occorre inizialmente distinguere tra a) la popolazione dal campione, b) la
popolazione bersaglio dalla popolazione accessibile, c) il campione selezionato secondo i
metodi del campionamento casuale semplice, dal campionamento casuale stratificato e dal
campionamento ad hoc.
Con il termine popolazione si intendono tutti i fatti di interesse a cui si rivolge il ricercatore per
la ricerca: individui, persone, comportamenti, stimoli, ecc. Possono considerarsi popolazioni
finite o infinite rispetto alla possibilità di stabilire il numero di elementi compongono la
popolazione stessa.
Il campione è l’insieme di elementi, tratti dalla popolazione che interessa, che risulta
rappresentativo della stessa, rispetto alle caratteristiche o proprietà che interessano per la
ricerca, in modo che si possano poi generalizzare i risultati ottenuti. La tesi fondamentale
contenuta nel concetto di rappresentatività è che nel campione devono essere rappresentate tutte
le caratteristiche della popolazione che interessano per la ricerca.
Per la ricerca, quindi, occorre selezionare in modo casuale dalla popolazione accessibile un
campione convenientemente numeroso; più grande è il campione e più risulta rappresentativo
della popolazione poiché si riducono gli errori di campionamento. Il campionamento è definito
casuale quando la selezione di ogni elemento avviene da una popolazione in cui gli elementi
sono ordinabili ed ogni elemento ha la stessa probabilità di essere selezionato. Il
campionamento casuale è detto stratificato quando si considera una suddivisione preliminare
della popolazione in strati o sub-popolazioni, da ognuna delle quali viene estratto un subcampione,
sempre in modo casuale, di numerosità proporzionale alla numerosità del campione
totale. Le sub-popolazioni vengono definite sulla base di una o più variabili critiche dei soggetti,
come l’età, lo stato socio-economico, ecc., cioè una, o più, di quelle proprietà che si suppone
influiscano sui risultati dell’esperimento. I campioni casuali stratificati vengono utilizzati
soprattutto nelle ricerche educative e sociali. Nelle scienze psicologiche, invece, in molti casi i
ricercatori devono condurre gli esperimenti con soggetti non facilmente reperibili e disponibili
e quindi non scelti in modo casuale da una particolare popolazione ordinata. Tali gruppi di
soggetti, definiti campioni ad hoc, o ragionati, possono evidenziare risultati generalizzabili
sulla base delle caratteristiche del campione stesso; in pratica, quanto più si riesce a descrivere
i soggetti del campione in modo obiettivo, tanto più esatta risulterà possibile trasferire i risultati
alla popolazione di riferimento.
La generalizzabilità, inoltre, dipende anche dai possibili errori sistematici che possono influire
sul campionamento e generare risultati sistematicamente errati, e quindi non generalizzabili.
Una volta che il campione è stato formato i soggetti selezionati devono essere assegnati, secondo le
condizioni stabilite dai disegni sperimentali, ai gruppi sperimentali. I soggetti, quindi, possono essere
assegnati ai gruppi sperimentali in maniera casuale randomizzata, (assegnazione casuale libera)
soprattutto quando si lavora con un numero alto di soggetti; quando invece il numero di soggetti è
piccolo si utilizza preferibilmente il pareggiamento (Questo metodo consiste nel rendere i gruppi
simili rispetto alla variabile da controllare. Un particolare tipo di pareggiamento è l’appaiamento
(«matching»): uno a uno dei soggetti rispetto alle variabili da controllare. Il pareggiamento può essere
utilizzato per rendere equivalenti due gruppi da sottoporre a trattamento. Si hanno disegni di ricerca
in cui due gruppi omogenei tra loro sono sottoposti a condizioni diverse: questo tipo di controllo
avviene fra i gruppi (between groups); si hanno altri disegni di ricerca il cui controllo sulle variabili
di disturbo avviene all’interno del gruppo stesso (within group), cioè quando si considerano gli stessi
soggetti prima e dopo un trattamento, ovvero quando si utilizzano i soggetti come controllo di se
stessi).
Il vantaggio di questa tecnica è dato dal fatto che essa rende la ricerca con piccoli gruppi più sensibile
agli effetti della variabile indipendente mediante l’equa distribuzione tra i gruppi delle variabili di
disturbo conosciute o sospettate di esserlo. Una seconda particolarità per utilizzare il pareggiamento
è il considerare che vi sia una variabile rispetto alla quale i soggetti differiscono e che essa sia con
buona probabilità correlata con la variabile dipendente. Questa variabile deve essere comunque
individuata prima di eseguire il pareggiamento stesso; quindi i soggetti devono essere esaminati prima
di venire assegnati alle varie condizioni. Per attuare il metodo, quindi, i soggetti sono ordinati a livello
crescente o decrescente sulla base di una prova preliminare relativa alla variabile influente;
successivamente si formano delle coppie (il primo col secondo, il terzo col quarto ecc.) e si assegnano
a caso i componenti della coppia ai gruppi sperimentali diversi. Nell’attuazione del metodo, i soggetti
sono uniformati contemporaneamente su tutte le caratteristiche rilevanti; questi vincoli comportano
che qualsiasi soggetto che risulta privo di un suo corrispondente uniforme su tutte le caratteristiche
non può essere assegnato ad alcun gruppo e quindi risulta non utilizzato. Applicando ai gruppi
i trattamenti si rilevano i risultati e quindi si esaminano le differenze tra i membri delle coppie.
Un altro metodo al pareggiamento è il metodo dei blocchi (Gli scienziati sociali hanno introdotto
questo termine, e il rispettivo procedimento deducendolo da un termine dell'agricoltura, che indica
una striscia di terra composta da un certo numero di appezzamenti adiacenti. Questi
appezzamenti sono simili nelle caratteristiche del suolo, nelle reazioni al fertilizzante, nel potenziale
di crescita e sono differenti da terreni non adiacenti. Il termine blocco ha così assunto il significato di
un'unità omogenea relativamente a certe caratteristiche) che consiste nell’abbinare le
caratteristiche dei gruppi. Questo metodo prevede innanzitutto l’identificazione della variabile
in base alla quale formare i blocchi, poi successivamente misurarla su tutti i soggetti, che
dovranno appartenere al campione sperimentale, e suddividere i soggetti in base alla media e
alla deviazione standard ottenute in tali misure. Ad esempio, se si formano i blocchi in base al
quoziente d’intelligenza Q.I. (primo blocco compreso tra 98 e 102, II = 103-107; III = 107 in
su) si suppone che i blocchi di soggetti dotati di un differente livello della stessa caratteristica
abbiano un differente rendimento sulla variabile dipendente; cioè quelli con Q.I. alto (III
blocco), avranno prestazioni simili tra di loro, e migliori rispetto agli altri due blocchi (media e
bassa intelligenza), in compiti della sfera cognitiva.
I blocchi possono essere sottoposti al trattamento in due maniere: ogni blocco ad una condizione
diversa; oppure ogni blocco a tutte le condizioni del trattamento. Rispetto al pareggiamento il metodo
dei blocchi offre il vantaggio di effettuare il controllo sia con un numero minore di soggetti sia con
uno scarto inferiore di soggetti residuali non utilizzabili.
Un altro metodo di controllo, disegno entro i soggetti, prevede che a ciascun soggetto possa
applicarsi ciascuna condizione dell'esperimento. In questo modo la variabilità proveniente dalle
differenze tra i soggetti è drasticamente ridotta. Questo metodo è utilizzato in tutte le situazioni
sperimentali sulle sensazioni e percezioni; invece risulta difficile da utilizzare negli esperimenti
dove un soggetto deve svolgere prove in successione, come nel caso di risoluzione di un
problema con un metodo in una prima prova, e lo stesso problema con un altro metodo in una
seconda prova. E’ difficile che lo stesso soggetto non sia influenzato in questo caso dalla prima
prova a risolvere lo stesso problema quando dovrà affrontarlo.
Negli esperimenti in cui ciascun soggetto è sottoposto a più condizioni sperimentali è possibile
che l’esecuzione delle prime prove influisca sui risultati di quelle successive. A questo
proposito, gli autori distinguono due possibili effetti: dell'ordine e della sequenza. Il primo è
dovuto all’ordine in cui i soggetti sono sottoposti alle condizioni sperimentali, indipendentemente
dalla specificità delle condizioni stesse. Se ad esempio in un esperimento si
vuole controllare quale sequenza di sillabe di tre diverse liste, è più facile da ricordare la pratica
e la familiarità acquisite nella prima prova possono influire sulle prove successive. Gli effetti
dell'ordine dipendono in genere dalla pratica, dall'apprendimento, dalla fatica, dal tempo e così
via. Variabili queste che devono quindi esser sempre sotto controllo.
L’effetto della sequenza riguarda, invece, un cambiamento temporaneo o permanente nel
comportamento del soggetto a causa di una precedente esposizione ad uno o più trattamenti
sperimentali. Ad esempio, una persona potrebbe percepire più leggero un oggetto, di quanto lo
avrebbe valutato normalmente perché prima ha pesato un oggetto molto grosso (effetto di
contrasto). Gli effetti della sequenza, a differenza di quelli dell'ordine, consistono nelle
interazioni tra le condizioni sperimentali stesse. La strategia per controllare gli effetti
dell’ordine e della sequenza è quella del bilanciamento e controbilanciamento, detto anche da
alcuni autori controbilanciamento e controbilanciamento inverso. Si possono infatti
neutralizzare gli effetti dell’ordine e della sequenza combinando per rotazione le modalità di
una variabile o fattore come si preferisca chiamarla.
Il controbilanciamento si rivela talvolta una tecnica impegnativa e dispendiosa per i soggetti;
in questo caso si preferisce estrarre a sorte dall’insieme delle modalità possibili quelle che
devono essere utilizzate, ipotizzando che il caso consentirà una compensazione degli effetti a
livello delle medie, cioè la loro neutralizzazione. Questa procedura, è detta randomizzazione o
scelta a caso, ed è molto utilizzata in psicologia sperimentale per neutralizzare le differenze
individuali. Quando ciascun soggetto è sottoposto a tutte le condizioni e si utilizza il
controbilanciamento questo verrà detto entro i soggetti. Lo svantaggio di questo metodo è
legato al fatto che tutti i soggetti devono essere sottoposti a tutte le condizioni e più di una volta.
A mano a mano che il numero delle condizioni aumenta, aumenta anche la lunghezza della
sequenza delle prove. Il controbilanciamento entro i gruppi elimina queste prolissità. Tale
tecnica differisce da quella entro i soggetti poiché controbilancia i gruppi di soggetti e non le
singole persone. Vi sono due tipi di controbilanciamento entro i gruppi: incompleto e completo.
Questa tecnica, che non prevede tutte le possibili sequenze, è chiamata anche del quadrato latino
perché è simile ad un antico gioco che comportava la disposizione delle lettere alfabetiche in una
matrice in modo che ciascuna lettera venisse ad occupare un singolo posto in ciascuna riga e in
ciascuna colonna.
Questa tecnica si attiene al criterio che, per le sequenze numerate, ogni condizione deve apparire
un ugual numero di volte in ogni posizione. Meno usata è invece la tecnica del
controbilanciamento completo perché troppo macchinoso; infatti, ad esempio, con 5 condizioni
sperimentali si raggiungerebbero 120 disposizioni o sequenze.
GLI EFFETTI DI DISTURBO
Un aspetto importante del controllo che può assumere il ruolo di oggetto-stimolo ed influire sui
dati, confondendo l’effetto della variabile indipendente, è l’ambiente (setting). Ad esempio un
ambiente importante, come un centro di ricerca, può essere percepito da un soggetto come
garante di una maggiore serietà per l’esperimento; in questo caso i soggetti possono essere
invogliati a seguire con maggiore attenzione le istruzioni dei ricercatori. Inoltre, l’ambiente può
segnalare indirettamente indizi in base ai quali il soggetto può rendersi conto di quale sia
l’effettiva partecipazione, attuando di conseguenza un comportamento adeguato. Sono le
caratteristiche di richiesta che possono influire sul comportamento del soggetto favorendo o
l’assecondamento o il boicottaggio della sperimentazione. Oltre ai metodi descritti precedentemente,
il controllo delle caratteristiche di richiesta può essere attuato tenendo costanti le condizioni di ricerca
per tutti i soggetti, cioè: randomizzando tra i gruppi le inevitabili differenze fisiche degli ambienti di
ricerca; conducendo l'esperimento in un contesto più naturale possibile; ricorrendo a studi singolo
cieco.
Data la natura sociale della ricerca educativa e psicologica, le caratteristiche di richiesta non
possono mai essere eliminate del tutto. Però la consapevolezza della loro influenza e la
possibilità di utilizzare procedimenti per diminuirne l’impatto possono rafforzare la validità
interna ed esterna di un esperimento. In ciò deve essere considerato che anche le caratteristiche
temporali devono essere ben considerate e mantenute costanti, poiché i diversi momenti della
giornata, o una diversa durata delle prove, possono provocare stanchezza e/o minore
disposizione a partecipare all’esperimento. Anche le istruzioni date oralmente sembrano
provocare un effetto di disturbo dovuto alla presenza dell'osservatore; occorre quindi prestare
attenzione anche al modo in cui si danno le istruzioni privilegiando la forma scritta e con lo
strumento della tecnologia.
La presenza dell’osservatore nella situazione sperimentale può influenzare il comportamento
dei soggetti, e le selezioni errate dei soggetti sperimentali comportano ugualmente effetti di
disturbo. Nello stesso modo, anche caratteristiche fisiche dello sperimentatore come il sesso e
le sue aspettative, possono provocare influenze sui soggetti sperimentali. Tutte queste possibili
variabilità o disturbi devono esser tenute presenti in modo che sia possibile utilizzare tutti i
metodi di controllo al fine di ottenere dati obiettivi e liberi, per quanto sia possibile, da elementi
di disturbo che possano inficiare i risultati di una ricerca.

GLI INDICATORI MULTIPLI E LA VALIDITÀ


La validità, e la sua determinazione, rappresenta un aspetto importante e, quindi, critico per la
ricerca empirica e sperimentale riguardando, soprattutto, come gli indicatori, scelti, misurano il
concetto, o costrutto, astratto appositamente costruito e derivato da una teoria, o teorie, di
riferimento; la determinazione non consente di avere sicurezze e certezze. I due ricercatori, già
menzionati, Campbell e Fiske proposero di confidare sulle caratteristiche delle misure
effettuate, di cui si dispone, e su come esse correlano tra loro. Se si misura un certo tratto, o
concetto astratto, con diverse metodologie tra loro molte diverse e se tali diverse procedure
producono risultati che sono abbastanza simili, è possibile confidare nella validità delle misure,
potendo affermare, in modo ragionevole e convincente, che ciascuno dei metodi produce una
misura valida della caratteristica o proprietà in analisi.
Nell’approccio proposto i concetti di affidabilità e di validità trovano la seguente nuova
definizione:
L’affidabilità è rappresentata dall’accordo tra due tentativi di misurare lo stesso tratto attraverso
metodi tra loro il più possibile simili.
La validità è rappresentata dall’accordo tra due tentativi di misurare lo stesso tratto attraverso
metodi tra loro il più possibile diversi.
Le definizioni sono alla base della logica della metodologia proposta.
Dalla definizione proposta segue anche una ridefinizione delle nozioni di validità convergente
e discriminante, cioè:
- validità convergente: metodi diversi di misurazione possono convergere verso la
misurazione dello stesso tratto;
- validità discriminante: stessi metodi di misurazione possono non correlare perché
misurano tratti diversi.
Nella teoria classica della misurazione, attraverso i test, si fa distinzione tra punteggi veri e
punteggi osservati; inoltre per poter calcolare i coefficienti basati sui metodi tradizionali è
necessario disporre di almeno due misurazioni. In altre parole la valutazione dell'affidabilità di
una misura è realizzabile attraverso diversi schemi sperimentali che alla base presentano la
nozione di ripetibilità ovvero di applicazione di metodi tra loro il più possibile simili.
Con l'approccio proposto da Campbell e Fiske ci si sposta dalla nozione di pura affidabilità (attraverso
metodi il più possibile simili tra loro) alla nozione di validità (metodi il più possibile
diversi tra loro).
Il metodo da loro proposto ha le seguenti assunzioni: il valore yij dell'indicatore i-esimo raccolto
con il metodo j-esimo può essere decomposto in due componenti:
- una stabile (Tij ), corrispondente al punteggio vero nella teoria classica,
- una casuale ( eij ).
La risposta e le sue due componenti si legano tra loro nel modo seguente:
yij = hijTij + eij dove hij è il livello di relazione tra componente stabile (punteggio vero) e la risposta.
Il punteggio vero può essere ulteriormente decomposto in tre componenti:
- una che rappresenta il punteggio sulla variabile che interessa Fi
- una dovuta al metodo utilizzato M j
- una dovuta alla combinazione di metodo e tratto uij dopo la standardizzazione ciò conduce alla
seguente equazione: Tij = bijFi + gijM j + uij dove bij è il livello di relazione tra la variabile latente
di interesse e il punteggio vero, gij è l’effetto della componente metodo sul punteggio vero
Considerando che tutte le variabili, eccetto i termini di disturbo, sono standardizzate e che il
metodo e i fattori non sono correlati, i coefficiente hij , bij e gij indicano la forza delle relazioni
tra le variabili nel modello; a tali coefficienti è stata data una speciale interpretazione:
- hij è chiamato coefficiente di affidabilità; il quadrato di tale coefficiente rappresenta una stima
dell'affidabilità (test-retest nel senso della teoria classica);
- bij è chiamato coefficiente di validità del punteggio vero in quanto il quadrato di tale
coefficiente rappresenta la varianza spiegata nel punteggio vero attribuita alla variabile cui
siamo interessati;
- gij è chiamato effetto del metodo in quanto il quadrato di tale coefficiente rappresenta la
varianza la varianza spiegata nel punteggio vero attribuita al metodo usato;
- la varianza di uij più gij a volte è chiamata invalidità in quanto è la varianza spiegata nel
punteggio vero che non è dovuta alla variabile di interesse.
Per poter stimare l’errore di misurazione è necessario misurare almeno tre tratti ciascuno
misurato con metodi diversi tra loro, da ciò deriva il nome di MultiTrait-MultiMethod (MTMM)
in quanto ciascun tratto, di un numero di tratti (costrutti), è misurato con un numero di metodi
differenti.
Per analizzare i dati, secondo il disegno sperimentale MTMM, è stato definito un modello
causale. Oltre la distinzione tra punteggi veri e punteggi osservati, sono introdotti fattori latenti sia
per il fattore "tratto" che per il fattore "metodo". Si assume che
- i fattori "tratto" siano tra loro correlati (rho (F1F2)) ,
- i fattori "metodo" non siano correlati tra loro,
- i fattori "metodo" non siano correlati con i fattori "tratto".
Il modello multitrait-multimethod (MTMM) proposto può essere utilizzato per misurare
caratteristiche che possono essere rappresentate da atteggiamenti, comportamenti e possono
riguardare sia individui che aggregazioni quali istituzioni, organizzazioni, città, nazioni, ecc.
Nella figura successiva si presenta la struttura di una matrice MTMM.
Per quanto attiene alle relazioni, a cui corrispondono le sigle inserite nelle celle, si sono
evidenziate in colore quelle che riguardano:
- relazione EM-MT = eterometodo-monotratto (verde)
- relazione MM-ET = monometodo-eterotratto (arancio)
- relazione E-E = eterometodo-eterotratto (celeste)
All’interno di ogni cella della matrice sono presenti dei valori che corrispondono ai coefficienti di
correlazione tra tratti e metodi: le sigle e le assunzioni sono le seguenti:

MATRICE MULTIMETODO-MULTITRATTO
1. I valori dei coefficienti EM-MT (eterometodo-monotratto), disposti lungo le diagonali
secondarie e relativi alla validità convergente, devono essere diversi da 0, positivi e
significativamente elevati.
2. Il valore di ciascun coefficiente di validità convergente (EM-MT/eterometodomonotratto) deve
essere più elevato dei valori dei corrispettivi coefficienti E-E (eterometodo-eterotratto), disposti in
colonna e in riga nei triangoli adiacenti [ad es. R (A1,A2) > R (A1,B2), R (A1, C2), R (A2, B1), R
(A2, C1); ad es. R (B1,B2) > R (B1,A2), R (B1, C2), R (B2,A1), R (B2,C1); R (C2,C3) > (C2,A3),
R (C2,B3), R (C3,A2), R (C3, B2); etc. etc.]. Ne consegue che ogni coefficiente di validità
convergente (EM-MT/eterometodo-monotratto) deve essere confrontato con i 4 valori dei
corrispettivi coefficienti E-E (eterometodo-eterotratto).
3. Il valore di ciascun coefficiente di validità convergente (EM-MT/eterometodomonotratto) deve
essere più elevato dei valori dei corrispettivi coefficienti MM-ET (monometodo-eterotratto) [ad es.
R (A1,A2) > R (A1,B1), R (B1,C1), R (A1,C1), R (A2,B2), R (A2,C2), R (B2,C2); ad es. R (B1,B3)
> R (B1,A1), R (B1,C1), R (A1,C1), R (B3,A3), R (B3,C3), R (A3,C3); etc. etc]. Ne consegue che
ogni coefficiente di validità convergente (EM-MT/eterometodo-monotratto) deve essere confrontato
con i 6 valori dei corrispettivi coefficienti MM-ET (monometodo-eterotratto).
4. Il valore di ciascun coefficiente MM-ET (monometodo-eterotratto) di ogni triangolo relativo
considerato deve approssimarsi al corrispettivo coefficiente negli altri triangoli [ad es. R (A1,B1) »
R (A2,B2), R (A3,B3)]. Ne consegue che i confronti possibili sono 2.
5. Il valore di ciascun coefficiente E-E (eterometodo-eterotratto) di ogni triangolo relativo
considerato deve approssimarsi al corrispettivo coefficiente negli altri triangoli [ad es. R (A1,B2) »
R (A1,B3), R (A2,B1), R (A2,B3), R (A3,B1), R (A3,B2); ad es. R (B2,C3) » R (B1,C2), R (B1,C3),
R (B2,C1), R (B3,C1), R (B3,C2), etc. etc.]. Ne consegue che i confronti possibili sono 5.
Relativamente alla costruzione della matrice MTMM occorre considerare che i diversi tratti e
i diversi metodi, o meglio tecniche, dovrebbero essere selezionati con cura. I diversi metodi, o
tecniche, dovrebbero essere completamente indipendenti l’uno dall’altro: non dovrebbero
sussistere motivi preesistenti per credere che esse contribuiscano a generare l’effetto tecnica.
Nella misura in cui i tratti sono in relazione, si otterranno delle correlazioni mono-metodo
consistenti e delle correlazioni etero-metodo positive. Per facilitare l’interpretazione, sarebbe
meglio considerare almeno due tratti teoricamente indipendenti. Molte matrici
multitrattomultimetodo non mostreranno validità convergente: potrebbe accadere di non trovare
alcuna relazione tra due metodi volti a misurare lo stesso tratto. In questa frequente situazione, lo
sperimentatore dovrebbe accertarsi che non si sia verificata una di queste alternative: (a)
nessuno dei metodi è adatto alla misurazione di quel tratto; (b) uno dei due metodi non misura
effettivamente il tratto. (Quando ci si accerta che un metodo non misura il tratto ipotizzato, si
può verificare se esso ne misuri qualche altro. La presenza di coefficienti di correlazione elevati
nei triangoli eterotratto-eterometodo può fornire un indizio di tale possibilità). (c) il tratto non
è un’unità funzionale, ed in questo caso la risposta è attribuibile alle componenti di ciascun test
che non hanno relazione con il tratto. Un esito negativo nella verifica della convergenza può
condurre a sviluppi concettuali piuttosto che all’abbandono del test.
Per poter interpretare i valori all'interno della matrice MTMM, Campbell e Friske hanno
individuato quattro criteri:
1. I coefficienti di affidabilità dovrebbero rappresentare i valori più alti della matrice.
2. I coefficienti di validità dovrebbero essere significativamente diversi da 0 e sufficientemente grandi
da incoraggiare ulteriori analisi di validità. Applicando un semplice test di significatività a tali
correlazione dovrebbe essere possibile accertarsi del livello di significatività loro associato. Una volta
osservato un livello soddisfacente di significatività sarà possibile esplorare gli altri criteri.
3. Ciascun coefficiente di validità dovrebbe essere maggiore di tutte le correlazioni different-trait
different-method presenti nella stessa riga o nella stessa colonna del coefficiente di validità.
4. Ciascun coefficiente di validità dovrebbe essere maggiore del corrispondente
coefficiente different-trait same-method. La motivazione di tale criterio è data dal fatto che, perché
delle misure siano valide vi deve essere più varianza di tratto che varianza di metodo: se le
caratteristiche sono tra loro veramente distinte a livello concettuale allora la maggior parte della
varianza condivisa dovrebbe riflettere la varianza metodologica. La stessa caratteristica misurata con
metodi diversi dovrebbe riflettere principalmente la varianza di tratto che dovrebbe essere maggiore
della varianza di metodi delle correlazioni different trait-same method.
5. Si dovrebbe osservare lo stesso modello di correlazioni all'interno di ciascun triangolo,o sia quelli
con gli elementi che presentano correlazioni tra tratti diversi che utilizzano metodi diversi, o sia quelli
che riflettono correlazioni tra tratti diversi utilizzando lo stesso metodo.
Naturalmente in molte situazioni empiriche non tutte le verifiche effettuate e presentate possono
essere soddisfatte dai dati, pur disponendo di misure valide. Ciò può dipendere da molti fattori
quali l’osservazione di livelli diversi di affidabilità e validità a causa di fluttuazioni casuali nel
campionamento degli indicatori e dei soggetti. Campbell e Fiske non hanno però definito dei
parametri di riferimento su cui basarsi per stabilire se i dati si avvicinano ai criteri proposti.

Potrebbero piacerti anche