Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Monica
MODULO 5
DISPENSA - LA VALIDITÀ
Pedon e Gnisci (2004) hanno proposto un approccio ben strutturato che può agevolare la
comprensione di un concetto complesso e multisfaccettato come quello della validità e che in
fondo recupera la concezione tradizionale che distingue diversi aspetti: la validità di contenuto,
l'attendibilità, la validità di criterio (concorrente e predittiva) e la validità di costrutto (esterna
e interna). Con la comprensione di queste nozioni i successivi approfondimenti e le altre riflessioni
più ampie di validità possono essere acquisite con facilità. Laddove si discuta di validità di uno
strumento di misura, è necessario considerare che si intende, oltre ad una definizione concettuale e
operativa del costrutto che si vuole misurare, anche la definizione delle relazioni con misurazioni
diverse del costrutto, con misure di altri costrutti all'interno di un sistema teorico e con misure di
variabili presenti nel mondo reale.
LA VALIDITÀ PER LA RICERCA
Lo svolgimento delle attività di ricerca sperimentale ha la necessità di avere dei riferimenti, sia
di carattere progettuale e organizzativo come il piano di ricerca sia le procedure di controllo in
modo da poter dare dimostrazione di validità per tutte le attività condotte per la ricerca stessa.
La definizione di Cook e Campbell si riferisce alla validità come alla «migliore
approssimazione disponibile alla verità o alla falsità di proposizioni» relative alle conclusioni
della ricerca stessa [Cook e Campbell 1979, 37].
Considerando il progetto di ricerca nella sua totalità alla parola validità è possibile assegnare
un significato molto ampio corrispondente alla logicità, coerenza, robustezza, e attendibilità
della ricerca stessa, e delle sue parti e attività, e quindi alla effettiva corrispondenza tra mondo
reale, trasposizione concettuale e conclusioni derivate dalle attività d’indagine e di analisi
compiute. Poiché la conoscenza e il controllo delle/sulle condizioni di un esperimento, soprattutto
nelle situazioni di quasi sperimentazione, sono sempre ridotte è indispensabile
accentuare gli aspetti del verifica di tutti gli elementi che, nell’ambito della ricerca, possono
pregiudicare sia le singole attività sia la logica della ricerca stessa. Per questa ragione è stata
assegnata molta importanza alla problematica della validità distinguendone, per i vari livelli e
fasi della ricerca, le forme, lo scopo e i procedimenti per assicurarne il raggiungimento.
Pedon e Gnisci (2004) mettono in evidenza i cinque aspetti generalmente connessi alla validità
il primo dei quali riguarda l'esistenza o meno di una relazione causale tra variabile indipendente
e quella dipendente nelle condizioni e sui soggetti realmente studiati. Il secondo aspetto il
secondo tende a verificare se la relazione riscontrata tra le suddette variabili in una particolare
ricerca vale anche per persone diverse da quelle esaminate, per altre situazioni, altri luoghi e
altri tempi. Il terzo mira ad assicurare che la ricerca effettivamente misuri quello che il
ricercatore si è proposto di misurare, mentre il quarto aspetto della validità controlla se i risultati
della ricerca sono dovuti alla manipolazione della variabile indipendente oppure a variazioni
casuali. L’ultimo punto il quinto riguarda la possibilità o meno di generalizzare i risultati
ottenuti in laboratorio alla vita vissuta in un ambiente naturale. Nei livelli e nelle fasi della ricerca gli
elementi importanti sono i seguenti: la presenza di una, o più, relazione causale tra variabili
indipendenti e dipendenti; la verifica dell’evidenza di simili o analoghe relazioni riscontrate tra le
variabili analizzate nella ricerca in altre situazioni, altri luoghi, altri tempi, per persone simili o diverse
da quelle esaminate; l’assicurare che nella ricerca si arrivi ad ottenere i risultati attesi, ovvero si misuri
effettivamente quello che si era proposti di misurare; la verifica della possibilità di generalizzare i
risultati sulla base del riscontro positivo delle variazioni causali ottenute; la verifica della possibilità
o meno di generalizzare i risultati complessivi della ricerca, o di una sua parte, nell’ambito della realtà
o educativa o psicologica o sociale. Alle forme della validità sono stati associati nomi diversi, anche
in funzione degli scopi da soddisfare. In particolare, gli scopi possono essere ricondotti a due grandi
aree: complesso della ricerca e complesso delle misure. Considerando questo raggruppamento si
hanno le seguenti forme di validità:
area del progetto di ricerca (o della indagine) (Cook e Campbell (1979) hanno distinto questi cinque
tipi di validità):
- validità interna
- validità esterna
- validità di costrutto
- validità statistica
- validità ecologica
area della misurazione (o dello strumento)
- validità di contenuto
- validità di criterio
- validità concorrente
- validità convergente
- validità discriminante
Di seguito si descriveranno le diverse forme della validità, considerando comunque che le stesse
non sono indipendenti le une dalle altre; la suddivisione operata è stata realizzata per rendere
evidente che gli aspetti della validità sono compresenti in tutte le categorie e aree.
La relazione di interesse può essere rilevata attraverso diverse tecniche: analisi delle
correlazioni, della regressione, o confronti fra le medie. Sorvolando sulle differenze fra gli
obiettivi delle diverse tecniche di analisi, dal punto di vista concettuale il quesito cui le varie tecniche
statistiche tentano di dare una risposta riguarda sempre l'esistenza o meno di una associazione fra
due o più misure, e l'intensità (o forza) di tale associazione o effetto. (Ercolani, 2007 p.29)
Ciascuna procedura statistica di analisi dei dati implica degli assunti che vanno rigorosamente
rispettati. Altri fattori minacciano la validità statistica gonfiando l'errore di misurazione. La
scarsa affidabilità degli strumenti di misura ad esempio, aumenta la variabilità d’errore, impedendo
così di cogliere le differenze attese; la mancata standardizzazione delle procedure di manipolazione
della variabile indipendente introduce una variabilità incontrollata nella variabile dipendente a causa
del cambiamento nelle modalità di presentazione dei trattamenti che devono rimanere gli stessi anche
quando cambiano le persone, i tempi e i luoghi; l’eterogeneità dei soggetti sperimentali ancora può
aumentare l'errore sperimentale. Le strategie volte a migliorare la validità delle conclusioni statistiche
sono essenzialmente tese a ridurre la varianza d’errore: da qui l'uso di disegni sperimentali con prove
ripetute, il ricorso a gruppi omogenei ecc. Oltre a queste strategie generali, vi sono strategie
specifiche. Secondo John Anderson (Cfr. John R Anderson, Psicologia cognitiva e sue implicazioni,
Prima edizione, Bologna, Zanichelli, 1993) vi sono tre possibilità per aumentare la probabilità di
scoprire un vero rapporto tra le variabili studiate: la prima riguarda il livello di significatività, che si
può aumentare, migliorando la sensibilità del disegno, pur considerando che tale operazione
diminuisce la possibilità di non riconoscere false inferenze (errore di II° tipo). Una seconda possibilità
può riguardare l’ampliamento dell’intervallo tra i valori della variabile indipendente, usati per definire
le condizioni sperimentali, aumentando la grandezza dell’effetto. Ad esempio, ipotizzando per
l’apprendimento un rapporto tra lunghezza di una lista di parole e il numero di parole che vengono
apprese, occorre utilizzare liste composte di parole di ampiezza molto diverse, e non di ampiezze
simili o lievemente diverse. In questo caso occorre considerare che il rapporto tra variabile
indipendente e dipendente può assumere un andamento monotonico. La terza possibilità prevede la
riduzione dell’errore casuale, operando sulla riduzione degli errori dipendenti dal campionamento,
derivanti dall’assegnazione dei soggetti alle condizioni sperimentali, dalla somministrazione delle
condizioni stesse o dalla misurazione della variabile dipendente.
LA VALIDITÀ ECOLOGICA
La validità ecologica riguarda la percezione del soggetto sperimentale sia verso il compito sia
verso l’ambiente durante lo svolgimento della sperimentazione. Occorre perciò considerare
l’importanza dell’ambiente per com’è vissuto dal soggetto, ciò di cui ha esperienza, che non si
risolve con il solo riferimento all’ambiente naturale o quotidiano, per garantire la validità
ecologica, bensì considerando anche la conoscenza di quello che il soggetto percepisce e vive
nella situazione sperimentale. In questo caso occorre considerare due situazioni in grado di
compromettere la validità ecologica. La prima riguarda il contesto laboratoriale che con la
presenza di oggetti sconosciuti o poco familiari rende poco naturali le reazioni o le prestazioni
del soggetto. La maggior parte degli esperimenti, quindi, può garantire la validità interna, assicurare
una certa validità esterna, ma costituisce una minaccia alla validità ecologica, in quanto non consente
di generalizzare i risultati alla vita quotidiana. La seconda situazione considera come minaccia per la
validità ecologica tutto ciò che impedisce allo sperimentatore di conoscere come il soggetto
percepisce la situazione. Non ha molta importanza che la situazione sia artificiosa o meno; ciò che
importa è che lo sperimentatore ne sia al corrente ed abbia incluso nel disegno sperimentale tale
variabile. Le minacce in questo caso saranno uguali alle minacce alla validità esterna ed alla validità
interna. Ogni tipo di validità presentata risulta molto importante per la ricerca; occorre considerare,
però, che si devono distinguere gli studi in cui sono indispensabili le validità, ad esempio interna ed
esterna, da quelli che esigono, invece, la validità ecologica, poiché spesso il rispetto e la garanzia
dell’una, presuppone un minor rispetto della garanzia delle altre.
DISPENSA
LA VALIDITÀ NELLA MISURAZIONE
Uno dei momenti più difficili nel processo di sviluppo di una misura è quello
dell'interpretazione dei punteggi ottenuti dalla misurazione. La registrazione di una significativa
affidabilità rivela solo che lo strumento misura veramente qualcosa ma non dà alcuna
informazione sulla natura di ciò che si sta misurando. La difficoltà deriva dal fatto che la
validazione può essere verificata all'interno di un sistema di relazioni ipotizzate tra il costrutto
di interesse e altri costrutti; tali relazioni possono essere di causa, effetto o di correlazione. Le misure
empiriche sono utilizzate per verificare tali ipotesi; il supporto empirico per le ipotesi comporta la
validità della misura. Le prove di validità implicano la verifica simultanea dell'ipotesi riguardante i
costrutti e lo strumento. Come si è già detto, molti costrutti nelle scienze pedagogiche e psicologiche
rappresentano astrazioni teoriche che non esistono nell'esperienza reale; per tale motivo gli indicatori
che li rappresentano devono essere sottoposti a verifica di validità. La validazione di una misura può
quindi essere vista come la verifica di una teoria. Il processo di validazione non può essere affrontato
prima che non sia stato portato a termine quello di verifica dell'affidabilità. Come abbiamo visto la
validità rappresenta la capacità di una procedura di misurazione di misurare ciò che si intende
misurare.
E’ possibile distinguere diversi tipi di validità della misurazione cui corrispondono metodi
diversi di verifica. Nella tabella successiva si propongono i diversi tipi di validità per la
misurazione organizzati rispetto alla traduzione e alla correlazione a un criterio. Questa
classificazione dipende essenzialmente dalla fase di definizione operativa, cioè ogni volta che
si traduce un concetto o un costrutto, interni ad un problema di ricerca, della realtà d’interesse; sorge
quindi la domanda se l’operativizzazione, ovvero la traduzione dei concetti in variabili
e/o indicatori, è stata realizzata in modo da ottenere i risultati che si attendono. Questo problema
è rilevante quando si parla di trattamenti o di indagini per una ricerca educativa o psicologica.
Validità nella misurazione Tipo di validità
di traduzione facciata
contenuto
costrutto o teorica
correlata al criterio
criterio o predittiva
concorrente
convergente
discriminante
Precedentemente sono state fornite alcune informazioni e definizioni relative alle tipologie della
validità; esse valgono anche per le misurazioni. Per queste sono aggiunte ulteriori specificazioni
rispetto all’oggetto, ovvero la misura, e al controllo, ovvero i procedimenti utilizzabili per
effettuare i controlli della validità sulle misure operate.
In particolare per le misure valgono le seguenti definizioni:
a. facciata: è determinata dalla significatività che una misura presenta che viene riconosciuta dai
soggetti in modo apparente ed esteriore; si valuta, quindi, sulla base dei giudizi di esperti.
b. Contenuto: una misura ha validità di contenuto quando rappresenta in modo accurato l’universo
del contenuto misurato; anche questo tipo di validità necessita del giudizio di esperti. Se, ad esempio,
una prova di verifica della preparazione di matematica di un gruppo di studenti è composta solo da
domande riguardanti le potenze difficilmente potrà essere riconosciuta valida per il contenuto rispetto
ai polinomi. Tale validità viene verificata, quindi, misurando il grado di rappresentatività degli
indicatori che compongono la misura: se gli indicatori rappresentano uno specifico dominio di
contenuto, lo strumento ha una buona validità di contenuto. La verifica della validità di contenuto è
particolarmente importante e deve essere effettuata al momento della costruzione dello strumento di
misura e quindi prima della raccolta dati e dell’analisi statistica; questa, in particolare, dovrebbe
fornire solo informazioni aggiuntive su tale validità, ovvero dovrebbe fornire solo un sostegno e una
giustificazione statistica. Per verificare la validità di contenuto occorre controllare e valutare i
seguenti standard: a) qualità e della rappresentatività degli indicatori, cioè identificare un profilo
dettagliato delle dimensioni e dei concetti che devono essere rilevate. Il profilo, però, deve essere
collegato direttamente con l’ipotesi di ricerca che deve guidare e condurre alla
della costruzione degli indicatori: per le quali è possibile utilizzare alcune verifiche, tra cui un alto
livello di correlazione tra misura da validare e altri indicatori consente di concludere che lo strumento
misura ciò che si desidera misurare. Questa valutazione è da effettuare con estrema cautela in quanto
l’osservazione di alti livelli di correlazione non è garanzia di validità di contenuto: gli strumenti
confrontati potrebbero misurare male nello stesso modo la stessa dimensione.
c. Costrutto: si accerta se gli indicatori misurano accuratamente i costrutti teorici che interessa
misurare; in pratica è verificata attraverso la correlazione tra un indicatore ed altri indicatori secondo
particolari modelli teorici. Poniamo, per esempio, di voler costruire uno strumento che misuri le
inclinazioni di intolleranza verso gli extracomunitari; se l’ipotesi afferma che esiste una
relazione tra autostima e intolleranza, allora l’indice sarà una buona misura di intolleranza, ovvero
avrà validità di costrutto, se risulterà essere inversamente correlato con l’autostima. Quindi esiste una
teoria che riguarda la relazione tra autostima e intolleranza. Per questo tipo di validità, di tipo teorico,
la verifica rappresenta un problema che deve essere risolta logicamente con il sostegno
statistico. Questo mira a determinare quanto gli indicatori tendono a misurare la stessa cosa o cose
diverse; ciò rappresenta una condizione necessaria ma non sufficiente per verificare la validità teorica.
Gli strumenti statistici utilizzati per studiare la validità teorica possono essere espressi in termini di:
- consistenza interna, ovvero sulla base della tendenza di misure diverse a correlare molto tra
loro e ad essere influenzate allo stesso modo da trattamenti sperimentali; - correlazione della misura
del costrutto con altre misure relative ad altri costrutti;
- analisi fattoriale.
Il risultato conclusivo del processo descritto dovrebbe condurre a sostenere che il costrutto è:
a) ben definito in termini di osservazione;
b) ben rappresentato in termini di variabili manifeste;
c) eventualmente correlato con altri costrutti. E' comunque molto importante tener presente che la
validità di costrutto può essere sostenuta ma mai provata; è infatti possibile che successive ricerche e
studi possano dare nuove interpretazioni dei risultati precedenti utilizzando anche nuovi modelli.
d. Criterio / predittiva: rappresenta la capacità di uno strumento di misurazione di realizzare
previsioni accurate; in questo caso il risultato ottenuto è adeguato per predire un criterio esterno. Alla
base del modello di verifica vi è il confronto tra la misura da validare e le altre misure dette criteri:
tra questi è possibile distinguere le seguenti tipologie:
1. product criteria, rappresentati da variabili legate a particolari prestazioni e risultati di alcune
specifiche attività (per esempio numero di lettere battute a macchina, numero di scatole ispezionate,
ecc.);
2. action criteria, che riguardano un’attività stessa (per esempio, le misurazioni di particolari
prestazioni come la velocità o numero di errori nell'eseguire qualcosa, ecc.) e che vengono utilizzabili
quando il risultato di una certa attività non è rappresentato da un prodotto tangibile. L'indicatore
operativo del grado di corrispondenza tra il risultato ottenuto con lo strumento e il criterio è di solito
rappresentato dalla dimensione della loro correlazione; in altre parole
il confronto tra misura e criteri è realizzato e misurato in termini di analisi della correlazione, estesa
anche al caso multivariato. Il livello di correlazione ottenuto specifica il grado di validità; per questo
il coefficiente di correlazione viene indicato spesso come coefficiente di validità. Se i risultati
statistici conducono a decisioni e scelte ragionevoli allora il gruppo di variabili in questione ha
validità predittiva. Secondo un’altra strategia (validità attraverso gruppi noti), per tale
validità si verifica l'ipotesi che determinati gruppi di soggetti ottengano punteggi più alti rispetto ad
altri; l’effettiva significatività della differenza tra i gruppi viene verificata calcolando la media dei
punteggi ottenuti sullo strumento per ciascun gruppo ed effettuando, attraverso strumenti statistici,
un test sulle medie osservate (t di Student, analisi della varianza). La validità predittiva diviene
particolarmente importante quando a livello pratico la misura da validare ha funzioni operative e
decisionali (assunzione di personale, creazione di servizi sulla base di previste necessità di un gruppo
di cittadini, ecc.).
e. concorrente: collega uno strumento ad altri per la misurazione di una stessa
caratteristica; la risultanza di una relazione statisticamente significativa è considerata come verifica
di questa validità. Se, per esempio, si vuole verificare se con uno strumento si misura l’intolleranza
verso gli extracomunitari, si possono correlare le misure ottenute con altre provenienti per gli stessi
soggetti da un altro strumento con una scala che misura sempre l’intolleranza; un
correlazione tra le due misure evidenzierà la validità del nuovo test o, comunque, che i due strumenti
misurano la stessa cosa.
f. Convergente: in questo caso le misure non riguardano gli strumenti bensì i
costrutti: si correlano perciò le misure relative ad un costrutto con quelle ottenute per un altro
costrutto, teoricamente legato al primo. In questo caso, quindi, la possibilità di accertare la presenza
della validità dipende dall’esistenza di costrutti, e relative misure, legate con quello da validare.
Poiché si ipotizza sempre un certo livello di errore che abbassi il livello di affidabilità, tali correlazioni
osservate non raggiungono mai il massimo livello.
g. discriminante: corrisponde inversamente alla validità convergente e quindi
risulta alta quando la misura del costrutto da validare non correla con le misure di altri costrutti,
teoricamente distinti dal primo. Ad esempio un test psicologico ha capacità discriminante rispetto ad
una certo comportamento se riesce a distinguere e separare i soggetti sani da quelli della patologia.
Volendo, ad esempio predisporre un test strutturato per misurare il costrutto difficoltà di
lettura in relazione al quale si può ipotizzare che negli individui esista una reale patologia rispetto a
una situazione non patologica; in questo caso è possibile costruire un test che, pur non risultando
completo ed esaustivo per la diagnosi diagnosi, permette di ridurre enormemente il numero di soggetti
da sottoporre ad indagine clinica e, nello stesso tempo, indica i soggetti che hanno bisogno
dell'esame clinico. Per la ricerca della validità convergente e discriminante due ricercatori, Campbell
e Fiske (Cfr. Campbell, Donald T.; Fiske, Donald W., Convergent and discriminant validation by the
multitraitmultimethod matrix. Psychological Bulletin, Vol 56(2), Mar 1959, 81-105.,) proposero un
particolare approccio, definito Multitrait-Multimethod Matrix (MTMM), che ha dato un impulso verso
una particolare metodologia di verifica della validità. Il MTMM consente di indagare simultaneamente
la validità convergente e la validità discriminante; l’applicazione del MTMM richiede che vengano
misurati almeno due costrutti e che ciascuno di essi sia misurato con almeno due metodi distinti.
DISPENSA
LA VALIDITÀ DI COSTRUTTO
Validità di costrutto, concerne la questione della conformità fra i risultati e la teoria che sta
alla base della ricerca. V'è un'altra teoria che avrebbe predetto gli stessi risultati? Ciascun
esperimento è progettato per vagliare qualche ipotesi, ma l'ipotesi non può essere vagliata in
un vacuum. Condizioni particolari dell'esperimento costituiscono delle ipotesi ausiliarie che
devono anch'esse essere vere al fine di vagliare l'ipotesi principale. (Cioffi, 2002 p. 65)
Il concetto di validità di costrutto, nell’ambito della sperimentazione, ha un'importanza
rilevante perché spesso le traslazioni imperfette dei costrutti astratti determinano che le
operazioni sperimentali possano non rappresentare gli stessi costrutti che interessa analizzare.
Con il termine di costrutto, in particolare nella ricerca educativa e psicologica, si intende un
concetto astratto che indica un complesso organizzato della vita degli individui (ad esempio
intelligenza, ansia, emozioni e via di seguito). I costrutti non sono osservabili, vengono inferiti
dal comportamento, grazie a variabili manifeste, ovvero indicatori osservabili come, ad
esempio, il risultato di un test di apprendimento, il ritmo del battito cardiaco, la sudorazione
delle mani, la tensione nervosa, ecc.. Tali indicatori però dipendono dalle teorie dei ricercatori
e dagli strumenti adottati per misurarli. Data la difficoltà di scegliere i comportamenti che
esemplificano i costrutti, non è sorprendente trovare nella letteratura scientifica numerose
contraddizioni.
Per cui interrogarsi sulla validità di costrutto significa verificare se i vari elementi che
compongono il processo sperimentale, ovvero la struttura concettuale, le variabili e gli
indicatori, riflettono accuratamente il costrutto che si intende studiare e non altri concetti. E’
quindi necessario dare una definizione teorica dei costrutti chiara e sufficiente a identificare
correttamente gli aspetti più significativi del fenomeno, che da essi è indicato e gli indicatori
più pertinenti. Solo con una definizione chiara del costrutto astratto, gli indicatori empirici che
possono rappresentarlo porteranno a procedure di manipolazione soddisfacenti. Ad esempio, solo
dopo aver stabilito una definizione chiara di euforia, si può procedere a specificare le operazioni atte
a produrre tale costrutto; oppure, supponendo che l’ansia sia utile all’apprendimento, scegliendo
come popolazione di riferimento coloro che si mangiano le unghie, dopo avere vagliato l’ipotesi,
concludendo che è falsa, si deve anche considerare che oltre a vagliare che l’ansia sia utile
all’apprendimento è stato anche vagliato, contemporaneamente, che chi mangia
le unghie è ansioso. La validità di costrutto è simile alla validità interna. Questa si raggiunge cercando
di eliminare le variabili alternative che possono essere considerate come cause potenziali del
comportamento in esame. Nella validità di costrutto, invece, occorre escludere altre possibili
spiegazioni teoriche dipendenti dai risultati ottenuti. Se ad esempio, un ratto è affamato, in
conseguenza di questo stato inizierà a consumare una maggiore quantità di cibo, tollererà un livello
più alto di chinino, premerà più velocemente e più volte la leva che gli procurerà del cibo e così via.
Per verificare se è stata raggiunta dunque la validità di costrutto, si raccoglieranno sia i dati
convergenti (gli esiti attesi), sia quelli divergenti (gli esiti che non sono correlati con la variabile
concettuale), e si verificherà che i secondi non portino a spiegazioni che configgono con quella attesa.
La validità di costrutto è importante perché, ancora prima di iniziare l'esperimento, garantisce
la congruenza tra variabili teoriche e variabili operative, e quindi anche tra operazioni di
trattamento e quelle di misurazione degli effetti in relazione ai rispettivi costrutti.
Questo disegno fornisce un’idea dell’interconnessione tra i vari elementi della validità. Le freccette
collegano i vari tipi di validità dello strumento di misurazione in un unico concetto di validità
sfaccettato con elementi che contribuiscono tutti a determinare la validità di uno strumento, per
quanto invece riguarda l’attendibilità, i differenti metodi di misurazione dell’attendibilità si
riferiscono ad attendibilità diverse. Mentre per facciata, costrutto, contenuto, criterio e nomologico,
la validità ha uno stesso contenuto, per l’attendibilità diversi metodi portano a diverse concezioni di
attendibilità.
Quando si parla di validità di uno strumento di misura bisogna tener conto non solo della definizione
concettuale e operativa del costrutto che si vuole misurare, ma anche delle relazioni con misurazioni
diverse del costrutto, con misure di altri costrutti, con misure di altri costrutti all’interno di un sistema
teorico e con misure di variabili presenti nel mondo reale. (Crocker, Algina, 1986). L’ultima tipologia
di validità di uno strumento di misurazione che vedremo è la validità nomologica. A partire dalla
validità di costrutto, cioè la relazione tra il nostro costrutto misurato dal nostro strumento di
misurazione con costrutti similari o divergenti ma singoli, quindi non costituenti una rete tra di loro,
la validità nomologica costituisce un passo ulteriore perché si va ad analizzare che, dal punto di vista
teorico generale, diversi altri costrutti dovrebbero posizionarsi all’interno della nostra teoria in un
certo ordine e contemporaneamente ci dovrebbero essere altre variabili osservabili che ci danno
un’idea sull’effettiva coerenza del costrutto con comportamenti direttamente osservabili nei soggetti.
Cronbach e Meehl definiscono la validità nomologica come dimostrazione che è effettivamente il
costrutto a specificare le leggi statistiche o deterministiche che reggono le sue manifestazioni
costrutto in termini di relazioni tra le sue proprietà osservabili, cioè tra il costrutto e le variabili
osservate e tra costrutti diversi. Nella valutazione della validità di costrutto non ci si può limitare solo
alle manifestazioni empiriche ma si devono prendere in considerazione anche le relazioni con altri
costrutti o criteri della rete nomologica nella quale è inserito. Una rete nomologica si può intendere
come indicato nella slide di seguito
Questa rappresentazione può essere definita anche come un modello logico. Ci sono variabili
direttamente osservabili come il comportamento delinquenziale, c’è un legame tra costrutti diversi
come disimpegno morale e propensione all’aggressione. Se il nostro strumento misura la propensione
all’aggressione, evidentemente ha inserito altri costrutti, comportamenti osservati (Comportamento
prosociale Colpa e riparazione, che sono altri costrutti) in questa rete nomologica e teorica di relazione
tra costrutti. Le freccette sono le relazioni statistiche per cui è calcolato anche il coefficiente di
correlazione. C’è una correlazione media (0.51) tra disimpegno morale e propensione all’aggressione,
ce ne è una di 0.31 tra propensione all’aggressione e comportamento delinquenziale e comunque
l’idea che la propensione all’aggressione dovrebbe determinare comportamenti delinquenziali è
confermata, anche se non completamente, perché ci sono altri elementi che evidentemente possono
contribuire al comportamento delinquenziale.
La rete nomologica di un costrutto può essere ampliata grazie alla ricerca che deve andare ad
analizzare in particolare le relazioni del costrutto con altri costrutti non considerati in precedenza,
quindi la propensione all’aggressione può essere considerata in assenza di colpa e riparazione oppure
in presenza di colpa e riparazione e vedremo che questo potrebbe essere considerato secondo quanto
visto precedentemente: se analizziamo semplicemente la relazione tra disimpegno morale,
comportamento delinquenziale e propensione all’aggressione, potremmo anche dire che c’è una
relazione tra disimpegno morale e comportamento delinquenziale che è mediata dalla propensione
all’aggressione (nel modulo 3 abbiamo visto le variabili moderatore e mediatore). In questo caso è
una mediazione non completa perché evidentemente rimane una certa parte di relazione tra
disimpegno morale e comportamento delinquenziale non spiegata dalla propensione all’aggressione,
infatti in questo modello permane una relazione tra disimpegno morale e comportamento
delinquenziale positiva e non è una relazione completamente spiegata da questa terza variabile,
possiamo inserire ulteriori costrutti in base alla ricerca e la valutazione della validità di costrutto non
può essere limitata alle sole manifestazioni empiriche (variabili nel rettangolo), quindi non si possono
andare a vedere solo relazioni col comportamento prosociale e comportamento delinquenziale ma
deve essere legata anche ad ulteriori costrutti. È necessario utilizzare alcune osservazioni per stimare
il valore di ogni costrutto e quindi la verifica della validità nomologica di uno strumento diventa
ancora più onerosa dal punto di vista della raccolta dati e la validità dell’interpretazione proposta dei
punteggi al test in termini di validità di costrutto viene valutata in base a quanto i punteggi supportano
la teoria in generale, quindi non solo o non più relazioni singole ma quanto all’interno di tutte le
relazioni in termini generali c’è o non c’è una congruenza. Se le osservazioni sono coerenti con la
teoria, la validità della teoria e delle procedure di misurazione utilizzate per stimare questi costrutti
che sono definiti dalla teoria risulta allora a sua volta corroborata, altrimenti si può procedere a
considerare alcune parti della rete nomologica come non corrispondenti e quindi addirittura a
rifiutarle, però bisogna stare attenti che questo difetto non sia nel sistema di misurazione ma sia negli
assiomi perché se noi andiamo a rifiutare le azioni postulate e verificate in precedenza dal punto di
vista teorico, bisogna stare attenti che le regole utilizzate per la misurazione e le procedure di
misurazione siano state perfettamente seguite. Con questa validità abbiamo terminato la disamina dei
principali metodi di conferma e studio della validità di uno strumento di misurazione così come
definito dall’American Psychological Association e questo però non vuol dire che non ci siano altri
metodi. Vi è l’analisi fattoriale per la validità di costrutto e c’è un altro metodo interessante che è la
MATRICE MULTI TRATTO MULTI METODO. È uno strumento particolarmente efficace in alcuni
casi perché ci permette di verificare condizioni di validità convergente e discriminante
contemporaneamente a una misurazione di più di un tratto ottenute con misurazioni con più metodi,
quindi Matrice multi tratto e multi metodo perché ci permette questa verifica di tratti diversi ottenuti
con misurazioni diverse e metodi diversi ma allo stesso tempo la verifica è una verifica integrata che
ci permette di avere una visione di insieme più interessante che non le singole validità suddivise.
Campbell e Fiske per primi nel 1959 propongono la MMTMM come metodo per verificare le
associazioni tra questo insieme di misure che vanno organizzate in una matrice (una specie di tabella
con righe e colonne) e da questa tabella possono essere ricavate le informazioni necessarie per poter
valutare la validità convergente e discriminante contemporaneamente ma allo stesso momento metodi
diversi. Supponiamo di voler misurare in un campione di soggetti l’intolleranza verso l’ambiguità, la
chiusura cognitiva e l’apertura mentale e determinare per questi 3 elementi la validità delle misure.
Per ognuno di questi 3 tratti sono state raccolte 3 misure che differiscono tra loro per formato degli
item e modalità di risposta disponibili per i partecipanti. Ognuno dei tratti è stato successivamente
misurato con i 3 metodi e le associazioni tra le misurazioni che sono state elaborate vengono disposte
in questa matrice in cui i tratti verranno chiamati A B C e sono misurati con 3 metodi diversi indicati
con metodo 1, 2 e 3. L’ esempio di matrice MMTMM corrispondente all’esempio fatto di seguito
riportata una volta predisposta va interpretata.
Campbell e Fiske hanno proposto di individuare diversi sottotriangoli nella matrice e utilizzarli per
la valutazione della validità convergente e discriminante. I triangoli hanno dei bordi disegnati in modo
diverso, solidi o tratteggiati. Quelli con bordi continui contengono le correlazioni tra i tratti diversi
misurati col medesimo metodo, nel primo triangolo in alto abbiamo la relazione tra il tratto b1 e a1
misurate col metodo 1 (b1a1), c1 e a1 col metodo 1 (c1a1) e c1 e b1 col metodo 1 (c1b1). I triangoli
tratteggiati identificano i settori della matrice che includono correlazioni tra tratti diversi misurati con
metodi differenti. Per non confonderci possiamo chiamare i triangoli con bordo continuo triangoli
eterotratto monometodo (tratti differenti ma un unico metodo) e i triangoli tratteggiati che vengono
chiamati eterotratto eterometodo (metodi diversi e tratti diversi). Sotto il triangolo più alto,
scendendo verso destra, abbiamo il triangolo tratteggiato con Metodo 2 e 1 incrociati in questo
triangolo e quindi abbiamo delle relazioni che devono essere interpretate in modo diverso. Le
diagonali che vengono identificate in grassetto racchiudono i coefficienti di validità convergente in
quanto riflettono le correlazioni tra medesimi tratti misurati con metodi diversi, ad esempio tra i primi
due triangoli tratteggiati dall’alto vediamo in grassetto A2A1 rappresenta il tratto A misurato con il
metodo 1 e col metodo 2. Sotto abbiamo la stessa cosa per il tratto B, mentre due valori più in basso,
seguendo la diagonale, abbiamo B3b2 CHE è il tratto B misurato col metodo 3 e il metodo 2 e così
via. Per indagare quindi la validità convergente e discriminante vengono valutati 4 criteri. Il primo
criterio concerne la validità convergente mentre gli altri 3 criteri riguardano la validità
discriminante. Per quanto riguarda la validità convergente questa viene supportata dai coefficienti
nella diagonale della validità in grassetto e dobbiamo verificare quelli che sono più elevati e i valori
più elevati che siano anche statisticamente significativi. Questi valori ci possono indicare metodi
diversi di misura di un medesimo costrutto che sono ampiamente convergenti e ciò depone a favore
della loro validità. Se io attraverso metodi diversi misuro lo stesso tratto e la correlazione tra queste
due misurazioni è alta allora ci dovrebbe essere validità convergente. Il secondo criterio di validità
discriminante si basa invece sul confronto di ogni coefficiente di validità coi coefficienti racchiusi
nei triangoli eterotratto-monometodo, quindi all’interno dei triangoli con tratto continuo. La validità
discriminante viene supportata se le misure di un medesimo tratto che non condividono un medesimo
metodo risultano maggiormente associate rispetto alle misure di tratti diversi che però condividono il
medesimo metodo. L’ultima modalità per la verifica del supporto della validità discriminante vede
che le correlazioni tra i diversi tratti debbano conformarsi al medesimo ordine sia nei triangoli
monometodo (continui) che in quelli eterometodo (tratteggiati). Per esempio se, considerando il
metodo M1, cioè il primo, osservassimo che i tratti A1B1 risultano più correlati dei tratti B1C1 e
questi ultimi sono a loro volta associati in modo più stretto con i tratti A1C1, allora il medesimo
ordine delle correlazioni deve essere rispettato per gli altri metodi di misura, quindi per il metodo 2 e
3. Variazioni di questo criterio ci porterebbero a pensare che almeno per alcuni metodi o per alcuni
tratti manca validità discriminante, quindi non si è in grado di differenziare tra i tipi di misurazione.
Questo tipo di analisi è abbastanza complessa anche perché richiede di analizzare
contemporaneamente una intera matrice e difficilmente si riesce ad avere una perfetta distribuzione
secondo i criteri che abbiamo appena indicato e avere una chiara differenziazione sulla validità
convergente e discriminante. La logica dei criteri di una matrice MMTMM è relativamente semplice
e intuitiva per queste regole già stabilite ma l’applicazione pratica risulta ambigua e difficile da gestire
perché non è chiaro quale conclusione si debba ad esempio trarre se ci troviamo nella condizione in
cui alcuni criteri sono rispettati ed altri no, è facile determinare quali sono i criteri ma poi non c’è una
chiara indicazione su quale sia quello da seguire nel caso ci siano elementi divergenti; inoltre siccome
i criteri si basano su correlazioni tra variabili osservate e siccome sappiamo che esiste l’errore di
misura, cioè che questo punteggio osservato in realtà non corrisponde direttamente al punteggio vero
e quindi questa validità meno che perfetta dovrebbe abbassare i coefficienti di correlazione, allora
l’applicazione dei criteri diventa un po’ più ambigua e in alcuni casi affidarsi solo alle correlazioni
può risultare fuorviante. Questo però non vale solo per la MMTMM ma vale anche per i coefficienti
di validità calcolati per costrutto e criterio in modo precedente.
La validità nomologica concerne le relazioni con misurazioni diverse del costrutto, con misure di
altri costrutti all’interno di un sistemateorico e con misure di variabili presenti nel mondo reale.->
Vero
Un ultima cosa da affrontare è un confronto fra la concezione degli elementi fondamentali per la
misurazione di una caratteristica attraverso un test e una volta che abbiamo definito qual è il costrutto
o l’abilità o il tratto che il test propone di misurare e il metodo con cui verrà definita la quantificazione
dei risultati dobbiamo scegliere gli stimoli e fissare le modalità di risposta. Sia gli stimoli che le
modalità di risposta debbono essere appropriati per la caratteristica da misurare es. se si vuole
misurare la creatività le risposte dovrebbero essere necessariamente aperte, se si vuole misurare la
capacità di risolvere dei problemi sono più vantaggiosi item con risposte chiuse magari a scelta
multipla con una risposta sola di tipo alfa cioè corretta o se si vuole misurare un tratto di personalità
probabilmente le risposte più adatte sono quelle con alternative chiuse disposte lungo una scala che
rispecchi il continuum delle differenze individuali. La scelta dei tipi di risposta è molto connessa con
i problemi relativi alla corrispondenza che ci sono tra test ed esigenze pratiche. Gli stimoli devono
essere scelti o realizzati in modo che attivino solo risposte attinenti alla caratteristica da misurare e
ad es, se parliamo di un questionario psicopatologico che ha domande con vocaboli difficili, persone
meno colte potrebbero dare una risposta di tipo alfa, cioè quella che corrisponde a una psicopatologia
anche quando non hanno quel disturbo solo perché hanno frainteso. Se lo stimolo è una figura e ci si
aspetta risposte alfa in rapporto a un dettaglio bisogna essere sicuri che quel dettaglio non presenti
difficoltà percettive e quindi che le risposte alfa non si presentano perché è assente la caratteristica o
perché invece è stata assente la percezione di quella figura. Tutti questi problemi, per economia di
lavoro, devono essere affrontati già prima di sottoporre il test al soggetto, per questo si parla di validità
a priori del test, mentre ciò di cui abbiamo parlato finora è la validità a posteriori. Di solito questi
sono problemi che vengono esaminati all’interno del gruppo di esperti che costruiscono il test. Nei
test costituiti con cura vengono anche consultati esperti esterni al gruppo che si occupa del test e
vengono fatti controlli preliminari su piccoli gruppi di soggetti che vengono chiamati try out.
L’insieme di questi controlli rappresenta la validità esaminata a priori cioè quando ancora non si
conoscono le risposte dei soggetti al test, invece una volta trovati gli stimoli e predisposto il test
comincia la validazione esterna di esso, la chiamiamo validazione a posteriori per non confonderci
con la validità esterna della ricerca, quindi abbiamo la validità a priori e a posteriori che è invece
associabile ai 5 tipi di validità precedentemente affrontati. Questi procedimenti di validità a posteriori
durano in genere più di un anno perché richiedono la raccolta di un campione normativo molto
numeroso e sono chiamati controlli a posteriori perché vengono fatti post somministrazione del test,
la maggior parte delle problematiche riguarda la scelta del campione o dei campioni su cui procedere
a effettuare i controlli e la maggior parte dei test non vengono validati su campioni stocastici, cioè
aleatori, né rigorosamente casuali che permetterebbero di avere migliori garanzie di generalizzabilità
ma che sono particolarmente difficili per diverse tipologie di popolazioni. Gli studi di validità che
abbiamo visto sono premessa degli studi di attendibilità, cioè sulle garanzie che le misure fornite
siano stabili anche se cambiano gli operatori, se passa un po’ di tempo, se si usa una o l’altra forma
del test. E una volta accertato che la misura è stabile si cerca di chiarire se si misura quello che ci si
proponeva. Lo psicologo che decide di utilizzare un test invece di un altro strumento lo fa anche per
vantaggi pratici perché il test corrisponde a esigenze pratiche. Se bisogna misurare l’ansia o la
depressione si può ad esempio utilizzare il CDI 2 e questo test è una versione ridotta che potrebbe
essere scelta per motivi di praticità legati al poco tempo o alla caratteristica della persona. Se ad es.
il test scelto non può essere utilizzato per persone di modesta cultura allora bisogna scegliere un altro
tipo di test se la persona non ha un buon background culturale. Ci sono anche molti altri problemi
etici e deontologici per i quali ad es. è bene non utilizzare test con item dalla particolare connotazione
politica e religiosa, inoltre si potrebbe valutare il costo o la validità per la popolazione di riferimento
e tanto altro ancora.
DISPENSA
IL CONTROLLO
In psicologia il concetto di controllo è usato in due modi. Il significato fondamentale del
termine è quello di fornire un punto di paragone fisso con cui confrontare l'effetto di una
particolare variabile indipendente. Se due condizioni sperimentali differiscono solo per una
variabile indipendente, qualsiasi differenza che compaia fra le due condizioni a seguito del
trattamento può essere attribuita all'azione di quella variabile. Tutte le altre spiegazioni sono
eliminate dall'esistenza di una seconda condizione di controllo. Un secondo significato del
termine controllo è distinto ma strettamente legato al primo; vale a dire la capacità di limitare
o guidare le sorgenti di variabilità nella ricerca. (Cioffi, 2002 p. 67)
L’attività di controllo, soprattutto nella ricerca sperimentale, può essere considerata come la
seconda faccia della medaglia della validità. Infatti, nell’esperimento per il controllo della
validità si utilizza un gruppo di controllo insieme al gruppo sperimentale. Il gruppo di controllo
è costituito con le stesse caratteristiche di quello sperimentale ed ha la funzione di offrire un
punto di comparazione per la verifica degli effetti della variabile indipendente. Questa verifica
avviene confrontando i risultati del gruppo sperimentale che riceve il trattamento con quello di
controllo che non è sottoposto ad alcun trattamento. La comparazione può anche riguardare i
risultati sia dello stesso gruppo sperimentale (ad esempio una classe) sottoposto a differenti
livelli della stessa variabile indipendente (esperimento entro i gruppi), sia di due, o più, gruppi
che ricevono però livelli diversi dello stesso trattamento. Nel caso si utilizzi lo stesso gruppo si
stabilisce una condizione di controllo, in quanto lo stesso gruppo fa da controllo a se stesso; inoltre,
occorre considerare che si possono verificare degli effetti combinati dovuti all’ordine e
alla sequenza, dato che il gruppo esegue più volte le prove ed è sottoposto al trattamento almeno
due volte.
In tutti i casi si ricorre ad un pre-test per assicurare che o il gruppo singolo o i gruppi siano
effettivamente omogenei per quanto riguarda le variabili più importanti per l'esperimento.
Per ovviare alle possibili sorgenti di variabilità o confusione di effetti sono utilizzate specifiche
strategie di controllo. Di seguito sono presentate alcune strategie più comunemente utilizzate.
MATRICE MULTIMETODO-MULTITRATTO
1. I valori dei coefficienti EM-MT (eterometodo-monotratto), disposti lungo le diagonali
secondarie e relativi alla validità convergente, devono essere diversi da 0, positivi e
significativamente elevati.
2. Il valore di ciascun coefficiente di validità convergente (EM-MT/eterometodomonotratto) deve
essere più elevato dei valori dei corrispettivi coefficienti E-E (eterometodo-eterotratto), disposti in
colonna e in riga nei triangoli adiacenti [ad es. R (A1,A2) > R (A1,B2), R (A1, C2), R (A2, B1), R
(A2, C1); ad es. R (B1,B2) > R (B1,A2), R (B1, C2), R (B2,A1), R (B2,C1); R (C2,C3) > (C2,A3),
R (C2,B3), R (C3,A2), R (C3, B2); etc. etc.]. Ne consegue che ogni coefficiente di validità
convergente (EM-MT/eterometodo-monotratto) deve essere confrontato con i 4 valori dei
corrispettivi coefficienti E-E (eterometodo-eterotratto).
3. Il valore di ciascun coefficiente di validità convergente (EM-MT/eterometodomonotratto) deve
essere più elevato dei valori dei corrispettivi coefficienti MM-ET (monometodo-eterotratto) [ad es.
R (A1,A2) > R (A1,B1), R (B1,C1), R (A1,C1), R (A2,B2), R (A2,C2), R (B2,C2); ad es. R (B1,B3)
> R (B1,A1), R (B1,C1), R (A1,C1), R (B3,A3), R (B3,C3), R (A3,C3); etc. etc]. Ne consegue che
ogni coefficiente di validità convergente (EM-MT/eterometodo-monotratto) deve essere confrontato
con i 6 valori dei corrispettivi coefficienti MM-ET (monometodo-eterotratto).
4. Il valore di ciascun coefficiente MM-ET (monometodo-eterotratto) di ogni triangolo relativo
considerato deve approssimarsi al corrispettivo coefficiente negli altri triangoli [ad es. R (A1,B1) »
R (A2,B2), R (A3,B3)]. Ne consegue che i confronti possibili sono 2.
5. Il valore di ciascun coefficiente E-E (eterometodo-eterotratto) di ogni triangolo relativo
considerato deve approssimarsi al corrispettivo coefficiente negli altri triangoli [ad es. R (A1,B2) »
R (A1,B3), R (A2,B1), R (A2,B3), R (A3,B1), R (A3,B2); ad es. R (B2,C3) » R (B1,C2), R (B1,C3),
R (B2,C1), R (B3,C1), R (B3,C2), etc. etc.]. Ne consegue che i confronti possibili sono 5.
Relativamente alla costruzione della matrice MTMM occorre considerare che i diversi tratti e
i diversi metodi, o meglio tecniche, dovrebbero essere selezionati con cura. I diversi metodi, o
tecniche, dovrebbero essere completamente indipendenti l’uno dall’altro: non dovrebbero
sussistere motivi preesistenti per credere che esse contribuiscano a generare l’effetto tecnica.
Nella misura in cui i tratti sono in relazione, si otterranno delle correlazioni mono-metodo
consistenti e delle correlazioni etero-metodo positive. Per facilitare l’interpretazione, sarebbe
meglio considerare almeno due tratti teoricamente indipendenti. Molte matrici
multitrattomultimetodo non mostreranno validità convergente: potrebbe accadere di non trovare
alcuna relazione tra due metodi volti a misurare lo stesso tratto. In questa frequente situazione, lo
sperimentatore dovrebbe accertarsi che non si sia verificata una di queste alternative: (a)
nessuno dei metodi è adatto alla misurazione di quel tratto; (b) uno dei due metodi non misura
effettivamente il tratto. (Quando ci si accerta che un metodo non misura il tratto ipotizzato, si
può verificare se esso ne misuri qualche altro. La presenza di coefficienti di correlazione elevati
nei triangoli eterotratto-eterometodo può fornire un indizio di tale possibilità). (c) il tratto non
è un’unità funzionale, ed in questo caso la risposta è attribuibile alle componenti di ciascun test
che non hanno relazione con il tratto. Un esito negativo nella verifica della convergenza può
condurre a sviluppi concettuali piuttosto che all’abbandono del test.
Per poter interpretare i valori all'interno della matrice MTMM, Campbell e Friske hanno
individuato quattro criteri:
1. I coefficienti di affidabilità dovrebbero rappresentare i valori più alti della matrice.
2. I coefficienti di validità dovrebbero essere significativamente diversi da 0 e sufficientemente grandi
da incoraggiare ulteriori analisi di validità. Applicando un semplice test di significatività a tali
correlazione dovrebbe essere possibile accertarsi del livello di significatività loro associato. Una volta
osservato un livello soddisfacente di significatività sarà possibile esplorare gli altri criteri.
3. Ciascun coefficiente di validità dovrebbe essere maggiore di tutte le correlazioni different-trait
different-method presenti nella stessa riga o nella stessa colonna del coefficiente di validità.
4. Ciascun coefficiente di validità dovrebbe essere maggiore del corrispondente
coefficiente different-trait same-method. La motivazione di tale criterio è data dal fatto che, perché
delle misure siano valide vi deve essere più varianza di tratto che varianza di metodo: se le
caratteristiche sono tra loro veramente distinte a livello concettuale allora la maggior parte della
varianza condivisa dovrebbe riflettere la varianza metodologica. La stessa caratteristica misurata con
metodi diversi dovrebbe riflettere principalmente la varianza di tratto che dovrebbe essere maggiore
della varianza di metodi delle correlazioni different trait-same method.
5. Si dovrebbe osservare lo stesso modello di correlazioni all'interno di ciascun triangolo,o sia quelli
con gli elementi che presentano correlazioni tra tratti diversi che utilizzano metodi diversi, o sia quelli
che riflettono correlazioni tra tratti diversi utilizzando lo stesso metodo.
Naturalmente in molte situazioni empiriche non tutte le verifiche effettuate e presentate possono
essere soddisfatte dai dati, pur disponendo di misure valide. Ciò può dipendere da molti fattori
quali l’osservazione di livelli diversi di affidabilità e validità a causa di fluttuazioni casuali nel
campionamento degli indicatori e dei soggetti. Campbell e Fiske non hanno però definito dei
parametri di riferimento su cui basarsi per stabilire se i dati si avvicinano ai criteri proposti.