Sei sulla pagina 1di 156

MODULO 1

Le tre rivoluzioni scientifiche delle scienze naturali del ‘900 non hanno influenzato la ricerca psicologica che
si occupa delle persone:

Vero: perché determinano l’introduzione della teoria della probabilità nelle scienze del comportamento

Uno psicologo clinico e uno psicologo ricercatore adottano fondamenti metodologici diversi

Falso

Ruthford: solo la fisica è scienza, il resto è collezione di francobolli. Famosa frase con la quale il fisico
Ruthford ha tentato di chiudere la questione sulla rilevanza delle discipline soft come la pedagogia,
sociologia, economia, psicologia e la stessa medicina che è anch’essa sociale quando ha a che fare con
l’individuo.

Teoria della probabilità (integrata nel processo scientifico) : permette di supportare l’inferenza,
attribuzione dei risultati di una singola ricerca dal campione alla popolazione di riferimento.

La teoria della probabilità applicata alla conoscenza scientifica permette di stendere conclusioni
controllabili e discutibili dalla comunità scientifica.

3 rivoluzioni scientifiche che hanno determinato un unico modo di intendere la ricerca scientifica. Sono 3
rivoluzioni che avvengono nelle cosiddette scienze cosiddette “Hard”, naturali che determinano una presa
di coscienza della difficoltà conoscitiva della realtà e della possibilità di ottenere risultati prevedibili e
costanti:

La prima rivoluzione è determinata dalla teoria della relatività elaborata da Einstein nel 1905 per cui si
parte da un assunto assoluto (un elemento costante all’interno della teoria della relatività) che è la velocità
della luce, costante in tutti i sistemi di misurazione e che quindi non dipende dal sistema di riferimento,
questo elemento ha minato le basi della fisica newtoniana perché la costanza della velocità della luce
rende relativo un altro concetto che si è ritenuto oggettivo che è il tempo. Il tempo che non è assoluto ma è
relativo al contesto di osservazione. Se il tempo è relativo nell’ambito della fisica, il fatto che il tempo sia
relativo anche per la psicologia è ovvio (sappiamo che la percezione del tempo dipende da molti fattori). Se
la velocità della luce è costante in sistemi in cui il tempo è relativo, allora le leggi della fisica devono seguire
la stessa logica e mantenere la stessa immutabilità in contesti diversi.

Questa immutabilità in psicologia non può esserci e non è mai esistita. Questa immutabilità differenziava in
passato le scienze soft dalle scienze hard

Altro discorso importante: le ricadute delle conoscenze scientifiche in un campo (es. statistica=) vengono
utilizzate in un altro ambito (es. psicologia ed economia) questa contaminazione inizia nel secolo scorso

Secondo paradosso: Principio di indeterminazione di Eisenberg 1927 in microfisica: In un dato istante è


impossibile attribuire una posizione e una velocità determinata ad una particella perché anche il ricercatore
influirà sempre sulla sua velocità e la sua posizione quando proverà a misurarla, quindi più la posizione è
definita più ci sono influenze di misurazione e meno è conosciuta la velocità e posizione. Ciò pone un limite
alle capacità di misurazione. Quindi la misurazione non è una caratteristica insita nella natura delle
particelle e quindi degli oggetti . Ad esempio in psicologia abbiamo i cosiddetti costrutti mentali es. ansia,
autoefficacia ecc. : a seconda delle scelte fatte dall’osservatore (observer dependent) abbiamo una diversa
natura dell’informazione ottenuta.

Terzo paradosso: Ricadute della teoria del caos degli anni 70 che hanno dato l’ultimo colpo alle scienze
dure: le scienze naturali che vogliono predire gli eventi o esiti arrivano a constatare che le previsioni sono
delle eccezioni piuttosto che delle regole (che in natura sono complesse e imprevedibili) solo in alcuni casi
molto semplici, es. caduta di un grave nel vuoto, si può azzardare una previsione. Questa teoria del caos è
stata applicata a fenomeni non prevedibili come ad esempio la formazione delle nuvole, tracciato delle
cascate ecc.

Il momento teorico della generazione delle ipotesi avvicina il lavoro dello psicologo clinico o libero
professionista che somministra test di valutazione (che fa ipotesi su motivazioni e variabili) e il lavoro del
ricercatore di scienze sociali, per cui questi approcci sono utili ad entrambi. Il clinico utilizza i risultati delle
Valutazioni per pianificare il proprio intervento e deve integrare sia dati oggettivi derivanti da
eterovalutazione che dati soggettivi autovalutazione.

Nelle moderne valutazioni ci si orienta ad un approccio prototipico : si integrano sistemi classificatori


categoriali e dimensionali, a livello di fondamento teorico e metodologico, integrando ideografico e
nomotetico. Bisogna sempre riflettere sull’importanza del mondo teorico, costrutti, variabili e parametri di
una popolazione. La causalità non esiste ma è osservabile solo nel mondo teorico applicando poi dei
modelli alla realtà empirica attraverso le teorie di riferimento

Teorie di riferimento:

1 organizzano le evidenze scientifiche derivanti dalle ricerche precedenti.

2 aiutano il ricercatore a pensare a possibili ulteriori implicazioni in base a fondamenti teorici di base.

Le teorie generano nuovi problematiche di ricerca. Dal background del ricercatore possono derivare delle
ipotesi che sono conseguenze della teoria, se l’ipotesi non viene confermata alcuni aspetti della teoria
possono essere ripensati o si può rigettare una teoria, inoltre quando si ottiene dalla ricerca una conferma,
ciò non significa che quella teoria sia vera ma si incrementa la fiducia su di essa.

Processo di operazionalizzazione: porta dalla definizione del costrutto di interesse es. intelligenza, alla
definizione di alcune dimensioni che secondo Lazerfeld non esauriscono la portata del contenuto del
costrutto, nonostante se ne possano scegliere diverse. Il costrutto non è dato dalla somma semplice di
tutte le dimensioni che lo compongono ma è qualcosa di più e queste dimensioni si pongono a un livello
meno astratto rispetto al costrutto che ci permette di legare degli indicatori alle dimensioni. Questi
indicatori possono essere delle domande, degli stimoli, dei compiti, che sono studiati per ottenere una
risposta dal soggetto e poter misurare il soggetto su alcune caratteristiche. E questi sono i costrutti.
I modelli: sono una rappresentazione grafica sintetica ed efficiente della realtà in oggetto. Il modello ha
degli elementi al suo interno e questi elementi sono i fattori principali della realtà che si sta studiando e che
vengono ritenuti fondamentali in una teoria esplicativa. Il modello ci è utile perché si pone a un livello
intermedio tra la teoria (che vive nel mondo astratto e non ha una immediata contestualizzazione empirica)
e la realtà che noi viviamo. I vari elementi del modello detti variabili, sono legati tra loro attraverso delle
relazioni. I modelli sono utili perché oltre a sintetizzare gli elementi principali della realtà che esaminiamo,
indicano anche la relazione di questi elementi. Sono di diverse tipologie: I modelli statistici, i modelli
matematici, es la media. I modelli del computer e i modelli logici. I modelli logici sono dei modelli
particolari in cui una rappresentazione grafica (ad es. la rappresentazione grafica del modello motivazionale
di Cornoldi, nelle slide) è composta da elementi che hanno tutti una relazione causale tra di loro (un
elemento è causa di un altro). Anche le mappe concettuali sono dei modelli perché sono rappresentazioni
grafiche con elementi legati tra di loro da legami tassonomici, di appartenenza, ecc. ma non sono modelli
logici, perché implicano una descrizione di ogni elemento che le compone, quindi le relazioni tra gli
elementi devono essere denominate e spiegate, mentre nel modello logico ciò non accade e il legame tra
gli elementi visualizzati è immediato e poi in base a questo modello logico, bisogna analizzare se i risultati
di una nostra ricerca supportano le relazioni indicate nel modello stesso. Un esempio di modello statistico
può essere il modello fattoriale che è legato al tipo di analisi fattoriale che viene effettuato con diversi
software nei quali si dispone la varianza totale di un insieme di variabili empiricamente osservate all’interno
di alcune scale e individuare dei fattori che ne spieghino la varianza. Si può usare il modello per fare un
grafico che rappresenta il processo di operalizzazione cioè COME l’indicatore, attraverso delle regole di
corrispondenza rappresenta delle relazioni in un modello teorico (il modello teorico è più astratto rispetto a
quello statistico formato da un insieme di relazioni

I modelli non sono privi di errori

Vero: in quanto rappresentazioni sintetiche non saranno mai esenti da differenze con la realtà empirica

Sicuramente tutti voi dato che il corso magistrale saprete più o meno Cos'è un test psicologico e come
riconoscerlo e sapete anche che la sua funzione fondamentale è quella di misurare differenze tra individui
oppure registrare reazioni dello stesso individuo in condizioni diverse questa definizione però mette in
evidenza le principali proprietà del reattivo psicometrico. Reattivo psicometrico e test psicologico sono
sinonimi e la definizione di reattivo è ovviamente più vecchia più arcaica ma rende l'idea di come il test sia il
modo in cui il partecipante è chiamato a rispondere in risposta allo stimolo.
I 3 punti di questa definizione che sono anche tre degli elementi principali che caratterizzano nel suo
complesso un reattivo psicologico sono l'obiettività la standardizzazione e il campione di comportamento :
Obiettività da Non confondere con l'oggettività obiettività che nella stragrande parte delle situazioni
questi aspetti non sono influenzati d'accordo da una soggettività dello psicologo che effettua questa
valutazione che si assegna e calcola il punteggio grezzo di un soggetto al test quindi l'obiettività ha che fare
essenzialmente con il momento dello scoring si chiama così in inglese quando si assegna il punteggio score
ed è importante sapere che non c'è una decisione soggettiva dell'esaminatore Ma la decisione sul
punteggio finale è basata su criteri che sono avalutativi quindi sono obiettivi Nel senso che non sono
influenzati dalla pensiero dello psicologo.

Il secondo riguarda la standardizzazione che ha a che fare con le procedure con cui si somministra il test
quindi le modalità con cui si dà il questionario ,il test ,le modalità di tempo a disposizione, quelle che sono
le indicazioni per la compilazione e quindi anche il contesto in cui si somministra il test, se ad es. deve
essere fatto in una situazione di individuale o collettiva ecc.
Ha a che fare con l'uniformità delle procedure che permette a psicologi diversi di essere sicuri che il
punteggio ottenuto da 2 pazienti nel caso della situazione clinica o da due individui in test somministrati da
psicologi diversi, sono similari e confrontabili.
Campione di comportamento non è da confondere con quello che il campionamento effettuato su soggetti
di una ricerca perché c'è da pensare che un reattivo psicometrico non è che è in grado di descrivere in
modo diretto il paziente come i raggi x e ad es. mettere in luce dei suoi desideri proibiti ma riesce ad
intercettare solo alcuni comportamenti della persona e quindi è come se ci fosse un universo di item e
quindi di quesiti oppure di compiti che sono in relazione con il costrutto e da questi se ne fa una selezione,
se ne estrae un campione che dovrebbe essere rappresentativo dell’universo di quel costrutto e questo
dovrebbe valere ad es. per l’ansia e gli item relativi all’ansia potrebbero essere relativi alle sensazioni
quando si parla in pubblico eccx. Quindi un costrutto non direttamente osservabile ha un insieme di
indicatori molto numerosi e dipendenti dal contesto storico sociale e culturale di riferimento; determina il
fatto che ci possano essere test diversi che misurano con item differenti lo stesso costrutto.
C’è questo campionamento duplice sia per quello che riguarda gli oggetti che vengono misurati, ovvero gli
individui, sia il contenuto che si va a misurare. A queste proprietà si aggiunge in caso di test condotti su
campioni normativi quindi su un campione di soggetti di tipologia diversa cioè più numeroso rispetto ai
campioni che si occupano di ricerca, quindi non 200 o 300 individui ma 1000 o più soggetti per individuare
norme o standard di riferimento, si chiama infatti campione normativo perché da’ la possibilità di definire
delle norme che non sono altro che la possibilità di interpretare il punteggio ottenuto nel test da un
soggetto comparandolo con i punteggi realizzati allo stesso test da un gruppo di persone sottoposte allo
stesso reattivo e che essendo rappresentative della popolazione di riferimento ne costituiscono un
campione di standardizzazione. Ciò vuol dire potere interpretare il punteggio di una persona successiva
rispetto al campione normativo selezionato in base a media e deviazione standard del campione normativo.
Dibattito tra le definizioni di test psicologico e quelle di assessment psicologico (nel quale si ha sia il test che
la descrizione da parte del clinico che elabora in merito al caso specifico, le informazioni avute con metodi
diversi)
Assessment psicologico ed uso dei test sono due cose diverse perché presuppone una serie di procedure e
attività eterogenee ed articolate per trarre informazioni che sono integrabili con fonti e strumenti diversi.
L’assessment psicologico è definito da Caporali e Roberti nel 2013 un processo o situazione
psicodiagnostica intesa come un percorso di assessment clinico e di testing mentre il singolo reattivo
psicometrico ne è solo uno specifico momento di approfondimento e per questi autori quanto emerge dai
test in confronto a dati ricavati da altre tecniche psicodiagnostiche è più affidabile in termini di predittività
sull’esito del percorso di sostegno psicologico. Quindi la situazione standardizzata può essere una fonte di
informazione valida ed indispensabile rispetto ad altre valutazioni soggettive ma ovviamente non può
sostituirsi completamente alla diagnosi clinica della quale rappresenta solo un momento di
approfondimento.
Batteria di test: gruppo di test per ottenere informazioni più ampie integrando diverse informazioni
derivanti da diverse angolazioni attraverso una triangolazione che aiuta ad impostare il lavoro clinico
soprattutto nelle fasi iniziali facendo dei focus sugli interventi. Le batterie non sono invece utili per
monitorare le fasi intermedie del trattamento perché la loro somministrazione è troppo complessa per
questa fase

Evaluation psicologica e assessment psicologico sono la stessa cosa

Falso.

Obiettività è sinonimo di oggettività di un test

Falso: Obiettività non indica la corrispondenza con la realtà, intesa come verità assoluta.

Fasi in cui si articola la costruzione del test psicologico: questa tabella può essere letta in due versi: in
verticale riguardo le fasi in cui si articola il processo o in orizzontale per capire quali sono i metodi per
raggiungere e completare quella specifica fase e poi quali sono i risultati di quella fase.
Scelta del costrutto è un momento complesso che richiede una profonda conoscenza sia degli obiettivi di
assessment sia del resto della letteratura rispetto a quello specifico costrutto. Il metodo per completare
questa fase è una analisi razionale delle manifestazioni del costrutto così come definito dalla letteratura
attraverso la quale si indaga se ci sono già dei test che indagano quel costrutto e rispetto alla nostra teoria
di riferimento se c’è già a disposizione qualcosa e poi bisogna dal punto di vista teorico definire il costrutto
e le sue manifestazioni perché ad es. ci può interessare l’ansia in ambito scolastico e quindi abbiamo e.
ansia da performance o ansia matematica, o ansia da separazione (se parliamo dell’ansia collegata allo
sviluppo. Quindi dalla definizione del costrutto deriva poi una elaborazione dell’insieme di item cioè di
quesiti più ampio (punto 2) che si definisce attraverso l’operazionalizzazione secondo la definizione di
Lazarsfield (ovviamente ci sono anche altri metodi) che individua il legame tra l’indicatore e il costrutto. Il
risultato di questa fase è la definizione di un insieme di item e quindi la versione preliminare del test, poi
si invia questo test a una selezione di esperti del campo che ne effettua un esame critico e da questo
esame critico deriva un insieme scelto di item che deve essere verificato, cioè di cui deve essere verificata
la qualità e questa verifica si fa con l’ITEM ANALYSIS che è un’analisi formale degli item che è comune a
diverse teorie dei test, sia alle teorie classiche dei test sia all”ITEM RESPONSE THEORY, quindi se ne valuta
sia la dimensionalità che la difficoltà che la discriminatività e naturalmente per fare questo bisogna avere
un piccolo campione di soggetti e andare a vedere se questi parametri consentono di descrivere le
proprietà metriche degli item. Una volta scremati gli item attraverso questa Item analysis, abbiamo la
selezione degli item del test finale al punto 5 e abbiamo un secondo momento di validazione del test,
quindi abbiamo un secondo campione e per questo campione abbiamo bisogno di studiare le
caratteristiche del test al punto 6 e su questa nuova somministrazione a questo secondo campione si
calcolano degli indici per verificarne l’ attendibilità e la validità dell’informazione raccolta dal test, quindi
la fase di studio di validità del test è fondamentale ed è la fase precedente alla standardizzazione e
taratura del test che viene effettuata selezionando un campione normativo per la Standardizzazione e
taratura del test. Non si effettua una standardizzazione intesa come selezione di un campione normativo,
quindi molto ampio (per ottenere delle norme) se non si è sicuri che alla fine si ottenga come prodotto
finale un test con le cosiddette GRIGLIE DI VALUTAZIONE e poterlo poi anche vendere.

Queste tre sono modalità diverse di valutare la misura effettuata da un test rispetto alla caratteristica,
siamo nel momento in cui decidiamo quale caratteristica del test si propone di misurare e il metodo con cui
viene quantificato poi il risultato e dobbiamo scegliere gli stimoli e fissare le modalità di risposta. Stimoli e
modalità di risposta devono essere appropriati alla caratteristica che dobbiamo misurare, se vogliamo
misurare la creatività le risposte dovranno essere aperte, se si vuole misurare la capacità di risolvere
problemi sono meglio le alternative chiuse con una sola risposta, se si vuole misurare un tratto di
personalità probabilmente sono più adatte le alternative chiuse in una scala che rappresentaun continuum
soggiacente alle differenza individuale come termometri del sentimento e scale Likert quindi la scelta del
tipo di risposta è molto connessa con i problemi relativi alla risposta del test ad esigenze pratiche. Gli
stimoli devono essere scelti per attivare risposte attinenti alla caratteristica da misurare. Ad es. un
questionario psicopatologico che ha domande con termini difficili può far si che le persone meno colte
possano dare una risposta che può sembrare psicopatologica anche quando non lo è perché hanno
frainteso la parola difficile. In questo caso l’item non è di buona qualità. Se lo stimolo è una figura bisogna
essere sicuri che il dettaglio o la figura da analizzare non presentino problemi di tipo percettivo altrimenti il
soggetto risponde male perché non è in grado di percepire l’elemento che porterà alla risposta e non
perché ha una patologia. Queste problematiche, per economia di lavoro, devono essere affrontate prima di
proporre il test ai soggetti. Di solito vengono esaminati dagli esperti che costruiscono il test che per test
costruiti con particolare cura, spesso sono esterni al gruppo che sta costruendo il test, oppure già in questa
fase si può fare qualche prova con piccoli campioni e somministrazioni pilota (detta fase “try out”).
L’insieme di questi controlli riguarda la validità di contenuto del test o la validità di facciata, quindi se il test
sembra valido ed è percepito in modo corretto dai soggetti, si parla di validità esaminata a priori cioè
quando ancora non si conoscono le risposte dei soggetti agli stimoli del test.

Una volta preparati gli stimoli del test avremo la validità a posteriori con la raccolta di risposte riusciremo a
dire quanto il test è una buona misura del costrutto che vogliamo analizzare. Questi procedimenti sono di
solito molto lunghi, durano anche più di un anno e vengono continuati anche dopo la pubblicazione del test
per tararlo in modo corretto e sono chiamati controlli a posteriori perché vengono fatti dopo la
somministrazione del test. In questo caso abbiamo campioni più ampi e ad esempio per test validati su
campioni normativi abbiamo dei test validati su campioni stocastici e quindi campioni che sono
rigorosamente casuali, però nella ricerca, molti dei questionari che si utilizzano non sono testati su
campioni di questo tipo e ciò è un grave difetto anche dovuto al fatto che la ricerca fatta con campioni
normativi è complessa, onerosa e richiede molto tempo. Per questo ci sono tantissimi strumenti della
ricerca che non hanno campioni di questo tipo. Per quanto riguarda le campionature, le caratteristiche dei
campioni, bisogna considerare anche tempo e spazio, ovvero quando è stato testato il campione (es. 30
anni fa) e dove (es. nazioni diverse). Studi di validità hanno avuto come premessa gli studi sull’attendibilità.
Per alcuni tipi di test è anche importante che gli stimoli siano omogenei tra loro. Una volta accertato che la
misura sia stabile e valida, possiamo scegliere il nostro test anche in base ad esigenze pratiche, ad es.
tempo di somministrazione ecc.. Per massimizzare i vantaggi della scelta di un test bisogna verificare che sia
appropriato ai soggetti per cui è destinato cioè se è scritto in un linguaggio semplice in caso di destinatari di
cultura non elevata oppure che gli stimoli siano attraenti per il tipo di persone a cui è rivolto il test. Il test
non deve porre problemi etici e deontologici (che poi diventano legali) e non deve contenere quesiti su
opinioni religiose o politiche per dare garanzia di risultati equi senza discriminazioni di alcun tipo. Bisogna
anche tenere in considerazione il costo di un test e qui c’è un elenco degli elementi che deve contenere un
test per poter essere scelto con coscienza

Naturalmente non esiste un reattivo che possa dare tutte le informazioni necessarie al clinico per fare la
diagnosi e test diversi danno informazioni differenti. Questa diversità è riconducibile alle caratteristiche
dello stimolo o al modello teorico sotteso al tipo di test ma anche al tipo di individuo sottoposto alla prova.

La teoria della misurazione dovrebbe tenere in considerazione la dimensione dello stimolo, la dimensione
della risposta del soggetto e la dimensione della persona che stiamo analizzando. La scelta del test è fatta in
base alle informazioni che si desidera ottenere e quindi l’obiettivo per il quale è richiesta l’indagine
testologica es. decadimento organico, che non ha a che vedere con test di personalità ecc.

Molte volte sfortunatamente i test vengono scelte in base alle preferenze del clinico cosa che porta ad un
uso improprio dello strumento e a una scorretta valutazione dei dati.La risposta è collegata allo stimolo
proposto, quindi se col paziente c’è una corretta alleanza terapeutica si riesce ad avere una misurazione
valida. Una mancata alleanza terapeutica o diagnostica è spesso causa di protocolli non validi detti anche
muti. Se uno strumneto determina invece una risposta diversa da quella attesa bisogna poi indagare sulle
possibili cause senza mai dimenticare che alcuni risultati di test sono inficiati da scorretta
somministrazione.

Il lavoro di costruzione e taratura è essenziale per definire un buon test e questo lavoro va svolto
preliminarmente da chi costruisce il test e intende metterlo in circolazione proponendolo ai colleghi e ai
possibili utilizzatori. Gli item vanno scelti con cura, magari con prove preliminari, perché rappresentino
l'area psicologica da valutare e siano graduati in modo opportuno: per livello di difficoltà se si tratta di
prove di efficienza, per grado di accettabilità se le domande riguardano aspetti delicati della personalità o
della patologia. È opportuno iniziare dalle prove più facili nei test cognitivi e da quelle più accettabili e
meno 'scabrose' nei test di personalità.

Lo scopo nella costruzione degli item è evitare che la risposta del soggetto risenta di un 'errore' che inficia
la valutazione in quanto non consente di stimare adeguatamente competenze o condizioni 'vere' del
soggetto stesso. In tutte le concezioni delle teorie dei test si considera l’errore di misurazione, l’errore
indicato dal prof. Di Nuovo è un errore cosiddetto sistematico dovuto cioè a una procedura errata o una
norma errata che modifica tutte le somministrazioni del test e che non permette un utilizzo adeguato di
questo strumento

Qui si vede come vi sia una corrispondenza tra percentili empirici, punteggi dei test e standardizzazioni per
le quali si è in grado di stabilire in base al punteggio del test il percentile empirico corrispondente. Queste
sono le cosiddette norme che in questo caso, nel test di Wechsler ci dicono che a partire da una media (che
in questa tabella non si vede) ma che è 100 (alla base della tabella) fino ad una deviazione standard di 115
(nella tabella questa si trova tra il quoziente intellettivo 114 e 116) è compreso l’84 per cento dei soggetti e
che sopra due deviazioni standard è compreso il 2 per cento dei soggetti e che sopra due deviazioni
standard, cioè al di sopra del valore di intelligenza 123, è compreso il 2 per cento dei soggetti, che
corrispondono a un QI di 132.

Le norme di gruppo devono avere le seguenti proprietà per essere appropriate:

• Recenti. Ovvero legate al momento in cui il campione normativo è stato definito, quindi sono “time
bound” (Williams, 1988), cioè immerse e legate al contesto che deve essere preso in considerazione
all’interno dell’attribuzione del punteggio)
• Rappresentative: questa qualità è legata al metodo di estrazione del campione, quindi al metodo di
campionamento e corrispondenza del tipo di campione alla eterogeneità della popolazione di riferimento
(ampiezza del campione)

• Rilevanti: corrispondenza tra le caratteristiche specifiche del campione e quelle della popolazione di
riferimento, quindi ci deve essere un controllo che non vi siano differenze legate ad es. a disparità di
distribuzione su alcune proprietà

Non è mai opportuno prendere in considerazione esigenze pratiche nella scelta di un reattivo psicologico:

Falso: anche riflessioni pragmatiche sono ammesse

Tassonomia dei test psicologici

Abbiamo tra i test cognitivi i test di intelligenza generale, i test attitudinali, di profitto e rendimento e poi
tra i test non cognitivi i test di personalità, atteggiamento ecc. Questa suddivisione viene anche suddivisa in

•Test di prestazione massima (maximum performance test), detti anche cognitivi o di livello, che valutano il
livello di "competenze", prevalentemente di tipo cognitivo od esecutivo.

•Test di prestazione tipica(typical performance test), detti anche non cognitivi, che si occupano di
valutazioni personologiche e degli atteggiamenti.

Nell'ambito della Teoria Classica dei Test, il punteggio nel costrutto viene comunemente determinato in
base o al conteggio delle risposte corrette (test di prestazione massima) o come somma delle valutazioni
rispetto a ciascun item (test di prestazione tipica).(Chiorri, 2011)

I test di atteggiamento fanno parte della categoria dei test di performance massima

Falso, perché sono dei test non cognitivi

3 CLASSI DELLA TASSONOMIA DEI TEST

(è solo una possibile tassonomia di suddivisione di test)

• Test di livello intellettuale generale, noti come test di intelligenza , somministrazione individuali e
collettiva
• Test per la misurazione di singole abilità, noti come test attitudinali attitudinal test (e non attitudinal test
che significa test di atteggiamento che fanno parte dei test non cognitivi), test di profitto e competenze,
batterie attitudinali multiple;

(queste prime fanno parte dei test cognitivi)

• Test che misurano caratteristiche emotive, atteggiamenti ed interessi, o anche comportamento


interpersonale, atteggiamenti e dispositivi proiettivi, noti come test di personalità, in cui ricadono in pratica
tutti i caratteri latenti non intellettivi della personalità. Sono sviluppati con riferimento esplicito ad una
teoria psicologica ed hanno dei modelli elaborati secondo criteri scientifici. (questo fa parte dei test non
cognitivi)

Il termine test di intelligenza generale, attitudinale, ecc. sono stati utilizzati in modo intercambiabile per un
certo tempo creando confusione.

I test di intelligenza generale sono da distinguere dai test attitudinali anche se hanno questioni in comune.
La distinzione è data dal differenziare se la misura che otteniamo dal test è una misura generale oppure se
è un test che misura uno specifico fattore. Se è un test di intelligenza generale abbiamo più elementi che
compongono il test ma la misura è di tipo generale, se invece abbiamo specifici fattori singoli all’interno del
test, si parla di test attitudinali. Ci sono diverse concezioni dell’intelligenza, questa potrebbe anche essere
intesa come un continuum che va da attitudini specifiche al costrutto di intelligenza generale. Il termine
intelligenza ha delle connotazioni che lo legano a elementi innati e per questo i termine attitudinale viene
usato talvolta per descrivere test che fanno riferimento all’apprendimento, alle competenze del soggetto
che vengono acquisite in termini lavorativi ma la differenziazione non può essere solo questa

I test attitudinali e di intelligenza generale vengono spesso considerati insieme perché sia i test di sviluppo
che quelli di funzionamento cognitivo generale possono rientrare in questo continuum di test di abilità.
Sono entrambi utilizzati nella pratica clinica in età evolutiva a fini diagnostici e sono in grado di offrire
misurazioni simili in particolare quando il soggetto ha ritardi rilevanti rispetto al loro funzionamento atteso
per una data età, la maggior parte di questi test cerca di definire un profilo di competenze e mettere in
evidenza lo sviluppo e l’intelligenza come costrutti complessi che possono essere sintetizzati in modo non
semplice con un singolo valore (non è semplice perché quando noi attribuiamo un punteggio grezzo ad un
soggetto abbiamo una rilevante perdita di informazioni fondamentali per il successivo trattamento
riabilitativo ma siamo disposti a sacrificare questa parte di informazione perché in questo modo ci
possiamo avvicinare al campione normativo che ci permette di effettuare dei confronti).
Il concetto che lega questi test è quello di età mentale che è stato sviluppato storicamente nello stesso
periodo sulla base di entrambe le tipologie di test (cioè sia i test di funzionamento cognitivo generale che di
abilità, rendimento e sviluppo). D’altro canto ci sono anche tendenze che dal punto di vista teorico
spingono a un trattamento separato dei due tipi di test. I test attuali come il Wechsler che sono degli
standard della misurazione dell’intelligenza si basano su concetti matematici molto diversi dall’età mentale,
che è stato necessario superare per ragioni dovute all’ambito di intervento, inoltre non vi è una buona
correlazione tra il punteggio sintetico derivante dal quoziente di sviluppo ed il quoziente intellettivo, cioè la
misura golden standard, l’indice sintetico del funzionamento cognitivo globale del soggetto. Nonostante
questo ulteriori analisi hanno stabilito una certa correlazione tra specifiche scale del QI con alcuni test di
sviluppo.

Ulteriore elemento che cerca di sottolineare il distacco tra questi due tipi di test è che i test di sviluppo
correlano poco con i risultati scolastici, quello che in inglese viene definito academic achievement e a
differenza dei test di funzionamento cognitivo generale che storicamente sono nati per identificare i
soggetti che avevano bisogno di interventi particolari per consentire l’apprendimento almeno parziele,
(quindi c’era un legame forte col rendimento scolastico) in questo caso gli strumenti di sviluppo non
possono essere considerati a tal fine. L’assunto principale di tutti questi strumenti è che vi sia uno sviluppo
progressivo nelle competenze del bambino e questo passi per una sequenza fissa. Tutti ricordano Piaget
che è il fautore di questa concezione. È lui che ha determinato quelle sequenze fisse e immutabili dello
sviluppo motorio del bambino. Sono legittime le critiche all’applicazione di questi modelli allo studio dei
bambini che non hanno uno sviluppo tipico e il problema tecnico alla base di questi strumenti è che dal
punto di vista metrico ciascun item di questi test richiede di solito una risposta dicotomica e quindi il
bambino viene giudicato capace o no di fornire una certa prestazione con determinate caratteristiche
qualitative senza che sia possibile definire un grado o un livello della sua competenza in modo più raffinato
con un criterio più fine. Questo modo di procedere da un lato determina il potere di risoluzione del test e lo
limita perché non è previsto un punteggio intermedio, quindi i compiti non possono essere superati in
modo parziale ( o si superano o no) e non c’è nemmeno una valutazione del risultato in base anche al tipo
di strategia più o meno efficace che è stata messa in campo. Per converso c’è un elemento che potrebbe
distorcere questi dati nel momento che fosse immessa anche una valutazione di tipo qualitativo da parte
dell’osservatore e l’evitamento dell’interpretazione dei risultati da parte dello psicologo evita delle
distorsioni che potrebbero essere limitate soltanto laddove si optasse per un test che avesse un alto indice
di inter rater agreement: accordo tra i valutatori (metodologia usata per depurare la varianza del punteggio
ottenuto dalla quota legata alle caratteristiche individuali del soggetto testato rispetto alla valutazione del
somministratore)

Il quoziente di sviluppo è il rapporto percentualizzato, cioè moltiplicato per cento tra età di sviluppo ES ed
età anagrafica, a seconda del metodo con cui viene stimato questo quoziente, abbiamo strumenti diversi,
quindi in base allo strumento l’età di sviluppo è definito al livello corrispondente alla prova più avanzata
che il bambino riesce a superare o dalla somma dei singoli punteggi guadagnati in un set di prove e in
questo caso quando questa somma contribuisce al Quoziente di sviluppo, di regola questo set di prove
contiene compiti riferibili ad un anno di età anagrafica, in pratica al di la delle specifiche modalità per la sua
determinazione, l’età dello sviluppo può essere definita come l’età alla quale un bambino con sviluppo
tipico è in grado di superare le medesime prove di quello attualmente sottoposto alla valutazione. In altre
parole l’età di sviluppo di un bambino indica quale età dovrebbe avere quel dato bambino per essere nella
media come competenze dimostrate nella risposta ai compiti del test. Da un semplice ragionamento
matematicho segue che se l’età di sviluppo coincide con quella anagrafica il quoziente di sviluppo è pari a
100 perché se ES ed EA corrispondono il rapporto (la divisione) è pari a 1 che x 100 fa 100. Questo è il
bambino con sviluppo normale, ma è nota una fisiologica variabilità nell’acquisizione delle competenze ed è
in genere del tutto adeguato il QS di un bambino che si trova tra -1 e +1 deviazione standard rispetto alla
media ideale di 100. Se il punteggio grezzo supera questo range o campo di variazione, gli intervalli
rispettivamente a – 2 e +2 deviazioni standard rappresentano dei valori limite dei bambini borderline,
mentre bambini che ottengono un risultato superiore a -2 deviazioni standard soddisfano un criterio di
ritardo dello sviluppo.

Vi sono delle criticità nel Quoziente di sviluppo, una è dovuta al rischio che numerosi esperti hanno
segnalato relativo a:

Rigidità dello schema di valutazione del bambino (il riferimento a Piaget ci illustra una teoria che non tiene
in considerazione le strategie individuali che emergono a compensazione di una o più aree critiche o di
fragilità del soggetto, quindi esiste una differenza tra attribuzione di un punteggio secondo criteri
matematici e la valutazione di un suo significato all’interno di un contesto di sviluppo. Questo è anche il
motivo alla base di un contrasto tra Approccio psicometrico fondato su uno schema di valutazione rigido
del punteggio vs approccio clinico: gli psicologi per anni hanno ritenuto che la misurazione in psicologia
dovesse essere equivalente alla misurazione in altre scienze per avere uno standard e base di misurazione
non contestabile, questo approccio più psicometrico faceva riferimento ad un metodo fisicalista. Dall’altro
lato ci si è rivolti spesso in maniera acritica a un approccio di tipo clinico che tende a trascurare le
indicazioni psicometriche a favore di un atteggiamento più interpretativo o empatico (l’empatia non è utile
all’approccio psicometrico perché retaggio di un modello psicoanalitico troppo abusato). C’è infatti uno
scontro tra i clinici e gli accademici, gli uni più interessati a un approccio che cerchi una risposta più efficace
a ridurre le sofferenze dei pazienti mentre gli accademici sono concentrati sui vincoli che rendano una
metodologia corretta, cosa non sempre compatibile con la pratica clinica. Da parte degli accademici la
psicodiagnostica era stata sopravvalutata ed era stato creato questo misticismo del reattivo psicometrico
che poi è stato destinato ad avere discredito, da questo discredito è scaturito a un effetto contrario con
utilizzo parziale e settoriale dei diversi strumenti alcuni dei quali sono stati messi al bando dai ricercatori
per essere impiegati soltanto dai clinici perché i clinici ritenevano che questi strumenti facessero un favore
alla loro metodologia di analisi. Questo scontro tra il modello clinico e quello psicometrico statistico ha
influenzato anche la valutazione dei problemi, ricordiamo che il DSM è la bibbia per gli psicometrici di come
il rapporto tra i costrutti misurati in laboratorio nella ricerca siano collegati in ambito clinico. Si è arrivato a
parlare della necessità dei non test factors, cioè dare valore ai dati ottenuti al di fuori della consegna dei
test. Nell’approccio statistico psicometrico i non test factors sono considerati una forma esterna e non
voluta di varianza che svia e distorce le conclusioni, invece nell’ambito clinico si tendono a capire di pù
questi fattori perché forniscono informazioni ritenute significative per la valutazione diagnostica

v Non-test factors

il testista ha sempre un ruolo facilitante o inibente rispetto al bambino: questo avviene anche quando sono
rispettate tutte le regole previste dal manuale del test,in conseguenza di piccoli messaggi verbali e non che
continuamente vengono scambiati tra bambino e operatore (a livello di mimica attivazione motoria globale,
tono della voce, sguardo e sue caratteristiche e via dicendo). (Chiappedi 2009 p. 70)

Ogni performance intesa come risultato di un test deve ... essere criticamente esaminata e interpretata con
giudizio da uno che abbia insight ed esperienza sufficienti per dare all'interpretazione il peso della sua
autorità, quindi è possibile contestualizzare i risultati di un test anche in base alla propria esperienza
professionale o capacità senza dover distorcere i risultati perché in questo caso si distorcerebbe la diagnosi.
I risultati dell'osservazione, del test e della misura sono il problema della diagnosi clinica. Il giudizio del
diagnosta in psicologia clinica comincia a operare laddove psicometristi e testisti di gruppo smettono la loro
funzione. (citato da N. Tallent, 1992, p. 98)

Ad es. nella pratica clinica ci sono evidenze che i bambini tendono ad avere prestazioni molto diverse a
seconda di numerosi fattori, il ruolo di condizioni come la stanchezza, la fame, sonnolenza, specie nei
soggetti più piccoli è evidente, e in qualsiasi osservazione questa costituisce una motivazione valida per
rimandare i fattori del test, inoltre ci sono dei fattori relazionali riguardanti l’incontro tra il bambino e lo
psicologo o testista che dovrebbe rendere conto delle storie personali di quel momento della loro vita e
non è mai sufficiente il tempo impiegato a costruire un clima di buona collaborazione tra paziente o
soggetto e chi somministra il test. Bisogna prendere in considerazione l’atteggiamento del bambino e la sua
disponibilità alla relazione terapeutica, stato di umore, motivazione ecc. questi fattori devono essere
sempre esplicitati in seguito alla valutazione del dato numerico.

La prima versione di questo test per il calcolo del quoziente di sviluppo risale al 1954 ed è poi stato rivisto
negli anni 70 con l’aggiunta di norme che coprissero il periodo di vita dal terzo anno fino agli otto anni di
età, è molto usato in Europa e Italia, si sviluppa su 5 scale e ciascuna delle prime cinque scale per ciascun
anno sono fornite di 24 items, quindi 2 al mese. Si ottiene in questo caso un profilo dello sviluppo del
bambino che può essere utilizzato per programmare eventuali successive valutazioni in modo più mirato,
addirittura mese per mese e accanto a questo risultato i principali vantaggi sono costituiti dalla
esplorazione almeno a livello di base delle diverse aree funzionali e dal fatto che è possibile ripetere il test
senza particolari problemi di apprendimmento della prova. (sappiamo che le minacce interne ad una ricerca
hanno a che fare con la misurazione e in particolare il training). Il rischio di problemi legati al training,( cioè
alla distorsione dei risultati dovuta al fatto che il bambino abbia imparato a rispondere al test), sono
limitati. Nonostante ciò ci sono criticità collegate alla scarsa utilità per bambini oltre i 4 o 5 anni, quindi più i
bambini crescono meno diventa utile la valutazione ottenuta da questa scala, inoltre ha una scarsa
predittività rispetto ai risultati scolastici e questa è una questione relativa a tutti i test legati allo sviluppo
laddove si identifichino delle aree in cui ci sono ritardi o necessità di approfondimento di alcuni esiti,
bisogna comunque utilizzare test mirati e specifici per avere risultati più coerenti rispetto ai deficit ottenuti
su singole scale di questo test.

Nella revisione della scala Binet Simon curata da Terman fu introdotto il QI determinato da rapporto tra
età mentale e cronologica e Otis, un allievo di Terman sviluppò il test di intelligenza collettivo, l’uso dei
quesiti a scelta multipla e il passaggio alla concezione di abilità mentale ovvero la qualità mentale innata
che si amplia con l’avanzare dell’età fino al raggiungimento massimo della maturità intellettiva. Otis è stato
parte del gruppo che ha ideato i test army alfa e army beta famosissimi perché utilizzati dall’esercito
statunitense durante la prima guerra mondiale, l’utilizzo dei test nelle forze armate è sempre stato molto
diffuso e ha determinato le somministrazioni più estese e le standardizzazione di campioni più
numericamente elevate. Lo scopo di questo autore come di Binet e di Simon era di misurare le abilità
generali del soggetto attraverso una serie di compiti e di prove testistiche.

Annosa controversia fra psicologi inglesi e americani circa il numero delle dimensioni dell'intelligenza
Spearman [1904; 1923; 1927] postula l'esistenza di un fattore generale d'intelligenza, denominato «fattore
g», e, accanto a esso, alcuni fattori specifici, indicati come «s1, s2 , s3 ... »

Thurstone (1931) ritiene l'intelligenza un costrutto multidimensionale, quindi un insieme di eterogenee


abilità primarie indipendenti fra loro. Pur avendo individuato con i sui studi l’esistenza di 12 di queste
abilità, soltanto 7 sono state confermate da studi successivi e, attualmente, vengono denominate Primary
Mental Abilities (PMAs):

Comprensione verbale Fluenza verbale

Capacità numerica Capacità spaziale

Memoria associativa Velocità percettiva

Ragionamento induttivo

Secondo questo schema nel 1938 Thurstone progettò il primo test di Abilità mentali primarie, costituito da
7 subtest, ciascuno dei quali consentiva di misurare una particolare capacità.

Secondo Piaget le componenti fondamentali del costrutto di intelligenza sono degli schemi, definiti come
pattern o percorsi comportamentali o strutture mentali organizzate che consentono di individuare la
modalità più efficace per eseguire un compito con successo, al centro di ciò c’è il concetto di assimilazione
che consiste nell’applicazione di uno schema a una persona o oggetto o evento e se lo schema funziona
correttamente si ha l’equilibrio, viceversa si ha il disequilibrio, uno stato di tensione dinamica in cui il
soggetto è spinto a compiere aggiustamenti sullo schema stesso per renderlo funzionale (processo di
accomodamento o equilibrazione) . Queste strutture mentali si evolvono nella direzione di una crescente
maturità, mediante il processo di equilibrazione.

La famosa teoria delle intelligenze multiple proposta da Gardner è di tipo multifattoriale ed è costruita
partendo dallo studio delle relazioni cervello/comportamento. In questa prospettiva coesistono diverse
forme di intelligenza, tra loro relativamente indipendenti, ma non è possibile affermarne in maniera
definitiva la natura e il numero. Quelle meglio definite, e per questo più autonome anche ontologicamente,
sono: linguistica, logico-matematica e spaziale (le tre più note), musicale, corporeo-cinestesica,
interpersonale e intrapersonale (le quattro più innovative proposte dall'autore). (1983; 1993)

Negli ultimi anni, soprattutto nei paesi anglosassoni, America in particolare è cresciuto l’interesse per
l’utilizzo di strumenti non verbali per la valutazione delle abilità cognitive.

I termini attualmente impiegati per indicare una valutazione psicologica non verbale sono diversi: alcune
volte si parla di valutazione non verbale, altre volte di valutazione cognitiva non verbale, altre ancora di
Scale non verbali e/o di somministrazione di test non verbali. (Lang, 2008)
L'espressione valutazione non verbale può essere riferita sia alla somministrazione di un test in cui al
soggetto e all’esaminatore è richiesto di non usare il linguaggio recettivo ed espressivo, sia alla
somministrazione di test non verbali dando delle consegne verbali: "In effetti, la maggior parte dei test non
verbali è descritta nei termini di strumenti nei quali l'impiego del linguaggio è ridotto, spesso però si ricorre
invece a consegne verbali anche lunghe e complicate” (McCallum, 2003, p. 3).

Una classificazione dei test non verbali si basa sul format di presentazione degli stimoli:

test di performance che usano per i loro compiti materiali concreti e richiedono che il soggetto risponda in
maniera non verbale, ma le istruzioni sono date oralmente

test non linguistici che sono completamente non verbali sia nelle istruzioni, sia nei contenuti, sia nelle
risposte e valutano le abilità collegate al pensieroanalogico, alla formulazione di categorie e al
ragionamento sequenziale come ad esempio le matrici di Raven

Vengono a volte anche utilizzati con soggetti con particolari disabilità o difficoltà di apprendimento (oltre
che alla popolazione non anglofona). Si usano quindi per soggetti eterogenei e nascono per colmare gap
dovuti a una scarsa padronanza della lingua. Questi test hanno un bias di fondo dovuto all’idea che sia
possibile superare l’idea di una diversa cultura di riferimento aggirando semplicemente il problema
linguistico, naturalmente ci sono diversi studi sulla tipologia di valutazione non discriminante che hanno
dimostrato che i modi in cui il linguaggio e la cultura possono interferire nella valutazione non sono stati
superati in molti casi. Anche la semplice traduzione nella lingua nativa del soggetto non implica
un’aderenza ai suoi schemi culturali, infatti linguaggio e cultura sono solo parzialmente sovrapponibili così
come dice anche Cohen e per costruire un test libero dalle influenze culturali non bastano i test con prove
non verbali, occorre predisporre dei test che richiedano processi di pensiero tipici della cultura di
appartenenza.E trovare reattivi totalmente culture free corrisponde al pensare al test non più come un
insieme di prove supposte libere da influenze culturali ma come costituito da prove comuni a culture e
subculture diverse. L’ambito di ricerca in questo campo è molto complicato e si è sviluppato solo negli
ultimi 20 anni. L’army alfa e l’army beta che abbiamo precedentemente citato sono stati i primi test il cui
contenuto (nell’alfa) è simile a quello della Stanford-Binet per soggetti che sapevano scrivere e leggere
mentre la beta era una scala non verbale somministrata ai soggetti non capaci di leggere mentre per l’alfa
esiste una taratura italiana, per l’army beta non esiste.

Un’altra classificazione dei test non verbali si basa sulla complessità e sul numero delle prove previste:

- test unidimensionali sono brevi, composti da pochi subtest e tendono a sacrificare il grado di accuratezza
clinica in favore della rapidità e del risparmio di tempo e di conseguenza si possono utilizzare solo per uno
screening iniziale. Prevedono esclusivamente prove non verbali (solitamente matrici), che rappresentano
un aspetto parziale delle molteplici sfaccettature del costrutto: valutano alcune abilità cognitive ristrette
trascurando la valutazione di altre abilità importanti, come ad esempio la memoria.

- I test multidimensionali (chiamati anche high stakes – ad alta scommessa) sono batterie e sono formati da
più subtest, diversamente combinati tra loro e permettono di ottenere diversi punteggi: di solito alcuni
parziali e un punteggio globale, definito "scala totale", "scala generale" o "abilità ampia misurata". Hanno
buone proprietà psicometriche e sono spesso utilizzati per pianificare interventi educativi.

Svantaggi dei reattivi non verbali per la valutazione dell’intelligenza:


- Permanenza di un minimo di istruzione orale, sebbene l’uso degli stimoli verbali è praticamente eliminato,
nella pratica dei test viene utilizzata una qualche istruzione orale anche se l’esaminando deve sempre
rispondere in maniera non verbale

- Livello di rappresentatività del costrutto misurato da questi strumenti.

Questi test possono essere considerati stime attendibili del costrutto generale di Spearman oppure
possono essere considerati come competenze cognitive non mediate dal linguaggio, questo è un vero e
proprio problema teorico concettuale, stiamo misurando una competenza cognitiva che è differente da
quella mediata dal linguaggio o stiamo misurando semplicemente il costrutto dell’intelligenza in un altro
modo? Da una parte di questa diatriba abbiamo coloro che sostengono i processi cognitivi non verbali
come differenti e complementari da quelli verbali, ad esempio Urke, dall’altro abbiamo ad es. McCallum
che invece dice che i test principali non verbali misurano le abilità cognitive generali del soggetto. Questa
seconda proposizione teorica secondo cui i processi cognitivi sono in gran parte indipendenti dal linguaggio
ha acquisito in questi ultimi anni sempre più credito grazie ad alcuni risultati di studi di analisi fattoriale che
non indicano una dicotomia tra verbale e non verbale.

CTONI - Comprehensive Test Of Non-verbal lntelligence

(D.D. Hammill, N.A. Pearson, J.L. Wiederholt, 1996)

è una batteria di 6 subtest che misurano diverse abilità intellettive non verbali in correlazione tra loro. Può
essere somministrato a soggetti dai 6 fino ai 90 anni di età e viene pubblicato per la prima volta nel 1996
dalla casa editrice PROED. In questo test stimoli, regole di somministrazione e scoring sono stati dati in
modo orale o tramite pantomima, gesti, in base a quello che l’esaminatore pensa sia il metodo più
appropriato,

• il test dovrebbe valutare 3 tipi di abilità intellettive: il pensiero analogico,la formulazione delle categorie e
il ragionamento sequenziale;

• le abilità dovrebbero essere misurate in contesti aventi sia illustrazioni di oggetti sia figure geometriche.
Scoring e lettura dei risultati:

Il CTONI prevede il calcolo di 3 quozienti, che si ottengono sommando i punteggi

ottenuti ai subtest:

q Quoziente di Intelligenza Non Verbale (QINV).

q Quoziente di Intelligenza Non Verbale con Illustrazioni di Oggetti (QINV-IO).

q Quoziente di Intelligenza Non Verbale con Figure Geometriche (QINVFG).

Il CTONI è composto da 6 subtest che devono essere presentati nel seguente ordine:

1. Analogie di illustrazioni (subtest 1) e Analogie di figure geometriche (subtest 2); senza fare un uso
manifesto di parole, si richiede che il soggetto sia in grado di capire la relazione "Questo sta a quello (le due
caselle superiori della matrice) come questo sta a ... cosa (le due caselle inferiori)?". L'esaminando risponde
indicando uno degli item da scegliere (alternative a risposta multipla) e da inserire nella casella vuota.
2. Categorie di illustrazioni (subtest 3) e Categorie di figure geometriche (subtest 4); senza usare il
linguaggio, !'esaminando deve intuire il nesso esistente tra le due figure-stimolo superiori e scegliere, tra gli
item proposti, quello che appartiene alla stessa categoria. L' esaminando deve stabilire quale, tra questi, sia
connesso a quelli.

3. Sequenze di illustrazioni (subtest 5) e Sequenze di figure geometriche (subtest 6); il clinico mostra una
serie di caselle ognuna delle quali contiene illustrazioni diverse, ma legate tra loro da un nesso sequenziale;
l'ultima casella è vuota. Il soggetto indica tra una serie di item (scelta multipla) quello corretto per
completare la serie progressiva. Senza usare parole, l'esaminando deve decidere quale sia la regola alla
base della progressività delle illustrazioni. Ogni subtest prevede 25 item. La sola modalità di risposta
accettata è quella per cui !'esaminando sceglie all'interno di alternative proposte la risposta corretta e la
indica. Non sono richieste né ammesse risposte verbali, scritte o che prevedono una qualche forma di
manipolazione del materiale più complessa e articolata.Il tempo previsto per la somministrazione
dell'intera batteria varia tra i 40 e i 60 minuti. Nonesiste un limite di durata obbligatorio, ma i singoli
subtest richiedono raramente più di 5-10 minuti di tempo per essere somministrati. È prevista una
somministrazione soltanto individuale.

Il CTONI mostra un buon livello di attendibilità, che si mantiene considerevolmente alto nei confronti delle
3 fonti di errore considerate:

1. campionatura del contenuto del test sia rispetto alla popolazione generale che per sottogruppi e
minoranze etniche.

2. campionatura sui tempi (coefficienti del test-retest superiori a .80)

3. concordanza tra esaminatori inter rater (indici di concordanza variabili tra .95 e .99).

- La validità di costrutto è stata valutata secondo la procedura proposta da N.E. Gronlund e R.L. Linn (1990),
che prevede la formulazione di ipotesi teoriche accertate tramite metodi logici o empirici

- Validità di criterio: Gli studi che hanno messo in correlazione lo strumento con altri test criteriali (la WISC-
III; il TONI-2: Test of Nonverbal Intelligence di L. Brown et al. e il PPVT-R: Peabody Picture Vocabulary test-
Revised di L.M. Dunn et al.) forniscono solo un moderato supporto rispetto alla validità concorrente del
test: paradossalmente, i tre punteggi del CTONI sembrano correlare di più con i QI verbali della WISC-III
(.59, .56 e .76) che con i QI di performance (.51, .55 e .70).

La valutazione dell’impossibilità di ottenere una completa separazione di cultura e linguaggio fa si che i test
culture reduced e test non verbali in generale siano a volte sovrapposti.

Per ovviare alle problematiche di questi test si è spesso invocata la costruzione di test legati a culture
peculiari. Uno di questi tentativi è stato effettuato con il Black Intelligence Test of Cultural Homogeneity
(BITCH) è un test di vocabolario sviluppato da Williams nel 1972 ed è composto da espressioni
afroamericane usate all’interno del test di intelligenza. La scarsa adozione di questo tipo di test è dovuto
anche ai problemi legati ai test culture specific che principalmente sono rappresentati dalla estrema risorsa
necessarie per sviluppare un reattivo culture specific che poi è limitato nella propria applicazione
semplicemente a quella specifica cultura. Sarebbe più economica una revisione di test esistenti.

Effetto Flynn: Ci sono diverse ipotesi, innanzitutto questo effetto è più elevato nei test che misurano
l’intelligenza fluida rispetto a quelli di intelligenza cristallizzata e Flynn pensò che si trattasse di un
fenomeno interculturale. Questo fenomeno fu rilevato negli anni 80 dello scorso secolo e inizialmente si
osservò nei paesi occidentali. La popolazione statunitense guadagnò 13 punti dal 1938 al 1984, l’intensità di
questo aumento era diversa da paese a paese ma l’aumento era effettivo in diversi paesi da un minimo di 5
a un massimo di 25 punti. Tra le varie ipotesi: miglioramento dell’alimentazione, crescita degli anni di
scolarizzazione e la capacità di risolvere dei problemi logici astratti molto più frequenti nell’ambiente
socioculturale odierno. Negli anni 2000 alcuni paesi sviluppati hanno mostrato che questa tendenza si sta
invertendo con valori medi di QI inferiori rispetto a quelli rilevati molti anni addietro, mentre questo effetto
Flynn continua a persistere anche dove la media nazionale del QI è ancora bassa.
L’effetto Flynn è dipendente dalla cultura di riferimento: Falso: è considerato indipendente

TEST DI PERFORMANCE TIPICA: DETTI ANCHE TEST DI PERSONALITA’

Possono essere obiettivi, proiettivi e di atteggiamento

I test obiettivi sono costruiti su principi omologhi ai test di rendimento, quindi con prove o domande le cui
risposte vengono dapprima quantitativamente conteggiate e poi qualitativamente valutate e sono costituiti
da item con risposta chiusa. La distinzione da tenere presente è quella tra test di misurazione della
personalità nella sua globalità o in qualche sua dimensione (come possono essere i test di dominanza,
sottomissione, introversione, estroversione, allo scopo di riferirla poi a una classificazione o a una tipologia,
in questo caso i dati a differenza di quanto avviene nei test di rendimento, sono sottoposti a una
interpretazione di tipo qualitativo e quantitativo, a questa categoria fanno riferimento diversi metodi
studiati per trattare le difficoltà collegate alla costruzione delle invarianti di personalità incluse le rating
scales, che differentamente dai questionari di personalità non puntano ad individuare le caratteristiche
costitutive di personalità ma a valutare la sintomatologia clinica anche in base a quella che può essere la
definizione nosografica e alle mutazioni e trasformazione nel corso del tempo, per questo ci sono alcuni
metodi diversi per la costruzione di uno strumento di misurazione di questo tipo, ad esempio la costruzione
empirica ovvero la validazione empirica del reattivo che si serve della frequenza delle risposte dei gruppi di
riferimento, costituiti da soggetti che rappresentano le caratteristiche o i sintomi che si intendono
analizzare, in questo caso lo strumento diviene discriminatorio tra i gruppi normali e patologici e la
standardizzazione ottenuta dal campione della popolazione di riferimento permette di trasformare i
punteggi grezzi ottenuti dal campione in punteggi ponderati con confronti tra punteggio grezzo, punti z
punti t, percentili ecc. Tra questi test troviamo:

§ MMPI (Minnesota Multiphasic Personality Inventory) – (Metodo della costruzione empirica) inventario
che indica un questionario descrittivo perché rientra in questa categoria che prende in esame i tratti
patologici della personalità mediante il confronto tra risposte dei soggetti esaminati e quelle dei pazienti
affetti da diversi tipi di disturbi mentali tenendo presente tre obiettivi principali: il raggiungimento di una
campionatura di comportamento significativa per lo psichiatra, la massimizzazione della presentazione
attraverso la semplificazione linguistica e poi la creazione di un repertorio di items molto ampio per
estendere un ventaglio di descrizioni di personalità valide.

Il test Mmpi è un reattivo patologico:

Vero: indaga alcune patologie

MMPI e successive versioni controllano la presenza di distorsioni nelle risposte attraverso la scala L Lie
(menzogna) che intercetta le distorsioni ovvero le tendenze dei partecipanti a esagerare gli aspetti positivi
di personalità o diminuirne quelli negativi, diversamente l’altro modo di evitare questa distorsione è la
predisposizione di item cosiddetti ovvi connessi semanticamente in modo ovvio alle variabili di interesse e
ci sono anche quesiti più sottili che sono definiti quesiti di controllo. Ad esempio il questionario di Cattel
adotta questa tipologia di intercettazione delle menzogne o tentativi di acquiescenza:

§ Cattell test 16 PF – rappresenta un ulteriore metodo che prevede un maggior numero di dimensioni di
portata più specifica ma meno generalizzabili perché utilizza l’analisi fattoriale che consente di costruire
insiemi che codificano un determinato tratto o una funzione mentale in rapporto alle corrispettive
correlazioni. Seguendo la scuola fattorialista che è alternativa a quella empirica, si considera un numero
significativo di supposte manifestazioni di capacità mentali e si calcola per ognuna il coefficiente di
correlazione con tutte le altre. L’idea alla base di questo approccio è che ogni tratto psicologico rilevante è
riconducibile a strutture latenti che rappresentano le componenti fondamentali della personalità.

Tra i test obiettivi di personalità possiamo anche annoverare il big 5 questionnaire con fondamenti teorici
basati sull’integrazione di 2 approcci: l’approccio fattoriale (differenze individuali attraverso analisi
statistiche fattoriali) ma anche a quello della sedimentazione linguistica elaborato da Cattel (teoria che
considera il vocabolario della lingua quotidiana come un serbatoio di descrittori delle differenze
individuali). I vantaggi principali di questo test comprendono l’economicità e la praticità, infatti quando fu
somministrato la prima volta in Inghilterra nel 1990 i partecipanti rimasero molto sorpresi e anche un po’
scettici rispetto alla velocità della qualificazione della personalità conclusa in circa 10 – 15 minuti. Il big5 è
un tentativo di unificazione tra diversi punti di vista. Individua 5 dimensioni fondamentali per la descrizione
e valutazione della personalità che si pongono a un livello di generalità di livello intermedio rispetto ai
modelli che fanno riferimento a poche dimensioni estremamente generali come l’ Eysenck Personality
Inventory e rispetto a modelli che prevedono un maggior numero di dimensioni di portata più specifica
come il 16 pf. Tra i fattori individuati abbiamo l’estroversione: disposizione a fare esperienza di stati emotivi
positivi di avere fiducia e sicurezza anche in un contesto sociale e sentirsi bene riguardo a se stesso e il
mondo globale. Gli individui con alti livelli su questo tratto sono più socievoli e socialmente aperti, e ha
qualcosa a che vedere con l’apertura mentale che è un’altra delle dimensioni, il nevroticismo invece
rappresenta la tendenza a fare esperienza di stati emotivi negativi e percezioni emotive di se stesso sul
piano dell’ansia, della vulnerabilità e della conoscenza di se e individui con alti livelli su questo tratto sono
caratterizzati da un umore negativo e da stress. Questi sono i due poli del primo fattore che è energia ed
estroversione, ciascuno di questi 5 grandi fattori ha 2 macrodimensioni e poi ci sono delle sottodimensioni.
Abbiamo anche il concetto di coscenziosità che rappresenta la tendenza ad essere cauti, attenti e
meticolosi, organizzati e strutturati nei comportamenti e talvolta questa coscienziosità è vista anche in
relazione al nevroticismo però in questo caso è separata, questa coscienziosità include anche la dimensione
di quando un individuo internalizza i valori morali e le regole della società, differentemente l’apertura
mentale rappresenta la tendenza ad essere aperti a una varietà di esperienze ed essere creativo e anche
molto disponibile al cambiamento. Per ognuno dei big 5 vengono individuate 2 sottodimensioni, ciascuna fa
riferimento a diversi aspetti della medesima dimensione e per ogni sottodimensione la metà delle
affermazioni è formulata in senso positivo rispetto a quelle che sono la denominazioni della scala mentre
l’altra metà è formulata in senso negativo per controllare eventuali risposte date a caso come quando si
risponde sempre con lo stesso livello per concludere velocemente. Consta di 132 item e 10
sottodimensioni.

§ EPI (Eysenck Personality Inventory) – Metodo del

modello teorico

§ EPPS (Edwards Personal Preference Schedule) –

Metodo della correlazione per lo stile di risposta

Parlando di MMPI, negli anni in cui scoppiò la guerra mondiale si ebbe un grande impulso allo sviluppo dei
test non cognitivi e le nazioni in guerra avevano la necessità di misurare in modo non cognitivo il
funzionamento delle reclute per esaminare più individui possibile e scartare le persone con problematiche
psichiatriche. Il test MMPI parte dal presupposto che La personalità di un individuo è definita come un
insieme relativamente stabile e distintivo di comportamenti, pensieri e sentimenti che lo caratterizzano e
che influenzano le sue interazioni con l'ambiente. (Ercolani 2007 p. 68)

Il test MMPI (Minnesota Multifactor Personality Inventory),ha buone proprietà psicometriche, è il più
utilizzato (circa 500 riferimenti ad esso consultando PsychLit) e forse più abusato nella pratica clinica è, per
esempio, una scala a "banda larga" che pone l'enfasi sulla valutazione di sintomi e comportamenti
patologici che si articolano in un profilo su 10 dimensioni cliniche e su tre indici di controllo del bias di
risposta (si compone di 13 scale che valutano (tra l' altro), la Depressione, la mascolinità-femminilità. la
Schizofrenia e la tendenza a dare un'immagine favorevole di se scala Lie).

Il MMPI-2 (dopo l’intervento di un team di esperti per rivedere MMPI 1 che aveva come fondamento un
campione normativo di individui caucasici bianchi che frequentavano un ospedale del Minnesota, campione
non rappresentativo per la popolazione generale americana con le sue minoranze. Erano inoltre presenti
molte influenze culturali derivanti dalla religione e tradizione caucasica americana) è un questionario di
personalità autosomministrato composto da 567 item dal contenuto eterogeneo, che prevede risposte
dicotomiche del tipo Vero/Falso. Esso costituisce la revisione aggiornata e ristandardizzata di uno dei
questionari di personalità più diffusi e utilizzati nell' assessment clinico e psichiatrico, il Minnesota
Multiphasic Personality lnventory (MMPI; S.R. Hathaway, J.C. McKinley, 1940, 1942). I risultati di diverse
indagini (W.J. Camara et al., 2000) indicano, infatti, che il MMPI/MMPI-2 è il test di personalitàpiù
frequentemente utilizzato dagli psicologi clinici (86%), il secondo in uso dopo la WAIS-R (94%).

MMPl-2: i motivi della revisione

1. Adeguatezza del campione di standardizzazione originale

2. Linguaggio e i riferimenti contenuti negli item

3. Esigua numerosità del set originale degli item

Ci si è accorti di questi problemi perché i risultati del questionario non permettevano una formulazione di
diagnosi valida in tutti i casi, in alcune situazione diventava inutile e i punteggi ottenuti dalle scale cliniche
non rappresentavano misure pure delle sindromi indicate dalle scale, quindi una revisione degli item aveva
una necessità primaria perché riduceva la possibilità di ottenere un singolo punteggio elevato su un’unica
scala. Sono inoltre stati sostituiti item obsoleti, offensivi e di difficile comprensione ed elaborazione,
ottenere dati normativi più recenti fondati su un campione che fosse realmente rappresentativo della
popolazione degli Stati Uniti nel modo più ampio possibile e mantenere una continuità con le scale cliniche
originali perché non si voleva perdere ciò che è stato fatto nella ricerca precedente.

TEST PROIETTIVI

L’altra suddivisione dei test di personalità:

I test proiettivi sono idonei all’indagine dei processi inconsci,ma non sono facilmente assoggettabili ad una
generalizzazione delle risposte entro schemi prefissati e quindi conteggiabili.

Si basano sull’ambiguità dello stimolo fornito e la molteplicità delle risposte possibili, non sottoposte al
giudizio vero/falso, giusto/sbagliato; Le risposte non sono predeterminate ma sono create in autonomia dal
rispondente e si richiede una interpretazione della prova che, a differenza delle tecniche psicometriche,
non esclude un rapporto interpersonale con l’esaminatore.

Questo è sia un punto di forza che di debolezza perché il soggetto è in grado di rispondere in maniera libera
e proiettare (secondo la teoria del subconscio) ciò che ha dentro di sé ed esprimerlo in modo più efficace,
ma è pur vero che abbiamo una interpretazione e rapporto con l’esaminatore che potrebbe indurre
distorsioni laddove questi test non sono completamente strutturati perché la risposta non è di tipo chiuso.
Raccomandazione: Non confondere mai la dicitura “non rigidamente strutturati” con “non standardizzati”la
prima vuol dire che abbiamo un questionario con risposte non predeterminate, la seconda vuol dire che
non ci sono procedure uguali per tutti, affermazione che per i test proiettivi non è vera perché come tutti
gli altri test hanno le loro modalità di somministrazione.

Altro punto di vantaggio: si fa appello alla produzione immaginativa e si ha accesso anche a istanze di cui il
soggetto è inconsapevole. Il più conosciuto di questi tere è il Rorschach presentato ufficialmente nel 1921
che parte dal concetto che le risposte a 10 macchie accidentali e simmetriche, suggestive e ambigue avesse
potuto dare un quadro dellastruttura di personalità. È ritenuto, malgrado le varie criticità, il più attendibile
a livello internazionale. Questo test non è stato elaborato su una determinata teoria della personalità
(come invece è avvenuto per il Thematic Apperception Test), ma è stato promosso come un metodo
esplorativo per studiare l’associazione tra percezione e personalità a partire dall’osservazione empirica che
i pazienti schizofrenici parevano percepire queste macchie in modo differente dai soggetti non clinici. I
tratti di personalità colti dal Rorschach possono essere suddivisi in 3 dimensioni:

1 aspetti cognitivi e intellettuali

2 aspetti emotivi o affettivi

3 aspetti del funzionamento dell’ego

Rorschach non completò personalmente il manuale di siglatura del test, altri autori e scuole hanno
ampliato e sviluppato queste tecniche.

Il TAT è un test proiettivo molto impiegato per la rilevazione della personalità attraverso le tematiche
basilari come emozioni, sentimenti, vissuti affettivi profondi, processi cognitivi complessi e elaborazioni
immaginative dell’individuo. Per la prima volta venne presentato nel 1935 da Murray col termine
“appercezione” per evidenziare che i soggetti interpretano lo stimolo in base ai loro tratti di personalità ed
esperienze di vita. La personalità in questo caso viene intesa come la conoscenza dell’assortimento dei
bisogni che in modo diverso incidono sullo sviluppo di essa.

Le tavole sono a colori e per questo sono più gradite ai soggetti, il test ha 2 forme parallele che lo rendono
più utile e interessante per gli operatori

I test proiettivi non sono standardizzati: Falso, tutti i test psicometrici sono standardizzati

Altro test proiettivo: Il Blacky Pictures test –

Gerald Blum (1949) valuta le varie componenti di competenza psicoanalitica e per convalidare
sperimentalmente i concetti della teoria freudiana classica: i conflitti psichici, meccanismi di difesa e
sviluppo psicosessuale. Il soggetto in questo caso è chiamato ad arricchire degli stimoli ambigui ma più o
meno strutturati. Agli stessi stimoli vengono attribuiti contenuti diversi. Sia nel Blacky Pictures che nel CAT
(Children Apperception Test), gli stimoli hanno forma di animali antropizzati. Il Blacky si compone di 11
tavole raffiguranti scene in cui compaiono Blacky, un cagnolino nero e la sua famiglia composta da madre,
padre e Tippy, una figura da età e sesso imprecisate. I personaggi sono cani e non esseri umani per facilitare
la libera espressione ed evitare una resistenza di tipo inibitorio dovuto a immagini umane più familiari. Le
critiche a questo test sono state molteplici per le rappresentazioni a volte grottesche delle azioni descritte.
Ad esempio il cane che mastica lo spago dovrebbe rappresentare il sadismo orale o le azioni di Blacky
tendenti all’aggressività alla vista dei genitori che si tengono per mano (sintomo dell’inizio del complesso di
Edipo). La somministrazione è di tipo individuale. La tavola n.1 viene presentata con la dicitura:Qui c’è
Blacky con mamma, propone la situazione duale relativa ai problemi di dipendenza primaria nella
situazione di allattamento e dovrebbe mobilitare risposte che indichino teorie della pulsione come
“erotismo orale” e presenza e qualità della simbiosi come una lettura relazionale.

La somministrazione di questo test richiede 3 diversi momenti:

1 Racconto spontaneo: prodotto liberamente dal soggetto dopo ogni singola tavola presentata
dall’esaminatore, tutto ciò preceduto da una breve consegna iniziale, e poi per ciascuna tavola viene
presentata una frase come quella già vista su Blacky e la mamma
2 Inchiesta: una serie di domande strutturate a scelta multipla proposte per ogni tavola a seguito del
racconto spontaneo per poter indagare gli stati d’animo che il paziente attribuisce ai suoi personaggi. Ad
es. nella tavola 4 una domanda potrebbe essere: Cosa prova Blacky nel vederla amoreggiare? Perché? Cosa
rende infelice Blacky?

3 Preferenza per le vignette: la categorizzazione delle tavole in 2 gruppi a seconda delle preferenze del
soggetto. Quelle che piacciono di più e di meno e si verifica se la preferenza è più o meno discrepante con i
racconti spontanei e le risposte alle domande. Questa operazione secondo Blum ha lo scopo di riflettere ciò
che non è accessibile alle coscienze e possa far luce attraverso la sua struttura difensiva. Le debolezze di
questo test fanno riferimento alle stesse debolezze degli altri test proiettivi.

Sono stati fatti studi sulla sua validità di contenuto per capire quanto gli item dei test proiettivi
rappresentino il comportamento e il costrutto che il test vorrebbe valutare e si è indagato anche
sull’appropriatezza delle induzioni che si fanno a partire dai punteggi di questo tipo di test. Le ricerche non
hanno trovato esiti soddisfacenti per la possibilità di interpretazioni plurime delle risposte e la
contaminazione tra i risultati del test e informazioni acquisite da altre fonti, cosa che implica che il
somministratore possa inquinare i risultati del test.
MODULO 2

Processo di esplorazione dei dati EDA= Exploratory data analysis (analisi dei dati esploativi)

EDA 1: Si ha una questione scientifica e da questa pensare a una ipotesi nulla o alternativa oppure prendere
degli elementi descrittivi con cui fare delle correlazioni, da qui si può arrivare ad esperimenti fatti
attraverso un campione estratto da una popolazione, da qui si ricavano delle statistiche (medie, deviazioni
standard ecc) e da queste si fa un test delle ipotesi per conoscere la significatività statistica.

EDA 2: Le concezioni si complicano di molto allorché si devono tenere in considerazione come le varie
domande di ricerca possono portare a modelli di analisi diverse e come sia anche necessario utilizzare dei
modelli di misura per ottenere dati più coerenti e rappresentativi delle relazioni tra variabili rilevate.

Enrico Bombieri: Quando le cose diventano troppo complicate bisogna chiedersi: ho posto la domanda
giusta?

Le domande di ricerca o questioni e problemi che rileviamo nella quotidianità e ci spingono a cercare
spiegazioni devono essere sviluppate nel modo più semplice possibile.

Le domande di ricerca sono il primo punto del processo di pianificazione della ricerca.

Il processo di pianificazione della ricerca, il disegno della ricerca è molto faticoso, logorante e spesso
provoca ansia. Inventarsi di volta in volta una ipotesi di spiegazione della realtà è un processo creativo che
non è così lineare e semplice come può sembrare. Tutto ciò che è creativo pone sempre una sfida nuova,
ma lo sforzo maggiore profuso in questa fase di solito ripaga nelle fasi seguenti.

• Le domande di ricerca possono essere sia esplorative, in un settore ad es. che non è molto conosciuto e
che magari è derivante da nuove scoperte, come ad es. i neuroni specchio, che pongono nuove domande
(pilota,descrittive/conoscitive, aperte, open-ended) che di conferma (test di ipotesi o di modelli teorici) in
questo caso ci si chiede se un modello teorico o delle ipotesi da esso derivanti sono predittive e
confermano quanto previsto dal modello .

• Per individuare la letteratura pertinente è possibile utilizzare diversi database, ma è anche vero che
spesso i professionisti del campo, es, psicologi o docenti, si accorgono di nuove problematiche meglio di un
ricercatore che osserva in maniera asettica senza essere calato in quella realtà.

• Il processo di pianificazione è interattivo: il feedback da parte dei colleghi, e i propri pensieri secondari,
significano che è usuale fare proposte attraverso diverse bozze.Si crea un brainstrorming con i colleghi per
arrivare a una domanda di ricerca orientata al contesto della scoperta e alla ricerca di qualcosa di inusuale e
imprevisto

• In generale, la ricerca dovrebbe essere orientata alle domande piuttosto che ai metodi (spesso si fa
riferimento più ai metodi di analisi dei dati quantitativi e si imposta la ricerca più sul dato quantitativo che
all’opportunità migliore per rispondere a una domanda). L' essenza della pianificazione di una buona ricerca
è quella di rendere le procedure adatte alle domande, piuttosto che il contrario, appiattendo il processo sui
metodi di raccolta e di analisi dei dati.

Le domande di ricerca possono essere aperte e orientate alle scoperte e sono in genere le più appropriate
nelle seguenti circostanze:

• Quando un'area di ricerca è relativamente nuova o poco conosciuta, rendendo difficile o prematuro porre
domande più specifiche.

• Quando un' area di ricerca è confusa, contraddittoria o non sta producendo progressi significativi, spesso
ci sono ricerche con dei risultati contrastanti e non si riescono a trovare linee guida. Questo può essere
dovuto a una concettualizzazione troppo ristretta o a una quantificazione prematura antecedente alla
progettazione adeguata del lavoro descrittivo esplorativo.

• Quando l'argomento della domanda è un evento, processo o esperienza umana molto complesso, e
bisogna optare per una definizione o descrizione accurata.

Domande di ricerca specifiche sono adatte a strategie di analisi esplorative?

Falso: sono più adatte a temi già studiati e questioni circoscritte.

La seguente tabella è tratta da Psychometric Methods – Editore Guilford, libro molto interessante che
combina diverse parti di ricerca metodologica e analisi dei dati.

In questa tabella c’è una relazione tra Hypothesis testing e l’approccio esplorativo e ci sono 2 esempi di
come ad una stessa domanda si possa rispondere con un metodo diverso e come questo stesso tema possa
avere delle domande diverse. Nel primo esempio il contesto logico scientifico è determinato dal recupero
da abuso di alcol e la domanda che può avere risposta nell’approccio confermativo, quindi ipotetico
deduttivo è: il primo mese di sobrietà è il più difficile in termini di sintomi psicologici rispetto al sesto? Da
questa domanda poi si vanno a misurare quali sono i livelli dei sintomi al primo mese e dopo sei mesi si può
fare una analisi e test delle ipotesi per capire se c’è una differenza significativa tra le due misurazioni, nella
parte più esplorativa abbiamo invece un livello induttivo ( orientato più alla scoperta che alla conferma) e la
domanda in questo caso dovrebbe essere: Come si evolve l’esperienza della sobrietà nei primi sei mesi?
Questo approccio è più legato a una intenzione piuttosto che estensione della ricerca e si va a vedere come
le fasi di questa riabilitazione evolvono.

Altro esempio, preso da un articolo di Tiffany e altri si indaga sul cerotto per la nicotina. Nella parte più
confermativa che impiega il metodo ipotetico deduttivo la domanda è: indossare un cerotto alla nicotina
riduce la sensazione di craving quando un fumatore è esposto a un suggerimento al fumo? E in questo caso
si indaga la differenza tra un soggetto con o senza cerotto.
Nella parte più legata alla scoperta e più di tipo induttivo dovremmo chiedere qual è l’esperienza di
indossare un cerotto alla nicotina incluse emozioni, pensieri e percezioni. In questo caso stiamo andando in
profondità nell’analisi di tipo qualitativo e non stiamo semplicemente confrontando medie o livelli

In questo caso dal punto di vista teorico la struttura esplicativa determina anche quali sono i tipi di ipotesi e
il tipo di relazione tra le ipotesi dal punto di vista di una analisi su come la bassa autostima influenzi il
desiderio di sentirsi superiori a qualcuno e da questo ci sia un atteggiamento negativo verso le minoranze.
Questa è una spiegazione di una relazione tra costrutti che ha a che fare con una domanda iniziale dello
psicologo e infatti qua si dice che lo psicologo può predire o spera di dimostrare che esiste una relazione tra
due misure osservabili di eventi che sono: una cura della persona o educazione di tipo autoritario e l’altro
elemento osservabile è il comportamento discriminatorio verso membri di minoranze etniche. Vediamo che
dalle domande di ricerca possono derivare le strutture dei costrutti che sono costrutti chiave all’interno
della nostra ricerca e da questi costrutti si individuano quali sono i comportamenti osservabili che possono
essere legati a questi costrutti. Es, essere stati educati in maniera severa determina bassa autostimma e
questo dovrebbe poi portare ad avere una discriminazione verso le minoranze. Qui appunto vediamo che la
relazione teorica è qualcosa di più rispetto alle osservazioni delle variabili. A noi interessa il modello teorico
che permette di fare previsioni e spiegare il comportamento. Nel quadrato in basso vediamo le parti che
vengono comprese all’interno di un disegno della ricerca e le parti che compongono le sue fasi (il contesto
della scoperta e il contesto della giustificazione)
FONTI DELLA LETTERATURA SPECIALIZZATA

Abbiamo parlato di domande di ricerca e di come la costruzione dei costrutti sia importante per i cosiddetti
contesto della scoperta e contesto della giustificazione in cui si suddividono le 2 parti del disegno di ricerca.
Si è parlato dei principi generali della pratica della ricerca e adesso vedremo le modalità con cui si struttura
un disegno della ricerca.

La scelta del problema è la situazione più rilevante e determina tutto ciò che poi si sviluppa all’interno dei
nostri studi e tanti scienziati dedicano l’intera vita a un solo problema di ricerca. L’interesse per il campo di
ricerca aumenta o diminuisce anche in riferimento al trend più generale all’interno dell’area in cui si
effettuano gli studi e la domanda che abbiamo visto riguarda la scelta del progetto giusto. Le fonti di idee
possono essere diverse, le osservazioni quotidiane sono fonte di problemi pratici al cui sfondo possiamo
identificare delle questioni teoriche più rilevanti. Ciiascuno, a seconda della propria professionalità e delle
tematiche che affronta può identificare degli elementi che lo portino a scegliere una tematica piuttosto che
un’altra. Da questo deriva la domanda di ricerca. Prima di vedere come si prepara lo studio una volta scelta
la domanda di ricerca dobbiamo occuparci di due tendenze che stanno schiacciando l’ambito di ricerca
prettamente psicologico: da un lato le neuroscienze e dall’altro l’analisi dei big data.

Da una parte le neuroscienze spiegano ogni azione umana in termini di funzioni del cervello e dall’altra
abbiamo i big data, enormi database contenenti informazioni su milioni di soggetti raccolte attraverso
social media ma anche piattaforme di acquisti on line e di ricerca (come google) e i big data
presuppongono la possibilità di rendere computabile qualsiasi trend sociale e permettono di spiegare le
tendenze che si verificano nella società. Da una parte abbiamo la potenza di questi archivi sviluppati dai
colossi informatici che sicuramente rappresentano per le scienze sociali e del comportamento uno
strumento rilevante di analisi e dall’altra abbiamo il contesto più psicobiologico che appiattisce il ruolo della
mente all’interno delle nostre scelte, sensazioni ed emozioni. Duncan J Watts che è un fisico di formazione
che fa parte del team di lavoro del Microsoft research, anche se si presenta come sociologo afferma ad
esempio di essere in grado di spiegare attraverso un trattamento complesso dei network informativi
comme facebook e come twitter, social media e mezzi di informazione (come Cambridge Analytica, una
società di consulenza britannica divenuta celebre a seguito di uno scandalo connesso alla gestione dei dati)
da un lato abbiamo quindi i social media, dall’altro i contenuti veicolati attraverso i social media da profili
utenti individuabili dalle scelte dei soggetti e Watts afferma che è in grado di spiegare i cambiamenti di
opinione, il cosiddetto contagio informativo e addirittura di prevedere crisi finanziarie. Per quanto riguarda
l’ambito psicologico c’è una recente branca che si chiama Computation Personality Recognition, piccola
nicchia di ricerca che si pone l’obiettivo di ricostruire la personalità dei soggetti analizzando le
conversazioni on line partendo da alcuni postulati, ad es: chi usa molta punteggiatura ha un basso livello di
estroversione, chi usa parole più lunghe (più di 6 caratteri) è di solito più introverso. Questo tipo di
approccio si espone a numerose critiche che possono facilmente mettere in evidenza i limiti metodologici
che alcuni approcci estremi basati su questa convinzione dei big data possono portare. In particolare ciò
che è pubblicato dalla maggior parte dei soggetti su twitter, facebook ecc. è stato già definito da alcuni
autori (come Goffman) come un indicatore della rappresentazione di sé, cioè di come vorremmo apparire
agli altri e non come siamo, quindi più che della personalità e delle dimensioni profonde questi social media
rappresentano il desiderio di ciò che vorremmo essere, la cosiddetta desiderabilità sociale.

Dall’altro lato c’è l’idea che motori di ricerca come google registrino più le nostre paure che le nostre
malattie. Watts diceva che poteva prevedere l’insorgenza dell’influenza che cambia di anno in anno e alcuni
autori dicono che attraverso le analisi delle ricerche su google si identifichino i momenti di picco di queste
malattie. Dall’altro lato ci sono le neuroscienze la cui deriva da evitare consiste in quella che Paolo Legrenzi
e Carlo Umiltà è la Neuromania, quella pretesa spavalda di poter ancorare a elementi materiali (le
cosiddette immagini digitali del cervello) le interpretazioni di fenomeni e comportamenti psicologici e
sociali sottraendoli al dibattito che spesso porta a delle divisioni sul piano sociale e politico. Molti
comportamenti vengono spiegati in base all’attività di alcune aree del cervello, il neurobiologo Swaab
sostiene che nel cervello sono già fissati l’orientamento sessuale, il livello di aggressività, il carattere e la
religione. Addirittura studi e perizie in ambito giudiziaro sono basati su simili presupposti. Baumann nella
sua modernità liquida dice che l’oggetto della sociologia è l’esperienza umana e che i tedeschi nella loro
lingua hanno due termini per spiegare questa esperienza personale, il primo è Erfarhung: che vuol dire
qualcosa che mi è successo e il secondo Erlebnis che significa qualcosa che ho vissuto. Il primo termine può
essere descritto dall’esterno, mentre il secondo non può essere descritto dall’esterno perché ha le sue
radici nei racconti, pensieri, sentimenti del soggetto e in questo punto le neuroscienze dovrebbero lasciare
il posto alle scienze umane. Questa è in nuce la critica che può essere fatta alla neuromania.

Per quanto riguarda i big data si può dire che in essi si verifica l’applicazione alle moderne strumentazioni di
ciò che veniva già avanzato da Laplace nel XVII secolo, quando il matematico diceva che se gli fossero stati
forniti tutti i dati sullo stato del mondo in un determinato momento, avrebbe potuto prevedere ogni
successivo stato. La convinzione che la complessità di informazioni possa prevedere qualsiasi fenomeno
successivo è una prospettiva impraticabile, non tanto per la mancanza di informazione (visto la grande
disponibilità di informazioni nei big data), quanto per l’essenziale e insuperabile contingenza del mondo. La
nostra realtà è caratterizzata da accidenti, problemi di percorso che non sono rimuovibili. Questa
irremovibilità degli accidenti di percorso che caratterizzano la nostra realtà la rendono infinita e l’infinito
non può essere calcolato con semplici elementi di tipo statistico o matematico.

È auspicabile poter utilizzare i dati dei social media per condurre analisi psicologiche tous court?

Falso. I big data sono soggetti a distorsioni esattamente come le altre fonti di dati.

Avendo chiarito questa differenza tra neuroscienze e big data entro i quali la ricerca psicologica è
schiacciata, torniamo ai passi pratici della ricerca: siamo nel momento in cui abbiamo capito il problema di
ricerca a cui vogliamo fare riferimento, dobbiamo sviluppare questa domanda di ricerca. Ci viene in aiuto la
ricerca documentale. In questa fase dobbiamo produrre quello che si chiama “rapporto di fattibilità di una
ricerca”, in cui si raccolgono gli elementi della letteratura prodotta fino a quel momento sullo specifico
argomento e questo rapporto di ricerca ci aiuta a dare chiarezza sull’opportunità o meno di condurre lo
studio. Quando questo rapporto di ricerca ci indicherà la necessità di sviluppare un elemento di ricerca,
allora si potrà ideare un progetto di disegno della ricerca.

Per svolgere la ricerca documentale è necessario conoscere quali sono le fonti documentali

Una ricerca documentale è di aiuto per due ragioni:

1) Il ricercatore raccoglie le idee degli altri studiosi interessati ad una particolare domanda di ricerca, è
quindi utile per comprendere quali sono stati gli approcci e la scomposizione delle opportunità di ricerca
nella stessa situazione

2) Si informa sui risultati di altre ricerche similari o collegate a quella progettata.


•Il pericolo da evitare in questa fase è la “info-alluvione”, un’alluvione di informazioni che se era già un
problema serio alla fine degli anni 70 e 80 è diventato più serio adesso con internet e le troppe informazioni
a disposizione di tutti. Come fare per evitare questa problematica? Bisogna conoscere le fonti di
informazione migliori e gestirle.

Vi sono tre tipi di fonti documentali di base:

1) General references (indici generali): indicano dove cercare per localizzare altre risorse – articoli,
monografie, volumi e altri documenti – che trattano la domanda di ricerca che ci interessa

Current index to Journals in Psychology

The Thesaurus of Psychological Index Terms, c’è anche un volume dell’American Psychological Association
che è “Psychological Abstracts” in cui sono riportati tutti gli abstract di articoli che trattavano certi
argomenti. Questi volumi erano sviluppati prima dell’avvento dei database on line, oggi ci sono a nostra
disposizione Web of Science, Pubmed, Psychinfo ecc.

È importante iniziare da questi indici perché ci danno anche uno storico di ciò che ci serve. Dagli articoli
migliori a quelli da individuare a cascata sul tema di riferimento.

2) Fonte primaria: pubblicazioni nelle quali i ricercatori riportano i risultati dei loro studi direttamente ai
lettori. Es Journal of Research in Psychology, Addiction ecc. ce ne sono diversi e di tutte le tipologie. In
questi journal le tematiche sono più specifiche, ad es, nella rivista “Addiction” ci sono ricerche primarie
pubblicate direttamente dagli autori della ricerca che trattano, in questo caso argomenti quali l’abuso di
sostanze ecc., mentre in Development ci saranno studi riguardanti la psicologia dello sviluppo ecc.

3) Fonti secondarie: pubblicazioni in cui l’autore descrive gli studi e la produzione di altri ricercatori.

Ricerche sistematiche, revisioni sistematiche in cui si sceglie un argomento e si produce una analisi della
letteratura fino a quel momento in base a variabili moderatrici e tipo di popolazione di riferimento, ci sono
metanalisi: revisioni sistematiche a cui si aggiunge la possibilità di una analisi secondaria dei dati, annuari,
enciclopedie ecc. Le metanalisi sono molto rilevanti perché sono in grado di fornirci delle informazioni
anche su quelle che sono le evidenze scientifiche al momento su un determinato argomento facendo un
pool, quindi mettendo insieme i dati relativi ai singoli studi, analizzando la dimensione dell’effetto dei
singoli studi in base al campione di riferimento e alla tipologia è possibile avere un’idea più generale ad es.
se un trattamento ha una evidenza scientifica di efficacia o meno.

Passi da seguire nella ricerca nella ricerca documentale:

1. Definire il problema di ricerca nel modo più preciso possibile

2. Consultare le fonti secondarie più rilevanti

3. Selezionare e leggere accuratamente uno o due testi con gli indici generali

4. Formulare una ricerca dei termini di keywords/parole chiave pertinenti al problema di interesse perché
queste keywords sono utilizzate anche all’interno dei database on line. Queste parole servono per
identificare gli abstract delle ricerche primarie e sono le parole chiave che ci permettono di individuare gli
studi di interesse perché sono le stesse parole chiave scelte dal ricercatore primario quando pubblica
l’articolo. Passo successivo:
5. Ricercare gli indici generali per fonti primarie rilevanti

6. Ottenere e leggere fonti primarie rilevanti, e annotare e riassumere i punti chiave delle fonti. In questa
fase non bisogna generare un numero elevato di pagine di ricerca. Bisogna rimanere sintetici e allo stesso
tempo esaustivi. È bene non cercare direttamente con google perché i dati forniti sono disorganizzati e non
c’è un ordine, non si sa se quello è l’articolo più importante o indicizzato per primo, non si sa se gli elementi
hanno una credibilità sufficiente senza passare da una peer review, nella quale altri professori leggono
l’articolo che spiega lo studio e valutano se dal punto di vista metodologico, del disegno della ricerca, della
metodologia utilizzata, questo studio è sufficientemente credibile. Fonti disorganizzate fanno perdere
tempo.

Indicizzatori online

• Indicizzano gruppi di siti internet insieme attraverso categorie di similitudine

-Hotbot.com

-Lii.org Librarian’ Index to the internet

-Dmoz.org Open Directory project

-Webcrawler.com

Problematiche legate alla ricerca nel WWW

-Disorganizzazione

-Tempo necessario

-Mancanza di credibilità (spesso)

-Valore incerto

-Violazioni etiche

Quindi ad oggi è più facile andare a cercare sul database certe parole chiave che andare a cercare sul
WWW. Alcuni anni fa uno stumento fondamentale era la rivista Psychological Abstract in cui era possibile
leggere gli abstract principali. Leggere solo l’abstract rende comunque difficile valutare un articolo o
distinguere tra una miniera d’oro di informazioni da un semplice insieme di informazioni.

Oggi gli strumenti digitali hanno reso più semplice questo tipo di ricerca ma questo rapporto di ricerca deve
sempre essere svolto andando a vedere un insieme delle tre fonti di informazioni della letteratura.

RAPPORTO SULLA RICERCA IN LETTERATURA

Abbiamo visto quali sono le tre fonti primarie di informazione per la letteratura scientifica, adesso vediamo
alcuni esempi di fonti principali per l’individuazione di test o reattivi che già sono stati validati e studiati dal
punto di vista dell’attendibilità e possono essere riutilizzati, si vedrà anche un esempio di come si struttura
questo rapporto di ricerca iniziale e come si costruisce una breve presentazione di fattibilità di una ricerca e
si conclude con la scrittura di un articolo nel formato definito dall’APA per gli articoli di tipo quantitativo.
Fonti principali per l’individuazione di un test (queste sono gratuite)

Database ETS

La collezione di test dell'ETS è un database di oltre 25.000 test e altri strumenti di misura, la maggior parte
dei quali sono stati creati da autori esterni all'ETS la possibilità di pubblicare i loro contributi (ciò è uguale
per tutti i database). Mette a disposizione di ricercatori, studenti laureati e docenti informazioni sui test e
gli strumenti di ricerca standardizzati. Con informazioni sui test dall' inizio del 1900 ad oggi, la collezione di
test dell' ETS è la più grande raccolta di tali materiali al mondo.

https://www.ets.org/test_link/about/

Inter-Nomological Network – INN

La Rete Inter-Nomologica è un' applicazione integrata di sviluppo teorico per la ricerca sul campo che mira
a ridurre la ridondanza della ricerca nel campo delle scienze comportamentali. INN utilizza tecniche di
elaborazione del linguaggio naturale per restituire risultati di ricerca semanticamente correlati alla query
dell' utente. Non richiede parole chiave specifiche per il recupero degli strumenti di misurazione, basta il
linguaggio natrurale, come su google e presenta i risultati semanticamente, dal punto di vista del contenuto
e dei significati correlati alla query ovvero alla stringa o domanda che fa l’utente (mentre per ETS bisogna
avere una conoscenza precedente abbastanza chiara delle parole chiave che possono aiutare ad individuare
gli strumenti adatti) Per una spiegazione approfondita, consulta il video introduttivo sulla homepage.

http://inn.theorizeit.org/

Measurement Instrument Database for the Social Sciences - MIDSS

La Banca dati degli strumenti di misurazione per le scienze sociali, è un sito progettato per essere un
deposito di strumenti che vengono utilizzati per raccogliere dati da tutte le scienze sociali e che ad oggi
dispone di oltre 500 strumenti che si occupano di una vasta gamma di argomenti (ad esempio autismo,
salute, dolore).

http://www.midss.org/about-us

C’è anche il test bank dell’APA che è pure un database tra i più completi ma è a pagamento.

Rapporto sulla ricerca in letteratura: si costruisce alla fine della consultazione delle fonti primarie,
secondarie e terziarie della letteratura e bisogna seguire questo schema che poi ci indica la fattibilità.
Abbiamo detto che non deve essere di 100 pagine ma può anche essere di 10 pagine ed è così composto

- Introduzione: breve descrizione della natura del problema di ricerca

- Il corpo del rapporto: breve disamina delle risultanze dell’analisi delle opinioni di altri ricercatori sul
problema di ricerca (fonti primarie). Ricerche simili sono trattate di solito insieme e raggruppate in
sottotitoli, si utilizzano le keywords utilizzate nella ricerca sul database o si può usare un approccio più
tassonomico
- Il sommario del rapporto: lega insieme i maggiori elementi messi in evidenza dalla revisione della
letteratura proponendo una visione personale, critica, sistematica e composita di ciò che si conosce fino a
un dato momento.

- Teoria e Ipotesi: la più rilevante per lo studio della fattibilità che è un testo ancora più ridotto che va
consegnato all’eventuale finanziatore della ricerca (dedicate tutto lo spazio necessario per questa sezione,
ma cercate sempre di essere parsimoniosi). Riassumere in breve il modello concettuale di riferimento e
rappresentarlo con le ipotesi prescelte (se possibile). Quindi le features, le caratteristiche del modello, se ci
sono delle questioni di tipo teorico, es postulati, dalle quali si è partiti, se sono state fatte delle assunzioni
in riferimento alla teoria e come questa teoria definisca le ipotesi scelte:

• Iniziare supportando l’ipotesi alternativa H 1 o H A (ipotesi di ricerca) e definendola formalmente, dal


punto di vista testuale, poi prenderà una forma statistica quando si faranno dei confronti. La proposta deve
includere una logica causale forte e basata sulla letteratura. L’idea deve essere già presente in questa fase

• H 2 , H 3, etc. e se si hanno delle sub-ipotesi, elencarle come H 1a , H 1b , H 2a , H 2b,etc.

- Conclusione: il sentimento di ricerca dello studioso si giustifica sulla base delle risultanze dello stato
dell’arte della conoscenza su quel problema/argomento. Si includono gli elementi che potrebbero guidare
la ricerca secondo quanto trovato in letteratura

- Bibliografia: di tutte le fonti menzionate ed è meglio suddividerla nelle varie tipologie di fonti

Una volta fatto questo Rapporto della ricerca in letteratura che ci motiva, si va più sulla pratica redigendo il
Rapporto di fattibilità della ricerca che riprende in alcune parti questo rapporto sulla ricerca in letteratura
ma è più sintetico e serve per avere uno strumento, una griglia e buttare giù uno schema di appunti su cosa
è necessario fare.

In una pagina o meno, utilizzando solo uno schema per punti,rispondete alle domande seguenti (o
compilate questa bozza di schema). Poi condividetelo con un referente esperto di vostra fiducia (non con
me, a meno che non sia il vostro consulente) per ottenere un feedback tempestivo. In questo modo non vi
saranno perdite di tempo su un'idea sbagliata o raffazzonata.

Vi consiglierei anche di andare a leggere l'editoriale di Arun Rai su MISQ intitolato:"Avoiding Type III Errors:
Formulating Research Problems that Matter." ("Evitare errori di tipo III:Formulare problemi di ricerca che
contano".)Ricordiamo che l’errore di tipo 1 si ha quando rifiutiamo l’ipotesi nulla che invece è vera o errore
di tipo 2: accettare l’ipotesi nulla che invece è falsa e l’errore di tipo 3 è un errore teorico che fa capire
come si influenzi la causalità dei dati della nostra ricerca. L'impostazione è diretta al campo dei sistemi
informativi, ma è generalizzabile a tutti i settori della ricerca.

Il rapporto di ricerca non prevede anche l’analisi descrittiva dei dati:

Vero, perché siamo ancora in una fase progettuale

1. Qual è il problema che state cercando di risolvere? (Se non c'è nessun problema, di solito non c'è bisogno
di ricerca).

2. Perché si tratta di un problema importante (e non solo interessante) attuale o imminente? (cioè, i vecchi
problemi non devono essere riaffrontati se non sono più una fonte di criticità). Deve avere delle ricadute
concrete dal punto di vista scientifico psicologico
3. Chi altro ha affrontato questo problema? (Molto raramente la risposta è: "nessuno". Siate creativi, anche
se non nsi trova nessuno si deve fare un passo indietro e cercare qualche riferimento a quel problema
Qualcuno avrà studiato qualcosa in relazione a questo problema, anche se non è esattamente lo stesso.
Questo richiede una revisione ragionata.)

4. In che modo gli sforzi compiuti in precedenza da altri sono incompleti? (cioè, se altri hanno già affrontato
il problema, cosa resta da studiare - quali sono le "lacune"?)

5. Come intendete colmare queste lacune nelle ricerche precedenti? (cioè, disegno della ricerca (magari era
un problema osservazionale e noi lo vogliamo proporre come quasi esperimento), metodologia (es. sono
sempre stati affrontati dal punto di vista costruttivista e vogliamo esplorare un punto di vista cognitivo
comportamentale) etc.), magari

a) Perché si tratta di un approccio adeguato?(Se applicabile)

6. Qual'è la vostra popolazione target per lo studio di questo problema? (Dove e quando raccoglierai i dati?)

Come raccoglierai i dati che desideri? (quantità e qualità)

Definire completamente la/le variabile/i dipendente/i e riassumere come è stata studiata questa variabile
dipendente o questa/variabili indipendenti nella letteratura esistente nel contesto più ampio (come
psicologia sociale piuttosto che del Lavoro, oppure clinica etc.).

Se il modello si basa su una teoria/framework esistente, dedicare parte iniziale del documento per spiegare
tale teoria (massimo 1 pagina) e poi spiegare come si è adattata la teoria allo studio. Se si basa su un
modello spiegare come le variabili dipendenti sono state previste in connessione con le variabili
indipendenti, come è stata prevista la relazione tra variabile dipendente e indipendente e come sono state
precedentemente studiate le domande di ricerca

Se il modello non si basa su una teoria/modello esistente, dedicare parte iniziale del documento per
spiegare come la letteratura esistente nel proprio campo ha cercato di prevedere le variabili dipendenti VDi
o ha cercato di affrontare le relative domande di ricerca.

Se opportuno per lo studio specifico:

Spiegare quali altri costrutti si sospetta parteciperanno a prevedere le vostre Vdi (variabili dipendenti) e
perché. L'inclusione di un costrutto dovrebbe avere un buon supporto logico-teorico e/o di letteratura. Per
esempio, "stiamo includendo il costrutto XYZ perché la teoria su cui stiamo basando il nostro modello lo
include". Oppure, "includiamo il costrutto XYZ perché la logica seguente (abc) ci costringe a includere
questa variabile per non essere imprudenti".

Cercate di elaborare questa parte senza ripetere tutto quello che si è già discusso nella sezione teoria in
ogni caso. Discutere brevemente le variabili di controllo e il motivo per cui vengono incluse
(Facoltativamente).
Come si struttura un articolo di ricerca quantitativa (modello APA)

È importante studiare questo secondo il modello APA perché ormai è diventato uno standard per le
pubblicazioni quantitative in ambito psicologico.

vTitle/Titolo (qualcosa di accattivante e accurato) di solito viene sottovalutato ma è importante perché ci


sono centinaia di migliaia di articoli ogni anno e serve un titolo che attiri l’attenzione e sia accurato, senza
parole inutili

poi va l’ordine degli autori, in ordine di importanza e contributo all’articolo, di solito quando l’articolo è
complesso (come una metanalisi) anche l’ultimo nome è rilevante perché magari ha coordinato il tutto,
accanto al nome va l’affiliazione dello studioso, l’ente di appartenenza

vAbstract (conciso – 150-250 parole talvolta è consentito un massimo di 300 parole – per spiegare
l’articolo): deve contenere tutte le varie fasi dell’articolo. Ciò per essere fruibile sui grandi database che
presentano in modo gratuito solo l’abstract

L’abstract deve contenere tutte le informazioni e i risultati della ricerca nel dettaglio: Falso: è una sintesi

- Più o meno una frase per ciascuno dei punti seguenti:

o Qual è il problema?

o Perché è rilevante?

o Come si è affrontato il problema? Il metodo

o Quali sono stati i risultati?

o Come questo può avere un impatto pratico (rispetto a quanto fatto a livello professionale) e/o come
modifica la metodologia di ricerca o il livello teorico (esistente o futuro)?

vParole chiave/Keywords (4-10 parole chiave che catturino il contenuto dello studio).

v Introduzione Qual è la problematica e perché è significativa? (2-4 pagine con margini ristretti, distanze
doppie tra le righe, quindi considerando che sono anche ridotte in colonne in realtà è 1 pagina e ½.
Nell’introduzione va esposta principalmente la problematica centrale, quella attorno alla quale si sviluppa
l’articolo, l’attuale stato teorico citando le precedenti ricerche che hanno affrontato lo stesso argomento e
bisogna anche precisare il contesto teorico scientifico nel quale si colloca lo studio e dichiarare quali sono le
ipotesi che derivano da questa introduzione e gli eventuali risultati attesi. Tutte le references, citazioni è
giusto che siano citati in modo preciso con autore, data, e poi in bibliografia, attraverso queste 2
informazioni si può risalire all’articolo di riferimento.

Queste domande possono essere un canovaccio per comporre l’introduzione

o Cosa è stato fatto da altri studiosi precedentemente riguardo questa domanda di ricerca (o problema) e
perché i loro sforzi sono stati insufficienti (qual è l’elemento mancante (GAP) nella letteratura)? (1 massimo
2 paragrafi)

o Quali sono le Vdi (variabili dipendenti) selezionate e qual è il contesto di analisi prescelto?

Inoltre definire brevemente tutte le DVi. (1-2 paragrafi)


o Una frase sul campione (es. "377 studenti iscritti all’università nel 2017 che sono lavoratori").

o Come studiare queste VDi in questo contesto affronta in modo adeguato il problema? (1 paragrafo)

o Su quali teorie esistenti si fa affidamento, se presenti, per implementare questo studio e perché sono
appropriate? (1-2 paragrafi)

o Discutere brevemente i contributi primari dello studio in termini generali senza discutere i risultati
specifici (es. non riportare p-value in questi punto) basta dire se c’è stato ad es, un effetto negativo rilevato
o no, tralasciando dettagli inutili

o Com’è organizzato il resto dell’articolo/paper? (1 paragrafo)

Metodo (brevemente indicare la metodologia, vi sono molti approcci e il seguente è solo uno schema di
massima) ciò per permettere ad altri studiosi di replicare lo stesso metodo. Questa parte di solito è
suddivisa in sottoparagrafi, soggetti, misurazioni, procedura e analisi dei dati.

• Operazionalizzazione del costrutto (da dove e come si sono ottenute le misure?) Sviluppo dello strumento
(se avete creato le vostre misure)

• Spiegazione del disegno dello studio (es., pretest-posttest, disegno fattoriale, ricerca osservazionale,
progetto pilota, sondaggio online etc.)

• Campionamento come è stato effettuato il campione ad es. se è stato estratto statisticamente o


probabilisticamente (alcune statistiche descrittive demografiche) (genere, età, istruzione, status
economico, ecc.), dimensione del campione; non dimenticare di discutere il tasso di risposta
eventualmente far presente se alcune persone si sono rifiutate di rispondere (numero di risposte in
percentuale del numero di persone invitate a fare lo studio). Ricordare che è stato concesso il nulla osta dal
Consiglio di revisione istituzionale (Università, ente di ricerca ecc.) istituzionale (IRB) e che sono stati seguiti
i protocolli, se opportuno che valuti se il protocollo è adatto dal punto di vista etico e deontologico

Metodo per la verifica delle ipotesi. Procedure: che cosa è stato fatto, come sono state date le istruzioni,
come sono state manipolate le variabili indipendenti e ciò è collegato al tipo di disegno della ricerca dal
quale deriva anche il metodo per la verifica delle ipotesi (es., modello di equazioni strutturali in AMOS,
confronti tra medie, correlazione ecc.).Se avete condotto confronti multi-gruppo, mediazione e/o
interazione, spiegate chiaramente come li avete tenuti e come si sono svolte le analisi. Per esempio, se si è
svolta una mediazione, quale approccio avete adottato (consiglio il bootstrapping, metodo con cui rendere
più robusti dal punto di vista statistico i risultati con un ricampionamento casuale) Sono stati testati più
modelli o avete mantenuto tutte le variabili per tutte le analisi? Se avete fatto delle interazioni, chiarire se
sono state aggiunte dopo o se erano previste fin dall'inizio?

Analisi (1-3 pagine; talvolta in combinazione con la sezione metodi)

• Pulizia dei dati (Data Screening, se ci sono stati ad esempio degli outliers, se sono stati eliminati ad es, se
alcuni soggetti hanno risposto sempre con il si, devono essere riportate tutte le trasformazioni sui dati e i
test statistici utilizzati)

• EFA (riportare la cosiddetta matrice pattern o dei profili e l'alfa di Cronbach in appendice) - indicare se
degli items sono stati eliminati.
• CFA (basta menzionare che è stata svolta e sollevare eventuali problemi che avete trovato) - citare tutti gli
elementi eliminati durante la CFA. Riferire il modello adatto per il modello di misurazione finale. Se
necessario, il materiale di supporto può essere inserito nelle appendici.

• Menzionare l’approccio del Common Method Bias (CMB - inteso come lo scostamento tra la relazione
vera e quella osservata tra due costrutti dovuto alla Common Method Variance) e i risultati ottenuti, e le
azioni prese (es., se abbiamo trovato CMB e abbiamo dovuto tenere il modello CLF).

Discussione (2-5 pagine) Riassumere brevemente lo studio, il suo intento e i risultati, senza fare copia e
incolla, concentrandosi principalmente sulle domande di ricerca con i risultati (un paragrafo breve).
Risultati (1-2 pagine) Riportare i risultati per ogni ipotesi ( e riferire se supportano o meno le ipotesi, con
prove, fornendo ad es. una tabella riassuntiva dei risultati ottenuti). Evidenziare eventuali ipotesi non
supportate o controprove (significative in senso opposto).Fornire una tabella che riassuma sinteticamente i
risultati ottenuti. Definire quali sono le intuizioni che abbiamo tratto dallo studio e non sarebbe stato
possibile ottenere in altro modo e in che modo queste informazioni cambiano la situazione e come i
risultati si collegano alla letteratura precedente e come la ricerca futura può essere rimodellata, definire le
eventuali limitazioni e cosa si può migliorare per rendere più affidabili i risultati.

Conclusioni (1-2 paragrafi) Riassumere le conoscenze acquisite da questo studio e il modo in cui affrontano
le lacune o i problemi esistenti. Spiegare il contributo principale dello studio. Esprimere le direzioni di
ricerca futura e come questo lavoro influenzerà il mondo reale (pratiche professionali e/o di ricerca).

Bibliografia/References (si prega di utilizzare un gestore di riferimenti bibliografici , un software come


Zotero o EndNote e non citare gli articoli a mano, trascrivendoli, ciò permette di generare e rigenerare
bibliografie in automatico)

Appendice (qualsiasi informazione aggiuntiva, come lo strumento completo e il modello di misurazione,


necessaria per convalidare o comprendere o chiarire il contenuto del testo del corpo principale. NON
imbottire le appendici con tabelle statistiche non necessarie e modelli statistici illeggibili. Tutto ciò che è
contenuto nell'appendice dovrebbe aggiungere valore al manoscritto. Se non aggiunge valore, rimuoverlo.
AMBITI DI APPLICAZIONE DEI REATTIVI PSICOLOGICI

L’ambito influenza anche il tipo di test utilizzato, in ambito scolastico possiamo ad esempio usare un test
che non abbia la stessa validità e attendibilità di un test utilizzato nella ricerca o a strumenti in ambito
forense. È anche vero che gli strumenti psicologici possono avere forme differenziate per intercettare
forme di variabili diverse come ad es. variabili sociologiche (leadership ecc. ) o psicobiologiche
(sudorazione, risposta galvanica cutanea durante forte stimolo emozionale ecc.) ci sono variabili come il
successo scolastico e diverse necessità di misurazione determinano forme diverse dei test che possono
essere questionari, test di profitto, scale di misurazione a cui si risponde con test carta e matita, in basket
test che richiedono il completamento di alcuni compiti, puzzle, costruzione di blocchi, immagini, storie,
disegni ecc. Quindi, a prescindere dalla differenziazione tra test psicologico e assessment psicologico è
importante che le molteplici prestazioni che può svolgere uno psicologo dal punto di vista professionale e
che si ritrovano anche all’interno del codice deontologico e del regolamento dell’ordine degli psicologi
italiano, indica quali sono gli ambiti in cui possono essere utilizzati i test e quali sono le caratteristiche dei
soggetti che possono utilizzarli e cosa si utilizza in base ai profili professionali (un professionista con un
certo profilo può utilizzare solo alcuni strumenti e non altri). Il codice deontologico nella sua ultima
versione regolamenta il comportamento nei confronti dei colleghi e degli utenti. Lo psicologo dovrebbe
utilizzare solo test per i quali possiede competenze ed è responsabile dei risultati delle valutazioni che
ottiene anche se il grado delle competenze varia in base agli strumenti che sono stati scelti, ad esempio
l’art.5 del codice deontologico dice che è tenuto ad aggiornarsi specificatamente nell’ambito in cui opera,
per questo ci sono i corsi ECM (educazione continua in medicina a cui deve partecipare anche lo psicologo
per ottenere un certo numero di crediti annuali). Sempre l’art.5 dice che lo psicologo deve riconoscere i
limiti della propria competenza ed usa solo strumenti teorico pratici per i quali ha acquisito adeguata
competenza ed è sempre necessaria una formale autorizzazione. L’art.5 dice ancora: lo psicologo impiega
metodologie delle quali è in grado di indicare le fonti e riferimenti scientifici, e non suscita, nelle attese del
cliente, aspettative infondate. C’è quindi la necessità di conoscere le teorie dello strumento che si utilizza.

Numerose sentenze di tribunale hanno riservato agli psicologi l’attività di somministrazione del test e
dipende però dai campi di utilizzazione e dell’utilità che hanno i test. Un nuovo test di intelligenza, più
innovativo, può essere ad esempio più efficace per la valutazione di alcuni soggetti, es, studenti stranieri in
uno specifico ambiente, oppure (altro esempio) lo psicologo può ritenere che lo strumento per misurare il
burnout sia troppo complicato e che abbia troppi item e decida di sviluppare una versione ridotta o più
dedicata a un certo numero di soggetti. Un articolo del prof. Pisanti ha riguardato lo studio di uno
strumento per la misurazione del Burnout degli infermieri. Si può anche pensare che ci sia uno strumento
da utilizzare con una diversa teoria di riferimento.

L'assessment psicologico è sostanzialmente un processo di valutazione (inteso come


espressione di un giudizio) nel quale un ampio spettro di informazioni, tra cui anche
spesso risultati di test, è integrato in una significativa descrizione e spiegazione della
condizione psicologica di un soggetto?
Vero

Per scegliere e applicare un test bisogna tener presente gli ambiti di applicazione e le loro caratteristiche. Il
primo campo di applicazione e il più rilevante è:
LA DIAGNOSI CLINICA E LA TERAPIA

I TEST PSICOLOGICI SONO UTILIZZATI IN AMBIENTE CLINICO IN TRE SITUAZIONI PRINCIPALI:

• L'IDENTIFICAZIONE DEL DISTURBO (una valutazione che si può definire di tipo classico, una identificazione
di tipo nosologico e patologico che ha come finalità le eventuali indicazioni di trattamento sia psicologico
che farmacologico, applicate in modo individuale, familiare o di gruppo e l’aumentata validità della diagnosi
effettuata con i reattivi psicologici ha un ruolo rilevante per stabilire il tipo di intervento da implementare,
se sia sufficiente un intervento sui sintomi o sia necessaria una terapia del profondo, in alcuni casi questi
reattivi psicologici richiedono alcuni esami medici per formulare meglio la diagnosi medica, nel caso in cui
siano necessari farmaci o alcune patologie richiedano specifici interventi come nelle malattie della tiroide
che possono causare sintomi della depressione e ciò non sarebbe individuato a priori senza reattivi
psicometrici)

• INDICAZIONI SU "FATTORI DI RISCHIO" E "FATTORI PROTETTIVI”, cioè partire dalla consapevolezza che il
paziente è un unicum, è una complessità psicologica a sé ed è considerato come un tutt’uno di risorse e
limiti e lo psicologo deve essere in grado di cogliere i limiti come fattori di rischio e risorse interne che sono
i fattori protettivi. I fattori di rischio potrebbero rivelarsi dannosi per il paziente e dovrebbero essere ridotti
in modo da migliorare la probabilità di efficacia di un intervento.

• VALUTAZIONE DELLA SCIENTIFICITÀ E FECONDITÀ DEI TRATTAMENTI- Ciò deriva dalla insistente critica
sulla validità degli interventi degli psicoterapeuti e i test sono diventati lo strumento principale per la
valutazione degli interventi, quindi logicamente per convalidare le evidenze di un trattamento è più facile
utilizzare un reattivo psicometrico piuttosto che una valutazione personale, anche se è dell’esperto:

"Il problema di valutare gli esiti della psicoterapia continua ad assillare il settore come fece un secolo fa
quando la moderna psicoterapia venne in essere. A dispetto di centinaia di studi e spesso ripetute
dimostrazioni che la gente la quale si sottopone alla psicoterapia di una forma o di un'altra trae beneficio
da essa... lo scetticismo pervasivo persiste, e ogni studio supplementare... è trattato come se esso fosse il
primo”. (Strupp, 1996, 1017)

SECONDO AMBITO DI APPLICAZIONE: L'ORIENTAMENTO E IL "COUNSELING"

Nel counseling scolastico il professionista coinvolto aiuta gli studenti a divenire consapevoli delle proprie
problematiche e delle strategie e opportunità disponibilI per raggiungere una soluzione efficace. Un
autoorientamento del soggetto che deve essere supportato per permettere allo studente di ottimizzare le
possibilità di successo. È un approccio diventato fondamentale negli ultimi 15 anni. Questo tipo di attività
dello psicologo non va confusa con quella meramente informativa delle scuole. Orientare come fulcro
dell’intervento

ALTRO AMBITO: CONTESTO SANITARIO E PSICOLOGIA DELLA SALUTE

In psicologia della salute i professionisti possono aiutare gli individui nel fronteggiare (cope) e superare
un’ampia selezione di problematiche (ES, aiutare i pazienti dopo interventi complessi o seguire diagnosi di
malattie gravi con supporto alle famiglia) in collaborazione o con l’istituzione ospedaliera o con le comunità
di supporto. Gli strumenti di valutazione possono dare una valutazione più precisa di eventuali
psicopatologie ma possono anche esplorare ambiti diversi come ad es, la percezione individuale del dolore
e la valutazione di stress e strategie di coping. Ciò ricade nella:
PREVENZIONE E LO SCREENING PSICOPATOLOGICO A SOSTEGNO DEL BENESSERE

Benessere (well-being) sociale come qualità della vita. Sono metodi che permettono uno screening
psicologico su larga scala e sono metodi e tecniche di disamina più efficaci che efficienti.

Alcune ricerche sull’orientamento hanno stabilito che circa il 25% della popolazione scolastica al termine
della scuola superiore presenta disturbi psicopatologici più o meno gravi e intervenendo in questi stati (che
in questo momento sono in fase iniziale) sia possibile ottenere buoni risultati anche con terapie brevi,
questo si può avere grazie appunto allo screening ad ampio spettro in ambito scolastico.

L’OMS definisce la salute come uno stato di benessere fisico mentale e sociale completo. Bisogna quindi
investire in questo tipo di attività

Prevenzione e protezione delle specifiche fasce di popolazione a rischio

DIAGNOSTICA CLINICA FORENSE

• Le perizie forensi sono un’accezione della diagnostica clinica (un caso particolare) Compito dello psicologo
è valutare la condizione psichica di un soggetto al fine di rispondere ai quesiti tecnici posti dal giudice al fine
di individuare l’imputabilità, grado di responsabilità oppure la pericolosità sociale dobbiamo quindi
accertare elemnenti quali psicosi, alti livelli di ansia, psicosi, disturbo post traumatico da streess, ADHD ecc.
Implementazione dell’esame di personalità e accertamento psicodiagnostico richiesto in tutte le
circostanze che richiedono il risarcimento di un danno psichico subito da un individuo. In questo caso i
reattivi sono gli stessi utilizzati nella diagnostica in ambito clinico e devono avere attendibilità e validità
massimi anche se non sono utilizzati per interventi curativi ma per prevenzione dei problemi

• Prevenzione dei problemi e disagi personali

• Tutela dei diritti

ALTRI AMBITI DI APPLICAZIONE:

NEUROPSICOLOGIA CLINICA

Diagnosi dei danni celebrali derivanti da incidenti, ischemia o demenza e per aiutare i soggetti che soffrono
di epilessia

PSIC O L O G IA D E L L AV O R O e delle organizzazioni (In inglese industrial and organizational psychology


I&O Psychology) E S E L E Z IO N E D E L PERSONALE

Assessment delle abilità, attitudini e personalità per la selezione, promozione, coaching, sviluppo e
formazione professionale e consulenza sulla progressione della carriera. È un campo fortemente finanziato
in ambito privato. Ogni profilo professionale richiede test molto specifici e anche in questo ambito lo
psicologo può effettuare lo screening attraverso dei test collettivi perché spesso nei concorsi si trovano
moltissimi candidati. Anche in ambito di risorse umane e valutazione annuale delle performance, è molto
usata la testistica. Ad es. gli in-basket test sono dei reattivi che vengono usati per selezionare i candidati per
posizioni amministrative e dirigenziali che si basano sulla presentazione di un problema ipotetico da
risolvere mediante l’uso di appunti, lettere che si trovano in un canestro (basket). In questo cestino ci sono
tutte le informazioni necessarie per risolvere un problema come se ci si trovasse veramente nella situazione
prevista. I test in basket come in generale tutti gli altri costruiti in modo simile non si dimostrano validi per
apprezzare tratti generali di personalità, tuttavia hanno un buon valore predittivo per le prestazioni di
supervisione e le attività di tipo amministrativo. Un unico test selettivo di qualunque genere raramente è
un valido predittore del successo lavorativo e per questo si opta per delle batterie.

EXCURSUS STORICO:

Si valuteranno:

1) Teoria intesa come evoluzione storica dei test e loro applicazione attuale

2) Metodi e tecniche statistiche e di ricerca per la misurazione di fenomeni o costrutti

Capiamo come questi sviluppi sono stati trasversali a psicofisica, psicobiologia, ststistica, informatica ed
altri ambiti di studio. Questo connubio ha permesso di creare una duttilità degli approcci che caratterizzano
la disciplina psicometrica. Thorndicke afferma che qualsiasi cosa che esiste, esiste in un certo ammontare e
conoscerla in modo completo implica conoscere la sua quantità e qualità. Per Thorndicke la misurazione è
importante soprattutto se intesa come cambiamento nell’essere umano come differenza tra 2 condizioni e
come questa differenza sia prodotta da ciò che agiamo. T. fa riferimento all’educazione perché la
formazione per lungo tempo ha fatto si che le ricerche psicologiche e pedagogiche procedessero di pari
passo. Fin dall’inizio ci sono stati approcci diversi alla misurazione, sia dal punto di vista della costruzione
delle scale sia da quello dei metodi e della concezione di cosa si andava a misurare. Ciò è chiaro quando
analizziamo la psicobiologia piuttosto che la psicofisica, la psicobiologia è chiamata anche psicologia
biologica ed è quella branca delle neuroscienze che studia il comportamento cioè l’insieme delle attività
manifeste dell’organismo così coe tutti i processi mentali, percezione, attenzione, memoria, apprendiento,
emozioni in relazione però alle basi biologiche. Strutture e processi corporei che appartengono al sistema
nervoso in modo particolare. Gli esperimenti degli psicobiologi vengono effettuati su animali ed esseri
umani sani o con lesioni del sistema nervoso. Nel libro “L’errore di Cartesio” sono riportati tanti di questi
casi. La psicobiologia si sovrappone a un’altra branca delle neuroscienze, la neuropsicologia che studia solo
il sistema nervoso centrale ed è molto più influenzata dalla psicologia cognitiva e si focalizza sulle aree del
cervello.

La psicofisica è una branca della psicologia che studia le relazioni che esistono tra stimoli fisici definiti
misurabili (percettivi, tattici acustici ecc. ) e la risposta che i soggetti danno a questi stimoli intesa come
percezione dell’intensità legata a questi stimoli. La psicofisica è nata nel XIX secolo dai lavori di Weber e
Fechner che lavorarono su ricerche empiriche e condussero queste ricerche alla legge di Weber-Fechner,
prima legge scientifica che ha gli stessi criteri degli ambiti scientifici sempre prendendo in considerazione
come deve essere inteso il termine scientifico all’interno delle scienze del comportamento. Questa è la
prima legge fondamentale della psicologia sperimentale (1860). Le basi di queste scoperte cercavano di
separare, emancipare la psicologia come scienza a sè dalla filosofia. Nel corso del ventesimo secolo la
psicofisica ha conosiciuto un ridimensionamento della sua importanza sul piano della ricerca sebbene ci
siano ancora molti studi in psicologia sperimentale su quelle che sono chiamate “le indagini
percettologiche”.

I 2 ambiti di ricerca della psicologia chiariscono perché i nostri esempi fanno riferimento a esperimenti
empirici non legati soltanto ai test psicometrici carta e matita, chiamati così perché in inglese pencil and
paper indicava test con risposte da scrivere. Questi tipi di esperimenti tendono al raggiungimento di
valutazioni quantitative del comportamento animale o umano. Se riconsideriamo la definizione di test
psicologico (ma lo stesso ragionamento è applicabile in termini generali alle scienze dell’educazione, alla
pedagogia e alla sociologia), nessuno strumento per quanto preciso e accurato è in grado di prendere in
considerazione l’universo delle possibili manifestazioni comportamentali e per questa ragione la
metodologia di valutazione deve considerare un campione dello spazio campionario dei comportamenti
che il soggeto può manifestare. Anastasi infatti parla di campione di comportamento. Sebbene l’imparzilità
della misurazione e la valutatività richiesta al ricercatore-psicologo, cioè la cosiddetta obiettività di un
reattivo nello scoring, è vero che storicamente molte unità di misura hanno avuto origine dal punto di vista
antropometrico cioè a partire dall’impatto con il mondo esterno, quindi se abbiamo la relazione con il
mondo esterno tramite i sensi dai quali ci proviene l’informazione che il cervello raccoglie, coordina,
seleziona e organizza, si capisce come inizialmente queste misurazioni abbiano potuto avere questa origine
antropometrica, ed è così che il piede viene preso come unità di misura della lunghezza perché elemento
che appartiene al soggetto. Su questo punto Gropius sottolinea che l’ambiguità derivante dall’uso
indifferenziato di termini come sensazione e percezione evidenzia che la percezione non coincide col dato
fisico che noi percepiamo. La tesi di Gropius è che il dato fisico distale subisce una trasformazione per
mezzo della sensorialità o comunque del sistema psichico. Questa tesi viene esemplificata con una
dimostrazione presa in prestito dal pedagogista Earl C. Kelley, riportata nella sua opera maggiore: Education
for What is Real (1947).

Per questo motivo il problema in psicologia è non soltanto legato alla misurazione in sè per sé ma quello
della misurabilità dell’unità di analisi, infatti anche in altre discipline sono importanti e attuali le ricadute
della psicologia sperimentale e cognitiva.

A seguito delle principali rivoluzioni scientifiche del XX secolo (principio di indeterminazione di Eisemberg,
teoria della relatività e teoria del caos), l’incertezza diviene interna alla scienza non solo perché non riesce
ad essere efficace sul piano strumentale ma per necessità ontologica, la conoscenza del mondo avviene
sempre mediante approssimazione e la natura di ogni acquisizione di informazioni è essa stessa di tipo
aleatorio, cioè casuale, ciò influenza tutti i campi della scienza per cui in psicometria abbiamo gli stessi
problemi dell’econometria ecc.

Vi sono diversi filoni di ricerca, diverse problematiche affrontare. Beck trova logico suddividere la storia
della psicometria in due ere: la prima detta classica che si estende dal 1879 anno in cui Wundt la fondò fino
al 1945, periodo contraddistinto dal lavoro di studiosi come Spearmann.. La seconda era detta moderna
inizia dopo il 1945 con i contributi di famosi psicologi e studiosi come Eysenck, Hamilton ecc. che
svilupparono gli archetipi dei questionari e delle scale di valutazione fondamentali per le attuali applicazioni
della psicometria anche in ambito clinico. Hanno influenzato le ricerche in psicofisica i contributi di
scienziati come Fechner che di origine non era uno psicologo. La sua opera più famosa è quella del 1869
Elements of Psychophysics e Gauss che già nel 1809 presentava la teoria degli errori di osservazione
introducendo la distribuzione statistica definita distribuzione Gaussiana. La cosiddetta equazione personale
di Bessel, viene elaborata a partire dalle osservazioni delle differenze individuali nelle rilevazioni (di quei
tempi) degli eventi stellari compiute dai suoi colleghi astronomi secondo cui lo stesso fenomeno viene
diversamente apprezzato da osservatori diversi e gli errori di valutazione essendo costanti nel tempo
possono essere corretti sistematicamente.

Francis Galton nel suo laboratorio londinese di psicometria fondato nel 1884 in cui lavorarono allievi come
Pearson e Fisher, svilupparono all’interno di questo laboratorio le tecniche psicometriche e i modelli di
analisi da quel momento fino alla seconda parte del XX secolo. Volendo fare un veloce excursus della storia
della psicometria, si parte dai pionieri. Inizialmente abbiamo i francesi Pinel, Esquirol (che per primo
elaborò le bozze dell’infermità mentale nel suo libro “Des maladies mentales” e applicò metodi statistici
elementari nelle sue descrizioni con tabelle per categorie causale. Altro contributo di questo studioso è la
distinzione tra malattia mentale e ritardo o deficit mentale. La proposta di utilizzare la capacità di
linguaggio del paziente come discriminante del grado di deficit mentale del soggetto è una scelta
importante per quell’epoca)

Studiare l'evoluzione storica della ricerca in psicologia permette di inquadrare meglio le questioni
metodologie attuali?

Vero

Weber aveva individuato come (studiando il tatto e l’udito) se si presenta a un partecipante in una certa
modalità sensoriale (vista, udito, tatto) uno stimolo di una certa intensità r e si cerca poi di vedere di
quanto lo stimolo deve essere fatto variare perché il partecipante ne percepisca l’avvenuta variazione,
questa differenza appena percepibile indicata da delta con R non è costante ma dipende dal valore iniziale
di R. Quello che è costante nella pratica è k che è dato dal rapporto tra delta con R e R. Questa costante k è
detta costante o frazione di Weber. Con la stessa costante ma con stimolo diverso dovremmo aumentare il
valore fino a un ipotetico valore grande a piacere. Cosa vuol dire ciò? Significa che se consideriamo una
costante k=0,2 in una certa modalità sensoriale, es, udito, per uno stimolo di intensità 20 allora potremmo
apprezzarne la variazione se lo confrontiamo con uno stimolo di intensità 24. Se invece aumentiamo di 6 e
così via allora dobbiamo avere uno stimolo pari a 30. Se immaginiamo un libro che pesa un kg, difficilmente
il soggetto potrà avvertire un aumento del suo peso se poggiamo sopra questo libro un foglio di carta.
Avremmo bisogno di aggiungere una costante cioè un qualcosa di relativamente più pesante (relativamente
rispetto al libro) per poterne apprezzare la differenza.

La famosa legge di Fechner deriva dall’intuizione dello studioso di considerare il variare continuo
dell’intensità della stimolazione e trovare la formula per calcolare la variazione di sensazione S:
L’intensità della sensazione si calcola in base al logaritmo dell’intensità dello stimolo fisico R e a una
costante c detta di integrazione. La curva che ne risulta non è una relazione lineare e la soglia di
discriminazione è data dalla distanza che c’è tra R e Delta R sull’asse delle x. Queste conclusioni sono valide
per quella che Fechner definiva come psicofisica esterna. Una relazione come quella basata sulla
misurazione della candela, cioè sulla risposta biologica alla radiazione ottica, ovvero quel rapporto tra
sensazioni e corrispondenti proprietà e variazioni dello stimolo dal punto di vista fisico.

Questa è una delle prime applicazioni di una scala logaritmica che tende ad avvicinarsi a un certo valore in
un modo che non sia sempre proporzionale. Un compito che la psicofisica si pone è quello di determinare le
modalità sensoriali e vedere se la costante di Weber potesse individuare i valori minimi e i valori massimi
dell’intensità degli stimoli per essere percepiti. Queste determinazioni vennero poi chiamate valori soglia,
soglia differenziale e soglia sub differenziale, per sapere qual’era la differenza tra un valore e l’altro e la
differenza assoluta oltre i quali potessero o non potessero essere percepite. Sono state messe in evidenza
diverse lacune delle riflessioni di Fechner e considerare la misura in base a ciò che il soggetto percepisce e
riesce ad ordinare in base a indizi ordinali, cioè se uno stimolo è stato percepito o meno o se l’intensità è
maggiore o minore rispetto allo stimolo standard, si creano diversi svantaggi. Il principale è che secondo i
principi di Fechner, le n componenti uguali di una grandezza totale devono essere concepite come le n parti
uguali in cui la grandezza totale può essere scomposta. Da qui deriva un principio di additività che viene
criticato da molti autori compreso Chiorri nel volume . Chiorri riprende poi le informazioni di Mitchell in cui
Fechner prima ha dovuto dimostrare che le differenze nelle intensità delle sensazioni sono additive, per poi
giustificare la sua considerazione delle differenze appena percepibili come unità di misura e secondo
Fechner considerare che gli attributi psicologici siano quantitativi è l’errore principale, per cui una serie di
quelli che considerava n intervalli uguali e contigui, quindi una scala continua, secondo lui corrispondeva a
n intervalli effettivi.

FRANCIS GALTON (1822-1911)

All’interno del suo laboratorio di Londra fece uno dei suoi primi esperimenti e all’interno di questo suo
laboratorio aperto nel 1884 si occupò di dispositivi per misurare una vasta gamma di diensioni corporee ,
fisiche raccogliendo informazioni su più di 10000 soggetti. La concezione che il genio intellettuale fosse un
carattere ereditario mosse l’obiettivo di studiare il tempo di reazione individuale, l’acutezza dell’udito,
l’altezza, il peso, la forza uscolare e altre funzioni sensomotorie basilari. La necessità di organizzare questa
enorme raccolta dati spinse Galton a sviluppare delle procedure statistiche per sintetizzare e confrontare le
informazioni che beneficiavano di una elaborazione relativa della misura piuttosto che in termini assoluti,
cioè c’è una differenza nell’affermare: - Francesco pesa 90 kg rispetto al confronto: - Francesco pesa più dei
suoi compagni di classe. Può sembrare una cosa banale ma in realtà molto significativa appare
l’introduzione di test statistici come la correlazione intesa come fattore che esprime la relazione tra due
individui o due attributi qualsiasi. Dobbiamo inoltre a Galton l’ideazione del diagramma di dispersione
quindi lo scatter plot in inglese come rappresentazione grafica dei dati

Ricordiamo i contributi di Spearman alla definizione del concetto di affidabilità del punteggio di un test,
come sommatoria di una componente di valore reale (il true value), il livello attuale del soggetto sul tratto
o abilità in esame e di errore, quindi influenza di molteplici elementi che determinano un aumento o
diminuzione del punteggio grezzo. La famosa teoria classica del test secondo la quale il punteggio grezzo è
uguale a una quota di punteggio vero più una parte di errore. Anche Spearman era già consapevole di
ulteriori dimensioni per la risoluzione di compiti peculiari per ciò che riguardava il costrutto
dell’intelligenza, ma ne deriva che i fattori multipli non godono di una configurazione gerarchica ordinata
perché hanno pari valore e rilevanza. Se consideriamo questo tipo di approccio, all’estremo opposto di
quello che può essere visto come un continuum costituito da vari approcci teorici si colloca la teoria di
Thurstone che già nel 1938 sostenne un modello multidimensionale dell’intelligenza sottolineando
l’importanza di una serie di fattori multipli, 7 abilità mentali primarie e ne fece una dimostrazione
attraverso l’analisi fattoriale come tecnica fondamentale. A Thurstone si devono contributi per le prime
misurazioni delle attitudini spostando il focus dalle previsioni del comportamento con la formalizzazione
della scala Thurstone (cosiddetta equintervallata) nel 1928 questa scala fu ideata e alcune di queste
tecniche di costruzione sono tuttora in uso in diverse situazioni con una serie di comparazioni tra intervalli.
Thurstone fondò anche nel 1935 la società di psicometria all’università di Chicago e sponsorizzò il primo
numero della famosa rivista psicometrica pubblicata nel marzo del 1936 e insieme alla prima edizione di
Psychometric Methods di Guilford edito nel 1936, viene indicata la nascita formale della psicometria
almeno come campo sottodisciplinare. Tra l’altro le edizioni di Guilford fanno una eccezionale collana
psicologica.

Altro autore da ricordare è Thorndike che divenne presidente della Psychometric Society già nel 1937 con
interessi eterogenei, dalla definizione delle basi del connessionismo, cioè esperimenti sul comportamento
animale e sui processi di apprendimento fino all’estensione dei test psicometrici nell’ambito della
psicologia dell’educazione. Alcuni autori come Chiorri sottolineano come il manuale di Thorndike del 1904
affermasse che qualunque torto mentale in qualunque individuo ha una quantità variabile con influenze
evidenti derivanti dal pitagorismo Fechneriano. Thorndike era convinto che la psicologia dell’educazione
fosse una sorta di ingegneria applicata agli uomini e quindi indicava nella misurazione la chiave di volta per
lo sviluppo della psicologia scientifica, quindi riportare leggi scientifiche nella misurazione in ambito
psicologico.

Particolare menzione merita Eysenck che divenne il responsabile degli psicologi dell’istituto psichiatrico di
Londra nel 1945 e che si pone come obiettivo principale la valutazione della validità di test psicologici già
utilizzati in psichiatria clinica negli anni 40. Si accorse che c’erano diverse difficoltà dovute principalmente al
passare del tempo, quindi cambiamenti dovuti alla società, alla popolazione di riferimento nell’applicazione
di questi strumenti e l’indicazione era che nell’ambito dei suoi studi Eysenk dimostrò ad esempio come le
teorie del Rorschach potessero non essere riprodotte utilizzando il test di Rorschach dato che
l’interpretazione del test ritenuto psicometrico poteva essere pesantemente influenzata e variare da un
esaminatore all’altro in base all’apporto del somministratore. Per quanto riguarda la misura della
personalità Eisenk cercava di dimostrare la validità della richiesta diretta attraverso i questionari e
interrogava i soggetti sulla loro esperienza. Attraverso questi strumenti di raccolta Eysenck era convinto di
eliminare l’influenza dell’esaminatore sul comportaento in esame e che l’analisi fattoriale assicurasse che
l’interpretazione dei questionari non fosse influenzata da un singolo psicologo che potesse assegnare in un
modo distorto un punteggio e per questo Eysenck limitava le possibilità di risposta al si/no, anche per
poter semplificare l’analisi statistica successiva.

Quale tipo di diagramma ha elaborato Galton?

Nuvola di punti
L’apporto di questa breve disamina storica è costituito dalla riflessione sulla duplice consegna della
disciplina scientifica psicometrica. Da un lato abbiamo l’indagine sperimentale a conferma delle ipotesi sulla
natura quantitativa di una proprietà, di un costrutto, dall’altro la disposizione di procedure di misurazione
delle grandezze dell’attributo psicologico ovvero qualsiasi stato, tratto o abilità, atteggiamento, condizione
ecc. che noi consideriamo come quantificabile. Questa specifica accezione spiega il perché non sia possibile
sviluppare una conoscenza delle teorie e dei concetti fondamentali della psicometria oppure applicare la
metodologia a situazioni concrete senza capire almeno in parte le basi matematiche su cui si fonda la teoria
dei test nelle sue diverse articolazioni. Non tanto i calcoli ma la struttura della procedura matematica. La
validità della ricerca in ambito statistico si fonda sia con la concretezza della ricerca sperimentale sia con i
metodi, la metodologia degli studi per modificare e ricostituire un modello di analisi più robusto. Questa
disamina che abbiamo fatto porta a questo tipo di cambiamento che risulta chiaro se si osserva la
formulazione delle domande di ricerca degli scienziati. Ad es. domande attuali sono: quanta parte di ciò che
ho ottenuto in laboratorio deriva da fattori noti e quanto invece è casuale? Quanta è la proporzione di caso
in questi risultati? E questa domanda si trasforma in: quanto è probabile che il risultato è osservato si è
vera l’ipotesi che desidero rifiutare? Se fosse vera l’ipotesi nulla, quanto sarebbe probabile il risultato che
ho osservato in questo studio?

L’innovazione dello sviluppo della disciplina dipendono dalla capacità della corrispondente accettazione o
rigetto delle ipotesi in base ai risultati, il cosiddetto test delle ipotesi. Le teorie psicologiche si trovano in
questo momento in bilico tra l’approccio di Popper che le assoggetta al pericolo della falsificazione e il
paradigma basato sui test della significatività statistica di Fisher. È una situazione in bilico sull’orlo del
baratro dello “Scientificamente privo di significato” così come definito da Mehl nel 1978.
È doveroso sottolineare che la metodologia psicometrica mantiene gli stessi fondamenti degli esperimenti
che sono cruciali nella fisica teorica, delle analisi condotte nelle corsie degli ospedali del controllo di qualità
ecc. Quindi questi fondamenti degli esperimenti sono comuni. L’analisi dei risultsti dei test psicologici
costituisce una parte irrinunciabile dell’attività pratica e gli psicologi devono essere consapevoli delle fonti
dei dati per sfuggire a quel fenomeno che Mitchell definisce “disturbo del pensiero metodologico” ovvero
l’incapacità di prendere atto di evidenze metodologiche relativamente chiare.

OPPORTUNITA’ E RICADUTE SULL’ADOZIONE DEL DSM E ICD

Cardini fondamentali del Diagnostic and Statistical Manual of Mental Disorders:

• nosografico: I QUADRI SINTOMATOLOGICI SONO DESCRITTI A PRESCINDERE DAL VISSUTO DEL singolo e
sono valutati in base a casistiche frequenziali

• ateorico

• assiale raggruppa i disturbi su 5 assi per semplificare una diagnosi che sia più standardizzato possibile

• su basi statistiche: abbiamo detto che la valutazione si fa in modo frequenziale e il sintomo acquista
valore come dato frequenziale, i concetti di media, moda, mediana, varianza, correlazione, giungono ad
essere il mezzo attraverso il quale si valuta o meno la presenza di un disturbo mentale

Il DSm è il manuale fondamentale, l’ICD si sta adeguando e probabilmente si arriverà a una classificazione
condivisa, comunque al momento non c’è un sistema di classificazione esente da critiche. Questi sono
sistemi categoriali con approccio di tipo prototipico, insieme a modelli nosologici e criteri diagnostici
politetici. La nosologia si occupa della classificazione sistematica delle malattie e le decisioni vengono
influenzate simultaneamente da molte variabili, se possibile tutte quelle che sono coinvolte.

Le diagnosi di DSM e ICD passano attraverso classificazioni categoriali, in una classificazione categoriale
ideale le classi sono categorie separate concettualmente, quindi non possono esserci casi appartenenti a
due classi contemporaneamente ed è in base alle ipotesi che i membri di una stessa classe siano omogenei
che diverse classi si escludono in modo reciproco.

Nella pratica però, dove le assegnazioni sono date con descrizioni di sintomi, non può essere utilizzato un
approccio categoriale classico ma un approccio prototipico. I membri di una classe sono individuati in base
alla somiglianza al prototipo di quella classe e sono relativamente eterogenei tra di loro. Inoltre a differenza
di altri campi della medicina, in psicologia non esistono criteri basati su sintomi considerati di per se
sufficienti per formulare una diagnosi.

Si usano spesso insiemi di criteri politetici per una diagnosi, non si richiede quindi che tutti i criteri elencati
siano soddisfatti ma solo un certo numero, ad esempio devono essere presenti almeno 4 sintomi di un
elenco di 7.

Nell’alveo della psicoanalisi è nato anche un dibattito contro la pervasività di questo sistema nosologico.

I criteri del DSM per la costruzione di test e questionari psicologici ma anche per definizioni di alcune
categorie nosografiche, sono stati spesso messi in discussione. Soprattutto perché sono soggetti
all’influenza della cultura di origine, ad esempio fino al 1973 l’omosessualità era presente come malattia
nel manuale e dopo essere stata eliminata dal DSM è stata inserida nuovamente come omosessualità
egodistonica, intesa cioè come l’incapacità del soggetto di riconoscere o accettare la propria omosessualità
vivendola in maniera conflittuale. Quindi la critica principale è sull’adeguatezza della valutazione della
situazione clinica del soggetto, sulla scelta dei cut-off, sui criteri soglia di ogni categoria del dsm e questi
elementi tutti insieme determinerebbero una diagnosi di disturbo mentale anche in persone con 3 delle
caratteristiche richieste al pari di soggetti che invece ne hanno sei. La spiegazione nosografica intesa come
descrizione della malattia psichiatrica a partire da questo etichettamento, non sempre corrisponde alla
realtà e spesso appare troppo lineare o semplificata. Il DSM dovrebbe rispondere più a esigenze di tipo
epidemiologico che alla prassi clinica, sembra quindi che si propongano classificazioni patologiche ideali
senza una profonda commprensione della complessità dei disturbi.
MODULO 3 COVARIAZIONE E CAUSAZIONE

Abbiamo parlato di validità interna della ricerca ovvero della capacità che ha uno studio di rilevare in
maniera reale intesa come statisticamente significativa il nesso causale tra variabile dipendente e
indipendente che abbiamo chiamato fattore all’interno del disegno sperimentale clinico o che abbiamo
chiamato ad esempio predittore, mentre la variabile dipendente l’abbiamo chiamata anche variabile
outcome, variabile risultato, all’interno del nostro disegno clinico.

Si parlerà di Causalità e rapporto tra variabili prendendo il concetto di modello logico, considerando il ruolo
delle variabili all’interno della ricerca e si vedrà anche il tipo di variabile, se empirica, osservata o teorica
latente. Si vedrà come la causalità influenzi la finalità con cui si predispone un disegno della ricerca. Si
vedrà come la relazione tra variabili possa essere il metodo con cui si scompone la varianza di un punteggio
osservato secondo la teoria classica dei test o altri metodi. Oltre al problema della misurazione, il
ricercatore nelle scienze sociali (behavioural science) ha molto a che fare con il problema della causalità. Il
primo pensiero è dimostrare quali sono le cause di un disturbo, es, in psicologia del lavoro quali sono le
cause di un tipo di ambiente lavorativo o i fattori di rischio. Il concetto di causalità è intrinseco a allo stesso
pensiero scientifico, che nasce con l’idea di trovare la causa di ciò che accade e si è sempre cercato di capire
come questa causa potesse essere intesa come cambiamento di una variabile ed effetto prodotto sul
cambiamento di un’altra variabile. Questo cambiamento di una variabile è inteso come variabilità. La
nozione di causa come fondamento di una scienza empirica è sempre stata messa in discussione dai filosofi.
La causa in realtà non è qualcosa di direttamente osservabile e i filosofi, soprattutto nell’ultimo secolo
hanno parlato di ciò, quando si è sostenuto che la ricerca empirica può al massimo constatare come
avvenga una variazione simultanea di 2 fenomeni o una successione di accadimenti in tempi molto ristretti,
ma come in questi due casi (quando c’è una variazione simultanea o 2 eventi che si succedono uno dopo
l’altro) queste modalità non sono sufficienti a dimostrare una relazione causale.

È vero che una legge causale non può essere provata empiricamente, però empiricamente può essere
almeno controllata in alcuni risultati ipotizzati. Se il metodo induttivo non ci aiuta a verificare un’ipotesi
empiricamente, possiamo adottare il metodo del falsificazionismo. Il metodo induttivo dice: spiego a
seguito di tante osservazioni che vanno nella stessa direzione, un fenomeno come futuro o come causa. Se
io osservo per un giorno solo che il sole sorge, ho il dubbio che il sole sorgerà il giorno dopo, ma dato che
fin dall’antichità le persone vedevano che il sole sorge tutti i giorni per tantissime prove (come se fosse una
osservazione ripetuta di uno stesso fenomeno) il metodo induttivo dice che quando ho raccolto tante prove
(quindi osservazioni) a supporto della mia ipotesi, posso dire che quella è in realtà una legge empirica. Il
sole sorge perché è sempre sorto. Questo approccio in realtà è molto limitato perché basta un solo caso in
cui la regolarità osservata non si verifica per falsificare la teoria scientifica. In passato si era sempre
pensato, per regolarità osservativa, che esistessero solo cigni bianchi e dal punto di vista teorico in ambito
biologico si era definito come caratteristica fondamentale del cigno che il colore dovesse essere bianco per
le osservazioni infinite di questo fenomeno, ma dopo la scoperta dell’Australia si videro dei cigni neri. Black
swan (Cigno nero in inglese) è tuttora il termine con cui si indica un risultato che non rientra in ciò che la
teoria prevede e la mette in crisi.

La procedura per la quale invece si falsifica una ipotesi nulla implica che: se riesco a trovare una sola
osservazione che riesce a dimostrare che i cigni non sono tutti bianchi allora sarò certo che non tutti i cigni
sono bianchi. In altri termini, se volessi dimostrare che ci sono anche delle ricadute del contesto familiare
nell’influenzamento del comportamento deviante di un soggetto. La mia ipotesi di ricerca generale è che
bambini e persone che vivono in un contesto familiare che presenta dei disagi o soggetti con
comportamenti devianti hanno un rischio maggiore di chi vive in un contesto più asettico. Ora se osservassi
solo famiglie devianti, per metodo induttivo non riuscirei mai ad essere sicuro di escludere il contrario che
potrebbe verificarsi anche con un singolo caso discordante, invece si fa una raccolta dati testando l’ipotesi
che NON vi sia influenza tra un contesto critico e una maggiore devianza degli appartementi a quella
famiglia e se io riesco a rigettare l’ipotesi nulla per cui non vi è questa relazione, allora posso accettare
l’ipotesi alternativa e affermare che vi è una relazione tra un contesto a rischio e comportamento deviante.
Tornando alle 3 rivoluzioni scientifiche: la teoria del caos, la teoria dell’indeterminatezza e della relatività,
queste hanno messo in crisi la capacità delle scienze naturali di fare un ragionamento causale, invece per le
scienze sociali, (per le quali non è mai stato possibile osservare in modo oggettivo alcuni fenomeni e isolare
per sistemi facendo variare la variabile indipendente e andando poi a osservare la dipendente) questo tipo
di discorso è stato sempre più chiaro. Il metodo che adesso la scienza segue in termini generali è quello di
formulare le ipotesi e confrontare quanto i risultati previsti dalla teoria sono in accordo con quelli osservati.

Dal punto di vista puramente osservativo noi abbiamo una similarità tra Covariazione e causazione, perché
entrambe alla fine riguardano la compresenza di 2 fenomeni o una successione breve di due eventi, in
realtà esse sono molto diverse tra di loro.

La covariazione: afferisce all’osservazione empirica

La causazione: afferisce al modello teorico.

Mentre il fatto che la variabilità di una variabile e la variabilità dell’altra sono direttamente osservabili in
natura, il NESSO CASUALE esiste soltanto nel cosiddetto mondo teorico, cioè nel mondo del non osservato.
Questo nesso causale infatti non è direttamente osservabile.

• La Covariazione (o covarianza, o correlazione, o associazione …) sono semplicemente degli indici che noi
calcoliamo a partire da dati osservativi di minimo 2 variabili che presentano variazioni concomitanti, le
variabili sono diverse ma contemporaneamente osservate o immediatamente osservate: al variare di una
corrisponde il variare anche dell’altra, se ad es. un soggetto è misurato contemporaneamente o in modo
immediatamente successivo sulla sua autoefficacia e sulla sua prestazione e si vuole dimostrare che
l’autoefficacia causa la prestazione, in realtà noi possiamo solo osservare contemporaneamente che a
diversi livelli di autoefficacia corrispondono diversi livelli di prestazione o performance, ciò che ci interessa
dire a livello psicologico è come questo costrutto dell’autoefficacia causi la performance e il suo differente
livello (che è una questione più rilevante).

• La Causazione per poter essere dimostrata implica due elementi ulteriori rispetto alla semplice
covarianza:

Perché si possa passare da una condizione di covariazione a una di causazione ci devono essere due
elementi successivi:

Ø La direzionalità (o asimmetria) dell’azione: Prevede che la variabile indipendente, la variabile predittore,


antecedente preceda la variabile dipendente, la variabile outcome o variabile conseguente. Da un punto di
vista cronologico ad es. possiamo dire che la quantità di ore di studio causano la performance all’esame. Le
ore di studio avvengono prima e il voto d’esame dopo. Non posso dire il contrario, ovvero che aumentando
il voto aumentano automaticamente le ore di studio. L’antecedente non può essere modificato. Nel caso
della covariazione il coefficiente di correlazione è invece un coefficiente simmetrico, quindi se c’è
correlazione tra ansia e depressione , se non sono in una situazione sperimentale non so dire cosa viene
prima, sono due costrutti che variano insieme ma non è chiara questa interazione. Sono ansioso perché
sono depresso o sono depresso perché sono ansioso? Quindi è chiaro come sia difficile in psicologia
determinare la causa. Non posso creare l’ansia in un soggetto per vedere se poi questa porta alla
depressione o viceversa e nel momento in cui il soggetto le ha entrambe non posso dire quale è arrivata
prima. Nella causazione esiste una causa e un effetto; il variare di una variabile precede il variare dell’altra
mentre nella covariazione esiste solo la concomitanza di variazione;

Ø il legame diretto tra le due variabili, nel senso che il variare dell’una è dovuto (e non solamente associato)
soltanto al variare dell’altra. Questa è una questione più complicata perché afferisce al disegno
sperimentale, perché solo col disegno sperimentale io controllo tutte le altre variabili e annullo l’effetto
delle variabili confondenti, quindi questo legame diretto delle due variabili vuol dire che tenuto sotto
controllo tutte le altre possibili cause, solo allora posso dire che vi è un legame diretto tra l’una e l’altra e
solo tra quelle due.

La causalità non è direttamente osservabile perché se io facessi cadere una penna sulla scrivania e chiedessi
qual è la causa della caduta della penna, sarebbe chiaro presupporre che la causa sia la forza di gravità o la
legge della accelerazione uniforme dei corpi, ma in realtà si è semplicemente visto contemporaneamente
qualcuno che lascia andare la penna e la penna che cade su una scrivania che sono due elementi legati da
ciò che noi abbiamo interpretato come forza di gravità, cioè il fatto che la penna sia stata lasciata e
contemporaneamente sia caduta, ma di fatto nessuno ha visto la forza di gravità che al massimo si può
vedere scritta quando la si studia, (come accade in statistica quando si studia ad es. la funzione di densità
della distribuzione di una variabile aleatoria continua). Quindi spesso la causa, anche in termini osservativi e
anche nell’ambito delle scienze naturali, non è osservabile. Ciò che noi osserviamo è la compresenza di due
elementi e se ci sono queste difficoltà per le scienze naturali che hanno a che fare con cose inanimate su cui
abbiamo un potere massimo di manipolazione, nelle scienze del comportamento la difficoltà è maggiore.

La covariazione implica causazione:

Falso: sono necessarie altre caratteristiche della relazione

Altro esempio: nel gioco del biliardo c’è una stecca con la quale si colpisce una pallina che poi si muove
colpendo altre biglie e alcune di esse finiscono in alcune buche, se però noi registrassimo con una
telecamera ad alta frequenza il movimento della stecca e il successivo movimento della pallina, vedremo
due cose: si vedrebbe fotogramma per fotogramma questa stecca che si avvicina alla pallina, un momento
in cui questi due elementi si toccano, e poi altri fotogrammi in cui la pallina e la stecca si allontanano.
Quindi vediamo contemporaneamente 2 elementi, uno si muove e uno rimane fermo, poi si sono toccati, e
poi contemporaneamente si è visto che la stecca torna indietro e la biglia si muove. Anche questo esempio
è spiegato con le forze che intervengono tra questi due elementi, ma la causa (le diverse forze) è solo nella
mente di chi osserva perché a livello teorico si conosce il concetto di forza e si spiega una contemporaneità
di elementi attraverso questa causa. La questione in realtà è molto più complicata in ambito psicologico.
PRIMI 4 MODELLI CAUSALI

Vedremo i 5 modelli di relazione principali e come questi 5 modelli di relazione tra le variabili siano in grado
per quanto semplici di assicurare una possibilità per il ricercatore di impostare una ricerca che dia dei
risultati di tipo valido dal punto di vista del nesso causale alla base della relazione tra le variabili. I modelli di
relazione tra variabili sono 5, il primo è

il modello della relazione causale diretta, (ricordiamo che la relazione causale è tale se in aggiunta alla
covarianza tra due variabili abbiamo anche una asimmetria della relazione, ovvero un antecedente e un
conseguente e una esclusività della relazione, quindi come questo effetto rilevato sia dovuto
semplicemente e soltanto alle 2 variabili prese in considerazione.) Per quanto riguarda la relazione causale
diretta vedremo al massimo dei modelli costituiti da 3 variabili. Nel primo esempio la variabile x e la
variabile y sono due variabili osservate, potrebbe essere il titolo di studio che causa il consumo culturale o il
livello di ansia che causa la prestazione e così via. È il tipo di relazione di maggiore interesse da parte del
ricercatore perché la teoria scientifica nella maggioranza dei casi è un insieme di proposizioni causali per lo
più di tipo diretto che vengono di volta in volta controllate e affermate. Le variabili sono legate da una
relazione causale diretta quando un mutamento della variabile causa produce un corrispondente
mutamento nella variabile effetto. Ricordiamo che questo tipo di rappresentazione è chiamato modello
logico. Hayes lo chiama conceptual framework, griglia concettuale o schema concettuale. All’università
John Hopkins lo chiamano causal model, la cosa importante è che in questo tipo di modello l’unica
relazione prevista è la relazione causale. La freccia indica la relazione e la punta della freccia indica la
direzione della relazione dalla variabile indipendente x alla variabile dipendente y e il fatto di avere solo
questo tipo di relazione specifica il modello causale. Un modello è una rappresentazione grafica visibile che
però è sintetica rispetto alla realtà (nel campo delle tossicodipendenze si può fare ad esempio una
semplificazione considerando la quantità del metadone assunto confrontato col numero dei giorni di
astinenza, senza considerare le altre variabili, ad es. se il soggetto vive in comunità o no). Il ridurre a solo 2
variabili questo tipo di relazione vuol dire che il modello è sintetico ed anche efficace perché ci permette di
comprendere come dovrebbe funzionare questa relazione tra variabili. I modelli possono essere grafici e
intesi come relazione tra due forme ma possiamo considerare anche una curva normale come un modello:
la distribuzione campionaria della media è un modello teorico che noi utilizziamo per confrontare dei
risultati empirici del nostro campione con quello che dovrebbe essere teoricamente previsto. Anche nel
caso della curva normale abbiamo una rappresentazione grafica con all’asse x i valori della nostra variabile
x e in ordinata la frequenza con cui noi osserviamo questo tipo di valori
La relazione causale reciproca prevede la presenza di solo 2 variabili ed è leggermente più complessa da
studiare e spesso dato che il soggetto non compie una sola operazione nella sua vita e ciò che precede è
sempre causa di ciò che avviene successivamente e queste relazioni talvolta sono reciproche e ciò che è
causato dalla x determina un livello tale che c’è un ritorno dalla y sulla x. In questa relazione viene meno il
senso generale della distinzione tra variabile causa e variabile effetto perché in successione sono entrambe
causa dell’una, quindi effetto dell’una e causa dell’altra, quindi effetto dell’altra. Le variabili si influenzano
reciprocamente, si pensa a quello che succede tra domanda e prezzo dove una elevata domanda fa alzare il
prezzo di un prodotto e questo prezzo del prodotto a sua volta agisce sulla domanda perché il prezzo alto la
fa diminuire e se il bene non viene venduto il prezzo dovrebbe tendere a diminuire

Poi abbiamo la relazione causale spuria che è l’incubo del ricercatore, perché per poter capirla bisogna
pensare che si parte dal presupposto che vi sia una relazione tra x e y, che y sia causa di x, per poi scoprire
che la relazione in realtà è una relazione sbagliata, non esiste, ed in realtà la covariazione, la compresenza
dei 2 elementi x e y è spiegata conteporaneamente da una terza variabile. Ora, se all’interno della nostra
ricerca noi non avessimo previsto ulteriori variabili, la variabile z sarebbe inesistente e noi saremmo portati
ad affermare ed anche a scrivere sull’articolo che x determina y, quando però un altro ricercatore
conducesse una ricerca con la presenza anche di z, si capirebbe che questa relazione non esiste più e che
noi abbiamo commesso un errore nella spiegazione causale, quindi la covariazione tra due variabili x e y in
realtà è provocata (ma la causa è sempre prevista dal punto di vista teorico) da una terza variabile z che
agisce contemporaneamente su x e y. Diversi esempi sono riportati rispetto a variazioni paradossali di
covariazione, ad esempio se ne è trovata una tra n. di pompieri usati per spegnere un incendio e danni
provocati dall’incendio stesso che vuol dire che andando a prendere due variabili es. x= numero pompieri e
y= danni provocati dagli incendi, si è visto che c’era una correlazione positiva, quindi 3 pompieri
corrispondevano a 20000 euro di danni e 10 corrispondevano a 50000 euro, quindi una correlazione
positiva. Dal fatto però che vi siano più pompieri e più danni
contemporaneamente, non possiamo dire che la causa dei danni è il numero di pompieri, ma è evidente
che c’è una tesrza variabile che influenza x ed y e la terza variabile è in questo caso determinata dalla
grandezza dell’incendio, che se più grande richiede un maggior numero di pompieri e determina maggiori
danni. Altro es. correlazione positiva tra Numerosità dei nidi di cicogna e numero di bambini nati, cosa
impossibile da affermare dal punto di vista causale. Nel caso delle cicogne il fatto che nelle zone rurali si
fanno più figli e che le zone rurali attirino più cicogne, è chiaro che la variabile z è la differenza geografica
tra zone rurali e urbanizzate ED è QUESTA A Influenzare sia le x che le y.

In una relazione causale spuria l'introduzione della terza variabile cancella la relazione tra le prime due.

Correct

Vero

Giusto, perchè entrambe dipendono dalla terza

La quarta modellizzazione delle relazione causale è insieme alla quinta la più studiata negli ultimi anni a
partire da fine anni 90 soprattutto grazie alla diffusione dell’information technology, personal computer e
strumenti dedicati alla statistica con SPSS tra tutti e plug in speciali che permettono di generare una analisi
causale indiretta o una relazione causale moderata che è il quinto modello. Con questi sistemi i 2 modelli
sono analizzati in maniera più facilitata dal punto di vista tecnico pratico. Quello che ci interessa è la
comprensione delle modalità teorica con cui viene condotto questo tipo di studio e come si configuri
questo tipo di relazione.

Relazione causale indiretta (mediata)

Variabile mediatore o mediatrice - "In generale, si può dire che una determinata variabile funge da
mediatore nella misura in cui incide sulla relazione tra predittore e criterio. I mediatori spiegano come gli
eventi fisici esterni assumono un significato psicologico interno. Mentre le variabili del moderatore
specificano quando alcuni effetti possono verificarsi, i mediatori parlano di come o perché tali effetti si
verificano". pag. 1176 del famoso articolo di Byron e Kenny (1986) The Moderator-Mediator Variable
Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical Considerations. Journal of
Personality and Social Psychology, 51, 1173-1182. Traduzione del titolo: Considerazioni di tipo concettuale,
strategic e statistico dice che non si tratta solo di un problema concettuale ma anche statistico e di ricerca.

Ora si ha una relazione casuale indiretta tra x e y e questa relazione tra x e y è spiegata in questo modo:
parte della variabilità condivisa tra x e y è dovuta a z, poi si ha una relazione causale indiretta completa se
z assorbe tutta la variabilità e questa relazione diretta tra x e y scompare (Es. famoso di correlazione tra
etnia e test di intelligenza, questa relazione è sparita inserendo una variabile z che era il livello di istruzione.
Nella realtà che era stata considerata le minoranze etniche erano meno istruite, sappiamo infatti quanto il
QI sia influenzato dall’intelligenza cristallizzata) oppure abbiamo una relazione causale indiretta parziale se
nonostante l’inserimento di z si spiega parte della variabilità ma questa relazione tra x e y sussiste in modo
statististicamente significativo in ogni caso. Il legame causale mediato da una terza variabile è una
situazione meno grave di quella spuria, anzi molta della ricerca si spinge a individuare delle variabili che
indirettamente intervengono in una relazione. Z funge da ponte tra x e y e attraverso z risultano collegate
queste due variabili. Nel caso della relazione di tipo spurio l’influenza della relazione tra x e y è puramente
illusoria mentre in questa situazione la relazione persiste ma avviene in uncerto modo.

In realtà il nesso tra x e y è una specie di catena causale tra variabili nel caso di relazione causale mediata,
tornando all’esempio precedente l’essere una persona appartenente a una minoranza determina in alcuni
casi una minore istruzione e ciò non significa che ci sia una relazioe tra etnia e QI.

Il test generale della mediazione consiste nell’esaminare i fatti e quindi la relazione tra il predittore e le
variabili criterio, tra il predittore e le variabili mediatrici e la relazione tra variabili mediatrici e criterio,
ovvero si realizza la relazione tra x e z, tra z e y e tra x e y. Tutte queste correlazioni dovrebbero essere
significative e la relazione tra il predittore e il criterio (x e y) dovrebbe essere ridotta a zero nel caso di
mediazione totale, dopo aver controllato la relazione tra le variabili del mediatore e quella del criterio,
quindi analizzata la relazione tra x e z dovrebbe annullarsi o essere significativamente ridotta la relazione
tra x e y.

Altro modo di pensare al concetto di relazione causale indiretta è che la variabile influenza la forza delle
relazioni nelle altre 2.

RELAZIONE CAUSALE CONDIZIONATA (MODERATA)

Variabile Moderatore - "In termini generali, un moderatore è una variabile qualitativa (es.sesso, razza,
classe) o quantitativa (es. livello di ricompensa O Età ) che influenza la direzione e/o la forza della relazione
tra una variabile indipendente (o predittore) O ANTECEDENTE e una variabile dipendente o criterio (o
outcome) O CONSEGUENTE. In particolare, all' interno di un quadro di analisi correlazionale (siamo in uno
studio osservazionale in cui in realtà non potremmo fare affermazioni di tipo causale), un moderatore è una
terza variabile che influenza la correlazione di ordine zero tra altre due altre variabili. La relazione di ordine
zero è una relazione tra due elementi, ( quando parliamo di una variabile indipendente la possiamo
chiamare anche fattore) e quando abbiamo una variabile indipendente che influenza una variabile
dipendente abbiamo una interazione principale tra questi due elementi. [...] un effetto moderatore di base
può essere rappresentato come interazione tra una variabile focale indipendente e un fattore che specifica
le condizioni appropriate per il suo funzionamento". p. 1174

Nella terminologia più familiare agli psicologi l'analisi della varianza (ANOVA) nasce per spiegare l’effetto
che una variabile indipendente di base può rappresentare nella interazione tra una variabile indipendente e
un fattore che specifica le condizioni appropriate per il suo funzionamento. Negli esempi di ANOVA
abbiamo una variabile indipendente con delle modalità e per ciascuna di queste modalità abbiamo delle
medie e per ciascuna di queste medie si fa l’analisi della varianza per vedere se queste medie hanno delle
differenze significative tra di loro, ad esempio abbiamo una variabile indipendente che è il fattore di
trattamento, abbiamo ad esempio una terapia cognitivo-comportamentale di tipo individuale che porterà
alcuni soggetti (una media di soggetti) al miglioramento, poi abbiamo un’altra MODALITA’ di trattamento
cognitivo-comportamentale di gruppo che porterà un’altra certa media di soggetti al miglioramento e poi
avremo un terzo gruppo che sarà quello placebo, detto a volte “treatment as usual (TAU)” e in questo caso
queste 3 medie di miglioramento nell’analisi della varianza, si presuppone abbiano una differenza
significativa e si riesce a identificare se questa differenza tra le medie è significativa attraverso l’ANOVA.

Tornando alla relazione causale condizionata, la relazione tra le due variabili cambia a secondo del valore
assunto da una terza (z) e in questo modello nel quale sono rappresentate con dei quadrati sono tutte e tre
delle variabili osservate. Vediamo un esempio: in una famosa ricerca sull’ascolto della radio risultò una
assenza di relazione tra l’età dei soggetti e l’ascolto della musica classica, questo contrariamente alle
aspettative degli sperimentatori che ipotizzavano un pubblico di anziani per questo tipo di musica. La forza
dell’approccio di relazione causale mediata e moderata (negli ultimi 20 anni si è diffusa molto questo tipo di
analisi), è il fatto di poter fare successive ipotesi anche a partire da condizioni già conosciute. Nel caso della
relazione causale mediata da una relazione conosciuta tra x e y che esiste, io poi vado a individuare un
terzo elemento, una terza variabile z che può spiegare come avviene questa relazione tra x e y. Nel caso
della relazione causale condizionata, paradossalmente anche nell’assenza di relazione posso andare a
cercare se vi è una terza variabile che potrebbe influenzare la nostra capacità di intercettare una relazione
significativa tra le variabili. E con l’introduzione della terza variabile, la relazione tra x e y cioè tra l’età di
soggetti della ricerca sulla radio e la musica classica, emerse. Sebbene in modo più complesso rispetto a
quello più semplice ipotizzato dai ricercatori. Questa terza variabile è il livello di istruzione degli ascoltatori,
perché i ricercatori si resero conto che tra i più istruiti esisteva la relazione attesa tra aumento di ascolto
della musica classica col progredire dell’età, viceversa, a livello di istruzione inferiore il grado di ascolto
diminuiva col progredire dell’età. La spiegazione data dai ricercatori viene spiegata con il fatto che per le
persone meno istruite si verifica un progressivo allontanamento dalla fruizione di interessi di carattere
culturale. Col progredire dell’età e con l’allontanarsi dal periodo scolastico, nelle persone che hanno un
livello culturale più basso c’è un continuo indebolimento di fruizione di tutti gli interessi di tipo culturale. Se
vogliamo comprendere meglio questa situazione proviamo a disegnarla immaginando sull’asse delle x la
variabile età, Y=fruizione della musica classica e poi abbiammo la variabile z con due livelli, il primo con una
linea tratteggiata che chiameremo livello di istruzione alto e il secondo con una linea continua che
rappresenta un livello di istruzione basso. Disegnando queste linee abbiamo che ad un aumento dell’età, la
linea tratteggiata sale e c’è un aumento della variabile musica classica e invece per livelli bassi di istruzione
abbiamo una linea che va in direzione opposta, per cui quando i soggetti sono giovani e vanno a scuola
hanno una fruizione alta di musica classica che poi con l’età va a diminuire

Non è detto che sia sempre così, ma può essere anche che questi due livelli della variabile z siano
maggiormente corrispondenti a valori maggiori o minori ma la tendenza è per entrambe le modalità della
variabile z è ad aumentare (grafico 1), mentre può darsi anche che ci siano differenze nella forza della
relazione per cui magari in una modalità di z questa relazione scende molto velocemente e nell’altra
modalità di z questa scende molto più gradualmente (grafico 2), quindi vanno nella stessa direzioni con due
velocità diverse (dovute magari al genere, come a voler dire che una diminuzione delle performance per i
maschi è molto più veloce, per le femmine è più lenta, sempre nella stessa direzione)

Nell’esempio precedente abbiamo due tendenze opposte che fanno si che a livello globale senza
l’introduzione della variabile istruzione non emerga la covarianza tra le due variabili x e y, questo non vuol
dire che non esista una relazione positiva tra età e ascolto o che questa sia mascherata dalla presenza di
una relazione negativa, semplicemente essendo la relazione diversa all’interno della nostra popolazione, ci
troviamo nel caso di una relazione che assume un segno diverso a seconda di una terza variabile. Siamo
all’interno di un campo delle relazioni non lineari che sono le più difficili da trattare in termini di
formalizzazione matematica e di nessi causali. In questa rappresentazione è semplice perché abbiammo a
che fare con 3 variabili, ma quando il modello si modifica diventa più complesso.
La variabile moderatore è un elemento della relazione causale indiretta

. Correct answer: Falso. Your answer: Falso

Esatto, è un elemento della relazione causale condizionata

Differenza tra mediazione e moderazione: per quanto riguarda la mediazione, la relazione tra curiosità e
apprendimento viene spiegata in parte dal desiderio di scoperta, quindi la mediazione di dice come (How in
inglese) avviene la relazione tra x e y e può essere un come che spiega completamente questa relazione,
quindi la relazione tra x e y scompare oppure questa correlazione può rimanere parzialmente presente

Per quanto riguarda la moderazione, la moderazione non ci dice come ma quando, quando la relazione tra
curiosità e apprendimento avviene? La curiosità determina l’apprendimento quando il livello di distrazione
è basso (B). Quando invece il livello di distrazione è alto (A), la relazione tra curiosità e apprendimento non
è presente. Se il bambino è talmente curioso da cambiare costantemente il focus di attenzione, si distrae e
non apprende, viceversa la sua curiosità è finalizzata e riesce ad apprendere in modo più efficace.
La direzionalità della relazione causale: le tre variabili che vediamo al primo rigo danno luogo, in questo
modello logico, ad una relazione causale in cui l’autoefficacia media tra formazione e prestazione.In questo
modello logico il soggetto studia, questo aumenta la sua autoefficacia e si ha una migliore performance. Ci
sono modelli logici (causali ) alternativi che possono spiegare la relazione tra queste 3 variabili?

Al secondo rigo c’è un modello alternazivo: La formazione influenza la performance e queste performance
migliori determina maggiore auto efficacia e poi al rigo successivo abbiamo migliori performance che
aumentano la percezione di autoefficacia e di conseguenza il training e nell’ultimo rigo abbiamo
l’autoefficacia che fa aumentare lo studio e di conseguenza la performance.

Ciò per dire che la direzionalità della relazione causale non è per forza determinata dalle variabili in gioco.
Ci sono poche variabili che sono sempre indipendenti, es. genere, età, nazionalità non possono essere
modificate da altri e sono sempre antecedenti (indipendenti); per tutto il resto è il ricercatore che in base al
proprio modello logico e alla propria ipotesi decide cosa possa ricoprire il ruolo di variabile indipendente o
un ruolo di variabile dipendente, questo di nuovo sottolinea come la causalità sia un discorso che avviene a
livello teorico del ricercatore e non sia dipendente direttamente dal tipo di analisi statistica che si fa o dal
tipo di variabile che si sta prendendo in considerazione

È importante il fatto che in alcuni modelli vi siano ulteriori variabili che vengono rappresentate con dei
cerchi o con ellissi. Nei termini di metodologia e rappresentazione di questi modelli, vengono rappresentate
con dei cerchi le variabili latenti, cioè non direttamente osservate.

Al punto 3 la z è una variabile spuria e non direttamente osservata che influenza contemporaneamente x e
y, nel punto 4 abbiamo un sistema di variabili latenti che causano x e y. Un altro esempio di variabile che
viene considerata una variabile latente non misurata che viene rappresentata all’interno dell’analisi
fattoriale, è l’errore di misurazione, rappresentato con un cerchio con la lettera e .
L’errore di misurazione non è misurato direttamente, è una variabile latente. Quindi oltre a queste variabili
osservati ci sono dei sistemi o metodi di analisi detti ad esempio pattern analysis, in cui non ci sono solo
variabili osservate ma anche altre variabili rappresentate poi con ulteriori simboli

I DISEGNI DI RICERCA.

Adesso tratteremo i disegni di ricerca da un’altra prospettiva. La tassonomia o classificazione che abbiamo
presentato suddivide i disegni della ricerca in SPERIMENTALI, QUASI SPERIMENTALI E OSSERVAZIONALI.

In realtà Lanz propone un’altra classificazione dei disegni di ricerca sulla base degli scopi e delle assunzioni
scientifiche e sulla combinazione di 4 opzioni procedurali:

Sono le quattro opzioni elencate al centro: sulla misura della variabile dipendente, in particolare sul modo
di sottoporre i gruppi al trattamento (i riquadri bianchi) e poi sul numero delle variabili indipendenti e
quindi il tipo di controllo sulle variabili estranee (riquadri in grigio). È una tipologia leggermente diversa che
viene utilizzata soprattutto in ambito clinico però vale la pena approfondirla perché fornisce un altro taglio
di analisi. Il taglio diverso è costituito dalle finalità della ricerca che assumono una importanza più rilevante
(primo riquadro). Le finalità possono essere quelle di predire, spiegare o comprendere. In base alla misura
della variabile dipendente si definiscono due tipologie di disegno. Laddove la misurazione della variabile
dipendente sia eseguita sia prima che dopo il trattamento con pre test e post test, allora abbiamo variabili
che variano all’interno dei soggetti (within subjects design – al secondo riquadro bianco centrale) gli stessi
soggetti vengono prima misurati sulla variabile dipendente es. ansia sia prima che dopo il trattamento e la
variabile indipendente trattamento agisce all’interno dello stesso soggetto (entro il soggetto o entro i
gruppi). In questo caso c’è un cambiamento tra pre e post misurazione.

Ladddove invece abbiamo 2 gruppi diversi che vengono messi a confronto su modalità diverse della stessa
variabile indipendente, quindi abbiamo ad es, il trattamento individuale cognitivo comportamentale
individuale per i soggetti del gruppo sperimentale e un placebo per il gruppo di controllo, abbiamo soggetti
diversi e gruppi diversi, quindi il disegno è between subject design. Quindi tra i gruppi o soggetti è between,
entro i gruppi o soggetti è within. I modi di sottoporre a trattamento i gruppi sono:

ogni gruppo sottoposto ad un solo livello della variabile indipendente e quindi si ha un disegno
sperimentale “between group o subject design” oppure ogni gruppo sottoposto a tutte le condizioni del
trattamento e in questo caso abbiamo il disegno entro i gruppi, entro i soggetti, quindi “ within group o
subjects design”.

Dall’altro lato (riquadri in grigio) abbiamo anche una suddivisione che deriva dal numero di variabili
indipendenti che si decide di prendere in considerazione, se ne abbiamo solo una abbiamo un solo effetto
principale, altrimenti con due o più variabili abbiamo i disegni fattoriali. Questa ultima dimensione è più
vicina all’ambito di ricerca psicologica perché l’ambito sperimentale si è sviluppato attorno all’approccio
statistico dell’ANOVA (analisi della varianza), nella quale la variabile indipendente viene chiamata fattore.
Bisogna stare attenti a non confondere il DISEGNO FATTORIALE con L’ANALISI FATTORIALE.

Il disegno fattoriale è un disegno della ricerca che ha 2 o più variabili indipendenti

L’analisi fattoriale è una tecnica statistica effettuata con il software, quindi si riduce la variabilità totale di
un insieme di variabili in dimensioni latenti di numero minore.

Dove abbiamo una sola variabile indipendente abbiamo un effetto principale, ad esempio una variabile
indipendente può essere il genere e l’effetto di genere sull’ansia, quindi abbiamo i livelli della variabile
indipendente maschio/femmina che influenza l’ansia o abbiamo la variabile indipendente età 8-10 11-15
16-18 possiamo considerarli in modo ordinale e gli effetti sulla scala a intervalli dell’ansia.

Laddove invece abbiamo 2 o più variabili contemporaneamente, si considerano ad es. età ed ansia
contemporaneamente, abbiamo 2 effetti principali che corrispondono alle variabili indipendenti e poi un
numero di effetti di interazione che corrisponde alle combinazioni delle variabili indipendenti

Combinazioni di variabili indipendenti= sono uguali a r fattoriale fratto k fattoriale per n-k fattoriale.

Oltre ad analizzare l’effetto dell’età e del genere sull’ansia, si analizza anche l’effetto di età x genere, se ad
es. le donne del primo intervallo di età 8-10 sono diverse dai maschi 8-10. Se invece andiamo a vedere solo
il genere vedremo se 8-10 è diverso da 16-18 ecc

Va sottolineato che i disegni con un solo fattore tra i gruppi o intergruppi e quelli fattoriali che hanno più
fattori, non sono in sé considerabili sperimentali e lo sono solo se si prevede al loro interno, a seconda del
disegno scelto, il metodo casuale nell’estrazione-selezione del campione oppure il metodo casuale
nell’assegnazione dei soggetti alle condizioni o nell’ordine delle prove. Se non c’è questo fattore di casualità
randomizzato che lega il nostro disegno di ricerca alla teoria della probabilità, il disegno diventa allora quasi
sperimentale ma continua ad avere la dizione “tra i gruppi” o “entro i gruppi”. Il controllo tra le variabili
estranee in questi casi viene eseguito mediante il pareggiamento o il metodo dei blocchi.
Bisogna considerare che i differenti piani sperimentali vengono presentati secondo un certo schema:

Abbiamo prima i disegni con una sola variabile indipendente: in questo modo saranno suddivisi i disegni
sperimentali tra i gruppi indipendenti e i disegni sperimentali entro i gruppi, poi abbiamo i disegni con 2 o
più variabili indipendenti, quindi i disegni fattoriali. La cosa importante di questa classificazione di Lanz è
che ci permette di introdurre il concetto di finalità o predizione o spiegazione e comprensione di un certo
fenomeno

Questo illustra l’esperimento casuale controllato che abbiamo già visto nell’ambito del disegno
sperimentale nel quale abbiamo il trattamento con le misurazioni e le condizioni ed aspettative che
dovrebbero caratterizzare una differenza tra i gruppi.
In questo esercizio sulla finalità della ricerca scientifica dobbiamo stabilire se questi 3 abstract sono
classificabili come descrizione, predizione o comprensione.

Soluzione:

• Uno studio che si pone la finalità di descrivere mira a rilevare la presenza di un fenomeno e dei suoi
diversi aspetti e/o componenti o indagare l'associazione fra due o più costrutti/variabili. In questo caso il
primo abstract risponde a questo perché lo psicologo vuole indagare se le abilità di comprensione
aumentano in funzione dell’età del bambino, quindi vuole descrivere le abilità di comprensione a diversi
livelli e non ci dà spiegazioni sul perché queste abilità di comprensione dovrebbero aumentare, non ci dice
di quanto, non ci dice se sono in relazione con altri elementi, dice solo che a età diverse corrisponde
comprensione numerica diversa e non ci sono elementi legati alla creazione di randomizzazione di gruppi
sperimentali o di controllo

• Uno studio che si pone la finalità di predire ipotizza un legame di causa effetto fra le variabili. In questo
caso il secondo abstract, che appartiene a questa categoria, si ritrova in un ordine gerarchico non tanto di
proprietà di queste tre finalità quanto della possibilità di avere una validità interna più adeguata. In questo
caso lo psicologo ha l’obiettivo di predire se in base alle motivazioni degli studenti è possibile stabilire chi
intraprenderà lo studio della psicologia. In questo caso c’è questo tipo di ipotesi di predizione però manca
ancora il fondamentale elemento legato alla creazione dei gruppi e alla randomizzazione.

• Uno studio che si pone come finalità spiegare e comprendere ipotizza un legame di causa effettofra le
variabili e, attraverso la manipolazione della/e variabile/i indipendente/i, produce la/e variabile/i
dipendente/i. Determinare una ipotesi che sia verificabile attraverso la manipolazione delle variabili
indipendenti e quindi la misurazione degli effetti sulle variabili dipendenti. L’ultimo abstract propone dei
gruppi di numerosità diversa che corrispondono alle modalità della variabile indipente, quindi gruppi piccoli
e gruppi grandi sono una sorta di variabile indipendente che viene somministrata ai soggetti e questi
partecipanti vengono misurati in base all’adesione alla opinione espressa dalla maggioranza. La
manipolazione della variabile indipendente è in questo caso la manipolazione legata alla numerosità dei
gruppi che dovrebbero attraverso la loro espressione chiara di una opinione di maggioranza influenzare il
soggetto partecipante alla ricerca. Questa è una ricerca che presuppone quella proprietà del disegno che è
indicata come offuscamento, per cui il soggetto non sa bene a cosa sta partecipando e poi si va a vedere si
vi è stato un effetto, ovvero una modificazione della variabile dipendente.

È importante dire che queste tre finalità corrispondono anche alla tipologia di disegno della ricerca che
abbiamo esplicato in precedenza per cui:

la finalità di descrivere è più legata al disegno della ricerca correlazionale o osservazionale.

La finalità della ricerca del predire è più legata ai disegni quasi sperimentali

La finalità del comprendere è legata ai disegni della ricerca per esperimento.

Esempio

L'Istituto di Psicologia Sociale di un’università italiana ha realizzato una ricerca volta ad indagare lo stile
percettivo (campo-dipendente, campo-indipendente) prevalente tra gli adolescenti. A 250 adolescenti, tutti
studenti di scuola media superiore, sono state mostrate a video per pochi secondi delle figure ambigue, con
la consegna di indicare quale aspetto dell'immagine hanno visto per primo. In base alle risposte date, i
soggetti sono stati suddivisi in campo-dipendenti e in campo-indipendenti.

Qual è il campione? Qual è la popolazione di riferimento? Quali sono le variabili dipendenti e indipendenti?
(se esistono) e definire le finalità della ricerca

a) E’ una ricerca osservazionale. Finalità della ricerca: descrivere una situazione. Abbiamo un gruppo di
partecipanti alla ricerca costituito dai 250 adolescenti, non si può indicare come campione perché non è
stato estratto secondo una procedura di tipo campionario e non è una procedura campionaria di tipo
probabilistico e inoltre questi adolescenti non sono stati assegnati ad alcuna condizione in termini
randomici, quindi non sono un campione, non sono rappresentativi di tutti gli studenti della scuola media
superiore ma nonostante questo i 250 studenti hanno partecipato alla ricerca e sono stati sottoposti ad un
compito che prevedeva la suddivisione dei soggetti in campo dipendenti e campo indipendenti a seguito
della visione di un video e l’indicazione di quale aspetto di questo video era stato notato per primo. La
variabile in questo caso è una variabile legata allo stile percettivo, variabile che ha due modalità

modalità 1: campo-dipendente

modalità 2: campo-indipendente

non sono modalità ordinate ma solo categorie, quindi si tratta di una variabile di tipo qualitativo misurato
su scala nominale. Non c’è una manipolazione di questa variabile, quindi non c’è una variabile dipendente

Altro esempio:

È stata realizzata una ricerca che aveva l'obiettivo di individuare alcune delle variabili in grado di predire la
durata dell'impegno nell'attività di volontariato. Più precisamente stata indagata l'influenza delle
motivazioni sociali, valoriali, di conoscenza e di protezione dell’Io, così come teorizzate da Omoto e Snyder.

A tale scopo, nel 2000 stato somministrato individualmente un questionario a 80 giovani impegnati in
attività di volontariato alla persona. Il questionario conteneva, oltre alla domanda sul numero di anni di
impegno nel volontariato, la scala di Omoto e Snyder per la misurazione delle motivazioni (sociali, valoriali,
di conoscenza, di protezione dell'Io) al volontariato. Tale scala composta da 25 item con modalità di
risposta su scala Likert a 5 passi.

a)Anche in questo caso si intervistano 80 giovani impegnati in attività di volontariato che non sono stati
selezionati in modo randomizzato e quindi non è stato fatto il campionamento, sono soltanto 80
partecipanti alla ricerca che però hanno caratteristiche ritenute utili dai ricercatori, non abbiamo
randomizzazione neanche nei gruppi e quindi non si può effettuare la generalizzazione di questa ricerca.

Le variabili in campo sono le motivazioni di tipo sociale, valoriale ecc. teorizzate da Omoto e Snyder, quindi
la tipologia di motivazioni sono le variabili indipendenti, e queste variabili indipendenti dovrebbero
influenzare la durata dell’impegno nell’attività di volontariato. La durata dell’impegno nell’attività di
volontariato è una variabile dipendente misurata su scala a rapporti perché si parla di tempo e abbiamo
una variabile di tipo indipendente che viene misurata attraverso un questionario di 25 item con risposta
strutturata su scala Likert a 5 passi che essendo una scala Likert dà poi origine a una variabile che dovrebbe
essere considerata come ordinale ma trattiamo come una variabile su scala a intervalli e quindi di questi 25
item ciascuno corrisponderà ad alcune motivazioni e avremo queste variabili indipendenti
Finalità della ricerca: predire. Anche qui il fatto di non avere randomizzazione, quindi una manipolazione
della variabile indipendente e non abbiamo potuto modificare le motivazioni dei soggetti o li abbiamo
messi in condizioni diverse, ma abbiamo semplicemente chiesto quali erano le loro motivazioni e siamo
andati a vedere attraverso una variabile outcome qual’era la relazione

b) Variabili e relativa scala di misurazione:

- quantità di anni di impegno nell'attività di volontariato (variabile

quantitativa)

- motivazione sociale (variabile quantitativa)

- motivazione valoriale (variabile quantitativa)

- motivazione di conoscenza (variabile quantitativa)

- motivazione di protezione dell'Io (variabile quantitativa)

Altro esempio:

Un gruppo di psicologi vuole verificare se l’osservare le emozioni espresse nell'interazione tra due persone
influenzi la performance di chi osserva in interazioni successive. A 50 soggetti sono stati presentati due
scenari diversi. In entrambi gli scenari i soggetti sperimentali osservavano due persone (un proponente e un
ricevente) alle prese con la spartizione di 100 gettoni d'oro. Nel primo scenario il ricevente dell' offerta
esprimeva un'emozione di rabbia, nel secondo scenario di felicità. Veniva poi chiesto ad ogni soggetto
sperimentale di formulare un'offerta a una terza persona. Tale offerta poteva essere equa, a favore del
soggetto sperimentale, a favore della terza persona.

a) Siamo nella modalità della comprensione, questi soggetti vengono assegnati a 2 gruppi diversi: gruppi
che osservano l’interazione di due soggetti che sono chiamati confederati. (gli assistenti del ricercatore si
chiamano confederates, ovvero confederati, termine nato in accezione dispregiativa, perché i confederati
erano intesi come traditori, il ruolo di questi soggetti è il ruolo di ingannatore dei partecipanti a una ricerca)
Se l’emozione espressa in questa interazione è di tipo di gioia, ciò dovrebbe modificare la variabile
dipendente che in questo caso è la propensione che il partecipante ha a formulare un’offerta ad una terza
persona di tipo equo o a favore del soggetto sperimentale o a favore della terza persona.

Quindi siamo nell’ambito della comprensione di quali sono gli elementi che determinano il comportamento
e se andiamo a leggere nella prima frase ci si chiede se le emozioni espresse nell'interazione tra due
persone esterne influenzi la performance di chi osserva in un compito successivo del soggetto.

In questo caso abbiamo una variabile indipendente di tipo qualitativo quindi emozione di rabbia o
emozione di felicità. La variabile è l’emozione espressa dai 2 soggetti e le modalità sono gioia e rabbia,
mentre per la variabile dipendente abbiamo un’altra variabile di tipo qualitativo che è l’offerta equa a
favore del soggetto sperimentale o della terza persona

Finalità della ricerca: spiegare e comprendere

b) Variabili e relativa scala di misurazione:

- emozione (variabile qualitativa non ordinabile)


modalità 1: rabbia

modalità 2: felicità

- performance dell'osservatore esterno (variabile qualitativa non ordinabile)

modalità 1: offerta equa

modalità 2: offerta a favore del soggetto sperimentale

modalità 3: offerta a favore della terza persona

La scala di misurazione della variabie stile percettivo è nominale, dicotomica.


Correct answer: Vero. Your answer: Vero

Corretto, vi sono solo due categorie od etichette


MODULO 4 IL DISEGNO DELLA RICERCA

Conosciamo le distinzioni di tutti i tipi di ricerca che rivedremo: Sperimentale, Quasi sperimentale,
Osservazionale (detta anche descrittiva o correlazionale) e inoltre vedremo cosa succede all’interno di tipi
particolari di disegni della ricerca e di metodologia all’interno della ricerca.

Parlando delle ricerche di Skinner. Ricordiamo che lo studioso si rifaceva alle esperienze di Pavlov e
Thorndicke e questi studi erano relativi alla diversa concezione sul condizionamento, Skinner rilevò che nel
condizionamento classico di Pavlov, il fattore principale è lo stimolo che precede la risposta e la risposta è
elicitata, cioè stimolata, nel riflesso. Invece nel condizionamento per prove ed errori di Thorndicke, il fatto
più importante è la conseguenza dello stimolo, cioè lo stimolo di rinforzo, es scappare dalla gabbia, quindi
la conseguenza dello stimolo che segue la risposta. Skinner privilegiò lo studio del secondo stile di
condizionamento e lo chiamò operante o strumentale. Nel condizionamento operante l’organismo, che sia
un animale o un uomo, cavia o soggetto, risponde a uno stimolo e questo condizionamento avrà degli
effetti che faranno diminuire o aumentare la probabilità della ripetizione della stessa risposta. Ad esempio
volendo addestrare un cane a sedersi a comando si deve condizionare l’animale ad assumere tale posizione
presentando del cibo ogni volta che esegue il comportamento desiderato.

Questa digressione su Skinner è stata proposta per parlare del disegno della ricerca. Bisogna dire che il
disegno della ricerca non nasce nella vuoto, ci sono infatti ricerche precedenti che danno indicazioni su
possibili prospettive di ricerca; è fondamentale anche la scelta della teoria di riferimento e questo plasma
l’obiettivo dello studio.

Definizione: In generale con disegno di ricerca si intende l'organizzazione temporale e spaziale di una
ricerca al fine di aumentare i controlli e la sua validità, perché definire bene le risorse spazio temporali e la
logistica di una ricerca aumenta la possibilità che un soggetto terzo, un ente terzo possa valutare la ricerca
stessa. È fondamentale tra le caratteristiche della ricerca il fatto che sia pubblica e quindi controllabile, da
questo controllo nasce la validità di uno studio. Leggendo il libro di Bruno Latour “Cogitamus”, ci sono
tantissimi casi di ricerche straordinarie che sono poi risultate essere dei falsi con manipolazione
dell’informazione, anche in campi come lo studio del DNA. Il disegno di ricerca costituisce perciò la
struttura di una ricerca, cioè la sua pianificazione e la progettazione, in particolare per ciò che attiene alla
somministrazione del trattamento e alla manipolazione della variabile indipendente (che sia un farmaco,
una terapia, un tipo di formazione ecc), nonché alla rilevazione dei suoi effetti sulla variabile dipendente le
scale di misurazione con cui andarli a rilevare, la scelta degli strumenti, le modalità di campionamento,
incluse l' organizzazione temporale, l'estrazione dalla popolazione, la costituzione dei gruppi e delle
condizioni, al fine di esercitare il massimo controllo ed escludere il più possibile l'intervento di altre possibili
variabili di disturbo [Pedon 1995; Brewer 2000; E.R. Smith 2000].(Pedon, Gnisci, 2004, p.228) La selezione
delle caratteristiche da misurare e la descrizione particolareggiata avviene in base a modelli teorici o
nosografici di riferimento, per questo abbiamo visto il ruolo del DSM e dell’ICD e il loro ruolo rilevante per
la disciplina psicometrica e diagnostica per l’interpretazione dei risultati ma anche per la discussione della
validità e affidabilità di uno strumento utilizzato all’interno di una ricerca. Miragliotta, Catalano e Cermiglia
nel 2009 hanno sottolineato come la psicologia in quanto scienza ha sviluppato delle tecniche di indagine
per indagare le caratteristiche psichiche dell’individuo e che l’obiettivo principale è quindi il raggiungimento
di una conoscenza di tipo oggettivo, nel senso di condiviso e controllabile e in questo senso l’oggettività
nella scienza è associata alla possibilità di consentire che persone diverse, ricercatori, professori, psicologi
ecc. nelle stesse circostanze possano avere osservazioni similari. Per questo serve un disegno della ricerca
condiviso operando su due livelli: quello epistemologico che consiste nelle assunzioni implicite, teoriche, di
riferimento, di background del ricercatore e il livello metodologico che è un insieme di criteri e di norme
che regolano poi la prassi scientifica dell’analisi dei dati ecc.

Metodi e disegni di ricerca valutativa e diagnostica: problemi e design=

Le ricerche psicologiche tendono a risolvere:

• problemi teorici, per risolvere i quali si deve puntare ad aumentare le conoscenze teoriche su un dato
argomento, che in seguito possono dimostrarsi utili in molte applicazioni aiutando ad es, a definire da un
punto di vista concettuale le dimensioni di un costrutto come l’intelligenza, definirà la base su cui problemi
pratici potranno operare per la costruzione ad esempio di un test di intelligenza specifico per una data
categoria (passando in questo caso alla ricerca applicata). L’insieme delle indagini in quest’ambito danno
luogo alla «ricerca di base», chiamata anche fondamentale o pura.

• Problemi pratici, da cui origina la «ricerca applicata», che si occupa di questioni concrete, che richiedono
soluzioni pratiche.

Riassumendo le ricerche psicologiche sono direzionate alla soluzione di problemi teorici e problemi pratici, i
primi danno luogo alla ricerca di base e i secondi alla ricerca applicata.

La ricerca di base viene anche definita fondamentale o pura, la ricerca applicata nasce da problemi più
concreti, es, scuola o ambito delle tossicodipendenze. Per fare un esempio sull’abuso di sostanze, molti
manuali di psicologia dei gruppi sono semplicemente adottati dalla psicoterapia individuale e adattati al
contesto di gruppo e questo crea problemi pratici che possono essere risolti dalle ricerche sui gruppi.

Dato che il processo di ricerca per entrambi i casi (ricerca di base e ricerca applicata) è identico, si
identificano sei fasi di questo percorso comune (ci sono altri modelli con 7 fasi ma dipende da un piccolo
cabiamento nell’analisi dei dati o nella diversa struttura di pianificazione delle osservazioni):

1. identificazione del problema di ricerca (Il ricercatore sceglie tra le indicazioni teoriche disponibili al
momento che sollevano dei quesiti specifici e guidano la sua successiva ricerca per colmare una lacuna,
queste domande di ricerca sono più generali e focalizzano l’attenzione dei ricercatori su alcuni aspetti
trascurandone degli altri, ad es, se il ricercatore si domanda: cosa permette a un laureato di superare un
colloquio di lavoro in un’azienda, la sua attenzione si focalizza su aspetti più specifici del problema e
diventa più selettiva valutando ad es, quanto incida il comportamento verbale o non verbale del soggetto.
L’ipotesi di ricerca è la specificazione della domanda di ricerca, quando poi riesco a definire meglio quali
saranno le modalità con cui ritengo verificabile il risultato di una ricerca, creo delle ipotesi e quindi una
congettura che il ricercatore intende verificare sulle relazioni esistenti tra le variabili. In generale questa
ipotesi di ricerca viene espressa con una affermazione di tipo condizionale: se accade x allora si osserverà y.
Ad es, un filone di ricerca abbastanza florido presupponeva questa affermazione: se i soggetti subiscono la
frustrazione allora diventano aggressivi. L’ipotesi di ricerca che collega almeno 2 variabili, deve essere poi
operazionalizzata e ad es, si trasforma in:se un distributore di merendine non restituisce ne il cibo ne la
moneta, il soggetto che si sentirà frustrato metterà in atto dei comportamenti aggressivi e distruttivi nei
confronti del distributore. Questo dovrà poi essere verificabile in modo empirico e alcune volte viene

espressa da una formula matematica come ipsilon è uguale a funzione di x, laddove f di


x è funzione di x, funzione che spiega la relazione di un valore della x (variabile indipendente) a cui è
associato un valore della y. Naturalmente l’ipotesi di ricerca darà luogo a due ipotesi statistiche: l’ipotesi
nulla e l’ipotesi alternativa. L’ipotesi nulla afferma che l’effetto ipotizzato non esiste, l’ipotesi alternativa
afferma che c’è l’esistenza di una relazione di un certo tipo tra variabile indipendente e variabile
dipendente. Le due ipotesi si escludono in modo reciproco, o è vera l’una o è vera l’altra. A seconda dei casi
l’ipotesi nulla può indicare una mancanza di associazione tra variabili, una differenza che sia uguale a zero,
una diversità da zero di un indice ecc.

La ricerca pura si chiama così perché è indipendente da elementi di ambiguità?

Falso: si occupa di questioni teoriche

Tornando all’esempio del legame frustrazione aggressività l’ipotesi nulla potrebbe essere: non c’è relazione
tra frustrazione e aggressività, le due variabili sono indipendenti tra di loro e invece nell’ipotesi alternativa
abbiamo che la frustrazione aumenta l’aggressività, all’aumentare del livello di frustrazione aumenta
l’aggressività. Dal punto di vista degli indici posso solo stabilire una relazione tra queste due variabili, il
nesso causale che è la frustrazione che causa l’aggressività è data dal modello o disegno sperimentale che
presuppone una manipolazione della frustrazione precedente e in modo casuale su soggetti e quindi la
simmetria della variabile indipendente rispetto alla dipendente

2. pianificazione del disegno sperimentale; qui abbiamo una serie di scelte che conducono alla selezione del
soggetto da osservare, delle condizioni con cui noi andiamo a condurre le nostre osservazioni, agli
strumenti di misura più affidabili e ai metodi più appropriati per codificare i dati. In questa fase, siccome
alla scelta di strumenti e modalità di scaling corrispondono anche i test statistici per le analisi, verranno
individuati questi test, in questa fase verranno anche prese decisioni sui soggetti da sottoporre alle prove e
vengono analizzati anche i problemi etici collegati all’esperimento ed eventualmente sottoposto
l’esperimento a un comitato etico. Sono processi complessi, sistematici ma anche dinamici legati alle
capacità del ricercatore.

Le prime due fasi (1.identificazione del problema della ricerca e 2. Pianificazione del disegno sperimentale)
sOno indicate come “IL CONTESTO DELLA SCOPERTA” che si differenzia dal “CONTESTO DELLE
GIUSTIFICAZIONE”, composto dalle restanti fasi. Sono 2 macroaree in cui possiamo suddividere il disegno
della ricerca. La parte iniziale di solito viene percepita come quella più semplice, meno problematica e più
veloce da svolgere, ma è il contrario perché il contesto della scoperta è la fase più creativa. In questa fase ci
si scervella per individuare un problema di ricerca che sia significativo, porti a una novità effettiva, inoltre ci
si interroga sulla fattibilità della ricerca. La parte di raccolta dati magari è più lunga ma le procedure sono
molto più standardizzate.

3. fase delle osservazioni;

4. fase dell'analisi dei dati;

5. fase dell'interpretazione dei dati;

6. fase della comunicazione dei risultati.


Classificazione generale delle strategie di ricerca:

• gli esperimenti (o disegni sperimentali o veri esperimenti): Individuazione di relazioni causali tra variabili
esaminate. Abbiamo già parlato di causalità, nell’indagine sperimentale lo scopo è consentire una
interpretazione non ambigua dei risultati escludendo tutte le possibili interpretazioni alternative.

• i quasi esperimenti; L’indagine correlazionale invece ha l’obiettivo di descrivere come ciò che accade a
livello comportamentale, cognitivo ed evolutivo sia in relazione con altri fattori e condizioni, quindi predire
la situazione. Permette di trarre delle conclusioni che diano indicazioni sulla relazione emersa dall’analisi
delle osservazioni raccolte ma non la comprensione

• i metodi descrittivi; i metodi descrittivi si propongono di fornire una rappresentazione più accurata
possibile di ciò che avviene a livello di comportamenti, vissuti emotivi e cognizioni offrendo un quadro
descrittivo che si ferma di solito al primo approccio ad un’area di ricerca e fornisce informazioni e
suggerimenti utili per l’approfondimento delle indagini.

Questa classificazione propone un continuum che va dai metodi descrittivi (con meno controllo e una
semplice osservazione e procedure tecniche valide solo per l’identificazione e descrizione di un fenomeno)
fino agli esperimenti, con controllo dei fattori sia indipendenti che di disturbo. Il fulcro è sempre
l’individuazione delle variabili che sono più utili per le analisi e quindi per il controllo e le valutazione delle
soluzioni implementate, per questo il disegno della ricerca attraverso modalità standardizzate cerca di
effettuare un controllo delle variabili che agiscono sui costrutti psicologici per poi calcolare le influenze di
questi costrutti su queste variabili

Parlando di quasi esperimenti si è descritta l’analisi correlazionale, ma in realtà il termine “metodi


descrittivi correlazionali” è il termine intercambiabile che utilizziamo in questo caso. I quasi esperimenti si
basano anche loro sulla correlazione ed è quello il test statistico che andiamo a utilizzare soprattutto
quando abbiamo a che fare con variabili quantitative, abbiamo visto che per analizzare l’associazione per
variabili di tipo quantitativo si utilizza quasi sempre la correlazione e poi nell’indagine sperimentale
utilizziamo anche la regressione, da questo punto di vista il contributo di Campbell è particolarmente
rilevante per l’introduzione di una distinzione nel campo della ricerca anche in psicologia col suo
“experimental and quasi experimental designs for research” in collaborazione con Stanley nel 1966 dà
indicazione su teorie, modelli, tecniche di valutazione e sistemi sociali.

Esistono anche testi che aiutano gli autori a modellizzare e costruire la teoria. Questo dimostra l’importanza
della teoria. Solo nel caso degli esperimenti, quando si è in grado di controllare tutti i fattori in gioco,
(soprattutto quelli considerati come rilevanti dalla nostra ipotesi) e quindi il ricercatore è in grado di
manipolare il fattore indipendente e lo stimolo sperimentale e tenere contemporaneamente sotto
controllo i fattori intervenienti e di disturbo, allora si può parlare di schema sperimentale vero e proprio. Se
il controllo non è totale e non si è in grado di randomizzare i soggetti all’interno dei gruppi di modalità della
variabile indipendente, allora stiamo parlando di disegni di ricerca quasi sperimentali, nei disegni quasi
sperimentali lo schema di ricerca che il ricercatore adotta è quello in cui l’introduzione dello stimolo
sperimentale o i fattori di disturbo non sono controllabili e quindi ci si limita a uno studio comparativo di
situazioni già predeterminate. Ad esempio un piano quasi sperimentale potrebbe essere uno studio a
posteriori sugli impiegati di 2 uffici, uno in cui si presenta una certa attività di team building e gestione del
gruppo e un altro nel quale non sono presenti questi elementi. In questa ricerca non siamo in grado di
assegnare in modo casuale i lavoratori a due società diverse e non siamo in grado di manipolare questa
variabile indipendente. Il ricercatore allora raccoglie i dati durante una giornata lavorativa tipo e dopo le
riunioni di lavoro non può influire sui soggetti in nessun modo. Un piano quasi sperimentale è un piano in
cui non è possibile controllare pienamente né il fattore sperimentale né quelli di disturbo che possono
incidere su questo fattore dipendente. La misurazione del fattore dipendente non è scevra da questa
influenza. Naturalmente il ricercatore più che una sperimentazione opera una comparazione tra situazioni
diverse e quindi secondo i canoni già visti della comparazione. La questione ha un peso rilevante sia per
quanto riguarda lo sviluppo dell’innovazione in ambito psicologico sia per ciò che riguarda la scelta dei
metodi di studio e di indagine.

Considerando che la scienza moderna in generale non rivendica più l’assolutezza della verità
epistemologica non solo nelle scienze soft ma anche in quelle hard, come chimica e fisica. Non c’è più una
differenziazione delle concezioni della scienza. Prima c’era una concezione legata alla dimostrazione,
un’altra legata alla descrizione e la terza legata all’autocorreggibilità. Invece in questo momento viene
meno questa suddivisione e i disegni vengono considerati in modo diverso, in psicologia è raro rintracciare
un consenso diffuso su una definizione, ce ne sono diverse, basti pensare alla personalità. Quasi non
sembra che esista un linguaggio comune su cui discutere la natura dei problemi affrontati, nonostante ciò,
in questo panorama di teorie e modelli diversi spesso non paragonabili (basti leggere il contenuto di Kuhn
sui paradigmi), esiste un sorprendente consenso su cosa sia un esperimento psicologico. È stato necessario
molto tempo perché la corrente definizione di esperimento si affermasse, ad esempio Cattel ha contribuito
molto a questo. Lo studioso voleva quasi eliminare il termine esperimento perché l’enfasi che dà
l’esperimento porta poi alla catalogazione di ricerche in cui non si può raggiungere il totale controllo come i
disegni quasi sperimentali, che in passato erano considerati esperimenti.

La comunità degli psicologi è riuscita nel tentativo di differenziare il suo linguaggio e metodi dalla psicologia
ingenua. La definizione psicologica del vero esperimento caratterizzato dal controllo, dall’isolamento, dalla
randomizzazione, è poi passato anche in discipline similari come sociologia e pedagogia e ciò è dovuto
soprattutto agli esperimenti della corrente comportamentista del 900 che ha condotto la diffusione di
definizioni di esperimento molto simili a quelle odierne.

I problemi del metodo sperimentale in psicologia hanno a che fare con la difficoltà del controllo degli altri
fattori intervenienti rispetto alle scienze tradizionali.

L’“esperimento” è una predisposizione di condizioni e procedure che consentono le osservazioni delle


relazioni tra le circostanze controllate (variabili indipendenti) e i risultati incontrollati (variabili dipendenti)
con l’intento di effettuare inferenze circa i rapporti causali tra le variabili (dipendente e indipendente).
Cambridge Dictionary of Psychology (2009) Se oltre alle variabili indipendenti manipolate dal ricercatore e
le variabili dipendenti misurate, ce ne sono altre che non teniamo sotto controllo, allora diventa complicato
parlare di esperimenti. Pensiamo alla difficoltà di decidere se esaminare un gruppo di punteggi di studenti
all’esame di psicometria e immaginiamo di voler capire se le femmine hanno risultati migliori rispetto ai
maschi. Potremmo avere dei dati che supportino queste ipotesi ma dovremmo farci delle domande: ci sono
altre variabili da tenere in esame? Ad es, motivazione, umore del giorno, età ecc. possono influire. Le
differenze osservate tra femmine e maschi potrebbero essere dovute a ciascuno di questi fattori in
aggiunta o sostituzione al genere. Dovremmo tenere sotto controllo tutte queste possibili variabili
indipendenti, offuscanti e potremmo scegliere ad es. un numero uguale di maschi e femmine con gli stessi
livelli di umore, QI, livello di ansia, età ecc. ma più controlli mettiamo più difficile diventerà trovare
partecipanti. Questo va fatto per evitare effetti non voluti sulla variabile che stiamo studiando. L’obiettivo
del metodo sperimentale è di giungere alla comprensione di un fenomeno attraverso la sua riproduzione
controllata. Ne deriva che il grado di costrizione a cui il ricercatore è sottoposto nella progettazione e
costruzione del nostro esperimento è massimo. La sperimentazione da questo punto di vista è la forma di
ricerca più asettica e controllata nell’ambito delle scienze del comportamento perché richiede che i soggetti
siano estratti dalla popolazione in maniera casuale, che siano inseriti nei gruppi o assegnati alle condizioni
in maniera randomizzata, sempre casuale e che le variabili di confusione siano controllate attuando poi dei
confronti tra soggetti sottoposti a differenti condizioni. Nella sperimentazione l’introduzione controllata
della variabile indipendente, del fattore indipendente, viene chiamata STIMOLO SPERIMENTALE che è la
variazione indotta in un fattore di ingresso di un sistema allo scopo di creare modificazioni sul fattore che
rappresenta il prodotto del sistema stesso. Es. sono stati effettuati degli studi di alcune condizioni di lavoro
e in questi studi sono state modificate alcune caratteristiche lavorative per determinare dei cambiamenti
nelle prestazioni o nel benessere dei soggetti. Questo stimolo sperimentale viene chiamato FATTORE
SPERIMENTALE e mentre nella ricerca standard e nella ricerca interpretativa il successo della ricerca
dipende dal fatto che l’operazione di rilevazione dei dati non modifica la realtà sotto esame e si occupa del
maggior numero possibile di aspetti di questa realtà, all’opposto nelle sperimentazioni si cerca di
controllare al massimo l’effetto di tutti i fattori operando per escludere l’effetto dei fattori di disturbo e
mettendo in evidenza le variazioni dovute al fattore indipendente. Proprio per esigenza di controllo dei
fattori la sperimentazione viene in genere condotta in ambiente controllato che non è detto che sia un
laboratorio ma può essere anche un ambiente che permette al ricercatore di tenere sotto controllo le
variabili intervenienti, quindi si parla più di ambiente artificiale che controllato e anche una classe, una
comunità, un contesto naturale è un ambiente artificiale a patto che sia possibile operare dei controlli
sperimentali. Raramente l’esperimento avviene proprio in laboratorio perché spesso si sceglie un ambiente
nel quale ci sono effettivamente i partecipanti, come ad es, la scuola nell’ambito della psicologia
dell’educazione.

Obiettivo della ricerca per esperimento è l’individuazione di relazioni causali tra fattori, ossia relazioni in cui
si suppone che un fattore, supposto dipendente, sia propriamente causato da (almeno) un altro fattore
supposto indipendente.

Attraverso una ricerca per esperimento è possibile ad esempio determinare l’esistenza di una relazione
causale tra le variazioni del profitto in matematica (fattore dipendente) e le variazioni della motivazione
allo studio (fattore indipendente, isolato da un insieme di altri fattori), mediante un piano di ricerca
appositamente predisposto.

SPERIMENTAZIONI CONTROLLATE RANDOMIZZATA

Si parla dei famosi RCT: Randomised control trial.

In un contesto scientifico e tecnologico avanzato (e l’ambito psicologico ormai ne fa parte), nelle


sperimentazioni randomizzate e controllate vengono comparati i vantaggi e gli svantaggi di due o più
trattamenti attivi oppure le differenze nell’esito di un intervento con quello rilevato in gruppi non trattati o
sottoposti ad un trattamento placebo vengono comparati nelle sperimentazioni controllate randomizzate”.

Per fare ciò è necessario avere condizioni particolari: tenere sotto controllo le variabili confondenti
necessita la randomizzazione, questo è il vantaggio principale, cioè poter finalmente determinare che il
cambiamento nella variabile dipendente è dovuto solamente alla variabile indipendente, invece lo
svantaggio principale è la difficoltà e il costo estremo determinato da questo tipo di esperimenti
randomizzati controllati, quindi i costi legati alla partecipazioni dei soggetti ed i costi elevati di
implementazione perché è necessario avere una equipe di particolare ampiezza e poi difficoltà etico-
pratiche legate al placebo, derivanti quindi dal confrontare trattamento e non trattamento. Di solito le
sperimentazioni controllate randomizzate si usano per testare trattamenti innovativi isolando variabili
demografiche o legate ad esempio alla gravità del sintomo, livello di funzionamento e quindi permettono
anche di standardizzare fattori quali l’esperienza del terapeuta ma anche la durata del trattamento. Si
presta attenzione affinchè questi studi vengano condotti in modo conforme alla loro descrizione quindi c’è
un protocollo che deve essere approvato da un comitato etico e deve essere poi controllato nella sua
applicazione. Per questo molti trattamenti vengono descritti nei manuali e vengono anche specificate le
tecniche della terapia che deve essere adottata. L’aderenza del terapeuta alla tecnica viene anche vagliata
e di solito si menziona che il personale è specificamente formato a quel trattamento e nei casi migliori c’è
un test dell’aderenza a questi protocolli attraverso videoregistrazione degli incontri effettuate in modo
random

Requisito fondamentale è l’aderenza del terapeuta alla tecnica della terapia inesame (corrispondenza ai
manuali) Questioni critiche:

Difficoltà etico pratiche legate al trattamento placebo (una tecnica che si utilizza è quella di treatment as
usual cioè confronto del trattamento normale con il trattamento standard o anche quella della waiting list
cioè si tengono i soggetti in lista di attesa per un periodo limitato (per questioni etiche ) e poi si fanno altre
rilevazioni per vedere le differenze tra coloro che hanno fatto il trattamento e coloro che lo stanno
iniziando.

Il treatment as usual è una condizione di controllo uguale alla


waiting list?
Correct

. Correct answer: Falso. Your answer: Falso


Giusto, in una i soggetti sperimentano il trattamento tradizionale, nell'altro nessun trattamento in
attesa di essere inseriti in un gruppo

Costi elevati dell’implementazione

Limiti legati alla partecipazione dei soggetti alla sperimentazione

Spesso ci si trova a dover limitare la generalizzabilità dei risultati perché il confronto trattamenti diventa
difficoltoso, per esempio è più facile testare trattamenti cognitivo comportamentali che psicodinamici
PIANI SPERIMENTALI: MODELLI E RAPPRESENTAZIONI

I piani sperimentali sono le modalità preferite nell’ambito delle scienze sociali per analizzare le differenze
tra gruppi ed andare a vedere l’effetto di un trattamento. Bisogna distinguere quali sono le differenze tra
un disegno con un gruppo di controllo solo al post test (only post test control group design)

E il disegno con gruppo di controllo e pre test e post test (pretest-post test control group design)

E poi vedremo il disegno a 4 gruppi di Solomon e i disegni fattoriali.

Mediante i disegni sperimentali il ricercatore può minimizzare e in alcuni casi eliminare il rischio di ipotesi
alternative e quindi di ipotesi che possano minacciare la validità interna della ricerca (che è il grado con cui
riusciamo ad associare la variabile dipendente con la variabile indipendente in questa relazione logica tra
un predittore e un outcome che viene chiamata anche relazione causale)

Il disegno sperimentale rappresenta la struttura di base di tutta la ricerca e anche se non è in gradodi
incrementare e migliorare tutti i tipi di validità, garantisce la migliore VALIDITA’ INTERNA e potrebbe anche
ottimizzare la validità esterna (con un numero di soggetti rilevanti estratti anche con campionamento
probabilistico) e può consentire una interpretazione non ambigua dei risultati della ricerca escludendo a
priori tutte le possibili interpretazioni o ipotesi alternative. Costruire un disegno sperimentale significa
mettere a punto un insieme di procedure che consentano poi al ricercatore di avere una alta sicurezza che
gli effetti RISCONTRATI NELLA VARIABILE DIPENDENTE SIANO CAUSATI DALLA MANIPOLAZIONE DELLA
VARIABILE INDIPENDENTE e non dall’influenza di variabili confondenti, intervenienti, offuscanti ecc. Ma il
piano sperimentale di per sè non garantisce rilevazioni affidabili perché la variazione tra i valori del fattore
dipendente prima e dopo lo stimolo o trattamento sperimentale, non è detto che debba effettivamente
imputarsi all’introduzione dello stimolo stesso. Per migliorare o aumentare la probabilità che il
miglioramento dei risultati di una classe nel post test dopo che hanno subito l’intervento rispetto al pretest
effettuato prima dell’intervento, sia dovuto al trattamento, è necessario una ossatura o schema
sperimentale il più stringente possibile perché ci sarà sempre una differenza di misurazione tra un
momento e l’altro e cioè tra T0 (momento iniziale) e T1 (post test), i soggetti da una misurazione all’altra
saranno comunque maturati e ci sarà comunque un miglioramento. Per sapere se è significativo dal punto
di vista statistico non deve dipendere da altri fattori se non quello sperimentale. Il miglioramento deve
essere consistente e attribuito solo dalla variazione determinata dalla variabile indipendente. Per questo i
disegni più utilizzati in psicologia confrontano gruppi di soggetti che sono sottoposti a differenti condizioni
controllate dalloi sperimentatore. In base a quali gruppi vengoono inclusi nel nostro disegno in base anche
alle procedure di assessment, di misurazione, di valutazione e a chi e quando vengono presentate le
condizioni sperimentali, allora avremo una serie di combinazioni che danno vita a diifferenti piani
sperimentali. Differenti per numero di gruppi, per quando avviene la somministrazione, per quante tipo di
misurazioni vengono effettuate ecc. Le fasi di questo piano sperimentale cominciano dalla selezione dei
soggetti che deve essere casuale, “random selection”.

Esempio: se vogliamo valutare sperimentalmente l’efficacia di uno strumento terapeutico basato sulla
realtà virtuale per trattare l’agorafobia, non dovremo soltanto poter confrontare il trattamento
sperimentale con l’assenza dell’intervento terapeutico ma anche la condizione sperimentale con un gruppo
di pazienti con la stessa agorafobia che magari segue una terapia tradizionale cognitivo comportamentale,
perché questo tipo di terapie sono quelle che rappresentano lo standard “treatment as usual” ed è
importante dal punto di vista clinico che l’effetto che noi individuiamo oltre a essere statisticamente
significativo sia anche CLINICAMENTE SIGNIFICATIVO.
Confrontando semplicemente due gruppi diversi (uno con il trattamento da realtà virtuale ed uno senza
alcun trattamento) il miglioramento potrebbe essere dovuto anche alle differenze intrinseche ai gruppi,
sappiamo infatti che qualsiasi trattamento crea un cambiamento anche per l’effetto placebo. La dicitura
Clinicamente significativo immplica che il miglioramento sia significativo e che valga la pena utilizzare un
certo tipo di terapia piuttosto che un altro. Un questo caso nella differenza significativa, tra gli outcome,
abbiamo un confronto tra la versione sperimentale e una condizione di controllo che ci dice se rispetto allo
standard in uso questo tipo di intervento ha un’efficacia migliore. Un ulteriore tipo di controllo che si
potrebbe e dovrebbe effettuare è confrontare la terapia sperimentale con un trattamento il più possibile
simile a questo ma privo delle caratteristiche specifiche che consideriamo terapeutiche. Ad esempio per
quanto riguarda il trattamento attraverso l’utilizzo della realtà virtuale confrontiamo due tipi di situazione
che hanno come costante la realtà virtuale ma che in realtà mostrino due elementi diversi. Al gruppo di
controllo si potrebbe ad esempio mostrare un film, mentre al gruppo sperimentale si mostra ciò che è
effettivamente utilizzato per la terapia dell’agorafobia. Ipotizziamo che in questo caso il trattamento sia
efficace perché ad es. riesce a innescare un processo di desensibilizzazione mostrando in un certo modo
degli spazi aperti attraverso la realtà virtuale e quindi la sola esposizione del gruppo di controllo alla
innovazione tecnologica determinata dalla realtà virtuale non dovrebbe avere alcun effetto sui risultati del
campione della ricerca. Questa attenzione spesso viene data per scontata ma in realtà si confrontano delle
terapie diverse che effettivamente non è detto che siano confrontabili. Ci sono delle linee guida per la
ricerca che dicono in inglese “mix apple and oranges” (mischiare mele e arance), creando confusione e
confrontando quindi sistemi diversi, i risultati che otteniamo, anche se statisticamente significativi e validi,
dal punto di vista teorico hanno delle distorsioni. Ricordiamo che a noi interessa che dal punto di vista
teorico la nostra ricerca sia solida.

La combinazione delle opzioni procedurali sono diverse ma sono in realtà 4:

1) La misura della variabile indipendente: può essere effettuata sia prima che dopo il trattamento (pre e
post test) o solo dopo (post test).

2) il modo di sottoporre i gruppi al trattamento: ogni gruppo è sottoposto a un solo livello della variabile
indipendente (disegno sperimentale tra i gruppi- between group design o tra i soggetti –between subject,
abbiamo quindi un solo fattore con due modalità tra i gruppi) oppure ogni gruppo è sottoposto a tutte le
condizioni del trattamento ed in questo caso il disegno è definito within group design ovvero entro i
soggetti)

3)il numero delle variabili indipendenti. Può essere 1 o due o più (in questo caso abbiamo i disegni
fattoriali)

4) tipo di controllo delle variabili estranee. Abbiamo questo ultimo elemento che può essere combinato in
modo diverso, cioè il controllo delle variabili estranee che viene eseguito attraverso la randomizzazione o
con il metodo del pareggiamento o attraverso il metodo dei blocchi.

Dalla combinazione di questi elementi noi abbiamo diversi piani sperimentali e tipo di disegni sperimentali,
ce ne sono tipologie e classificazioni diverse determinate di solito dalla modalità che abbiamo indicato per
le variabili indipendenti e quindi abbiamo una sola variabile indipendente o disegni sperimentali tra i gruppi
indipendenti o disegni sperimentali entro i gruppi e poi abbiamo i disegni sperimentali MIXED: tra i gruppi
ed entro i gruppi combinati, quindi magari una misura del tempo pre-post che è un cambiamento interno ai
soggetti e una misura fattoriale tra i soggetti che può essere maschi-femmine ecc.
In questa slide è proposto lo schema sperimentale cosiddetto inaffidabile perché abbiammo un gruppo
sperimentale Gs che esegue una prova iniziale, poi subisce il fattore sperimentale Fs e poi si sottopone a
una prova al termine della sperientazione, in questo fatto il problema scaturisce dal fatto che questo
cambiamento che rileviamo tra il pre e post può non essere dovuto al fattore sperimentale perché ci sono
diverse minacce alla validità interna e può esserci ad esempio una REGRESSIONE VERSO LA MEDIA per cui il
fatto che ci sia un miglioramento o un peggioramento dipende dal risultato ottenuto alla prima
somministrazione, quindi al pre test e ci può essere stato un miglioramento dovuto a scarsa performance
iniziale o un peggioramento dovuto a una ottima performance iniziale.

Nella slide che vedremo successivamente abbiamo un piano sperimentale con un gruppo sperimentale e un
gruppo di controllo uno ha il Fattore sperimentale Fs e l’altro il fattore di controllo F0 e abbiamo poi la
prova finale per il gruppo sperimentale Pfs e la prova finale per il gruppo di controllo Pfc. In quessto caso si
può fare un t test iniziale prima della prova iniziale per capire se i gruppi partono allo stesso modo e poi
andiamo a vedere con un altro t test dopo la prova finale che ci sia una differenza significativa al tempo 2,
tutto ciò per stabilire se la differenza di prestazione è attribuibile allo stimolo sperimentale (Il test t (o,
dall'inglese, t-test) è un test statistico di tipo parametrico con lo scopo di verificare se il valore medio di una
distribuzione si discosta significativamente da un certo valore di riferimento. Differisce dal test z per il fatto
che la varianza è sconosciuta). Questo tipo di piano sperimentale a 2 gruppi permette quindi di controllare
gli effetti di regressione, di selezione, di mortalità del campione e anche andare a vedere se ci sono delle
interazioni tra effetti storia o deterioramento dello strumento.

È un piano sperimentale molto utilizzato che non permette però di controllare l’interazione tra pre test,
trattamento e post test, cioè in pratica i cambiamenti ottenuti dei soggetti possono derivare da un
apprendimento nel pretest e cambiamenti nel gruppo di controllo può essere determinato da effetti
placebo. Proporre una prova iniziale potrebbe quindi minare la validità dei risultati e le prove iniziali e finali
dovrebbero essere similari e parallele perché dovrebbero permettere di confrontare le prestazioni dei
soggetti al tempo T0 e T1. Naturalemtente quando dei soggetti ricevono la prova iniziale, sanno quali sono
gli argomenti trattati nel corso e potranno focalizzarsi su queste informazioni per rispondere alla fine
dell’intervento formativo.

Il piano sperimentale tra i gruppi prevede che tutti i soggetti


subiscano la stessa modalità di fattore sperimentale
Correct
. Correct answer: Falso. Your answer: Falso
Giusto, ai due gruppi viene somministrata una modalità diversa del fattore

Per andare ad intercettare la suddetta problematica del piano sperimentale a due gruppi si utilizza il:

Piano sperimentale a 4 gruppi, detto anche disegno sperimentale di Salomon. Gli effetti del pretest, ovvero
la sensibilizzazione al pretest, vengono in questo caso minimizzati e questo piano permette di fare analisi
più accurate.

Lo scopo del disegno sperimentale di Salomon è valutare l’impatto del pretest sugli effetti ottenuti da un
intervento specifico. Salomon nel 1949 si pone questa domanda: La somministrazione del pre test influenza
la realtà dei nostri risultati? Pochi ricercatori riescono a utilizzare questo piano sperimentale perché è
molto oneroso ma è importante per il ruolo di enorme valore rivestito dal pretest e determinare se
influenza la determinazione dell’efficacia del trattamento nel contesto reale (stiamo parlando di una
questione di effectiveness) è una questione fondamentale perché se il tutto funziona nel contesto
controllato del laboratorio, possiamo poi estendere l’efficacia del trattamento testato su una larga scala.

L’idea è che il gruppo 1 cioè quello sperimentale esegua il pretestPi1, subisca il fattore sperimentale
(variabile indipendente) Fs e poi esegua il post test Pf1, il gruppo 2 esegua il pretest Pi2 , subisca il fattore di
controllo F0 e poi esegua il post test Pf2, il Gruppo 3 subisca solo il fattore sperimentale e poi il post test e il
gruppo 4 subisca solo fattore di controllo e post test. In questo modo si controlla che se non ci sono effetti
dovuti al pretest i risultati ottenuti da gruppo 1 e gruppo 3 dovrebbero essere uguali tra di loro perché il
gruppo 3 ottiene un miglioramento simile al gruppo 1. Allo stesso modo si controlla se il gruppo uno ha
avuto un miglioramento del risultato tra il gruppo 1 e i due gruppi di controllo (il 2 e il 4) e che questo
miglioramento sia statisticamente significativo. Quindi un valore del gruppo sperimentale che sia maggiore
dei gruppi di controllo ma sovrapponibile a quello dell’altro gruppo sperimentale senza pretest. Questo
disegno sperimentale è un disegno ideale ma l’assunto di base rimane quello dell’equivalenza dei gruppi.

Il piano sperimentale a gruppo unico ha delle difficoltà legate all’approccio di tipo longitudinale

Menesini e Codecasa: “Rete di solidarietà contro il bullismo” è un articolo free che permette di analizzare
questi piani sperimentali in ambito educativo.
Piani sperimentali a 1, 2 o 4 gruppi consentono di valutare l’impatto di una singola variabile indipendente
su più gruppi. A un gruppo può essere somministrato il trattamento che mi interessa, all’altro no, o una
condizione placebo o un treatment as usual oppure versioni differenti della condizione sperimentale,
prescindendo dalle varianti, gli studi sperimentali valutano una sola variabile indipendente che è il limite
principale di questi esperimenti perché rispondono a interrogativi sulla variabile di interesse relativamente
semplici perché la variabile indipendente nel piano sperimentale ad esempio non permette di analizzare la
moderazione o la mediazione che sono elementi che coinvolgono intervento di ulteriori variabili
indipendenti. La semplicità degli interrogativi non sminuisce la loro importanza e quindi anche i piani
sperimentali di questo tipo sono rilevanti però le questioni semplici sono praticamente esaurite, quindi la
ricerca si muove verso esperimenti più complessi. Ad esempio un esperimento potrebbe essere l’impatto di
due differenti strategie: regolazione delle emozioni e rilassamento per affrontare lo stress indotto
sperimentalmente da una singola sessione sperimentale. Un semplice interrogativo di quale delle due
funzioni meglio può essere verificato con un piano sperimentale. Una questione più complessa potrebbe
insorgere laddove si voglia aggiungere un moderatore, e forse esiste una ragione per cui si possa andare a
vedere rispetto a problemi clinici diversi se queste due strategie differenti funzionino in modo diverso, cioè
se queste due metodiche rispetto a pazienti depressi o ossessivo compulsivi abbiano dei risultati diversi. I
disegni fattoriali permettono di indagare simultaneamente due o più variabili chiamate fattori in un singolo
esperimento. Ognuna di queste due variabili indipendenti vengono rilevate su due o più livelli o condizioni.
È importante che questi disegni fattoriali non vadano confusi con l’analisi fattoriale che è una tecnica
statistica per fare un’analisi degli item degli strumenti di misurazione.
Il termine fattore indica semplicemente le VARIABILI INDIPENDENTI. Questi fattori sono così chiamati nella
tradizione sperimentale di ambito psicologico aveva adottato questo termine, e quando l’ambito
psicologico ha incontrato l’ambito sperimentale, questa terminologia è rimasta.

In ognuna delle due variabili di cui abbiamo parlato prima possiamo trovare due livelli, quindi avremo da un
lato la variabile indipendente “tipologia di strategia di coping” e dall’altra “tipologia di problema clinico” e
per ogni variabile abbiamo due livelli: regolazione e rilassamento per la prima e depressione e disturbo
ossessivo compulsivo per la seconda. Questo disegno viene chiamato disegno 2x2 , disegno con due
variabili con ciascuna due livelli e a seconda del numero di fattori e del numero di livelli o modalità della
mia variabile abbiamo delle griglie diverse. Nell’esempio della slide precedente vediamo i grafici di questi
disegni.

Il disegno fattoriale 2x2 crea 4 gruppi che rappresentano ogni possibile combinazione dei livelli dei due
fattori. Le analisi dei dati ci indicheranno se le strategie di coping si differenzieranno tra loro per qualche
misura di stress, se si differenzieranno tra i due gruppi diagnostici avremo un altro andamento e se i due
effetti principali del coping varieranno in funzione dei gruppi diagnostici e se saranno moderati da questi,
se avremo quindi un effetto di interazione. La ragione principale per realizzare un disegno fattoriale è
l’interesse per l’effetto combinato di due o più variabili, cioè la loro interazione. Per questo bisogna andare
a vedere se sono moderate. Se andiamo a studiare i due singoli fattori possiamo andare ad analizzarli
separatamente ma se è l’interazione che ci interessa, allora dobbiamo fare per forza un disegno fattoriale.

Ciascun fattore ha più livelli e questo complica la nostra capacità di analisi. I piani di ricerca che si occupano
di andare a vedere questo effetto combinato si basano di solito su variabili dipendenti di tipo quantitativo
(intensità o livello di qualcosa). La tecnica statistica che si usa è l’analisi della varianza ANOVA che poi a
seconda della complessità del disegno si può complicare e diventare una MANOVA, ANCOVA e così via.

L’ANOVA fattoriale non va confuso con l’analisi fattoriale così come i disegni fattoriali non vanno confusi
con l’analisi fattoriale che ha uno scopo diverso e si occupa degli item di un test.

Nell’ANOVA il termine fattore indica la variabile indipendente tra i gruppi e dalla indicazione rispetto ai
disegni dagli andamenti delle linee spezzate possiamo capire se c’è un tipo di interazione. Nella prima
colonna della slide precedente le linee parallele indicano che l’interazione non è significativa e nella
seconda colonna il primo disegno in alto rappresenta una interazione significativa perché i due segmenti si
intersecano e con quell’andamento significa cjhe l’interazione è significativa ma ciò non vuol dire che
automaticamente anche i due singoli fattori siano significativi e l’ANOVA ci fa capire anche questo. Nel
disegno fattoriale 2x2 è indicato sia il livelli della variabile che i numeri delle variabili e l’informazione è
riassunta nella rappresentazione delle variabili. Ad esempio nell’ultimo grafico vediamo effetti principali
significativi perché c’è un miglioramento da 1 a 2 e una differenza tra gruppo B1 e B2 ma non esiste una
interazione tra i due fattori perché le due rette non si intersecano

1 of 1
Nei disegni fattoriali 2x2 se nella rappresentazione grafica i due
segmenti sono paralleli allora c'è effetto di interazione tra i
fattori
Correct
. Correct answer: Falso. Your answer: Falso
Giusto, i due segmenti devono intersecarsi

Questi sono studi longitudinali su un unico gruppo che viene osservato lungo un arco di tempo molto lungo
perché sono gli studi longitudinali cross sectional, epidemiologici e sono abbastanza complicati da
analizzare perché richiedono una numerosità molto alta e di seguire i soggetti o il gruppo di soggetti e di
solito è molto difficile perché c’è un alta mortalità del campione e nonostante il ricercatore riesca a trattare
i gruppi con le medesime modalità è difficile riuscire ad avere alta validità interna. Nella forma generale i
disegni a serie temporale sono similari a un disegno con un solo gruppo a più prove ma invece di una
rilevazione pre e post trattamento, richiedono diverse misurazioni della variabile dipendente, quindi
numerose osservazioni nel tempo: molte osservazioni prima del trattamento sperimentale e molte
osservazioni dopo. L’eventuale effetto del trattamento viene evidenziato nella differenza tra la serie delle
osservazioni che lo precedono e la serie a seguire, quindi c’è anche un follow up a 3, 6, 12 mesi. Lo
svantaggio maggiore del disegno a serie temporali interrotte sta appunto nella difficoltà a tenere a bada le
minacce alla validità interna, soprattutto quelle legate all’effetto storia del campione e a influenze di natura
ciclica. Sono una variazione di disegno entro i soggetti (within subject) e si possono estremizzare nel
disegno su caso singolo. Di solito sono applicati su larga scala per disegni criminologici.
METODO OSSERVATIVO E DISEGNI DI RICERCA DESCRITTIVI

Il metodo osservativo può essere definito come l'applicazione dell'insieme di tecniche e strumenti
all'osservazione pianificata e alla registrazione e all'analisi del comportamento animale o umano che viene
osservato in ambiente naturale. Il metodo osservativo non è quindi privo di procedure, ci sono un insieme
di tecniche e strumenti che devono essere tarati per la registrazione e l’osservazione, quindi per la
misurazione dei comportamenti umani e animali in ambiente naturale che non vuol dire per forza in
contesti non laboratoriali, in realtà può essere anche un laboratorio ma non si ha il controllo sulle variabili
confondenti o intervenienti. Ambiente naturale significa che noi non abbiamo il controllo perfetto delle
variabili e quindi di solito siamo anche in un contesto più realistico di vita quotidiana, ad es, siamo in un
supermercato per fare un’indagine sulla psicologia del consumo, può essere un’azienda se stiamo
analizzando gli stili di leadership o livelli di burnout o contesto familiare se dobbiamo analizzare il burden
(carico) di un componente familiare in situazioni particolari ecc. Un disegno di ricerca che preveda l'uso del
metodo osservativo rinuncia a priori al controllo sperimentale delle variabili in gioco, e appartiene quindi
alla categoria dei disegni non sperimentali per questo spesso viene definito a volte con un’accezione un po’
negativa, in realtà non è cos. Ciò non significa rinunciare al controllo scientifico delle variabili, ma solo che
questo non viene effettuato come negli esperimenti. In realtà non è così perché lo strumento ha molte
caratteristiche che ci permettono di analizzare degli ambiti che non potrebbero essere analizzati in altro
modo, in maniera scientifica e può aprire il campo a disegni più rifiniti. Sono utili anche in contesti
esplorativi per evitare metodi troppo costosi e complessi per poi potersi focalizzare su ciò che è più
rilevante, si badi bene, sono molte le scienze, non solo la psicologia, che confidano nell'osservazione
condotta con metodi rigorosi in ambiente naturale: si pensi all'astronomia! (Luccio, 2005)

• L'inchiesta (survey). È formata da un insieme di quesiti che vengono sottoposti al soggetto in varie
modalità (carta e matita,questionario, attraverso CAT-Computer assisted translation) e l’insieme di quesiti
viene proposto anche a un campione rappresentativo della popolazione e questo metodo di indagine è
molto utile per l’analisi dei fenomeni sociali, delle opinioni, atteggiamenti, valori e offre anche la possibilità
di quantificare le risposte dei soggetti. Le caratteristiche principali dell’inchiesta sono la realizzazione nello
stesso momento di tutte le somministrazioni. L’utilizzo di un insieme ordinato di domande standardizzate e
la possibilità di una precisa classificazione delle risposte per poter poi permettere una quantificazione delle
stesse.

• L'osservazione naturalistica, o etologica. Appartiene a un settore esteso caratterizzato dall’osservazione


diretta del comportamento che è sempre stato fondamentale in psicologia ed è caratterizzato dalla non
intrusività e assenza di artificiosità. Fin dall’inizio della storia della psicologia ci si è affidati a questa
metodologia. L’osservazione in questo caso è un tipo di osservazione strumentale che può essere DIRETTA
O INDIRETTA. Soprattutto nell’osservazione indiretta si riteneva di avere una inforazione più obiettiva e
fedele rispetto a quello che è la misurazione diretta con presenza dell’osservatore nel contesto che si sta
esaminando. Il termine etologia dal greco Etos e Logos che significano carattere o costume e discorso,
indica la disciplina scientifica che studia il comportamento animale e in questo rientra anche l’uomo,
all’interno del suo ambiente naturale

• La ricerca d’archivio. Si occupa di quello che potremmo definire in ambito psicologico e scienze del
comportamento un settore più teorico e astratto nel senso che si trova all’estremo opposto della ricerca sul
campo. Nella ricerca di archivio ci si occupa soprattutto di dati ecologici di secondo livello, quindi
osservazioni già effettuate e disponibili compresi archivi pubblici e open data. I database permettono al
momento della pubblicazione dell’articolo di creare un link per facilitare le analisi di archivio. A partire dalla
disponibilità dei dati abbiamo quindi un grande risparmio su costi e tempi di attuazione della ricerca. Con
questo tipo di indagine si possono ovviare i problemi derivanti dalla desiderabilità sociale perché i soggetti
che avevano risposto ai quesiti in archivio non sapevano la finalità della ricerca di archivio. In realtà il rischio
è sempre presente per vari motivi.

Laddove si confidi che quei dati a nostra disposizione siano attendibili, è utile la ricerca di archivio piuttosto
che andare sul campo

• Lo studio dei singoli casi. Viene chiamato anche case report –resoconto dei casi singoli e talvolta si tratta
di casi clinici. Consiste in esperimenti naturali (definizione che va presa con le pinze perché sappiamo che
l’esperimento ha un significato ben preciso). In questi esperimenti naturali si attua uno studio intensivo
qualitativo di un singolo soggetto. Qualitativo non è un’accezione negativa che implica poi non poter fare
generalizzazioni statistiche ed esperimenti significativi, però è uno dei casi delle serie dei casi clinici “case
series reports” in cui si va molto in profondità nella storia clinica del soggetto e questa intensività è a
discapito della possibilità poi di effettuare dei confronti di tipo standard. Si fonda principalmente sulla
raccolta di evidenze aneddotiche quindi anche diari, colloqui, test psicologici, valutazione funzionale dei
pazienti, tutte informazioni finalizzate alla definizione a grandi linee di un intervento da condurre poi sul
soggetto in analisi. Questo determina la venuta meno di elementi cardine della sperimentazione, cioè la
visurazione delle variabili di controllo e la generalizzabilità delle conclusioni effettuate. Come vantaggio
abbiamo un livello minimo di costrizione e quindi da una migliore eterogeneità dei dati, una più ricca e
sfaccettata disponibilità di informazioni e quindi la possibilità di effettuare descrizioni in profondità utili per
ulteriori teorizzazioni. L’analisi del caso va di pari passo con altri metodi di riferimento che implicano
l’applicazione di approcci più innovativi e diventa fondamentale nel caso in cui si abbia un numero molto
esiguo di soggetti, di casi con cui si possa andare a operare. Nel momento in cui abbiamo un disturbo con
un’incidenza molto basso, optiamo per questo studio che non ha uno schema fisso, mancano le tappe
tipiche del disegno di ricerca inteso come definizione delle ipotesi, analisi standardizzata dei dati e
generalizzazione dei risultati, però dall’altro lato c’è un forte vantaggio logistico perché possiamo limitare
nel tempo il nostro tipo di intervento e una esiguità dei soggetti permette di non avere una elevata
mortalità del campione. Il case report è un esempio tipico di studio dei casi singoli, quando abbiamo
addirittura un soggetto solo si chiama “Holistic case studies” quando i soggetti sono 2 si chiama “case
report”. Non c’è uno schema fisso per descrivere un resoconto dei casi clinici, ci si basa sempre sulla
consuetudine derivante dalla tradizione della comunicazione scientifica però ci deve essere un’anamnesi,
una descrizione dei risultati degli esami clinici, delle diagnosi del caso, del trattamento e dei risultati
ottenuti. Differentemente dalla psicologia clinica e dalla psichiatria, i casi clinici in neuropsicologia hanno
una valenza che va ben oltre le applicazioni cliniche perché in questa specifica disciplina possono prodursi
casi clinici che rappresentano veri e propri esperimenti naturali perché possono esservi delle lesioni in
particolari aree del sistema nervoso centrale che comportano poi la perdita differenziale delle funzioni
cognitive normalmente associate a quelle aree. Questo contribuisce all’avanzamento delleconoscenze
teoriche fornendo eventualmente le prove dell’esistenza di sistemi differenti che presiedono funzioni
cognitive correlate con approcci più funzionali.

La ricerca di archivio elimina completamente la problematica della desiderabilità sociale?

Falso: perché questa problematica può essere presente rispetto alle tematiche della ricerca originale.

I resoconti di casi clinici in generale non prevedono né la definizione di ipotesi di ricerca né un’analisi dei
dati e non consentono nemmeno di valutare nel senso di validità esterna il trattamento con estensione ad
altri casi clinici.
All’interno dei disegni osservativi e correlazionali c’è una gradazione in cui abbiamo le strategie di ricerca
con i livelli di costrizione e la certezza dei risultati. Le strategie di ricerca indicate fanno tutte parte dei

disegni osservazionali:

In quelli con livelli di costrizione (controllo) più bassi è più bassa anche la certezza del risultato dal punto di
vista della validità interna; la misurazione di per se potrebbe anche essere corretta però la certezza dei
risultati dal punto di vista della validità esterna ed interna è molto bassa.

Gli studi correlazionali in generale devono essere “temuti” perché in questi studi non siamo in grado di
valutare la presenza di una relazione spuria. Quando abbiamo parlato di causalità della relazione tra due
variabili l’incubo del ricercatore è definito relazione spuria e la ricerca correlazionale

Questi studi correlazionali aprono sempre il fianco alla possibilità che esista una terza variabile che
contemporaneamente influenzi entrambe le variabili che abbiamo osservato in modo non controllato e che
la relazione individuata in realtà sia inesistente. Sebbene la ricerca correlazionale sia in grado di misurare il
grado di relazione tra due variabili che però non sono manipolate e controllate, allora c’è la possibilità che
questa relazione non sia una relazione sistemica ma sia una relazione di tipo spurio.

Tornando a questa slide . L’osservazione diviene scientifica quando


viene utilizzata in modo intenzionale in un progetto scpecifico che prevede la delimitazione del campo e
anche la registrazione del fenomeno, la formulazione delle ipotesi e le fasi di svolgimento. Questa è un’altra
definizione che dà Zimbelli.

I Disegni di ricerca su caso singolo sono utilizzati in molte aree di ricerca come la psichiatria, la psicologia
clinica, la riabilitazione, il counseling, ecc.

Il termine Disegni per lo studio del caso singolo evidenzia la caratteristica unica di questo tipo di disegni,
che è la loro “capacità di condurre una ricerca sperimentale con soggetti individuali” (Kazdin, 1996, p. 198)

Lo studio del caso singolo è un caso particolare di ricerca longitudinale di uno studio intensivo e prolungato
nel tempo di un singolo caso.

Le misure ripetute devono prendere in considerazione aspetti il più possibile obiettivi e osservabili del
comportamento come la frequenza, la latenza, la durata, l’intensità della risposta, la selezione delle
risposte se ci sono le possibilità del soggetto di avere più alternative di ricerca.

Per migliorare la qualità dello studio di caso, bisognerebbe rendere costanti il più possibile alcune variabili
ritenute secondarie dato che non sono eliminabili così come vorrebbero delle condizioni di controllo.

Normalmente l'aspetto peculiare delle sperimentazioni applicate è la verifica degli effetti che derivano sul
comportamento di uno o più individui in seguito all'introduzione di una variabile indipendente (ad esempio
un trattamento psicoterapico o educativo). Questa metodologia richiede misure ripetute della variabile
dipendente.

LA RICERCA LONGITUDINALE

È un tipo di ricerca intensiva e protratta nel tempo ed è solitamente utilizzata quando abbiamo pochi
soggetti nello studio di caso. Non si pone l’obiettivo di mostrare la reazione causale tra variabile dipendente
e indipendente ma riguarda la descrizione molto dettagliata di casi particolari dal punto di vista di
neuropsicologia, psicologia clinica ecc.

Per essere esauriente lo studio di caso clinico dovrebbe comprendere la descrizione dettagliata della
situazione psicologica attuale e passata della persona, informazioni sulla storia della sua vita, sulla sua
famiglia attuale e di origine, l’anamnesi medica, il background lavorativo , dettagli riguardanti
l’adattamento a condizioni di vita stressanti, analisi della personalità, trattamenti terapetici già attuati. Il
paradigma di riferimento del clinico determina fortemente il tipo di informazione a cui si presta attenzione.
Lo studio di caso può essere di grande valore olistico, è ottimo per esaminare in dettaglio la vita emotiva e il
comportamento di un soggetto ritenuto rilevante. Può determinare la formulazione di ipotesi che possono
essere studiate con la ricerca controllata e confrontando le storie di un gran numero di pazienti e resoconti
di trattamenti psicoterapeutici i clinici possono cogliere analogie che permettono di formulare ulteriori
ipotesi importanti che non potrebbero essere sviluppate con ricerche più controllate.

La randomizzazione delle condizioni è una delle procedure adatte a controllare alcune variabili confondenti
Correct
. Correct answer: Vero. Your answer: Vero
Giusto, soprattutto quelle legate all'effetto maturazione e all'apprendimento al test

Il piano sperimentale tra i gruppi prevede che tutti i soggetti subiscano la stessa modalità di fattore sperimentale
Correct
. Correct answer: Falso. Your answer: Falso
Giusto, ai due gruppi viene somministrata una modalità diversa del fattore

Nei disegni fattoriali ogni gruppo è sottoposto ad una combianzione delle variabili indipendenti.
Correct
. Correct answer: Vero. Your answer: Vero
Giusto, dalle celle della tabella di contingenza si evince facilmente questa combinazione

L'inchiesta è uno studio correlazionale longitudinale


Correct
. Correct answer: Vero. Your answer: Vero
Giusto, le risposte vengono collezionate tutte allo stesso tempo
MODULO 5

Confronto tra validità della ricerca e validità dello strumento di misurazione.

La validità della ricerca intesa come validità interna e validità esterna di uno studio o indagine riguarda la
definizione terminologica di validità secondo Dunham (1998), nell'accezione più generale, che è assimilabile
alla solidità e all'attendibilità di una ricerca. Questo significa postulare l'esistenza di una corrispondenzatra
il “mondo reale” e le conclusioni dell'indagine, ovvero affermare con una certa sicurezza la robustezza, la
correttezza e la veridicità (per quanto probabilisticamente consentito) delle conclusioni raggiunte mediante
un’indagine empirica.

Diversamente ma non troppo, ci sono due aspetti fondamentali e intrinseci della validità di un test o
strumento di misurazione la sua validità di contenuto e la sua attendibilità e l'esame cosiddetto «indiretto»
della validità di un test, valutato in base alla sua maggiore o minore concordanza con altre misure: queste
altre misure possono essere altri test, giudizi di esperti ecc. Inoltre sarà poi necessario affrontare la
questione relativa alla validità strutturale o “rispetto alla funzione” che deve espletare il test in una
indagine cioè chiarire qual è la caratteristica psicologica misurata dal test in questione.

In particolare riguardo ai reattivi si dice che un test èvalido se misura ciò che dichiara di misurare (Kline,
1996 p. 22)

Questa è una definizione abbastanza tautologica, in se stessa ha già la propria risposta. Si racconta che
quando il monaco di S. Colombano approdò in Irlanda per presentare il cristianesimo ai pagani locali si
trovò in difficoltà a spiegare la trinità e prese una fogliolina di trifoglio e disse che come la foglia era una
con tre lobi, allo stesso modo si può credere alla trinità di Dio. Il trifoglio poi è diventato il simbolo
nazionale degli irlandesi.Con le necessarie distinzioni anche per la validità dei test arriviamo ad un punto
nodale, perché la validità rispetto alla funzione o “validità strutturale” è una, ma sintetizza in se le altre
forme di validità che andremo ad esaminare (come il trifoglio). In questo tipo più complesso di validità
troveremo la validità di contenuto, concorrente, di criterio, predittiva, di costrutto, nomologica ecc.
rimanendo all’interno di un’unica validità strutturale.
C’è anche il testo di John e Martinez del 2000 su questo argomento.

Molti sono i metodi per dimostrare se un test è valido e diversamente da quella che è la validità dello
strumento di misurazione, non esiste un singolo coefficiente di validità per un test. Come ha sottolineato
Vernon nel 1960, un test è sempre valido per qualche scopo e risulterà più o meno valido secondo le
circostanze. Tipi diversi di validità stabiliscono diverse sfaccettature che vanno considerate caso per caso
per le finalità diagnostiche o di ricerca.

Per questa ambivalenza di utilizzo dei reattivi psicologici è bene stabilire come selezionare i diversi test.
Dimostrare la validità di un test psicologico significa misurarla e non vi è un procedimento diretto per
dimostrarla. Si analizza in un processo alcune condizioni (validità di costrutto, contenuto, di facciata, di
criterio) e poi si esprime un giudizio su quello che è lla propria sicurezza rispetto alla validità dello
strumento. L’attendibilità invece ha dei test statistici abbastanza strutturati e consalidati che permettono la
valutazione precisa, anche se c’è un dibattito per differenziare un test attendibile da uno mediamente
attendibile ma è un discorso molto meno complesso della validità di misurazione.

Come possiamo dire se un test è valido o no dal punto di vista della validità di misurazione?

Immaginiamo di aver costruito un test sulla coscenziosità, una variabile che si è rivelata molto importante
nella valutazione della personalità (già Norman nel 1963 ne parlava). Non è affatto ovvio che si possa
dimostrare che un tale test sia valido, sarebbe più facile se esistesse una qualche misura indipendente della
coscienziosità, (noi abbiamo lo standard del metro che è esposto in un museo, se vogliamo creare un’altra
misura della lunghezza dovremmo confrontarla con quello) se fosse così per la coscenziosità non ci sarebbe
bisogno di un test, tuttavia non è privo di senso discutere se una persona sia più o meno coscenziosa e
quindi c’è un modo per misurarla. Tutti noi adottiamo questi metri di giudizio giornalmente per capire se
una persona è più o meno stressata, ansiosa, coscenziosa ecc. Dunque anche una certa forma di
valutazione deve essere possibile. Una soluzione potrebbe essere far valutare la coscenziosità da persone
che non conoscono bene i nostri soggetti e potremmo correlare le valutazioni scaturenti dal test cipotetico
che abbiamo costruito alle valutazioni di esperti, però le valutazioni stesse di questi aspetti non si può
assumere che siano valide a priori perché la realtà come sappiamo è observer dependent, quindi per alcuni
tipi di validità, come quella di costrutto o di criterio si può ricorrere a procedimenti di ricerca, raccolte dati
e anche in questo caso fare delle correlazioni raccogliendo ad esempio test somministrati a più gruppi di
soggetti per analizzare una serie di analisi statistiche e qualcosa si riesce a fare.

Per la validità di contenuto e la validità di facciata non si prevedono analisi statistiche vere e proprie e
ultimamente sono nate modalità alternative mutuate spesso da altre scienze sociali e dato che i classici
indici con cui supportare le nostre ipotesi non producono questi tipi di validità, allora vengono ignorati o
trascurati dal punto di vista della analisi dell’attendibilità.

(L’alfa di Cronbach viene sempre riportato nei test statistici perché ormai è di facile calcolo e “tutti” gli
esperti del settore comprendono che l’attendibilità possa essere misurata con questo metodo dal punto di
vista della coerenza interna)

Sottovalutare la validità di contenuto e di facciata perché non ci sono test statistici che la valutano
precisamente è un errore grave. Dato che la procedura di analisi della valità e di taratura di un test
(selezione item e creazione delle norme – con la selezione item che, a partire dal pool più grande generato
inizialmente e poi lavorato e definito per arrivare agli item che costituiranno la versione finale del test,
comincia proprio dall’analisi di validità di contenuto e di facciata)

Valutiamo prima la validità di facciata perché possiamo somministrare la versione preliminare di questo
ipotetico test sulla coscenziosità a un centinaio di persone e questo ci consente di raccogliere i dati che ci
consentono poi di verificare con delle analisi statistiche la concordanza dei soggetti su alcune di queste
caratteristiche del nostro test.

VALIDITA’ ESTERIORE O DI FACCIATA (meglio utilizzare validità di facciata per non confondersi con la
validità esterna della ricerca)

Si dice che un test è esteriormente valido se sembra misurare ciò che dichiara di misurare al soggetto che
sta compilando questo test, quindi di fatto, non esiste nessuna relazione logica fra validità esteriore e
validità reale, anche se in alcuni casi esse potrebbero essere correlate positivamente, mentre in altre
circostanze la validità esteriore può rappresentare un vero svantaggio. (Kline p. 23)

È detta nche validità estetica o cosmetica, perché:

La validità di facciata riguarda il fatto che il test "sembri valido" agli esaminandi che lo compilano,ma anche
al personale amministrativo (dirigente scolastico, consiglio docenti ecc..) che ne decide l'impiego (è difficile
somministrare un test a scuola), e ad altri osservatori non tecnicamente formati. Quindi un’apparenza di
scientificità e questa apparenza può influenzare le performance e le risposte dei soggetti, per questo è
necessario distinguere la validità di facciata da quella di contenuto (la validità di facciata è come appare
esteriormente il test, se è ben fatto dal punto di vista semplicemente della grafica, se è completo nel senso
che le domande sono tutte in scala likert a 5 livelli oppure non abbiano domande ripetute o altri errori, in
realtà queste piccole imperfezioni del test, come un foglio stampato male, sono qualità estetiche del test,
non ne cambiano la difficoltà, la lunghezza ecc. ma influenzano la percezione e la motivazione a portare a
termine il compito in modo coerente. Se ad es. un soggetto che è in ambito di selezione del personale,
ritiene che il test che gli è stato somministrato non è fatto in modo corretto, sarà demotivato a portarlo a
termine e penserà che se nessuno si è impegnato a creare un test fatto bene non è necessario il suo
impegno in questo test)
Siamo in un contesto diverso rispetto alla validità di contenuto e non è una validità nel senso tecnico del
termine e non si riferisce a ciò che il test effettivamente misura ma A COSA SEMBRA MISURARE
SUPERFICIALMENTE. Superficiale, esteriore, cosmetico, estetico, definiscono la validità esteriore o di
facciata, un tipo di validità che ha degli effetti nella compilazione che fanno i soggetti. È uno dei casi in cui
banalmente ma sostanzialmente, l’abito fa il monaco. È l’impressione che dà il test di esser valido che
aumenta la motivazione a completarlo e anche questo influisce anche sulla capacità del test di produrre
dati attendibili.

La valutazione della validità di facciata di solito proviene dagli esperti, psicologi, psichiatri, esperti,
dall’ambito che sceglie l’uso del test per un uso specifico.

Una alternativa a questa di somministrazione a un gruppo di esperti è la somministrazione a un gruppo di


soggetti rappresentativo degli individui ai quali verrà somministrato il test. Non deve essere un campione
perché non è necessario in questa fase, ma ad es, a degli studenti, se il test è un test per studenti,
compilano il test e poi gli vengono affiancate altre domande sulla loro valutazione sull’adeguatezza del test.

Questa definizione è in linea con quella di anastasi che sodtiene che:

La validità di facciata può potenzialmente avere degli effetti sia positivi che negativi sulla validità di un test
perché la validità di facciata può essere considerata importante se la rilevanza degli item influisce sulla
motivazione e in alcune situazione in particolare nella selezione di personale, se il test non ha buona
validità di facciata può demotivare i soggetti che lo considereranno irrilevante. In altre situazione una bassa
validità di facciata è ancora più grave e può creare problemi nella risposta dei soggetti nei quali possono
attivarsi processi di simulazione. Anastasi conclude dicendo che la validità di facciata sebbene non
garantisca una risposta adeguata può avere un’influenza sulla motivazione e quindi deve essere valutata in
qualche modo.

La validità di facciata può essere analizzata attraverso la correlazione?

Falso. Non ci sono test statistici specifici

Content validity should not be confused with face validity. The latter

is not validity in the technical sense; it refers not to what the test

actually measures, but to what it appears superficially to measure.

Pace validity pertains to whether the test "looks valid" to the

examinees who take it, the administrative personnel who decide on

its use, and other technically untrained observers. (Anastasi 1988, p. 144)

I vantaggi di una validità esteriore sta nel fatto che la motivazione è importante nella performance ed è
importante che i soggetti ci mettano la massima cura. Ad es, se vogliamo selezionare die piloti o personale
specializzato, dei test non esteriormente validi scoraggeranno i soggetti dal completarli.

Anche gli adulti sono restii a compilare un test che non sembri serio perché lo percepiscono come uno
spreco di tempo e anche se sono costretti a farlo come nella selezione del personale, avranno un
atteggiamento non favorevole. Gli studenti, soprattutto in ambito universitario sono più abituati a questo
tipo di test perché finiscono spesso nelle ricerche.
Nel campo delle abilità non ci sono molte differenze legate alla validità esteriore perché forse la percezione
che è uno strumento che misura l’intelligenza, non influisce sulla capacità di rispondere correttamente, non
è vero questo nell’ambito della personalità, e quindi bisogna studiare le domande in modo che risulti
coerente con quanto si aspettano i soggetti che devono rispondere. In una selezione di piloti civili sono
richiesti piloti con basso livello di ansia e un test sull’ansia esteriormente valido potrebbe non funzionare,
perché a delle domande esplicite la validità esterna incoraggerebbe la distorsione, quindi in questi casi è
accettabile avere un livello di validità di facciata leggermente inferiore, un po’ come avviene per la
dissimulazione e l’offuscamento all’interno del disegno di ricerca.

Il concetto di un test che appaia valido è stato accettato con riserva e spesso viene poco considerato in
alcune citazioni per gli standard for educational psychology test

La validità di facciata è stata quindi inizialmente considerata appannaggio degli esperti ma poi si è spostata
sugli utilizzatori e gli utilizzi dei test prevedono anche un trade off ovvero una scelta tra quella che sia una
validità esteriore o di facciata rilevante e quelle che sono le funzioni del test all’interno di una ricerca.

Lo scopo di una validazione di contenuto è quello di valutare se gli item, gli elementi dello strumento
rappresentano adeguatamente un dominio di prestazioni o un costrutto psicologico specifico.

Il termine “assess”, to assess, valutare, significa che il nostro strumento è un assessment instrument, quindi
uno strumento di valutazione. Abbiamo visto la differenza tra valutazione psicologica e assessment
psicologico, quindi l’applicabilità della validità di contenuto del nostro strumento deve essere coerente coi
metodi di valutazione psicologica. La valutazione psicologica è la a misurazione sistematica del
comportamento di una persona nelle varie dimensioni che comprendono da una parte gli obiettivi e le
strategie di misurazione e dall’altra le inferenze, i giudizi, l’idea, riflessione che uno psicologo o
professionista riesce a trarre dalle misure ottenute e quindi la validità di contenuto è il grado con cui gli
itam del test costituiscono un campione rappresentativo dell’universo dei possibili comportamenti (Pedon)
che dovrebbe far pensare subito alla definizione di Anastasi nel primo modulo in cui si fa riferimento a
questo campione di misurazione dei comportamenti del soggetto.

La val di contenuto effettivamente valuta se questo campione è realmente rappresentativo del nostro
costrutto che vogliamo misurare o del dominio di prestazione e ciò vuol dire che se sto parlando di
competenza in matematica, riesco a coprire tutti quelli che sono gli elementi che costituiscono una
competenza in matematica, sia la parte più legata al calcolo sia quella legata alla soluzione di problemi,
problem solving ecc.

Una parte di questa definizione di validità di contenuto di Algina e Crocker fa riferimento al giudizio che
dovrebbe essere espresso di principio su base quantitativa con stime di rilevanza e rappresentatività.
Questo vorrebbe dire che la validità di contenuto potrebbe essere considerata come una caratteristica
dimensionale del test e non come un aspetto qualitativo come invece comunemente si ritiene (questo
succede perché sia per la validità di facciata che per quella di contenuto non esistono dei test statistici
adeguati che ci possano dare un riferimento quantitativo ma esistono tecniche e metodi per cui si giunge a
poter definire se un test o reattivo psicologico ha realmente una buona validità di contenuto.)

La rilevanza di un questionario self report che misura un particolare dominio della personalità o della
intelligenza sarà una funzione del grado in cui la misura conterrà item che riflettono le sfaccettature del
costrutto, per cui sarà bassa la validità se la scala o il test contengono item al di fuori del dominio di
contenuto o mancano di operazionalizzazione che invece è necessaria. Questa è la distinzione che si può
dare rispetto alla rilevanza del test rispetto alla validità di contenuto.

La valutazione della validità di contenuto è fondamentale nel momento in cuiest questa ci mette in
condizioni di ottenere delle prove empiriche a supporto del fatto che gli item del test sono rilevanti e
rappresentativi del costrutto che è il nostro obiettivo. Nell’assessment psicologico e nella valutazione
psicologica in generale, l’importanza della validità di contenuto per la validazione del costrutto varia in base
a quanto viene definito il costrutto e il grado in cui gli esperti concordano sul dominio e sulle sfaccettature
del costrutto. Le uniche modalità che ci permettono di valutare la validità di contenuto sono metodi che
fanno riferimento al giudizio degli esperti, mentre per la validità di facciata si fa riferimento ai soggetti che
partecipano alla risposta al test. Gli esperti vengono chiamati in causa in varie modalità c’è il metodo delphi
e c’è anche il metodo del Q-sorting in cui i soggetti mettono in ordine gli item e quindi c’è un riferimento
non solo di tipo qualitativo (se siamo più vicini o meno al contenuto del costrutto) ma c’è anche una
gerarchia.

La validità di contenuto è sempre più importante perché ci si è accorti della criticità che in alcuni casi può
determinare, soprattutto per i costrutti con confini concettuali vaghi oppure con definizioni che non sono
particolarmente consistenti con qualcosa che non ha una letteratura di riferimento molto chiara. Ad es, fino
a 20 anni fa vi erano diversi strumenti di autosomministrazione per la misurazione del supporto sociale da
una ricerca di Heitzman e Kaplan del 1988 e molti di questi erano sviluppati a partire da concezioni
completamente diverse circa il dominio di contenuto e le sfaccettature di tale costrutto. È chiaro che il
supporto sociale dovrebbe avere un minimo di coerenza e che la costruzione di misurazioni diverse ci fanno
capire come fosse labile e ambiguo questo tipo di costrutto. C’è una tecnica per lo studio della validità di
contenuto che si chiama facet analysis (analisi delle sfaccettature) e questa analisi prevede il lavoro di
individuazione degli aspetti basilari del costrutto per fare una specie di mappa esplicità e chiara del dominio
concettuale e si stabilisce in questo caso anche il peso relativo che ciascuna parte costitutiva ha nella
definizione del costrutto, questo ci permetterebbe di andare poi a controlla re che la quantità di item
all’interno del test sia proporzionale al peso delle varie sfaccettature che è stato individuato inizialmente.
Ad es, se si vuole costruire una scala per misurare l’aggressività è necessario campionare un certo numero
di dati della popolazione, di tutti i possibili item e quindi è necessario individuare gli aspetti costitutivi
dell’aggressività (rabbia, violenza, ostilità ecc) e anche i contesti (i contesti in cui si possono attivare aspetti
dell’aggressività sono: scuola, famiglia, gruppo dei pari ecc. o delle attività: quando si guida, quando si sta
giocando ecc) e bisogna anche definire dal punto di vista teorico qual’è il peso di ognuno di questi aspetti in
termine di numerosità degli item che andranno a far parte di questo test. Se noi sottorappresentiamo un
aspetto importante della definizione del costrutto o lo sovrarappresentiamo, questo determina un
indebolimento della validità di contenuto.

Lo stesso concetto di aggressività o altro, può essere misurato in modi diversi a seconda gli scopi della
nostra ricerca e a seconda della teoria o delle conoscenze di background del fenomeno che stiamo andando
a studiare e quindi ci deve essere quindi una congruenza tra questa molteplicità di elementi che garantisca
la validità di contenuto. Il fatto di non avere un buon test statistico basato ad esempio sulla correlazione,
che è la base della misurazione della validità in altre situazioni, per quello che riguarda il criterio e il
costrutto, rende in un certo senso più discutibile quelle che sono le modalità di misurazione e verifica di
questa sfaccettatura di validità. Ad esempio nei test di profitto che sono un insieme di reattivi dove il
dominio degli item è particolarmente ben definito, così come in quello dei test di abilità, allora è più facile
applicare la ricerca della validità di contenuto, ad esempio per dimostrare la validità di contenuto di un test
musicale per studenti del quinto anno del conservatorio, dovremmo presentare il test a un certo numero di
musicisti per sapere se il test copre tutte le conoscenze musicali più importanti utili ad uno studente.
Questa metodologia di verifica è un’analisi indipendente dello strumento da parte di un gruppo di esperti,
questo è il cuore, il nucleo dell’utilizzo del metodo delphi. Se gli esperti sono chiamati a specificare
eventuali carenze del test e indicare se certi item sono utili e inadatti alla popolazione, siamo in grado di
garantire che il contenuto finale del test sia pertinente e rilevante per il suo scopo.

Il motivo per cui il test (in questo caso di abilità musicale) è un rilevante e valido candidato,è che esiste una
buona misura di accordo rispetto alle abilità specifiche e competenze di base così come avviene anche per i
test di competenza linguistica e matematica. Anche se attualmente la validità di contenuto, è considerata
una componente importante anche per i test di performance tipica, si è sviluppata a partire da quelli di
intelligenza e per la valutazione di reattivi di profitto.

In un certo senso, sia la validità di facciata ma anche quella di contenuto, sono sottovalutate e ritenute
come una forma particolare di validità esterna, in realtà non è così. Nel test musicale di cui parlavamo,
l’item che chiede al soggetto di riconoscere un accordo è un esempio dell’abilità specifica di riconoscere un
accordo e se si risponde correttamente a questo (il test costituito da un solo item non è mai attendibile, in
linea teorica c’è bisogno di almeno 3 itam) o alla maggior parte di questi item, è vero che è in grado di
riconoscere gli accordi. In questo caso si potrebbe dire che la validità di contenuto rispetto alla validità
esterna dovrebbe essere similare. Non è così nel caso di un test di personalità nel quale l’item (a volte ti
senti ansioso senza alcun motivo ) il test ha validità esterna per la misurazione dell’ansia ma bisogna
dimostrare in modo empirico se c’è validità di contenuto perché questo tipo di item può risultare distorto
per una volontà deliberata di mentire o presentare una versione di sé di versa o per una volontà di
rispondere sempre di si o di no o utilizzare solo gli estremi delle scale o fornire una risposta socialmente
desiderabile, affronteremo la questione dell’acquiescenza content free bias e della desiderabilità content
relatedbias sociale facendo riferimento a un libro di Roccato che rappresenta una concezione storica di
queste e questo tipo di azioni determinano la possibile non validità del nostro item
La validità di contenuto necessita di esperti per la sua valutazione? Vero, la maggioranza delle tecniche si
basa sul coinvolgimento di esperti.

Quindi la misurazione della validità di contenuto è raggiungibile ad es con il metodo delphi che è
riassumibile nell’analisi indipendente degli item da parte di un gruppo di esperti, e in linea generale la
maggioranza delle tecniche si basa sul coinvolgimento di esperti in vari ambiti e per quello delphi abbiamo
un processo strutturato che raccoglie e approfondisce informazioni su questi aspetti e lo scopo è quello di
approfondire le risposte individuali al problema specifico. La tecnica delphi si affina in modo progressivo dal
punto di vista degli esperti man mano che il gruppo progredisce nella sua valutazione. È il metodo più
strutturato e formalizzato per cui uno specifico set di item viene sottoposto a giudizio di gruppi di esperti
che in successivi momenti di valutazione esprime la propria opinione e il metodo prevede che questo
giudizio avvenga in modo del tutto indipendente e quindi i componenti del gruppo non dovrebbero mai
incontrarsi personalmente per non influenzare la valutazione. La validità di contenuto per quanto è
importante e per quanto supportabile dalla tecnica delphi non è mai da considerare come un metodo unico
per validare uno strumento, lo studio della validità di uno strumento non deve essere mai ridotto alla sola
validità di contenuto che deve essere sempre considerata in rapporto ad altre verifiche della validità e se è
coerente coi risultati di validità predittiva (di solito adottabile per test di performance massima che sono
più facili da verificare dal punto di vista del contenuto) allora questi giudizi dovrebbero essere congruenti
tra loro. Mentre per la validità di contenuto non sempre si è in grado di garantire che gli stimoli modificati
come indicatori della variabile psicologica del costrutto che si vuole misurare siano effettivamente
corrispondenti, quindi attendibili e validi, per la validità rispetto a un criterio è possibile avere delle
indicazioni più chiare, ad esempio per quello che riguarda la velidità di contenuto, nella storia dello sviluppo
dei test vi sono esempi illustri che ci testimoniano come degli stimoli ideati per misurare un costrutto, una
veriabile latente, si siano poi rilevati più validi per misurarne un’altra come ad esempio nel caso del Bender
Visual Motor test che atualmente è adoperato prevalentemente come tecnica proiettiva per disturbi
dell’emotività mentre originariamente era stato creato per misurare caratteristiche di tipo cognitivo. Un po’
come talvolta succede in medicina quando un farmaco ideato per un certo tipo di utilizzo, poi si rivela utile
in altre condizioni. Ad es, tutti sanno che il viagra originariamente era un farmaco utilizzato per questioni
legate a tenere sotto controllo il battito cardiaco e come effetto inaspettato si è rilevata un’attivazione
sessuale. Per i test psicologici il discorso è più complicato perché non siamo in grado di avere
effettivamente delle risultante percettive e visivamente misurabili rispetto ai costrutti.

I test hanno in realtà come funzione anche una funzione di tipo predittivo perché dovrebbero darci
indicazioni sulle modalità di comportamento del soggetto nel futuro rispetto a un dato punteggio. In genere
si ricorre ai test per predire comportamenti socialmente rilevanti e prendere più velocemente e in modo
più efficace decisioni pratiche. Con altrettanta frequenza si utilizzano i test anche per poter verificare delle
ipotesi teoriche. Se i punteggi del test che abbiamo costruito non correlano con niente di interessante di ciò
che può essere osservato nella realtà impirica, nel mondo reale, quindi i comportamenti effettivi dei
soggetti, che utilità avrebbe il nostro test? Quindi in molti casi il ricercatore vuole tirare le fila di alcune
somministrazioni del test per individuare quali saranno le performances del soggetto rispetto a un criterio
che potrebbe essere misurato in altro modo, ad es. quando c’è un’ammissione all’università viene di solito
somministrato un test e in questo modo il punteggio a questo test di performance dovrebbe dare delle
indicazioni sul comportamento futuro del soggetto in relazione alle performance nello studio e quindi nella
riuscita accademica. Per quello che riguarda la validità rispetto a un criterio è possibile darne una
definizione non esaustiva:

DEFINIZIONE NON ESAUSTIVA:


La validità di criterio si riferisce alla correlazione esistente tra il test da validare e un criterio esterno quando
questi siano somministrati a distanza di tempo tra loro. (Miragliotta, Catalano, Cerniglia, 2009 p. 69)

In realtà è importante indicare come la finalità è legata alla previsione delle prestazioni del soggetto e
quindi la capacità che ha il soggetto di eseguire un compito. Questo compito o performance, che siano
misurate in modo diverso, costituiscono il criterio esterno rilevante. Il criterio esterno è un risultato di
prestazione, di performance che il soggetto ottiene in un momento successivo rispetto a quello della
somministrazione del test che ci interessa. Questo momento successivo potrà essere nell’immediato, cioè
subito dopo o può verificarsi a distanza di lungo tempo.

DEFINIZIONE ESAUSTIVA:

La validità rispetto a un criterio permette di comprendere quanto un test sia efficace nel prevedere le
prestazioni future di un soggetto in una determinata attività o compito specifico.

Essa pertanto indica il grado di associazione fra il risultato del test e un criterio esterno rilevante.

La definizione di Argentero si sofferma sulla correlazione tra due misure che ci dà il livello di validità di
criterio dello strumento che stiamo validando:

Questa forma di validità si ottiene quando lo strumento dimostra di essere ben correlato con un criterio, il
quale deve necessariamente anch'esso essere valido, attendibile, rilevante rispetto a ciò che si vuole
misurare e «non contaminato» cioè realmente indipendente dal test. Essa può essere misurata attraverso il
calcolo del coefficiente di correlazione tra le due misure che esprime appunto il livello di validità dello
strumento.

(Argentero 2006 p. 72)

Questa correlazione può essere analizzata con un semplice coefficiente di correlazione lineare di Pearson
che è in grado di darci il livello della validità del nostro strumento di misurazione. C’è anche una indicazione
relativamente al fatto che ciò che si vuole misurare è non contaminato, sta ad indicare il fatto che questa
prestazione nel futuro è indipendente e diversa rispetto a quella che stiamo facendo nel nostro test, quindi
non è solo una questione di momenti ma anche una questione di modalità con cui questa misurazione
viene effettuata.

COSA SI INTENDE PER CRITERIO. DEFINIZIONE E CARATTERISTICHE:

Il criterio è la prestazione o rendimento ( LA CAPacità di portare a termine un compito) prevista per il


soggetto in funzione dei punteggi ottenuti al test in esame e fondati su misurazioni esterne di una stessa
variabile. La performance prevista diviene di fatto uno standard o un insieme di elementi su cui basare un
giudizio in relazione a situazioni differenti e per questo è definito criterio.

Bisogna mettere in evidenza come queste misurazioni facciano riferimento a cose simili, elementi simili ma
non esattamente alla stessa variabile. Se io faccio un test di ingresso in cui misuro la competenza, la
capacità, il QI, le conoscenze del soggetto che è entrato all’università, questa non corrisponde esattamente
con la misurazione che effettuo dopo quattro anni o cinque anni in base al percorso di studi scelto e che
riguarderà la performance e la prestazione del soggetto. Naturalmente c’è una vicinanza semantica tra la
performance del test e la performance da prestazione in questo ambito ma non deve essere la stessa
identica variabile, quindi è importante che questa misura sia una misurazione che sia indipendente, esterna
rispetto al costrutto originale e possa essere utilizzata come un criterio di riferimento. Quindi il rendimento
che viene previsto è chiamato criterio. Talvolta con criterio si intende un fatto o una norma intesa come
uno standard, un insieme di elementi su cui si può confrontare un giudizio rispetto al test che si vuole
somministrare e il criterio con cui si effettua questo confronto ci serve a stabilire se il nostro test in realtà
sta misurando quel tratto o attributo per cui è stato costruito o progettato. Questi criteri come tutte le altre
misurazioni sono stati validati e quindi dobbiamo essere sicuri che il criterio sia stato nella sua storia
validato e potrebbero esserci più criteri, quindi anche i crtiteri devono essere dei buoni criteri

Caratteristiche principali di un “buon” criterio: (Pedon, Gnisci p. 135)

• RILEVANZA: deve realmente riflettere gli aspetti fondamentali del costrutto che si vuole misurare

• REPERIBILITÀ: essendo variabile deve essere facilmente individuabile.

• ASSENZA DI DISTORSIONI: la misura-criterio non deve essere alterata (bias). Una caratteristica che è
cruciale quando la misura che noi prendiamo come criterio è una scala di punteggi, se coloro che assegnano
i punteggi ai criteri sulla base di altri elementi, ad esempio il giudizio sul lavoratore, questo può essere un
punteggio o criterio distorto e bisogna essere sicuri che non ci sia stata questa distorsione. Un frequente
caso di distorsione è dovuto a una contaminazione del criterio, soprattutto quando è influenzato da
conoscenze precedenti, soprattutto un docente che sa che quel soggetto è il fratello di un bambino che
andava molto bene e quindi tende a valutare in modo positivo i suoi punteggi o se sa che il soggetto è
andato sempre bene è tentato a assegnare un punteggio superiore. Durante uno studio di validazione i
soggetti che avranno poi la possibilità di influenzare i punteggi di criterio non dovrebbero avere accesso ai
punteggi del soggetto al test, questo potrebbe creare delle distorsioni. Questa è anche una situazione prìer
cui tornando al discorso della rilevanza è importante che il criterio rifletta aspetti importanti del costrutto
che stiamo misurando per il nopstro test. Se l’esito lavorativo, la performance sarà un criterio ritenuto
rilevante per la misurazione del rendimento al lavoro allora questa valutazione della performance deve
riflettere direttamente le abilità del lavoratore che vengono studiate in fase di selezione del personale.

• PRAGMATICAMENTE VANTAGGIOSA: deve essere quello più semplice da usare e più facilmente
reperibile. Dal punto di vista pragmatico è più vantaggiosa la misura che è più facile da utilizzare, poi dal
punto di vista del calcolo del punteggio e di quelle che sono le trasformazioni del punteggio necessarie per
poterlo confrontare , questo perché come misure criterio si possono utilizzare numerose variabili e le
misurazioni che vengono di solito utilizzate sono le conseguenze di un risultato: un test di rendimento, la
persistenza di comportameti che sono indagati e legati al nostro costrutto che stiamo studiando e possono
costituire il nostro criterio. Nella psicologia del lavoro e delle organizzazioni ci sono un numero di criteri che
possono essere utilizzati nell’analisi delle performance di un soggetto. E’ evidente il caso di Amazon con le
prestazioni dei lavoratori che vengono studiate in base a quanti pacchetti riescono a predisporre in un certo
periodo di tempo, magari nella selezione del personale per Amazon questi stessi lavoratori hanno
sostenuto un test sulle abilità spaziali o di ragionamento logico e matematico ecc e quindi possono essere
utilizzati come criteri utili alla valutazione della prestazione il numero di creazione di pacchetti o il tempo
con cui riescono a individuare dei prodotti .

Il criterio è un altro test o scala psicometrica? Falso: è una prestazione del soggetto.
Validità o validazione
rispetto a un criterio

A proposito della validità concorrente essa consiste nell’ottenere in un tempo contemporaneo o


immediatamente successivo sia punteggi del test che stiamo validando sia quelli di un criterio ecc..
(definizione della slide). Questa è la situazione che si verifica meno spesso per ciò che riguarda la validità
rispetto a un criterio. Si può dimostrare che il nostro test correla con altri test somministrati in modo
contemporaneo, però bisogna prima avere individuato che la popolazione, quindi i soggetti che stiamo
analizzando siano un campione ampio e rappresentativo della popolazione di riferimento e siano in grado
di avere delle ricadute sulle nostre norme di riferimento.

Dal punto di vista della validità predittiva abbiamo una situazione un po’ più chiara nel senso che di solito lo
studio della validità rispetto al criterio è quasi sempre predittivo perché poi effettivamente è lo scopo per
cui noi vogliamo validare il nostro test. Trovare un criterio che sia preciso e sia lontano nel tempo.Nella
definizione di validità predittiva abbiamo ad es, un caso di un test di intelligenza che esemplifica molto delle
problematiche comuni che richiedono una soluzione del soggetto e la validità predittiva di un test di
intelligenza può essere ad esempio dimostrata prendendo un test di intelligenza di un gruppo di soggetti di
5 anni correlandoli con un risultato al diploma o laurea di questi soggetti. Ciò presuppone che il successo
accademico sia in relazione con l’intelligenza. In realtà un esempio più chiaro sulla validità predittiva è
legata all’esempio al fatto che vi siano dei college o università che facciano una selezione di soggetti in base
a criteri in base a caratteristiche di QI, competenza ecc. per poi essere sicuri di avere dei laureati che
appartengano al top, al miglior 5% (così si dice) dei soggetti.

Alcuni studiosi (ad es. Howe)sostengono che la relazione che esiste tra Qi e successo accademico non prova
la validità del test perché queste correlazioni che dovrebbero suffragare la validità predittiva del test sono
spiegate in termini di un’alta influenza comune che agisca sul soggetto accademico e contemporaneamente
sul test. Ad es. la classe sociale di appartenenza spiega talvolta in m odo soddisfacente parte della
variabilità del punteggio del QI e di quello ottenuto in ambito accademico. È ancora più difficile da valutare
la validità predittiva, di un test di performance tipica, di un test non cognitivo di personalità e ad es.
stabilire la validità predittiva dell’Eysenck personality questionnaire è molto complicato, il nevroticismo ad
es. che è la variabile meno difficile da misurare tra le dimensioni del test perché è abbastanza definito come
costrutto, per questo tipo di dimensione una buona misura della validità predittiva potrebbe essere la
correlazione dopo 1 o 2 anni con il criterio costituito dall’ammissione in un reparto psichiatrico come
pazienti internati “in patient” o clienti esterni “outpatients” cui si dovrebbe aggiungere la fruizione di un
trattamento psichiatrico da parte di operatori di competenza. Ci sarebbe una certa validità se i pazienti
psicotici fossero in partenza esclusi perché non rientrano in punteggi alti di psicoticismo piuttosto che di
nevroticismo e ciò suggerisce che un criterio per la scala di psicoticismo potrebbe essere la diagnosi di una
psicosi di qualsiasi tipo ma ciò non è corretto perché in realtà la scala è una scala di insensibilità. Ci si
aspetterebbe dai pazienti psicotici un punteggio alto in questa scala ma lo avrebbero anche molti altri
anche non malati totalmente e quindi utilizzare quel tipo di criterio potrebbe essere difficoltoso. In
alternativa si potrebbe usare come criterio la diagnosi psichiatrica di uno studio specifico predittivo della
validità ma la correlazione che ci si potrebbe aspettare non sarebbe molto elevata. Questo è ancora più
difficile per l’estroversione perché un soggetto espansivo, socievole, avventuroso, allegro e una volta
assegnato questo insieme di tratti è difficile immaginare come possa crearsi uno studio di validità
predittiva, sarebbe poco accettabile andare a vedere quanti amici hanno i soggetti in questione su facebook
o se hanno un particolare rilievo nella comunità ecc.

La validità di criterio concorrente di solito si utilizza al vecchio esame di scuola guida in cui si faceva una
parte dell’esame carta e matita con 30 domande e subito dopo, se il punteggio ottenuto era alto, si poteva
effettuare la prova pratica. Tra il test carta e matita che poterebbe essere lostrumento di che vogliamo
validare con la misura del costrutto “capacità di guidare in modo corretto – competenza di guida” e il
criterio invece è una performance che avviene subito dopo, quindi il costrutto non è lo stesso perché la
prima parte riguarda la conoscenza delle regole del codice della strada e la seconda è un’analisi della
prestazione che richiede altre capacità. Il nostro strumento carta e matita ha alta validità di criterio
concorrente se moti soggetti che passano l’esame scritto riescono a passare anche l’esame pratico, se
quindi la correlazione tra il buon esito di questi due test è elevata, e se elevata posso dire che
effettivamente il mio test carta e matita ha altra validità di criterio concorrente.

Il discorso sulla validità concorrente è ancora più rilevante se pensiamo al caso della scuola guida di un
aereo. È chiaro che non si dà in mano a un pilota un aereo se non si è certi che abbia delle competenze di
base dal punto di vista della sua conoscenze tali da avere una buona probabilità di riuscita della guida di un
aereo. Da un punto di vista pragmatico, a noi interessa ottenere un’alta validità di criterio che sia predittiva
perché riusciamo a evitare delle problematiche che si sviluppano nel corso accademico oppure si possono
verificare successivamente. Stesso discorso si trae se stiamo utilizzando un test di abilità specifica per una
dattilografa allo scopo di essere sicuri che sia in grado di riportare nell’ambito di un processo in modo
corretto ciò che avviene, in questo caso si potrebbe utilizzare ad es. un basket test che sia valido dal punto
di vista della validità concorrente e predittiva e ci dimostri che la performance del soggetto sia realmente
elevata e la differenza sia semplicemente in questo caso il tempo che intercorre tra le prestazioni che
abbiamo scelto di valutare.

VALIDITA’ DI COSTRUTTO

Anche per la validità di costrutto è possibile analizzare il risultato del nostro test in base a indicazioni di
carattere statistico, quindi è possibile calcolare un coefficiente di correlazione tra i risultati del nostro test e
un altro conteggio.
Parliamo preliminarmente di validità incremetale e validità differenziale. Sono due forme abbastanza
specializzate di validità che ci permettono di capire la validità di costrutto per lo strumento anche essendo
simile alla validità di costrutto per la ricerca. Queste due validità hanno importanza particolare nel
selezionare procedure. Es: se abbiamo una batteria di test durante una procedura di selezione e stiamo
analizzando varie dimensioni e costrutti che ci permettono di selezionare le persone. Se un test correla in
modo moderato con un certo criterio, potremmo pensare che questo test non sia utile. Se però il test
avesse una correlazione uguale a zero con tutti gli altri test della nostra batteria e questa correlazione
scarca con il criterio che ci interessa, per quanto scarsa, questa correlazione, aggiungerebbe nuova
informazione e sarebbe pertanto di grande valore (questo è il concetto di validità incrementale di un test)
questo esempio ci fornisce un’altra indicazione abbastanza importante: evidenzia che non esiste un solo
coefficiente di validità e un test è sempre valido per qualche scopo. Un certo grado di validità un test ce lo
ha sempre. La validità incrementale di un certo test si applica alla selazione di quel caso particolare. In
realtà la validità incrementale è ancora più specifica perché si applica alla selezione di quel lavoro in
relazione alla batteria di test per cui abbiamo detto che c’è correlazione nulla. Il test che stiamo analizzando
per quanto riguarda la validità ha una correlazione nulla, quindi una validità differenziale rispetto agli altri e
incrementale rispetto al nostro criterio originale. Questo vale per questa particolare batteria per la quale
c’è una correlazione pari a zero. Se cambiassimo questi test della batteria, altri test potrebbero correlare
con il test che ha una scarsa validità incrementale e in questo caso sparirebbe anche questa validità
incrementale. Il metodo che si utilizza in statistica si chiama regressione multipla e quello che ci interessa di
questa disamina della validità incrementale è che l’argomentazione che assegna la validità incrementale al
test anche quando la correlazione con il criterio è bassa è identica a quella esiste quando si parla di item
ideale, quando si diceva che malgrado una necessità di avere una omogeneità tra gli item perché devono
essere tutti relativi allo stesso costrutto, gli item dovrebbero correlare col ppunteggio del test ma avere
correlazione nulla tra di loro per concorrere in maniera individuale in modo importante alla variabilità del
punteggio totale, quindi ogni item stesso avrebbe una validità incrementale.

La validità differenziale può essere capita meglio con un esempio su un test di interesse, un test di
atteggiamento, ad esempio un test di questo tipo correla in modo moderato con il successo universitario
ma lo fa in modo diverso per le diverse discipline quindi si potrebbe dire che possiede una validità
differenziale per la prestazione accademica. I test di intelligenza hanno invece correlazioni più alte col
successo universitario ma non possono differenziare tra le discipline, questo non dovrebbe sorprendere
perché la natura dei test di intelligenza è diversa da quelli di interesse, come abbiamo visto nel primo
modulo. L’intelligenza come ha detto Kline è considerata un fattore coinvolto in ogni prestazione
individuale intellettiva e per questo è universale su tutti i campi. È improbabile ad esempio che l’interesse
per la scienza sia collegato con prestazioni in musica e storia mentre ci aspetteremo che il successo nelle
materie scientifiche lo sia, in questo senso può essere differenziale.

Bisogna ricordare che i costrutti psicologici non sono direttamente osservabili (Algina, Crocker p.230, autori
classici che sottolineano questo elemento)

Che cos’è un costrutto?

Un costrutto psicologico è definito come un prodotto di una immaginazione scientifica informata, un’idea
sviluppata per permettere la categorizzazione e descrizione di alcuni comportamenti direttamente
osservabili. È un processo creativo del ricercatore che ha delle basi sulla letteratura disponibile e su quelle
che sono le indicazioni che vengono dagli studi precedenti. Esiste un’ampia validità di test per i quali non è
appropriato nessuno dei concetti di validità fino ad ora visti (contenuto, criterio, facciata ..) e per superare
questa difficoltà con la seguente definizione:

La validità di costrutto (Cronbach e Meehl, 1955) si definisce come il grado in cui uno strumento misura il
costrutto che si intende misurare, cioè gli attributi o le qualità psicologiche che si presuppone siano
posseduti dalle persone.

Sembra molto tautologica come definizione perché si riferisce a se stessa “…è la validità per cui uno
strumento misura il costrutto che deve misurare” ma in realtà l’opportunità di questa definizione è da
attribuire al fatto che la validità come concetto è sfaccettato su tutte queste dimensioni, ma in realtà è una
cosa unica e in questo si differenzia dall’attendibilità che nei suoi diversi livelli di analisi, ad esempio
l’attendibilità per misure ripetute è diversa dall’attendibilità come coerenza interna. Qui invece la validità è
un concetto unico SFACCETTATO (come il trifoglio, pianta unica con tre foglie). In questo caso abbiamo un
concetto unico con cinque dimensioni che contribuiscono tutte quante a dare una stessa concezione,
definizione. Tradizionalmente questa validità di costrutto è nata in modo complementare a quelle che
abbiamo precedentemente detto e che vedremo successivamente (validità nomologica e inter rater), ma
questa complementarietà è assurta a un ruolo principale nel momento in cui nel costrutto è stato possibile
inserire una serie di relazioni con altri costrutti e queste relazioni sono state teoricamente fondate. Un
altro volume degli autori Pedrabissi e Santinello indica come per validità di costrutto si intende se il test è
strettamente connesso con la struttura teorica e concettuale delle funzioni da esso misurate. In questa
condizione è da differenziare quello che poi sarà la validità nomologica che è una validità di tipo teorico più
allargato, in questo caso quando ci riferiamo alla struttura teorica e concettuale delle funzioni di un
concetto, vuol dire se effettivamente ci sia una appropriatezza di deduzione effettuate a partire dai
punteggi di un test che poi misura una determinata variabile chiamata costrutto.

La validità di costrutto detta in modo diverso può essere intesa come la validità rispetto a una funzione.
Quale funzione? Il giudizio sull’appropriatezza di deduzione effettuata a partire dai punteggi di un test che
misurano una determinata variabile latente che viene chiamata in questo caso costrutto. “Latente” vuol
dire che non è direttamente osservabile.

Per costrutto si intende un concetto o una definizione legato a una teoria, che non può essere direttamente
osservato ma solo inferito. In questa prospettiva la validità di costrutto rappresenta un'analisi del
significato del test in relazione al costrutto psicologico che il test misura, ovvero un'analisi di quanto una
data operazionalizzazione (per esempio un G test) misura effettivamente il costrutto che intende misurare
(Cook, Campbell, 1979)(in realtà è significato della funzione di un test). La validità di costrutto non è
espressa da un unico indice statistico, (può essere espressa anche dal coefficiente di correlazione) ma è
data più in generale da una serie di osservazioni e dati che forniscono un'informazione sulla natura del
costrutto che stiamo andando ad analizzare. (Barbaranelli Natali p. 259)

In genere si costruisce una scala per misurare una determinata caratteristica o costrutto psicologico e
partono dalla definizione di elementi fondamentali che costituiscono questo costrutto, se sto parlando
della personalità possiamo scegliere una dimensione di essa es, coscenziosità e da quella dimensione si
sviluppano attraverso il processo di operazionalizzazione una serie di item che sono adatti a cogliere questi
elementi fondamentali. Questa relazione che unisce i costrutti agli indicatori, nei modelli psicometrici che
sono la base di questo corso, è ipotizzata. È solitamente ipotizzato che i costrutti e le variabili latenti
influenzino cioè generino, determinino, causino, gli indicatori o le variabili osservate e quindi diciamo che
questo è il modello riflessivo che riprenderemo parlando di modelli regressivi e fattoriali e avremo modelli
riflessivi che vengono studiati attraverso l’analisi fattoriale e modelli formativi che vengono studiati
attraverso le regressioni.

Questa relazione tra le variabili latenti e gli indicatori sono giustificate da questa relazione di tipo riflessivo
e gli item e i punteggi degli item vengono combinati tra loro in modo additivo, cioè sommando i risultati
dei singoli item per ottenere un punteggio complessivo che può essere la presenza di ansia o socievolezza
ecc. Il costrutto però è qualcosa di più della etichetta che gli viene data, all’inizio viene compresa o inferita
dalla rete di intercorrelazioni che ci possono essere con costrutti similari o dissimili: un costrutto è
definibile anche come una qualità o un tratto teorico intangibile rispetto al quale gli individui differiscono
dagli altri, quindi si tratta di una categoria astratta di un’idea utilizzata per descrivere un loro
comportamento e per operare collegamenti logici tra comportamenti diversi.

Sul concreto il termine costrutto è legato alle variabili direttamente osservabili e necessitano di essere
inferite da ciò che noi effettivamente riusciamo a misurare, cioè i comportamenti dei soggetti.

Esempi tipici di costrutti psicologici sono l’intelligenza, la motivazione ecc.

Come si stabilisce se il test fornisce una buona misura di un costrutto specifico o di uno strumento di
misurazione ?

Il costrutto astratto, teoretico, si deve tradurre in termini di comportamenti concreti, tale processo di
traduzione viene chiamato anche ESPLICAZIONE DEL COSTRUTTO e costituisce la chiave per determinare la
tipologia di validità di un test. Le tre fasi principali dell’esplicazione del c. sono

1) l’identificazione dei comportamenti concreti che possono avere una relazione col costrutto da misurare

2) l’individuazione di altri costrutti che possono essere collegati con i precedenti

3) decisione di quali comportamenti hanno una relazione, ciascuno di questi, con costrutti supplementari e
sulla base della connessione tra i diversi costrutti scelti, dei comportamento che hanno una relazione col
costrutto che si vuole misurare.

Sembra quindi che la valutazione dei punteggi di un test sullo strumento sia legata in modo imprescindibile
alla validazione della teoria riguardante la natura del costrutto di interesse, sembra che questi due aspetti
siano collegati in modo inseparabile. Se questo è vero allora le ipotesi di relazioni teoriche tra il costrutto e
altri costrutti sono ipotesi che possono essere confermate e disconfermate e contemporaneamente
utilizzate come studio della validità della misura in esame. La misurazione empirica di costrutti diversi o
similari viene utilizzata per confermare o disconfermare ipotesi teoriche e in questi casi poi si riesce ad
attribuire ciò alla validità di uno strumento.

I tipi di validità di costrutto sono la validità convergente e la validità discriminante, quindi anche la validità
di costrutto così come la validità di criterio, è suddivisa in due sfaccettature.

C’è un’altra modalità di conferma di validità di costrutto che è l’Analisi fattoriale. Vedremo anche un altro
metodo di conferma di validità (che contemporaneamente valida il metodo e il costrutto) che si chiama
matrice multitratto e multimetodo.
Per valutare la validità di costrutto:

In realtà la validità convergente presuppone che vi sia una convergenza tra le misurazioni del costrutto
della nostra analisi e quelle di un costrutto similare che dovrebbe convergere con quelle del costrutto in
esame. Mentre per i test di intelligenza i vari approcci (come fattore g, fattore unico, fattore multiplo o
come analisi delle intelligenze multiple ecc. ) possono essere cosiderati convergenti. Quando parliamo ad
es. di un costrutto come l’amicalità, e vogliamo validare dal punto di vista della validità convergente il
nostro test, allora bisogna vedere se i punteggi ottenuti a questo test sull’amicalità convergono, cioè hanno
una correlazione alta e positiva,( sale l’amicalità e sale anche il punteggio di un test che misura un costrutto
convergente come ad es. l’apertura mentale).

Per costrutti misurati da test diversi che in linea teorica dovrebbero andare nella stessa dimensione come i
due menzionati in precedenza, se riusciamo a confermare questo tipo di correlazione possiamo anche dire
che c’è una validità convergente alta per il nostro test.

Per avere un livello di validità discriminante accettabile il coefficiente di correlazione deve essere uguale a
zero?

Falso: si sceglie un costrutto che sia correlato negativamente, quindi più si avvicina a -1 meglio è.

Validità discriminante: come si misura? In questo caso si effettua una correlazione, però questa volta il
costrutto con cui noi andiamo a correlare la nostra misurazione, dal punto di vista teorico dovrebbe avere
una relazione di tipo divergente, cioè ad alti punteggi del nostro costrutto dovrebbero, dal punto di vista
teorico, corrispondere bassi punteggi del costrutto in esame, ad es. amicalità e ansia. Un soggetto che è
ansioso è meno disponibile a mettersi in gioco per avere relazioni sociali, quindi dal punto di vista teorico
dovrei osservare se il mio test ha un’alta validità di costrutto discrimminante, una correlazione negativa
alta, cioè verso -1, quindi -0.80-90 ecc. perché quando aumenta il livello di amicalità diminuisce l’ansia e
viceversa.
Anche in questo caso il tipo di misurazione è strettamente legata alla correlazione ed è molto semplice ed è
da mettere in evidenza come questo tipo di verifica della validità di costrutto con la semplice correlazione è
stata sopravanzata dall’analisi fattoriale che riesce ad individuare se effettivamente il costrutto che stiamo
analizzando attraverso il nostro test ha le stesse dimensioni di quelle teoricamente presupposte o se ha una
sola dimensione, un solo costrutto che influenza tutti gli item e quindi come tecnica statistica più
complessa (attraverso l’inevitabile utilizzo dei personal computer) ha sostituito in modo molto estensivo
tutti i tipi di studi di validità convergente e discriminante legati alla correlazione semplice, anche perché
questo tipo di studi è molto legato al tipo di strumenti e misurazioni che utilizziamo per la correlazione, per
questo servono strumenti validati e la ricorsività che riscontriamo utilizzando la semplice correlazione, con
l’analisi fattoriale può essere superata e resa meno rilevante.

VALIDITA’ DI UNO STRUMENTO DI MISURAZIONE

Questo disegno fornisce un’idea dell’interconnessione tra i vari elementi della validità. Le freccette
collegano i vari tipi di validità dello strumento di misurazione in un unico concetto di validità sfaccettato
con elementi che contribuiscono tutti a determinare la validità di uno strumento, per quanto invece
riguarda l’attendibilità , i differenti metodi di misurazione dell’attendibilità si riferiscono ad attendibilità
diverse. Mentra per facciata, costrutto, contenuto, criterio e nomologico, la validità ha uno stesso
contenuto, per l’attendibilità diversi metodi portano a diverse concezioni di attendibilità.
Ultima tipologia di validità di uno strumento di misurazione:

A partire dalla validità di costrutto, cioè la relazione tra il nostro costrutto misurato dal nostro strumento di
misurazione con costrutti similari o divergenti ma singoli, quindi non costituenti una rete tra di loro, la
validità nomologica costituisce un passo ulteriore perché si va ad analizzare che dal punto di vista teorico
generale diversi altri costrutti dovrebbero posizionarsi all’interno della nostra teoria in un certo ordine e
contemporaneamente ci dovrebbero essere altre variabili osservabili che ci danno un’idea sull’effettiva
coerenza del costrutto con comportamenti direttamente osservabili nei soggetti. Cronbach e Meehl
definiscono la validità nomologica come dimostrazione che è effettivamente il costrutto a specificare le
leggi statistiche o deterministiche che reggono le sue manifestazioni costrutto in termini di relazioni tra le
sue proprietà osservabili, cioè tra il costrutto e le variabili osservate e tra costrutti diversi. Nella valutazione
della validità di costrutto non ci si può limitare solo alle manifestazioni empiriche ma si devono prendere in
considerazione anche le relazioni con altri costrutti o criteri della rete nomologica nella quale è inserito.

Una rete nomologica si può intendere come indicato nella slide. Questa rappresentazione può essere
definita anche come un modello logico. Ci sono variabili direttamente osservabili come il comportamento
delinquenziale, c’è un legame tra costrutti diversi come disimpegno morale e propensione all’aggressione.
Se il nostro strumento misura la propensione all’aggressione, evidentemente ha inserito altri costrutti,
comportamenti osservati (Comportamento prosociale Colpa e riparazione, che sono altri costrutti) in
questa rete nomologica e teorica di relazione tra costrutti. Le freccette sono le relazioni statistiche per cui è
calcolato anche il coefficiente di correlazione. C’è una correlazione media (0.51) tra disimpegno morale e
propensione all’aggressione, ce ne è una di 0.31 tra propensione all’aggressione e comportamento
delinquenziale e comunque l’idea che la propensione all’aggressione dovrebbe determinare
comportamenti delinquenziali è confermata, anche se non completamente, perché ci sono altri elementi
che evidentemente possono contribuire al comportamento delinquenziale.
La rete nomologica di un costrutto può essere ampliata grazie alla ricerca che deve andare ad analizzare in
particolare le relazioni del costrutto con altri costrutti non considerati in precedenza, quindi la propensione
all’aggressione può essere considerata in assenza di colpa e riparazione oppure in presenza di colpa e
riparazione e vedremo che questo potrebbe essere considerato secondo quanto visto precedentemente. Se
analizziamo semplicemente la relazione tra disimpegno morale, comportamento delinquenziale e
propensione all’aggressione, potremmo anche dire che c’è una relazione tra disimpegno morale e
comportamento delinquenziale che è mediata dalla propensione all’aggressione (nel modulo 3 abbiamo
visto le variabili moderatore e mediatore). In questo caso è una mediazione non completa perché
evidentemente rimane una certa parte di relazione tra disimpegno morale e comportamento
delinquenziale non spiegata dalla propensione all’aggressione, infatti in questo modello permane una
relazione tra disimpegno morale e comportamento delinquenziale positiva e non è una relazione
completamente spiegata da questa terza variabile, possiamo inserire ulteriori costrutti in base alla ricerca e
la valutazione della validità di costrutto non può essere limitata alle sole manifestazioni empiriche (variabili
nel rettangolo), quindi non si possono andare a vedere solo relazioni col comportamento prosociale e
comportamento delinquenziale ma deve essere legata anche ad ulteriori costrutti. È necessario utilizzare
alcune osservazioni per stimare il valore di ogni costrutto e quindi la verifica della validità nomologica di
uno strumento diventa ancora più onerosa dal punto di vista della raccolta dati e la validità
dell’interpretazione proposta dei punteggi al test in termini di validità di costrutto viene valutata in base a
quanto i punteggi supportano la teoria in generale, quindi non solo o non più realzioni singole ma quanto
all’interno di tutte le relazioni in termini generali c’è o non c’è una congruenza. Se le osservazioni sono
coerenti con la teoria, la validità della teoria e delle procedure di misurazione utilizzate per stimare questi
costrutti che sono definiti dalla teoria risulta allora a sua volta corroborata, altrimenti si può procedere a
considerare alcune parti della rete nomologica come non corrispondenti e quindi addirittura a rifiutarle,
però bisogna stare attenti che questo difetto non sia nel sistema di misurazione ma sia negli assiomi perché
se noi andiamo a rifiutare le azioni postulate e verificate in precedenza dal punto di vista teorico , bisogna
stare attenti che le regole utilizzate per la misurazione e le procedure di misurazione siano state
perfettamente seguite.

Con questa validità abbiamo terminato la disamina dei principali metodi di conferma e studio della validità
di uno strumento di misurazione così come definito dall’American Psychological Association e questo però
non vuol dire che non ci siano altri metodi. Vi è l’analisi fattoriale per l’analisi di costrutto e c’è un altro
metodo interessante che è la

MATRICE MULTI TRATTO MULTI METODO

È uno strumento particolarmente efficace in alcuni casi perché ci permette di verificare condizioni di
validità convergente e discriminante contemporaneamente a una misurazione di più di un tratto ottenute
con misurazioni con più metodi, quindi Matrice multi tratto e multi metodo perché ci permette questa
verifica di tratti diversi ottenuti con misurazioni diverse e metodi diversi ma allo stesso tempo la verifica è
una verifica integrata che ci permette di avere una visione di insieme più interessante che non le singole
validità suddivise.
Campbell e Fiske per primi nel 1959 propongono la MMTMM come metodo per verificare le associazioni tra
questo insieme di misure che vanno organizzate in una matrice (una specie di tabella con righe e colonne) e
da questa tabella possono essere ricavate le informazioni necessarie per poter valutare la validità
convergente e discriminante contemporaneamente ma allo stesso momento metodi diversi. Supponiamo di
voler misurare in un campione di soggetti l’intolleranza verso l’ambiguità, la chiusura cognitiva e l’apertura
mentale e determinare per questi 3 elementi la validità delle misure. Per ognuno di questi 3 tratti sono
state raccolte 3 misure che differiscono tra loro per formato degli item e modalità di risposta disponibili per
i partecipanti. Ognuno dei tratti è stato successivamente misurato con i 3 metodi e le associazioni tra le
misurazioni che sono state elaborate vengono disposte in questa matrice in cui i tratti verranno chiamati A
B C e sono misurati con 3 metodi diversi indicati con metodo 1, 2 e 3. Quindi questo esempio di matrice
MMTMM corrispondente all’esempio fatto, una volta predisposta questa matrice va interpretata. Campbell
e Fiske hanno proposto di individuare diversi sottotriangoli nella matrice e utilizzarli per la valutazione della
validità convergente e discriminante. I triangoli hanno dei bordi disegnati in modo diverso, solidi o
tratteggiati. Quelli con bordi continui contengono le correlazioni tra i tratti diversi misurati col medesimo
metodo, nel primo triangolo in alto abbiamo la relazione tra il tratto b1 e a1 misurate col metodo 1 (b1a1),
c1 e a1 col metodo 1 (c1a1) e c1 e b1 col metodi 1 (c1b1).

I triangoli tratteggiati identificano i settori della matrice che includono correlazioni tra tratti diversi misurati
con metodi differenti. Per non confonderci possiamo chiamare i triangoli con bordo continuo triangoli
eterotratto monometodo (tratti differenti ma un unico metodo) e i triangoli tratteggiati che vengono
chiamati eterotratto eterometodo (metodi diversi e tratti diversi).

Sotto il triangolo più alto, scendendo verso destra, abbiamo il triangolo tratteggiato con Metodo 2 e 1
incrociati in questo triangolo e quindi abbiamo delle relazioni che devono essere interpretate in modo
diverso. Le diagonali che vengono identificate in grassetto racchiudono i coefficienti di validità convergente
in quanto riflettono le correlazioni tra medesimi tratti misurati con metodi diversi, ad esempio tra i primi
due triangoli tratteggiati dall’alto vediamo in grassetto A2A1 rappresenta il tratto A misurato con il metodo
1 e col metodo 2. Sotto abbiamo la stessa cosa per il tratto B, mentre due valori più in basso, seguendo la
diagonale, abbiamo B3b2 CHE è IL TRATTO B MISURATO col metodo 3 e il metodo 2 e così via.
Per indagare quindi la validità convergente e discriminante vengono valutati 4 criteri. Il primo criterio
concerne la validità convergente mentre gli altri 3 criteri riguardano la validità discriminante. Per quanto
riguarda la validità convergente questa viene supportata dai coefficienti nella diagonale della validità in
grassetto e dobbiamo verificare quelli che sono più elevati e i valori più elevati che siano anche
statisticamente significativi. Questi valori ci possono indicare metodi diversi di misura di un medesimo
costrutto che sono ampiamente convergenti e ciò depone a favore della loro validità. Se io attraverso
metodi diversi misuro lo stesso tratto e la correlazione tra queste due misurazioni è alta allora ci dovrebbe
essere validità convergente.

Il secondo criterio di validità discriminante si basa invece sul confronto di ogni coefficiente di validità coi
coefficienti racchiusi nei triangoli eterotratto-monometodo, quindi all’interno dei triangoli con tratto
continuo. La validità discriminante viene supportata se le misure di un medesimo tratto che non
condividono un medesimo metodo risultano maggiormente associate rispetto alle misure di tratti diversi
che però condividono il medesimo metodo.

L’ultima modalità per la verifica del supporto della validità discriminante vede che le correlazioni tra i
diversi tratti debbano conformarsi al medesimo ordine sia nei triangoli monometodo (continui) che in
quelli eterometodo (tratteggiati). Per esempio se, considerando il metodo M1, cioè il primo, osservassimo
che i tratti A1B1 risultano più correlati dei tratti B1C1 e questi ultimi sono a loro volta associati in modo più
stretto con i tratti A1C1, allora il medesimo ordine delle correlazioni deve essere rispettato per gli altri
metodi di misura, quindi per il metodo 2 e 3. Variazioni di questo criterio ci porterebbero a pensare che
almeno per alcuni metodi e per alcuni tratti manca validità discriminante, quindi non si è in grado di
differenziare tra i tipi di misurazione. Questo tipo di analisi è abbastanza complessa anche perché richiede
di analizzare contemporaneamente una intera matrice e difficilmente si riesce ad avere una perfetta
distribuzione secondo i criteri che abbiamo appena indicato e avere una chiara differenziazione sulla
validità convergente e discriminante. La logica dei criteri di una matrice MMTMM è relativamente semplice
e intuitiva per queste regole già stabilite ma l’applicazione pratica risulta ambigua e difficile da gestire
perché non è chiaro quale conclusione si debba ad esempio trarre se ci troviamo nella condizione in cui
alcuni criteri sono rispettati ed altri no, è facile determinare quali sono i criteri ma poi non c’è una chiara
indicazione su quele sia quello da seguire nel caso ci siano elementi divergenti, inoltre siccome i criteri si
basano su correlazioni tra variabili osservate e siccome sappiamo che esiste l’errore di misura, cioè che
questo punteggio osservato in realtà non corrisponde direttamente al punteggio vero e quindi questa
validità meno che perfetta dovrebbe abbassare i coefficienti di correlazione, allora l’applicazione dei criteri
diventa un po’ più ambigua e in alcuni casi affidarsi solo alle correlazioni può risultare fuorviante. Questo
però non vale solo per la MMTMM ma vale anche per i coefficienti di validità calcolati per costrutto e
criterio in modo precedente

La validità nomologica concerne le relazioni con misurazioni diverse del costrutto, con misure di altri
costrutti all’interno di un sistemateorico e con misure di variabili presenti nel mondo reale.

Vero
Confronto fra la concezione degli elementi fondamentali per la misurazione di una caratteristica attraverso
un test e una volta che abbiamo definito qual è il costrutto o l’abilità o il tratto che il test propone di
misurare e il metodo con cui verrà definita la quantificazione dei risultati dobbiamo scegliere gli stimoli e
fissare le modalità di risposta. Sia gli stimoli che le modalità di risposta debbono essere appropriati per la
caratteristica da misurare es. se si vuole misurare la creatività le risposte dovrebbero essere
necessariamente aperte, se si vuole misurare la capacità di risolvere dei problemi sono più vantaggiosi item
con risposte chiuse magari a scelta multipla con una risposta sola di tipo alfa cioè corretta o se si vuole
misurare un tratto di personalità probabilmente le risposte più adatte sono quelle con alternative chiuse
disposte lungo una scala che rispecchi il continuum delle differenze individuali. La scelta dei tipi di risposta
è molto connessa con i problemi relativi alla corrispondenza che ci sono tra test ed esigenze pratiche. Gli
stimoli devono essere scelti o realizzati in modo che attivino solo risposte attinenti alla caratteristica da
misurare e ad es, se parliamo di un questionario psicopatologico che ha domande con vocaboli difficili,
persone meno colte potrebbero dare una risposta di tipo alfa, cioè quella che corrisponde a una
psicopatologia anche quando non hanno quel disturbo solo perché hanno frainteso. Se lo stimolo è una
figura e ci aspetta risposte alfa in rapporto a un dettaglio bisogna essere sicuri che quel dettaglio non
presenti difficoltà percettive e le risposte alfa non si presentano perché è assente la caratteristica o perché
la figura non era adeguata.

Si parla di validità a priori del test perché bisogna pensare prima a queste problematiche, mentre adesso
stiamo parlando di validità a posteriori.

Nei test costituiti con cura vengono anche consultati esperti anche esterni al gruppo che si occupa del test e
vengono fatti confronti su piccoli gruppi di soggetti che vengono chiamati try out. L’insieme di questi
controlli è la validità esaminata a priori cioè quando ancora non si conoscono le risposte dei soggetti al test,
invece una volta trovati gli stimoli e predisposto il test comincia la validazione esterna di esso, la chiamiamo
validazione a posteriori per non confonderci con la validità esterna della ricerca, quindi abbiamo la validità
a priori e a posteriori che è invece associabile ai 5 tipi di validità precedentemente affrontati. Questi
procedimenti di validità a posteriori durano in genere più di un anno perché richiedono la raccolta di un
campione normativo molto numeroso e sono chiamati controlli a posteriori perché vengono fatti post
somministrazione del test, la maggior parte delle problematiche riguarda la scelta del campione o dei
campioni su cui procedere a effettuare i controlli e la maggior parte dei test non vengono validati su
campioni stocastici, cioè aleatori, né rigorosamente casuali che permetterebbo migliore garanzie di validità
ma che sono particolarmente difficili per diverse tipologie di popolazioni. Gli studi di validità che abbiamo
visto sono premessa degli studi di attendibilità, cioè sulle garanzie che le misure fornite siano stabili anche
se cambiano gli operatori, se passa un po’ di tempo, se si usa una o l’altra forma del test. E una volta
accertato che la misura è stabile si cerca di chiarire se si misura quello che ci si proponeva.

Lo psicologo che decide di utilizzare un test invece di un altro lo fa anche per vantaggi pratici perché il test
corrisponde a esigenze pratiche. Se bisogna misurare l’ansia o la depressione si può ad esempio utilizzare il
CDI 2 e questo test, è una versione ridotta che potrebbe essere scelta per motivi di praticità legati al poco
tempo o alla caratteristica della persona. Se ad es. il test scelto non può essere utilizzato per persone di
modesta cultura allora bisogna scegliere un altro tipo di test se la persona non ha un buon background
culturale. Ci sono anche molti altri problemi etici e deontologici per i quali ad es, è bene non utilizzare test
con item dalla particolare connotazione politica e religiosa, inoltre si potrebbe valutare il costo o la validità
per la popolazione di riferimento e tanto altro ancora.
MODULO 6

Più del 90% degli psicologi (studio americano) fa un uso intensivo dei test psicologici. Marnat (2003)
dichiara che il 25% del lavoro degli psicologi nella loro vita sarà dedicato alla somministrazione e
misurazione attraverso i test ed i test soprattutto negli Stati Uniti stanno diventando uno dei requisiti
fondamentali per la formazione degli psicologi soprattutto post laurea. Il contesto culturale italiano è
differente e ha subito nel corso del tempo uno scostamento di concezione che in un certo senso è anche
comune a molti paesi europei, in parte è specifico per le sue condizioni storiche e culturali. Da questo
deriva anche l’accettazione dell’uso dei test in ambito diagnostico. Ci sono state molte critiche per possibili
abusi e utilizzo dei test in maniera ottusa o in modo troppo rilevante, però c’è una concezione culturale
contraria e inversa per motivi che esulano dalle criticità tecniche dello strumento e che devono essere
superati. L’APA negli anno ’60 del secolo scorso fu una delle associazioni che sostennero la polemica
relativa al test psicologico perché si stava acuendo il problema dell’utilizzo indiscriminato di questi test
anche in America in settori non soltanto di tipo clinico. La critica al valore dell’applicazione dei test,
sosteneva che l’abuso dell’applicazione di questi test si perpetuava anche in ambiti che non richiedevano il
loro utilizzo, come in ambito lavorativo, nel quale i test utilizzati per la selezione avevano item che
mostravano scarsa attinenza per la professione per la quale le persone si proponevano .

C’era anche un’altra forza che proponeva questa polemica sociale sempre in America dopo il Civil Rights act
del 1964 in cui si parlava di pari opportunità di lavoro e si proibiva la discriminazione in ambito lavorativo
anche mediante l’utilizzo dei test. Abbiamo parlato dei test culture free o dei test semplicemente basati
sulle immagini che cercavano di lenire questa problematica. La stessa American Psychology Association si
pronunciò sulla questione dell’abuso dei test pubblicando il manuale “Standard for educational and
Psychological testing” nel 1966 in cui si elencavano i criteri in base ai quali devono essere costruiti validati
somministrati e interpretati i test psicologici e tuttora parte di questo volume è attuale e utilizzato. Il
grande sviluppodella testistica negli anni 40 e 60 in America seguì un po’ a un declino negli anni ’60 per cui
diventava complicato applicare questi test anche in ambito organizzativo e di lavoro anche per la
legislazione che cercava di assicurare gli stessi diritti alle minoranze. Questo vale anche per i questionari di
personalità che erano considerati intrusivi della privacy individuale e potenziali strumenti discriminatori per
alcune categorie sociali. Secondo Thort i test hanno iniziato a fare delle stragi in quel tempo e le vittime
principali erano i bambini dei ceti popolari che venivano etichettati dal punto di vista delle facoltà
intellettive, per lo studioso questi strumenti attraverso il QI esacerbavano il contrasto tra le classi sociali.
L’autore da un lato trovava una stretta correlazione tra i test di intelligenza e categorie socioprofessionali
che diostrava che i figli di genitori di classi sociali elevate ottenevano in media punteggi più alti nei testi dei
figli di classi sociali inferiori e dall’altro lato affermava il QI come misura di intelligenza è inconsistente in
relazione alle specifiche provenienze sociali. Si proponeva come unica conclusione possibile di eliminare
qualsiasi uso dei test in America. Ciò ovviamente non avvenne e le critiche elencate, pur contenendo
informazioni condivisibili se riferite al cattivo uso che talvolta si fa dei test, non sono accettabili perché
basate su conoscenze superficiali e inadeguate. Validità e attendibilità dei test sono in grado di superare,
rispetto ai rischi della valutazione scorretta, gli ostacoli ai benefici della diagnosi dei soggetti. In Italia la
critica ai test è stata influenzata dal clima di contestazione degli anni 70. Miglietti in uno studio del ’74
evidenzia che l’ostilità ai test è più di tipo ideologico che tecnico perché i test sono concepiti come
strumenti antidemocratici della borghesia e sono usati dai padroni per difendere i propri interessi. Nel
periodo tra gli anni ’60 e gli anni 70 in tutta Europa oltre che in Italia si assiste alla diffusione di posizioni
ostili all’uso dei test e nella comunità degli psicologi ne viene limitato fortemente l’uso. Altra ragione di una
diminuzione dell’uso dei test in questo periodo era dovuta al prezzo molto alto. I prezzi sono tuttora alti
ma presentano un maggior livellamento rispetto alle cifre di quel periodo. L’entusiasmo anche iniziale per
la sicurezza dei risultati dei diversi test e di come potessero essere interpretati e dell’uso indiscriminato che
se ne poteva fare porta poi a un collasso. Holt nel 1975 dice che non si sa da dove avesse avuto origine
questo alone mistico sulla capacità dei test di svelare i segreti dell’anima e l’abilità a verbalizzare qualcosa
che difficilmente poteva essere analizzata ed era chiaro che si sarebbe arrivati a un colasso di questo tipo di
analisi. Un altro fattore del declino dei test viene identificato da Mehl come la controversia tra previsione
clinica e valutazione statistica, tutt’ora c’è un discorso di questo tipo e le motivazioni erano principalmente
2:

1) c’era un disaccordo sul genere dei dati che lo psicologo doveva raccogliere per formulare la diagnosi sul
cliente, da un lato gli psicologi ad indirizzo statistico avevano forte fiducia nei test obiettivi, dall’altro gli
psicologi ad indirizzo clinico si entusiasmavano a dati non psicometrico come ad esempio le informazioni
raccolte attraverso il colloquio dall’anamnesi, dalle inchieste sociali, dal curriculum in ambito lavorativo ecc.
Un secondo motivo della controcversia era l’utilizzo delle prove dopo che erano state raccolte, quindi una
parte degli studiosi voleva basare le previsioni su procedimenti meccanici e tecnicamente esatti, quindi
equazioni, correlazioni ecc. dall’altra parte c’era chi sosteneva che con una consistente esperienza clinica,
bisognava sempre trattare i dati in modo personale per giungere a valutazioni ponderate. Questo contrasto
portò alla svalutazione delle rispettive tecniche (diagnostiche e statistiche) e negli anni 80 si conobbe una
nuova linfa per la pratica testistica soprattutto nell’ambito dei reattivi di personalità e da allora i test
tuttora rimangono uno dei maggiori strumenti di valutazione. La caratteristica che viene apprezzata dai
professionisti è la standardizzazione ovvero l’uniformita delle procedure di somministrazione e l’obiettività
cioè una valutazione che non sia influenzata da indicazioni del soggetto che valuta il punteggio.

Sfortunatamrnte nella ricerca applicata non si può sempre dare per scontato che le variabili misurino ciò
che devono misurare e lo facciano in modo corretto.

IL MODELLO DI MISURA

Per stabilire la qualità delle misurazioni effettuate dobbiamo esplorare le loro caratteristiche e quantificare,
per quanto possibile, le loro proprietà. Comprendere le caratteristiche delle variabili equivale a studiarne il
modello di misura.

Per modello di misura intendiamo la descrizione delle fonti di variazione che influenzano i punteggi di
una misurazione.

Una misurazione è una procedura volta a produrre dei punteggi osservati corrispondenti a quantità o
Qualità di un costrutto latente. Una misurazione può essere influenzata dalla variabilità del costrutto
latente che si intende misurare, dalla variabilità di altri costrutti intervenienti e dall'errore di misura. Il
modello di misura descrive le fonti di variazione che influenzano i punteggi di una misurazione.

AD ES. due variabili: la velocità di un corpo e l’autostima. La prima è definibile in vario modo ma
sostanzialmente è data dallo spazio percorso dal corpo in un dato tempo, se indichiamo i km percorsi da
una macchina in 2 ore sappiamo che in media la sua velocità il numero dei km diviso 2. Se K sono i Km la
velocità sarà k fratto 2 (le due ore) e sapremo i km orari, la velocità del luogo.

Per definire l’autostima in primo luogo dobbiamo definire l’autostima (non dovevamo definire la macchina)
poi dobbiamo trovare per l’autostima un metodo per raccogliere le informazioni necessarie a determinare
l’autostima di un soggetto, quindi dobbiamo raccogliere queste informazioni e trasformarle in quantità
comprensibili e analizzabili, possiamo ad es. definire l’autostima come la valutazione che ognuno ha di sé
come dice Rosenberg nel suo libro del 1979 e poi stilare alcune domende con le quali chiedere ai soggertti
della ricerca quale sia la loro valutazione di sé. È naturale chiedersi se siamo in grado di dimostrare se le
doande mostrate misurino effettivamente l’autostima e non qualche altro costrutto come ad es.
autoefficacia, ottimismo ecc. Dobbiamo stabilire che la misurazione sia VALIDA, cosa che abbiamo visto
nello studio della validità di misurazione che stabilisce che misuri ciò che effettivamente dovrebbe
misurare. Oltre ad essere valida una misura deve essere attendibile e prendiamo l’esempio della velocità. È
chiaro che la distanza diviso il tempo è una sua valida misura perché misura esattamente il moto del corpo
e la sua velocità, ma non è detto che il modo di fare questi rilevamenti sia affidabile o attendibile, ad es,
immaginiamo una lunga strada e una macchina della polizia in fondo alla strada, se gli agenti valutassero ad
occhio dalla loro postazione che distanza percorre la macchina nell’arco di 30 secondi, potremmo dire che
questa misurazione è molto meno affidabile di una fatta con un autovelox con delle fotocellule e un timer.
Perché riteniamo cha a occhio la misurazione dei poliziotti sebbene con massima esperienza e formazione,
la riteniamo più soggetta a distrazioni di tipo casuale rispetto ad una misurazione con autovelox perché le
probabilità di imprecisione sarebbero più alte ma soprattutto questo tipo di misurazione a occhio NON E’
REPLICABILE e a parità di velociutà la rilevazione a occhio darebbe risultati differenti per diverse
misurazione. La capacità di una misura di ottenere la stessa misurazione a parità di quantità rilevata in
tempi e occasioni diverse è detta ATTENDIBILITA’ DI UNA MISURA. Qualunque misura utilizzata in una
ricerca deve essere il più possibile valida e attendibile e per stabilire ciò ci sono delle valide misure e
bisogna delineare un modello teorico di misura per capire come studiare le caratteristiche delle variabili in
situazioni pratiche.

In realtà rispetto alla teoria classica del test che prevede che il punteggio grezzo di un test sia dato da una

parte di punteggio vero A CUI SI SOMMA l’errore


casuale, che può essere sia positivo che negativo ed essendo casuale può essere più alto o più basso, quindi
dal punto di vista concettuale l’attendibilità misura se la nostra misurazione coglie con sufficiente
precisione e sistematicità un certo fenomeno, altrimenti non ci sarebbe nessun significato da attribuire alla
misura anche se questa misurazione avesse una corretta validità, quindi l’attendibilità detta anche
AFFIDABILITA’ O FEDELTA’ di un test mentale consiste nel grado in cui esso fornisce misure stabili di un
determinato costrutto psicologico allorché il test venga applicato più volte a un soggetto, a un gruppo di
soggetti oppure si utilizzino prove equivalenti per gli stessi soggetti, anche in condizioni di
somministrazione diverse.

Possiamo fare riferimento al metodo per misurare la lunghezza di un tavolo, se la misurazione che ottengo
è di 3 metri, se a distanza di una settimana io misuro lo stesso tavolo con lo stesso metro, dovrei ottenere
lo stesso risultato. Questo non sarebbe vero se ad esempio il metro fosse costruito in materiale elastico e si
fosse scaldato cambiando la misura. Nella misurazione dei fenomeni psicosociali non abbiamo
strumentazioni precise come il metro e una certa quantità di errore è sempre implicita nella misurazione.
La precisione secondo cui una misura deve essere conforme a uno standard cioè deve avere un margine di
errore tollerabile nello stesso tempo vuol dire che la misura deve essere costante nel tempo e il margine di
errore deve essere tollerabile tra misure effettuate in tempi diversi. La misura non deve essere soggetta a
cambiamenti che derivano da difetti dello strumento di misurazione e dal suo uso irregolare e vi è anche
una stabilità detta intra rilevatore INTER RATER ABILITY quindi abilità inter rilevatore che presuppone che
non debba essere influenzata dalla soggettività e che presuppone che le stesse istruzioni per rilevatori
diversi portino a risultati similari.

Un test è attendibile se misura con precisione e sistematicità il costrutto di interesse. VERO

Tornando alla concezione di attendibilità secondo la teoria classica del test, l’attendibilità di un test nel
tempo è nota come attendibilità test retest. Il coefficiente di correlazione per misurarla è indicato con r tt

Sarebbe il coefficiente di correlazione test retest, e considerando questa concezione possiamo definire
l’attendibilità test-retest come il rapporto tra la varianza vera fratto, diviso, la varianza osservata. La quota
o proporzione di varianza vera, cioè di punteggio vero contenuta, nella varianza osservata, quella totale
(quella della varianza vera + l’errore). In questo caso abbiamo la varianza vera e la varianza osservata che
sono indicate con i simboli dell’alfabeto greco, (con sigma) e in questa equazione si fa riferimento alle
statistiche della popolazione, queste statistiche sappiamo che non sono conosciute, è perciò necessario
stimarle a partire da un campione di soggetti che verranno realmente misurati.
Dato che alcuni concetti di questa equazione, come il punteggio vero, la varianza vera, non possono però
essere misurati direttamente, ma solo stimati indirettamente, l’attendibilità viene considerata un costrutto
essa stessa. Una proprietà ipotizzata nei punteggi del test. Con questo presupposto, se intendiamo la
varianza totale di un test come uguale a uno, arriviamo alla seconda formula che vediamo nella slide, dove
il coefficiente di attendibilità test retest rtt, può essere anche considerato come 1 meno la varianza casuale
(ovvero la varianza dell’errore) indicata con sigma al quadrato con la lettera E fratto la varianza del
punteggio osservato indicata con sigma al quadrato con la lettera X. In effetti il punteggio della prima
frazione sommato al punteggio della seconda frazione (ovviamente togliendo “1-“ dalla seconda formula e
considerando solo la frazione) dà come risultato la varianza totale, che sarà comunque uguale a 1. Essendo
quindi l’attendibilità uguale a 1 – la varianza dell’errore fratto la varianza del punteggio osservato, MINORE
SARA’ LA VARIANZA D’ERRORE MAGGIORE SARA’ LA SUA ATTENDIBILITA’ E QUINDI LA PRECISIONE DELLO
STRUMENTO. Il simbolo rtt viene utilizzato per indicare sia il concetto teorico dell’attendibilità del test sia il
coefficiente specifico calcolato secondo alcune modalità e se andiamo a vedere nello specifico, il termine di
test-retest può essere considerato anche secondo la formula che vediamo in basso e che lo vede indicato
come rxv, che è la correlazione tra punteggio osservato e punteggio vero e al numeratore troviamo la
sommatoria dei prodotti degli scarti dalla rispettiva media dei punteggi osservati x e dei punteggi veri,
quindi abbiamo il numeratore con i punteggi osservati e i punteggi veri e il denominatore che è invece
rappresentato dal prodotto tra numero di osservazioni n e le deviazioni standard del punteggio osservato e
del punteggio vero. In definitiva quello che si chiama indice di fedeltà o indice di attendibilità del test è la
correlazione tra i punteggi osservati e i punteggi veri che è uguale (ultima formula) al rapporto tra la
deviazione standard dei punteggi veri (indicata con sigma v) e la deviazione standard dei punteggi osservati
(sigma x) che equivale alla radice quadrata del coefficiente di attendibilità (la radice quadrata del risultato
della prima formula, quella indicante la varianza vera fratto la varianza osservata). Naturalmente
utilizzeremo questo indice nella stima dei punteggi.

RANGO, PERCENTILI, PUNTI Z E T, NUVOLA DEI PUNTI Dopo aver visto in modo formale a cosa corrisponde
l’affidabilità secondo la teoria classica del test e ricordando sempre come l’attendibilità definita da Anastasi
sia da intendere come fedeltà perché fa riferimento alla coerenza dei punteggi ottenuti da uno stesso
soggetto quando questi venga sottoposto allo stesso test in occasioni diverse, o in un insieme di prove
equivalenti o in diverse condizioni di somministrazione. Andremo a vedere alcuni elementi di sfondo per
poi andare a capire cos’è la curva gaussiana, cos’è la standardizzazione e i punti standardizzati ecc. iniziamo
con le Assunzioni di base della teoria classica dei test:
Sono le assunzioni che giustificano il discorso che l’attendibilità è la proporzione di varianza vera,
corrispondente al costrutto in analisi rispetto alla varianza totale del nostro punteggio.

Per la prima di queste assunzioni (nella slide) se avessimo gli errori casuali che pur fanno parte del
punteggio grezzo di un soggetto che non avessero una media uguale a zero se presa nel loro insieme, ma se
la media fosse superiore allo zero o inferiore allo zero, allora avremo un errore sistematico in positivo o in
negativo e non più un errore casuale che distribuendosi in modo gaussiano ha come media zero.

Per il secondo assunto. Rve, cioè la correlazione tra punteggio vero e l’errore casuale deve essere uguale a
zero. L’entità dell’errore di misura che si commette deve essere indipendente, cioè deve avere una
relazione con l’entità delle caratteristiche che stiamo misurando. Se lo vogliamo dire in modo più semplice
dobbiamo supporre la stessa probabilità di commettere errori grandi o errori piccoli in relazione a quantità
grandi o piccole della caratteristica del costrutto che stiamo analizzando. In caso contrario, se a quantità
grandi corrispondessero errori grandi e a quantità piccole errori piccoli e viceversa (e ci fosse una regola in
questo senso), l’errore non sarebbe più casuale ma sarebbe di tipo sistematico.

Per l’ultimo assunto r di errore 1, errore 2, quindi il coefficiente di correlazione lineare tra errore 1 ed
errore 2 deve essere uguale a zero. Questo perché non è concepibile che un errore, se casuale possa anche
in qualche modo essere legato all’errore commesso nella misurazione precedente, successiva o in qualsiasi
altra misurazione.

Da questi 3 assunti derivano poi le possibilità di fare quei passaggi per cui dalla formula della teoria classica
dei test in cui il punteggio grezzo equivale al punteggio vero + l’errore (X=V+E), otteniamo che l’indice di
attendibilità è dato dalla varianza del punteggio vero fratto la varianza del punteggio osservato o dei
punteggi osservati ovvero 1 – la varianza dell’errore diviso la varianza dei punteggi osservati. Dato che
abbiamo già più volte richiamato questo discorso di punteggi veri, standardizzati ecc., vediamo
effettivamente cosa sono questi punteggi e poi ripasseremo la correlazione lineare e poi sarà ancora più
rilevante quando vedremo le modalità di valutazione della correlazione all’interno dell’attendibilità, quindi
è bene vedere come si costruisce questo indice e qual’è il suo senso.

Perché non si interpreta direttamente il punteggio grezzo a un test?

Innanzitutto perché i punteggi grezzi sono implicitamente legati alla scala di misura originale, per cui per
superare le limitazioni dovute alla specifica costruzione di un test, rispetto al costrutto di riferimento, si
possono utilizzare alcune operazioni e manipolazioni dei punteggi grezzi che non cambiano effettivamente
il valore conseguito dal soggetto (abbiamo detto che ci sono delle procedure di valutazione standardizzata
e inoltre lo psicologo non deve essere in grado di modificare in base alla propria soggettività il punteggio).
Se queste manipolazioni successive modificassero il significato del punteggio ottenuto dal soggetto allora
avremmo di nuovo violato quelle che sono le indicazioni per ottenere un test psicometrico. Una prima
operazione che si può effettuare sui punteggi grezzi è quella di espressione di questi punteggi grezzi in
termine di:

1) Percentuali di risposte corrette: nonostante tramite questa operazione abbastanza semplice sia possibile
attribuire al risultato individuale un significato, una prospettiva più completa, rispetto a quanto consentito
dal semplice punteggio grezzo, tuttavia questa manipolazione non permette di cogliere il valore relativo dei
punti percentuali calcolati e quindi si rende necessario procedere con trasformazione del punteggio grezzo
attraverso scale più formative ovvero la conversione dello stesso punteggio in misure relative che in quanto
relative appunto, risultino interpretabili e confrontabili con altri punteggi. La prima modalità che permette
di effettuare questo confronto è la trasformazione in:

2) Ranghi e punti centili (o percentili): attraverso questa trasformazione e il ricorso ai percentili e ai ranghi,
otteniamo un riferimento del punteggio grezzo ad un ipotetico campione di 100 soggetti come se
suddividessimo in cento parti uguali la nostra distribuzione dati. Rango centile di una determinata misura
indica la percentuale dei punteggi che si colloca al di sotto di quel valore , sempre partendo dal
presupposto che si abbia a disposizione una distribuzione ordinata in base a una graduatoria e quindi è
possibile effettuare questo tipo di trasformazione a partire da variabili di tipo ordinale misurabili su scala
ordinale. In una distribuzione di questo tipo l’ultimo classificato è contraddistinto dal numero 1
corrispondente alla percentuale di soggetti pari o inferiore per merito a quel punteggio, mentre al primo
viene assegnato un rango nel numero 100 in quanto tale soggetto è pari o superiore al 100 per cento del
gruppo. Il principale limite dei ranghi percentili viene dal fatto che non sono effettivamente delle variabili
metriche ed essendo variabili ordinali, questo rende impossibile determinare l’entità della distanza tra una
posizione e quella successiva della graduatoria, quindi non vi è una unità di misura come per le variabili su
scala a intervalli o rapporti e questa impossibilità di ancorare ad una unità di misura il nostro rango e quindi
la posizione, vuol dire che anche come tendenza centrale dobbiamo fare riferimento alla mediana. Un
secondo limite dei ranghi centili consiste nella alterazione della distribuzione nel senso che c’è una
accentrazione delle differenze tra i punteggi nella corrispondenza della mediana e allo stesso modo una
riduzione delle differenze tra i punteggi collocati alle estremità, comunque i valori estremi sono minori,
magari più distanziati e in questo caso la loro distanza viene ridotta. Il punto percentile non coincide con il
rango ma in realtà è il punteggio che corrisponde al rango stesso. Mentre il rango indica la percentuale di
dati o soggetti che si colloca in posizione pari o inferiore rispetto a un dato punteggio, il percentile è il
punteggio sotto al quale si colloca una certa percentuale di dati o di soggetti, quindi è esattamente
l’inverso.

Per ottenere le norme bisogna trasformare i punteggi grezzi mediante il processo di standardizzazione, cosa
che permette di andare oltre i limiti dei ranghi percentili che indicano soltanto la posizione all’interno di
una serie di misure ma non la distanza che c’è tra un punteggio e l’altro, invece la standardizzazione, cioè la
trasformazione dei punteggi grezzi in punti standard consente di ottenere contemporaneamente sia le
indicazioni relative alla posizione dei singoli punteggi all’interno della distribuzione corrispondente, sia le
loro distanze, ovvero le rispettive distanze. La possibilità di compiere questa trasformazione è dato dall’uso
più immediato e pratico della media e della deviazione standard. Standardizzare una misura significa
riferire la misura stessa a una scala standard detta anche scala z dei punti z:

3) punteggio standard (z): con media e varianza note. Si assume come nuova origine della distribuzione la
media della distribuzione stessa e si trasformano i singoli dati in scarti dalla media. Come si vede da questa
immagine abbiamo due distribuzioni diverse entrambe di forma normale che possono corrispondere a due
test diversi misurati su scale diverse e vediamo anche la formula della curva normale in generale:
Quindi è possibile trasformare, cioè riportare a una curva normale standardizzata che è in basso, entrambi i
punteggi rilevati sulle due differenti curve normali e su questa scala standardizzata il punto medio è uguale
a zero e la deviazione standard è uguale 1. Ciò si ottiene attraverso la formula per questo tipo particolare di
distribuzione normale che vediamo nella slide. Al posto quindi della serie di misure grezze si ottiene una
distribuzione di deviazione dalla media attraverso la sottrazione di ciascun valore grezzo detto x con i dalla
media M e il significato di tali scarti chiamati anche deviazioni, cambia a seconda della variabilità della
distribuzione, quindi dividendo poi per la deviazione standard, a seconda del valore della deviazione
standard otteniamo una posizione diversa o punteggio z della deviazione. Quindi la deviazione standard
diventa la nuova scala di misura che ci permette di esprimere una posizione di qualsiasi misura grezza in
unità di misura indipendente dal tipo di misurazione originale. In ultimo abbiamo la conversione di punteggi
grezzi in

4) Punteggi T, stanine, sten: Questi tipi di punteggi si utilizzano per risolvere un problema, cioè quando
operiamo una conversione di punteggi grezzi in standard può succedere che otteniamo punteggi z sia
positivi, sia negativi e anche dotati di decimali. Nel caso in cui dobbiamo andare a comunicare questi valori
ottenuti in punti z ai soggetti, dobbiamo porre rimedio a questo che hanno i punteggi z di avere anche
punteggi negativi e decimali che rendono l’interpretazione del punteggio un po’ più difficoltoso nella
comunicazione al soggetto. Moltiplicando un punteggio standard normalizzato cioè un punto z per 10 e
aggiungendo 50 al prodotto così ottenuto si ottiene un punto T che ha media 50 e deviazione standard 10.
Questa scala fu ideata nel 1922 da McCall e fu da lui definita scala T in onore del suo maestro Thorndicke.
Dato che i punteggi z al massimo possono arrivare a meno 4 (vanno fino a infinito ma è chiaro che i punti z
al di sotto di -4 non sono osservati praticamente mai),allora i punti T non avranno mai un punteggio al di
sotto di 10 o comunque uguale a zero. Per non parlare poi di punteggi di tipo negativo.

Stanine e sten sono ulteriori trasformazioni adesso utilizzate sempre di meno e sono trasformazioni
standard9 o standard 10 che hanno medie e deviazioni standard ancora più diverse.

UTILIZZARE I PUNTI Z E PUNTI T IMPLICA CAMBIARE LA MAGNITUDINE DELL’OSSERVAZIONE FATTA (ES,


PUNTEGGIO DEL TEST).
FALSO: rimane la stessa, cambia solo la scala di riferimento.

Ricordiamo inoltre alcuni principi della curva normale standardizzata o di Gauss, costituisce il modello di
distribuzione più utilizzato per le misurazioni in ambito psicologico data la sua adeguatezza per
rappresentare la distribuzione di granti quantità di caratteristiche non direttamente osservabili continue.
Ha una forma caratteristica a campana ed è la curva che otteniamo immaginando di sottoporre a un
campione ipoteticamente molto numeroso (talmente numeroso da protendere a infinito ) un certo test.

La curva normale gode di 3 fondamentali proprietà: simmetrica con un accumulo dei valori al centro e una
dispersione degli stessi verso le estremità, gli indici di tendenza centrale media, moda e mediana sono
sovrapposti al centro e corrispondono al punto in cui la curva raggiunge il suo apice e l’area sottesa la curva
ha valore pari a 1. Da un punto di vista teorico è possibile ottenere una distribuzione perfetta con le
suddette carateristiche ma in natura osserviamo anche a causa della limitatezza dei campioni che
utilizziamo, alcune distribuzioni che sembrano avere forma tendenzialmente normale.

Parliamo adesso del coefficiente di correlazione:

È bene partire inizialmente dal diagramma a dispersione Scatterplot, la cosiddetta nuvola dei punti e come
si costruisce questo diagramma per spiegare la correlazione lineare. La prima cosa da fare quando si vuole
studiare la correlazione tra due variabili metriche è sicuramente quella di rappresentarle graficamente
mediante il diagramma di dispersione che non è altro che un sistema di riferimento cartesiano con gli assi
cartesiani dove vengono posti sull’asse orizzontale detto anche ascissa, i punteggi della variabile x, mentre
in ordinata i punteggi della variabile y, quindi per ciascuno dei nostri soggetti abbiamo un punteggio per la
variabile x e uno per la variabile y. Una coppia di punteggi. I punti relativi a ogni soggetto vengono
individuati nell’incrocio della verticale che parte dal valore delle ascisse (es, 2 per Ralph) con la retta che
parte dal valore delle ordinate (che per Ralph è 1) e il punto corrispondente al soggetto è dove si incrociano
verticale e orizzontale delle 2 rette. La valutazione della relazione con l’età ad es, quindi una relazione tra
un test e l’età, è una delle analisi di routine negli studi di validazione di un test psicologico e laddove
abbiamo un punteggio ad es. al Big 5 e l’età dei soggetti, possiamo andare a fare una associazione e
disegnare le posizioni dei soggetti. Quando andiamo a vedere diversi soggetti, otteniamo una serie di punti
dispersi sull’asse cartesiano e questo insieme di punti è detto NUVOLA DEI PUNTI. Dalla corretta
valutazione del numero di punti dipende l’adeguatezza dell’impiego del coefficiente di correlazione di
Pearson come misura dell’associazione tra due variabili. Per interpretare la nuvola di punti la prima
domanda da porci è: la relazione può essere considerata lineare ovvero rappresentabile e sintetizzabile con
una linea retta? Dipende da che tipo di rappresentazione abbiamo e in questo caso è chiaro che tutti i punti
sono disposti lungo quello che sembrerebbe una linea retta.

Inoltre la natura di questa nuvola intesa


come assunzione di linearità della relazione tra due variabili, ci indica anche la modalità più parsimoniosa e
sintetica per spiegare la relazione tra i dati. In realtà non esiste solo un tipo di relazione tra due variabili di
tipo lineare ma quello lineare è il più facile da interpretare e tuttora si cerca di spiegare le relazioni con
questo tipo di modello. La linea può essere interpretata come un modello di spiegazione, di relazione. L’uso
smodato del coefficiente di correlazione di Pearson può portare a clamorosi errori laddove la relazione alla
base dell’associazione tra due variabili non sia di tipo lineare e quindi l’ispezione del diagramma di
dispersione a monte dell’applicazione del coefficiente può evitarci di incorrere in tali errori.
Nella precedente slide ci sono cenni sulla funzione lineare e, come vediamo nella slide successiva

Diversi tipi di diagrammi scatterplot, quindi di nuvole di punti, possono determinare gradi di associazione
tra variabili di tipo diverso. Laddove sia distinguibile una specie di ordine nella posizione dei punti, c’è da
presupporre che vi sia una relazione tra le due variabili, questo tipo di relazioni è molto diverso dalla
relazione lineare che vediamo sotto 1.0, indice che rappresenta una perfetta correlazione lineare. Il
coefficiente di correlazione varia infatti tra meno 1 e 1 e il valore zero indica l’assenza di associazioni di tipo
lineare, questo non vuol dire che non ci sia un altro tipo di relazione di sottofondo. La correlazione infatti
indica la corrispondenza o la connessione tra due variabili, mentre il coefficiente di correlazione, il nostro
simbolo r, è un indice numerico che esprime il grado di variazione concomitante tra una singola variabile
indipendente e una singola variabile dipendente. Tra due variabili, abbiamo detto che siamo noi a decidere
qual’è la variabile indipendente e qual è la variabile dipendente, quindi il ruolo di x e y. In altre parole il
nostro coefficiente di correlazione ci dice quanto le variabili x ed y sono legate e correlate tra loro. Abbiamo
detto che il significato di questo coefficiente di correlazione è espresso dal suo segno algebrico cioè da più
o meno, positivo nel caso di una correlazione positiva, all’aumento di una variabile aumenta anche la
seconda, negativo quando l’aumento dell’uno corrisponde lla diminuzione dell’altro e viceversa.
Naturalmente la correlazione pari a 1 meno 1 è di tipo teorico, non si osserverà mai questo valore perfetto
di 1 ed è difficile trovare correlazioni così perfette di una ricerca psicologica o in una ricerca in generale, ad
esempio anche variabili che sono molto correlate tra di loro come peso e altezza delle persone che di solito
tendono ad essere correlate positivamente, nel senso che aumentano simultaneamente, ovvero più una
persona è alta più pesa in termini generali, però è innegabile che vi sia una correlazione positiva così come
ci possono essere due variabili che decrescono simultaneamente come la scarsa preparazione e un
punteggio più basso agli esami. La correlazione negativa, cioè inversa si ottiene quando una variabile
aumenta e l’altra diminuisce come quando il soggetto che ottiene il punteggio alto nelle abilità di lettura è
più scadente nel test di matematica. I valori intermedi nel coefficiente di correlazione indicano
un’esistenza potenziale di una relazione, vedi in questo caso la nuvola di punti, rappresenta quella che
dovrebbe essere una relazione lineare, ma con discrepanze che poi possono aumentare fino a non avere
più questa rappresentazione di tipo lineare. Va molto sottolineato che un coefficiente di correlazione è un
indice della connessione tra due variabili ma non dell’esistenza di una relazione causale tra di esse,
l’abbiamo detto più volte che la correlazione non vuol dire causazione e però questo coefficiente permette
un’implicazione di predizione, se si sa che due variabili sono tra loro correlate dovrebbe essere possibile
predire con vari gradi di accuratezza, a seconda del concetto di correlazione, il valore di una variabile
dipendente ipsilon conoscendo la variabile indipendente x.

COEFFICIENTE DI CORRELAZIONE

Continuando il discorso sul coefficiente di correlazione, esistono altri coefficienti di correlazione oltre
quello di Pearson che presuppone che le due variabili realizzate siano entrambe misurate su una scala di
tipo metrico quantitativo e questi altri coefficienti sono utili quando le variabili hanno diversa natura e sono
misurate con scale di misurazione di livelli più bassi, ad esempio c’è il coefficiente rho di Spearman per
ranghi che viene usato 1) quando la dimensione del campione sottoposto al test è piccola, quindi in genere
minore di trenta coppie di misurazione o osservazione e sappiamo che quando un numero è più basso non
possiamo utilizzare il teorema del limite centrale e anche in questo caso noi non possiamo presupporre che
la curva sia perfettamente normale e nel test delle ipotesi si utilizza quindi il test t, ma per la correlazione si
utilizza l’indice di rho di Spearman e quando soprattutto come secondo caso, quando le due misure sono di
tipo ordinale. Esiste anche il coefficiente r bi seriale adoperato nel calcolo dell’attendibilità del test quando
le due variabili sono continue in natura ma una delle due è stata arbitrariamente resa dicotomica ad es, alto
e basso per quello che riguarda il reddito. Quando la seconda variabile è invece realmente dicotomica come
nel caso di maschio femmina, allora si utilizza il coefficiente punto bi seriale. Un ultimo coefficiente è il
coefficiente tetracorico che si usa quando entrambe le variabili sono entrambe state rese dicotomiche, per
l’impiego di questo ultimo coefficiente è necessario che le due variabili x ed y siano connesse in modo
lineare e che ciascuna delle rispettive distribuzioni sia normale, inoltre il campione deve essere molto alto,
almeno trecento soggetti.

Qui abbiamo degli esempi di diagramma di dispersione per tipi di correlazione diverse, abbiamo il caso della
correlazione pari a zero (primo grafico a destra con linea orizzontale) quindi non cè una correlazione di tipo
lineare e in questo caso invece c’è una correlazione di tipo positivo quando aumenta una variabile aumenta
anche l’altra e viceversa, quando diminuisce una variabile tendenzialmente diminuisce anche l’altra (grafico
al centro) e quando aumenta una variabile e diminuisce l’altra, se continua ad aumentare più aumenta x
più diminuisce y.

Non c’è solo una relazione di tipo lineare, esistono anche relazioni di tipo curvilineo, la rappresentazione è
una rappresentazione che si ricollega alla famosa legge di Yerkes Dodson

In ambito psicologico che afferma che a bassi livelli di ansia corrispondono bassi livelli di prestazione che
migliorano quando aumenta l’ansia ma fino a un certo punto, perché ulteriori livelli di ansia fanno
diminuire di nuovo le prestazione perché interferiscono con la prestazione. I bassi livelli di ansia sono indici
di soggetti poco engaged o motivati a partecipare, quindi i risultati sono scarsi perché non danno il meglio.

Altri esempi sono legati alla complessità dello stimolo visivo: meno è complesso lo stimolo meno piace
(liking for stim. è apprezzamento e complessità è sull’asse delle x) se lo stimolo è poco complesso piacerà di
meno, pian piano che aumenta la complessità dello stimolo aumenta il piacere nel guardarlo e quando la
complessità è molto alta c’è l’incapacità di comprendere ciò che sta avvenendo e diminuisce
l’apprezzamento.
Ci sono diverse procedure per il calcolo del coefficiente di correlazione ma il risultato è lo stesso a seconda
che noi abbiamo a disposizione alcune manipolazioni di dati, la modalità preferibile per il calcolo è la
standardizzazione di entrambe le variabili e una volta che sono state standardizzate è possibile ottenere
queste correlazione.

Il coefficiente di correlazione ha delle formule alternative e rappresenta comunque la procedura statistica


principale per l’individuazione di una relazione tra variabili di tipo lineare, soprattutto quando le variabili
sono continue, cioè quando possono teoricamente assumere qualsiasi valore anche decimale. Quando i
dati non sono continui abbiamo detto precedentemente quali sono gli accorgimenti per altri indici di
correlazione. La formula per calcolare r di Pearson prende in considerazione la relatività di ciascun
punteggio individuale, in una determinata misura rispetto alla media della distribuzione di punteggi, c’è
quindi uno scarto del punteggio individuale dalla media e quindi non solo la posizione di un soggetto nel
gruppo ma anche l’ampiezza della deviazione del suo punteggio come al di sopra o al di sotto della media
aritmetica del gruppo. La formula comporta la conversione di ciascun punteggio grezzo in un punteggio
standard come abbiamo detto in precedenza, in questo caso ancora abbiamo che x e y indicano
semplicemente gli scarti dalla media e quindi abbiamo ancora la deviazione standard di x e quella di y,
laddove invece standardizziamo completamente le due variabili e facciamo la standardizzazione, ovvero i
punteggi z per tutti i punteggi della variabile x e tutti i punti z della variabile y, allora otteniamo che la
formula diventa:

Sommatoria del punteggio z per il punteggio y, quindi 8.93, diviso N che è 10 e dalla formula della slide
precedente a quest’ultima coi dati standardizzati, considerando che la x in realtà corrisponde agli scarti dal
punteggio medio, tutto ciò che rimane nel primo cerchio sarebbe il punteggio z di x e tutto ciò che è

delimitato dal secondo cerchio rosso sarebbe il punteggio z di y:


E poi si semplifica il denominatore dove rimane solo N.

La media aritmetica dei prodotti dei punteggi z corrisponde al valore r di Pearson, questo ha un alto valore
positivo quando i punti standard corrispondenti saranno di segno algebrico uguale, o tutti positivi o tutti
negativi e di entità pressappoco uguale in entrambe le variabili, se invece tutti i punteggi standard della
variabile x sono positivi mentre quelli della variabile y sono negativi, la relazione è inversa e il coefficiente di
correlazione avrà un segno negativo. Un coefficiente di correlazione di zero vicino allo zero si otterrà
soltanto quando alcuni prodotti incrociati saranno positivi e altri prodotti incrociati saranno negativi, dal
punto di vista applicativo non è necessario convertire ciascun punteggio grezzo nel relativo punteggio
standard prima di calcolare i prodotti in quanto la trasformazione può anche essere svolta
successivamente, in questo caso Procher dice che dividendo gli scarti dei valori delle x e delle y dalla media,
con le rispettive deviazioni standard, questa operazione potrà essere fatta successivamente facendo N
moltiplicato alle due deviazioni standard (si parla in questo caso del denominatore della frazione)
Avendo appunto il test x ed il test y si procede in questo modo:

Innanzitutto si calcola la media perché ci serve poi calcolare la deviazione standard di ogni singola variabile.
In questa tabella abbiamo il quadrato di tutte le x con i, il quadrato di tutte le y con i e poi abbiamo gli scarti
xi e yi, la colonna del prodotto degli scarti xy, le colonne del quadrato degli scarti di x e di y

Poi, attraverso la sommatoria del quadrato di x con i otteniamo la deviazione standard di x e poi quella di y,
come si vede dalle due formule riportate sopra

Poi tornando alla formula precedente effettuiamo il prodotto della sommatoria al numeratore e poi al
denominatore abbiamo N moltiplicato la deviazione standard di x e la deviazione standard di y:
Se fossimo interessati a valutare il grado in cui due variabili correlano in un determinato gruppo di soggetti,
ad esempio se c’è una correlazione tra abilità verbale e quella numerica, ci basterebbe conoscere l’entità
del grado di correlazione tra queste due, nelle ricerche psicologiche però l’obiettivo è quello di
generalizzare, cioè fare delle inferenze dal gruppo, cioè dal campione che abbiamo analizzato, fino
all’universo cioè la popolazione di riferimento, per fare ciò bisogna sapere se il coefficiente di correlazione
è maggiore di zero in modo statisticamente significativo oppure se è maggiore di zero solo per puro caso, in
questo caso il ragionamento logico segue il test delle ipotesi, infatti il test t è quello che si usa per verificare
se questo tipo di correlazione è casuale o meno. Il ragionamento logico è che si assume l’ipotesi nulla come
vera, per cui H con zero stabilisca che il coefficiente di correlazione tra due variabili x e y e la popolazione
sia uguale a zero e poi si va a verificare se il punteggio ottenuto in quel determinato campione è molto
scostato dal valore zero, quindi dal punto di vista probabilistico ha una probabilità di accadere in modo
casuale molto bassa, e se così è si andrà a dire che quel coefficiente di correlazione è statisticamente
significativo. Un elevato coefficiente di correlazione potrebbe essere trovato casualmente per un errore di
campionamento, attraverso questa procedura riusciamo ad escludere questo evento e a controllarne la
significatività statistica. Naturalmente questo implica il calcolo dell’errore standard del coefficiente di
correlazione, ovvero della distribuzione campionaria del coefficiente di correlazione e quindi laddove
selezionassimo diversi campioni in numero molto numeroso, i coefficienti di correlazione tra le stesse
variabili calcolate su campioni successivi avrebbero una distribuzione di cui potrebbe essere valutata la
probabilità associata a ciascun valore.
La statistica bivariata rispetto a quella univariata, cioè quella che si occupa di una sola variabile, è più
complessa innanzitutto perché misura la relazione tra due variabili diverse, quindi rappresenta due gruppi
di punteggi. Una prima distinzione da fare riguarda il tipo di relazione che possiamo stabilire tra le variabili
oggetto di studio. La presenze di covarazione o correlazione (LA CORRELAZIONE E’ LA STANDARDIZZAZIONE
DELLA COVARIAZIONE). La presenza di questa covarianza, cioè di questa variazione concomitante, è una
prima indicazione che ci sia una relazione tra le due ma questo non vuol dire che vi sia una causa. Per avere
una relazione causale serve una simmetria, cioè una variabile che precede e causa la variabile effetto che
segue e di per se il coefficiente di correlazione non ci può dire questa cosa perché è simmetrico. Ciò si
risolve attraverso la verifica della significatività della relazione.

Il coefficiente di correlazione lineare r di Pearson può essere considerato come una misura standardizzata della covarianza

vERo, infatti non risente delle scale di misurazione originali

Nello stabilire la forza delle relazioni si lavora invece sulle frequenze utilizzando ad esempio statistiche che
possono essere derivate anche dal chi quadrato. Nell’interpretazione dei risultati ottenuti con l’analisi
bivariata bisogna ricordare che questo tipo di analisi prende in esame due variabili alla volta non valutando
l’effetto di altre variabili. Nel modulo 3 in cui parlavamo di variabili spurie e possibilità di variabili
moderatrici e mediatrici, il modello bivariato può sempre risultare insufficiente per spiegare fenomeni
complessi come quelli psicologici. In ultimo si ricorda che il coefficiente di correlazione misura solo l’entità
di una relazione lineare e che la possibilità che ci siano altre relazioni non è esclusa dalla presenza anche di
un punteggio di correlazione pari a zero.

Il coefficiente di correlazione cioè indice di adattamento dei dati del modello non è molto convincente
perché non veicola una informazione fondamentale, ovvero quanta variabilità condividono le due variabili.
Questo dato è fornito dal coefficiente di determinazione che è rappresentato dal coefficiente r quadro che
troviamo indicato in basso a destra nella slide precedente. R quadro può essere interpretato in questo
modo: un coefficiente di correlazione di 0,5 non significa che la metà della variabilità di y è spiegata dalla
sua relazione lineare con x poiché la correlazione perfetta è uguale 1 e 0,5 corrisponde a un coefficiente di
determinazione r quadro uguale a 0,5 al quadrato che come risultato ci da’ 0,25, cioè una proporzione di
variazione comune spiegata da una correlazione tra due variabili del 25 per cento, quindi è corretto
affermare che un quarto della variabilità di y è spiegata dalla sua relazione lineare con x. C’è un altro valore
che è 1 meno r quadro che va ad indicare la proporzione di variabilità di x e y NON spiegata dalla loro
relazione lineare ed è talvolta indicato come coefficiente di alienazione. Nella precedente immagine presa
da Chiorri c’è illustrato il concetto di variabilità comune tra le due variabili. Per l’interpretazione del
coefficiente di determinazione ci sono delle indicazioni tendenziali come per il coefficiente di correlazione,

di solito viene scelto come valore di cut off per l’interpretazione sostanziale del coefficiente di correlazione
il valore di 0.3, dato che il valore del coefficiente di determinazione r quadro corrispondente è 0,09
significa che le due variabili in esame hanno in comune almeno il 10 per cento circa di validità che è il
minimo sindacale perché abbia senso considerare la relazione tra le variabili.

ATTENDIBILITA’ NELLA TEORIA CLASSICA DEI TEST

Riprendendo il discorso sui metodi di verifica dell’attendibilità di uno strumento di misurazione

In questa slide si riporta con grafica diversa il coefficiente di attendibilità. Sulla barra del test a in alto c’è
una parte di varianza di punteggio vero molto ampia e una proporzione complementare di varianza di
errore molto bassa. Queste due proporzioni sarebbero quelle auspicabili dato che noi abbiamo definito
l’attendibilità di un test come la PROPORZIONE DI VARIANZA VERA RISPETTO A QUELLA TOTALE, quindi la
varianza (che qui è indicata con sigma quadro) di x è la varianza del punteggio grezzo o dei punteggi grezzi
del test.

Sotto invece, nel test b, vediamo il caso meno significativo, perché la proporzione di varianza di punteggio
vero sul totale è al 50%, quindi l’attendibilità del test b è molto minore.
Il coefficiente di attendibilità di un test vede qui il valore di r di xx (dato che nell’attendibilità classica il test
retest è dato da due somministrazioni dello stesso test, qui noi troviamo rxx che rappresenta lo stesso test
risomministrato) c’è la varianza, quindi S quadro (in questo caso si usa s e non sigma perché stiamo
parlando del campione e se misuro la varianza di un singolo campione uso la lettera dell’alfabeto latino S,
se invece sto parlando del parametro della popolazione uso sigma) in questo caso S quadro, cioè la varianza
delle componenti vere fratto la varianza del totale dei punteggi, quindi s quadro di x, è il nostro coefficiente
di attendibilità del test ed è complementare, uguale a 1 – il complementare della frazione precedente, cioè
S quadro DELL’ERRORE fratto S quadro della varianza totale dei punteggi. Questo perché la somma della
varianza totale intesa come area della curva era considerata 1, quindi la varianza del punteggio vero più la
varianza dell’errore di misurazione, evidentemente deve dare la varianza totale dei componenti del nostro
punteggio grezzo.

Attendibilità dovrebbe essere considerato un concetto integrato a quello di validità soprattutto se ci


riferiamo ai test. L’attendibilità è collegata alla validità perché ne rappresenta un primo passo. Se come
sostiene Kline l’attendibilità è una condizione necessaria ma non sufficiente affinché un test risulti valido, il
primo passaggio è quello di verificare l’attendibilità (verificare cioè che la nostra misura sia attendibile) e
poi andiamo a vedere se il nostro test misura ciò che dice di misurare, secondo appunto la definizione di
Kline che abbiamo sepre dato. L’attendibilità è il grado di accordo tra misurazioni indipendenti dello stesso
costrutto (questa può essere una definizione più generale) non si può parlare quindi di una misurazione
attendibile se le misurazioni di uno stesso oggetto cambiano a seconda dell’osservatore, a secondo del
tempo, a secondo dei metodi di misurazione. Naturalmente il problema che dobbiamo affrontare in ambito
psicologico eè che non possiamo andare ad osservare in modo diretto i costrutti e quindi abbiamo dei
problemi in più da affrontare, nonostante questo esistono diversi metodi per stimare empiricamente (cioè
andando a misurare i risultati di una somministrazione di un test). Differentemente da quanto detto per la
validità, per l'attendibilità, ognuno di questi metodi produce un coefficiente di attendibilità diverso e
specifico, mentre i 5 metodi della valutazione della validità erano integrati tra di loro come foglie di un
trifoglio e quindi 5 sfaccettature diverse di uno stesso concetto, al contrario i metodi alternativi di stima
dell’attendibilità sono delle misure diverse, come dice Chronbach e non possono essere utilizzati in modo
intercambiabile. Secondo Cronbach (1951), non si può parlare di "diversi procedimenti” per stimare
l'attendibilità, perché ogni metodo misura qualcosa di diverso e ogni indiceprodotto non può essere usato
al posto di un altro indice prodotto con un altro metodo.

Quindi ogni volta che viene riportato un coefficiente di attendibilità di un test, è necessario specificare con
quale metodo tale indice è stato prodotto perché questo dà delle indicazioni aggiuntive e ciascuno di questi
metodi ha dei vantaggi e degli svantaggi ed è imprescindibile indicare che percorso si è ottenuto.
(Barbaranelli, Natali p. 49)

Quando si parla di validità di contenuto per assurdo diciamo che se nello specifico ho utilizzato il Q sorting
invece che il metodo delphi, ancora la comunicazione di questo risultato può essere utilizzata senza nessun
altro problema.

In genere questi metodi sono raggruppati tra quelli che richiedono due somministrazioni e metodi che ne
richiedono una. Appartengono al primo gruppo il metodo test-retest e il metodo delle forme o test
paralleli, mentre nel secondo gruppo (quello che richiede una sola somministrazione) troviamo il metodo
split half e il metodo della coerenza interna (internal consistency) e vedremo che però queste indicazioni
sulle diverse somministrazioni necessarie per calcolare questi coefficienti in realtà fanno riferimento a due
dimensioni dell’attendibilità dello strumento di misurazione diverse tra di loro, uno è la stabilità nel tempo,
quindi due somministrazioni e poi vedremo anche quello della consistenza, quindi quello della coerenza
interna, come vicinanza delle misurazioni parallele. Quale metodo utilizzare, la scelta del metodo più
appropriato dipende anche dalla individuazione della fonte di errore più rilevante per il test, ad esempio
quando siamo interessati alla stabilità delle nostre misure nel tempo, alla mancanza di errori tra i punteggi
di uno stesso test somministrato due volte a distanza di tempo sugli stessi soggetti allora possiamo
riconoscere come obiettivo finale la stabilità nel tempo e ricorrere quindi al test-retest e al coefficiente di
correlazione tra gli esiti delle due misurazioni, quindi questo potrebbe essere il nostro coefficiente di
stabilità.

Quando invece la fonte dell’errore è ritenuta essere derivante principalmente dalla scarsa corrispondenza
tra i punteggi di due forme parallele di un test che noi riteniamo equivalenti, allora l’attendibilità è misurata
con un coefficiente di correlazione tra i punteggi di due test paralleli e questo è detto coefficiente di
equivalenza.

Poi abbiamo delle combinazioni di questi procedimenti, ad es. si può utilizzare la consistenza di due
punteggi tra due forme parallele di test somministrate ad un intervallo più lungo di tempo. Invece per
quello che interessa la coerenza o omogeneità tra gli item si parla di correlazione tra punteggi su item che
vengono considerati paralleli tra di loro, cioè all’interno dello stesso test, gli item del test vengono
considerati tutti come misurazioni singole parallele del test, quindi la coerenza interna è come se si andasse
a vedere se tutte queste misurazioni parallele effettivamente stanno misurando e sono coerenti rispetto
alla loro variabilità. L’attendibilità come vedremo test-retest è quella principale, quella che probabilmente
si è sviluppata per prima e prima di vedere questo vedremo anche il coefficiente di correlazione perché in
generale lo studio di attendibilità si basa sul coefficiente di correlazione, anche l’alfa di Chronbach e le
formule di Kuder-Richardason si basano su un tipo particolare di coefficiente di correlazione tra multiple
misure ed esistono diversi tipi di coefficiente di correlazione, quello più ricordato è il coefficiente di
correlazione prodotto-momento di Pearson, che abbiamo visto nei moduli precedenti e che è in grado di
individuare delle variazioni congiunte tra due variabili di tipo metrico quantitativo, cioè misurata su scala a
intervalli o a rapporti. Questo tipo di coefficiente di correlazione cresce e si avvicina a +1 laddove le due
variabili crescono, covariano, aumentano insieme o diminuiscono insieme e si avvicina di più a -1 che è
sempre il massimo negativo se al crescere dell’uno l’altra decresce e quindi viceversa. I due estremi del
coefficiente di correlazione sono -1 e +1, al centro c’è lo zero,che indica assenza di relazioni di tipo lineare.

Quindi a se la correlazione è positiva all’aumento dei valori dell’uno aumentano i valori dell’altro e invece
se la correlazione è negativa i valori di una delle due variabili aumentano e l’altra diminuisce, l’importante è
ricordarsi che questo tipo di relazione è solo una relazione lineare. Esistono altri coefficienti, ad esempio c’è
il rho di Spearman che è il coefficiente di correlazione per ranghi usato ad es, quando la dimensione del
campione è piccola, di solito meno di 30 coppie di misure di osservazione e quando le due serie di misure
sono di tipo ordinale, poi ci sono diversi altri indici di correlazione, c’è la correlazione punto biseriale, la
relazione quindi tra una dicotomica e una quantitativa, poi abbiamo rango biseriale, dicotomica ordinale
ecc. Dal punto di vista logico funzionano tutte allo stesso modo.

Qui troviamo i 4 metodi:

1 Correlazione tra le due distribuzioni di punteggi ottenute applicando due volte uno stesso test ad uno
stesso gruppo di soggetti (metodo test-retest) è un metodo di stima dell’attendibilità con la
somministrazione dello stesso test agli stessi soggetti in momenti diversi e poi si calcola la correlazione tra
le due misure.
;

2 Correlazione tra le due serie di punteggi, quindi due coppie di punteggi per tutti i nostri soggetti ottenute
somministrando allo stesso gruppo di soggetti due forme parallele dello stesso test;

3 Correlazione tra i punteggi conseguiti da un gruppo di soggetti in due metà di uno stesso test (metodo
dello split-half, quindi una sola somministrazione in cui completano due metà di un test);

4 Calcolo della attendibilità di un test a partire dalla coerenza o omogeneità fra gli item (alpha di Cronbach,
formule di Kuder-Richardson sempre con una somministrazione singola).

Il test retest inteso come stabilità dei punteggi nel tempo ovvero impermeabilità (termine più corretto).

L’impermeabilità del test ai cambiamenti temporanei nello stato dei soggetti e nelle condizioni situazionali
in cui avvengono le somministrazioni.

Anche in questo caso possono esserci dei problemi relativi all’intervallo di tempo che separa le due
somministrazioni perché se questo intervallo è troppo breve, allora i due soggetti potrebbero ricordare la
prova, e rispondere in funzione di tale ricordo. In questo caso il coefficiente di attendibilità risulterebbe
erroneamente più elevato perché la stabilità dei punteggi non sarebbe dovuta all’attendibilità del test ma al
ricordo della prestazione precedente e quindi il periodo di intervallo di tempo che trascorre tra le
somministrazioni non dovrebbe essere mai esgeratamente lungo ma neanche troppo breve. Se troppo
breve c’è un effetto di ricordo, se troppo lungo la variabile psicologica che viene misurata può subire
cambiamenti e le due prestazioni possono non essere confrontabili, si dice sempre che l’attendibilità è
questo grado di accordo tra misurazioni indipendenti dello stesso costrutto fatto salvo le normali
fluttuazioni del costrutto. È preso in considerazione il fatto che esistano costrutti più stabili e altri meno. Un
costrutto stabile è ad es. l’amicalità, che è molto difficile che cambi, un esempio instabile di costrutto può
essere anche l’ansia.

Quando si comincia ad analizzare questo tipo di cambiamenti dei costrutti, ci sono anche dei costrutti che
in certi momenti dello sviluppo sono più instabili o cambiano più rapidamente e questi stessi costrutti in
altri momenti sono più stabile, quindi bisogna considerare quali soggertti stamo misurando. L’intelligenza in
età dello sviluppo è ad es. un costrutto instabile, ma se parliamo di adulti, sapendo che l’intelligenza ha una
componente cristallizzata e una fluida (short memory), è un costrutto molto stabile. Stabilità e instabilità
non devono essere visti in maniera negativa, non è il soggetto a essere instabile ma è il costrutto che muta
in modo più veloce. Quando parliamo di attendibilità, tecnicamente la correlazione tra due o più misure
indipendenti dello stesso costrutto e viene anche definita come affidabilità o fedeltà, quindi una persona
attendibile è una persona di cui ci possiamo fidare perché si è dimostrata in modo coerente in più occasioni
in modo più continuo e allo stesso modo uno strumento è attendibile se ci misura un costrutto in modo
coerente in occasioni simili. Differentemente Parabissi e Dazzi hanno definito l’attendibilità come il grado in
cui i punteggi del test sono liberi dagli errori di misura (questo si avvicina alla teoria classica del test)

I metodi di stima dell’attendibilità di un test non sono intercambiabili fra loro

Vero: ognuno misura in un modo specifico e non immediatamente comparabile.

L’accuratezza come definizione di attendibilità si riferisce al grado di corrispondenza tra il costrutto


misurato e la realtà, se la misurazione di un tavolo corrisponde a 1 metro, 100 cm, possiamo concludere
che la nostra misurazione è accurata se effettivamenti il tavolo è lungo 100 cm, ma se il tavolo in realtà è di
90 cm la misurazione non è accurata.

Precisione indica il grado di sistematicità o di coerenza con cui seguiamo la nostra misurazione, cioè questa
consistenza interna dei nostri indicatori.

La differenza tra stabilità e precisione può apparire abbastanza difficoltosa da capire, si parla di stabilità
quando ciò che stiamo misurando a distanza di un certo lasso di tempo mantiene lo stesso valore, si parla di
precisione quando proponendo in maniera diversa, con due item o due indicatori diversi lo stesso costrutto
e lo stesso soggetto, questo restituisce la stessa risposta, per dirlo in modo più chiaro la precisione si
riferisce a questa coerenza di manifestazioni, di comportamenti, di risposte, apparentemente diverse di
uno stesso costrutto all’interno di uno stesso strumento di misura. Quando parleremo di coerenza interna,
quindi di somministrazioni singole dello stesso test, ne parleremo meglio.

Attendibilità – Stima con il metodo test-retest

Il termine 'attendibilità', quando è applicato ai reattivi psicologici (ma non stiamo parlando solo del test
domanda – risposta ma di tutti quegli strumenti che vengono utilizzati ad es. in un esperimento), ha due
significati distinti: uno si riferisce alla stabilità nel tempo , l'altro alla coerenza interna. L'attendibilità di un
test nel tempo è nota come attendibilità test-retest” (r tt ) (uno stesso test), e di questa parleremo qui.
(Kline p.10)

Quanto più l’attendibilità si avvicina ad 1 migliore è il test

“se misuriamo oggi su un campione di 200 soggetti le dimensioni di vendicatività e di cooperazione, ci


aspetteremo che se il nostro strumento è attendibile, misurandole sugli stessi soggetti con gli stessi item
tra un mese, le misure da noi ricavate siano simili”. (Ercolani p.152 1997)

Due sfaccettature dell’Attendibilità come Stabilità nel tempo sono:

1 Dependability

2 Stability

C’è quindi una ulteriore differenziazione che fa Cattel e dà degli spunti per farsi un’idea dell’attendibilità di
per sé. Il coefficiente di affidabilità come Dependability è la misura di quanto il test tiene sotto controllo
l’effetto apprendimento e memoria. Se il test retest avviene dopo 4 o 7 giorni di tempo che è il valore
minimo con cui si può fare il test retest, è possibile che i soggetti si ricordino abbastanza bene gli stimoli,
ma se il test è attendibile, il soggetto è in grado di rispondere allo stesso modo o in modo simile non perché
ricordi la risposta ma perché non è cambiata ad es. la caratteristica della personalità che analizziamo.

La stability è invece la misura di quanto vengono tenute sotto controllo le fluttuazioni dei costrutti (come
ansia e depressione) e in questo caso il retest può avvenire anche a distanza di un paio di mesi perché la
memoria degli stimoli si deve essere in gran parte affievolita e potrebbero anche essere avvenuti
cambiamenti di stato, umore o atteggiamento e se vogliamo tenere sotto controllo questa stability,
dobbiamo tenere in considerazione il tipo di costrutto che stiamo analizzando.
TEST-RETEST E FORME PARALLELE

Prima di andare avanti ricordiamo il rapporto tra attendibilità e validità che sono due componenti
fondamentali per eseguire una misurazione adeguata ma non sono sullo stesso livello. L’attendibilità ci
assicura che le diverse misure siano coerenti tra di loro e la validità che esse riflettano effettivamente il
costrutto che stiamo cercando di misurare. È ovvio che se una misura non risulta coerente con se stessa o
stabile nel tempo, meno che mai potrà riflettere il costrutto che volevamo misurare o il fenomeno che
volevamo studiare e la relazione che volevamo indagare, per questo motivo l’attendibilità è considerata la
Base della validità e senza attendibilità non può essere una misura valida. Non dobbiamo preoccuparci se
stiamo misurando l’apertura mentale o l’autoefficacia se poi questi item o queste successive
somministrazioni delle scale non sono quantomeno in accordo tra di loro. Per questo motivo si dice che
l’attendibilità è IL LIMITE MASSIMO DELLA VALIDITA’ cioè una misura non può essere valida più di quanto
sia attendibile. Se una misura è altamente attendibile, anche la validità potrà essere grande, ma va
valutato, perché non è detto che sia automatico; abbiamo visto già nel modulo 5 quante sono le possibili
analisi e sfaccettature da andare a controllare, se invece l’attendibilità è bassa allora anche la validità non
potrà essere che bassa. L’attendibilità nella teoria classica del test l’abbiamo già analizzata e adesso
andiamo a vedere il metodo test-retest. La formula è la seguente:

Questa formula riprende quella della teoria classica dei test e per il test retest ci sono due assunzioni da
fare: 1 che la caratteristica misurata dal test sia stabile nel tempo, quindi il costrutto sia stabile nel tempo 2
assenza di effetto pratica – ricordo. Detto questo, più le misure sono correlate tra di loro migliore sarà
l’attendibilità. Si parla di correlazione tra due distribuzioni di misura ottenute somministrando due volte lo
stesso test allo stesso gruppo di soggetti dopo un certo intervallo di tempo. Abbiamo visto come questo
intervallo possa essere più o meno lungo e che questa diversa scelta di tempo debba essere fatta
prendendo in considerazione la stabilità del costrutto e la incidenza dell’effetto pratica-ricordo. Le
variazioni centrali nelle prestazioni di soggetti tra due successive somministrazioni costituiscono la QUOTA
DI VARIANZA DOVUTA AGLI ERRORI CASUALI CHE NON SARA’ MAI ELIMINABILE. Questa quota di varianza,
essendo quindi ineliminabile, ci sarà sempre una certa parte di scostamento, di varianza e non avremo mai
un coefficiente di attendibilità pari a 1 e questa varianza è dovuta a errori casuali, cioè a fattori non
controllabili e interni al soggetto o legati alla situazione ambientale. Il coefficiente di attendibilità che noi
otteniamo esprime il grado di stabilità nel tempo del nostro reattivo psicologico e la generalizzabilità dei
risultati che vengono ottenuti in somministrazioni diverse. Quanto più alto è il coefficiente di attendibilità,
tanto minore è l’influenza su punteggi delle variazioni accidentali, quindi queste variazioni accidentali che
fanno riferimento a errori casuali e a fattori incontrollabili del soggetto o dell’ambiente in cui il test viene
somministrato, non devono evidentemente essere una quota rilevante. I principali pericoli e svantaggi di
questo metodo sono dati dal fatto che la possibilità che i soggetti ricordino risposte della prima prova
tendono a far si che i soggetti replichino le risposte precedenti senza rispondere nuovaente,
indipendentemente dal fatto che ritengano corretta o non corretta quella risposta o dal fatto che si sentano
o non si sentano in quel modo in quel momento.

Il problema è evidentemente che questo alto coefficiente che si ottiene anche in presenza di effetto ricordo
o anche effetto pratica (c’è anche da dire che effettivamente il soggetto può anche imparare a rispondere
al test) influenzano la capacità di superare l’item o di rispondere ad esso in un certo modo e quindi non si
tratta più di abilità (termine utilizzato per indicare il costrutto nell’item reponse theory) ma è la capacità
mnestica, la memoria dell’individuo che sta influenzando la risposta. Per attenuare questo effetto pratica
ricordo e assicurarsi che sia assente dobbiamo aumentare l’intervallo di tempo di somministrazione ma
questo d’altra parte determina che se il tempo è troppo ampio, la correlazione tra due serie di punteggi
potrebbe essere molto bassa non per inattendibilità ma perché sono sopraggiunte delle modificazioni delle
caratteristiche individuali che vengono misurate e dobbiamo a quel punto registrare una effettiva
modificazione del costrutto e non una mancata attendibilità della misurazione. Abbiamo già parlato di
queste tempistiche, una settimana è il minimo e il massimo è due o tre mesi in caso di costrutti
particolarmente stabili. Se ampliamo troppo l’intervallo tra le due somministrazioni andiamo incontro
anche a un problema di mortalità del campione e soggetti che hanno partecipato alla prima
somministrazione per vari motivi (anche motivazione a partecipare) decidono di ritirarsi (drop out) e queste
mancate risposte fanno si che essendo la correlazione basata su una coppia di misurazioni, non si può poi
effettuare una misurazione che sia particolarmente valida nel senso che il coefficiente di attendibilità con
l’eliminazione di molte coppie può non essere calcolabile.

Il seguente esempio tratto dal volume della Boncori del 2006 ci permette di approfondire il significato
dell’attendibilità come stabilità del tempo e quali criticità possono esserci nel test e retest,
qui troviamo i coefficienti di affidabilità e stabilità test retest per un famosissimo test che è il 16 personality
factor di Cattel del 2001, abbreviato 16Pf e in questo caso troviamo le informazioni che sono stste
differenziate per due stime differenti dell’attendibilità, quindi abbiamo due livelli indicati di stabilità test
retest, a due settimane e a due mesi. L’affidabilità test retest a due settimane di distanza è nella prima
colonna ed è importante notare come raggiunge il fatidico valore soglia di 0.80 del coefficiente di
correlazione prodotto-momento di Pearson. Nei manuali dell’APA, per quei valori che vanno da 0 e 1 si può
anche omettere lo zero e scrivere .80.

Per i fattori primari abbiamo 0.80 di media e per i fattori globali si supera addirittura questo valore e si
arriva a 0.87.

0.90 è un valore ottimale perché il coefficiente di attendibilità non arriverà mai a 1, come abbiamo detto.

I valori invece a due mesi sono più bassi e la media (nella seconda colonna) è 0.70 per i fattori primari e
0.78 per i fattori globali.

Questi dati a due settimane e a due mesi confermano l’ipotesi dell’influsso sulla memoria, perché i valori
più alti riguardano sempre i fattori globali che si basano su un numero maggiore di misurazioni e quindi di
item.

Questo numero maggiore di misurazione determina che in entrambe le misurazioni delle due colonne sia
sempre maggiore il numero di item dei fattori globali nei quali l’attendibilità è sempre più alta, ma
sorprende che abbiano dei valori, degli indici bassi a distanza di due mesi sia caratteristiche che per loro
costrutto e natura sono fluttuanti e quindi non condurrebbero a riflessioni troppo importanti come la
vigilanza che passa da 0.76 a 0.56 e l’apprensività che passa da 0.79 a 0.64, queste sono delle
caratteristiche abbastanza fluttuanti che giustificherebbero anche questa differenza di valore, essendo
delle componenti dell’ansia, non sono così stabili. E poi c’è anche un particolare che è la vivacità che passa
da 0.82 a 0.69 (fa parte dell’alternanza dell’umore ed è un costrutto abbastanza fluttuante), ci sono però
delle caratteristiche che sono stabili o almeno dovrebbero esserlo come la fiducia in se stessi che passa da
0.86 a 0.69 e in realtà ciò ci fa pensare che i costrutti non siano stati accuratamente definiti ed
effettivamente si può dire che il volume della Boncori procede in questa analisi e fa vedere come vi siano
dei bassi coefficienti di attendibilità anche rispetto la verifica condotta attraverso il metodo delle forme
parallele. È sempre utile fare un po’ di questa analisi investigativa per dare un senso a queste differenze
perché poi abbiamo dei test che vengono utilizzati in ambito clinico e che richiedono che vi sia una verifica
dell’attendibilità e validità particolarmente puntuale.

Il metodo di stima Test-Retest non risente del tempo che intercorre tra una misurazione e l’altra. Falso,
infatti bisogna saper determinare l’intervallo più corretto corrispondente al tipo di costrutto e test
utilizzato.

Attendibilità – Stima con il metodo delle forme parallele (dette anche forme equivalenti)

Parliamo di forme parallele perché questa equivalenza va specificata, il termine parallelo dà l’idea che non
c’è soltanto un valore o punteggio similare ma anche nella costruzione ci sono dei criteri per rendere
paralleli due test. Somministriamo quindi due versioni parallele del test agli stessi partecipanti, se diciamo
in questo caso le due somministrazioni possono avvenire anche a distanza molto ravvicinata, anche nella
stessa giornata, e vedremo che ci sono dei vantaggi particolari rispetto al test – retest perché in questo
modo si evita la problematica legata alla mortalità del campione e all’effetto legato al ricordo o alla pratica.

Spesso è utile, soprattutto nel campo applicativo, avere diverse versioni dello stesso test. Per esempio, se
vogliamo controllare gli effetti di una psicoterapia potrebbe essere utile un test dell'ansia o della
depressione somministrato a intervalli regolari. Somministrare lo stesso test ripetutamente è ovviamente
difficile (perché i soggetti ricordano le risposte precedenti al di là dei cabiamenti) e le forme parallele sono
una soluzione a questo problema. Tuttavia,per rendere possibile i confronti dei punteggi, le correlazioni fra
le varie forme dovrebbero essere elevate (così come le medie, le deviazioni standard e le distribuzioni dei
punteggi).

Queste forme parallele vengono utilizzate anche per la stima dell’attendibilità. L’utilizzo delle forme
parallele richiede poi un coefficiente di attendibilità che non dovrebbe andare al di sotto di 0.9, quindi un
coefficiente di correlazione di 0.90 e perché il fatto di essere forme parallele determina una necessità di un
indice di attendibilità più elevato per poter essere considerate parallele tra di loro.

Una correlazione del genere è chiamata 'attendibilità per forme parallele'.

Quando cade al di sotto di 0,9 è difficile assumere che i punteggi siano comparabili. Pochi test presentano
attendibilità per forme parallele così elevate, anche se con gli enormi progressi nel calcolo la costruzione di
forme genuinamente parallele è molto più facile ora che in passato.

Due test per essere paralleli non devono soltanto avere lo stesso numero di item e misurare lo stesso
costrutto ma devono avere anche lo stesso contenuto delle domande e quindi le domande in pratica
dovrebbero essere una perifrasi l’uno dell’altro, lo stesso contenuto cambiando semplicemente le parole,
poi devono avere anche la stessa difficoltà dal punto di vista dell’analisi dell’item (item analysis) devono
avere lo stesso ordine all’interno del test perché si è detto che anche l’ordine è importante (anche per il
metodo split half) e poi dobbiamo avere anche media e deviazione standard uguali. Se riusciamo ad
ottenere due test che hanno tutte queste caratteristiche insieme allora possiamo dire di avere due forme
parallele.
Qual è lo svantaggio di questa forma?

Lo svantaggio è che già impieghiamo tantissime risorse per la costruzione dei test, che è onerosa in tempo e
denaro per la validazione di un test che sia utile, svilupparne un altro molto simile in modo da avere una
misura ragionevole dell’attendibilità sarebbe ancora più dispendioso e inoltre anche questo metodo delle
forme parallele presuppone (anche se in maniera minore) la stabilità del costrutto e l’assenza del ricordo.

I due vantaggi sono che la stima col metodo delle forme parallele elimina o tende a minimizzare gli
svantaggi del metodo test retest, quindi abbiamo l’assenza dell’effetto ricordo perché gli item sono diversi
e la possibilità di somministrarlo a distanza di tempo molto ravvicinato e la mortalità del campione viene
ridotta cosi come le fluttuazioni del costrutto (in termini di ore è abbastanza chiaro che vi sia).

Ecco una specificazione di questa equivalenza: Se sono equivalenti sul contenuto, sulla composizione e
numerosità degli item, sull’ordine, sugli indici di difficoltà, medie ecc. allora questa equivalenza si può
definire parallele:

Tenendo in considerazione che ogni test deve essere composto da un campione rappresentativo di tutti i
possibili item relativi allo stesso costrutto, dovremmo poter estrarre, ricavare dalla popolazione generale
degli item un sottoinsieme di item con cui costruire da un numero di forme parallele del test.

Nunnally nel suo volume del 1976 afferma che il metodo delle forme parallele è particolarmente utile
perché controlla questo numero maggiore di fonti di errore e se non fosse per le difficotà pratiche e per la
difficoltà di trovare forme realmente parallele dei test, probabilmente sarebbe da utilizzare in tutti i casi,
infatti l’errore di misura quando l’attendibilità è calcolata con questo coefficiente, include soltanto una
parte di variabilità sistematica dovuta al non perfetto parallelismo delle due forme e non da altre fonti di
disturbo. Quindi l’assunzione circa l’uguaglianza dei punteggi veri è piuttosto difficile da soddisfare, per cui
ci sia anche un minimo di differenza di errore casuale ma in questo caso si parla di forme essenzialmente
TAU-EQUIVALENTI, cioè che presentano le stesse implicazioni dei test equivalenti eccetto che le medie dei
punteggi sono leggermente diverse.

Questo secondo metodo è l’ultimo metodo di stima attraverso due somministrazioni e nelle forme parallele
si aggiunge il fattore riguardante l’interazione tra il soggetto e il controllo degli item, cioè il test misura lo
stesso costrutto che quindi dovrebbe influire sulle risposte nello stesso modo in entrambi i casi e c’è la
possibilità che le sue particolari caratteristiche sul soggetto abbiano maggiori probabilità di ottenere un
punteggio superiore nell’una o nell’altra versione, quindi se abbiamo due versioni alternative di un test di
profitto di matematica che richiedesse la stessa preparazione per rispondere correttamente agli item ma in
una versione degli item magari queste riguardano un contesto astratto e nell’altro un contesto più
alpplicativo, in questi casi magari i soggetti che hanno una difficoltà a generalizzare gli apprendimenti
potrebbero ottenere risultati molto diversi a parità di abilità matematica e questo problema potrebbe
essere ancora amplificato nel caso di forme parallele in cui ci sia anche una non perfetta sovrapposizione di
quello che avevamo detto essere i punteggi medi, le varianze e le intercorrelazioni.

METODO SPLIT-HALF

Il terso metodo di stima dell’attendibilità consiste nel suddividere (split) a metà (half)tutti gli item di un test
e poi queste due metà vengono somministrate in un unico momento agli stessi soggetti, un gruppo di
soggetti

Attendibilità – Stima dell'attendibilità mediante una somministrazione: Split-Half Reliability Estimates

Nel caso si voglia valutare l'attendibilità di un test solo basandosi sui dati di una singola somministrazione,
occorre basarsi sulle caratteristiche degli item relative alla coerenza interna (internal consistency), ossia il
grado in cui gli item di un test o di una scala sono coerenti nel misurare il costrutto in oggetto. Questa
coerenza deriva anche dal metodo di costruzione di queste scale. La scelta di questi item (come indicato nel
modulo 3 col modello riflessivo e quello formativo e come vedremo anche nell’alfa di Cronbach )

I passi della procedura per il calcolo dell’attendibilità col metodo split-half:

1. Suddividere il test in due metà equivalenti;

2. Calcolare l’ r di Pearson (coefficiente di correlazione) tra i punteggi ottenuti alle due metà del test;

3. Aggiustare questa attendibilità ottenuta sulla metà del test secondo la formula di Spearman-Brown.

È un metodo utilizzato in molte situazioni soprattutto in quelle nelle quali la costruzione di forme parallele
di un reattivo sia eccessivaente dispendiosa e non sia possibile avere gli stessi soggetti per una successiva
somministrazione del test anche se ravvicinata rispetto alla prima. Questa coerenza interna è una
caratteristica degli item che la maggior parte dei costruttori di un test si pone come obiettivo perché è forse
quella più facile da dimostrare poi attraverso l’indice più utilizzato che è quello dell’alfa di Cronbach. Nel
caso si voglia utilizzare questa coerenza interna la logica da prendere in considerazione è che la coerenza
interna risulta bassa quando una parte del test sta misurando una variabile, un costrutto e l’altra un’altra e
che quindi differenti parti del test non misurino il medesimo costrutto.
Se un test invece è attendibile, allora la coerenza interna deve essere elevata e allora è possibile che sia
valido e cioè stia misurando un solo costrutto, questa è l’argomentazione adottata dalla stragrande
maggioranza dei costruttori di test che ritengono che una elevata coerenza interna è il prerequisito per una
validità elevata. Questo approccio è anche sostenuto dalla teoria classica del test che abbiamo già visto per
cui l’incremento di coerenza interna è un criterio per mantenere gli item del test, quindi gli item che non
contribuiscono a elevare l’indice di coerenza interna vengono eliminati (droppati) e gli item invece che
partecipano particolarente vengono assunti come modello anche magari per crearne di nuovi. Ci sono
chiaramente delle voci discordanti perché per esempio Cattel ma anche Kline hanno sostenuto che una
coerenza interna molto alta è addirittura antitetica alla validità perché se i test devono misurare i costrutti
di una certa ampiezza, come ad es, ansia e intelligenza, ogni singolo item di uno qualsiasi di questi test deve
essere più limitato e specifico rispetto a queste variabili e se tutti gli item sono altamente coerenti allora
devono essere altamente correlati e il test sarà necessariamente limitato e specifico e quindi sarà anche
meno valido.

Non è detto che una elevata coerenza interna laddove gli item siano altamente specifici, non determini una
bassa validità.

Ci sono poi degli esempi a supporto delle evidenze scientifiche rispetto alle affermazioni di Cattel e infatti
gli indici di attendibilità come la coerenza interna crescono al crescere della correlazione tra gli item e di
solito in uno studio multivariato in cui si voglia massimizzare la correlazione o anche la predilezione di un
criterio da un insieme di test, il risultato migliore si ottiene portando la correlazione tra i test a zero in
modo da avere una specie di matrice multi tratto multi metodo. Se abbiamo due test perfettamente
correlati, sarebbe inutile utilizzarli entrambi perché il secondo non aggiungerebbe nessuna nuova
informazione rispetto al primo. Se noi avremo la necessità di massimizzare la capacità di predizione allora
dovremo fare in modo che la correlazione tra i due test sia vicina allo zero e che quindi se intendiamo un
test l’insieme degli item con i quali vogliamo predire i punteggi del test criterio, anche qui il risultato si
otterrà quando ogni item correla positivamente con il punteggio totale della scala e quindi con il punteggio
che misura il costrutto e però contemporaneamente ha una correlazione molto bassa con gli altri. Un test
del genere avrebbe inevitabilmente una coerenza interna molto bassa e non è detto che questo approccio
di Cattel che sul piano teorico appare avere un senso abbastanza chiaro, sia poi praticabile dal punto di
vista pratico nel senso che nessun costruttore di test in genere è mai riuscito a creare un reattivo
psicologico in cui gli item correlano col punteggio del criterio ma non tra di loro, questo è un elemento che
dobbiamo portare alla nostra attenzione e quindi diciamo che dal punto di vista teorico ha senso ma poi
effettivamente una coerenza interna è sempre ricercata in qualche modo.

L’uso del metodo split half e dei metodi anche attraverso una sola somministrazione richiede due
puntualizzazioni:

1 La prima è che l’ errore di campionamento del contenuto è determinato con meno precisione rispetto al
metodo delle forme parallele perché evidentemente noi abbiamo la metà degli item scelti inizialmente.

2 E poi c’è un errore dovuto all’instabilità dei punteggi e quindi nel tempo non emerge, dato che le due
metà del test che noi abbiamo creato sono somministrate in modo quasi contemporaneo, allora l’instabilità
dei punteggi è molto minore. Quindi questo ultimo limite può essere superato ricorrendo a varianti della
suddivisione a metà (quindi le due prove possono essere somministrate in due sedute diverse a distanza
anche breve in modo da avere un risultato che possa riflettere anche fluttuazioni a breve termine che sono
grandi fonti di errori casuali) che permettano poi di capire effettivamente sul piano ecologico come
funziona il nostro test. Ricordiamo che si è parlato di validità ecologica, cioè il fatto che effettivamente i
risultati di una ricerca siano riscontrabili anche nel mondo reale e quotidiano perché non è detto che i
risultati ottenuti in laboratorio in condizioni più o meno restrittive si replichino effettivamente in ambito
reale, quotidiano e anche la stessa identica cosa qui per il test e per l’attendibilità del test, quindi è
massimizzare poi la rappresentatività rispetto all’uso che se ne fa in ambito clinico, di somministrazione ai
pazienti.

Nel metodo dello split half il testo viene suddiviso a metà che vengono trattate come se fossero due test
paralleli e alcuni autori sottolineano che le due distribuzioni di valori che si ottengono con il punteggio
ottenuto dagli item della prima sezione, della prima metà e l’altra seconda metà, vengono poi messi in
correlazione e però ciò che è importante è il modo con cui viene suddiviso il test. Dividere a metà il test, il
numero degli item, ad esempio se abbiamo 20 item del test e scegliamo i primi dieci e i secondi dieci, ciò
può non essere particolarmente utile perché ciò potrebbe determinare della confusione o comunque
rumore di fondo nel senso che magari nel test le domande facili sono messe all’inizio e quelle più difficili
sono messe alla fine e questo si fa di solito per mettere a proprio agio il diffondente in modo che non si
demotivi se trova degli item molto difficili e quindi il metodo split half nella suddivisione degli item
dovrebbe seguire esattamente le indicazioni date per il metodo delle forme parallele e cercare di garantire
uniformità di contenuto, uniformità di difficoltà, di ordine, di accordo e di numerosità. Come si fa di solito?
Semplicemente si scelgono dapprima in una metà gli item pari e in un’altra metà gli item dispari in questo
modo gli item dovrebbero essere nel contenuto e nell’ordine sicuramente molto vicini tra loro e poi il fatto
di essere pari e dispari dovrebbe assicurare che vi sia una stessa numerosità. La suddivisione a metà come
metodo facilita da un punto di vista teoretico e pratico problemi inerenti al metodo di test-retest delle
forme parallele perché ci permette il calcolo dell’attendibilità senza somministrare due differenti test o
richiedere ai soggetti di presentarsi due volte, per questo viene anche spesso utilizzato molto più delle
forme parallele.

Nello split half la suddivisione a metà del test non può essere fatta in modo casuale: Vero, è necessario
seguire una procedura che assicuri che le due parti siano parallele.

Resta il problema su come valutare l’attendibilità di una scala con i dati di una singola somministrazione.
Spearman già agli inizi del 900 (1910) cerca di calcolare la correlazione tra i punteggi veri data la
correlazione dei punteggi osservati, attenuandoli dagli gli errori di misura, se però noi calcoliamo la
correlazione tra un punteggio ad un test di intelligenza e un punteggio ad un test di nevroticismo siamo
interessati non a sapere quanto correlano i punteggi diversi ma quanto correlano fra di loro i costrutti
corrispondenti. Il problema per quello che riguarda invece i punteggi osservati è se essi stessi sono la
somma del contributo del punteggio vero, cioè il punteggio del livello del soggetto sul costrutto, ed il
contributo dell’ineliminabile componente dell’errore casuale. La presenza dell’errore di misurazione interna
ai punteggi osservati fa si che la correlazione che concederebbero quei punteggi osservati, se non ci fosse
l’errore di misura risulti attenuata e quindi poi questi metodi di risoluzione vengono utilizzati anche nella
stima dello split half.
Spearman è anche colui che determina la formula profetica di Spearman Brown perché analizzando i
passaggi per il calcolo della attendibilità col metodo split half, abbiamo detto che a un certo punto il
coefficiente di correlazione calcolato nelle due metà deve essere aggiustato perché quello che otteniamo è
in realtà un coefficiente di correlazione che riguarda un test con un numero di item che è la metà del test
iniziale.

La forula profetica ci permette di partire da un coefficiente di correlazione misurato, ottenuto e stimarne


uno non a nostra disposizione e ottenere l’attendibilità di un test con un numero k di item iniziali.
Speraman e Brown e poi successivamente anche Chronbach, dimostrano che l’attendibilità del test
aumenta col numero degli item e viceversa (come visto nella slide) e da questo presupposto correggere il
metodo di correlazione ottenuto col metodo slìplit half è possibile ma bisogna comunque controllare che la
varianza delle due parti di test sia uguale e questa è un’assunzione necessaria perché le due metà del test
siano parallele. Se non si può sostenere tale assunzione esistono altre formule per calcolare il coefficiente
di attendibilità (dovute anche a Rulon e Guttman) che si basano esclusivamente sui rapporti tra le varianze
e che non richiedono la correzione con la formula di Spearman Brown e quasi tutti i software statistici
predispongono anche in output questi risultati.

Se andiamo a vedere la formula profetica di Spearman Brown vediamo che r con sh, cioè il coefficiente di
correlazione split half, è uguale a due volte il coefficiente di correlazione tra le due parti del test, diviso 1+ il
coefficiente di correlazione tra le due parti del test.
Qui troviamo esattamente la formula

E vi è poi una notazione alternativa che ci permette poi di operare l’inverso della formula. Intanto vediamo
questa formula generale di Spearman Brown, e se noi partiamo dal coefficiente di correlazione della metà
degli item per avere il coefficiente split half corretto , dovremmo moltiplicare n (numero delle volte in cui il
test viene allungato) per 2. Se lo volessimo fare per 4 volte il numero della metà degli item, e raddoppiarlo
due volte, dovremmo moltiplicare n per 4 e così via. Questa formula poi ci permette anche di predire il
coefficiente di attendibilità di un test per una numerosità qualsiasi a partire da un coefficiente che abbiamo
a nostra disposizione perché se io dico che ho un test ad es. di 20 item e lo voglio a un coefficiente di
attendibilità di .9, lo voglio aumentare e passare da 20 item a 30, allora io sto aggiungendo 10 item e
semplicemente mi basterà fare 10 fratto 20 e ottenere 1 mezzo e quello sarà il numero delle volte in cui il
test viene allungato (viene allungato della metà delle volte) e quindi potrei fare semplicemente: un mezzo
per 0.9 diviso uno più un mezzo meno uno che moltiplica il .90

Questo è un esempio molto veloce. L’inverso della formula ci permette invece di stimare il numero di item
necessario per raggiungere un certo livello di attendibilità prescelto, quindi a partire dall’attendibilità del
test in situazione ipotetica e l’attendibilità del test nella versione esistente, (che nel nostro caso era split
half), se partiamo dal .90 su un test di 20 item, quello è il nostro livello di attendibilità. Nella versione
esistente, se volessimo arrrivare a un livello di .95 dovremmo sapere quanti item paralleli (perché devono
essere paralleli altrimenti questa modalità non si può applicare) è necessario aggiungere.

Qui c’è un esempio dei possibili tipi di splitting, cioè di divisione di 6 item e di come questa suddivisione
determini stime di attendibilità (reliability) diverse.

Qui abbiamo un esempio di calcolo del coefficiente di attendibilità


C’è un gruppo di 11 soggetti che hanno compilato un certo test con i relativi risultati epoi si possono seguire
semplicemente i due passi: suddivisione degli item e calcolo della correlazione tra gli item:

Dopodiché qui c’è anche la possibilità di utilizzare la formula di Spearman Brown rispetto a quanto si è
deciso di allungare il test, nel caso dello split half sappiamo che è due perché dobbiamo seplicemente
raddoppiare e il risultato della formula è 0.40, quindi un livello di attendibilità non sufficiente secondo la
scala lasciataci da Campbell:
Questo forse è più interessante perché è possibile evidentemente stimare quale diventerebbe il
coefficiente di attendibilità del test se fossero aggiunti o tolti n item paralleli. Qui vediamo il numero degli
item del nuovo test fratto il numero degli item del test originario e si può effettuare anche questa
suddivisione

A seguire abbiamo degli esempi di calcolo dell’attendibilità da completare sulle slide.


ALFA DI CRONBACH

L’alfa di C. è l’altro metodo, insieme allo split half che ci permette di valutare la coerenza interna dal punto
di vista di una sola somministrazione del test a un gruppo di soggetti. La definizione è: la media delle
intercorrelazioni tra tutte le possibili divisioni a metà del test (Chronbach 1951) e questo ci dà l’idea di
come sia strettamente collegato anche al metodo dello split half. Nelle slide precedenti si possono vedere
anche il metodo K-R 20 e K -R21. L’alfa di Cronbach è il metodo di calcolo più generale per item non
dicotomici mentre il K-R 20 e 21 è la formula per item dicotomici che abbiano la stessa difficoltà o difficoltà
diverse, quindi queste due versioni si applicano a test composti solo da item dicotomici che in un caso
hanno tutti la stessa difficoltà e nell’altro caso hanno difficoltà diverse. Essendo l’alfa di C. una formula più
generale, applicandola ad item dicotomici otteniamo la stessa misura dell’attendibilità del K-R 20 e 21.

Cronbach nei suoi anni di ricerca ha contribuito in numerosi ambiti, nella teoria della misura, nella
valutazione di programma e anche nell’ambito dell’education perché la maggior parte delle innovazioni si è
sviluppato anche nello studio delle prove obiettive di apprendimento

C. come studioso ha condotto importanti studi anche nel campo della psicologia dell’educazione e in
particolare si è occupato della valutazione, tema che negli ultimi anni è apparso con forza nel nostro
sistema di valutazione e già nel 1950 Cronbach sosteneva che gli ambienti di apprendimento devono essere
progettati per soddisfare la capacità degli individui e quindi individuare queste capacità tali per cui
diventava possibile sviluppare gli ambienti di apprendimento. L’alfa di C. è un coefficienze di attendibilità
normalmente usato per la misura della coerenza interna e in questo senso il coefficiente alfa di C. è una
misura della affidabilità interna degli elementi di un indice. Varia tra 0 e 1 e indica in che misura gli
elementi misurano la stessa cosa, quindi il grado di accordo degli elementi. Gli studi nell’ambito
dell’education hanno portato C. a sviluppare una teoria generale di affidabilità delle prove, la cosiddetta
generalizzability theory, modello statistico complesso messo a punto per verificare le fonti degli errori di
misura. Questa teoria di Cronbach risale agli inizi degli anni 70 e fornisce la cornice di riferimento per
analizzare in modo più approfondito le misure di attendibilità comportamentali dei soggetti.

La teoria della generalizzabilità non deve essere confusa anche con il metodo della regressione generale, il
modello lineare generalizzato, perché è completamente diverso e in particolare questa generalizzabilità
teorica rappresenta una estensione del concetto di attendibilità secondo la teoria classica dei test. I
riconoscimenti che vennero fatti a Cronbach furono numerosi, è stato anche presidente dell’American
Education Research Association, ma anche dell’American Psichology Association e della Psychometric
Society, quindi è stato sicuramente anche durante la sua vita, riconosciuto per l’importanza del suo
contributo. Ad oggi l’alfa di C. è uno degli indici più utilizzati all’interno della psicologia per la possibilità che
ha dato di valutare la coerenza interna delle scale e anche per la sua comprensibilità, quindi non richiede
misure ripetute o costruzione di forme parallele, le procedure per la sua determinazione sono logiche e
comprensibili, e anche adattabile a mano con un numero di soggetti e item molto basso e con i suoi livelli
0.70 0.80 e 0.90 è ormai un refrain abbastanza consolidato. I valori dell’alfa di C. variano da 0 come
mancanza assoluta di coerenza tra gli item e 1 coerenza assoluta tra gli item (valori puramente teorici che
ovviamente non troveremo mai in letteratura). Nella prassi valori che variano tra 80 e 90 sono considerati
buoni, tra 70 e 80 discreti, tra 60 e 70 sono al margine dell’utilità e inferiori a 60 sono deficitari. In questa
formula troviamo il coefficiente alfa. Come vediamo nella slide è indicata con r in pedice alfa che è uguale a
k (numero degli item) fratto k-1, che moltiplica la nostra varianza totale meno la sommatoria della varianza
di ciascun item (quindi si prende la varianza del singolo item per tutti i soggetti, si calcola questa varianza e
poi si sommano le singole varianze) diviso la varianza totale dei punteggi al test (sigma quadro è la varianza
del punteggio grezzo al test)
Nella slide precedente vediamo la formula riportata alla correlazione media inter item, cioè la media della
correlazione fra gli item della scala. Possiamo dire che rispetto a quello che misura l’alfa di C. che è stata
utilizzata ed è utilizzata moltissimo, negli anni ci sono stati molti fraintendimenti dovuti alla sua facilità di
calcolo e in particolare questa confusione è dovuta al fatto che bisogna differenziare tra omogeneità e
coerenza interna di un insieme di item. Quindi un test è composto da un insieme di item che sono
manifestazioni osservabili di un costrutto psicologico, quindi il costrutto psicologico che non è direttamente
osservabile, si riflette all’interno dei comportamenti del soggetto, per questo motivo quello che noi
osserviamo sono i comportaenti causati dai costrutti e in questo senso tutti i comportamenti influenzati in
modo causale dal costrutto dovrebbero posizionarsi in modo coerente, per questo motivo, se siamo molto
intelligenti dovremmo rispondere a molti item del test di intelligenza e viceversa e se siamo molto
estroversi sceglieremo punteggi di scale Likert particolarmente alti in un test per la valutazione
dell’estroversione e viceversa. Questo fa si che gli item che misurano uno stesso costrutto tendano a essere
correlati tra di loro, abbiamo discusso del fatto che debbano o non debbano essere correlati tra di loro e
che questo influisca sulla teoria della misurazione in generale e anche parlando di ridondanza abbiamo
visto che non dovrebbero esserlo troppo dato che ogni operazionalizzazione dovrebbe cogliere una parte di
dominio di contenuto ma non la stessa parte, altrimenti gli item sarebbero ripetitivi e sarebbe poco utile
averne tre o quattro. Un primo problema riguarda quindi quanto è ampio il dominio di contenuto e quindi
dovrà essere rappresentato in modo completo e altro problema riguarda la possibilità di operazionalizzare
questi indicatori soprattutto per raggiungere il maggior livello di coerenza interna.

Il livello di coerenza interna in realtà dovrebbe essere valutato al di là di quelle che sono le soglie di cui
abbiamo parlato precedentemente (.70 .80 e .90). Dovrebbero essere anche valutati nell’ambito
dell’ampiezza dei costrutti, quindi se abbiamo costrutti ampi, la bassa correlazione inter item è compensata
dalla necessità di un maggior numero di item, più è ampio è il costrutto più numerose e eterogenee
dovrebbero essere le operazionalizzazioni mentre in caso di costrutti specifici di solito sono necessari pochi
item.

Di solito non si sottopone l’alfa di C. a una verifica delle ipotesi per valutare se sia statisticamente diverso
da un valore predefinito, di solito si valuta per tutti gli indici (ricordiamo il fatto che sia diverso
statisticamente da zero) e la pratica comune prevede che l’alfa di C. venga valutato secondo le linee guida
proposte da Nunnaly che sono 0.70 0.80 e 0.90

In questo esempio possiamo capire cosa ci indica l’alfa di C. che come ricordiamo è la media delle
intercorrelazioni tra tutte le possibili divisioni a metà del test e qui c’è la varianza dei singoli item fratto la
varianza del punteggio totale del test. In questo caso la sommatoria delle varianze dei singoli item è 56.008
e la varianza della scala composta da 30 item è 470.082 e quindi il coefficiente alfa di consistenza interna
del test è k che è 30 fratto 30 – 1 che moltiplica 1 meno la sommatoria delle varianze dei singoli test fratto
la varianza dei punteggi totali del test. Abbiamo ottenuto un alfa di C. di .92 che è un valore molto buono,
un valore sicuramente elevato.
Successivamente vediamo un ulteriore esempio della formula profetica per il calcolo della lunghezza del
test a partire da un coefficiente di attendibilità desiderato, abbiamo già visto qualche esercizio, qui si vedrà
la formula

Nella precedente slide vediamo che se s al quadrato (la varianza del test allungato) è uguale a n cioè il
numero delle volte che il test viene allungato, che moltiplica la varianza del test originario che a sua volta
moltiplica 1 più n -1 che moltiplica il coefficiente di attendibilità del test originario.

A questo punto

dalle formule che abbiamo già detto si può rilevare che l’incremento dell’attendibilità di un test di
lunghezza n è funzione sia della lunghezza del test, sia del livello di attendibilità del test originale. Se questo
è basso bisognerà aumentare di molto il numero di volte che bisogna allungare il test per ottenere un
nuovo coefficiente di attendibilità abbastanza alto e non sempre questa operazione è conveniente, quindi
se ci manca poco ad arrivare alla soglia, forse può convenire raddoppiarne gli item o aumentarli di una
certa proporzione, se invece abbiamo creato il pool iniziale degli item in modo frettoloso e non
corrispondente al dominio di riferimento allora possiamo decidere di cominciare da capo e questo ci porta,
prima di vedere questo ulteriore esempio, a fare una riflessione importante.
Tra i metodi di stima dell’attendibilità con due somministrazioni e con una singola somministrazione, qual è
il migliore? In realtà per come è definito il concetto di attendibilità, cioè stabilità nel tempo, i metodi
migliori per la valutazione dell’attendibilità sono sicuramente quelli con 2 somministrazioni perché abbiamo
visto che l’alfa di Cronbach e lo Split Half risentono della numerosità degli item e quindi sono più attaccabili
nel caso un ricercatore decida di agire in modo particolarmente poco etico e decide di aumentare in modo
improprio l’attendibilità del test dato che sono appunto più sensibili a questa manipolazione esterna del
ricercatore che può decidere di aumentare il numero degli item per raggiungere l’attendibilità desiderata
attraverso l’alfa di C. e il metodo dello split half, allora si preferisce scegliere quelli della stabilità nel tempo:
Il test –retest e le forme parallele, tra questi due il metodo migliore è sicuramente quello delle forme
parallele perché riesce a tenere sotto controllo gli svantaggi del test-retest, cioè la necessità di avere una
stabilità del costrutto e di evitare l’effetto pratica-ricordo e mortalità del campione.

Vediamo come si possa allungare il test:

Cominciamo a inserire nella nostra


formula precedente i valori calcolati: 2.4 che è la varianza del test allungato che è uguale alla proporzione
di item aggiunti al nostro test che moltiplica la varianza 1.2 del test originario e tra parentesi 1 + di nuovo la
proporzione dell’allungamento degli item + 1 che dovrebbe moltiplicare il coefficiente di attendibilità del
test originario (primo rigo)

Poi si svolgono tutte le operazioni e alla fine semplicemente si spostano i valori dall’altro lato
dell’equazione e abbiamo quindi 2.4 meno 1.776 (perché rispetto al passaggio precedente abbiamo
spostato questo valore dall’altro lato dell’uguale nell’equazione), diviso 0.85255 e otteniamo 0.7320. In
questo caso dobbiamo trovare il nuovo coefficiente di attendibilità ma abbiamo tutto ciò che ci serviva per
la nostra formula profetica e siamo in grado di dire che il nuovo coefficiente di attendibilità è 0.8017.

Si può calcolare a partire dal coefficiente di attendibilità di un test lo stesso coefficiente per un test con la
metà degli item? Si: con la formula simile a quella profetica di Spearman – Brown.

Concludiamo andando a vedere le modalità di interpretazione del coefficiente di attendibilità:


Vedremo come, rispetto al test stesso, ci sono fondamentalmente quattro approcci alla stima
dell'affidabilità: (1) test-retest, (2) forme parallele, (3) split-half e (4)coerenza interna o inter-item. Il
metodo o i metodi impiegati dipenderanno da una serie di fattori, quali lo scopo per cui ottenere una
misura di affidabilità.

Un'altra domanda che non è legata in modo non banale allo scopo del test è:"Quanto dovrebbe essere alto
il coefficiente di affidabilità o attendibilità?" Ci potrebbero essere dei casi in cui il livello di attendibilità
necessario non sia uguale, perché ci sono degli ambiti di utilizzo diverso dei test, quindi visto che il
punteggio di un test non sempre porta con sé implicazioni di vita o di morte allora dobbiamo prendere in
considerazione anche livelli di standard dell’attendibilità un po’ meno elevati, laddove invece (come nel
caso dei test che poi vengano utilizzati in ambito clinico in cui i test hanno una importanza di vita o di
morte) è necessario ottenere il livello di attendibilità più preciso e alto possibile.

La significatività statistica, la dimensione dell’effetto e la forza, sono indici statistici che ormai vengono
comunemente utilizzati nell’ambito della ricerca psicologica. Nella psicologia clinica e in altre aree in cui i
risultati possono avere un impatto significativo sulla vita del paziente, la psicoterapia, il counseling ma
anche la stessa prevenzione, interessa capire se gli esaminati, quindi i partecipanti, beneficiano davvero
dell’intervento, del programma, dell’esperienza che viene proposta e in questo senso si differenzia la
significatività pratica del risultato dalla significatività clinica del risultato e dalla significatività statistica del
risultato.

La significatività clinica è il termine che viene usato nel contesto della ricerca sugli interventi e si riferisce al
cambiamento che può fare una reale differenza per i soggetti che ricevono un certo trattamento.

La significatività pratica comprende invece tutte quelle aree in cui fare differenza nella vita reale è
importante, quindi la significatività clinica ci indica se il miglioramento ottenuto dà un risultato
statisticamente significativo ed è poi utile nell’ambito clinico quindi un miglioramento ottenuto con un
intervento terapeutico innovativo con un 10% di miglioramento, poi dal punto di vista clinico che vuol dire?
Vuol dire che io sono in grado di dire che il soggetto sta meglio per 1 ora rispetto alla terapia precedente o
sta meglio per 1 settimana? Quindi dal punto di vista clinico è differente parlare di un risultato
statisticamente significativo o che poi deve essere interpretato dal punto di vista anche clinico. Da un punto
di vista invece pratico, del cambiamento, la significatività pratica intende dire se effettivamente questi
risultati poi portano un determinante cambiamento nella vita reale del soggetto, cioè il trattamento ha
aiutato qualcuno in modo tangibile. Sappiamo che ci sono degli studi sui disturbi alimentari, sappiamo di un
trattamento innovativo che potrebbe essere statisticamente significativo e questo trattamento può portare
un miglioramento dal punto di vista clinico, di una riduzione di 10 kg nei soggetti studiati (o un aumento di
10 kg, dipende dal tipo di disturbo di cui stiamo parlando), però il problema dal punto di vista della
significatività pratica è se quell’effetto porta felicità nella vita del soggetto o un miglioramento
dell’autostima ecc. quindi effetti che si ripercuotano sulla vita del soggetto.

Questi tipi di significatività diversa dei risultati di un intervento o ricerca psicologica, allo stesso modo si
riflettono in modo simile sull’interpretazione del coefficiente di affidabilità, nel caso quindi in cui abbiamo
un ambito clinico , non possiamo accettare un grado inferiore a 0.70 che descrive un grado sufficiente
appena passabile, se siamo nell’ambito di un test di apprendimento della competenza matematica creato
per la scuola media inferiore, va bene anche 0.60 o 0.65. Ad esempio un altro discorso da fare sulla
attendibilità è il fatto che questa attendibilità calcolata sull’insieme degli item può portare a delle
distorsioni perché ad esempio l'HAMD (Hamilton - Depressione-Rating-Scale; Hamilton, 1980) è uno
strumento di valutazione esterna per i disturbi depressivi. La criticità in questo caso è se un insieme di
domande o di punteggi che ne derivano possono davvero rappresentare le relazioni empiricamente date.
Per esempio, il paziente CAIO, che è stato valutato da parte dello psichiatra o dal clinico responsabile

come una persona con pensieri suicidi ('Che spera di morire o che si augura di morire in qualche modo'), ma
senza problemi di sonno, è altrettanto depresso rispetto al paziente TIZIO senza pensieri suicidi ma con
occasionali '... difficoltà ad addormentarsi - cioè più di 1/2 ora' e '.... essere agitato e irrequieto durante la
notte'? La procedura di calcolo prescritta dal metodo, tuttavia, presuppone che vi sia questa equivalenza,
naturalmente questo porta a una critica.

L' HRSD è stato criticato per l'uso nella pratica clinica in quanto pone più enfasi sull'insonnia che su
sentimenti di disperazione, pensieri autodistruttivi, cognizioni e azioni suicide. Hamilton ha sostenuto che la
sua scala non dovrebbe essere utilizzata come strumento diagnostico. Un antidepressivo può mostrare
un'efficacia statistica anche quando i pensieri di suicidio aumentano, ma il sonno è migliorato, o per quello
che conta, un antidepressivo che come effetto collaterale aumenta le valutazioni dei sintomi sessuali e
gastrointestinali può registrare come essere meno efficace nel trattamento della depressione stessa di
quanto non effettivamente non lo sia perchè lo strumento va ad intercettare questi come sintomo di
depressione anche quando non lo sono.

Viene definita in inglese scorer (computatore)reliability, judge (giudice) reliability, observer (osservatore)
reliability, forse il modo più semplice per determinare il grado di coerenza tra i marcatori nel punteggio di
un test è di calcolare un coefficiente di correlazione. Questo coefficiente di correlazione è indicato come
coefficiente di affidabilità inter-scorer.

Attendibilità fra i valutatori (interscorers reliability). Un modo di valutare l'attendibilità è far valutare gli
stessi protocolli da più persone e correlare i punteggi assegnati. Più alta è la correlazione, meno incide
l'errore di misurazione dovuto allo scoring, e quindi il test è affidabile con riferimento alle modalità di
siglatura. (Di Nuovo, p.17)

Misure di attendibilità tra i valutatori (Measures of Inter-Scorer Reliability) coloro che ad esempio
osservano un protocollo e valutano attraverso una check list i comportamenti osservati.

L’osservazione effettuata da soggetti diversi della stessa situazione anche quando è fatta con la stessa
griglia di osservazione non è di per sé immediatamente affidabile perché c’è la necessità di determinare il
grado di accordo, la coerenza tra i marcatori, tra i giudici e l’affidabilità inter scorer è il grado di accordo e
coerenza tra due o più osservatori per quanto riguarda una certa misura. Si utilizza un coefficiente che si
chiama K di Cohen ed è importante che ci si ricordi che l’affidabilità inter scorer è necessaria nei casi in cui
cia necessaria la codifica DI COMPORTAMENTI CHE NON SONO VERBALI. Addirittura nell’ambito della
metanalisi, quando cioè si valutano non dei soggetti ma degli articoli scientifici, una parte della metanalisi
riguarda la valutazione della qualità di questi articoli che oltre a recuperare dei criteri oggettivi di
inclusione-esclusione valuta anche alcuni elementi che non sono direttamente leggibili nel testo e c’è la
necessità di trovare un accordo tra diversi lettori (la metanalisi può anche riguardare la lettura di migliaia di
articoli, quindi si possono impiegare anche decine di persone) e c’è la necessità che questi valutatori si
mettano d’accordo e siano in grado di valutare allo stesso modo la stessa situazione.
In ultimo torniamo a questa valutazione generale delle fasi in cui si articola il processo di costruzione di un
test psicologico. Ci soffermiamo sull’analisi di questa tabella e riflettiamo se per noi tutti questi elementi
hanno un significato più chiaro.