Sei sulla pagina 1di 60

MODULO 1 – REATTIVI PSICOMETRICI E METODOLOGIA DELLA RICERCA

1. Introduzione
L'ordine del processo di analisi dei dati è:
 Raccolta dei dati – individuazione della variabilità dei dati
 Statistica descrittiva – descrizione della variabilità dei dati
 Statistica inferenziale e generalizzazione dei risultati
 Stesura delle conclusioni

Le tre rivoluzioni scientifiche delle scienze naturali del '900 hanno influenzato la ricerca psicologica
mediante l'introduzione della teoria della probabilità
 Einstein, teoria della relatività: Il tempo non è più assoluto, è relativo sulla base del sistema di
osservazione. Le leggi della fisica devono essere formulate in modo da mantenere la stessa forma
passando da un sistema di riferimento ad un altro.
 Principio di indeterminazione di Heisenberg: mina le convinzioni della microfisica (ambito della fisica
che si occupa delle particelle). In un dato istante è impossibile attribuire una posizione ed una velocità
determinata ad una particella, poiché laddove il ricercatore cerchi di misurare la posizione della
particella influisce sulla velocità, e laddove cerchi di misurare la velocità influisce sulla sua posizione. La
misurazione non dipende dall’oggetto che misuriamo, a seconda delle scelte compiute dallo
sperimentatore la natura dell’informazione ottenuta sarà diversa.
 Teoria del caos: le leggi naturali, utili alla previsione degli effetti e dei possibili esiti di una prova
costituiscono delle eccezioni piuttosto che delle regole.

I fondamenti teorici della costruzione, validazione e applicazione dei test psicologici, e l’insieme delle
tecniche di ricerca ed analisi dei dati in psicologia sono essenzialmente uguali a quelli delle discipline delle
scienze naturali perché
 Il processo di ragionamento alla base è lo stesso
 È possibile dimostrare e confermare statisticamente le ipotesi a sostegno delle teorie generali

Il “senso comune” e la valutazione psicologica si basano entrambi su comportamenti osservabili di un


individuo. Si differenziano nella definizione teorica del comportamento da osservare (ad es. intensità e
frequenza).

Valutazione: ogni metodo sistematico di ottenere informazioni dai test e da altre fonti, usato per fare
inferenze su caratteristiche di persone, oggetti e programmi. La valutazione psicologica va oltre alle
informazioni definite dai test psicodiagnostici
 Nomotetica: variabili che mostrano le differenze significative tra le persone
 Ideografica: variabili che appartengono ad un unico individuo

Costrutto:
 Nasce dall’esperienza empirica ma non si esaurisce con essa.
 Concetto o definizione teorica astratta riferibile all’individuo (intelligenza, motivazione, aggressività)
che non può essere direttamente osservato ma solo inferito da ciò che possiamo effettivamente
osservare, ovvero i comportamenti dei soggetti.
 Il processo di traduzione del costrutto in comportamenti concreti è detto “esplicazione o
operazionalizzazione”.

I modelli
 Sono una rappresentazione grafica sintetica ed efficiente della realtà in oggetto.
 Al loro interno hanno degli elementi: le variabili, i fattori della teoria esplicativa, che sono fra loro
connessi da relazioni.
1
 Si pongono a livello intermedio fra la teoria (che non ha immediata contestualizzazione empirica) e la
realtà.
 Vi sono modelli statistici (media, modello fattoriale) e logici (gli elementi hanno relazione causale fra di
loro).
 Non sono privi di errori: in quanto rappresentazioni sintetiche non saranno mai esenti da differenze con
la realtà empirica.

2. I test psicologici
Definizione di Anastasi
Anastasi (1985): un test psicologico consiste in una misurazione obiettiva e standardizzata di un campione di
comportamento.
 3 proprietà fondamentali di questa definizione:
 Obiettività: da non confondere con l’oggettività (non indica la corrispondenza con la realtà, intesa
come verità assoluta). La maggioranza degli aspetti legati all’attribuzione di un punteggio al test
(scoring) e alla sua interpretazione sono basati su criteri oggettivi, non influenzati dalla soggettività
dello sperimentatore.
 Standardizzazione: da non confondere con la standardizzazione dei test. I risultati sono concordanti
e confrontabili grazie all’uniformità delle procedure in tutte le fasi della somministrazione e
valutazione.
 Campione di comportamento: da non confondere con il campionamento effettuato sui soggetti
per una ricerca. Il reattivo psicometrico non è un esame a raggi X, non descrive in modo diretto
conflitti e desideri proibiti; riesce ad intercettare solo un insieme di comportamenti individuali che
si spera siano rappresentativi del costrutto che vogliamo misurare. Ad es. se stiamo misurando
l’ansia gli item potrebbero essere relativi alla sensazione di essere da soli, di parlare in pubblico.
 C’è quindi un campionamento duplice: sui soggetti e sul contenuto che si va a misurare.
 Reattivo psicometrico e test psicologico sono sinonimi, la terminologia di “reattivo” è maggiormente
arcaica ma rende bene l’idea del test come stimolo cui il partecipante è chiamato a rispondere.
 Differenza fra test (reattivo) e assessment
 Il termine “assessment” può essere tradotto in italiano con “valutazione ed accertamento”
mentre in inglese vi è una differenza fra “psychological assessment” e “psychological
evaluation” quindi evaluation psicologica e assessment psicologico non sono la stessa cosa
 È un processo o situazione psicodiagnostica (un intero percorso) con un’accezione più ampia
rispetto al test.
 Le informazioni derivano sia dai risultati del test sia dalla descrizione approfondita della
condizione psicologica del soggetto; sebbene possa essere effettuato mediante la
somministrazione di una batteria di test, non può essere ad essa ridotto.
 Il test permette di misurare variabili rilevanti rispetto al funzionamento psicologico, è usato per
rendere la diagnosi maggiormente accurata e fa riferimento ad un unico momento, con
un’accezione dunque più ristretta rispetto all’assessment.
 Molte ricerche hanno dimostrato che i risultati ottenuti ai test, in confronto a quelli derivanti
da altre tecniche psicodiagnostiche, sono più affidabili in termini di predittività sull’esito di un
percorso di sostegno psicologico: la situazione standardizzata del test permette di ottenere una
fonte di informazione valida.
 La funzione di un test consiste nel misurare le differenze tra gli individui o tra le reazioni di uno stesso
individuo in condizioni diverse.

 Costruzione di un test psicologico: pone delle complesse difficoltà pratiche perché non è possibile
osservare direttamente il costrutto di interesse.
Fasi nelle quali si articola il processo di costruzione di un test psicologico
1 fasesi definisce a livello teorico il costrutto e le sue manifestazioni (ad es. ansia declinata in ambito
scolasticoansia da performance, ansia argomento-specifico ad es. da matematica).

2
2 fasesi elabora un ampio insieme di item mediante il metodo dell’operazionalizzazione, ottenendo
quindi di una versione preliminare del test.
3 fase esame critico degli item. Ad un gruppo di esperti del campo viene inviata la versione preliminare
del test, ottenendo così un insieme scelto di item.
4 faseanalisi formale degli item. Si verifica la qualità dell’insieme scelto degli item mediante l’item
analysis; per fare questo si deve avere un campione di soggetti.
5 fasedopo aver effettuato una scrematura degli item non funzionali si ha la versione finale del test.
6 fasein un secondo campione, diverso dal primo, si calcolano gli indici di validità ed attendibilità.
7 fasestandardizzazione mediante un campione normativo.
Grazie al campione normativo (molto più numeroso di quello sperimentale) si può interpretare il punteggio
della persona in base a media e ds dello stesso campione normativo. Per la standardizzazione del test:
 Identificare la popolazione target.
 Determinare il metodo di campionamento e l'ampiezza campionaria, e raccogliere i dati.
 Calcolare gli indicatori statistici: media, varianza ed errore standard di misurazione e individuare i tipi di
punteggi standardizzati idonei all'interpretare i punteggi grezzi. Negli studi precedenti devono già
essere state risolte tutte le questioni relative alle proprietà psicometriche del test (dimensionalità,
attendibilità, validità). Per facilitare il lavoro dell'utilizzatore del test è utile produrre le tavole di
conversione dei punteggi grezzi in punteggi standardizzati.
 Inserire le informazioni sulle norme nel manuale del test insieme a procedure di somministrazione,
scoring dei punteggi e interpretazione dei risultati.

Elementi fondamentali per la misurazione di una caratteristica attraverso un test


Validità a priori: il test viene percepito valido dagli esperti esterni cui viene somministrata la versione
preliminare del test, o da piccoli campioni di soggetti (somministrazione pilota). L’insieme di tali controlli
riguarda la validità di contenuto o di facciata. È una validità “a priori” perché ancora non si conoscono le
risposte dei soggetti agli stimoli del test.
Validità a posteriori: i controlli vengono fatti dopo la somministrazione dei test; si riesce a stabilire quanto il
test sia una buona misura del costrutto che si voleva misurare (validità predittiva, concorrente,
convergente, divergente, nomologica). Sono controlli molto lunghi, durano più di un anno, e continuano
anche dopo la pubblicazione del test. Gli studi sulla validità hanno come premessa gli studi sull’attendibilità.
Per alcuni tipi di test è importante che gli stimoli siano omogenei fra di loro.
Corrispondenza del test alle esigenze pratiche: tempo di somministrazione, disturbi intercettati, criteri
economici, modalità di formulazione degli stimoli (ad es. per indagare la creatività sono più utili domande
aperte, per il problem solving domande chiuse con una sola alternativa giusta), in modo da massimizzare i
vantaggi derivanti dalla scelta del test stesso.
il test non deve
 Porre problemi etici e deontologici
 Contenere quesiti su opinioni religiose e politiche
 Produrre discriminazioni legate al genere o alle minoranze.
Deve, altresì, essere appropriato per l’utente, ad es. essere scritto in un linguaggio semplice nel caso in cui il
suo livello culturale non sia elevato.

 Come scegliere un test


La scelta del test dipende da ciò che si vuole misurare, ad es. se la scopo è la formulazione di un
trattamento in relazione ad un quadro sintomatologico è importante misurare il sintomo nelle sue
caratteristiche, l’organizzazione della personalità, oppure i disturbi cognitivi.
Se lo strumento determina una risposta diversa da quella attesa si devono evidenziare le possibili cause,
ricordando comunque che può influirvi la scorretta somministrazione.
Alcuni elementi che devono essere presenti nel manuale del test per poterlo scegliere in modo adeguato
sono:
 Per quanto concerne il test stesso: nome dell’autore, primo anno di pubblicazione, aggiornamenti
 Cosa misura
3
 L’età delle persone cui è somministrabile
 Eventuali limitazioni poste dal livello culturale
 Situazione cui è adatto: clinica, orientamento, selezione

Caratteristiche dei test


 Standardizzazione: uniformità delle procedure che consente di confrontare i risultati
 Attendibilità
 Validità
 Sensibilità: capacità del test di discriminare fra individuo e individuo (occorre una gamma estesa di
valutazioni all’interno della quale distribuire la popolazione da esaminare), e fra i diversi livelli evolutivi
e di apprendimento dello stesso individuo (occorre che gli item siano costruiti in modo tale da
abbracciare l’intero tratto evolutivo dell’attitudine che si vuole valutare).
 Universalità (estensibilità): possibilità di applicare il test a culture differenti.
 Praticità ed economia: costi e tempi di applicazione contenuti

Le norme
V’è una corrispondenza tra percentili empirici, scale di misurazione e punteggi standardizzati
In base al punteggio del test siamo in grado di stabilire il percentile empirico corrispondente: queste sono le
“norme”, nel caso del test di Wechsler a partire da una media di 100, ad 1 ds (QI 115) è compreso il 16% dei
soggetti, sopra 2 ds (QI 132) è compreso il 2% dei soggetti.

Le norme di gruppo devono avere le seguenti proprietà per essere appropriate:


 Recenti: le norme sono “time bound”, legate al momento in cui il campione normativo è stato
costituito. Sono immerse e legate al contesto, il quale deve essere preso in considerazione all’interno
dell’attribuzione del punteggio;
 Rappresentative: la proprietà della rappresentatività è legata al metodo di campionamento e
all’ampiezza del campione;
 Rilevanti: corrispondenza tra le caratteristiche del campione e quelle della popolazione di riferimento.
Non devono esservi differenze legate a disparità di distribuzione su alcune proprietà.

Utilizzo dei test con soggetti problematici (ad es. disabili sensoriali o psichici)
 Assicurarsi che il soggetto comprenda le richieste;
 Aumentare il numero di esempi e di eventuali esercizi di pratica;
 Programmare sedute brevi in modo da assicurare l'attenzione per tutto il tempo;
 Fornire più rinforzi e incoraggiamenti, anche se di tipo aspecifico;
 Non forzare il soggetto se manifesta rifiuti a certi item;
 Tenere conto nella valutazione di elementi di ansia o affaticamento eccessivo.

3. Tipologie di test psicologici


 Test cognitivi (o di rendimento, o di efficacia, o di massima performance/prestazione, perché valutano
le competenze cognitivo-esecutive). Si dividono in:
- Test di livello intellettuale generale, ovvero test di intelligenza individuali e collettivi
- Test per la misurazione di singole abilità, ovvero
o Test attitudinali
o Batterie attitudinali multiple
o Test oggettivi di profitto e competenze
o Test clinico-diagnostici
 Test non cognitivi (di performance/prestazione tipica, perché si occupano di valutazione personologica
o degli atteggiamenti). Si dividono in:
- Test di personalità: obiettivi e proiettivi
- Test di atteggiamento (aptitudinal): unidimensionali e multidimensionali

4
I test sono sviluppati sulla base di precise teorie psicologiche ed hanno modelli elaborati con criteri
scientifici.
I test di intelligenza (misura generale) devono essere differenziati da quelli attitudinali (misura di uno
specifico fattore). Si può immaginare un continuum che va dall’attitudine specifica fino al costrutto di
intelligenza generale.

Test di sviluppo e test di funzionamento cognitivo generale


Spesso vengono accomunati
 Entrambi possono essere collocati su un continuum di test di abilità.
 Sono entrambi utilizzati all’interno della pratica clinica in età evolutiva per fini diagnostici ed offrono
misurazioni simili quando si devono individuare soggetti con ritardi.
 La maggiorparte di questi test cerca di definire un profilo di competenze mettendo in evidenza lo
sviluppo e l’intelligenza come costrutti complessi.
 Il concetto di età mentale è stato alla base di entrambe le tipologie.
Hanno però molti elementi che li differenziano
 I test attuali di funzionamento cognitivo generale (ad es. Wecshler) si basano su concetti diversi dall’età
mentale, che è stato necessario superare per ragioni connesse all’ambito di intervento, e non c’è buona
correlazione fra il punteggio sintetico del test di sviluppo e il QI. Ciononostantec’è un buon grado di
correlazione fra le specifiche scale del QI con alcuni test di sviluppo.
 I test di sviluppo correlano poco con i risultati scolastici (academic achievement), a differenza di quanto
accade per i test di funzionamento cognitivo generale che, storicamente, sono nati proprio per
identificare quei soggetti che necessitavano di una modalità di insegnamento peculiare che consentisse
loro di apprendere in modo proficuo.

I test di sviluppo hanno un obiettivo comune: intendono misurare se e quanto un bambino è in grado di
affrontare e superare compiti adeguati alla sua età anagrafica. Questo avviene essenzialmente osservando
la risposta del bambino di fronte a stimoli e situazioni che riproducono le difficoltà che egli potrebbe
incontrare in situazioni della vita quotidiana.
Essi forniscono un quoziente di sviluppo (rapporto percentualizzato tra l’età di sviluppo e l’età
anagrafica)QS: (ES/EA)*100. L’età di sviluppo è definita dal livello corrispondente alla prova più avanzata
che il bambino riesce a superare, oppure alla somma dei punteggi ottenuti ad un set di prove (in questo
caso le prove contengono compiti riferibili ad un anno di età anagrafica); indica quale età dovrebbe avere il
bambino per essere nella media come competenze dimostrate ai compiti del test. Se l’età di sviluppo
coincide con quella anagrafica, il QS sarà uguale a 100 (bambino con sviluppo tipico); vi è una fisiologica
variabilità nell’acquisizione di certe competenze, questo fa sì che si consideri del tutto adeguato il
funzionamento del bambino il cui sviluppo si collochi a +1 o -1 ds rispetto alla media di 100.
Vi sono delle criticità nel quoziente di sviluppo
 Rischio relativo all’introduzione di uno schema rigido nello sviluppo del bambino (il riferimento è
Piaget)
 Non si colgono le strategie individuali che emergono a compenso di una o più aree critiche di fragilità
del soggetto
Ciò è alla base di un contrasto fra un approccio psicometrico/statistico fondato su uno schema di
valutazione rigido del punteggio e un approccio clinico. Si è arrivati a parlare della necessità dei non-tests
factors, ovvero conferire valore ai dati ottenuti al di fuori della consegna dei test. Nell’approccio statistico
essi sono considerati una forma esterna e non voluta di varianza che svia le conclusioni; in ambito clinico si
pone maggior cura nel comprendere i non-test factors, utili per la valutazione diagnostica.

Le Griffith Mental Development Scales sono scale per la valutazione dello sviluppo
 Il QS è il rapporto percentualizzato tra il totale dei mesi di sviluppo ottenuti in tutte le scale e l'età
anagrafica

5
 La prima edizione risale al 1954 ed è stato rivisto negli anni ’70 con l’aggiunta di norme che coprissero il
periodo 3-7 anni.
 Viene usato in Europa ed in Italia
 Si sviluppa su 5 scale. Per ciascuna (relativa ad un anno) sono forniti 24 items (2 al mese). Si ottiene un
profilo dello sviluppo del bambino che può essere usato per programmare eventuali valutazioni
successive in modo più mirato.
 I suoi vantaggi sono: l’esplorazione delle diverse aree funzionali e la possibilità di ripetizione del test
senza problemi particolari di apprendimento della prova.
 I suoi svantaggi sono: scarsa utilità per i bambini con età > 4 o 5 anni (maggiore è l’età, minore diventa
l’utilità della scala); scarsa predittività dei risultati scolastici; in presenza di aree in cui vi sono dei ritardi,
si devono usare test mirati e specifici per risultati maggiormente indicativi del deficit.

5. Test cognitivi
5.1 Test di livello intellettuale generale: scala 1905 (in seguito Stanford-Binet); Guilford-test; Matrici
progressive; Thurstone-test; Scala Wechsler-Bellevue

1. Scala 1905 o Test Binet-Simon


 Il primo test mentale fu sviluppato da Binet nel 1905 all’interno di uno studio sulla didattica speciale
per bambini affetti da ritardi mentali commissionato dall’allora Ministro della Pubblica Istruzione.
 Era costituito da circa 30 problemi a difficoltà crescente, che erano stati determinati in modo empirico
somministrando il test sia a bambini normodotati tra i 3 e gli 11 anni (circa cinquanta) sia ad alcuni
bambini con ritardo mentale.
 La prima versione non presentava indicazioni circa il metodo oggettivo per l’assegnazione di un
punteggio complessivo. Questo reattivo venne rielaborato nel 1908
- Aumentando il numero e migliorando la qualità delle prove attraverso un più accurato controllo
effettuato con la somministrazione del test a circa 300 bambini normali con un’età compresa tra i 3
e i 13 anni.
- Suddividendo gli item secondo i livelli di età, ad es. tutte le prove che potevano essere completate
positivamente da bambini normali di cinque anni venivano inserite nel livello corrispondente,
mentre tutte le prove che potevano essere completate positivamente da bambini normali di sei
anni venivano inserite nel livello corrispondente e così viail punteggio del test di un soggetto
poteva essere espresso in termini di età mentale, ovvero confronto tra il punteggio del soggetto sul
test e l’età dei bambini normali con rendimento di livello equivalente. Binet utilizzo la terminologia
neutra di “livello mentale” per evitare di introdurre implicazioni non verificate sullo sviluppo
dell’individuo.
 Negli USA il test riscosse molto successo e subì diversi riadattamenti
- Il più famoso fu ad opera di Terman, nel 1916, e prese il nome di scala Stanford–Binet perché
sviluppata appunto alla Stanford University. Venne introdotto il Quoziente di Intelligenza (Q.I.) per
la determinazione del quoziente intellettuale attraverso un rapporto tra età mentale ed età
cronologica.
- Kuhlmann (1912) riuscì ad estendere la scala verso i livelli inferiori (fino ai 3 mesi di età) gettando le
basi per lo sviluppo dei test di intelligenza prescolastici ed infantili.
 Negli anni seguenti questo tipo di reattivo venne progressivamente abbandonato a favore del test di
Wechsler-Bellevue, tutt’ora ampiamente diffuso a causa
- Di alcune difficoltà tecniche di natura statistica
- Degli scarsi risultati delle metodiche di questi test per l’infanzia applicate a soggetti in età adulta.

2. Guilford–test
 È basato sulla Teoria della Struttura dell’Intelletto che comprende fino a 150 abilità differenti
classificate su 3 fattori (Operazioni, Contenuti e Prodotti) ognuno con delle sotto dimensioni
 È uno dei numerosi reattivi sviluppati dallo studioso e dai sui collaboratori nell’ambito del ventennale
Aptitude Research Project.
6
 In analisi successive è stata identificata una difficoltà nell’applicazione di tecniche statistiche e
nell’individuazione di correlazioni positive ed è stato criticato a tal punto che ad oggi ha pochi
sostenitori.

3. Matrici Progressive o Test di Raven


 I risultati di questo reattivo dipendono, in misura minore rispetto altri test, dal fattore educativoè
divenuto lo strumento principe per la misura dell’efficienza intellettiva in ambito clinico o per la
valutazione del personale.
 Gli items sono costituiti da 6 o 8 disegni tra i quali scegliere per completare un modello presentato.
 Vi sono 3 differenti tipi di matrici, per diversi tipi di pazienti:
- CPM Matrici Progressive Colorate: 3 serie di 12 item; per bambini di età compresa fra i 3 e gli 11
anni; misurano il decadimento cognitivo in soggetti anziani; misurano l’intelligenza fluida; hanno un
ordine crescente di difficoltà degli item; calcolano il QI in tempi brevi; calcolano i punteggi per ogni
serie ed un punteggio totale, che fornisce il livello di prestazione complessivo.
- SPM Matrici Progressive Standard: 5 serie di 12 item, ciascuno idoneo alla fascia 6-65 anni
- APM Matrici Progressive Avanzate: costituita dalla serie 1 (per livelli particolarmente scadenti) e
Serie 2 (per livelli eccezionali)

4. Thurstone–test (1939)
 Thurstone, in opposizione a Spearman, non ammetteva il fattore generale, ma considerava la mente
umana come un insieme di attitudini specifiche che si potevano riunire in fattori di gruppo. Questi
fattori erano, a suo avviso, talmente specifici da poter essere considerati elementi base dei processi
mentali. Li ha quindi riuniti nella sua batteria, chiamata appunto “Primary Mental Abilities” (PMA) -
“Batteria delle attitudini mentali primarie” (AMP).
 Esse sono fondate sull’analisi fattoriale e sono differenziate per livelli di età.
 Presenta delle criticità per l’assenza di variabili rilevanti per l’ambito educativo e l’orientamento
(memoria e abilità percettiva su tutte).

5. Scala di intelligenza Wechsler-Bellevue (1939)


 Il concetto di QI è concepito come una scala standardizzata
 Si applica nell’ambito della valutazione e della diagnosi dell’intelligenza
 Il test è strutturato in modo diverso rispetto ai precedenti test di intelligenza:
- Non prevede, al contrario della scala Binet-Simon, prove diverse per le varie età, ma prove uguali
per tutti (graduate per difficoltà al loro interno) e valutate su un metro diverso in base all'età.
- Per quanto concerne la composizione, Wechsler parte da una definizione dell'intelligenza come
capacità globale di agire in modo finalizzato, di pensare razionalmente, di trattare efficacemente
con il proprio ambiente. Ogni componente dell'intelligenza è misurata separatamente da un sub-
test. Questo consente:
 Il confronto per ciascun sub-test (oltre che per il Q.I. complessivo) con il campione di
riferimento per età (confronto normativo);
 Il confronto fra le prestazioni dello stesso soggetto nei diversi sub-test, in modo da evidenziare i
punti di forza e di debolezza (confronto ipsativo) .
 La valutazione può essere suddivisa in
- Q.I. verbale: capacità di comprendere e di apprendere materiale verbale ed uso di queste capacità
nel ragionamento e nella risoluzione di problemi
- Q.I. di performance: efficienza ed integrità dell'organizzazione percettiva e costruttiva del
soggetto, comprese le abilità di elaborare materiale visivo, di utilizzare immagini visive nel pensiero
e di ragionare su basi non verbali.
- Q.I. totale: riassume globalmente la misurazione effettuata.

5.1.2. Ci fu una controversia fra psicologi inglesi ed americani circa il numero dei fattori dell’intelligenza

7
 Spearman: postulò l’esistenza di un fattore generale (fattore g) e, accanto ad esso, una serie di fattori
specifici (s1, s2, s3)
 Thurstone: non ammetteva il fattore generale, ma considerava la mente umana come un insieme di
attitudini specifiche che si potevano riunire in fattori di gruppo.
 Gardner: elabora la teoria delle intelligenze multiple, di tipo multifattoriale. Coesistono diverse forme
di intelligenza, tra loro relativamente indipendenti, ma non è possibile affermarne in maniera definitiva
la natura e il numero. Quelle meglio definite, e per questo più autonome anche ontologicamente, sono:
linguistica, logico-matematica e spaziale (le tre più note), musicale, corporeo-cinestesica,
interpersonale e intrapersonale (le quattro più innovative proposte dall'autore).

5.1.3. Strumenti non verbali della valutazione dell’intelligenza


Negli ultimi anni è cresciuto l’interesse per i test non verbali di intelligenza
 Per utenti con disabilità, BES, disturbi del linguaggio, deficit visivo, gravi disturbi emozionali.
 A causa del grande afflusso migratorio che rende difficile valutare il costrutto con prove a mediazione
verbale.
I test non verbali possono essere classificati in base:
 Al format di presentazione degli stimoli:
- Test di performance che usano per i loro compiti materiali concreti e richiedono che il soggetto
risponda in maniera non verbale, ma le istruzioni sono date oralmente (test di massima
performance);
- Test non linguistici che sono completamente non verbali sia nelle istruzioni, sia nei contenuti, sia
nelle risposte e valutano le abilità collegate al pensiero analogico (figure), alla formulazione di
categorie e al ragionamento sequenziale (ad es. Matrici di Raven)
 Alla complessità e al numero delle prove previste:
- Test unidimensionali sono brevi, composti da pochi subtest e tendono a sacrificare il grado di
accuratezza clinica in favore della rapidità e del risparmio di tempo. Prevedono esclusivamente
prove non verbali (solitamente matrici), che rappresentano un aspetto parziale delle molteplici
sfaccettature del costrutto: valutano alcune abilità cognitive ristrette trascurando la valutazione di
altre abilità importanti, come ad esempio la memoria. Si possono utilizzare per uno screening
iniziale.
- Test multidimensionali sono formati da più subtest, diversamente combinati tra loro e permettono
di ottenere diversi punteggi: di solito alcuni parziali e un punteggio globale. Hanno buone proprietà
psicometriche e sono spesso utilizzati per pianificare interventi educativi.
Svantaggi dei reattivi non verbali per la valutazione dell’intelligenza:
 Permanenza di un minimo di istruzione orale
 Livello di rappresentatività del costrutto misurato: questi test possono essere considerati stime
attendibili del costrutto g di Spearman o competenze cognitive non a mediazione verbale. Non è una
questione meramente semantica ma un problema teorico-concettuale rilevante. L’ipotesi che i processi
cognitivi siano in gran parte indipendenti dal linguaggio ha acquisito sempre più credito perché è stata
supportata dai risultati di alcuni studi di analisi fattoriale che non indicano una differenza fra verbale e
non-verbale.

I test non verbali si propongono di colmare il gap fra la lingua in cui viene somministrato il reattivo e la
lingua di appartenenza. Tuttavia hanno un bias di fondo, costituito dal fatto che linguaggio e cultura sono
solo parzialmente sovrapponibili: per costruire un test libero da influenze culturali non basta costruire
reattivi formati da prove non verbali, occorre costruire test che richiedano processi di pensiero tipici della
cultura di appartenenza. Negli ultimi 20 anni sono stati posti interrogativi riguardo alla capacità di misurare
l’intelligenza in modo trasversale alle varie culture: l’Army alpha e l’Army beta sono stati i primi test ad
andare in questa direzione. Il contenuto dell’Army Apha è simile alla scala di Binet (per i soggetti che
sapevano leggere), l’Army Beta era per i soggetti non capaci di leggere. Per l’Army Alpha esiste una
traduzione italiana, per il Beta no.

8
Classificazione delle diverse tipologie di reattivi secondo Murphy e Davidshofer
I reattivi possono essere immaginati come posti su un continuum: la valutazione dell’intelligenza può
essere:
Culture-free (o culture-fair): a prescindere dalle influenze culturali.
Culture-reduced/Cross-cultural: in contesti culturali diversi (si eliminano gli item eccessivamente collegati
ad aspetti socioculturali).
Non verbal: in soggetti che, per disabilità dovute a cause organiche o per caratteristiche dell’ambiente
socio-culturale di provenienza, non sono in grado di rispondere ad alcuni o a tutti gli stimoli non verbali.
Culture-specific/culture-related: in soggetti appartenenti ad un preciso e circoscritto ambiente
socioculturale. Il materiale-stimolo (verbale e non) è specificatamente organizzato e strutturato in funzione
di quest’ultimo. Un es. è il Black intelligence test of cultural homogeneity sample questions (BITCH), ad es, è
un test di vocabolario composto da espressioni afroamericane per i neri americani.

L'effetto Flynn definisce l’aumentare, nel corso degli anni, del valore del QI medio della popolazione.
Questo cambiamento rilevato in svariati paesi è stato considerato come indipendente dalla cultura di
appartenenza. L’aumento era più mercato nei test che misuravano l’intelligenza fluida rispetto a quella
cristallizzata. Questo fenomeno fu rilevato negli anni ’80 del 1900, si concentrò inizialmente sui Paesi
occidentali (crescita media di 3 punti per ogni decennio). La popolazione statunitense guadagnò 13 punti
dal 1938 al 1984. Il minimo era 5, il massimo 25 punti.
Le varie ipotesi che sono state formulate (tipologia di alimentazione, crescita degli anni di scolarizzazione,
maggior capacità di risolvere problemi logici-astratti) non hanno trovato una conferma decisiva.
Dagli anni 2000, in alcuni Paesi sviluppati, sembra che questa tendenza si stia invertendo, con valori medi di
QI inferiori rispetto a quelli rilevati anni prima; la tendenza dell’effetto Flynn persiste dove la media
nazionale del QI rimane bassa.

Un es. di test non verbale è il CTONI - Comprehensive Test Of Non-verbal lntelligence (D.D. Hammill, N.A.
Pearson, J.L. Wiederholt, 1996)
 Può essere somministrato a soggetti dai 6 ai 90 anni d’età.
 I principi che hanno guidato la costruzione dello strumento sono:
- Le istruzioni per il test dovrebbero essere date oralmente o tramite pantomima (gesti), in base a
quello che l'esaminatore ritiene sia il metodo più appropriato;
- Il test dovrebbe valutare 3 tipi di abilità intellettive: il pensiero analogico, la formulazione delle
categorie e il ragionamento sequenziale;
- Le abilità dovrebbero essere misurate in contesti aventi sia illustrazioni di oggetti sia figure
geometriche.
 Scoring e lettura dei risultati: il CTONI prevede il calcolo di 3 quozienti:
- Quoziente di Intelligenza Non Verbale (QINV). Si ottiene sommando i punteggi standard di tutti e 6
i subtest. Rappresenta la miglior valutazione del fattore globale g descritto da Spearman (1923), in
quanto rileva la situazione attuale basandosi su una vasta gamma di abilità non verbali, questo
perché rappresenta la combinazione di tre diverse abilità cognitive (ragionamento analogico,
classificazione per categorie, ragionamento sequenziale), tutte valutate in due contesti diversi.
- Quoziente di Intelligenza Non Verbale con Illustrazioni di Oggetti (QINV-IO): Si ottiene sommando
i punteggi standard dei 3 subtest che misurano le abilità non verbali in un contesto che si serve di
illustrazioni di oggetti. Il QINV-IO è l'indice delle abilità di soluzione di problemi e di ragionamento e
si ottiene servendosi di disegni di oggetti familiari.
- Quoziente di Intelligenza Non Verbale con Figure Geometriche (QINVFG): Si ottiene sommando i
punteggi standard dei 3 subtest che misurano le abilità non verbali in un contesto che usa figure
geometriche. Il QINV-FG è l'indice dell'abilità di soluzione di problemi e di ragionamento e si ottiene
basandosi su disegni di figure non familiari di cui gli esaminandi non conoscono il nome. Per questa
ragione, la probabilità dell'uso di forme verbali è alquanto limitata.
 È composto da 6 subtest che devono essere presentati nel seguente ordine:

9
1. Analogie di illustrazioni (subtest 1) e Analogie di figure geometriche (subtest 2); senza fare un uso
manifesto di parole, si richiede che il soggetto sia in grado di capire la relazione "Questo sta a
quello (le due caselle superiori della matrice) come questo sta a ... cosa (le due caselle inferiori)?".
L'esaminando risponde indicando uno degli item da scegliere (alternative a risposta multipla) e da
inserire nella casella vuota.
2. Categorie di illustrazioni (subtest 3) e Categorie di figure geometriche (subtest 4); senza usare il
linguaggio, l’ esaminando deve intuire il nesso esistente tra le due figure-stimolo superiori e
scegliere, tra gli item proposti, quello che appartiene alla stessa categoria. L'esaminando deve
stabilire quale, tra questi, sia connesso a quelli.
3. Sequenze di illustrazioni (subtest 5) e Sequenze di figure geometriche (subtest 6); il clinico
mostra una serie di caselle ognuna delle quali contiene illustrazioni diverse, ma legate tra loro da un
nesso sequenziale; l'ultima casella è vuota. Il soggetto indica tra una serie di item (scelta multipla)
quello corretto per completare la serie progressiva. Senza usare parole, l'esaminando deve
decidere quale sia la regola alla base della progressività delle illustrazioni.
Ogni subtest prevede 25 item. La sola modalità di risposta accettata è quella per cui l’esaminando
sceglie all'interno di alternative proposte la risposta corretta e la indica. Non sono richieste né
ammesse risposte verbali, scritte o che prevedono una qualche forma di manipolazione del materiale
più complessa e articolata.
 Il tempo previsto per la somministrazione dell'intera batteria varia tra i 40 e i 60 minuti. Non esiste un
limite di durata obbligatorio, ma i singoli subtest richiedono raramente più di 5-10 minuti di tempo per
essere somministrati. È prevista una somministrazione soltanto individuale.
 Caratteristiche psicometriche
- Mostra un buon livello di attendibilità, che si mantiene considerevolmente alto nei confronti delle
3 fonti di errore considerate:
 Campionatura del contenuto del test sia rispetto alla popolazione generale che per sottogruppi
e minoranze etniche.
 Campionatura dei tempi (coefficienti del test-retest superiori a .80)
 Concordanza tra esaminatori (indici di concordanza variabili tra .95 e .99).
- La validità di costrutto è stata valutata secondo la procedura che prevede la formulazione di ipotesi
teoriche accertate tramite metodi logici o empirici (confronto fra la corrispondenza di correlazione
fra costrutti similari o opposti)
- Validità di criterio: Gli studi che hanno messo in correlazione lo strumento con altri test criteriali (la
WISC-III; il TONI-2: Test of Nonverbal Intelligence di L. Brown et al. e il PPVT-R: Peabody Picture
Vocabulary test-Revised di L.M. Dunn et al.) forniscono solo un moderato supporto rispetto alla
validità concorrente del test: paradossalmente, i tre punteggi del CTONI sembrano correlare di più
con i QI verbali della WISC-III (.59, .56 e .76) che con i QI di performance (.51, .55 e .70).

5.2. Test per la misurazione di singole abilità


5.2.1 Test attitudinali
 Sono particolarmente utilizzati nel contesto psicologico del lavoro e dell’educazione.
 Colmano le lacune rilevanti nei test d’intelligenza riguardo le attitudini specifiche legate principalmente
ad abilità pratiche e concrete (attitudine meccanica, attitudine musicale, etc.).
 La maggioranza dei test per la misurazione della velocità, del coordinamento e delle altre
caratteristiche delle reazioni motorie sono basati su apparecchiature, ma per la somministrazione
collettiva sono stati progettati numerosi adattamenti “carta e matita”.
 Vi fanno riferimento anche i test legati alla capacità visiva/uditiva, la destrezza motoria o addirittura il
talento artistico:
- Labirinti di Porteus, test di Elithorn, Torre di Londra: per capacità di pianificazione;
- Test di cancellazione e di cancellazione di cifre: per la misurazione dell’attenzione selettiva;
- La scala di Oseretzki e Movement ABC: per l’attività motoria;
- City university colour test, le prove di Nagel, le Tavole di Ishihara: per la capacità di distinguere i
colori;
10
Per quanto riguarda gli strumenti a disposizione dei temi afferenti alla Psicologia del lavoro è utile citare:
1. Il General Clerical Test, GCT (P. Saville, J. Hare, L. Finlayson, S. Bleinkhorn)
 È un test utile per la misurazione delle attitudini più richieste per i lavori d'ufficio, come velocità e
precisione.
 È utile per la selezione o l’orientamento del personale di livello medio/medio alto
 È composto da tre sub-test:
- Il sub-test clerical fondato sulla velocità e precisione nell'eseguire due compiti impiegatizi di
routine: l'attitudine a controllare nomi e numeri accuratamente, l'abilità di classificare
correttamente e rapidamente materiali.
- Il sub-test numerical raggruppa alcune prestazioni a base di conteggi.
- Il sub-test verbal misura la conoscenza della lingua (comprendere concetti espressi verbalmente e
le loro relazioni, conoscenza di aspetti fondamentali della lingua italiana concernenti l'ortografia e
la sintassi).

2. Test di Orientamento Motivazionale - TOM (Borgogni, Petitta e Barbaranelli, 2004)


 È un questionario self-report con l’obiettivo di comprendere i fattori principali che spingono una
persona a mettere in atto un’azione, a raggiungere una meta, a mantenere un impegno nel tempo.
 Si propone di misurare i motivi che orientano il comportamento organizzativo in quattro diverse
direzioni: all’obiettivo, all’innovazione, alla leadership e alla relazione.
 Lo scopo è individuare le situazioni lavorative che consentono alla persona di dare il meglio di sé.
 Si sviluppa a partire dalle principali teorie della motivazione:
- Le teorie dei bisogni di Maslow, Alderfer, e McClelland che fanno riferimento a specifici bisogni
fisici o psicologici, il soddisfacimento dei quali è fondamentale per il benessere e la sopravvivenza;
- Le teorie del valore di Atkinson, Adams, e McClelland che prendono in considerazione ciò che
l’individuo vuole o desidera piuttosto che ciò che è necessario per sopravvivere
- Le teorie dell’obiettivo, per le quali gli obiettivi rappresentano qualcosa di importante per la
persona ma sono più specifici nel contenuto rispetto ai valori, perché circoscrivono la meta ed
indirizzano più finemente il comportamento.
- Per questo reattivo si preferisce però la teoria di McClelland che costituisce un avanzamento delle
precedenti proponendo una definizione più precisa riguardo alle differenze individuali.

3. I Differential Aptitude Tests - DAT (G. K. Bennet, H. C. Seashore, A. G. Wesman, 1954)


 Si sviluppa a partire dalla riflessione che ad uno stesso livello di abilità mentale generale possono
corrispondere diverse attitudini specifiche, e che ciò implichi per la selezione del personale la necessità
di un reattivo con punteggi multipli in grado di rappresentare le diverse caratteristiche.
 Al contrario del TOM, questo reattivo è indipendente dalle conoscenze legate alle materie scolastiche. I
sub-test sono:
- Ragionamento meccanico: valuta la comprensione dei principi fondamentali della fisica; è utile per
la selezione verso impieghi connessi alla fabbricazione e riparazione (ingegneria, elettrotecnica, uso
di macchinari);
- Velocità e precisione: valuta la velocità di risposta in un’attività di percezione semplice; è utile per
la selezione verso impieghi d’ufficio per i quali è richiesta attenzione, velocità, precisione;
- Ragionamento astratto: valuta l’abilità di percepire relazioni fra le figure astratte e di giungere ad
una generalizzazione; è utile per la selezione verso qualsiasi professione;
- Ragionamento numerico: valuta l’abilità nello svolgimento di compiti che prevedono il
ragionamento matematico; è utile per la selezione verso professioni tecnico-scientifiche,
amministrative, di contabilità;
- Ragionamento verbale: valuta la capacità di comprendere concetti legati alla parola; è utile per la
selezione verso professioni dell’area commerciale, giuridica, educativa, giornalistica, scientifica.

11
- Rapporti spaziali: valuta l’abilità nel visualizzare un oggetto tridimensionale a partire dalla
rotazione di un modello bidimensionale; è utile per la selezione verso professioni tecniche, legate
alla progettazione e al design, all’architettura, alla moda;
- Uso del linguaggio: valuta l’abilità nel rilevare errori di grammatica, punteggiatura e sintassi

4. Reattivo di Ragionamento (P. Rennes)


 L’obiettivo è la valutazione dell’elasticità mentale dei candidati; questo reattivo mira a verificare
l’abilità di adattamento a nuovi problemi e situazioni (anche imprevisti) che possono verificarsi in un
ambiente di lavoro.
 Si basa su diversi tipi di prove: serie di lettere, serie di numeri, analogie verbali, prove di vocabolario.

5.2.2. Test oggettivi di profitto


 Gli item sono espressi in modo da provocare una risposta rigidamente predeterminata (esatta, errata,
astensione). Presentano un alto livello di:
- rappresentatività: in un arco di tempo relativamente breve si possono presentare più quesiti di una
qualunque prova
- omogeneità: le stesse domande sono poste nello stesso momento a tutti gli studenti
 Possono essere classificati come
- Informali (sono utilizzati solo all’interno dell’ambito in cui sono stati somministrati e quindi non c’è
bisogno di standardizzarli) o standardizzati
- Iniziali (per verificare le competenze prima di iniziare un nuovo corso), diagnostici (per verificare le
lacune), formativi (per formare i soggetti), sommativi (per ottenere una visione d’insieme della
preparazione dei soggetti)
- Di rango (per realizzare una gerarchia della classe sulla base dei punteggi ottenuti)
 Limitazioni: non consentono di misurare i processi cognitivi; misurano solo alcuni aspetti
dell’apprendimento; limitano il dialogo tra studenti e docenti; le risposte possono essere casuali; la
preparazione della prova richiede tempo.
 Vantaggi: si sottopongono gli stessi elementi di prova per ogni soggetto; eliminazione dell’influenza
dell’espressione; oggettività nella correzione; campione esteso
 Tipologie di item: vero/falso (le frasi non devono essere ambigue, il concetto deve essere chiaro); a
scelta multipla (si abbassa il fattore caso; usare con cautela la dizione “nessuno dei precedenti”); a
corrispondenza (ogni elemento della prima lista va accoppiato con un elemento della seconda;
aumentare il numero di coppie per ridurre le risposte casuali); a completamento (per ogni spazio deve
esistere una sola risposta corretta); a risposta aperta (la valutazione è difficilmente oggettiva);
comprensione della lettura (brani adeguati alla competenza da verificare).

5.2.3. Test clinico–diagnostici


 La psicologia clinica si avvale di quasi tutti i test citati precedentemente poiché gli psicologi che
operano in questo contesto necessitano di stabilire se il disordine di un individuo è di tipo funzionale o
di tipo organico, e per questo necessitano di informazioni derivanti da fonti diverse e non solo quelle
ricavate dai colloqui o dalle anamnesi. Ciò ha 2 ricadute importanti:
- Anche reattivi con capacità psicometriche non accertate o insufficienti possono essere utilizzati;
- Neppure i reattivi con un alto grado di attendibilità e validità sono sufficienti da soli per una
diagnosi.

Tra questi vi sono:


 Il test Visual Motor Bender Gestalt, noto come Bender-Gestalt test, è sostanzialmente un test di
riproduzione a memoria di disegni ideato per la misurazione delle funzioni visuo-percettive e visuo-
costruttive. La denominazione deriva dall’origine dei disegni selezionati da Bender, elaborati in modo
da illustrare specifici principi della psicologia della forma (Gestalt).
 Il test di Goldstein, deriva dagli studi sulle ripercussioni del danno celebrale sul comportamento dei
soldati della prima guerra mondiale, ed è tutt’ora applicato ai cerebrolesi; nella versione Goldstein-
12
Scheerer (test dei cubi, o il test dei bastoncini) valuta il pensiero astratto. I reattivi hanno scarso valore
di affidabilità ma hanno una utilità per l’interpretazione delle osservazioni di carattere qualitativo
riguardo alla funzione compromessa nei celebrolesi dell’”attitudine all’astrazione”.
 Il test di memoria visiva di Benton è utile per la valutazione dello stato di compromissione delle funzioni
psichiche dei bambini e degli adolescenti.

6. Test non cognitivi: test di personalità


Misurano caratteristiche emotive, atteggiamenti ed interessi, o anche comportamento interpersonale,
atteggiamenti e dispositivi proiettivi; vi ricadono in pratica tutti i caratteri latenti non intellettivi della
personalità. Si prefiggono di esplorare la personalità
 Nella sua globalità
 In qualche sua dimensione, come i test di dominanza–sottomissione o quelli di introversione–
estroversione, allo scopo di riferirla ad una classificazione o ad una tipologia.
A differenza dei test cognitivi, l’interpretazione dei dati avviene mediante un’interpretazione non solo
quantitativa ma anche qualitativa.
Si distinguono due grandi categorie: i test obiettivi sono costruiti su principi omologhi ai test di rendimento,
quindi con prove o domande le cui risposte vengono dapprima quantitativamente conteggiate e poi
qualitativamente valutate
I test proiettivi
 Pongono il soggetto di fronte ad una situazione ambigua a cui egli risponderà attribuendovi un proprio
significato; sono idonei all’indagine dei processi inconsci.
 Il termine “proiettivo” fa riferimento al meccanismo della proiezione illustrato dalla psicoanalisi, in cui il
soggetto espelle da sé e localizza nell’altro, persona o cosa, qualità, sentimenti, desideri che egli non
riconosce o rifiuta in sé. Nelle tecniche proiettive il termine “proiezione” viene usato in un’accezione
più ampia e si riferisce alla modalità con cui il soggetto organizza le proprie esperienze, proiettando in
un materiale non strutturato la struttura della sua personalità.
 Le caratteristiche principali di questo tipo di test sono: l’ambiguità dello stimolo fornito; la molteplicità
delle risposte possibili, non sottoposte al giudizio vero/falso, giusto/sbagliato; l’interpretazione della
prova che, a differenza delle tecniche psicometriche, non esclude un rapporto interpersonale con
l’esaminatore.
 Il vantaggio è che il soggetto può rispondere in maniera libera, gli svantaggi sono l’interpretazione e il
rapporto con l’esaminatore che potrebbero introdurre una distorsione.

Per “tratto” si intende un'invariabile predisposizione a comportarsi in un determinato modo. Esso può
essere definito come un continuum, lungo il quale si collocano i soggetti, che se ne differenziano per il
grado e non per la presenza o assenza del tratto. Vi sono due tipi di tratti: quelli superficiali, inferiti dai
comportamenti, e quelli originari, inferiti dalla correlazione dei vari tratti superficiali

6. I test obiettivi: MMPI, Questionario Cattel 16 PF, Eysenck Personality Inventory, Edwards Personal
Preference Schedule, Big five questionnaire.
1. Inventario Multifasico di Personalità del Minnesota - MMPI (Minnesota Multiphasic Personality
Inventory) “inventario” in questo caso indica un questionario descrittivo
 Parte dal presupposto che la personalità di un individuo è definita come un insieme relativamente
stabile e distintivo di comportamenti, pensieri e sentimenti che lo caratterizzano ed influenzano le sue
relazioni con l’ambiente.
 È il più diffuso test di personalità.
 Si compone di 13 scale che valutano, tra l’altro, la depressione, la schizofrenia, la femminilità-
mascolinità, la tendenza a dare un’immagine favorevole di sé (scala L).
 Prende in esame i tratti patologici della personalità mediante il confronto tra le risposte dei soggetti
esaminati e quelle dei pazienti affetti da diversi tipi di disturbi mentali. Si fonda quindi sull’analisi dei
sintomi e dei comportamenti patologici.

13
 Ha 3 obiettivi principali: il raggiungimento di una campionatura di comportamenti significativa per lo
psichiatra; massimizzare la facilità di presentazione attraverso la semplificazione linguistica; creazione
di un repertorio di items molto ampio per estendere il ventaglio di descrizioni di personalità valide (più
di mille nella versione originale).
 Il MMPI e successive revisioni (MMPI-2 con nuove scale e aggiornamento dei contenuti) controlla la
presenza di distorsioni attraverso una serie di items (raggruppabili nella scala L) in grado di intercettare
e mettere in luce le tendenze dei partecipanti a esagerare gli aspetti positivi della propria personalità o
viceversa quelli negativi. Diversamente in altre versioni sono previsti items cosiddetti “ovvi”, perché
connessi semanticamente in modo ovvio alle variabili di interesse, e quesiti più “sottili” di controllo.
 I motivi della revisione (da MMPI a MMPI-2):
- Adeguatezza del campione di standardizzazione originale: il campione normativo di soggetti
frequentava un ospedale del Minnesota per cui era di etnia caucasica bianca. Non aveva quindi
rappresentatività per la popolazione generale americana e l’utilizzo del test per le minoranze
culturali creava una distorsione significativa dei risultati.
- Linguaggio e i riferimenti contenuti negli item: erano presenti riferimenti religiosi e familiari tipici
dell’etnica caucasica bianca, e in alcuni casi il linguaggio non era immediatamente comprensibile
per coloro che non appartenevano a questa cultura.
- Esigua numerosità del set originale degli item: oggi sono 567
 Gli obiettivi della revisione sono stati
- La sostituzione di item obsoleti, offensivi e di difficile comprensione
- L’ottenimento di dati normativi più recenti e fondati su un campione che fosse rappresentativo
della popolazione degli Stati Uniti
- Il mantenimento della continuità con le scale cliniche e di validità originali

2. Questionario Cattell test 16 PF


 È un inventario di personalità fondato sulla misurazione di 16 dimensioni identificate mediante l’analisi
fattoriale

3. EPI (Eysenck Personality Inventory)


 È stato strutturato sulla base della teoria della personalità elaborata da Eysenck.
 La prima versione del reattivo (Maudsley Personality Inventory MPI) proposto da Eysenck prevedeva
tre fattori: Estraversione-Introversione, Neuroticismo, Psicoticismo.
 Nella versione rivista e denominata EPI si aggiunse alle tre precedenti una scala L come per il test MMPI
e una validità e affidabilità più robusti dovuti ad una revisione degli items, ma la teoria fondante è
sempre la stessa.
 Vi è poi una successiva versione (tuttora utilizzata): l’Eysenck Personality Questionnaire (1975) che si
discosta solo per la scala di misura dell’Estroversione definibile come “estroversione sociale”, più vicina
all’impostazione di Guilford. Le intercorrelazioni tra le scale appaiono ancora più forti in questa terza
edizione, mentre l’attendibilità e la validità fattoriale è stata verificata con repliche su molti campioni
diversi.

4. EPPS (Edwards Personal Preference Schedule) (1953)


 È fondato sulla teoria dei bisogni psicologici di Murray
 Per ridurre gli effetti di desiderabilità sociali vi sono 210 coppie di affermazioni tra cui sceglierne una.
 Indaga 15 bisogni quali autonomia, ordine, esibizione, aiuto, dominanza, umiliazione, eterosessualità,
cambiamento etc.

5. Big Five Questionnaire, BFQ (o Five-Factor Model, FFM) di Costa e McCrae


 Le basi teoriche si fondano su:
- L'approccio fattoriale elaborato da Hans Eysenck: identifica le dimensioni caratterizzanti e le
differenze individuali attraverso analisi statistiche di tipo fattoriale, due fattori (Nevroticismo ed
Estroversione) sono quelli già utilizzati dallo studioso nel 1983.
14
- La teoria della sedimentazione linguistica sviluppata da Cattel: considera il vocabolario della lingua
quotidiana come un serbatoio di descrittori delle differenze individuali.
 I vantaggi principali sono:
- L’economicità e la praticità, ed infatti quando fu somministrato per la prima volta in Inghilterra nel
1990 i partecipanti restarono sorpresi e anche un po’ scettici rispetto alla velocità della profilazione
della personalità (solo circa 10 minuti).
- L’ampia generalizzabilità, riscontrata attraverso l’applicazione in contesti con lingue e culture
diverse
- La possibilità di individuare altre dimensione derivanti dall’integrazione con ulteriori paradigmi.
“Le cinque dimensioni dei Big Five quindi rappresentano strutture latenti a cui poter ricondurre
ogni spiegazione e descrizione dell’individuo poiché si riferiscono alle modalità stabili utilizzate
dalla persona per interagire con gli altri e con l’ambiente, alla regolazione dell’umore e alla attività
conoscitiva”
 I fattori sono: Apertura mentale, Coscienziosità, Energia, Amicalità, Stabilità emotiva.
 Ognuno di questi fattori presenta due sottodimensioni; le affermazioni legate ad ogni sottodimensione
sono formulate per metà in senso positivo e per metà in senso negativo, con l’obiettivo di controllare
eventuali risposte date in modo causale
- Sottodimensioni Apertura Mentale
 Apertura alla cultura: misura la voglia di sapere, l'interesse per la letteratura, l'arte, l'amore per
la conoscenza.
 Apertura all'esperienza: misura la predisposizione degli individui verso la novità, il considerare
le cose attraverso sfaccettature diverse, essere aperti nei confronti di valori, espressioni, modi
di vita e culture diverse.
- Sottodimensioni Coscienziosità
 Scrupolosità: valuta l'essere meticolosi, la cura di ogni dettaglio, l'amore dell'ordine
 Perseveranza: valuta la costanza nell’impegno e la persistenza
- Sottodimensioni Energia
 Dinamismo: valuta aspetti che riguardano comportamenti energici e dinamici, la facilità di
parola e l'entusiasmo, caratteristiche che a livello interpersonale giocano un ruolo importante;
 Dominanza: misura caratteristiche di personalità come la voglia di prevalere sull'altro, di
eccellere, di emergere sugli altri, mettendo in evidenza più l'aspetto negativo dell'essere attivi
- Sottodimensioni Amicalità
 Cooperatività/empatia: misura la capacità di collaborazione e l’essere in grado di venire
incontro alle necessità e agli stati di bisogno altrui;
 Cordialità/atteggiamento amichevole: misura l'essere amichevoli nei confronti degli altri,
l'espansività e l'ottimismo.
- Sottodimensioni Stabilità emotiva:
 Controllo delle emozioni: valuta la capacità di controllare la tensione
 Controllo degli impulsi: valuta la capacità di mantenere il controllo del proprio comportamento
 In totale il BFQ consta di 132 item, 24 per ognuno dei 5 fattori e 12 per ciascuna coppia di
sottodimensioni.
 È presente anche una scala L = Lie (12 item), per monitorare la tendenza del partecipante a restituire un
profilo personale falsamente "positivo" o "negativo". È formata da item che fanno riferimento a
comportamenti socialmente molto desiderabili, elaborati in modo che la risposta di completo accordo o
di completo disaccordo risulti altamente inverosimile (“sono sempre andato d’accordo con tutti”; “non
ho mai detto una bugia”). In presenza di punteggi elevati si possono attuare due differenti strategie:
ponderare i risultati, apportando delle correzioni ai punteggi ottenuti, oppure, nel caso in cui la
simulazione superi un determinato punto critico, procedendo all’eliminazione "d’ufficio" del soggetto,
perché inattendibile.
 La risposta agli item del BFQ avviene posizionandosi su una scala Likert a 5 passi (da "assolutamente
vero per me" ad "assolutamente falso per me").

15
 Per quanto concerne le proprietà psicometriche, il BFQ può essere somministrato a persone di normale
intelligenza e cultura ed è stato standardizzato su 2035 individui di entrambi i sessi.

6.2. I test proiettivi


1. Test di Rorschach
 È probabilmente il test proiettivo più utilizzato
 Prese spunto dal suggerimento di Binet circa l’opportunità di utilizzare le macchie di inchiostro per
analizzare la personalità.
 Parte dall’ipotesi che le risposte verbali fornite dal soggetto a dieci macchie accidentali e simmetriche
suggestive, forniscano un quadro della struttura di personalità del rispondente.
 A differenza del TAT, il reattivo di Rorschach non è stato ideato in riferimento ad una determinata
teoria della personalità, ma si è sviluppato ed è stato promosso come metodo esplorativo per studiare
la relazione tra percezione e personalità a partire dall'osservazione empirica che i pazienti schizofrenici
apparivano percepire le macchie in modo molto differente dai soggetti non clinici.
 I tratti di personalità che possono essere colti possono essere classificati in base a tre dimensioni:
aspetti cognitivi o intellettuali; aspetti affettivi o emotivi; aspetti del funzionamento dell'Ego.
 Le informazioni che il test è in grado fornire devono però integrarsi con altre informazioni derivanti da
strumenti differenti.

2. Il Test di appercezione tematica - TAT (Thematic Apperception Test)


 Rappresenta, dopo il Rorschach, il test proiettivo più impiegato per l’analisi globale della personalità.
 Secondo Murray il soggetto, nel creare il racconto sulla base di uno stimolo poco definito o ambiguo,
esprimerebbe bisogni, fantasie, conflitti, atteggiamenti caratteristici della sua personalità.
 È costituito da tavole in bianco e nero (più una bianca), di significato ambiguo, in cui compaiono uno o
più personaggi. Vi sono 11 tavole uguali per tutti i soggetti e 20 specifiche in funzione dell’età
(maggiore o minore dei 14 anni) e del sesso del soggetto.
 Ad ogni soggetto vengono presentate in sequenza le tavole (per ultima quella bianca) invitandolo a
costruire per ciascuna una storia.
 Il metodo di analisi richiede la padronanza della teoria psicodinamica di Murray.
 Per quel che riguarda l'attendibilità:
- Vi sono dubbi sulla confrontabilità di risposte stimolate da somministratori diversi poiché diversi
studi hanno messo in evidenza che anche la sola presenza del somministratore produce variazioni
fino ad inibire la produzione di contenuti ad alto valore emotivo
- Non può essere verificata attraverso i criteri di omogeneità interna.
 Per quel che concerne la validità, è stato analizzato il rapporto tra comportamento e fantasie espresse
nelle storie, mettendo in discussione il fatto che sia un rapporto lineare diretto.

3. Test di Appercezione tematica per Bambini, CAT (Children Apperception Test)


 È stato elaborato da Bellak (1957)
 È costituito da 10 tavole raffiguranti varie scene con animali, a partire dalle quali il bambino è chiamato
ad inventare delle storie.
 Consente di portare alla luce i tratti latenti relativi all’aggressività, all’angoscia derivante dalla
solitudine, alla propria accettazione da parte degli adulti.

4. Tecnica delle relazioni oggettuali, ORT (Object Relations Technique)


 È stato elaborato da Phillipson (1990)
 Si è sviluppato a partire dal TAT, infatti è costituito da 13 tavole su cui inventare dei racconti, tuttavia i
presupposti teorici alla base sono diversi.
 I presupposti teorici della tecnica delle relazioni oggettuali fanno riferimento ai processi dinamici con i
quali il soggetto esprime le forze consce e inconsce che caratterizzano l’interazione col suo ambiente.

16
5. Blacky Pictures test
 È stato ideato da Gerald Blum (1949) per convalidare sperimentalmente i concetti principali della teoria
freudiana classica (conflitti psichici, meccanismi di difesa, sviluppo psicosessuale).
 È costituito da 11 tavole e i destinatari sono bambini dai 6 agli 11 anni, ma anche adulti.
 Come nel CAT, i personaggi sono animali antropomorfizzati per evitare che le figure umani causino
processi d’inibizione in quanto eccessivamente familiari: Blacky, un cagnolino nero, e la sua famiglia
composta da madre, padre e Tippy, una figura fraterna di età e sesso imprecisati.
 La tavola 1, ad es., racconta “Blacky con mamma” e propone una situazione duale che rievoca i
problemi di dipendenza primaria nella situazione di allattamento; dovrebbe mobilitare risposte che
indichino teoria della pulsione come erotismo orale e presenza e qualità della simbiosi come lettura
relazionale.
 La somministrazione prevede 3 momenti:
- Racconto spontaneo del soggetto dopo ogni tavola presentata dall’esaminatore. La presentazione
delle tavole è preceduta da una breve descrizione iniziale. Per ciascuna tavola v’è una breve frase
(“qui Blacky osserva mamma e papà”).
- Momento dell’inchiesta: una serie di domande strutturate a risposta multipla dopo la
presentazione di ogni tavola a seguito del racconto spontaneo al fine di indagare gli stati d’animo
che il soggetto attribuisce ai suoi personaggi. Ad es. nella tavola 4 le domande possono essere:
“Cosa prova Blacky nel vederli amoreggiare?” “Perché?” “Cosa rende infelice Blacky?”
- Preferenze per le vignette: categorizzazione delle tavole in due gruppi a seconda del gradimento
del soggetto (quelle che piacciono di più o di meno)per analizzare l’inconscio e poter verificare se
la preferenza indicata sia più o meno discrepante con i racconti spontanei e le risposte alle
domande precedentemente formulate.
 Le critiche sono state molteplici:
- Le azioni ordinarie sono rappresentate in modo strano e quasi grottesco, ad es. Blacky mastica lo
spago (dovrebbe rappresentare il sadismo orale), Blacky arrabbiato guarda la madre e il padre
tenersi per mano (inizio del complesso di Edipo).
- Debolezze “generali” dei reattivi proiettivi: gli studi hanno cercato di indagare la validità di
contenuto (quanto gli item riflettano il costrutto che il test vorrebbe valutare) e l’appropriatezza
delle deduzioni a partire dal punteggio del test, senza trovare risultati soddisfacenti. V’è una
possibilità di interpretazioni plurime delle risposte del soggetto ed una contaminazione tra i
risultati del test ed informazioni acquisite da altri fonti (il somministratore può inquinare il
risultato).

6. Metodo delle piccole favole o storie


 È stato elaborato da Düss (1957) come rapido metodo di indagine sostitutivo dell’interrogatorio
psicoanalitico diretto del bambino.
 Lo sperimentatore inizia una favola, nella quale il protagonista si trova in una specificata situazione che
rimanda ad uno dei diversi stadi dello sviluppo psicosessuale (stadio orale, anale, edipico, ecc.)
 Il modo in cui il bambino conclude tale favola serve per individuare rapidamente eventuali conflitti e il
loro grado di gravità e può, nel caso, costituire un punto di partenza per un intervento psicoterapico.
 L'analisi delle risposte date dal soggetto richiede agli esaminatori una conoscenza profonda del modello
psicoanalitico ed una certa padronanza della tecnica dell'interrogatorio psicoanalitico.

Esistono numerosi altri reattivi proiettivi, classificabili a partire dalle tecniche impiegate per la loro
strutturazione:
 Produttive: questi reattivi, che favoriscono risposte non verbali, sono basati sulla produzione di disegni
come meccanismo per facilitare l’espressione di contenuti altamente emotivi e per attenuare
l’eventuale ansia che ne deriva. Oltre alla oltre alla produzione “libera” del disegno, prevedono il
disegno della figura umana, della famiglia, di oggetti di familiari, e il completamento di disegni come
schermi su cui proiettare il proprio vissuto, le tendenze del proprio inconscio e la percezione di sé. I
limiti sono costituiti dal basso grado di validità e affidabilità.
17
 Ludiche: non utilizzate per il trattamento terapeutico del bambino, riguardano il trattamento
attraverso il gioco e l’esplorazione della personalità;
 Rifrattive: basate sull’impiego di un mezzo convenzionale di comunicazione (ad es. la scrittura) per
rivelare la personalità del soggetto analizzando le distorsioni che quest’ultimo provoca sull’attività di
comunicazione stessa;
 Costruttive: il materiale è già definito per forma e grandezza, spetta al soggetto costruire un modello
che possieda significato compiuto e che sappia esprimere i suoi bisogni (ad es. il test del mosaico di
Lowenfeld e il test del villaggio di Arthus);
 Costitutive: in cui partendo da elementi non strutturati il soggetto stesso definisce la struttura.

MODULO 2 – AMBITI DI APPLICAZIONE DEI REATTIVI PSICOLOGICI

Processo di pianificazione della ricerca


Fasi
 Si pone una domanda di ricerca che può essere
- Esplorativa (pilota, descrittiva/conoscitiva, aperta, open-ended)
- Di conferma (test di ipotesi o di modelli teorici)
 Per individuare la letteratura pertinente è possibile utilizzare diversi database: ciononostante, spesso i
professionisti si accorgono delle problematiche, ad es. nell’applicazione di un certo modello, in modo
più accurato di un ricercatore che osserva la realtà in modo asettico, senza esservi calato.
 Il processo di pianificazione è iterativo: grazie al brainstorming con i colleghi si fanno proposte
attraverso diverse bozze.
 In generale, la ricerca dovrebbe essere guidata dalle domande, si dovrebbero rendere le procedure
adatte alle domande, piuttosto che il contrario.

Le domande aperte e orientate alle scoperte sono in genere le più appropriate nelle seguenti circostanze:
 Quando un'area di ricerca è relativamente nuova o poco conosciuta (ad es. neuroni specchio)
rendendo difficile o prematuro porre domande più specifiche.
 Quando un'area di ricerca è confusa, contraddittoria o non sta producendo progressi significativi (la
psicoterapia di gruppo è più efficace di quella individuale?) Questo può essere dovuto a una domanda
mal posta.
 Quando l'argomento è un evento, processo o esperienza umana molto complesso, che richiede una
definizione o descrizione accurata.
Riguardo ad uno stesso contesto si possono porre domande diverse
Se il contesto è “recupero dopo l’alcolismo” si possono porre domande
 Ipotetico-deduttive e confermative: il primo mese di sobrietà è più difficile del sesto?
 Induttive e orientate alle esperienze: come evolve l’esperienza di sobrietà nei primi 6 mesi?
Se il contesto è “indossare il cerotto per la nicotina” si possono porre domande
 Ipotetico-deduttive e confermative: indossare il cerotto transdermico per la nicotina riduce il crave, nel
momento in cui il fumatore è esposto ad un suggerimento al fumo (vedere qualcuno che accende una
sigaretta)?
 Induttive e orientate alle esperienze: qual è l’esperienza di indossare il cerotto (incluse emozioni,
cognizioni, percezioni)?
Dalle domande di ricerca derivano le strutture dei costrutti, e da essi si individuano i comportamenti
osservabili connessi a tali costrutti.
Se stiamo analizzando come la bassa autostima influisca sul desiderio di sentirsi superiori e da questo vi sia
un atteggiamento negativo verso le minoranze stiamo cercando di spiegare la relazione teorica fra costrutti
che riguarda una domanda iniziale dello psicologo, il quale spera di dimostrare la relazione fra due
comportamenti osservabili (aver ricevuto un’educazione autoritaria e comportamento discriminatorio
verso i membri di gruppi etnici minoritari)
18
La deriva da evitare è quella dello schiacciamento della psicologia tra neuroscienze e big data
Neuroscienze: spiegano ogni azione umana in termini di funzioni del cervello, appiattiscono il ruolo della
mente all’interno delle nostre scelte, sensazioni, emozioni. Ciò che va evitata è la neuromania, la
prospettiva seducente di poter ancorare i comportamenti psicologici ad elementi materiali. Alcune
tendenze classicamente oggetto di studio da parte delle scienze sociali (scelte di consumo, preferenze
politiche) vengono spiegate sulla base di particolari aree del cervello. Secondo alcuni neurobiologi sono già
predeterminati, in base ad alcune caratteristiche cerebrali, la religione, il livello di aggressività,
l’orientamento sessuale.
Bauman, nella sua “Modernità liquida” dice che l’oggetto della sociologia è l’esperienza umana e che i
tedeschi nella loro lingua hanno due termini per specificare l’esperienza personale: qualcosa che mi è
successo (può essere descritto dall’esterno in termini oggettivi) e qualcosa che ho vissuto (non può essere
descritto dall’esterno perché ha le sue radici nei racconti, nei pensieri, nei sentimenti dei soggetti); qui si
dovrebbero fermare le neuroscienze, lasciando il posto alle scienze umane.
Analisi dei big data: i big data sono enormi database contenenti informazioni su milioni di soggetti raccolte
attraverso social media, piattaforme di ricerca (google), piattaforme di acquisti online (amazon). Essi
presuppongono la possibilità di rendere computabile qualsiasi trend sociale (spiegare cambiamenti di
opinioni, prevedere crisi finanziarie). La computational personality recognition si pone l’obiettivo di
ricostruire la personalità analizzando le conversazioni online, partendo da alcuni postulati (chi utilizza molta
punteggiatura e/o parole formate da molte sillabe ha un basso tasso di estroversione); questo approccio si
presta a molte critiche, anche semplicemente perché ciò che viene pubblicato dalla maggioranza dei
soggetti sui social media rappresenta un indicatore della rappresentazione di sé, di come vorremmo
apparire agli altri, non di come siamo. Sempre secondo queste tendenze, sarebbe possibile prevedere le
ondate di influenza basate sulle ricerche dei sintomi effettuate sui motori di ricerca come google; tuttavia,
google registra le nostre paure più che le nostre malattie.

Ricerca documentale
Una volta compreso qual è il problema di cui vogliamo occuparci, dobbiamo sviluppare la domanda di
ricerca. Ci viene in aiuto la ricerca documentale, dobbiamo produrre il rapporto di fattibilità della ricerca
raccogliendo gli elementi della letteratura prodotta sino a quel momento su quell’argomento. Aiuta a
comprendere gli approcci degli altri studiosi e consente di informarsi sui risultati di ricerca similari.
Il pericolo è quello della “infoalluvione”, avere troppe informazioni senza saper scegliere quelle rilevanti; è
diventato ancora più grave con l’avvento di internet. Per evitarlo, bisogna conoscere le migliori fonti di
informazioni (fonti documentali di base); ve ne sono 3
 General references (indici generali): indicano dove cercare per localizzare altre risorse – articoli,
monografie, volumi e altri documenti – che trattano la domanda di ricerca.
Current index to Journals in Psychology, The Thesaurus of Psychological Index Terms, Psychological
Abstract. Oggi ci sono PubMed, PsychInfo
 Fonte primaria: pubblicazioni nelle quali i ricercatori riportano i risultati dei loro studi direttamente ai
lettori.
Journal of Research in Psychology, Addiction, Child Development
 Fonti secondarie: pubblicazioni in cui l’autore descrive gli studi e la produzione di altri ricercatori.
Metanalisi (forniscono un ulteriore livello di analisi delle evidenze scientifiche), ricerche sistematiche,
annuari, enciclopedie.

Passi nella ricerca documentale:


1. Definire il problema di ricerca nel modo più preciso possibile
2. Consultare le fonti secondarie più rilevanti
3. Selezionare e leggere accuratamente uno o due testi con indici generali
4. Formulare una ricerca dei termini (keywords/parole chiave) pertinenti al problema di interesse
5. Ricercare gli indici generali per fonti primarie rilevanti
6. Ottenere e leggere fonti primarie rilevanti, e riassumere i punti fondamentali delle stesse

19
Indicizzatori online
Indicizzano gruppi di siti internet insieme attraverso categorie di similitudine; sono, ad es. Hotbot.com,
Lii.org Librarian’ Index to the internet, Dmoz.org Open Directory project, Webcrawler.com
Le problematiche legate alla ricerca nel WWW (attraverso google): disorganizzazione (non si sa se
quell’articolo è il più importante), tempi più lunghi, mancanza di credibilità e valore incerto (spesso non c’è
peer review), violazioni etiche

Fonti principali per l’individuazione dei test


Database ETS
La collezione di test dell'ETS è un database di oltre 25.000 test e altri strumenti di misura, la maggior parte
dei quali sono stati creati da autori esterni all'ETS. Mette a disposizione di ricercatori, studenti laureati e
docenti informazioni sui test e gli strumenti di ricerca standardizzati. Con informazioni sui test dall'inizio del
1900 ad oggi, la collezione di test dell' ETS è la più grande raccolta di tali materiali al mondo.
https://www.ets.org/test_link/about/

Inter-Nomological Network – INN


La Rete Inter-Nomologica è un'applicazione integrata di sviluppo teorico che mira a ridurre la ridondanza
della ricerca nel campo delle scienze comportamentali. Al contrario di ETS non richiede l’utilizzo di parole
chiave specifiche, permette di usare il linguaggio naturale e restituisce risultati di ricerca semanticamente
correlati alla query (domanda) dell'utente. Per una spiegazione approfondita, si può consultare il video
introduttivo sulla homepage.
http://inn.theorizeit.org/

Measurement Instrument Database for the Social Sciences - MIDSS


La Banca dati degli strumenti di misurazione per le scienze sociali è un sito progettato per essere un
deposito di strumenti che vengono utilizzati per raccogliere dati da tutte le scienze sociali (ad es. autismo,
salute, dolore).
http://www.midss.org/about-us

Al termine della consultazione delle fonti si costruisce il Rapporto sulla ricerca in letteratura (10 pagine
circa)
 Introduzione: breve descrizione della natura del problema di ricerca
 Il corpo del rapporto: fonti primarie di informazionibreve disamina delle risultanze dell’analisi delle
opinioni di altri ricercatori sul problema di ricerca. Ricerche simili sono trattate di solito insieme e
raggruppate in sottotitoli.
 Il sommario del rapporto: lega insieme i maggiori elementi messi in evidenza dalla revisione della
letteratura proponendo una visione personale, critica, sistematica dei contenuti selezionati.
 Teoria e Ipotesi: riassumere in breve il modello concettuale (teorie) di riferimento e rappresentarlo con
le ipotesi prescelte.
- Iniziare supportando l’ipotesi alternativa H1 (ipotesi di ricerca) e definendola formalmente. La
proposta deve includere una logica causale forte e basata sulla letteratura.
- In seguito descrivere H2, H3, etc. e se si hanno delle sub-ipotesi, elencarle come H1a, H1b, H2a,
H2b, etc.
 Conclusione: il sentimento di ricerca dello studioso si giustifica sulla base delle risultanze dello stato
dell’arte della conoscenza su quel problema/argomento. Si includono gli elementi che potrebbero
guidare la ricerca successiva secondo quanto trovato in letteratura
 Bibliografia: di tutte le fonti menzionate, in base al tipo di fonti

Si deve poi strutturare il rapporto di fattibilità della ricerca, che riprende alcune parti del rapporto sulla
ricerca in letteratura ma è più sintetico; va in seguito condiviso con il supervisore (l’esperto di fiducia). A tal

20
proposito non si deve compiere l’errore di tipo 3, che riguarda la formulazione di domande di ricerca non
significative; è un errore teorico che influenza la causalità dei risultati della ricerca.
[Tipo 1: rifiutare l’ipotesi nulla che è vera; Tipo 2: accettare l’ipotesi nulla che è falsa]
Si può usare uno schema per punti rispondendo ad alcune domande:
 Qual è il problema che state cercando di risolvere? (Se non c'è nessun problema, di solito non c'è
bisogno di ricerca).
 Perché si tratta di un problema importante (e non solo interessante) attuale o imminente? (cioè, i
vecchi problemi non devono essere riaffrontati se non sono più una fonte di criticità).
 Chi altro ha affrontato questo problema? (Molto raramente la risposta è: "nessuno". Siate creativi.
Qualcuno avrà studiato qualcosa in relazione a questo problema, anche se non è esattamente lo stesso.
Questo richiede una revisione ragionata.)
 In che modo gli sforzi compiuti in precedenza da altri sono incompleti? (cioè, se altri hanno già
affrontato il problema, cosa resta da studiare - quali sono le "lacune"?)
 Come intendete colmare queste lacune nelle ricerche precedenti? (è un problema di disegno della
ricerca, sono stati usati sempre metodi osservazionali e vogliamo proporre un quasi esperimento, o di
metodologia perché sono stati sempre usati approcci costruttivisti e vogliamo affrontarlo dal punto di
vista cognitivo-comportamentale)
 Perché si tratta di un approccio adeguato?
 Qual è la vostra popolazione target per lo studio di questo problema? (Dove e quando raccoglierai i
dati?)
 Come raccoglierai i dati che desideri? (dal punto di vista quantitativo e qualitativo)
Per quanto concerne la revisione della letteratura
 Definire le variabili dipendenti e descrivere come sono state studiate nel contesto più ampio di
riferimento (psicologia dello sviluppo, del lavoro, clinica)
 Se si basa il modello su una teoria/framework esistente, dedicare parte iniziale del documento per
spiegare tale teoria (massimo 1 pagina, ripresa dal rapporto sulla ricerca in letteratura) e poi spiegare
come si è adattata la teoria allo studio. Se non si basa il modello su una teoria/modello esistente,
dedicare parte iniziale del documento per spiegare come la letteratura esistente nel proprio campo ha
cercato di prevedere le variabili dipendenti VDi o ha cercato di affrontare le relative domande di
ricerca.
Se opportuno per lo studio specifico: spiegare quali altri costrutti si sospetta parteciperanno a prevedere
le VDi e perché. L'inclusione di un costrutto dovrebbe avere un buon supporto logico-teorico e/o di
letteratura. Per esempio, "stiamo includendo il costrutto XYZ perché la teoria su cui stiamo basando il
nostro modello lo include". Oppure, "includiamo il costrutto XYZ perché la logica seguente (abc) ci costringe
a includere questa variabile per non essere imprudenti". Cercate di elaborare questa parte senza ripetere
tutto quello che si è già discusso nella parte teorica, elaborando un punto di vista osservazionale-
comportamentale.
Facoltativamente, discutere brevemente le variabili di controllo e il motivo per cui vengono incluse.

Come si struttura un articolo di ricerca quantitativa (modello APA)


 Titolo: qualcosa di accattivante (dato che la pubblicazione di articoli è di tipo massivo è necessario
avere qualche caratteristica in più che catturi il lettore) ed accurato (evitare parole inutili, ad es. “uno
studio su”)
 Ordine degli autori che hanno scritto l’articolo. Nel caso di una metanalisi, anche l’ultimo nome può
essere rilevante perché spesso è il coordinatore del gruppo.
 Abstract (riassunto conciso – 150-250 parole – per spiegare l’articolo): più o meno una frase per
sintetizzare:
- La problematica
- La rilevanza del problema
- Il modo in cui è stato affrontato (metodo)
- I risultati
- L’impatto pratico
21
- Parole chiave/Keywords (4-10 parole chiave che catturino il contenuto dello studio)
 Introduzione: va esposta la problematica centrale e perché è significativa? (2-4 pagine)
- Cosa è stato fatto da altri studiosi precedentemente riguardo questa domanda di ricerca (o
problema) e perché i loro sforzi sono stati insufficienti (qual è l’elemento mancante, il gap, nella
letteratura)? (1-massimo 2 paragrafinon con il titolo, quando si va a capo con l’invio per far
comprendere che si sta cambiando argomento)
- Quali sono le VI selezionate e qual è il contesto di analisi prescelto?
- Definire brevemente tutte le VD (1-2 paragrafi)
- Una frase sul campione (es. "377 studenti iscritti all’università nel 2017 che sono lavoratori").
- Come studiare queste VI in questo contesto affronta in modo adeguato il problema? (1 paragrafo)
- Su quali teorie esistenti si fa affidamento, se presenti, per implementare questo studio e perché
sono appropriate? (1-2 paragrafi)
- Discutere brevemente i contributi primari dello studio in termini generali senza discutere i risultati
specifici (es. non riportare p-value in questo punto)
- Com’è organizzato il resto dell’articolo/paper? (1 paragrafo)
 Metodo: indicare brevemente la metodologia, vi sono molti approcci
- Operazionalizzazione del costrutto (da dove e come si sono ottenute le misure?)
- Sviluppo dello strumento (se avete creato le vostre misure)
- Spiegazione del disegno dello studio (es., pretest-posttest, studio di caso, progetto pilota,
sondaggio online etc.)
- Campionamento (alcune statistiche descrittive demografiche come genere, età, istruzione, status
economico, ecc.), dimensione del campione, metodo di selezione; discutere il tasso di risposta
(numero di risposte in percentuale del numero di persone invitate a fare lo studio). Ricordare che è
stato concesso il nulla osta dal Consiglio di revisione istituzionale (ad es. università) in modo che sia
assicurata l’eticità dello studio.
Metodo per la verifica delle ipotesi (es., modello di equazioni strutturali in AMOS, confronti fra
medie, correlazioni).
- Se sono stati condotti confronti multi-gruppo si usa ANOVA
- Se sono state condotte mediazione e/o interazione, spiegare chiaramente come sono stati tenuti
sotto controllo e come si sono svolte le analisi. Ad es., se si è svolta una mediazione, l’approccio
può essere il bootstrapping: metodo per rendere più robusto il proprio risultato
- Descrivere se sono stati testati più modelli o se sono state mantenute tutte le variabili per tutte le
analisi
 Analisi: 1-3 pagine; talvolta in combinazione con la sezione metodi
- Pulizia dei dati (Data Screening)
- EFA (riportare la cosiddetta matrice pattern o dei profili e l'alfa di Cronbach in appendice) - indicare
se degli items sono stati eliminati.
- CFA (basta menzionare che è stata svolta e sollevare eventuali problemi che avete trovato) - citare
tutti gli elementi eliminati durante la CFA. Riferire il modello adatto per il modello di misurazione
finale. Se necessario, il materiale di supporto può essere inserito nelle appendici.
- Menzionare l’approccio del Common Method Bias (CMB - inteso come lo scostamento tra la
relazione vera e quella osservata tra due costrutti dovuto alla Common Method Variance), i risultati
ottenuti, e le azioni prese (es., se abbiamo trovato CMB e abbiamo dovuto tenere il modello CLF).
 Discussione (2-5 pagine): Riassumere brevemente lo studio, il suo intento e i risultati, concentrandosi
principalmente sulle domande di ricerca (un paragrafo breve).
 Risultati (1-2 pagine): Riportare i risultati per ogni ipotesi (supportata o meno, con prove). Evidenziare
eventuali ipotesi non supportate o controprove (significative in senso opposto). Fornire una tabella che
riassuma sinteticamente i risultati ottenuti.
 Conclusioni (1-2 paragrafi): riassumere le conoscenze acquisite da questo studio e il modo in cui
affrontano le lacune o i problemi esistenti. Spiegare il contributo principale dello studio. Esprimere le
direzioni di ricerca futura e come questo lavoro influenzerà il mondo reale. Discutere i limiti del lavoro e
cosa si può suggerire per il futuro per evitarli.
22
 Bibliografia/References: utilizzare un gestore di riferimenti bibliografici come Zotero o EndNote
 Appendice (qualsiasi informazione aggiuntiva, come lo strumento completo e il modello di misurazione,
necessaria per convalidare o comprendere o chiarire il contenuto del testo del corpo principale. Non
imbottire le appendici con tabelle statistiche non necessarie e modelli statistici illeggibili. Tutto ciò che
è contenuto nell'appendice dovrebbe aggiungere valore al manoscritto. Se non aggiunge valore,
rimuoverlo.

I test psicologici sono usati per misurare variabili


 Psicologiche: intelligenza, introversione-estroversione
 Sociologiche: leadership, devianza minorile
 Psicobiologiche: risposta galvanica cutanea, cambiamento nella resistenza elettrica della pelle che si
verifica in presenza di un forte stimolo emozionale, ad es. paura improvvisa o burden
 Variabili come il successo scolastico

9 Ambiti di applicazione dei reattivi psicologici: diagnosi clinica e terapia; orientamento e counseling
scolastico; contesto sanitario e psicologia della salute; prevenzione e screening psicopatologico a sostegno
del benessere; diagnostica clinica e forense; neuropsicologia clinica; psicologia del lavoro e selezione del
personale; psicologia del consumatore e del marketing; pianificazione educativo-didattica.

1. Diagnosi clinica e terapia


I test psicologici sono utilizzati dal clinico principalmente in tre situazioni:
1) Per indentificare il disturbo di cui soffre il paziente e per stabilire il tipo di trattamento da implementare,
decidendo ad es. se sia sufficiente un'azione sui sintomi oppure se sia preferibile una terapia del profondo.
In alcuni casi i test suggeriscono la necessità di ulteriori esami medici per formulare meglio la diagnosi, ad
es. le malattie della tiroide possono causare sintomi uguali a quelli della depressione.
2) Partendo dalla consapevolezza che il paziente è caratterizzato da unicità e complessità psicologica, per
raccogliere informazioni aggiuntive sui "fattori di rischio" e sui "fattori protettivi". Alcune terapie possono
rivelarsi dannose, ad es. alcune tecniche analitiche possono essere iatrogene per certe patologie.
3) Per la valutazione degli interventi.

2. Orientamento e counseling scolastico


Il professionista aiuta gli studenti a divenire consapevoli
 Delle proprie problematiche e delle strategie per raggiungere una soluzione efficace;
 Dei propri bisogni, interessi, motivazioni, aspirazioni culturali e professionali.

3. Contesto sanitario e di psicologia della salute


I professionisti aiutano gli individui a fronteggiare un’ampia selezione di problematiche in collaborazione
con l’istituzione ospedaliera o con le comunità di supporto (ad es. diagnosi di cancro).
I test offrono un aiuto per la diagnosi laddove il paziente soffra di alti livelli di depressione o ansia.

4. Prevenzione e screening psicopatologico a sostegno del benessere


I progetti di screening finalizzati alla prevenzione in specifiche fasce di popolazione a rischio assicurano
vantaggi per i singoli cittadini ma anche per i sistemi di welfare (riduzione della spesa per le cure).
La prevenzione si attua a livello primario (per evitare che la patologia insorga) e/o secondario (per ridurre i
danni in chi presenta già la patologia).

5. Diagnostica clinica forense


Il professionista viene chiamato
 Per valutare ad es. l’affidamento dei minori o il loro maltrattamento
 Quando il giudice vuole vare informazioni su un individuo prima del giudizio, riguardanti il suo livello
intellettivo, la sua suggestionabilità, la capacità di sostenere un processo, la sua condizione psichica
(presenza di depressione, psicosi, PTSD, ADHD).
23
6. Neuropsicologia clinica
I reattivi vengono impiegati per
 Localizzare il danno cerebrale
 I suoi effetti sul corpo, sulle funzioni sociali o sullo stato emozionale
 Le migliori terapie riabilitative

7. Psicologia del lavoro e selezione del personale

 Lo psicologo effettua uno screening attraverso i test collettivi, ad es. nei concorsi con numerosissimi
candidati, per escludere quelli che non hanno determinate caratteristiche funzionali al lavoro da
svolgere.
 Gli In-basket test sono usati per selezionare candidati per posizioni amministrative e dirigenziali e si
basano sulla presentazione di un problema ipotetico da risolvere mediante l’uso di appunti, di rapporti,
di lettere che si trovano in un canestro (basket). [Non si dimostrano validi per apprezzare tratti generali
di personalità]

8. Psicologia del consumatore e del marketing


I test collettivi o i questionari psicosociali indagano
 Lo studio del comportamento del consumatore, ovvero i processi che avvengono quando gli individui
acquistano prodotti o esperienze che soddisfano i loro bisogni
 Le opinioni e le motivazioni dei consumatori

9. Pianificazione educativo-didattica
Il ruolo dello psicologo è duplice:
 Mette a disposizione dei reattivi che, in caso di difficoltà di apprendimento, valutano le criticità e le
migliori modalità di recupero. Gli strumenti di assessment disponibili ad oggi riguardano il profitto in
generale o specifiche aree di difficoltà come ad es. la comprensione, la velocità e l’accuratezza della
lettura;
 Partecipa alla costruzione degli strumenti di valutazione di caratteristiche cognitive (capacità logiche,
mnestiche, percettive) e non cognitive (controllo dell’ansia da esame, processi di controllo e
autoregolazione).

Cenni storici
 Vi sono molteplici classificazioni
- Sono stati individuati quattro filoni principali: la tradizione clinica francese, quella nomotetica
tedesca, quella ideografica britannica e la tradizione empirica/applicata americana
- La storia della psicometria può essere suddivisa in due ere:
 Classica: dal 1879 in cui Wundt fondò questa disciplina, fino al 1945 con i contributi del suo
allievo Spearman
 Moderna: dopo il 1945, grazie ai contributi di Eysenck e Hamilton che svilupparono gli archetipi
dei questionari e delle scale di valutazione
 Altri esperti hanno evidenziato l’importanza della psicofisica e di scienziati delle scienze naturali come
Fechner e Gauss che presentò la teoria degli errori di osservazioni introducendo una distribuzione
statistica divenuta successivamente famosa e denominata “Distribuzione Gaussiana”.
Le origini e i pionieri
 Esquirol elaborò per primo le bozze di infermità mentale ed applicò metodi statistici elementari nelle
sue descrizioni, in particolare con tabelle per categorie causali. In più distinse tra malattia mentale e
ritardo/deficit mentale, propose di impiegare la capacità di linguaggio del paziente come discriminante
del grado di deficit mentale del soggetto.
 Fechner derivò la legge della psicofisica a partire da una scoperta del fisiologo e anatomista Weber: il
rapporto fra uno stimolo di intensità R e la variazione di tale stimolo ΔR è costante (K). La legge di
24
Weber-Fechner fu un tentativo di emancipazione della psicologia dalla filosofia, spingendola nell'alveo
delle scienze sociali. I suoi studi, inoltre, rappresentarono il primo fondamento della psicofisica, intesa
come punto di incontro fra la psicologia quantitativa e la fisica quantitativa.
 Wundt: istituì a Lipsia il primo laboratorio per studiare i fenomeni psicologici e permise alla psicologia di
distaccarsi dalla filosofia e di acquisire una prima base sistematica che consentì in seguito l’avvio della
sperimentazione. Si possono identificare 4 fattori riguardo l’apporto di Wundt:
- Il passaggio dall’approccio speculativo-filosofico a quello empirico basato sulla quantificazione, che
implica l’ampliamento della ricerca sistematica dall’ambito “clinico” alla gamma dei comportamenti
ritenuti normali, al di là di quelli ritenuti devianti o patologici al tempo.
- L’enfasi posta sulla misurazione delle funzioni sensoriali, intesa come differenza di sensibilità alle
varie modalità di stimolazione: misura delle differenze nella percezione del dolore, nel tempo si
reazione, nella variabilità della discriminazione del peso.
- La sottovalutazione dell’importanza della standardizzazione delle procedure e delle condizioni
sperimentali dovute ad una eccessiva fiducia nella complessa strumentazione predisposta per la
misurazione. Naturalmente la necessità di esporre tutti i soggetti agli stessi stimoli, con le stesse
istruzioni e assegnazione del punteggio secondo norme standardizzate non era così sentita o
centrale come allo stato attuale.
- Concentrazione dell’attività di ricerca nell’ambito accademico, in pratica essendo Wundt professore
universitario il ruolo dello psicologo era relegato alla sfera del ricercatore, mentre per gli aspetti di
intervento pratico lo sviluppo procedeva molto lentamente. Fra l’altro contribuì anche alla
creazione del corso di dottorato afferente a questo ambito.
 Ebbinghaus: allievo di Wundt, fece importanti studi sulla memoria con tuttavia scarso rigore
metodologico (era contemporaneamente soggetto e sperimentatore).
 Galton: era convinto che il genio intellettuale fosse un carattere ereditario; dato che raccolse
informazioni relative a più di 10.000 soggetti, dovette sviluppare delle procedure statistiche per
sintetizzare le informazioni. Osservò che la distribuzione dei dati assume la forma classica campanulare
detta “curva normale”. Ideò il diagramma di dispersione come rappresentazione grafica dei dati.

Nella modernità
 Cattel: allievo di Wundt, fu il fautore dell’effettiva fusione tra la psicologia sperimentale e
l’implementazione della somministrazione dei test psicologici
 Thurstone: elaborò un modello multidimensionale dell’intelligenza (7 abilità primarie). Fondò la Società
di Psicometria. Formalizzò la Scala Thurstone (o intervallata). [Il termine anglosassone scaling è
traducibile in italiano sia per indicare lo strumento sia per indicare il risultato della misurazione, quindi
non corrisponde direttamente al termine “scala”]. Le fasi costitutive di questa scala sono:
- La predisposizione di una lista numerosa di “frasi stimolo” e/o quesiti (items) con risposte
dicotomiche (si/no)
- Reclutamento di un gruppo sufficientemente numeroso di giudici che ordinano gli items precedenti
in base alla connotazione positiva o negativa nei confronti del fenomeno d’interesse, con
metodologie diverse:
 Metodo del confronto a coppie
 Metodo dell’ordinamento secondo il rango
 Metodo degli intervalli apparentemente uguali
- Si calcolano media e dispersione degli items (valutati dai giudici con un punteggio da 1 ad 11,
estremo favore-estremo sfavore, sulla base del valore attribuito alla frase: favorevole o sfavorevole
riguardo all’argomento.)
- I quesiti vengono selezionati scegliendo tra quelli che presentano una classificazione con
dispersione accettabile, ovvero quelli per cui c’è concordanza di giudizio da parte dei giudici; per
coprire l’intera gamma di valutazione la selezione deve prevedere un congruo numero di
affermazioni (da 10 a 20 almeno).
 Spearman: usò per primo l’analisi fattoriale per l’interpretazione di dati psicologici. Il suo campo di
interesse era l’intelligenza e la costruzione di strumenti che potessero rilevarla. Fu il rappresentante più
25
autorevole del filone teorico legato all’unidimensionalità, elaborando un fattore unico generale (fattore
g) sebbene fosse consapevole della presenza di ulteriori dimensioni (fattori s) valide per la risoluzione di
compiti specifici.
 Eysenk: era interessato alla valutazione della validità dei test psicologici utilizzati nella psichiatria
clinica. Limitava le modalità di risposta al tipo dicotomico “si/no” per semplificare l’analisi statistica
successiva.

Il DSM
 Secondo le indicazioni degli autori e dell'APA, dovrebbe costruirsi intorno ai seguenti cardini
fondamentali:
- Nosografico: classificazione delle malattie attraverso i quadri sintomatologici;
- Ateorico: non si basa su nessun tipo di approccio teorico
- Assiale: raggruppa i disturbi su 5 assi
- Su basi statistiche: i concetti di moda, media, mediana, frequenza, varianza vengono utilizzati per
valutare la presenza o meno di un disturbo
 Critiche
- È soggetto a fattori culturali (l’omosessualità era considerata patologica ed era classificata nel DSM,
in seguito si è parlato di omosessualità egodistonica quando il soggetto desidera diventare
eterosessuale)
- La critica principale riguarda la definizione dei cut-off, ovvero del criterio soglia di ogni categoria del
DSM. Si diagnostica un disturbo mentale ad una persona con 3 delle caratteristiche richieste (al pari
di chi le presenta tutte e 7) e “a scapito” di chi ne possiede solo 2.
- Sembra rispondere più ad esigenze epidemiologiche piuttosto che ai bisogni dei clinici

MODULO 3/4 – TCT, IRT E CAUSALITÁ NELLA RICERCA SCIENTIFICA; DISEGNI DI RICERCA

1. Metodo induttivo e falsificazionista


Metodo induttivo: a seguito di una regolarità di osservazioni, prevedo un certo fenomeno. È un approccio
limitato, perché è sufficiente un solo caso in cui la regolarità che ho osservato non si verifichi per avere una
teoria scientifica falsificata. Non permette quindi di verificare empiricamente un’ipotesi. Ad es. il cigno
aveva come caratteristica fondamentale il colore bianco, finché non è stato scoperto in Australia il cigno
nero.
Metodo falsificazionista: dato che non si può verificare l’ipotesi sperimentale, si cerca di falsificare l’ipotesi
opposta, quella nulla. Se la probabilità che HO sia vera è bassa, allora posso accettare H1 come vera.
Se volessi dimostrare che un contesto familiare altamente negativo (ad es. genitori in carcere) influisce sul
comportamento criminale del figlio, affidandomi al metodo induttivo non potrei dimostrare nulla perché
basterebbe una famiglia nella quale questa situazione non si verifica per mettere in discussione la mia
teoria dell’influenza sociale sul comportamento. Se invece testo l’ipotesi nulla (per la quale non v’è
relazione fra contesto critico e maggior devianza degli appartenenti a quella famiglia) e riesco a rigettarla,
posso accettare l’ipotesi alternativa ed affermare che suddetta relazione esiste.

Relazioni fra variabili


Covariazione e causazione
Covariazione (correlazione: è la covariazione standardizzata): riguarda l’osservazione empirica perché la
tendenza di due variabili a variare in modo concomitante è direttamente osservabile.
Causazione: riguarda il modello teorico perché la causalità non è direttamente osservabile. Implica:
 La direzionalità (o asimmetria) nella relazione: la variazione della V.I. X prevede quella della V.D. Y

26
 Il legame diretto tra le due variabili, nel senso che il variare di Y è dovuto (e non solamente associato) al
variare di X.

Modelli di relazione fra variabili: il modello è una rappresentazione grafica, efficace, sintetica rispetto
alla realtà, in cui si tengono in considerazione alcune variabili.
1. Relazione causale diretta: un cambiamento in X produce (senza mediazione) un cambiamento in Y. Ad es.
n° di ore di studio (X) e voto all’esame (Y)

2. Relazione causale reciproca: variazioni in una variabile producono variazioni nell’altra, le quali producono
variazioni nella prima variabile. Ad es. ansia da prestazione e fallimenti

3. Relazione causale spuria: X e Y sono effetti della variabile causa Z (variabile di controllo). Se Z viene
eliminata, la relazione fra X e Y cessa d’esistere. Ad es. n° di pagine di un progetto (X); voto ottenuto (Y);
qualità del progetto (Z)

4. Relazione causale indiretta (mediata): Fra X ed Y si frappone una variabile mediatore che agisce da ponte,
mediando il legame causale.
Ad es. etnia (X); condizione sociale, possibilità economiche, livello educativo (mediatori); quoziente
intellettivo (Y)
La variabile di mediazione deve essere di natura influenzabile/modificabile, ad es. l’età non è per
definizione influenzabile, al contrario dei processi mentali.

5. Relazione causale condizionata (moderata)


La relazione fra X ed Y dipende dal livello assunto dal moderatore Z. Ad es.
 Il fattore di rischio maltrattamento influenza l’outcome esternalizzazione soprattutto per i maschi
(moderatore)
27
 L’essere anziano (X); livello di cultura (Z); ascolto della musica classica (Y)

Direzionalità della relazione causale


Non è per forza determinata dalle variabili in gioco. Poche variabili sono di per loro indipendenti ,
antecedenti (genere, età, nazionalità); per il resto è il ricercatore che, sulla base del modello logico scelto,
attribuisce il ruolo di V.D. o V.I. Questo è un motivo ulteriore per il quale la causalità avviene a livello
teorico e non dipende dal tipo analisi statistica attuata o dal tipo di variabile presa in considerazione.
Ad es. le tre variabili training, self-efficacy e performance possono essere combinate in modi diversi in
modelli logici alternativi, uno di questi è “self-efficacy media la relazione fra training e performance”.

 Correlazione e regressione
Correlazione: esistono vari coefficienti in funzione della natura delle variabili e delle dimensioni del
campione.
 Rho di Spearman (o coefficiente di correlazione per ranghi): utilizzato quando
- La dimensione del campione è ridotta
- Le due variabili sono di tipo ordinale
 Coefficiente punto biseriale: utilizzato con variabili realmente dicotomiche (maschio-femmina)
 Coefficiente tetracorico: utilizzato quando
- Entrambe le variabili sono: rese arbitrariamente dicotomiche (alto o basso per quanto concerne il
reddito); connesse in modo lineare; ciascuna delle corrispettive distribuzioni è normale.
- La dimensione del campione è molto grande (almeno 300 soggetti)
 Coefficiente r di Pearson: quando entrambe le variabili sono metriche. Varia da -1 a +1
- Se r = ± 1  relazione lineare perfetta (positiva o negativa)
- Se r = 0  assenza di relazione lineare
- Se r si avvicina a -1relazione negativa
- Se r si avvicina a +1 relazione positiva

r=

Standardizzando questa formula, otteniamo


∑𝑍𝑥𝑍𝑦
𝑟=
𝑛
𝑥−𝑀
Dove 𝑍𝑥 = 𝑆

Il punto di partenza, in presenza di due variabili metriche, è la loro rappresentazione grafica, attuabile
mediante il diagramma di dispersione (scatterplot, o nuvola di punti)

28
Il punto di partenza è il diagramma cartesiano. In ascissa (X) poniamo la V.I., ad es. età. In ordinata (Y)
poniamo la V.D., ad es. peso.
Disegnando le posizioni dei soggetti otteniamo una serie di punti dispersi sull'asse cartesiano (nuvola di
punti). Se questa nuvola di punti esprime una relazione lineare (ovvero rappresentabile e sintetizzabile con
una retta) si può usare il coefficiente di correlazione per indicare il grado di associazione fra le variabili.
[Il fatto che non vi sia una relazione lineare fra le variabili non significa che non vi sia relazione, ad es. vi
sono relazioni di tipo curvilineo]
La correlazione non esprime causazione; possiamo utilizzarla per predire i livelli della V.I. conoscendo quelli
della V.D.

Le relazioni lineari fra variabili possono essere positive e negative


Relazione lineare positiva: all’aumentare dei valori di una variabile aumentano anche quelli dell’altra e
viceversa (al diminuire dei valori di una variabile, diminuiscono anche quelli dell’altra). Ad es.
 Relazione fra apporto calorico del cibo e peso corporeo: all’aumentare dell’apporto calorico, aumenta il
peso.
 Relazione fra numero di emicranie e quantità di zucchero consumata per giorno: al diminuire della
quantità di zucchero, diminuisce il numero di emicranie.

Relazione lineare negativa: all’aumentare dei valori di una variabile, i valori dell’altra diminuiscono. Ad es.
 Relazione fra esperienza nel parlare in pubblico ed ansia: all’aumentare dell’esperienza, l’ansia
decresce.
 Relazione fra addestramento del cucciolo e danni provocati dal cucciolo in casa: maggiore è
l’addestramento, minori saranno i danni.
29
Relazione curvilinea
La relazione fra le variabili è positiva (all’aumentare dell’una aumenta anche l’altra) fino ad un punto in cui
si inverte e diviene negativa (all’aumentare dell’una l’altra decresce).
Ad es.
 Relazione fra ansia e performance: a bassi livelli di ansia corrispondono bassi livelli di performance; se
l’ansia aumenta, aumenta anche la performance e ad un certo punto, quando l’ansia continua ad
aumentare le performance cominciano a diminuire.
 Relazione fra performance dei giocatori di basket e rumore della tifoseria: le performance aumentano
quando il rumore aumenta da un livello basso sino ad un livello moderato, ad un certo punto
diminuiscono se il rumore diviene eccessivamente elevato.

Coefficiente di determinazione e di alienazione


 Il coefficiente di correlazione non veicola un’informazione fondamentale, ovvero quanta variabilità
condividono le due variabili. Questo dato è fornito dal coefficiente di determinazione r2. Può essere
interpretato in questo modo: un coefficiente di correlazione di 0,5 non significa che la metà della
variabilità di Y è spiegata dalla sua relazione lineare con X poiché la correlazione perfetta è uguale a 1.
Una correlazione di 0,5 corrisponde ad un coefficiente di determinazione R2 uguale a 0,25, ovvero un
quarto della variabilità di Y è spiegato dalla sua relazione lineare con X.
 Il valore 1-r2 (coefficiente di alienazione) indica invece la proporzione di variabilità di X e Y non spiegata
dalla loro relazione lineare.

Regressione: gli indicatori devono essere formativi e quindi non devono correlare tra di loro. A differenza
dei metodi di correlazione (nei quali ci limitiamo a definire la relazione fra due variabili)
• Permette di verificare le ipotesi causali

30
• Permette di predire la variabilità di una V.D. usando le informazioni di una o più V.I.
• Permette di predire i valori sconosciuti della V.D. (Y) mediante la conoscenza dei corrispondenti valori
della V.I. (X)

4. Disegno di ricerca
 Organizzazione temporale e spaziale di una ricerca al fine di aumentare i controlli e la sua validità.
 Costituisce la struttura di una ricerca, cioè la sua pianificazione e la progettazione
- in particolare per ciò che riguarda
o La somministrazione del trattamento e la manipolazione della V.I. (trattamento, farmaco,
terapia, formazione)
o La rilevazione dei suoi effetti sulla V.D
- ma anche per ciò che concerne: l’organizzazione temporale, l'estrazione dalla popolazione, la
costituzione dei gruppi e delle condizioni, al fine di esercitare il massimo controllo ed escludere il
più possibile l'intervento di altre variabili di disturbo
Le caratteristiche fondamentali del disegno di ricerca: esso deve essere pubblico e controllabile, da qui
nasce la validità di uno studio.
Le ricerche psicologiche tendono a risolvere:
 Problemi teorici, per risolvere i quali si deve puntare ad aumentare le conoscenze teoriche su un dato
argomento. Danno luogo alla “ricerca di base” (o fondamentale o pura). Ad es. studiare le dimensioni
dell’intelligenza.
 Problemi pratici, dai quali origina la “ricerca applicata” che si occupa di questioni concrete che
richiedono soluzioni pratiche. Ad es.
Nel primo caso, come nel secondo, le fasi del processo di ricerca sono:
1. Identificazione del problema di ricerca (contesto della scoperta):
 È la fase più complessa perché più creativa, si deve identificare un problema significativo che conduca
ad una novità effettiva.
 L’ipotesi di ricerca riguarda proprio un’ipotesi, una congettura sulla relazione esistente fra variabili; in
generale, viene espressa con un’affermazione di tipo condizionale (“se i soggetti subiscono una
frustrazione, allora divengono aggressivi”).
 Tale ipotesi deve essere
- Operazionalizzata, divenendo per es. “il soggetto frustrato metterà in atto comportamenti violenti
ed aggressivi nei confronti della macchinetta distributrice che non ha erogato il prodotto richiesto,
né ha restituito le monete inserite”.
- Verificata in modo empirico ed espressa mediante una formula matematica del tipo Y=f(X)
 L’ipotesi di ricerca darà luogo al test delle ipotesi, nel quale vi sono due ipotesi statistiche
reciprocamente escludentisi:
- HO (ipotesi nulla): afferma che suddetta relazione tra variabili non esistele 2 variabili sono
indipendenti, la frustrazione non ha effetti sull’aggressività
- H1 (ipotesi alternativa): afferma che vi è una relazione fra le variabilile due variabili sono in
relazione, all’aumentare della frustrazione aumenta l’aggressività.

2. Pianificazione del disegno sperimentale (contesto della scoperta)


 Vengono scelti i test statistici e si decide in che modo sottoporre i soggetti alle prove
 Si analizzano i problemi etici; l’esperimento viene sottoposto al comitato etico

3. Osservazioni/raccolta dati (contesto della giustificazione)


4. Analisi dei dati (contesto della giustificazione)
5. Interpretazione dei dati (contesto della giustificazione): si interpretano i dati per confermare o meno le
ipotesi
6. Comunicazione dei risultati (contesto della giustificazione)

I disegni di ricerca possono essere suddivisi


31
1. Classicamente: in sperimentali, quasi sperimentali ed osservazionali (descrittivi)
Veri esperimenti
 L’obiettivo è l’individuazione di relazioni causali tra variabili in cui si ipotizza che una variabile, supposta
dipendente, sia causata da (almeno) un’altra supposta indipendente. Ad es. è possibile determinare la
relazione causale fra variazioni del profitto in matematica (V.D.) e variazioni della motivazione allo
studio (V.I.).
 Sono caratterizzati da un forte controllo da parte dello sperimentatore: sulle condizioni sperimentali e
sulla direzione causale (manipolazione sistematica della VI, scelta della VD); sull’estrazione ed
assegnazione dei soggetti; sulle variabili terze.
 La sperimentazione viene in genere condotta in ambiente controllato, che non coincide per forza con
l’ambiente di laboratorio: può avvenire in classe, in comunità, in clinica, a patto che siano passibili di
controllo (la sperimentazione in Psicologia avviene raramente in laboratorio).
 Un disegno di ricerca dovrebbe consentire un'interpretazione non ambigua dei risultati, escludendo a
priori tutte le possibili interpretazioni alternative. Anche se questo limite ideale non può essere
raggiunto, si deve poter affermare con sicurezza che gli effetti riscontrati nella V.D. sono causati dalla
manipolazione della V.I. e non dall'influenza di variabili incontrollate.
 Anche se non è in grado di garantire tutti i tipi di validità, questo disegno di ricerca assicura la validità
interna e, in misura minore, quella esterna, che rappresentano le due tipologie di validità più
importanti per una ricerca.
 Deve sussistere, e questa è la differenza con i quasi esperimenti, il fattore della causalità che lega il
disegno di ricerca alla teoria della probabilità: si prevede un metodo casuale di estrazione del
campione, di assegnazione dei soggetti alle condizioni, ai gruppi, all’ordine delle prove.
 Nelle sperimentazioni controllate randomizzate (RCT – Randomized Controlled Trial) si comparano i
vantaggi e gli svantaggi di due o più trattamenti.
- Vantaggio: grazie alla randomizzazione si tengono sotto controllo le variabili intervenienti; si può
determinare che il cambiamento nella V.D. è dovuto alla manipolazione della V.I.
- Svantaggi:
o Limiti legati alla partecipazione dei soggetti alla sperimentazione
o Difficoltà etiche legate al trattamento placebo
o Costi elevati dell’implementazione: è necessario avere un’équipe dedicata
Non è mai possibile realizzare una condizione sperimentale ideale (contrapporre un trattamento
ad un’assenza di trattamento), di solito si utilizzano le due condizioni di controllo del “treatment-as-
usual” (tau: i soggetti sperimentano il trattamento tradizionale) e della waiting list (i soggetti non
sperimentano alcun trattamento in attesa di essere inseriti in un gruppo).
 Se la V.I. è una sola, avremo disegni
- Between subjects (tra i soggetti)
o Ogni gruppo partecipa ad una sola condizione della V.I. quindi avrà una sola prestazione ed un
solo punteggio, ed il numero delle osservazioni corrisponderà a quello dei soggetti.
o I soggetti sono scelti casualmente dalla popolazione e vengono assegnati casualmente alle
condizioni, allo scopo di formare gruppi equivalenti prima di manipolare la V.I. esperimento
casuale controllato. I gruppi sono simili per le dimensioni importanti.
- Within subjects (entro i soggetti);
o La misurazione della V.D. viene eseguita sugli stessi soggetti sia prima del trattamento (pre-
test) sia dopo (post-test)
o Il gruppo è sottoposto a tutte le condizioni del trattamento.
o Ciò che viene assegnato casualmente è l’ordine di esposizione alle prove. Se questo non accade
alcuni effetti, come ad es. storia e maturazione, possono essere responsabili della variazione
della V.D.
 Effetti dovuti alla storia: i partecipanti del gruppo di controllo e di quello sperimentale
dovrebbero essere trattati allo stesso modo (avere la stessa storia di esperienze mentre
fanno l’esperimento) ad eccezione che per il trattamento.

32
 Effetti dovuti alla maturazione: i partecipanti di un esperimento cambiano necessariamente
con il passare del tempo; diventano più vecchi, più esperti. Il cambiamento dovuto al
trascorrere del tempo in sé è chiamato “maturazione”. Lo sperimentatore può attribuire i
miglioramenti ad una nuova tecnica, quando in realtà i partecipanti sono solo cresciuti.
o Ad es. si rileva il livello di capacità di gestione dei conflitti nei dipendenti di un’azienda (V.D.),
segue un corso di formazione (VI: prima/dopo il corso), si rileva nuovamente il livello di
capacità di gestione dei conflitti (V.D.)
 Se le V.I. sono almeno 2, avremo un disegno fattoriale.
- Disegno fattoriale tra i soggetti (completamente randomizzato)
o Due o più V.I. manipolate con due o più livelli per ciascuna di esse;
o Ogni V.I. è completamente incrociata con ogni altra V.I., e dunque ogni livello della V.I. è
combinato con ogni livello dell’altra V.I.;
o I soggetti sono assegnati in modo randomizzato ad ogni gruppo;
o Ogni gruppo è sottoposto solamente ad una combinazione delle V.I.
- Disegno fattoriale entro i soggetti (disegno fattoriale a misure ripetute)  il gruppo è sottoposto a
tutte le combinazioni delle V.I.
- Disegno fattoriale misto: le due o più V.I. sono di tipo diverso
o Una V.I. è tra i soggetti, l’altra entro i soggetti: una V.I. richiede tanti gruppi di soggetti quanti
sono i suoi livelli di variazione, l’altra V.I. richiede che tutti i soggetti siano sottoposti a tutti i
livelli.
o Una V.I. è manipolata, l’altra è non manipolata: i soggetti sono assegnati in modo randomizzato
alle condizioni della V.I. manipolata, mentre vengono assegnati sulla base di caratteristiche
preesistenti (genere, essere volontari o meno) alla V.I. non manipolata. I limiti di questo
disegno riguardano l'interpretazione dei risultati, perché le variabili non manipolate
comportano sempre degli effetti di confusione.

La ricerca per esperimento viene condotta attraverso opportuni piani sperimentali, tra i quali i
principali sono:
Piano sperimentale a due gruppi
 Vi sono un gruppo di controllo ed uno sperimentale. Se essi sono equivalenti per tutti i possibili fattori
che possono incidere sulla V.D. (profitto in matematica) le differenze tra il miglioramento del gruppo
sperimentale e il miglioramento del gruppo di controllo saranno da attribuirsi alla presenza della V.I.
(Didattica dell'analisi matematica con l'ausilio di un Cd-rom).
 Tale disegno permette di controllare gli effetti legati alla storia, alla maturazione, alla regressione verso
la media, alla selezione, alla strumentazione, alla mortalità, all’interazione mortalità-trattamento.
 Tuttavia, vi sono problematiche concernenti il pre e post-test proporre ai due gruppi un pre-test può
invalidare i risultati dato che gli allievi sapranno su quali argomenti focalizzarsi durante l'intervento
formativo, e sarà quindi difficile imputare i miglioramenti all'intervento in sé.

Piano sperimentale a quattro gruppi (elaborato da Salomon)


 Per rilevare l'effetto delle prove iniziali si può aggiungere ai due gruppi altri due gruppi; questo disegno
costituisce quello ideale in quanto permette di minimizzare, se non annullare, la maggioranza delle
ipotesi alternative che possono minacciare la validità interna.
 Questo disegno prevede quattro gruppi (G), ognuno corrispondente ad una precisa condizione
sperimentale, alla quale i soggetti vengono assegnati in modo casuale
- Al G1 viene somministrato: pre-test; trattamento; post-test
- Al G2: pre-test; placebo; post-test
- Al G3: trattamento; post-test
- Al G4: placebo; post-test

33
Il limite di questo disegno è la sua onerosità; per questo motivo è applicato raramente in psicologia

Piano sperimentale a gruppo unico


 Ad es: l’insegnante propone ad una classe di allievi l’insegnamento della matematica con un metodo
ordinario (didattica frontale) per un certo periodo di tempo, e l’insegnamento della stessa materia con
un metodo sperimentale (didattica dell’analisi matematica con l’ausilio di un CD-ROM) per un altro
periodo di tempo.
 I cambiamenti nelle abilità acquisite vengono monitorati mediante tre prove:
- La prova iniziale, che rileva il livello di partenza degli alunni
- La prova intermedia, che rileva il livello raggiunto dagli alunni con il metodo ordinario e costituisce
la prova iniziale per l’applicazione del metodo sperimentale
- La prova finale, che rileva il livello di conoscenze raggiunto complessivamente dagli alunni.

Il metodo sperimentale applicato alla ricerca clinica


Ha lo scopo di valutare se un particolare intervento terapeutico (trattamento) causa un cambiamento in
una o più V.D. (dette anche outcome clinici, esiti clinici, o endpoints. Il trattamento potrebbe essere una
terapia psicodinamica, mentre gli outcome clinici potrebbero essere i sintomi di depressione; oppure il
trattamento potrebbe essere una riabilitazione del linguaggio e l' outcome clinico la fluenza verbale del
paziente.
All’interno dell’indagine sperimentale i ricercatori hanno sviluppato diversi metodi di analisi:
1. Metodo comportamentale
 Lo sperimentatore esercita un duplice livello di controllo: sui dati ambientali (lo stimolo) e sui dati
comportamentali (la risposta).
 L’esempio classico è rappresentato dalla prova in cui lo sperimentatore sceglie, fra gli eventi
ambientali, quelli da considerare come V.I. (e quindi manipolabili secondo le proprie ipotesi,
mantenendo costanti gli altri) e seleziona tra le risposte quelle da osservare tassativamente come V.D.

2. Metodo fenomenologico
 Lo sperimentatore deve definire le caratteristiche specifiche del campo fenomenologico in cui il
soggetto si trova
 Per “campo fenomenologico” si intende l’insieme delle percezioni di ciò che il soggetto vede, sente
ecc.; si indaga il fenomeno, ciò che gli appare, non la cosa in sé al di là di questo. La V.D. è quindi
sempre un dato fenomenologico.
 È utilizzato in particolar modo dalla psicologia della Gestalt, della percezione e del pensiero.
 Sussiste una distinzione tra:
- Stimoli distali: hanno origine negli oggetti che circondano il soggetto (ad es. le onde sonore
provenienti da una sorgente di suono)
- Stimoli prossimali: hanno origine negli organi di senso, come risposta allo stimolo distale.
 Il controllo è garantito dalle due invarianti “mondo” ed “organismo” come sistema fisico.

3. Metodo osservativo
 Definisce le procedure, le tecniche e gli strumenti che permettono di osservare, registrare, descrivere e
codificare il comportamento umano o l’interazione sociale sia in condizioni sia naturali sia di
laboratorio.
 Si rinuncia a priori al controllo sperimentale delle variabili in gioco.
34
 Il soggetto non valuta se stesso, bensì viene valutato da un osservatore che deve essere
adeguatamente addestrato per evitare errori di giudizio che renderebbero invalida la misurazione.
 In quest’ambito, lo studio di tipo longitudinale può fornire indizi più convincenti su una possibile
relazione causale. Tuttavia, si tratta sempre di prove indiziarie e non conclusive, poiché anche nel caso
si riesca a stabilire una successione temporale tra la presunta causa e il presunto effetto, non è
possibile esser certi della causalità della relazione non si possono escludere, tramite il controllo
sperimentale, tutte le possibili interpretazioni alternative dei risultati ottenuti. Ad es. può esservi una
correlazione spuria (dovuta a una terza variabile) tra la presunta causa e il presunto effetto.

4. Metodo delle variabili latenti


 Le V.I. non sono direttamente osservabili, e il soggetto si trova invece di fronte a una molteplicità di
variabili, i cui valori sono determinati da queste variabili, per l’appunto, latenti.
 Lo status teorico è ormai generalmente considerato valido e non più essere messo in discussione. Si
dibatte invece sulle variabili:
- Endogene, che sono proprie del dominio teorico della ricerca e sono influenzate dalle variabili
esogene
- Esogene, le variabili latenti che appartengono ad altri domini teorici: la sociologia, l’economia, la
scienza delle religioni.

Quasi esperimenti:
 Non si può manipolare la V.I. a proprio piacimento perché già presente in natura, né si possono
controllare suddetta V.I. e i fattori di disturbo che incidono sulla V.D. Il ricercatore, più che una
sperimentazione, opera una comparazione tra situazioni diverse. Ad es. si confrontano a posteriori due
gruppi di lavoratori di due uffici, uno cui si presenta una certa attività di team building ed uno cui tale
attività non si presenta. Il ricercatore non è in grado di assegnare i lavoratori a due società diverse,
quindi si limita a raccogliere i dati durante una giornata lavorativa tipo.
 Mancano del fattore della causalità, non utilizzano la randomizzazione. I gruppi non sono equivalenti,
cioè differiscono anche per altre caratteristiche oltre che per il trattamento. Ciò costituisce un
problema grave, poiché non si può sapere se le eventuali differenze riscontrate sono dovute alla non
equivalenza iniziale o all’effetto dello stimolo. Per questo non si possono fare inferenze causali.
Tuttavia, di fatto, nella ricerca sociale è spesso impossibile randomizzare i soggetti nei gruppi, quindi i
quasi-esperimenti rappresentano un’alternativa quando i veri esperimenti non possono essere
condotti.
 Particolare importanza è l’analisi della varianza, per rilevare se esistono differenze significative tra i
risultati ottenuti ad un test da parte di due o più gruppi di soggetti.
Fanno parte di questi disegni:
Disegni con gruppo di controllo non equivalente:
 Vengono comparati un gruppo in trattamento ed un gruppo di controllo usando misure pre-test e post-
test.
 Costituiscono la soluzione migliore quando i gruppi formano delle entità naturali, che devono essere
mantenute intatte per studiarne le caratteristiche. La mancanza di equivalenza dei gruppi viene in
genere limitata componendo un gruppo di controllo quanto più possibile simile a quello sperimentale.
Si sottopongono infatti i gruppi al pre-test per individuarne il grado di equivalenza.
 Ad es. si vuole indagare in bambini della primaria l’atteggiamento nei confronti degli anziani valutando
se vi fosse una differenza legata al genere. In seguito, vengono presentate alcune storie positive con
protagonisti anziani. I bambini vengono in seguito suddivisi in due gruppi (atteggiamento positivo e
negativo) e viene loro presentata una prova di memoria nella quale viene loro chiesto di ricordare una
storia connotata positivamente relativa a persone anziane. Il ricordo viene misurato mediante il
numero di frasi ricordate.

Disegni a serie temporali interrotte semplici:

35
 Sono sostanzialmente una variazione dei disegni entro i soggetti, perché ogni elemento del gruppo è
sottoposto a tutte le condizioni di trattamento.
 Si utilizzano quando si possono osservare cambiamenti in una V.D. un po’ prima e un po’ dopo la
somministrazione di un trattamento. La molteplicità delle misurazioni consente di evidenziare la
tendenza dei dati prima della condizione sperimentale chiamata “linea di base” che viene utilizzata
come termine di paragone per l’andamento dei dati raccolti dopo il trattamento.
 Questi piani possono essere usati ad esempio in una ricerca clinica, o in quegli studi che prima
osservano i soggetti tramite misurazioni per un certo periodo di tempo (ad es, studi sul comportamento
di bambini con problemi comportamentali che vengono osservati per un anno intero prima del
trattamento. Una volta ottenuti dati sufficienti, viene applicato il trattamento, e una volta terminato
questo stadio si riprendono le misure dei soggetti per lo stesso tempo di osservazione precedente
l'applicazione del trattamento). Quindi sono utili per condurre ricerche sui fenomeni naturali o clinici.
 I limiti sono:
- Impossibilità di tenere sotto controllo le minacce alla validità interna costituite da storia,
strumentazione e mortalità
- Problemi relativi alla validità esterna

Disegni a serie temporali interrotte multiple: del tutto simile al precedente, con l’eccezione che utilizza un
secondo gruppo di soggetti (di controllo) non sottoposto a trattamento.

Disegni simulati prima e dopo: sono utilizzati quando, in ricerche condotte sul campo, non si possono
assegnare casualmente i soggetti ai diversi livelli di trattamento. Generalmente vengono impiegati negli
studi su grandi popolazioni, mirano a rilevare l’impatto esercitato da un intervento sulla popolazione
misurando la variabile di interesse sia prima che accada l’evento che modifica tale variabile sia dopo.

Metodo osservativo: applicazione dell'insieme di tecniche e strumenti all'osservazione pianificata e alla


registrazione ed analisi del comportamento animale o umano che viene osservato in ambiente naturale. Si
rinuncia a priori al controllo sperimentale delle variabili in gioco, quindi siamo nel contesto dei disegni non
sperimentali. Il controllo si effettua mediante l’inter-rater reliability molti osservatori che analizzano i
dati rilevati, i quali vengono comparati e valutati mediante un coefficiente di accordo.
Esistono diverse tipologie di ricerca osservazionale, organizzate a secondo del livello di intrusione dello
sperimentatore e del controllo dell'ambiente:
1. Osservazione naturalistica (o non partecipante):
 È caratterizzata dalle proprietà di non intrusività ed assenza di artificiosità. Si tratta semplicemente di
studiare comportamenti reali che si verificano naturalmente in contesti naturali, a differenza
dell’ambiente artificiale di un laboratorio controllato. Non c'è alcun tentativo di manipolare le variabili.
 I suoi limiti consistono
- Nell’incapacità di esplorare le cause reali dei comportamenti
- Nell'impossibilità di determinare se una determinata osservazione sia realmente rappresentativa di
ciò che normalmente accade.

2. Osservazione partecipante:
 L’osservatore è presente e partecipe alla situazione in cui l’evento si verifica, contribuendo quindi, pur
senza controllarla, alla dinamica del fenomeno. Il ricercatore dev’essere presente in prima persona o
mediante un “confederato” all’interno del gruppo.
 I suoi limiti sono:
- Problematiche di ordine etico: non tutte le altre persone coinvolte nella ricerca possono essere
informate di essere sotto osservazione e dei veri scopi della ricerca, mentre vengono osservati i
loro comportamenti privati o personali „
- Problematiche di ordine pratico: il ricercatore, in quanto non condividente gli scopi del gruppo, può
modificare la struttura del gruppo e i comportamenti dei suoi membri.

36
3. Studio di caso:
 È utilizzato in molte aree di ricerca: psichiatria, psicologica clinica, riabilitazione, counseling ecc.
 Si tratta di un vero e proprio esperimento naturale.
 Consiste nell’analizzare in modo intensivo un singolo soggetto (o più di uno nella serie di casi clinici,
“case series report”) prima di formulare ipotesi generali da testare su un gruppo più consistente. È un
caso particolare di ricerca longitudinale.
 Le evidenze vengono raccolte mediante colloqui, test psicologici e valutazioni funzionali del paziente.
 Generalmente, si verificano gli effetti sul comportamento di uno/due individui, derivanti
dall’introduzione della V.I. (ad es. trattamento psicologico o educativo).
 Mancando il disegno di ricerca (inteso come definizione dell’ipotesi, analisi standardizzata dei dati,
possibilità di generalizzazione dei risultati) vengono meno gli elementi base della sperimentazione
(misurazione delle variabili, tecniche di controllo, generalizzabilità delle conclusioni).
 Il bassissimo livello di costrizione viene compensato da un alto valore euristico, poiché l’eterogeneità
dei dati e la profondità della descrizione facilitano l’elaborazione di nuove direttrici di ricerca.
 Il vantaggio è quello di poter limitare ad un periodo relativamente breve il coinvolgimento nella ricerca
di un esiguo numero di soggetti (generalmente 1 o 2), pur mantenendo elevata la raccolta di dati.
 I suoi limiti sono:
- La preparazione metodologica del ricercatore da cui deriva la validità ed affidabilità della ricerca
- L’opportunità di utilizzare i risultati per approfondire uno specifico aspetto della teoria di
riferimento.

4. Ricerca di archivio:
 Riguarda l’ambito teorico della psicologia, opposto alla ricerca sul campo.
 Il ricercatore lavora su dati raccolti da altri, spesso per altri scopi.
 I vantaggi sono molteplici
- Riduzione dei costi e dei tempi di attuazione delle ricerche.
- Utile quando un esperimento non è attuabile per motivi etici.
 È invece discutibile la convinzione che si possa evitare l’effetto distorsivo della desiderabilità sociale
perché i dati sono già archiviati possono non essere stati collezionati e registrati in modo affidabile
ed accurato, anche perché spesso non vi sono indicazioni dettagliate delle modalità di raccolta.

5. Indagine demoscopica (survey, inchiesta):


 Consente di rilevare un gran numero di informazioni su un insieme di soggetti (campione) per inferire le
caratteristiche di una popolazione obiettivo.
 È utile per l'analisi dei fenomeni sociali (modi di vita, valori, opinioni).
 Le caratteristiche fondamentali sono: 1) realizzazione nello «stesso momento»; 2) utilizzo di un insieme
ordinato di domande; 3) possibilità di una precisa classificazione delle risposte, per poter fare confronti
quantitativi.

Tipologie di esperimenti
Esperimento di laboratorio:
 È condotto in una situazione artificiale.
 La sua caratteristica principale è il controllo, che si sostanzia in
- Isolamento dell’ambiente sperimentale (minimizzazione delle variabili e delle influenze esterne non
desiderate)
- Flessibilità (il ricercatore ha la possibilità di produrre e replicare situazioni che si differenziano
anche solo per un piccolo particolare).
 Si possono individuare tre tipologie di situazioni di laboratorio (sulla base del compito assegnato ai
soggetti):

37
- Studi in cui è richiesto il coinvolgimento dei soggetti studiati (impact studies), indotti a tenere
comportamenti diversi da quelli che terrebbero nella realtà (es: Milgram sull’obbedienza
all’autorità)
- Studi in cui è richiesto il giudizio (judgement studies) (es.: Pheterson, Kiesler e Goldberg sul
pregiudizio nei confronti delle donne)
- Studi in cui è richiesta l’osservazione sui soggetti sperimentali, spesso bambini, dell’esposizione alla
violenza in tv e degli effetti imitativi di natura aggressiva.
 Ad es.
- Un campione di utilizzatori di sostanze psicotrope (tossicodipendenti) viene comparato con un
gruppo di controllo rispetto alla loro tolleranza al dolore misurata in un laboratorio.
- In condizioni di laboratorio ad alcuni soggetti viene richiesto di comunicare un discorso contrario
alle proprie convinzioni, prima da soli e poi di fronte ad altri.

Esperimento sul campo:


 Sussiste la manipolazione della V.I. esattamente come in un esperimento puro; tuttavia non ci troviamo
in laboratorio ma nell’ambiente naturale dei soggetti (in comunità, nel gruppo, a scuola), quindi vi sarà
la possibilità di interferenze di variabili terze.
 Ad es.
- Studi di Sherif sulle dinamiche di gruppo e sulle modalità di sviluppo dell’ingroup (noi) e outgroup
(loro) (X obiettivi del gruppo, Y relazioni interpersonali); studi di Rosenthal e Jacobson sulla profezia
che si autoavvera (X aspettative, Y rendimento scolastico).
- Un ricercatore, vestito in modo casual o in modo elegante, avvicina dei viaggiatori alla stazione per
chiedere indicazioni. L’obiettivo è osservare se un tipo di abbigliamento induca a prestare maggior
aiuto. [V.I. abito]
- Una scala viene posizionata sul marciapiede, appoggiata contro la parete di un edificio, per vedere
se gli uomini o le donne la eviteranno
- Un ricercatore visita i lavoratori di ogni livello sul loro posto di lavoro all’interno della loro azienda e
li intervista attraverso un questionario riguardante la loro attitudine verso l’autorità. L’ipotesi di
ricerca è che i lavoratori più pagati siano anche quelli con il rispetto maggiore per l’autorità.

Quasi-esperimento sul campo:


 Non viene attuato in laboratorio ma nell’ambiente naturale dei soggetti quindi ci sono interferenze di
variabili terze (caratteristiche della popolazione sulla quale svolgiamo l’esperimento); essendo un quasi
esperimento lo sperimentatore non può modificare la V.I. a suo piacimento ma solo in parte
(trattamento).
 Ad es.
- Gli studenti di una classe in una scuola beneficiano per 6 mesi di un programma innovativo per il
miglioramento della lettura utilizzando un approccio multimediale. Gli allievi di una seconda classe
ottengono un’attenzione particolare verso la lettura ma non il nuovo programma.

Quasi-esperimento naturale:
 Non viene attuato in laboratorio ma nell’ambiente naturale dei soggetti (interferenze delle variabili
terze) e non vi è alcuna possibilità di manipolazione della V.I.
 Ad es.
- Una di due case di cura per anziani molto simili tra loro passa dalla proprietà pubblica a quella
privata. I lavoratori di entrambe le case si cura sono comparati in base alla soddisfazione lavorativa
nel periodo dell’anno successivo, utilizzando interviste informali.

Simulazione:
 Si osserva o si sottopone ad un trattamento una copia dell’oggetto disegnata da un insieme di algoritmi
eseguiti da un pc.
 Ad es. proiezioni demografiche (esperimenti collocati nel passato o nel futuro).
38
2. Sulla base degli scopi: descrivere, predire, spiegare/comprendere
la possibilità di avere un’adeguata validità interna dello studio aumenta secondo un ordine gerarchico
Descrivere: lo studio con finalità descrittiva (correlazione o osservazione) mira a rilevare la presenza di un
fenomeno e dei suoi diversi aspetti, o ad indagare l’associazione fra due o più costrutti. Mancando la
manipolazione della V.I. manca la V.D. Ad es.
 Uno psicologo dello sviluppo vuole indagare se le abilità di comprensione numerica aumentano in
funzione dell’età del bambino, quindi sottopone bambini di 3, 5 e 7 anni a test che misurano la
comprensione numerica.
- Variabili e scala di misurazione:
o V.I.: abilità di comprensione numerica, ordinale
 L'Istituto di Psicologia Sociale di un’università italiana ha realizzato una ricerca volta ad indagare lo stile
percettivo (campo-dipendente, campo-indipendente) prevalente tra gli adolescenti. A 250 adolescenti,
tutti studenti di scuola media superiore, sono state mostrate mediante video, per pochi secondi, delle
figure ambigue, con la consegna di indicare quale aspetto dell'immagine hanno visto per primo. In base
alle risposte date, i soggetti sono stati suddivisi in campo-dipendenti e in campo-indipendenti.
- Variabili e scala di misurazione:
o V.I.: stile percettivo, nominale dicotomicamodalità 1: campo-dipendente, modalità 2: campo-
indipendente
 Il Comune di Milano ha commissionato ad un centro di ricerca un'indagine sulla paura del crimine
diffusa tra i cittadini milanesi. Raccolti i nominativi attraverso l'anagrafe, è stata inviata per posta la
Scala sulla paura del crimine di Fenaro e Lagrange (1992), comprendente 10 item con modalità di
risposta di tipo Likert a 7 passi.
- Variabili e scala di misurazione:
o V.I.: paura del crimine, ordinale

Predire: lo studio con finalità predittiva (quasi esperimento) ipotizza un legame di causa-effetto fra le
variabili. Ad es.
 Uno psicologo vuole indagare la motivazione degli studenti a intraprendere lo studio della psicologia,
quindi intervista 200 studenti delle facoltà di Psicologia di 4 università Italiane chiedendo loro di
spiegare perché hanno scelto di iscriversi a Psicologia. Manca la randomizzazione.
- Variabili e scala di misurazione
o V.I.: motivazione
o V.D.: scelta di studio
 È stata realizzata una ricerca con l'obiettivo di individuare alcune delle variabili in grado di predire la
durata dell'impegno nell'attività di volontariato. Più precisamente stata indagata l'influenza delle
motivazioni sociali, valoriali, di conoscenza e di protezione dell’Io, così come teorizzate da Omoto e
Snyder. A tale scopo, nel 2000 è stato somministrato individualmente un questionario a 80 giovani
impegnati in attività di volontariato. Il questionario conteneva, oltre alla domanda sul numero di anni di
impegno nel volontariato, la scala di Omoto e Snyder per la misurazione delle motivazioni (sociali,
valoriali, di conoscenza, di protezione dell'Io) al volontariato. Tale scala era composta da 25 item con
modalità di risposta su scala Likert a 5 passi.
- Variabili e scala di misurazione:
o V.D.: numero di anni di impegno nel volontariato, a rapporti
o V.I. motivazione sociale; motivazione valoriale; motivazione di conoscenza; motivazione di
protezione dell'Io, ordinale (anche se la trattiamo come v. ad intervalli)
 Uno psicologo sociale si propone di verificare l'associazione tra la percezione del rischio e il bisogno di
chiusura, inteso come la tendenza ad esperire situazioni, opinioni e informazioni ambigue come
problematiche. Un gruppo di 133 studenti all'ultimo anno di scuola superiore ha compilato un
questionario comprendente una scala per la misurazione del bisogno di chiusura (20 item con modalità
di risposta su scala Likert a 7 punti) e una scala per la percezione del rischio (5 item con modalità di
risposta su scala Likert a 4 punti).
39
- Variabili e scala di misurazione
o V.D.: bisogno di chiusura, ordinale
o V.I.: percezione del rischio, ordinale

Spiegare/comprendere: lo studio con finalità esplicativa (vero esperimento) ipotizza un legame di causa
effetto e, mediante la manipolazione della V.I., produce la misurazione degli effetti sulla V.D. Ad es.
 Un ricercatore di psicologia sociale vuole verificare se il numero totale di componenti del gruppo
influenzi l'adesione del singolo all'opinione della maggioranza, quindi assegna casualmente i 90 soggetti
del campione a gruppi di numerosità diversa, composti da collaboratori del ricercatore. 30 soggetti
sono assegnati a gruppi composti da 5 persone, 30 soggetti a gruppi composti da 10 persone e 30
soggetti sono assegnati a gruppi composti da 15 persone. Dopo una discussione di gruppo, nella quale
viene chiaramente espressa da parte dei collaboratori del ricercatore un'opinione di maggioranza, si
calcola quanti soggetti sperimentali aderiscono a tale opinione espressa dalla maggioranza
- Variabili e relativa scala di misurazione
o V.I.: numero componenti gruppo, rapporti
o V.D.: adesione opinione maggioranza, rapporti
 Un gruppo di psicologi vuole verificare se l’osservare le emozioni espresse nell'interazione tra due
persone influenzi la performance di chi osserva in interazioni successive. A 50 soggetti sono stati
presentati due scenari diversi. In entrambi gli scenari i soggetti sperimentali osservavano due persone
(un proponente e un ricevente) alle prese con la spartizione di 100 gettoni d'oro. Nel primo scenario il
ricevente dell'offerta esprimeva un'emozione di rabbia, nel secondo scenario di felicità. Veniva poi
chiesto ad ogni soggetto sperimentale di formulare un'offerta ad una terza persona. Tale offerta poteva
essere equa, a favore del soggetto sperimentale, a favore della terza persona.
- Variabili e relativa scala di misurazione:
o V.I.: emozione, nominale dicotomica modalità 1: rabbia, modalità 2: felicità
o V.D.: performance dell'osservatore esterno, nominale modalità 1: offerta equa, modalità 2:
offerta a favore del soggetto sperimentale, modalità 3: offerta a favore della terza persona
 Un gruppo di ricercatori delle Università di Roma e Bologna vuole indagare se il tipo di informazioni sul
percorso da compiere influenzi la velocità con cui esso è portato a termine. A tal fine, a 100 soggetti
viene chiesto di percorrere un certo tragitto a piedi nel più breve tempo possibile. A 50 di essi si chiede
di leggere delle indicazioni scritte del percorso prima di intraprendere il tragitto, agli altri 50 di
rappresentarsi mentalmente il percorso da fare attraverso la consultazione di una cartina stradale.
Viene calcolato il tempo impiegato per completare il percorso.
- Variabili e relativa scala di misurazione:
o V.I.: tipo di informazioni, nominale dicotomica modalità 1: indicazioni scritte, modalità 2:
rappresentazione mentale
o V.D.: velocità, a rapporti

Debriefing
 Avviene dopo il completamento di uno studio ed include una spiegazione delle finalità della ricerca
offerta ai partecipanti.
 Laddove vi fosse la richiesta di approfondimenti o di ottenere ulteriori informazioni, lo psicologo o il
ricercatore dovrebbe garantire la propria disponibilità.
 Il ricercatore ha l'opportunità di occuparsi delle questioni relative al rifiuto di informazioni, all'inganno
e ai potenziali effetti nocivi della partecipazione. Se i partecipanti sono stati ingannati in qualche modo,
il ricercatore deve spiegare perché l'inganno è stato necessario. Se la ricerca ha alterato in qualche
modo lo stato fisico o psicologico di un partecipante, ad es. ha creato uno stato ansioso per gli individui,
il ricercatore deve assicurarsi che i soggetti si siano calmati e che l’aver partecipato non li abbia scossi in
modo rilevante.
 Offre al ricercatore l'opportunità di illustrare le finalità reali della ricerca, di comunicare quali siano i tipi
di risultati che ci si aspettano e quindi discutere le implicazioni pratiche dei risultati. In alcuni casi, i

40
ricercatori possono contattare i partecipanti in un secondo tempo per informarli dei risultati effettivi
dello studio. In questo modo, il debriefing assume uno scopo sia educativo sia etico.
 Mediante esso, i ricercatori possono seguire le linee guida del Codice Etico APA, in particolare i Principi
B (Fedeltà e responsabilità), C (Integrità) ed E (Rispetto dei diritti e della dignità delle persone).

Ricadute di una ricerca: le conclusioni di uno studio


 Devono essere ricondotte alle domande di ricerca individuate
 Devono includere le limitazioni delle conclusioni stesse.
 Devono prendere in considerazione le implicazioni per
- La teoria/metodologia
- La ricerca/tecnica
- L'intervento/prassi
- La policy

Teoria classica dei test, o teoria dell’errore casuale (TCT, Spearman)

𝑋 (punteggio osservato) = 𝑉 (punteggio vero) + 𝐸 (errore)


 Il punteggio osservato è il risultato ottenuto in un test
 Il punteggio vero non è direttamente osservabile (variabile latente), può essere inferito a partire dal
punteggio osservato, una volta depurata la componente dovuta all’errore.
 L’errore può essere sistematico o casuale
- Sistematico: si presenta in modo sistematico in ogni misurazione, presenta una stessa direzione
(influenza allo stesso modo tutti i punteggi osservati). Ad es. nello strumento un quesito è scritto
male o è sbagliato.
- Casuale: la direzione è imprevedibile (fluttua da prova a prova), gli effetti tendono a compensarsi in
una serie di misurazioni. Ad es. due persone con conoscenze paragonabili ottengono due risultati
diversi all’esame dovuti a variabili come stanchezza, tranquillità, suggerimenti.

Limitazioni della Teoria classica dei Test


• La TCT giunge alla misurazione del tratto latente di riferimento mediante la trasformazione del numero
di risposte esatte in un punteggio globale  i valori ottenuti, essendo connessi al particolare campione,
sono scarsamente utilizzabili per effettuare delle comparazioni tra contesti differenti. Ad es. un
campione di persone con livelli elevati di intelligenza si differenzia dalla popolazione generale
 C’è necessità di attenersi all'ipotesi delle forme parallele del test.
 Non include alcun meccanismo probabilistico per stimare la prestazione di un soggetto su un dato item
del test.

6. Teoria della risposta all’item (IRT, Item Response Theory)


• Permette di superare il limite fondamentale della TCT che non riesce a chiarire il rapporto esistente fra
le risposte agli item (e quindi l’abilità del soggetto) e le caratteristiche degli item (che si esprimono nei
termini del livello di difficoltà)
• La probabilità che un compito venga eseguito correttamente dipende sia dal livello di sviluppo di una
competenza specifica - ad e. la capacità di ragionamento numerico – sia dal grado di difficoltà del
compito richiesto - ad esempio un problema di aritmetica.

7. La curva caratteristica dell’item


 Ogni soggetto che risponde a un item del test possiede una certa quantità dell'abilità latente, un
punteggio che lo colloca da qualche parte sulla scala di abilità theta, 𝜃
 Ad ogni livello di abilità è associata una certa probabilità che un soggetto con tale abilità risponda
correttamente all'item 𝑃(𝜃). Questa probabilità sarà piccola per gli individui con bassa abilità e
grande per quelli con alta abilità.

41
 Se rappresentiamo graficamente 𝑃(𝜃) in funzione dell'abilità, il risultato è una curva continua a forma di
S: la probabilità di risposta corretta è vicina allo zero per i livelli più bassi di abilità e aumenta fino ad
avvicinarsi all'unità (evento certo).

Esistono tre proprietà tecniche di una curva caratteristica dell'item che vengono utilizzate per
descriverla:
 Livello di difficoltà dell'item (parametro b): livello di abilità richiesto affinché un soggetto abbia le stesse
probabilità di rispondere correttamente o in modo errato all'itemun elemento facile funziona tra i
rispondenti di bassa abilità, mentre un item difficile funziona tra i soggetti con alta abilità
 Capacità discriminativa dell'item (parametro a): descrive quanto bene un item possa differenziare tra
rispondenti con abilità al di sotto e al di sopra della posizione dell'item
 Fortuna: probabilità che un soggetto con un livello di abilità infinitamente basso fornisca la risposta
esatta solo in virtù del caso

Come si interpreta la curva:


 Più è alta, più l’item è facile
 Più sale rapidamente al centro (è ripida), più è discriminativa.
 Nella parte centrale della curva, piccoli cambiamenti nel livello del tratto implicano grandi cambiamenti
nella probabilità di risolvere l'item. Alle estremità della curva, grandi cambiamenti nel livello del tratto
implicano piccoli cambiamenti nella probabilità di risolvere l'item.

42
Dalle curve caratteristiche degli item che compongono un test è possibile individuare la curva caratteristica
del test (Test Characteristic Curve, TCC), che si ottiene sommando per uno stesso soggetto le probabilità di
risposta corretta associate a ogni item contenuto nel test.
Tuttavia, c’è un aspetto negativo che deriva dall’introduzione del parametro A (capacità discriminativa) nel
modello a 2Parametri IRT: non esiste una risposta universale alla domanda “Quale item è più difficile?”
 Per i soggetti la cui abilità 𝜃 è +2, la probabilità di superare l’item con la curva di risposta in rosso è 0.7,
mentre la probabilità di risposta giusta a quello con curva verde è 0.9 l’item rosso è più difficile.
 Per i soggetti la cui abilità 𝜃 pari a -2, invece, la probabilità di rispondere correttamente all’item rosso è
0.6 mentre la probabilità di superare positivamente l’item verde è 0.1 l’item verde è più difficile.
Questo fenomeno è chiamato il paradosso di Lord (Lord’s paradox).

8. Metodo ed indicatori
Metodo: serie ordinata di procedure il cui impiego produrrà un tipo di prodotto chiamato dati.
L'organizzazione delle procedure è basato su regole identificabili, che possono essere esplicite o
implicite; in altre parole, un metodo è un insieme strutturato di operazioni.

43
Indicatori: nesso di congiunzione tra una variabile osservata (misurata empiricamente) e il costrutto non
osservabile (tratto latente etc.) indicato attraverso una regola di corrispondenza.
Per ciascuno degli indicatori individuati bisognerà poi costruire un certo numero di stimoli.
Possono essere
• Riflessivi: riflettono il costrutto, sono manifestazioni osservabili del costrutto e dato che sono effetti di
un fattore comune ci si deve aspettare che siano correlatiil sorriso è un indicatore riflessivo del
costrutto di felicità.
• Formativi: vanno a formare il costrutto e non devono correlare fra lorola perdita del lavoro può
determinare stress.

Variabili discrete e continue (quantitative)


 Discrete: assumono una quantità finita o numerabile di valori (pagine di un libro, figli, viaggi annuali)
 Continue: possono assumere tutti i valori intermedi di un intervallo (peso e altezza)

Scale di atteggiamento
Le scale di misura degli atteggiamenti attribuiscono un punteggio finale complessivo ad un aspetto della
psicologia del soggetto, secondo l’assunto che tale aspetto sia collegato in qualche modo al punteggio
stesso (ad es. se al crescere del punteggio, cresce anche l’atteggiamento favorevole verso quella variabile).

Lo scaling
L’assunto della scala di atteggiamento è che sia possibile “scalare” l’atteggiamento del soggetto. Lo scaling
è proprio un insieme di procedure con le quali è possibile assegnare dei numeri ad un insieme di
affermazioni riferite all’atteggiamento.
 Unidimensionale: permette di assegnare un singolo punteggio che rappresenta l’atteggiamento
generale del soggetto.
 Multidimensionale: permette di valutare l’atteggiamento del soggetto sulla base di più aspetti.

Tre scale di atteggiamento


Scala Likert
 Il suo è un approccio centrato sui soggetti: sono questi ad essere scalati, seguendo il criterio della
quantità di proprietà che ciascuno di essi mostra di possedere.
 Il problema prioritario è dunque di pervenire alla "misurazione" di tale ammontare. Il punto di partenza
(identico, del resto, per tutte le tecniche di scaling) è costituito dalla selezione degli item che dovranno
formare la scala.
 Attraverso la letteratura e le ricerche empiriche del settore di interesse, si individua un insieme di
affermazioni che, almeno in prima approssimazione, possa semanticamente rappresentare il concetto
oggetto di investigazione.
 Per valutare poi l'unidimensionalità di questo primo gruppo di item (la loro appartenenza ad una
comune dimensione sottostante) Likert propone due tipi di item analysis: l'analisi delle correlazioni ed
una strategia fondata sulla ricerca della coerenza interna di una batteria di item.
 La scala Likert è di fatto la più utilizzata in psicologia. È costituita da una serie di item nei confronti dei
quali il rispondente deve dichiararsi in accordo o in disaccordo. Solitamente è una scala a 5 o a 7 punti e
l’assunto è che vi sia una relazione monotòna tra ogni item e l’atteggiamento: più una persona è
d’accordo con un item, più è d’accordo con l’atteggiamento generale.
 Il limite di Likert, che Guttman tenta di superare, è proprio l’unidimensionalità della scala. Altri limiti
sono:
- Response set: fornire sempre la stessa risposta in modo meccanico
- Acquiescenza: tendenza a dichiararsi sempre d’accordo con tutte le affermazioni che vengono
sottoposte
- Reazione all’oggetto: il soggetto non riesce a separare l’affermazione dall’oggetto
- Falsa doppia negazione: l’item è posto al negativo, e l’intervistato risponde “disaccordo”
(negazione) affermando l’item stesso
44
- Curvilinearità: la formulazione di un item produce la scelta della stessa alternativa di risposta da
parte di due soggetti, pur avendo essi un’opinione opposta sul tema in questione

Scala Guttman
 Il suo è un approccio centrato sulle risposte.
 L’obiettivo è avere una serie di item ordinati secondo l’estremità dell’atteggiamento che esprimono. Ad
es: Sposerei un rom; inviterei a cena un rom; mi siederei accanto ad un rom in un bus; vivrei nella
stessa città in cui vivono alcuni rom.
 In questo modo, la risposta positiva ad un item implica risposta positiva agli item precedenti; la risposta
negativa implica risposte negative agli item successivi.
 Il soggetto ottiene un punteggio corrispondente al livello dell’item più estremo cui ha dato risposta
positiva.
 Il vantaggio di questa scala è che è possibile, a partire dal risultato finale, risalire alle risposte fornite dal
rispondente ai singoli elementi della scala: per questo motivo si parla di Riproducibilità (riprodurre le
risposte alle singole domande).
 Gli svantaggi sono che:
- Il punteggio si basa sull’ordinamento degli item (scale cumulative), quindi si tratta di una
misurazione di livello ordinale.
- Non conosciamo la dimensionalità della scala e quindi vi sono conseguenti problemi di validità di
costrutto.
- Non è possibile calcolare l’attendibilità intesa come coerenza interna su questi punteggi.
- L’ordinamento degli item non rappresenta bene la teoria psicologica degli atteggiamenti, che indica
l’atteggiamento come un continuum valutativo di un oggetto, non come un ordinamento di
comportamenti o opinioni.
- Nello sviluppo della scala si seguono delle considerazioni empiriche per selezionare gli item invece
che teoriche, ovvero si selezionano gruppi di item che si avvicinano ad una configurazione a
“scalogramma” senza sapere se gli item sono effettivamente rilevanti per il costrutto
- Il modello risulta rigidamente deterministico di fronte ad una realtà sociale interpretabile solo
attraverso modelli probabilistici. Questo limite viene superato grazie alle scale di Rasch.

Scala Thurstone
 Il suo è un approccio centrato sugli stimoli. Si tratta di una misurazione di livello “variabile ad intervalli”.
 Ogni item di una batteria è valutato da un gruppo di esperti, i quali distribuiscono gli item su una scala a
11 punti. Si tenta di ottenere una scala in cui siano presenti affermazioni che coprono tutto l’arco
dell’atteggiamento, dalle affermazioni più favorevoli alle meno favorevoli.
 Si differenzia dalla scala di Guttman in quanto considera l’atteggiamento come continuo e distribuito
normalmente. Come per la scala Guttman, ogni item misura una particolare porzione del costrutto.
 Thurstone utilizza la legge del “giudizio per confronto” fondata su un costrutto ipotetico; questo
rappresenta l'impressione che riceve un individuo di fronte ad uno stimolo, la sua reazione quando gli
viene chiesto di esprimere un giudizio su quello stimolo rispetto a una certa proprietà, attraverso una
domanda del tipo: “in che misura lo stimolo possiede l'attributo a cui lo riferiamo?”
 Ad es. immaginiamo di voler valutare una serie di occupazioni (stimoli) in termini di prestigio:
l'impressione che riceve il soggetto, rispetto al prestigio, per ciascuna occupazione costituisce un
processo discriminale.
 Se un dato stimolo viene presentato più volte allo stesso soggetto, si può ragionevolmente pensare che
questi non attivi sempre lo stesso processo discriminale; analogamente, se lo stimolo viene presentato
ad un gruppo di individui, non è detto che solleciti la stessa reazione in ciascuno di essi.
 Il processo discriminale (la reazione) che si presenta con maggiore frequenza viene chiamato “processo
discriminale modale”; esso costituisce il valore scalare dello stimolo, il punto che individua sul
continuum la sua posizione.
 Gli svantaggi sono sia pratici (bisogna coprire tutto l’arco dell’atteggiamento con punteggi da 1 a 11. È
difficile trovare un gruppo di giudici che raggiunga un buon accordo su una categorizzazione così
45
complessa) sia teorici (gli atteggiamenti non sembrano conformarsi al modello di Thurstone ed è un
problema avere un item valido solo per alcuni porzioni del tratto di atteggiamento che si sta
studiando).

MODULO 5 – VALIDITÁ

Si hanno le seguenti forme di validità:


 Validità della ricerca (o dell’indagine): 1) interna; 2) esterna; 3) di costrutto; 4) statistica; 5) ecologica
 Validità della misurazione (o dello strumento):
- Rispetto alla traduzione
o Facciata/esteriore;
o Contenuto/interiore/di concetto;
o Costrutto/teorica/in rapporto ad una funzione
- Rispetto al criterio
o Di criterio (predittiva e concorrente)
o Convergente/congruente;
o Discriminante/divergente;
o Nomologica

Validità della ricerca/indagine: secondo un’accezione generale, riguarda la solidità e l’attendibilità di una
ricerca. Ciò significare postulare una corrispondenza fra mondo reale e conclusioni dell’indagine.
1. Validità interna
 Indica la possibilità di stabilire una relazione causale fra le variabili, di modo che una modifica applicata
alla V.I. causi una modifica nella V.D.
 Per essere considerata causale, la relazione deve soddisfare due requisiti:
- La direzione, ovvero la simmetria: occorre la certezza che il cambiamento sulla V.I. è causa dei
cambiamenti sulla V.D. e non viceversa. La direzione è ricavata dalla catena temporale: se la
modifica della V.I. precede la modifica della V.D., si può ragionevolmente supporre che sia stata la
V.I. ad influire sulla V.D.
- L’assenza di fattori di confusione: implica il controllo di tutte le variabili potenzialmente in grado di
influire sulla relazione causale, e dunque la prova che le modifiche della V.D. sono determinate
direttamente da quelle della V.I. e non dipendono dall'influenza di variabili di disturbo.

Minacce
 Selezione: il gruppo sperimentale e quello di controllo devono essere equivalenti rispetto a tutte le
variabili d’interesse. Se i due gruppi non risultano equivalenti (per fattori come motivazione, livello di
intelligenza) ogni effettiva differenza rilevata nel post test può essere erroneamente attribuita al
trattamento.
 Mortalità: perdita o defezione differenziale dei soggetti nei due gruppi. Non vi sono procedimenti di
controllo sufficientemente efficaci, anche se si possono effettuare le prove in tempi molto ravvicinati in
modo da limitare l’allontanamento dei soggetti.
 Storia: eventi, anche personali, che verificandosi durante il periodo di compimento dell’esperimento
producono confusione sul rapporto causale tra le variabili sperimentali. Si verificano in particolar modo
negli esperimenti con pre e post-test. Per contrastarla:
- Casualizzazione delle condizioni sperimentali: distribuire equamente le più importanti fonti di
errore tra i gruppi sottoposti ad esperimento
- Controllo della costanza: mantenere costanti, il più possibile, le condizioni delle sperimentazioni,
per tutti i soggetti e per tutto il periodo sperimentale, ad eccezione del trattamento
46
- Unica sessione e stessa situazione (per mantenere costanti e comuni a tutti i soggetti le distorsioni,
dovute a sessioni sperimentali diverse e a situazioni differenti); riduzione del tempo tra pre-test e
post-test
 Maturazione: cambiamenti che avvengono con il trascorrere del tempo, di ordine biologico
(coordinazione, fame, fatica) e psicologico (stanchezza, noia, nuove conoscenze, motivazione,
interesse). Per contrastarla: misurazioni ripetute ad intervalli costanti, avvalendosi sempre di un gruppo
di controllo.
 Strumentazione: variabilità dovuta alla struttura degli strumenti e agli sperimentatori; se, ad es., il
somministratore nel post-test è diverso da quello del pre-test, le differenze riscontrate possono essere
dovute, oltre che al trattamento, alla sostituzione degli strumenti, degli sperimentatori o di entrambi.
Per contrastarla: mantenere costanti tutte le variabili della sperimentazione.
 Effetto statistico di regressione verso la media: tendenza statistica dei punteggi estremi a ritornare
verso la media; è difficile ripetere due volte una prova veramente scadente. Il ricercatore potrebbe
attribuire i miglioramenti al trattamento quando in realtà è semplicemente avvenuta una regressione
statistica. Per contrastarlo: estrarre in modo casuale, dalla stessa popolazione, un gruppo di controllo
che mantenga le caratteristiche nel tempo per valutare i cambiamenti dovuti alle elaborazioni
statistiche.
 Effetto delle prove: partecipare alle stesse prove sperimentali più volte produce un effetto di
apprendimento che può influire sui risultati delle prove successive. Per contrastarlo:
- Far concepire il pre-test come un evento ordinario della vita dei gruppi,
- Eliminare il pre-test quando l’equivalenza dei gruppi è assicurata dalla scelta casuale dei singoli
partecipanti e la loro numerosità è conforme alle regole del campionamento;
- Utilizzare il disegno di Salomon, che prevede il controllo degli effetti del pre-test.
 Interazioni: fra selezione e storia, selezione e maturazione ecc. gli effetti di confusione agiscono in
modo interdipendente producendo effetti nuovi e diversi da quelli che provocano da soli.

2. Validità esterna
 Indica la possibilità di generalizzare la relazione riscontrata fra le variabili di una certa ricerca anche ad
individui e contesti diversi.
 Per ottenerla:
- Replicare la stessa ricerca, modificando una o più variabili; si ottiene un’attendibilità (reliability),
che richiede però ingenti sforzi, risorse e tempi quindi non è un metodo molto praticato.
- Scegliere un campione di ampiezza adeguata e con caratteristiche simili a quelle della popolazione
dalla quale i soggetti sono estratti; l’ampiezza del campione è in relazione diretta con la probabilità
che esso rappresenti l'intera popolazione, di conseguenza più grande è il campione maggiore sarà
la sua rappresentatività.
 Per aumentarla:
- Usare misurazioni non intrusive
- Raccogliere i dati prima che i soggetti si accorgano che il ricercatore ha iniziato il suo lavoro
d'indagine
- Quando è possibile, condurre la ricerca in condizioni naturali, che presentano maggiori garanzie
degli studi di laboratorio per la validità esterna.
 È comunque importante ricordare che non tutti gli esperimenti sono condotti per generalizzare i dati,
ad es. si può condurre un esperimento per comprendere se un certo evento può accadere, e non se
accade nella vita di tutti i giorni.

Minacce
 Limiti della validità di popolazione e del campione: difficoltà nel reperimento dei soggetti che rientrano
nella popolazione della ricerca.
 Limiti della validità temporale: variazioni stagionali, cicliche, dell’individuo. Ad es., gli studenti e i
docenti durante il periodo estivo (variazione stagionale) non sono presenti a scuola, quindi una
campagna pubblicitaria contro il bullismo sarebbe vanificata.
47
 Utilizzo del pre-test (che può limitare anche la v. interna): produce nel soggetto sperimentale una certa
maturazione per la quale egli affronterà il post-test in modo diverso dal soggetto che non è stato
sottoposto al pre-test.
 Nei disegni a misure ripetute: ripetizione delle prove che può provocare effetti di confusione dovuti
all’ordine e alla sequenza.
 Tendenza dei soggetti sperimentali a rispondere in modo compiacente in assenza di qualsiasi
intervento dello sperimentatore.
 Mancanza di conoscenza di alcuni parametri importanti dei soggetti partecipanti alla sperimentazione.

3. Validità di costrutto
 Grado in cui i vari elementi che compongono il processo sperimentale, ovvero la struttura concettuale,
le variabili e gli indicatori, riflettono accuratamente il costrutto che si intende studiare e non altri
concetti.
 È dunque necessaria una definizione chiara ed univoca del costrutto astratto in modo da identificare
altrettanto chiaramente gli indicatori appropriati.
 È simile alla validità interna.
 Per raggiungerla si devono escludere altre possibili spiegazioni teoriche dei risultati ottenuti.
 Ancora prima di iniziare l'esperimento, garantisce la congruenza tra variabili teoriche e variabili
operative.

4. Validità statistica
 Controlla, attraverso l'applicazione di specifiche tecniche statistiche, che i risultati della ricerca non
siano dovuti al caso ma ad un'effettiva relazione causale tra le variabili, e quindi alla diretta
manipolazione della V.I.
 È collegata alla validità interna: entrambe hanno come scopo la verifica del rapporto causale tra le
variabili sperimentali. Nella pratica degli esperimenti, i risultati sono spesso caratterizzati da un’ampia
variabilità (unità sperimentali diverse sottoposte allo stesso trattamento forniscono risultati diversi) che
può essere valutata mediante i metodi statistici. Ciò può dipendere:
- Dalle caratteristiche dei soggetti sottoposti a trattamento che non sono state o non possono essere
controllate.
- Dalla mancata uniformità del modo in cui l'esperimento viene eseguito, o dallo scarso controllo
delle variabili di confusione (dalla mancanza di accuratezza).
- Dal caso
 Raggiunge il suo scopo attraverso il calcolo delle probabilità e l’inferenza statistica che consentono di
valutare, entro certi limiti, la variabilità dei fenomeni che avrebbe luogo se agisse solo il caso. Questi
procedimenti richiedono il confronto fra la variabilità empiricamente osservata e quella teorica,
prevista dal calcolo delle probabilità; se da tale confronto emerge che la variabilità empiricamente
osservata è molto superiore a quella teorica, il residuo può essere spiegato solo stabilendo che oltre al
caso deve aver agito qualche altro fattore, ovvero è plausibile che il trattamento abbia determinato la
variabilità dei risultati.
 Può avere può aver luogo solo dopo che i dati sono stati raccolti, indicando se esiste la necessità di
modificare le condizioni sperimentali e di controllo in successivi esperimenti.

Minacce: riguardano l’errore di misurazione, che risulta “gonfiato”


 Scarsa affidabilità degli strumenti di misura
 Mancata standardizzazione delle procedure di manipolazione della V.I.
 Eterogeneità dei soggetti sperimentali
Per contrastarle
 Strategie generali: si cerca di ridurre la varianza d’errore: con disegni sperimentali con prove ripetute,
gruppi omogenei ecc.
 Strategie specifiche: vi sono 3 possibilità per aumentare la probabilità di scoprire un vero rapporto tra
le variabili studiate:
48
- Aumentare il livello di significatività: considerando però che aumenta la probabilità di incorrere
nell’errore di II tipo (accettare l’ipotesi nulla quando è falsa)
- Ampliare l’intervallo tra i valori della V.I. aumentando la grandezza dell’effetto. Ad es. se si studia
l’apprendimento con un lista di parole che devono poi essere apprese dal soggetto, si devono usare
liste con parole di ampiezza molto diversa.
- Ridurre l’errore casuale: riducendo gli errori dipendenti dal campionamento (derivanti
dall’assegnazione dei soggetti alle condizioni sperimentali, dalla somministrazione delle condizioni,
dalla misurazione della V.D.).

5. Validità ecologica
 Riguarda la percezione del soggetto sperimentale sia verso il compito sia verso l’ambiente durante lo
svolgimento della sperimentazione e la possibilità di generalizzare i risultati alla vita quotidiana
 Minacce: contesto laboratoriale che, con la presenza di oggetti sconosciuti o poco familiari, rende poco
naturali le prestazioni del soggetto; tutto ciò che impedisce allo sperimentatore di conoscere in che
modo il soggetto percepisca la situazione.
 Spesso, all’aumento della validità ecologica (maggior vicinanza al contesto reale) diminuisce la validità
interna (rigoroso controllo delle variabili).

Il controllo
Soprattutto nella ricerca sperimentale, è inscindibile dalla validità: alcune strategie:
 Ambiente di ricerca (setting) adeguato: il laboratorio rappresenta la condizione ideale in quanto
- Permette di tenere sotto controllo/eliminare le variabili estranee
- Permette di mantenere costanti tutte le altre variabili non eliminabili in quanto si sottopongono i
soggetti alle stesse prove, nello stesso luogo, con lo stesso sperimentatore, nello stesso momento
della giornata ecc.
- Aumenta il controllo sulla V.I.
 Singolo cieco per i soggetti sperimentali: essi possono essere influenzati da motivazioni diverse,
possono avere diversi rapporti con lo sperimentatore ecc. Usando il singolo cieco si nasconde ai
soggetti lo scopo generale della ricerca e la condizione alla quale ognuno di essi è sottoposto.
 Doppio cieco per il ricercatore: inconsapevolmente, questi può influenzare il comportamento dei
soggetti. La soluzione è ridurre al minimo i contatti diretti fra ricercatore e partecipanti usando il
doppio cieco: il collaboratore che gestisce il rapporto con i soggetti dovrà essere all’oscuro dell’ipotesi
di ricerca e della formazione dei gruppi.
 Selezione dei campione e randomizzazione per le condizioni: è necessario selezionare, in modo casuale,
un campione convenientemente numeroso dalla popolazione, che sia di esso rappresentativa. Se si
lavora con un numero alto di soggetti essi vengono assegnati alle condizioni sperimentali in maniera
casuale randomizzata, in caso contrario si usa
- Il pareggiamento: si distribuiscono equamente fra i gruppi le variabili di disturbo conosciute o
sospettate di esserlo.
- Il metodo dei blocchi: si abbinano le caratteristiche dei gruppi, ad es. si compongono gruppi sulla
base del QI.
 Disegno entro i soggetti: a ciascun soggetto viene applicata ogni condizione dell’esperimento.
 Bilanciamento e controbilanciamento per gli effetti di ordine e sequenza: si combinano per rotazione le
modalità di una singola variabile. Negli esperimenti in cui ciascun soggetto è sottoposto a più condizioni
sperimentali, infatti, è possibile che l’esecuzione delle prime prove influisca sui risultati di quelle
successive
- Effetto dell’ordine: dovuto all’ordine secondo il quale i soggetti sono sottoposti alle condizioni
sperimentali; le loro performance sono influenzate dalla posizione piuttosto che dalla prova in sé,
per motivi legati ad affaticamento, noia ecc
- Effetto della sequenza: cambiamento nel comportamento di un soggetto causato dall’esposizione a
trattamenti sperimentali precedenti, come se la prova precedente lasciasse un residuo che
influenza la prova successiva
49
 Consapevolezza e controllo delle caratteristiche di richiesta (randomizzazione delle caratteristiche
fisiche degli ambienti, esperimento in ambiente naturale, singolo cieco): esse influiscono sul
comportamento del soggetto, favorendo l’assecondamento o il boicottaggio della sperimentazione.

Validità della misurazione/strumento (strutturale)


 Secondo un’ottica generale, un test è valido se misura ciò che dichiara di misurare.
 Validità di contenuto e di facciata non prevedono analisi statistiche vere e proprie
 Diversamente da quanto accade con l’attendibilità, non esiste un singolo indice di validità per un test
(risulta più o meno valido a seconda delle circostanze).

Rispetto alla traduzione


1. Validità di facciata/esteriore
 Inizialmente la valutazione della validità di facciata è stata considerata appannaggio degli esperti, ma
col tempo il focus si è spostato su gruppi di potenziali utilizzatori: riguarda il fatto che il test "sembri
valido" agli esaminandi che lo compilano, al personale amministrativo che ne decide l'impiego, e ad
altri osservatori non tecnicamente formati.
 Può essere valutata da un gruppo di esperti o da un gruppo di soggetti rappresentativo degli individui
cui il test verrà effettivamente somministrato.
 Influenza le percezioni e dunque le performance dei soggetti nella loro compilazione dei test.
 Di fatto, non esiste nessuna relazione logica fra validità esteriore e validità reale: in alcuni casi esse
potrebbero essere correlate positivamente (se il test sembra valido il soggetto è più motivato a
completarlo) mentre in altre circostanze la validità esteriore può rappresentare un vero svantaggio
(soprattutto nell’ambito di selezione del personale, se il test non sembra valido il soggetto può
demotivarsi nel completarlo poiché può pensare che sia irrilevante per la decisione che verrà presa; in
situazioni più gravi, può creare problemi nella risposta, attivando processi di dissimulazione). Può
creare problemi in relazione ai rispondenti soprattutto nel caso di test di performance tipica.
 Riguarda le qualità estetiche/cosmetiche/superficiali/esteriori, ad es. la grafica, il fatto che tutte le
risposte siano su scala Likert a 5 passi (e non 3), l’inchiostro terminato e dunque il fatto che alcuni
termini non siano leggibili.

2. Validità di contenuto/interiore/di concetto


 Grado in cui gli item sono un campione rappresentativo dell’universo del costrutto misurato. La sua
verifica deve essere effettuata al momento della costruzione dello strumento di misura, quindi prima
della raccolta dati e dell’analisi statistica.
 Viene valutata da un gruppo di esperti, ad esempio con
- Il metodo Delphi: metodo strutturato che prevede l’analisi indipendente degli item da parte di
esperti che, per definizione, non dovrebbero mai incontrarsi, di modo che il risultato finale non
venga influenzato dalle loro interazioni e che si riducano rilevanza ed appropriatezza degli items.
- Q sort: i soggetti ordinano gli item, quindi c’è un riferimento sia qualitativo sia gerarchico
- Facets analysis (analisi delle sfaccettature): individuazione degli aspetti basilari del costrutto al fine
di realizzarne una mappa esplicita, stabilendo il peso relativo di ogni parte costitutiva all’interno del
costrutto stesso (affinché la quantità di item sia proporzionale al peso delle varie sfaccettature). Ad
es. se si vuole realizzare una scala sull’aggressività, se ne individuano gli aspetti costitutivi (rabbia,
violenza), le attività (guida, gioco), i contesti (scuola, famiglia, gruppo dei pari) ecc.; si definisce il
peso di ogni aspetto in termini di numerosità degli item.
 Ad es., una verifica di matematica composta solo da quesiti riguardanti le potenze non ha validità di
contenuto rispetto ai polinomi.
 Laddove il dominio degli item è ben definito (ad es. test di performance massima) è più semplice
ricercare la validità di contenuto.
 Viene indebolita da: sotto-rappresentazione e sovra-rappresentazione di un aspetto importante della
definizione del costrutto; inadeguate teorizzazione e definizione delle variabili misurate.

50
 Lo scopo di uno studio di validità di contenuto è: valutare se gli item di un test rappresentino
adeguatamente un dominio di prestazioni; valutare se gli item di un test rappresentino adeguatamente
un costrutto; specificare eventuali carenze del test, o indicare se alcune prove sono inutili o inadatte
per la popolazione di riferimento.
 Lo studio di validità di contenuto del test è necessario anche in presenza di un buon livello di validità
predittiva.

3. Validità di costrutto/teorica/in rapporto a una funzione


 Per “costrutto” si intende un concetto o una definizione teorica astratta riferibile all’individuo
(intelligenza, motivazione, aggressività) che non può essere direttamente osservato ma solo inferito da
ciò che possiamo effettivamente osservare, ovvero i comportamenti dei soggetti. Il processo di
traduzione del costrutto in comportamenti concreti è detto “esplicazione o operazionalizzazione”.
 In questa prospettiva la validità di costrutto rappresenta quanto il test sia connesso al costrutto che
intende misurare, la conformità tra i risultati della ricerca e le teorie che sono alla base della ricerca
stessa, ovvero in che grado una data operazionalizzazione misuri effettivamente il costrutto in esame.
 Ad es., se lo strumento vuole misurare l’intolleranza verso i migranti e l’ipotesi asserisce che sussiste
una relazione fra autostima ed intolleranza, allora avrà buona validità di costrutto se risulterà essere
inversamente correlato con l’autostima.
 Gli strumenti statistici utilizzati per studiare la validità teorica possono essere espressi in termini di:
- Consistenza interna: tendenza di misure diverse a correlare tra loro e ad essere influenzate allo
stesso modo da trattamenti sperimentali;
- Correlazione della misura del costrutto con altre misure relative ad altri costrutti;
- Analisi fattoriale
 Per verificarla si possono usare anche validità convergente e discriminante (le sue specifiche).

Rispetto al criterio
1. Validità di criterio: Grado di associazione fra il risultato del test ed un criterio esterno rilevante. È
ulteriormente specificata in predittiva e concorrente.

1.1. Validità predittiva


 Permette di comprendere quanto un test sia efficace nel prevedere le prestazioni future di un soggetto
in una determinata attività.
 È una specifica della v. di criterio, ovvero indica il grado di associazione fra il risultato del test e un
criterio esterno rilevante che il soggetto ottiene in un momento successivo rispetto alla
somministrazione del test
- Il criterio è la prestazione prevista per il soggetto in funzione dei punteggi ottenuti al test; diviene
di fatto uno standard su cui basare un giudizio in relazione a situazioni differenti, e per questo è
definito criterio.
- Un buon criterio è: rilevante (riflette gli aspetti fondamentali del costrutto che si vuole misurare);
reperibile (facilmente individuabile); con assenza di distorsioni (non devono esservi bias, ad es.
professore che ritiene un bambino studioso perché anche suo fratello lo era); pragmaticamente
vantaggioso (più semplice da usare, ad es. dal punto di vista del calcolo del punteggio).
 Può essere misurata attraverso la correlazione (Pearson) fra queste due misure.
 Ad es. il test di ingresso all’università dovrebbe fornire indicazioni sul comportamento futuro del
soggetto in relazione alle performance accademiche.
 Alcuni college selezionano i futuri studenti in base a caratteristiche di competenza e di Q.I., per essere
sicuri di avere laureati con votazioni molto alte. Diversi studiosi, tuttavia, sostengono che la relazione
tra Q.I e successo accademico non provi la validità del test, poiché queste correlazioni (che dovrebbero
suffragare la validità predittiva del test) sono spiegate in termini di influenza “altra” comune che agisce
sia sul soggetto accademico sia sul test, ad es. la classe sociale di appartenenza, che spiega parte della
variabilità del punteggio del QI e di quello ottenuto in ambito accademico.

51
 Ancora più difficile è valutare la validità predittiva di un test di performance tipica ad es. l’Eysenck’s
personality questionnaire. Una buona misura della variabilità predittiva del nevroticismo sarebbe la
correlazione con il criterio costituito dall’ammissione ad un reparto psichiatrico; un punteggio alto in
questa variabile però potrebbe riferirsi anche a pazienti non psicotici, quindi utilizzare un criterio di
questo tipo potrebbe risultare difficoltoso.

1.2. Validità concorrente


 È una specifica della v. di criterio, ovvero indica il grado di associazione fra il risultato del test ed un
criterio esterno rilevante con la differenza, rispetto alla validità predittiva, che in questo caso la misura
viene eseguita insieme al criterio.
 Ad es.
- All’esame di guida per l’automobile vi è una parte con carta e matita ed una pratica. Il test carta e
matita ha un’alta validità concorrente se molti soggetti che passano la prova scritta passano anche
quella pratica (se la correlazione fra questi due test è alta).

2. Validità convergente/congruente
 Indica la presenza di una relazione statisticamente significativa fra la misura del costrutto tramite lo
strumento da validare e misure relative ad altri costrutti, teoricamente connessi al primo.
 Ad es. se il test misura il costrutto dell’amicalità ha una buona validità convergente quando i punteggi
correlano positivamente con quelli di un altro test che misura ad es. l’apertura mentale.

3. Validità discriminante/divergente
 Corrisponde inversamente alla validità convergente e dunque indica una correlazione negativa alta
(verso -1) fra la misura del costrutto tramite lo strumento da validare e le misure relative ad altri
costrutti, teoricamente non connessi al primo.
 Si effettua una correlazione: ad alti punteggi del costrutto in esame (amicalità) devono corrispondere
bassi punteggi di costrutti teoricamente ad esso non correlati (ansia).

4. Validità nomologica
 Grado con il quale il costrutto si inserisce in una serie di relazioni predittive con costrutti affini e con
criteri di riferimento (reti di relazioni).
 Ad es. il comportamento delinquenziale è inserito nella rete nomologica costituita da costrutti come la
propensione all’aggressione, con il comportamento prosociale, con il disimpegno morale, con i
sentimenti di colpa e riparazione.
 Si calcola mediante il coefficiente di correlazione.
 La rete nomologica di un costrutto viene intesa come validità di processo.

Matrice Multi-Tratto-Multi-Metodo
 Rappresenta un modo per indagare simultaneamente la validità convergente e discriminante,
elaborato da Campbell e Fiske.
 Rappresenta uno dei modi più rigorosi ma meno utilizzati, data la sua complessità
 Per comprendere questa matrice, dobbiamo rivedere le definizioni di v. convergente e discriminante
alla luce della teoria di Campbell e Fiske
- Convergente: metodi diversi di misurazione possono convergere verso la misurazione dello stesso
tratto
- Divergente: stessi metodi di misurazione possono non correlare perché misurano tratti diversi
 Per poter contenere eventuali errori di misurazione, è necessario misurare almeno tre tratti (ovvero tre
caratteristiche, che possono essere rappresentate da atteggiamenti, comportamenti e possono
riguardare sia individui che aggregazioni quali istituzioni, organizzazioni, città, nazioni ecc.) con tre
diversi metodi di misurazione.
 Inoltre, per funzionare, la matrice deve soddisfare tre condizioni:
- I tratti studiati devono essere tra loro correlati (quindi simili)
52
- I metodi non devono essere correlati tra loro (quindi non simili)
- I metodi non devono essere correlati con i tratti

La costruzione della matrice


Identificazione dei tratti: intolleranza verso l’ambiguità, la chiusura cognitiva e l’apertura mentale.
Identificazione dei metodi: per misurare ciascuno dei tratti è possibile utilizzare tre metodi, che differiscono
fra loro per il formato degli item e per le modalità di risposta disponibili per i partecipanti.

I valori della matrice rappresentano coefficienti di correlazione


 I coefficienti di affidabilità dovrebbero rappresentare i valori più alti della matrice: sono due tentativi di
misurare la stessa caratteristica utilizzando lo stesso metodo (stesso tratto e stesso metodo,
monometodo-monotratto)
 I coefficienti di validità dovrebbero essere significativamente diversi da zero e sufficientemente grandi
da incoraggiare ulteriori analisi di validità: sono due tentativi di misurare la stessa caratteristica con
metodi diversi (validità convergenteeterometodo-monotratto EMMT).
 Ciascun coefficiente di validità dovrebbe essere maggiore di tutte le correlazioni eterometodo-
eterotratto (EE) se si trovano sulla stessa riga o sulla stessa colonnale correlazioni EE sono
misurazioni dei tre tratti, accoppiati a due a due, misurati nei due tentativi con due metodi differenti.
 Ciascun coefficiente di validità convergente dovrebbe essere sempre maggiore del corrispondente
coefficiente monometodo-eterotratto (MMET) le correlazioni MMET sono le misurazioni di tutti e tre
i tratti (accoppiati due a due) usando sempre lo stesso metodo.
 Si dovrebbe osservare lo stesso modello di correlazioni all'interno di ciascun triangolo, ossia quelli con
gli elementi che presentano correlazioni tra tratti diversi che utilizzano metodi diversi, ossia quelli che
riflettono correlazioni tra tratti diversi utilizzando lo stesso metodo.

MODULO 6 – ATTENDIBILITÁ

Punteggi grezzi, ranghi centili, punti percentili, standardizzazione e scala Z, scala T


 I punteggi grezzi non possono essere interpretati direttamente e confrontati con altri punteggi, poiché
sono legati alla scala di misura originaria; devono quindi essere convertiti in misure relative.
 Ranghi: le variabili devono essere ordinali e si deve avere una distribuzione ordinata in base ad una
graduatoria. Mediante questo procedimento simuliamo una suddivisione della nostra distribuzione di
dati in 100 parti uguali. Il rango indica la percentuale di dati/soggetti che si colloca in posizione pari od
inferiore rispetto ad un dato punteggio; l’ultimo classificato è contraddistinto dal numero 1,
corrispondente alla percentuale di soggetti con punteggi pari od inferiori rispetto al suo punteggio,
mentre il primo classificato è contraddistinto dal numero 100, corrispondente alla percentuale di
soggetti con punteggi pari od inferiori rispetto al suo. I limiti sono:
- Basandosi su variabili ordinali e non metriche si può conoscere solo la posizione di una certa misura
entro una serie di misure, ma non la distanza che sussiste tra una certa posizione e quella
successiva della graduatoria; non v’è un’unità di misura come accade per le variabili ad intervalli o
rapporti. Come indice di tendenza centrale possiamo far riferimento solo alla mediana.
- Alterazione della distribuzione: v’è un’accentuazione delle differenze tra i punteggi in
corrispondenza della mediana, ed una riduzione delle differenze tra i punteggi collocati alle
estremità
 Punti percentili: non coincidono con il rango. Sono i punteggi sotto ai quali si colloca una certa
percentuali di dati o di soggetti.
 Standardizzazione e scala Z: è la trasformazione dei punteggi grezzi in punteggi standard, consente di
superare i limiti dei ranghi percentili, ottenendo indicazioni relativamente alla posizione dei singoli
punteggi (entro la distribuzione corrispondente) e alle loro distanze. Consente di usare come indice di
tendenza centrale la media e come indice di variabilità la deviazione standard.
53
Standardizzare significa trasformare i punteggi grezzi in punti z, utilizzando una nuova scala (scala Z)
che ha media = 0 e ds = 1. I punti z sono espressi in termini di scarti dalla media.
 Scala T: ideata nel 1922 da McCall, definita T in onore del suo maestro Thorndike. Trasformando i
punteggi grezzi in punteggi T si risolve il problema dei punteggi Z, che possono essere sia positivi, sia
negativi, sia decimali (e creano confusione nell’interpretazione e nella comunicazione al soggetto). Il
punteggio T si ottiene moltiplicando il punteggio Z per 10 ed aggiungendo 50 al prodotto; la scala T ha
quindi media = 50 e ds = 10. Nella pratica, i punteggi T non vanno mai sotto al 10 né tantomeno sono =
0.

Distribuzione normale o gaussiana


 Costituisce il modello di distribuzione maggiormente utilizzato per la misurazione in ambito psicologico,
data la sua adeguatezza nel rappresentare la distribuzione di grandi quantità di caratteristiche non
direttamente osservabili.
 Tale curva ha una caratteristica simile ad una campana.
 Il valore medio si trova al centro della distribuzione, e la curva è simmetrica rispetto ad esso: quindi
media, mediana e moda coincidono.„
 La maggior parte delle osservazioni si concentrano intorno al valore medio: allontanandosi dal valore
medio, la curva si avvicina sempre più all’asse delle ascisse ma non giunge mai a toccarlo: quindi si
possono avere anche pochissime osservazioni che risultano molto distanti dalla media.

I coefficienti di correlazione per l’attendibilità dei test


 Rho di Spearman (o coefficiente di correlazione per ranghi)
 Coefficiente punto biseriale
 Coefficiente tetracorico
 Coefficiente r di Pearson

Attendibilità e validità
L’attendibilità è il limite massimo della validità: una misura non può essere valida più di quanto sia
attendibile. Se la misura ha un’alta attendibilità anche la validità può essere alta, ma se l’attendibilità è
bassa anche la validità è per forza bassa.

Attendibilità (fedeltà, affidabilità):


 Indica il grado di accordo fra misurazioni indipendenti dello stesso costrutto. Lo strumento viene
somministrato a persone diverse, in tempi e luoghi diversi (seppur simili) e quanto più tali misurazioni
convergono, tanto più lo strumento sarà attendibile.
 Rappresenta il grado di precisione/accuratezza col quale uno strumento misura una grandezza (se
dobbiamo misurare una lunghezza prendiamo un metro; se al metro manca un pezzettino perché si è
rotto non è attendibile perché, pur misurando la lunghezza quindi pur essendo valido, non è preciso).
 Quando è applicata al test, ha due significati distinti: stabilità nel tempo e coerenza interna.
- Coerenza interna: grado in cui gli item sono coerenti nel misurare il costrutto in oggetto
- Stabilità nel tempo (test-retest): grado in cui le risposte sono stabili nel tempo.

Attendibilità secondo la teoria classica dei test


L’attendibilità è concepita come il rapporto fra la varianza vera (punteggio vero, σ2V) e la varianza osservata
(punteggio osservato = punteggio vero + errore, σ2V).

54
Ciò equivale a scrivere: coefficiente test-retest come complemento ad 1 del rapporto tra varianza d’errore
e varianza osservata. Minore è la varianza d’errore, maggiore è l’attendibilità del test.

Allo stesso modo, si può considerare l’indice di attendibilità/fedeltà come la correlazione fra punteggio
osservato e punteggio vero, ovvero come rapporto fra un numeratore (sommatoria dei prodotti degli scarti
dalla media dei punteggi osservati X e dei punteggi veri V) ed un numeratore (prodotto fra il numero di
osservazioni e le deviazioni standard dei punteggi osservati X e dei punteggi veri V)

In conclusione: l’indice di attendibilità è il rapporto fra deviazione standard dei punteggi veri e deviazione
standard dei punteggi osservati, ovvero la radice quadrata dell’indice di attendibilità.

Assunzioni di base della teoria classica dei test


 La media degli errori casuali deve essere nulla (uguale a 0). Se fosse maggiore o superiore di 0
esisterebbe un errore sistematico e non un errore casuale che distribuendosi in modo gaussiano ha
media = 0.
 La correlazione tra il punteggio vero V e l’errore casuale E deve essere nulla. L'entità dell'errore di
misura che si commette deve essere indipendente, cioè non deve avere una relazione con l'entità delle
caratteristiche che stiamo misurando. Dobbiamo supporre la stessa probabilità di commettere errori sia
che la quantità del costrutto che stiamo misurando sia grande, sia che sia piccola. In caso contrario, se a
quantità grandi corrispondessero errori grandi e a quantità piccole corrispondessero errori piccoli, o
viceversa, se quindi ci fosse una regola, l'errore non sarebbe più casuale ma sistematico.
 La correlazione fra due errori qualsiasi deve essere nulla. Non è concepibile che un errore, se davvero è
casuale, possa in qualche modo essere legato all’errore commesso nella misurazione precedente,
successiva o in qualsiasi altra misurazione.

Metodi di stima dell’attendibilità


 Ogni metodo di stima produce un coefficiente specifico; nessun indice può essere usato al posto di un
altro prodotto con un metodo diverso. Ogni volta che viene indicato un coefficiente di attendibilità del
test, è necessario indicare con quale metodo è stato prodotto.
 Possiamo raggruppare i metodi in funzione del numero di somministrazioni richieste
- (Almeno) due somministrazioni (stabilità nel tempo): test-retest e forme parallele/equivalenti

55
- Una somministrazione (coerenza interna): split-half e α di Cronbach
 Si può scegliere il metodo anche in funzione della fonte d’errore più rilevante per il test:
- Quando si è interessati alla stabilità del test nel tempo test-retest
- Quando la fonte d’errore è la scarsa corrispondenza fra due forme parallele del test che riteniamo
equivalenti forme parallele
- Quando si è interessati alla coerenza degli item split-half e alfa di Cronbach

Test-retest
 Fa riferimento all’attendibilità intesa come stabilità nel tempo, in relazione alla quale si possono
evidenziare le due dimensioni di
- Stability (stabilità): misura del controllo delle fluttuazioni dei costrutti, ad es. ansia.
- Dependability (affidabilità): misura di quanto il test tenga sotto controllo l’effetto apprendimento e
memoria: se il re-test avviene dopo 1 settimana è possibile che i soggetti ricordino abbastanza bene
gli stimoli, ma se il test è attendibile il soggetto risponde in modo similare non perché ricordi la
risposta, ma perché non è cambiata la caratteristica ad es. della personalità che stiamo misurando
 Consiste nella somministrazione dello strumento in due tempi diversi allo stesso campione. Si calcola la
correlazione fra i punteggi delle due somministrazioni e più il coefficiente test-retest è alto, più lo
strumento è considerato attendibile, minore è l’influenza sui punteggi delle variazioni accidentali.
Le variazioni accidentali nelle prestazioni dei soggetti fra due somministrazioni successive costituiscono
la quota di varianza dovuta agli errori casuali (fattori interni al soggetto o connessi alla situazione
ambientale), che è ineliminabile.
Affinché lo strumento sia stabile il coefficiente di correlazione dev’essere > 0,80.
 Vi sono due assunzioni: la caratteristica misurata dal test è stabile nel tempo, c’è assenza di effetto
pratica/ricordo. La scelta dell’intervallo di tempo che separa le due misurazioni dipende quindi dalla
considerazione di questi due elementi:
- Se l’intervallo è troppo breve, può verificarsi un effetto pratica/ricordo. I soggetti potrebbero
ricordare la prova e replicare le risposte precedenti, anche se in quel momento non si sentono nel
modo dichiarato, non hanno quell’opinione o quella precisa affermazione non è per loro corretta. Il
coefficiente di attendibilità può quindi risultare erroneamente elevato.
- Se l’intervallo è troppo lungo:
o La variabile psicologica misurata potrebbe subire cambiamenti e quindi le misurazioni
potrebbero non essere comparabili. Un costrutto instabile è ad es. l’ansia, uno stabile è
l’amicalità.
o Può verificarsi un effetto legato alla mortalità, soggetti che hanno partecipato alla prima
somministrazione decidono di ritirarsi. La correlazione si basa su coppie di misurazioni, quindi
l’assenza di una di esse provoca un problema cospicuo.

Forme parallele/equivalenti
 È un metodo utile soprattutto nel campo applicativo. Ad es., all’interno di un percorso di psicoterapia si
vogliono avere indicazioni sull’ansia o sulla depressione, misurate con un test somministrato ad
intervalli regolari. Somministrare lo stesso test ripetutamente è svantaggioso perché vi sarebbe un
effetto pratica/ricordo, quindi possono essere utili le forme parallele.
 Si somministrano due versioni parallele del test allo stesso campione. Le due somministrazioni possono
avvenire anche a distanza molto ravvicinata (nella stessa giornata). Si calcola la correlazione delle due
somministrazioni con il coefficiente di equivalenza, che non deve essere < 0,90.
 Per essere paralleli, due test devono essere uguali per quanto concerne:
- Il numero degli item
- Il contenuto degli item (l’uno dev’essere una perifrasi dell’altro)
- La difficoltà degli item
- L’ordine degli item
- La media, la varianza e le itercorrelazioni

56
 Le forme parallele sono test solo formalmente diversi, costruiti indipendentemente ma destinati a
misurare lo stesso costrutto.
 Vantaggi: tende a minimizzare i limiti del test-retest (effetti legati alla mortalità e alla fluttuazione del
costrutto poiché le somministrazioni sono ravvicinate, effetto ricordo poiché gli item sono diversi).
 Svantaggi: dopo aver impiegato moltissime risorse per costruire un test, se ne dovrebbe sviluppare un
altro che sia molto simile per avere una misura ragionevole dell’attendibilità. In misura minore, può
accadere che un soggetto abbia un punteggio superiore in una delle due versioni a causa delle
particolari caratteristiche del test: se ad es. stiamo misurando le competenze matematiche e in una
versione gli item riguardano un contesto maggiormente astratto mentre nell’altra riguardano un
contesto maggiormente applicativo, il soggetto in questione potrebbe riportare un punteggio più
elevato nel secondo caso qualora avesse difficoltà di generalizzazione degli apprendimenti.

Split half
 Utilizzato per valutare l’attendibilità basandosi su una singola somministrazione, si basa sulla coerenza
interna (grado in cui gli item sono coerenti nel misurare il costrutto in oggetto). La coerenza interna
risulta bassa quando una parte del test sta misurando un costrutto e l’altra ne sta misurando un altro,
ed alta quando tutte le parti del test misurano lo stesso costrutto.
 Secondo alcuni, invece, una coerenza interna molto alta è antitetica rispetto alla validità: gli item
coerenti sono altamente correlati fra loro dunque molto specifici. Un test eccessivamente specifico per
il costrutto che si sta misurando non può rappresentare adeguatamente l’universo del costrutto in
esame. Da un punto di vista teorico quest’affermazione sembrerebbe interessante, se non fosse che da
un punto di vista pratico è alquanto improbabile realizzare un test dove gli item correlino con il
punteggio del criterio e non fra di loro.
 È utilizzato soprattutto quando la costruzione di forme parallele di un reattivo è eccessivamente
dispendiosa oppure non è possibile avere gli stessi soggetti per una successiva somministrazione del
test, anche se ravvicinata rispetto alla prima.
 L’uso del metodo dello split half richiede 2 puntualizzazioni: l’errore di campionamento del contenuto è
determinato con meno precisione rispetto alle forme parallele perché si hanno la metà degli item;
l’errore dovuto all’instabilità dei punteggi è minore, dato che le 2 metà del test sono somministrate in
modo quasi contemporaneo.
 Vantaggi: rispetto alle forme parallele, la misurazione è unica dunque i soggetti non devono tornare
una seconda volta per eseguire il test.
 Si suddivide il test in due metà equivalenti seguendo le stesse indicazioni usate per le forme parallele, si
calcola la correlazione (r di Pearson) tra i punteggi ottenuti alle due metà (come avviene per le forme
parallele) e si aggiusta l’attendibilità della metà del test secondo la formula profetica di Spearman-
Brown.
 Questa formula viene utilizzata poiché calcolando semplicemente la correlazione fra le due metà si
ottiene un valore rappresentante l’attendibilità di due test paralleli con k/2 item, mentre noi vogliamo
conoscere l’attendibilità di un test con k item.
 Dato che l’attendibilità del test aumenta all’aumenta del numero di item e diminuisce al diminuire del
numero degli item (se gli item aggiunti/tolti sono paralleli a quelli già esistenti), è stata sviluppata la
formula di Spearman-Brown, detta “profetica” perché consente di stimare quale sarebbe l'attendibilità
del test se venisse aggiunto o tolto un certo numero di item paralleli. Nel caso particolare dello split-
half vogliamo sapere quale sarebbe l'attendibilità del test se il numero di item fosse doppio di quello
dei test paralleli osservati, per cui la formula che ci permette di ottenere il coefficiente di attendibilità
split-half è:

57
Dove:
rsh= coefficiente split-half
Rtt = coefficiente di correlazione fra le due parti del test
2 = numero di volte in cui il test viene allungato
Questa formula ci consente di predire il coefficiente di attendibilità di un test per una numerosità qualsiasi
 La formula inversa, invece, permette di stimare il numero di item necessario per raggiungere un certo
livello di attendibilità prescelto

Alfa di Cronbach
 Assieme allo split-half, consente di valutare la coerenza interna mediante una sola somministrazione
del test ad un gruppo di soggetti.
 L’alfa di Cronbach viene definita come la media delle intercorrelazioni tra tutte le possibili divisioni a
metà del test.
 A differenza del KR20 E KR21 (che vengono utilizzati solo con gli item dicotomici), l’alfa di Cronbach è
una misura generale.
 Varia tra 0 (mancanza assoluta di coerenza) e 1 (coerenza assoluta) ed indica il grado di accordo fra gli
item. Nella prassi i valori tra .80 e .90 sono considerati buoni, quelli tra .80 e .70 discreti. I valori di
coerenza interna dovrebbero comunque essere valutati nell’ambito dell’ampiezza dei costrutti
- Se i costrutti sono ampi, la bassa correlazione inter-item è compensata dalla necessità di un
maggior numero di item (più è ampio il costrutto, più numerose ed eterogenee devono essere le
operazionalizzazioni)
- Se i costrutti sono specifici sono necessari pochi item
 Agli inizi degli anni ’70, Cronbach ha sviluppato un modello statistico complesso per identificare le fonti
di errori di misura denominato Generalizability Theory, la quale rappresenta un’estensione del concetto
di attendibilità secondo la teoria classica dei test.
 Partendo dal coefficiente di attendibilità di un test si può calcolare lo stesso coefficiente per un test con
la metà degli items, con una formula simile a quella profetica di Spearman-Brown.

I metodi migliori per la valutazione dell’attendibilità sono quelli con due somministrazioni (test-retest e
forme parallele): l’alfa di Cronbach e lo split half risentono della numerosità degli item, sono più sensibili
alle manipolazioni esterne del ricercatore (è sufficiente aumentare il numero di item per aumentare
l’attendibilità del test).
Le forme parallele risultano il metodo migliore, in quanto tengono sotto controllo gli svantaggi del test-
retest.

Interpretazioni di un coefficiente di attendibilità


 Ci si può chiedere quanto debba essere alto il coefficiente di affidabilità, e la risposta giusta è
“dipende”. Posto che l’affidabilità è un attributo obbligatorio in tutti i test che usiamo, in alcuni ne
abbiamo bisogno in misura maggiore ed in altri in misura minore.
 Se il punteggio di un test porta con sé implicazioni di vita o morte, allora abbiamo bisogno di tenere
quel test ad un livello di standard elevato, compreso uno standard relativamente elevato per quanto
riguarda i coefficienti di affidabilità. Se, invece, il punteggio di un test è usato regolarmente in
combinazione con molti altri punteggi non è necessario raggiungere standard estremamente elevati di
affidabilità.
 In psicologia clinica, dove i risultati hanno impatti significativi sulla vita del paziente, interessa capire se
i partecipanti beneficiano davvero dell’intervento proposto; si differenzia la significatività clinica dei
risultati (quanto il miglioramento ottenuto da un risultato statisticamente significativo sia utile
nell’ambito clinico, ad es. il pz con disturbi alimentari riesce a perdere 10 kg) da quella che è la
significatività pratica del risultato (quanto il trattamento conduca ad un cambiamento nella vita reale
del soggetto, ad es. miglioramento dell’autostima del soggetto che ha perso 10 kg). In ambito clinico,
quindi, non possiamo accettare un grado inferiore al .70.

58
 L’attendibilità calcolata sull’insieme degli item può portare a distorsioni; ad es. l'HAMD (Hamilton -
Depressione-Rating-Scale) è uno strumento di valutazione esterna per i disturbi depressivi. La criticità
riguarda se un insieme di domande o i punteggi che ne derivano possono davvero rappresentare le
relazioni empiricamente date. Ad es. il pz 1 che è stato valutato dallo psichiatra o dal clinico come una
persona con pensieri suicidi (“Che spera di morire o che si augura di morire in qualche modo”), ma
senza problemi di sonno, secondo questa scala ha lo stesso livello di depressione del paziente 2, senza
pensieri suicidi ma con occasionali “difficoltà ad addormentarsi”. Ciò porta ad una critica nell’uso clinico
di questo strumento.

Attendibilità tra i valutatori (inter-scorer reliability)


 Grado di correlazione fra i punteggi assegnati allo stesso campione da parte di due o più valutatori
indipendenti. Si valuta mediante il K di Cohen.
 È necessaria laddove si debbano codificare comportamenti non-verbali.
 Ad es., nelle metanalisi una parte riguarda la valutazione della qualità dei paper; si ha la necessità di
trovare un accordo fra diversi lettori che devono essere in grado di valutare allo stesso modo la stessa
situazione.

Errore standard di misura


 Può essere considerato come errore specifico di misurazione e del test in generale
 È una valutazione del grado di probabilità che un particolare insieme di misurazioni, ottenute in una
data situazione (come, ad es., in un test), può deviare dai valori reali
 Consente
- Il calcolo della percentuale di volte che le prestazioni cadono all'infuori dell'intervallo di fiducia
poiché permette di determinare un intervallo di fiducia per qualsiasi punteggio ottenuto nel test.
- Il confronto delle differenze dei punteggi ottenuti da due soggetti diversi nello stesso test.
 La sua formula si ricava avendo a disposizione la d.s. del campione normativo e l’attendibilità del test.

Errori nella costruzione del test che lo rendono poco attendibile; indicazioni per la costruzione di un test
Il lavoro di costruzione e taratura, svolto preliminarmente alla somministrazione, è essenziale per definire
la bontà del test; gli item vanno scelti in modo attento, magari con prove preliminari, perché rappresentino
l'area psicologica da valutare e siano graduati in modo opportuno: per livello di difficoltà se si tratta di
prove di efficienza, per grado di accettabilità se le domande riguardano aspetti delicati della personalità o
della patologia. Lo scopo nella costruzione degli item è evitare che la risposta del soggetto risenta di un
“errore” che inficia la valutazione in quanto non consente di stimare adeguatamente competenze o
condizioni 'vere' del soggetto stesso. In tutte le concezioni delle teorie del test vi è una quantità di errore
presa in considerazione (errore casuale, nella quale la direzione è imprevedibile e gli effetti tendono a
compensarsi in una serie di misurazioni), ma questo è un errore sistematico, dovuto ad una procedura o
norma errata che modifica tutte le somministrazioni del test non consentendo un utilizzo adeguato dello
strumento. Un es. di errore sistematico, quindi, è il quesito scritto male o sbagliato. Un es. di errore
casuale: due persone con conoscenze paragonabili ottengono due risultati diversi all’esame dovuti a
variabili come stanchezza, tranquillità, suggerimenti.
Il metodo utilizzato per valutare l’attendibilità può essere scelto anche in funzione della fonte d’errore più
rilevante per il test: quando si è interessati alla stabilità del test nel tempo si può usare il test-retest;
quando la fonte d’errore è la scarsa corrispondenza fra due forme parallele del test che riteniamo
equivalenti si possono usare le forme parallele; quando si è interessati alla coerenza degli item si possono
usare lo split-half e l’alfa di Cronbach.

59
60