Sei sulla pagina 1di 107

🎲

Appunti di Psicometria 2
CAP1: introduzione alla statistica e
ripasso delle basi (lez 1-7)
Cos'è la statistica:
1. una scienza: una branca della matematica che si occupa dell’organizzazione,
dell’analisi e dell’interpretazione di un insieme di numeri o dati. prendere
decisione migliore data una certa informazione disponibile

2. un valore: che risulta dall’applicazione di un algoritmo di calcolo (l’indice


statistico)

3. un metodo o una tecnica: di analisi dei dati (il calcolo della media, una
procedura di calcolo, è una tecnica statistica)

Statistica descrittiva e statistica inferenziale:


descrittiva: Ha lo scopo di descrivere e sintetizzare le caratteristiche di un
insieme di misurazioni (che rappresentano informazioni), attraverso grafici,
tabelle e indici statistici

inferenziale: Ha lo scopo di partire da un insieme di osservazioni per trarre


inferenze su una popolazione, andando oltre i dati raccolti

Termini statistici:
popolazione: è l’insieme di tutti i “soggetti/oggetti” che si vorrebbe studiare

campione: è l’insieme dei “soggetti/oggetti” (estratto dalla popolazione) che si


studiano veramente. deve essere rappresentativo della popolazione di
riferimento

indice statistico o statistica: è la sintesi “matematica” di un certo pensiero


logico che viene applicato alle informazioni (variabili) raccolte su un campione
(in particolare gli indici descrittivi). di solito indicati con lettere alfabeto romano

Appunti di Psicometria 2 1
parametro: è il corrispettivo dell’indice statistico, ma calcolato/stimato sulla
popolazione. di solito indicati con lettere alfabeto greco

costante: Una caratteristica che assume lo stesso valore in tutte le unità


d’osservazione

variabile: Una caratteristica che può assumere valori differenti nelle unità
d’osservazione

Le scale di misurazione
Intro termini:
misurare una proprietà: Assegnare un numero (o un simbolo) alle modalità in
modo che le relazioni tra i numeri (o i simboli) riflettano le relazioni tra le
modalità della proprietà.

scala di misura: indica il tipo di relazione che esiste tra i valori corrispondenti
agli attributi della variabile in esame. Sono importanti perché indicano quali tipi di
analisi sono possibili e sensate. L’interpretazione dei dati varia a seconda della
scala

unità statistica: la misurazione singola, un'osservazione, la cella singola del


programma

Livelli di scale di misura:


1. nominale: suddivisione delle unità statistiche in categorie e basta (questo è
uguale o diverso da quello?). Le categorie le stabiliamo noi e sono distinte,
mutualmente esclusive ed esaustive . Si possono comunque ottenere risultati
interessanti: esempio di antoine e il cane (moda, frequenza semplice, chi
quadro, grafici a barre)

2. ordinale: oltre a dividere in categorie possiamo mettere in ordine e quindi


possiamo definire la relazione di maggiore o minore oltre all'ugualianza, ma non
ha senso parlare di distanze tra le categorie (esempio titolo di studio, classifica)
(moda, mediana, frequenza semplice e cumulata, statistiche sui ranghi, grafici a
barre)

3. a intervallo o intervalli equivalenti: oltre a poter mettere in ordine le categorie,


questa distanza (valore 1) ha significato perchè si utilizza un'unità di misura, ma
non esiste ancora lo zero assoluto ovvero il rapporto tra i valori non ha alcun
senso. Si possono effettuare operazioni algebriche basate sulla posizione, ma

Appunti di Psicometria 2 2
non direttamente sulla proprietà misurata, questo perchè la scala di misura è
arbitraria (serve per dire ad esempio i gradi, dove 14 è il doppio di 7 ma questo
non significa che ci sia calore doppio) (moda, media, mediana, dispersione,
punti z, test t, anova, correlazione, statistica per ranghi, istogrammi)

4. a rapporto: possiamo mettere in ordine le categorie e la distanza tra queste ha


significato, inoltre esiste uno zero assoluto che indica assenza della proprietà e
quindi il rapporto tra i valori ha senso (altezza, peso, età ecc) (moda, media,
mediana, rapporto, dispersione, punti z, test t, anova, correlazione, statistica per
ranghi, istogrammi)

Proprietà di cui tenere conto:


Ogni unità statistica può avere un solo valore per ogni caratteristica misurata

Ogni livello di misurazione superiore include le caratteristiche di quelli inferiori

E’ possibile abbassare il livello di misurazione, perdendo informazioni

Sinossi (esposizione sintetica e sistematica) delle quattro scale

Appunti di Psicometria 2 3
Distribuzioni di frequenza
Come far capire i dati di una statistica descrittiva?
distribuzioni di frequenza: tabelle di frequenza contano quanti elementi
appartengono a una stessa categoria presente in una variabile

semplice: contare semplicemente gli elementi. se si vuole fare la


percentuale: calcolare la percentuale di punteggi per ogni valore. La somma
di tutte le frequenze deve equivalere a N (si applica soprattutto a scale
nominali e ordinali)

cumulata o cumulativa (ogiva): è la somma delle frequenze di una data


categoria e delle categorie che la precedono (si applica da ordinali in poi). è
utile per il calcolo di alcune statistiche perchè permette di individuare
velocemente il numero di punteggi uguali o inferiori a un dato valore. L'ogiva
rappresenta un segmento spezzato su un grafico che si ottiene unendo tutti i
punti della percentuale cumulativa

Appunti di Psicometria 2 4
💡 distribuzione di frequenza su SPSS: analizza → stastistiche descrittive →
frequenze

Ranghi e ranghi percentili (indici di posizione)


Rango: numero che indica la posizione di ciascuna osservazione in rapporto alle
altre. Esprime il numero di casi che ha un valore pari o inferiore a quello osservato

Rango percentile o centile: esprime la percentuale di casi che ha un valore pari o


inferiore a quello osservato ovvero la posizione di un'osservazione all'interno di un
insieme prescindendo dalla numerosità del campione

💡 Trasformazione in ranghi con SPSS: trasforma → rango casi → inserire la


variabile e spuntare "rango" o "rango frazionario come %" per il rango
percentile

Quando operiamo su tabelle di frequenza:

1. Suddividiamo i valori in tre fasce: inferiori, valore di riferimento, superiori

2. Individuiamo la posizione centrale del valore di riferimento (calcoliamo la


mediana, facendo le dovute medie se i valori centrali sono uguali)

3. sommare: frequenze inferiori + posizione centrale del riferimento, si ottiene così


il rango del target

E il rango percentile? E’ la stessa quantità, espressa in percentuale: Rango trovato/


totale x 100

💡 Calcolo dei ranghi con SPSS: trasforma → rango casi → inserire variabile
→ cliccare su "correlazioni" che per SPSS indicano valori uguali →
assegnare un rango alle correlazioni (medio, basso o alto)

💡 Calcolo dei ranghi percentili con SPSS: trasforma → rango casi → inserire
variabile → cliccare su "correlazioni" che per SPSS indicano valori uguali
→ spuntare "rango frazionario come %" oppure analizza → statistiche
descrittive → frequenze → spuntare percentili

Appunti di Psicometria 2 5
Dopo le varie selezioni apparirà una colonna con:

RH: rango

PH: rango percentile

Percentili:
punteggio al di sotto del quale ricade una determinata percentuale di casi
(comprendendo il punteggio stesso)
Qual è il punteggio al di sotto del quale ricade il 15% dei casi? Questo punteggio
rappresenta il quindicesimo percentile

Dopo aver ordinato i valori di una distribuzione si può suddividere l'intera


distribuzione di frequenza in n parti uguali. (se divisa in 100 parti uguali: centili o
percentili)
Calcolare il rango percentile dato un punteggio

trovare l’intervallo di classe in cui il punteggio si trova;

calcolare la frequenza dell’intervallo di riferimento, di tutti gli intervalli inferiori e


di tutti quelli superiori;

trasformare le frequenze calcolate in percentuali dividendo le frequenze per la


numerosità del campione (f/N) e moltiplicandole per 100, per ottenere
rispettivamente I%, L% e H%;

conoscere il limite reale inferiore (LRI) dell’intervallo, ovvero il valore di mezzo


tra il valore più basso dell’intervallo di riferimento e il valore più alto dell’intervallo
immediatamente inferiore (per esempio, se l’intervallo di riferimento inizia da 16
e quello inferiore finisce a 15, l’LRI sarà 15,5) e l’ampiezza dell’intervallo (h);

usare la seguente formula:

🔧 FORMULA PER CALCOLARE RANGO PERCENTILE

Calcolare il punteggio dato un percentile (p)

moltiplicare la percentuale per la numerosità;

Appunti di Psicometria 2 6
determinare l’intervallo in cui il caso è compreso;

conoscere LRI (limite reale inferiore), SFI (somma delle frequenze inferiori
all’intervallo in esame), frequenza (f) e ampiezza (h) dell’intervallo di riferimento

usare la formula

🔧 FORMULA PER CALCOLARE IL PUNTEGGIO DATO UN PERCENTILE

Quantili:
Se dividendo una distribuzione a metà otteniamo la mediana, dividendola in quattro
parti otterremo tre valori corrispondenti ai quartili. Allo stesso modo, dividendo in tre
parti si ottengono i terzili, in cinque i quintili, in cento i centili, e così via.

Primo quartile = 25esimo percentile


Secondo quartile = 50esimo percentile = mediana

Terzo quartile = 75esimo percentile

Tabelle di contingenza:
servono a rilevare la presenza di due variabili in contemporanea

totali marginali: totali per riga e per colonna

totale complessivo: somma di totali marginali per riga e colonna

💡 tabelle di contingenza su SPSS: analizza → statistiche descrittive →


tabelle di contingenza

Distribuzione di frequenza per classi:


Quando i diversi valori della variabile sono molti, può essere utile raggrupparle. La
distribuzione di frequenza per classi perde informazioni. E’ appropriata per
riassumere un insieme di dati, ma non va usata per calcolare la media o altri indici
statistici.
REGOLE:

1. Il numero totale delle classi dovrebbe essere tra 8 e 15

Appunti di Psicometria 2 7
2. Usare un’ampiezza di intervallo di 2, 3, 5 o multipli di 5, scegliendo il valore più
piccolo che soddisfi la prima condizione

3. Gli intervalli devono essere tutti della stessa ampiezza

4. Il punteggio più basso incluso in ciascun intervallo dovrebbe essere un multiplo


dell’ampiezza dell’intervallo

Rappresentazioni grafiche:
grafici a barre e istogrammi

Un altro modo per rendere facilmente comprensibile un insieme di valori è


rappresentarli in forma grafica

1. Per variabili nominali e ordinali: le barre dovrebbero essere separate l’una


dall’altra (perché i valori sono discreti); grafico a barre: generalmente delle
ascisse (asse orizzontale) sono riportati i valori della variabile, sull’asse delle
ordinate (asse verticale) sono riportate le frequenze (o le percentuali) di ciascun
valore

1. Per variabili a intervallo e rapporto: le barre sono adiacenti perchè valori


continui; istogramma

Appunti di Psicometria 2 8
forme delle distribuzioni:
simmetrica: se è speculare rispetto alla metà

asimmetrica: se non è speculare rispetto alla metà: indice di asimmetria


diverso da zero indica che la distribuzione dei punteggi ha una coda a sinistra
(asimmetria negativa) oppure a destra (asimmetrica positiva)

distribuzione rettangolare: se tutti i valori si presentano con frequenza più o


meno uguale, avremo un grafico sostanzialmente piatto

distribuzioni con uno o più picchi: unimodale, bimodale e multimodale

distribuzione normale o gaussiana: tipo di distribuzione simmetrica unimodale


con particolare forma a campana. Importante perchè molti fenomeni hanno
questa distribuzione ed essa è alla base di molte statistiche

curtosi:
forma che la distribuzione assume al centro, standard di riferimento è quella a
campana, curtosi = 0

leptocurtica: più allungata del normale, la frequenza nella parte centrale è


superiore a quella della campana, curtosi maggiore di 0

platicurtica: più piatta del normale, i valori agli estremi sono più elevati che
nella distribuzione a campana e la curtosi è minore di 0

come fare a capire che curtosi abbiamo? test ks: ci dice quante deviazioni standard
la curtosi di quella curva si allontana dalla normale

Altri grafici
Boxplot: media + dispersione

Appunti di Psicometria 2 9
Scatterplot: correlazione

Heatmap: correlazione ampia

Appunti di Psicometria 2 10
Grafici a torta: frequenze

Grafici ramo-foglia

💡 grafici su SPSS: sezione "grafici" per avere i soliti e "builder di grafico" per
costruirne di più particolari

Dispersione e tendenza centrale


indici di tendenza centrale: media, moda, mediana

indici di variabilità (dispersione): varianza e deviazione standard

Indicatore di tendenza centrale:


il valore singolo che meglio rappresenta l’insieme dei valori osservati

Livello nominale: la moda il valore più frequente, può essere unimodale,


bimodale e multimodale. La moda è la categoria non la sua frequenza

Livello ordinale: la mediana (il valore collocato al centro della distribuzione,


50% dei valori è più piccolo della mediana, 50% dei valori è più grande della
mediana). essa non è influenzata da cambio valori agli estremi

Appunti di Psicometria 2 11
se N è dispari: si individua semplicemente il valore in mezzo (N+1)/2

se N pari: il valore che si colloca tra le due posizioni centrali (N/2) e (N/2)+1.
Scala ordinale: la mediana è la coppia di valori. Scala a intervallo o rapporto:
si calcola media dei due valori

Livello intervallo e rapporto: la media (il baricentro, punto di equilibrio): è la


somma di tutti i valori di una distribuzione divisa per la numerosità, è influenzata
dagli specifici valori assunti dalla variabile

💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →


frequenze → statistiche (frequenze per eseguire descrittive che vanno
bene per tutte le scale di misura)

💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →


descrittive o esplora → opzioni (più indicate per variabili misurate su scale
intervalli equivalenti o rapporto perchè contengono delle altrettante
funzioni che sono più utili per descrivere questo tipo di variabili)

💡 OUTPUT: media ritagliata al 5%, intervallo interquartile: differenza tra


valore del terzo quartile e il primo quartile, valori estremi: riporta i 5
punteggi più alti e più bassi della variabile selezionata, è utile per
identificare gli outlier, box plot: ognuno rappresenta la distribuzione della
variabile per ogni gruppo definito da variabile (distribuzione dell'età per chi
preferisce le varie patatine ad esempio). dà la distribuzione grafica delle
persone a seconda di cosa preferiscono, la parte bassa della scatola
corrisponde al 25 percentile, la riga nera la mediana quindi il 50esimo
percentile

Indici di variabilità (o dispersione):


variabilità: il grado in cui i punteggi di una variabile sono simili o dissimili tra loro,
per saperlo possiamo usare gli indici di dispersione che si basano su operazioni
aritmetiche effettuate sui valori. Perciò possono essere usati per dati su scala a
intervallo e a rapporto.
🔧 FORMULA VARIANZA:
Appunti di Psicometria 2 12
La varianza si chiama anche ‘scarto quadratico medio, è la media delle ‘distanze
dalla media’ elevate al quadrato
🔧 FORMULA DEVIAZIONE STANDARD:

La deviazione standard è una misura di “distanza media dalla media”

🔧 FORMULA STIMA DELLA DEVIAZIONE STANDARD:

la varianza/deviazione standard è calcolata sul campione, ma possiamo usare il


campione per stimare la varianza della popolazione. si sottrae 1 così il valore viene
un pò più alto (disperso) dato che verosimilmente non riusciremo mai a valutare tutta
tutta la popolazione, quello che valuteremo sarà la numerosità ideale meno un
pochettino.
Per le variabili misurate a livello intervallo/rapporto possono essere calcolati altri
indici di variabilità:

Campo di variazione (o gamma di oscillazione o intervallo):

la differenza fra il punteggio più alto (massimo) e il punteggio più basso (minimo)
della distribuzione:

campo di variazione = max - min

Appunti di Psicometria 2 13
Questo indice fornisce informazioni poco precise, e talvolta può essere persino
fuorviante, dal momento che i punteggi estremi sono spesso anomali rispetto al
resto della distribuzione. Può comunque essere utile osservare quali sono i valori
minimo e massimo di una distribuzione, per esempio per controllare se sono stati
fatti errori nell’inserimento dei dati o per valutare la presenza di valori anomali

Differenza interquartilica (DI o IQR) e semi-differenza interquartilica (SIQR):

la differenza fra il terzo e il primo quartile e corrisponde al 50% centrale dei valori
della distribuzione:

IQR = Q3 - Q1
Questo indice, come la mediana, è influenzato dai punteggi estremi e, a differenza
del campo di variazione, può essere calcolato anche quando a uno degli estremi
della variabile si trova un intervallo aperto (per esempio, dai 50 anni in su). Dividento
a metà l’IQR si ottiene la semi-differenza interquartilica (SIQR) che corrisponde al
25% dei valori sopra o sotto la mediana. Entrambi gli indici sono poco usati in
psicologia dal momento che non vengono quasi mai utilizzati nelle procedure
statistiche più avanzate.

La variabilità si riferisce alla differenza tra il singolo punteggio e tutto il resto della
distribuzione, ma calcolare la differenza tra ogni punteggio e ciascuno degli altri è
una procedura lunga e complicata, soprattutto con una N grande. La soluzione
potrebbe essere quindi quella di calcolare la differenza, o deviazione, di ogni
punteggio come distanza dal centro della distribuzione. Dal momento che la media è
il miglior indice di tendenza centrale, gli scarti dalla media potrebbero essere una
buona misura di variabilità; tuttavia, si è visto che una delle proprietà della media è il
fatto che la somma degli scarti dalla media è sempre pari a zero. Per ovviare a
questo inconveniente, ci sono due possibili soluzioni:

considerare gli scarti senza il segno (in valore assoluto) e fare la loro media;

elevare gli scarti al quadrato (in modo che siano positivi) e fare la loro media.

Nel primo caso si sta calcolando la deviazione media (DM, MD) o scostamento
semplice medio (SSM):
Nel secondo caso si sta invece calcolando la varianza (sigma elevato al quadro,
var):

Deviazione media o scostamento semplice medio

Proprietà della varianza e deviazione standard:

Appunti di Psicometria 2 14
1. Quando una costante k viene aggiunta (o sottratta) a tutti i valori della
distribuzione, la varianza e la deviazione standard non cambiano

2. Quando tutti i valori di una variabile X vengono moltiplicati per una costante k,
anche la deviazione standard risulterà moltiplicata della stessa costante k. La
varianza risulterà moltiplicata per k^2

💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →


frequenze → statistiche

💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →


descrittive → opzioni

Altre tecniche per descrivere insiemi di dati


Il riassunto a 5 numeri, proposto da Tukey, convoglia molte informazioni sulla
posizione, la variabilità e la forma della distribuzione, attraverso cinque indici:
mediana, Q1, Q3, max e min. Questi valori possono essere riportati in diversi
modi:

diagramma a scatola e baffi o box plot

Il grafico delle medie con errori rappresenta in maniera grafica la media e


la deviazione standard di una variabile

I punti Z (standardizzazione) e la
distribuzione normale:
Punteggio grezzo: il risultato della procedura di misurazione (non ha subìto
trasformazioni). Sono semplici da interpretare se conosciamo la scala su cui sono
misurati
Limiti dei punteggi grezzi:

Non sono facili da interpretare se usiamo scale non conosciute

Non permettono di confrontare variabili diverse

Per superare questi limiti: Usiamo gli indicatori di tendenza centrale e variabilità

Appunti di Psicometria 2 15
Dividiamo lo scarto dalla media per la deviazione standard, per avere una misura di
distanza che si basa sempre sulla stessa unità di misura (questa unità di misura è la
deviazione standard)

Punti Z:
🔧 FORMULA PUNTO Z:

Il punto z perciò esprime quanto il punteggio dista dalla media, usando la


deviazione standard come unità di misura. Il segno indica se il punteggio è più basso
(segno negativo) o più alto (segno positivo) della media. Esso è una misura standard

Proprietà:
La media dei punti z è zero

La somma dei punti z è zero

La deviazione standard dei punti z è 1

Valori negativi indicano punteggi inferiori alla media e valori positivi indicano
punteggi superiori alla media

Standardizzazione:
è la trasformazione di una variabile in punti z
La distribuzione dei punti z si dice “distribuzione standardizzata”. Essa ci permette
di confrontare punteggi provenienti da distribuzioni di frequenza diverse
La standardizzazione di una variabile permette il ricorso alla curva normale standard

💡 punteggi Z su SPSS: trasforma → calcola variabile oppure analizza →


statistiche descrittive → descrittive → scegliere dalla finestra di sinistra le
variabili di trasformare → fare clic su opzione "salva valori standardizzati
come variabili"

Appunti di Psicometria 2 16
Vantaggi dei punti Z
Sono confrontabili con punteggi di altri test e misurazioni

Se hanno una distribuzione normale, si può far riferimento alle tavole della
distribuzione della curva normale

Svantaggi dei punti Z


Hanno la virgola (o punto) decimale

Hanno il segno negativo, perciò si fa ricorso ad altri punti standardizzati

Altre forme di punti standardizzati


Altri forme di punteggi, con media e deviazione standard volute hanno il vantaggio di
non avere più valori negativi (sotto lo zero) e la virgola decimale. Si usano
correntemente in molti test

🔧 FORMULA PER ALTRI PUNTEGGI STANDARDIZZATI


Standardizzati= z ∙ s + M

Punti T = z ∙10 + 50

Punti C = z ∙2 + 5

Punti Stanine (Stanine)


punto z· 2 +5 (9 punti in totale, perché gli intervalli estremi sono aperti)

Punti Sten (standard Ten)


punto z· 2 +5,5 (10 punti in totale)

ATTENZIONE: La conversione in punti T non normalizza la distribuzione!

punteggi Q

Media = 100, sigma = 15 (WAIS) o 16 (Standford-Binet) o 20 (GATB)

Per la batteria GATB, i punteggi standardizzati si ottengono con la formula


Q = z ∙20 + 100

Distribuzione normale o gaussiana

Appunti di Psicometria 2 17
E’ una famiglia di distribuzioni (hanno delle caratteristiche comuni) di frequenza
teorica che vanno da meno infinito a più infinito. è un qualcosa che
immaginiamo, ipotizziamo esista, non è una distribuzione empirica, ossia
qualcosa che è frutto dell’osservazione, però molte delle distribuzioni esistenti in
natura la approssimano

è una distribuzione simmetrica unimodale a forma di campana

l’area sottesa alla curva è uguale a 1 (in termini di percentuali, diciamo che sotto
la curva c’è il 100%) e rappresenta la distribuzione della popolazione totale

possono differire per due aspetti: la posizione (rappresentata da punto centrale


mu) e la variabilità (misurata da sigma)

è nota la proporzione (e la percentuale) di osservazioni che si trovano tra


intervalli stabiliti della distribuzione

💡 Calcolare area sottesa su SPSS: standardizzare i punti e poi trasforma →


calcola variabile → CDFNORM nel pannellino "funzioni"

Determinare dei punti:


Possiamo determinare la percentuale di punteggi compresi tra due valori X1 e X2.
graficamente si tratta di individuare la percentuale di area compresa tra quei due
punti, concettualmente essa rappresenta la probabilità di verificarsi di un punteggio
compreso tra X1 e X2
VALORI NOTEVOLI

Appunti di Psicometria 2 18
Fra -1 e +1 ds è compreso il 68.26% dei casi (circa 2/3)

Fra -2 e +2 ds è compreso il 95,45% dei casi

Fra -3 e +3 è compreso il 99,73% dei casi

ALTRI VALORI NOTEVOLI:

Il 90 % dei casi è compreso fra ± 1, 64 z

Il 95 % dei casi è compreso fra ± 1, 96 z (importante per significatività)

Il 50 % dei casi è compreso fra ± 0, 67 z

Da dove arrivano media e deviazione standard che uso per


standardizzare il punteggio grezzo?
1. arrivano dal campione: in questo caso standardizzo rispetto al campione e il
punto z dà informazioni sulla posizione del punteggio nel campione

2. arrivano dalla popolazione: in questo caso si standardizza rispetto alla


popolazione e il punto z da informazioni sulla posizione del punteggio nella
popolazione

Il test Z: distribuzione campionaria della


media
Distribuzione campionaria della media:
Da una stessa popolazione è possibile estrarre molti campioni diversi con una certa
media di popolazione (mu). La maggior parte di questi campioni ha una media che si
avvicina alla media della popolazione, ma le medie di alcuni campioni si discostano
dalla media generale.
Per ciascuno di questi campioni si calcola la media e si costruisce la distribuzione di
frequenza di queste medie ottenendo la distribuzione campionaria della media
è la distribuzione di frequenza di tutti i possibili campioni della stessa dimensione,
estratti da una popolazione

Caratteristiche di questa distribuzione:


È una distribuzione teorica

Diversa dalla distribuzione del campione

Appunti di Psicometria 2 19
Diversa dalla distribuzione della popolazione

Serve nell’inferenza statistica per la stima puntuale e intervallare (per stimare


valori singoli o intervalli di valori probabili)

media: è uguale a quella della popolazione da cui sono estratti gli elementi
(MUm = MU)

dispersione: è minore rispetto a quella della popolazione da cui sono estratti gli
elementi (sigmam = sigma/radice di N) perchè medie estreme sono meno
probabili di singoli valori estremi. La deviazione standard delle medie è anche
conosciuta come errore standard della media e indica quanto è affidabile
ciascuna media campionaria. Valori piccoli indicano che estraendo più campioni,
le medie sarebbero abbastanza vicine tra loro, al contrario valori grandi indicano
una dispersione attorno a MU. Indica di quanto, tipicamente, il valore della
media osservato nel campione (la statistica osservata) si discosta dal valore
vero della media nella popolazione (il parametro che non conosciamo): è detto
ERRORE perchè indica quanto impreciso è nel rappresentarmi la popolazione

🔧 FORMULA ERRORE STANDARD DELLA MEDIA

forma: è approssimativamente normale (se la popolazione ha forma normale o


la numerosità dei campioni è maggiore o uguale a 30).

1. Se una popolazione è distribuita normalmente per una variabile, anche la


corrispondente distribuzione campionaria è distribuita normalmente

2. Teorema del limite centrale o legge dei grandi numeri: all’aumentare


dell’ampiezza dei campioni, la forma della distribuzione campionaria della
media si avvicinerà sempre più alla distribuzione normale e la media
campionata si avvicina a quella della popolazione, (e la dispersione
diminuisce) indipendentemente dalla forma della distribuzione nella
popolazione. Quindi quanto più la distribuzione della variabile nella

Appunti di Psicometria 2 20
popolazione si discosta dalla normale, tanto maggiore sarà la dimensione
campionaria richiesta perché la distribuzione campionaria si approssimi alla
normale

Riepilogo delle tre distribuzioni:


distribuzione della popolazione: punteggi di tutti gli individui nella popolazione,
potenzialmente qualsiasi forma ma spesso normale

distribuzione del particolare campione: punteggi degli individui in un singolo


campione, potenzialmente qualsiasi forma

distribuzione delle medie: medie dei campioni estratti casualmente dalla


popolazione, forma approssimativamente normale se in ciascun campione N >
30 o se la popolazione è normale.

I punti z per le medie campionarie


Possiamo calcolare la probabilità di estrarre un campione con una media compresa
tra XM1e XM2, data una certa distribuzione campionaria della media

1. Se conosciamo μ e σ della popolazione, prima di tutto calcoliamo i parametri


della distribuzione campionaria, usando queste formule:

Mx = μ e σx = σ/ radice di N

2. Poi possiamo calcolare la probabilità di estrarre dalla popolazione un campione


con media uguale o superiore a un determinato valore Xmedio usando la
formula dei punti z: (Mx - μ)/σx

3. confrontare questa probabilità con z critico per accettare o meno l'ipotesi nulla
osservando il valore p rispetto alla significatività alfa

che probabilità ho di estrarre campioni con medie uguali o


superiori a quella del mio campione?
Più il campione estratto è piccolo, più è alta la variabilità della distribuzione
campionaria. Se voglio avere una buona probabilità di un estrarre un campione
con una media simile a quella della popolazione, questo campione deve essere
abbastanza grande

A parità di dimensione (numerosità), i campioni con media più lontana dalla


media della popolazione sono meno probabili di quelli con media più vicina a
quella della popolazione

Appunti di Psicometria 2 21
Stima di parametri:
Quando non conosciamo la media della popolazione, la miglior stima di questa
media è la media del campione

Quanto è accurata questa stima? Ovvero, quanto ci stiamo sbagliando?


Un modo per rispondere è chiedersi: Le medie dei campioni quanto si discostano
dalla media della popolazione? Indicatore di variabilità delle medie campionarie:
l’errore standard σM

Dato che spesso la media del campione non è esattamente uguale alla media della
popolazione, una stima puntuale non sarebbe molto precisa perciò si utilizza
l'intervallo di confidenza (CI): un intervallo che includa, con una probabilità
prescelta, il valore della media della popolazione

Calcolare l'intervallo di confidenza o di fiducia:


1. Scegliere la percentuale di confidenza (es. 95% CI; 99% CI)

2. Calcolare l’errore standard: trovare la deviazione standard della distribuzione


delle medie con la formula

3. Individuare i limiti superiore e inferiore dell’intervallo di confidenza, in termini di


punti z (per 95% è 1.96)

4. Calcolare i punteggi grezzi corrispondenti:

🔧 FORMULA PUNTEGGI GREZZI:

Esso indica l’intervallo in cui, nel 95% dei casi, si trova il parametro stimato
Il 99% CI comprende il valore vero della popolazione nel 99% dei casi

CAP 2: Correlazione
Covarianza

Appunti di Psicometria 2 22
Un modo per esprimere il movimento di una variabile consiste nel quantificare la sua
variabilità intorno alla media; tanto più la variabile si muove, tanto più ampi saranno
gli scostamenti dalla media. Come è noto, la media degli scostamenti al quadrato è
la varianza (e la radice quadrata della varianza è la deviazione standard). Ogni
variabile esprime quindi una certa variabilità misurabile mediante il calcolo della
varianza.
Si può esprimere il grado di movimento che due variabili hanno in comune attraverso
la
covarianza: questo indice esprime il grado di variazione comune alle due variabili,
ovvero ci dice quanto esse variano assieme. è la media dei prodotti degli scarti dalle
rispettive medie
La covarianza aumenta sia per punteggi entrambi positivi nelle due variabili che per
punteggi entrambi negativi nelle due variabili; al contrario, la covarianza diminuisce
quando i punteggi sono positivi in una variabile e negativi nell’altra.

È analoga alla varianza, ma coinvolge due diverse variabili: X e Y come due variabili
diverse.

🔧 FORMULA DELLA COVARIANZA

L’indice di covarianza è positivo quando c’è concordanza tra gli scarti. Al contrario,
quando c’è discordanza tra gli scarti l’indice è negativo: le due variabili sono
associate negativamente, perciò al crescere di una, l’altra decresce. L’indice di
covarianza è pressoché nullo (quasi zero) quando le variabili non sono associate
(per alcuni casi c’è concordanza, per altri discordanza).
La covarianza, anche se usata spessissimo nelle analisi statistiche, non è facilmente
interpretabile: essa dipende infatti dalla scala di misura delle variabili. Per palliare
questo problema, si è trovato un indice di associazione che non dipende dalla scala
di misura delle variabili, ovvero il coefficiente di correlazione.

Proprietà della covarianza

Appunti di Psicometria 2 23
A differenza del coefficiente di correlazione, che è un indice e ci permette di
valutare sempre la forza della correlazione lineare, a prescindere dall’unità di
misura, la covarianza non dà nessuna indicazione a questo proposito. Una
covarianza di 0,16 potrebbe essere vicinissima allo zero o rappresentare una
relazione molto forte

A differenza del coefficiente di correlazione, la covarianza non ha limiti, né


inferiori né superiori. Possiamo anche considerare che il coefficiente di
correlazione è una covarianza standardizzata

Correlazione
associazione tra i punteggi in due variabili misurate su scala a intervalli o rapporto

grafico: scatterplot o grafico a dispersione

retta bisettrice primo e terzo quadrante: correlazione positiva

retta bisettrice secondo e quarto quadrante: correlazione negativa

puntini dispersi senza retta: correlazione inesistente

puntini a U: correlazione non lineare

Correlazione lineare tra due variabili misurate almeno a livello di scala a intervallo

Come calcolarla: coefficiente di correlazione


Coefficiente di correlazione di Pearson (r): forza della correlazione tra due
variabili, il segno indica se è diretta o inversa

Appunti di Psicometria 2 24
🔧 FORMULA COEFFICIENTE DI PEARSON:

r è un valore compreso tra -1 e 1 dove il valore assoluto indica correlazione perfetta


e il segno indica correlazione positiva o negativa (direzione della relazione), mentre
lo zero indica assenza di un legame lineare tra variabili. Esso rappresenta con un
numero la relazione lineare tra due variabili (misurate a livello di scala a intervallo o
a rapporto)

correlazione positiva indica che all’aumentare di una aumenta anche l’altra

la relazione negativa o inversa indica che all’aumentare dell’una, l’altra


diminuisce

Esempi di correlazione positiva


Peso e altezza nei bambini

Peso e statura nei bambini

Peso di un automobile e consumo di carburante per ogni km di spostamento

In campo psicologico:

Abilità numerica e conoscenza di vocabolario

Ore di studio e voti scolastici

Esempi di correlazione negativa


Anzianità di un’auto e risparmio per il trasporto

Peso di un’auto e numero di chilometri per litro

In campo psicologico:

Punteggio in un test di abilità e numero di errori commessi

Ore di studio e ore di attività lusorie negli studenti

Giornate di assenze da scuola e voti scolastici

Appunti di Psicometria 2 25
Rappresentazioni della correlazione
Ogni relazione tra variabili può essere rappresentata graficamente al fine di capirne
le proprietà e le caratteristiche. Per quanto riguarda la correlazione abbiamo tre
rappresentazioni possibili:

1. la rappresentazione cartesiana (diagramma di dispersione);

2. la rappresentazione vettoriale: ogni variabile può essere rappresentata


mediante un vettore di lunghezza uguale alla sua deviazione standard, e
l’associazione tra due variabili si può rappresentare mediante l’angolo tra i due
vettori; più l’angolo tra i due vettori è acuto, più l’associazione sarà forte

3. la rappresentazione in termini di varianza condivisa (diagrammi di Eulero-


Venn): maggiore è la varianza, più grande è il cerchio. Se due variabili
condividono della varianza, cioè se covariano, le loro varianze saranno in parte
sovrapposte

Appunti di Psicometria 2 26
Il quadrato della correlazione, chiamato (R quadrato), ci indica la proporzione di
varianza condivisa dalle due variabili; se moltiplicato per 100, ci indica la percentuale
di varianza condivisa dalle due variabili

Intensità dell'associazione (indicazioni di massima):


.10: effetto piccolo

.30: effetto medio

.50 effetto grande

💡 Correlazione con SPSS: analizza → correlazione → bivariata →


selezionare quale tipo "pearson" solo per intervallo e rapporto.

💡 OUTPUT: tabella statistiche descrittive: N, dev standard e media.


tabella con le combinazioni e il valore di r per ciascuna (sulle diagonali c'è
sempre 1 perchè grado di correlazione di una variabile con sè stessa è
sempre 1)

Coefficiente di correlazione parziale


Il coefficiente di correlazione parziale indica la correlazione tra due variabili a cui
viene tolta l’influenza di una terza variabile, al fine di trovare una stima più accurata
della relazione. La correlazione è perciò calcolata al netto di una terza variabile,
ovvero è calcolata come se la terza variabile fosse costante. Per esempio, se
calcoliamo la correlazione fra “numero di parole conosciute da un bambino” e
“intelligenza” otterremo un certo valore; ipotizziamo che più un bambino è
intelligente più parole conosce e, viceversa, più parole il bambino impara più
aumenta la sua intelligenza. Tuttavia possiamo anche ipotizzare che una terza

Appunti di Psicometria 2 27
variabile, come l’età, possa contribuire ad alimentare la correlazione tra le due
variabili, dato che sia il numero di parole conosciute che l’intelligenza aumentano
con l’età. Se l’età risulta essere correlata con una delle due variabili o con entrambe,
calcolando la correlazione tra il numero di parole conosciute e l’intelligenza con la
variabile età parzializzata (ovvero al netto di età) troveremo che la correlazione le
due variabili diminuirà. Parzializzare significa quindi considerare la variabile età
come se fosse costante, come se tutti i bambini del campione avessero la stessa età
al momento della raccolta dei dati.
🔧 FORMULA DEL COEFFICIENTE DI CORRELAZIONE PARZIALE TRA X E Y
AL NETTO DELL'EFFETTO DI Z

Coefficiente di determinazione
Il quadrato del coefficiente di correlazione (r^2) indica la quota di varianza
comune fra le due variabili. Se moltiplicato per 100, indica la percentuale di varianza
comune fra le due variabili

<0,30 Inifluente, importante solo per ragioni teoriche

0,30 basso
0,40 discreto

0,50-0,60 buono o molto buono

0,70 eccellente
0,80 fantastico

0,90 sospetto

0,90-0,99 stesse variabili, correlazione fra somme delle stesse variabili

Altri coefficienti di correlazione

Appunti di Psicometria 2 28
Non è possibile utilizzare il coefficiente per calcolare la correlazione di Pearson
quando:

Una o entrambe le variabili sono ordinali;

Una o entrambe le variabili non sono distribuite normalmente;

La relazione fra le due variabili non è di tipo lineare.

Ci sono dei valori anomali che modificano notevolmente la relazione

Quindi se ne usano altri:

coefficiente per ranghi rho di Spearman

trasformare i numeri originali in ranghi da 1 a n dove n è la numerosità delle coppie

💡 Trasformazione in ranghi con SPSS: trasforma → rango casi → inserire la


variabile e spuntare "rango" o "rango frazionario come %" per il rango
percentile

tau di Kendall

le cui proprietà psicometriche lo rendono migliore dal punto di vista della


congruenza, ma la cui spiegazione è molto meno intuitiva e facile del rho

coefficiente punto-biseriale

coefficiente fi

Sono strettamente equivalenti al coefficiente di correlazione prodotto-momento di


Bravais-Pearson. Si usano quando una (pb) o entrambe (fi) le misurazioni sono
dicotomiche

biseriale

tetracorico (entrambe dicotomiche)

Quando una o entrambe le variabili sono dicotomiche, ma presuppongono una


distribuzione continua e normale

coefficiente policorico

Si usa con le variabili continue che presuppongono una partizione in più parti (non
solo in due, come per il coefficiente tetracorico), tipica degli item di un questionario.
Si usa generalmente nei programmi di modellistica strutturale (SEM, LISREL).
Richiede molte centinaia di casi per il calcolo

Appunti di Psicometria 2 29
quartetto di Anscombe

Sono quattro insiemi di coppie, la cui correlazione è sempre pari a 0,816, ma hanno
una relazione molto diversa fra di loro. Mette in evidenza la necessità di esaminare
sempre il grafico dei punti per individuare valori anomali e distribuzioni particolari

Interpretazione: verifica di H sul coefficiente di


correlazione (verifica che r sia diverso da zero)
Anche in totale assenza di correlazione, i coefficienti calcolati su piccoli campioni
presentano una grandissima variabilità.

Come si stabilisce allora che un coefficiente di correlazione rappresenta veramente


una relazione e non è invece il prodotto della variabilità stocastica?

modello statistico di riferimento è dato dalla distribuzione t con g.l.: N-2


🔧 FORMULA TEST T PER LA CORRELAZIONE:

poi si confronta il valore t risultante con il t critico trovato sulle tavole in base ai gl e si
decide quale ipotesi scartare.

La probabilità che indica significatività del coefficiente di correlazione, è la probabilità


di ottenere quel valore se non c’è correlazione nella popolazione.

H0: il coefficiente di correlazione è zero, i valori comuni sono quelli attorno allo zero.
Valori rari sono molto lontani da zero.

H1: L’ipotesi alternativa prevede che r sia diverso da zero, quindi elevato, e che
campioni di r elevato siano comuni

Errori decisionali:
la procedura è svolta correttamente (è giusta) ma porta a una decisione sbagliata,
essi sono di due tipi:

1. errore del primo tipo (alfa): si accetta l’ipotesi alternativa ma è vera l’ipotesi
nulla (falso positivo)

Appunti di Psicometria 2 30
2. errore del secondo tipo (beta): si rifiuta l’ipotesi alternativa ma essa è vera
(omissione)

Sono legati tra loro: al diminuire di β aumenta α, e vice versa

CAP3: La predizione o regressione lineare


Il termine di predizione in statistica e psicometria ha un significato molto limitato: si
usa per indicare che una misurazione di un comportamento è usata per predire la
misurazione di un altro comportamento. Il coefficiente di correlazione misura
l’associazione lineare tra due (o più) variabili quantitative e indica la pendenza della
retta che interpola meglio la nuvola di punti nel diagramma di dispersione. Le
misurazioni sono generalmente dei test mentali (abilità, profitto, personalità,
atteggiamenti, temperamenti) o dati fisici o altre rilevazioni comportamentali.

A punteggi alti di un test (predittore) corrispondono punteggi alti di un altro test


(comportamento da predire o stimare)

a punteggi bassi del predittore corrispondono punteggi bassi del predetto

La predizione fa ricorso al concetto matematico di funzione: una funzione


matematica è una regola che lega un insieme di numeri, usando costanti e variabili.

🔧 FUNZIONE
y = mx + a

Dovremo trasformare il punteggio del test predittore con una equazione di una retta,
che predica al meglio (ovvero commettendo meno errori possibili) il punteggio

Appunti di Psicometria 2 31
ottenuto dal soggetto nel test predetto.

🔧 EQUAZIONE DI PREDIZIONE O REGRESSIONE

Si deve tenere conto che le predizioni non sono precise, e quindi la funzione
dovrebbe essere scritta sempre così. La retta di regressione rappresenta dunque la
predizione lineare (o dipendenza lineare) tra una variabile indipendente e una
variabile dipendente, espressa nelle unità di misura originali

🔧 EQUAZIONE DELLA PREDIZIONE CORRETTA


y = mx + a + e

e: indica la parte di errore della predizione

a: La costante additiva a è chiamata intercetta. Rappresenta il punto in cui la retta


incontra l’asse delle ordinate, ossia il valore che la predizione assume quando il
predittore è uguale a zero. La formula dell'intercetta dipende dalle medie delle
variabili e dal coefficiente di regressione b

🔧 FORMULA DELL'INTERCETTA

m o b: Il coefficiente angolare (nell'equazione della retta nel piano solitamente


indicato con m) è anche chiamato coefficiente b o coefficiente di regressione
non standardizzato. Rappresenta il cambiamento in y all’aumentare di una unità in
x, al suo variare, varia l'inclinazione della retta. La formula del coefficiente di
regressione dipende dalla covarianza tra le due variabili e dalla varianza della
variabile indipendente:

🔧 FORMULA COEFFICIENTE DI REGRESSIONE

Appunti di Psicometria 2 32
x : variabile indipendente o predittore
y: variabile dipendente o predetto, è una stima, per questo dovrebbe avere il
"cappellino"

Esempi di predizione
Un test di abilità verbale predice il profitto a scuola

Una scala di Stima di sé è usata per predire il Senso di benessere e di salute


psicofisica

Partendo dalla relazione tra le due variabili, la disposizione dei punti indica che tipo
di relazione c'è, la quale può essere descritta e riassunta con una retta. La migliore è
quella più vicina a tutti i punti ovvero quella che rende minimi gli errori, o meglio, i
quadrati degli errori.

Quindi saranno gli errori elevati al quadrato il criterio da minimizzare e l’equazione


che si otterrà si chiama appunto equazione dei minimi quadrati

Risolvere l'equazione di predizione per trovare Y


trovare m e a tramite le formule, sostituirle nell'equazione

🔧 FORMULA PER TROVARE M


Appunti di Psicometria 2 33
🔧 FORMULA PER TROVARE A

Confermare le ipotesi della predizione


Il coefficiente di regressione, al contrario del coefficiente di correlazione, è un indice
non standardizzato. La seconda differenza tra i due coefficienti è data dal fatto che,
mentre la correlazione è simmetrica (dire che x correla con y equivale a dire che y
correla con x), la regressione non lo è: fare la regressione di x su y è diverso dal fare
la regressione di y su x. In altre parole, l'associazione individuata dal coefficiente di
regressione ha una direzione, indica l'effetto di una variabile sull'altra (ma non
viceversa).

Inoltre, mentre il coefficiente di correlazione varia da -1 a 1, il coefficiente di


regressione varia da - ∞ a + ∞. Come nella correlazione, 0 indica che non c'è alcuna
associazione lineare tra le due variabili.

Nella regressione si hanno come riferimento un'ipotesi nulla e una alternativa per
l'intercetta e un'ipotesi nulla e una alternativa per il coefficiente di regressione.

Ipotesi per l'intercetta


H0 = l'intercetta è 0 nella popolazione; quando la variabile indipendente è 0,
anche il valore della variabile dipendente è 0;

H1 = l'intercetta è diversa da 0 nella popolazione; quando la variabile


indipendente è 0, il valore della variabile dipendente è diverso da 0

Ipotesi per la regressione

Appunti di Psicometria 2 34
H0 = il coefficiente b è 0 nella popolazione; non c'è un'associazione lineare tra le
due variabili e, in particolare, non c'è un effetto della variabile indipendente sulla
dipendente;

H1 = il coefficiente b è diverso 0 nella popolazione; c'è un'associazione lineare


tra le due variabili e, in particolare, c'è un effetto della variabile indipendente
sulla dipendente.

L'inferenza sulla popolazione viene quindi calcolata riconducendo la stima alla


distribuzione t di Student. Per decidere se la regressione è significativa o meno si
dovrà quindi guardare la probabilità associata al test-t abbinato a ciascun
coefficiente (significatività maggiore di 0,05 si accetta H0, significatività minore di
0,05 si rifiuta H0 e si accetta H1.

R^2 e bontà del modello


L’R-quadrato viene comunemente usato come indice di bontà di adattamento del
modello di regressione ai dati: all’aumentare del suo valore, diminuisce la
dispersione dei punti intorno alla retta, dunque diminuisce l’errore. Come si è visto,
infatti, la predizione non corrisponde esattamente ai valori osservati.

L'errore nella regressione sarà dato dalla somma degli scarti tra valori osservati e
valori predetti, elevati al quadrato; tale quantità viene poi divisa per N-1, e si ottiene
così la varianza di errore della regressione:

🔧 FORMULA VARIANZA DI ERRORE NELLA REGRESSIONE

Facendo una regressione, il nostro obiettivo è spiegare quanto più possibile della
variabile dipendente y attraverso la variabile indipendente x. La varianza di y sarà
dunque data dalla somma tra la varianza spiegata dalla regressione e la varianza di
errore (ovvero tutto ciò che non può essere spiegato dal modello):

Appunti di Psicometria 2 35
La varianza spiegata, rappresentata nei diagrammi di Eulero-Venn come
intersezione tra le due variabili, corrisponde all'R-quadrato, che è chiamato anche
coefficiente di determinazione. La varianza di errore, chiamata anche
coefficiente di alienazione o indeterminazione, sarà data dal complemento dell'R-
quadrato (ovvero da 1 - r^2 ).

Essendo un indice al quadrato, è sempre positivo e varia da 0 a 1. Più si avvicina a


1, più sarà la varianza spiegata dal modello di regressione e più tale modello sarà
buono.
Per fare l'inferenza sulla popolazione, l'R-quadrato viene testato attraverso la
distribuzione F (ovvero la distribuzione dell'ANOVA che, essendo il quadrato del t-
test, può avere solo valori positivi, proprio come l'R-quadro). Ipotesi nulla e
alternativa sono le seguenti:

H0 = è 0 nella popolazione, quindi la percentuale di varianza spiegata è


statisticamente pari a 0;

H1 = è diverso da 0 nella popolazione, quindi la percentuale di varianza spiegata


è maggiore di 0.

Per decidere se accettare H0 o H1 si guarda quindi la probabilità associata al test F


riferito all'R-quadrato

💡 regressione con SPSS: analizza → regressione → lineare → dare l'ok


nella finestra di scelta → inserire variabile indipendente e dipendente

Appunti di Psicometria 2 36
💡 OUTPUT: tabella coefficienti: B in seconda riga: costante moltiplicativa o
m, B prima riga: costante additiva o a, è il valore della VD quando la VI è
uguale a zero. Coefficiente beta standardizzato: con una sola VI è uguale
a r, indica l'ammontare di cambiamento della VD per ogni unità se
entrambe le variabili sono standardizzate. Tabella riepilogo del modello:
R multiplo indica la precisione della predizione ovvero la correlazione tra
predittore e predetto, importante nella regressione multipla perchè in
quella semplice R = r, è un valore sempre positivo anche quando r è
negativo. R quadrato multiplo se moltiplicato per 100 da percentuale di
varianza spiegata dalla VI. R quadrato corretto da una stima del possibile
coefficiente ripetuto su un nuovo campione.

Predizione usando i punti standardizzati


1. trasformare le serie di dati in valori standardizzati su SPSS

2. applicare la regressione

Appunti di Psicometria 2 37
💡 OUTPUT: Costante moltiplicativa è uguale a rxy e la costante additiva è
uguale a zero. Medie dei valori predetti e di quelli osservati sono uguali.
La media dei predetti standardizzati è uguale a zero. Deviazione standard
dei valori predetti è uguale al coefficiente di correlazione

🔧 EQUAZIONE REGRESSIONE CON PUNTEGGI STANDARDIZZATI

La varianza dei valori predetti prende il nome di varianza spiegata dalla


regressione, ossia varianza dei predetti standardizzati uguale al coefficiente di
determinazione. Si può quantificare la predizione totale, fatta su tutti i casi (presenti
e futuri): la quota di varianza spiegata (r^2) è un utile indice per definire la precisione
della predizione.

H0: il parametro additivo è uguale a zero e non aiuta a migliorare la predizione

H1: il parametro è diverso da zero e serve a migliorare la predizione


Per scoprire la significatività utilizzo il t di student: ci informa sulla rarità di un tale
parametro sotto l’ipotesi nulla di mancanza di effetto nell’equazione di regressione.

Casi estremi
r = 1: correlazione perfetta, nessun errore

r = 0: correlazione nulla, predizione assente e stime dei valori osservati sempre


uguali alla media (normalmente, più i valori osservati si avvicinano alla media della
variabile dipendente e peggiore è la predizione)

Il residuo nella predizione


residuo: è la differenza fra il punteggio predetto e il punteggio osservato

🔧 FORMULA RESIDUO
residuo = osservato - predetto

Appunti di Psicometria 2 38
Tre devianze: sum of squares

scarti totali: differenza tra la y osservata e la y media

residui spiegati: la differenza tra la y stimata e quella media (normale variabilità


dovuta al fatto che è impossibile stimare il valore perfettamente). La
proporzione di varianza spiegata è anche chiamata “Coefficiente di
determinazione” r^2 oppure varianza comune alle due variabili, si ottiene
facendo il rapporto tra varianza spiegata e quella totale

residui non spiegati o somma degli errori o errore standard delle stime o
varianza degli errori: la differenza tra la y osservata e quella stimata.

💡 Calcolare i residui con SPSS: analizza → regressione → lineare → in


opzioni selezionare "valori previsti non standardizzati" e "residui non
standardizzati"

Caratteristiche dei residui con valori grezzi


correlazione tra residui e predetti è nulla

Appunti di Psicometria 2 39
media dei residui pari a zero

varianza dei residui è pari al coefficiente di indeterminazione (1-r^2) moltiplicato


per la varianza originale

Caratteristiche dei residui con punti standardizzati


La varianza dei predetti è uguale al coefficiente di determinazione: r^2

La deviazione standard dei predetti è uguale al coefficiente di correlazione (in


quanto radice quadrata della varianza)

La varianza dei residui è pari al quadrato del coefficiente di alienazione: (1-r^2)

Uso dei residui


L’esame dei residui permette di valutare distribuzioni anomale, sbilanciate in una
direzione o nell’altra, in alcune zone della distribuzione dei punteggi osservati
piuttosto che in altre. Se la distribuzione dei residui segue la curva normale, si può
stabilire l’intervallo di fiducia al 90 (95) % entro cui ricadono i gli errori di predizione.
L’esame dei residui è veramente proficuo nella regressione multipla.

Nella predizione del singolo caso non è mai possibile sapere se la predizione è
precisa o no. Si può quantificare la precisione totale, fatta su tutti i casi (presenti e
futuri): la quota di varianza spiegata (r^2) è un utile indice per definire la precisione
della predizione.

Regressione multipla
Quando si trova o si sospetta un effetto di più variabili indipendenti sulla variabile
dipendente, come nell'esempio sopra illustrato, il modello statistico più indicato da
usare è quello della regressione multipla: la regressione multipla studia infatti gli
effetti di due o più variabili indipendenti su una variabile dipendente. Usa più
coefficiente angolari, uno per ciascuna VI

Appunti di Psicometria 2 40
L'effetto di ciascuna variabile indipendente sulla dipendente, tuttavia, potrebbe
essere influenzato dal fatto che le due variabili indipendenti potrebbero essere
correlate tra loro.

Per ovviare a questo problema, in una regressione multipla l'effetto di ciascuna


variabile indipendente è calcolato al netto dell'effetto dell'altra variabile indipendente
sulla dipendente. Il coefficiente di regressione esprime quindi l’effetto di x su y,
togliendo l’effetto di x su y che passa indirettamente per w

L'effetto diretto (o parziale) di x su y è dunque pari all'effetto totale di x su y


calcolato come in una regressione semplice (cioè senza tener conto di w) meno
l'effetto indiretto di x su y che passa anche attraverso w. Togliere l’effetto indiretto
equivale a bloccare la possibilità che x abbia un effetto su y mediante w;
quest'operazione è chiamata parzializzazione. Il coefficiente di regressione
multipla viene anche detto coefficiente parziale e indica il cambiamento atteso
nella variabile dipendente al variare di una variabile indipendente, al netto delle altre
variabili indipendenti, ovvero parzializzando le altre variabili indipendenti. L'effetto
diretto, o parziale, è formalizzato nel pedice dal punto che segue le prime due
lettere: si legge come “il coefficiente di regressione di x su y, calcolato al netto di w”.
(si è parlato solo dell'effetto di x su y ma lo stesso ragionamento vale per tutte le
altre variabili). Il valore dell'intercetta nella regressione multipla è pari al valore che
assume la variabile dipendente quando tutte le indipendenti sono pari a 0.

Appunti di Psicometria 2 41
Mentre la regressione semplice, è espressa dall'equazione della retta nel piano, la
regressione multipla è espressa dall'equazione di un piano nello spazio.

Coefficienti di correlazione parziali e semiparziali


Come nella regressione semplice, l’ammontare di varianza spiegata dalle variabili
indipendenti sarà data dall’R-quadrato, che nella regressione multipla indicherà la
quantità di varianza spiegata della variabile dipendente attraverso l'effetto congiunto
delle indipendenti.

L'R-quadro può essere concepito anche come la porzione di errore che non si
commette, quindi 1 – e. Il contributo di w alla varianza spiegata è rappresentato
graficamente da a, mentre quello di x da b. Se si aggiungono alla regressione delle
variabili indipendenti, l'R-quadro aumenta anche se il contributo di queste variabili è
di minima entità. L'R-quadro corretto ovvia a tale distorsione e viene usato come
indice di bontà del modello quando ci sono molte variabili indipendenti e il campione
ha una numerosità ristretta. Nel resto dei casi, si può interpretare l'R-quadrato non
corretto per sapere quanta varianza della variabile dipendente è spiegata dalle
variabili indipendenti.

Se siamo interessati a sapere quanta di questa varianza è spiegata da una variabile


indipendente e quanta è spiegata dall'altra, ovvero per conoscere i contributi unici
delle variabili indipendenti all'R-quadrato, dobbiamo guardare i coefficienti di
correlazione parziali e semi-parziali

Il coefficiente di correlazione parziale pr: quantifica la correlazione tra due


variabili al netto di una terza; se elevato al quadrato, indica l’effetto di una VI sulla
VD dopo aver rimosso tutta la variabilità delle altre VI
🔧 FORMULA COEFFICIENTE DI CORRELAZIONE PARZIALE

Appunti di Psicometria 2 42
Si interpreta quindi come il contributo unico di una variabile indipendente alla
varianza non spiegata dalle altre variabili indipendenti; ci segnala cioè quanta
varianza spiegherebbe la variabile indipendente x se la variabile dipendente y non
variasse anche in funzione della variabile w, ovvero tenendo costante l’influsso delle
altre VI,

Il contributo unico della VI può anche essere valutato come varianza spiegata totale
parzializzando la varianza condivisa con le altre VI;

il coefficiente di correlazione semi-parziale sr, se elevato al quadrato, indica la


percentuale di varianza spiegata unicamente da una variabile indipendente:

🔧 FORMULA COEFFICIENTE DI CORRELAZIONE SEMIPARZIALE

Tale coefficiente si interpreta come il contributo unico di una variabile indipendente al


totale della varianza spiegata; ci mostra quanto aumenta l'R-quadro totale grazie al
contributo di quella variabile e può essere espresso anche in percentuale.

Per usarli
Entrambi i coefficienti variano da 0 a 1. In generale, si interpreta il coefficiente di
correlazione semi-parziale quando la variabile indipendente che si parzializza varia
naturalmente nella realtà. Si preferisce invece l'interpretazione del coefficiente di
correlazione parziale quando la variabile indipendente che si parzializza è stata
variata artificialmente dai ricercatori in disegni di ricerca sperimentali.

Restano le caratteristiche dell’equazione di predizione


Criterio dei minimi quadrati per gli errori

Una sola intercetta

Errori o residui calcolabili nello stesso modo

Verifica della significatività per ciascuna VI

Appunti di Psicometria 2 43
Multicollinearità
Varianza comune fra le VI: se è molto elevata produce stime instabili
Ci sono degli indici per indicare quando si manifesta questo effetto (tolleranza e VIF,
Variance Inflation Factor)
Soluzione: trasformare le variabili molto correlate in componenti principali

Importanza dei singoli casi:


Nel campione esaminato, ci possono essere dei valori osservati che sono molto
diversi dagli altri (Outliers, o valori anomali)
Per apprezzare l’apporto di ogni singola osservazione, si esaminano degli indici:

Distanza di Mahalanobis

Una misura di distanza del punto k dagli altri punti, sulle variabili indipendenti

🔧 FORMULA DISTANZA DI MAHALANOBIS

è un valore sempre positivo che indica la distanza di un punto di k dimensioni dalla


media delle K dimensioni. Tiene conto sia delle distanza di ogni k-esima media sia
della varianza e della covarianza delle k variabili. Valori elevati indicano una grande
distanza del punto da tutte le medie delle k variabili

Distanza di Cook

Quantificazione dell’effetto che avrebbe l’eliminazione del punto k sul calcolo dei
residui. Valori elevati indicano che il punto k è un valore anomalo e richiede esame
approfondito

Leverage (valore di influenza)

È un altro indice, che dipende dalla distanza di Mahalanobis

Plus dal laboratorio di SPSS: La path


analysis

Appunti di Psicometria 2 44
La path analysis o path diagram: andare a cercare le relazioni tra tutte le variabili
in gioco che si influenzano tra di loro (non solo causa effetto) e lo si usa molto in
psicologia cognitiva ma anche sociale

Rappresenta graficamente il gioco tra due o più variabili (quasi tutti dipendenti di
tutti)

Come si studiano
una delle analisi che si può fare attraverso la regressione → analisi avanzata basata
sulla regressione (non è una regressione, è un'analisi che sfrutta i coefficienti della
regressione)

Come si risolve
(abbiamo bisogno di trovare le incognite che sono le lettere che rappresentano le
frecce che se sono unidirezionali significa che sono il beta di una regressione che ha
come variabile indipendente l'origine della freccia e dipendente quella di arrivo)

unica semplice regola: fare una regressione per ogni variabile che riceve freccia in
cui chi riceve è la variabile dipendente e chi manda è l'indipendente (se riceve più
frecce significa regressione multipla)

freccia bidirezionale: non è un rapporto di causa effetto e quindi è una correlazione

Modello di mediazione (sottocaso del path diagram)


variabile indipendente che assieme ad una variabile mediatrice (effetto indiretto)
hanno effetto sulla VD

1. trovare le tre incognite della retta (a, b e c'): faccio regressioni: una regressione
semplice che vede il mediatore come VD e poi una regressione multipla della
VD che riceve dal mediatore esogeno e dalla variabile indipendente esogena
(guardare sempre il beta)

2. vedere se la mediazione esiste: a e b sono significative e facciamo calcolo


effetto mediato

una volta che abbiamo i tre coefficienti possiamo studiare il modello di mediazione.
regge? bisogna vedere se la mediazione esiste
come faccio a stabilire che un'intercetta di 0,3 è diversa da 0? con il test di
significatività (nella regressione il t test a campione unico che testa se il valore di B
che abbiamo trovato è diverso da zero)

Appunti di Psicometria 2 45
a livello matematico: quando ab diversi da zero altrimenti c e c' risultano uguali e
quindi non ci sarebbe mediazione

3. scoprire se c'è mediazione totale o parziale attraverso l'inferenza da c' (quando


c' è significativo, abbiamo mediazione parziale)

quando sarà mediazione totale: quando tutto l'effetto passa per il mediatore, c'
sarebbe 0 o non significativo e quindi c= ab

💡 SPSS: analizza → regressione lineare → compilo variabile dipendente e


indipendente

💡 OUTPUT: guardo la beta e la significatività e me le segno a parte. Faccio


la regressione multipla sulle restanti variabili e segno i risultati di b e c'.
Una volta che ho tutte e tre le incognite, vado a stabilire se l'effetto
mediato esiste: se a e b sono statisticamente significative, la mediazione
esiste (effetto mediato: a*b)

CAP4: Variabili binarie (dummy variables)


nell'analisi di regressione o indicatori
binari
Finora si è detto che nella regressione sia le variabili indipendenti che la dipendente
devono essere quantitative. Tuttavia esiste un caso in cui la variabile indipendente
può essere qualitativa: si tratta della regressione con variabili binarie (o dummy).

Le variabili binarie o dicotomiche sono quelle che assumono solo due valori. La
codifica più conveniente è attribuire valori 0 e 1. Si possono applicare anche a
variabili categoriali (scale nominali) perchè la presenza di un solo intervallo le
trasforma in una vera scala a intervalli.
categoria di riferimento:

È quella che non compare nella regressione, è il valore di quando i restanti


indicatori sono tutti uguali a zero

Può essere scelta secondo l’agio di interpretazione e utilizzazione. E’


fondamentale però ricordare quale è stata scelta per diventare il riferimento

Appunti di Psicometria 2 46
💡 OUTPUT: la costante B della regressione è uguale alla media della
categoria di riferimento, ossia quando i tre indicatori sono tutti uguali a
zero. Le medie degli altri gruppi sono il risultato della somma della
costante e di ciascun coefficiente moltiplicativo

Nel caso di una regressione con variabile dummy non ha senso interpretare il
coefficiente beta, conviene interpretare il coefficiente non standardizzato.

Uso degli indicatori


Soddisfa diverse esigenze:

predizione con una variabile categoriale o realmente dicotomica, come il genere

controllo o eliminazione di alcuni effetti privi di interesse (o che si vogliono


controllare) in un’equazione di regressione multipla

esame delle interazioni fra indicatori diversi

Rappresentazione grafica della predizione


Il predittore viene trasformato con l’equazione di regressione in due variabili: la
prima è perfettamente correlata con il predittore, ha correlazione uguale a uno ma
una deviazione standard inferiore a quella del predetto. La seconda variabile è
costituita dai residui

Appunti di Psicometria 2 47
La varianza totale è sempre scomponibile in due: varianza spiegata dalla
regressione e varianza residua o dell’errore

CAP5: ANOVA:
Analisi della varianza: Si confontano le varianze di due o più gruppi per capire se
le medie sono significativamente diverse.

L’ANOVA esamina se le medie dei campioni differiscono più di quanto è lecito


aspettarsi se H0 è vera: si basa sull’assunto che tutte le popolazioni abbiano la
stessa varianza perciò osserva due stime della varianza:

1. varianza entro il gruppo:

2. varianza tra i gruppi:

Se è vera H0, ci aspettiamo che le due stime siano simili tra loro (non saranno
uguali, perché sono stime, se H0 è falsa, almeno una delle medie dei k gruppi è
significativamente diversa dalle altre)

Appunti di Psicometria 2 48
Requisiti
La variabile dipendente è misurata su una scala a intervalli

Ha una distribuzione normale

La classificazione è fatta in modo indipendente dai dati osservati (esiste in


precedenza e non è influenzata dei valori osservati)

Le varianze all’interno dei gruppi sono omogenee (simili fra di loro)

La variabile indipendente (classificazione in più gruppi) è una misurazione a


livello di scala nominale

Calcolo
Il calcolo dell'analisi della varianza fa riferimento al concetto di variabilità, intesa
come la dispersione delle osservazioni rispetto alla media. Un indice di variabilità
fondamentale per il calcolo dell'ANOVA è la devianza: il termine devianza (o somma
dei quadrati, SQ) indica la somma degli scarti dalla media generale elevati al
quadrato.

🔧 FORMULA DEVIANZA TOTALE

Si tratta quindi della sommatoria degli scarti quadratici di ciascun punteggio dalla
media generale della variabile.

La devianza totale può essere scomposta in due componenti:

La devianza tra i gruppi è data dalla sommatoria delle differenze tra la media di
ciascun gruppo e la media generale della variabile, elevati al quadrato

Appunti di Psicometria 2 49
La devianza entro i gruppi (detta anche devianza di errore) è data invece dalla
sommatoria delle differenze tra ciascun punteggio e la media del gruppo a cui
appartiene, sempre elevati al quadrato. La media generale è indicata con una
barretta sola, mentre la varianza dei gruppi ha la i come pedice.

Il calcolo dell'ANOVA parte dalla devianza per arrivare a stimare la varianza sulla
popolazione; la varianza si ottiene dividendo ognuna delle tre devianze per il numero
dei gradi di libertà rispettivi

la varianza totale si ottiene dividendo la formula della devianza totale per N – 1,


dove N è la numerosità del campione;

la varianza tra i gruppi (o varianza between groups) si ottiene dividendo la


formula della devianza tra i gruppi per J – 1, dove J è il numero di gruppi formati
dalla variabile indipendente

🔧 FORMULA VARIANZA TRA I GRUPPI

la varianza entro i gruppi (varianza within groups o varianza di errore) si


ottiene dividendo la formula della devianza entro i gruppi per N – J, dove N è la
numerosità del campione e J il numero dei gruppi formati dalla variabile
indipendente.

🔧 FORMULA VARIANZA ENTRO I GRUPPI

Appunti di Psicometria 2 50
La varianza totale, ovvero la variabilità della variabile dipendente, è stata quindi
scomposta in due componenti, esattamente come è stata precedentemente
scomposta la devianza totale:

La varianza tra i gruppi indica quanto la media di ciascuno dei gruppi si differenzia
dalla media totale, mentre la varianza interna ai gruppi indica quanto la media di
ciascun soggetto si distanzia dalla media del suo gruppo di appartenenza. La
varianza tra i gruppi corrisponde alla quantità di varianza spiegata: infatti, è quella
parte di variabilità della variabile dipendente che può essere spiegata data
l'appartenenza dei soggetti ai diversi gruppi. La varianza interna ai gruppi
rappresenta invece la varianza di errore perché è la parte di variabilità che non
possiamo spiegare con l'appartenenza del soggetto al gruppo; si tratta della
componente d'errore dovuta alle differenze individuali dei soggetti all'interno di uno
stesso gruppo. (indica quanto sto sbagliando quando dico che quella media ben
rappresenta tutti i soggetti nel mio campione)
L'ANOVA, indicata con la lettera F, è calcolata come il rapporto tra, la varianza tra i
gruppi (ovvero la devianza tra i gruppi divisa per i gradi di libertà, qui indicati con la
sigla inglese df) e la varianza interna ai gruppi (ovvero la devianza interna ai gruppi
divisa per i gradi di libertà)

🔧 FORMULA TEST F

Appunti di Psicometria 2 51
Nell'ANOVA la variabilità spiegata sarà la variabilità che può essere attribuita alle
differenze tra le medie dei gruppi; in altre parole, si usa l’informazione contenuta
nella VI per avere una stima più precisa di quella che si sarebbe ottenuta usando la
media totale, e tale stima è tanto più precisa e meno errata quanto più la varianza
entro il gruppo è piccola e quanto più la differenza tra i gruppi è grande.
In linea con la regressione, l'R-quadrato indica la percentuale di varianza spiegata;
nel caso dell'ANOVA, l'R-quadro è dato dalla varianza tra i gruppi divisa per la
varianza totale

Logica dell'ANOVA:
H0: le medie sono tutte uguali

H1: almeno una delle medie differisce dalle altre


La variabilità dei punteggi entro i campioni è dovuta al caso (è ‘varianza d’errore’)

Se è vera H0 (i campioni provengono da popolazioni che hanno tutte la stessa


media) allora la variabilità tra le medie dei campioni è dovuta anch’essa al caso
(è tutta ‘varianza d’errore’)

Se H0 è falsa (almeno un campione proviene da una popolazione con una


media diversa) allora la variabilità tra le medie dei campioni è dovuta a due

Appunti di Psicometria 2 52
componenti:

il caso (varianza d'errore)

la variabilità tra le medie delle popolazioni, l'effetto del trattamento (varianza


spiegata)

Se F < valore critico → Si accetta H0

Se F > valore critico → Si rifiuta H0 e si accetta H1

💡 ANOVA in SPSS: analizza → modello lineare generale → univariato. Nei


box inserire variabile dipendente in "variabile dipendente" e variabile
indipendente in "fattori fissi".

💡 OUTPUT: prima tabella: statistiche descrittive per ogni campione, tabella


test di levene: guardare prima riga "test basato sulla media":
significatività, statistica di levene (valore di F che viene confrontato),
tabella anova: si chiama "test degli effetti sui soggetti" determina se
accettare o meno l'ipotesi nulla, tabella dimensione effetto anova:
vengono riportati diversi tipi: uno dei principali è eta quadro (proporzione
di varianza spiegata)

Uso di F
Nella ricerca psicologica si usa raramente questa statistica per verificare se due
campioni differiscono fra di loro per la varianza. Invece, l’uso di F per confrontare
due varianze calcolate in modo diverso su subcampioni che si suppongono
provenire dalla stessa popolazione è un’operazione comunissima nella ricerca
psicologica

Requisiti per l'uso di F


Le due varianze devono provenire da popolazioni distribuite normalmente

I campioni devono essere estratti in modo indipendente (non ci devono essere


legami fra le osservazioni e l’attribuzione ad un gruppo)

Quanto deve essere grande F per rifiutare H0:

Appunti di Psicometria 2 53
per rispondere si usa un'apposita distribuzione di probabilità: distribuzione F, essa
indica la probabilità per i diversi valori possibili di F se H0 è vera

Una famiglia di distribuzioni, la forma esatta dipende dal numero di campioni e dal
numero di punteggi (numero di gradi di libertà a numeratore e denominatore)

a numeratore: Numerogruppi - 1

a denominatore: numerosità complessiva - Numerogruppi

Moda = 1 solo valori positivi coda a destra

Dimensione effetto ANOVA:


Eta quadro chiamata anche proporzione di varianza spiegata è una misura della
dimensione dell'effetto per l'analisi della varianza

Quando si scopre che l'ANOVA è significativa


1. Confronti pianificati (o a priori)
Prevedono un ordine nei gruppi, o possibili raggruppamenti, secondo la teoria che
ha ispirato la ricerca.
Questi confronti si chiamano anche contrasti perché contrastano la media di uno o
più gruppi con quella di altri; per esempio il primo con i seguenti, il
secondo con i seguenti ecc. oppure anche l’ultimo con tutti gli altri, oppure anche il
penultimo con gli altri.
Anche in questo caso ci sono due possibilità:

1. contrasti predefiniti: lineare, quadratico, Helmert...

2. contrasti decisi da noi

Appunti di Psicometria 2 54
Occorre inserire dei coefficienti numerici, usando dei numeri interi positivi e negativi,
in modo che la loro somma sia sempre uguale a zero. I coefficienti possono essere
anche uguali a zero, quando si vuole contrastare alcuni gruppi trascurandone altri

💡 SPSS: menù ANOVA → contrasti → polinomiale e si sceglie tra lineare,


quadratico, cubico ecc. Altrimenti si dovranno inserire del coefficienti (uno
alla volta premendo aggiungi)

2. Confronti Post-Hoc:
sono test fatti a posteriori, servono a trovare le differenze tra i gruppi presi a due a
due, ovvero: so che c'è almeno una media diversa dalle altre, ma quale tra queste?
(abbiamo diverse H0 per ogni coppia).
Non si fanno ipotesi, ma si vuole sapere quali gruppi possono essere considerati
uguali

💡 Post-Hoc su SPSS: analizza → modello lineare generale → univariato →


selezionare "post-hoc" nel box → scegliere che tipo fargli fare (noi di solito
tukey e regwg o al massimo bonferroni). OUTPUT: tabella "confronti
multipli": fa vedere differenza della media, errore standard, significatività
e intervallo per ogni coppia incrociata

Perchè non possiamo semplicemente fare dei t-test per ogni


coppia:
quando facciamo un test inferenziale stimiamo la probabilità di commettere un errore
rifiutando l’ipotesi nulla quando è vera, questa probabilità è del 5% e p va bene, ma
di più no. Facendo tuttavia delle estrazioni multiple, così come la probabilità di
vincere alla lotteria aumenta, anche la probabiltà di sbagliare aumenta nel nostro
caso perchè p si moltiplica e supera il valore del 5% quindi i confronti post-hoc
cercano di calcolare le probabilità associate ai vari confronti in modo tale che alfa
rimanga del consentito 5%, cioè cercando di fissare la probabilità di ottenere almeno
un test significativo quando le differenze sono 0, uguale a quella di come se
facessimo un test solo. In pratica, i vari test post-hoc usano vari espedienti per
controllare questa probabilità ai valori corretti

PROCEDURE:

Appunti di Psicometria 2 55
LSD (Least Significant Difference),

Bonferroni

Sidak

Scheffé,

SNK (Student-Neumann-Kouls),

Tukey HSD (Honestly Significant Difference),

Duncan,

Hochberg,

Gabriel,

Waller-Duncan,

Dunnett

Altre procedure non presuppongono uguaglianza di varianza:

Tamhane

Dunnett

Games-Howell

C di Dunnett

Post-Hoc più conservativo: disuguaglianza di Bonferroni

Dati c confronti post hoc, probabilità che almeno uno sia significativo per caso è
minore uguale c*alfac (dove alfac è il valore che adotto per decidere se il singolo
confronto è significativo) alfac = alfa/c. Per ciascun confronto giudico la differenza
come significativa solo se p < (.05/numero confronti totali)

Due tipi di output:


1. confronti multipli completi

2. gruppi omogenei

Appunti di Psicometria 2 56
ANOVA fattoriale o multivariata
Finora abbiamo delineato il caso di un'analisi della varianza con una variabile
dipendente e una variabile indipendente. Tuttavia nella maggior parte delle ricerche
sperimentali, il disegno prevede più variabili indipendenti incrociate: nei disegni
fattoriali ogni gruppo di partecipanti rappresenta una combinazioni di livelli delle
variabili indipendenti. Nell'ANOVA fattoriale si testa l'effetto di ogni variabile
indipendente sulla dipendente calcolato come se fosse costante in tutti i livelli delle
altre variabili indipendenti. Tale effetto è chiamato effetto principale; avremo tanti
effetti principali quante sono le variabili indipendenti.

Il concetto è simile a quello dell'effetto della VI nella regressione multipla: si valuta


l'effetto di ogni VI sulla VD, calcolato parzializzando le altre VI. L'interpretazione
degli effetti principali segue gli stessi passi delineati per l'ANOVA a una via. Oltre agli
effetti principali, però, l'analisi della varianza fattoriale verifica anche se nel modello
è presente un effetto di interazione: se tale effetto risulta significativo (e dunque
siamo in presenza di un'interazione), l'effetto di una VI cambia nei diversi livelli
dell'altra VI; si dice che gli effetti di una VI sono condizionali ai diversi livelli dell'altra.
In presenza di un’interazione, gli effetti principali vanno interpretati come effetti medi
rispetto ai diversi livelli dell’altra variabile indipendente.
Riprendiamo l'esperimento sulla piacevolezza degli stimoli e conduciamo questa
volta un'analisi della varianza fattoriale con forma e colore come VI e piacevolezza
come VD:

Appunti di Psicometria 2 57
L'effetto principale della forma (riga di “forma”) risulta statisticamente significativo
anche nell'ANOVA fattoriale: F (2, 145) = 19.82, p < .001; tenendo costante il colore,
le medie di piacevolezza risultano differenti a seconda del gruppo di forma (per
sapere quali sono le medie che si differenziano dovremmo quindi andare a vedere i
post-hoc). Anche l'effetto principale di colore (riga di “colore”) risulta statisticamente
significativo: F (1, 145) = 22.11, p < .001; tenendo costante l'effetto della forma, le
medie dei gruppi di colore risultano statisticamente diverse. Essendo la variabile
colore dicotomica, sappiamo senza bisogno di fare i post-hoc che la media di
piacevolezza per gli oggetti chiari è statisticamente differente dalla media di
piacevolezza per gli stimoli scuri. L'effetto di interazione tra le variabili lo troviamo
nella riga “forma*colore”: anch'esso risulta statisticamente significativo, quindi siamo
in presenza di un'interazione; per interpretare l'effetto di interazione, è utile
osservare il grafico delle medie con entrambe le VI:

Quando gli oggetti presentati come stimolo sono di colore chiaro (riga verde), la
piacevolezza è massima per le forme miste mentre diminuisce per le forme
arrotondate e per quelle di forma squadrata; quando gli oggetti presentati sono di
colore scuro (riga blu) la piacevolezza è maggiore per le forme arrotondate, mentre
diminuisce per le forme miste e per le forme squadrate in maniera quasi uguale. Se
consideriamo le forme squadrate notiamo che non esiste una grande differenza tra
la piacevolezza degli oggetti scuri e di quelli chiari; se consideriamo le forme
arrotondate, la piacevolezza per oggetti scuri e chiari è praticamente uguale.
Considerando invece le forme miste, notiamo che l'effetto del colore cambia
radicalmente l'interpretazione della piacevolezza: per gli oggetti scuri, infatti, la
piacevolezza diminuisce in maniera notevole; al contrario è massima quando gli
oggetti sono di colore chiaro. Nell'insieme, il modello spiega il 46% della varianza di
piacevolezza, con R-quadrato = .46; rispetto al modello precedente di analisi della

Appunti di Psicometria 2 58
varianza a una via, la varianza spiegata è aumentata, passando da un R-quadrato di
modesta entità a un R-quadrato considerevole.

Interpretazione dell'interazione
Per l'interpretazione dell'interazione in sostanza si interpreta il grafico delle medie
dei gruppi definiti dalla combinazione delle variabili indipendenti. A seconda della
forma, si possono distinguere due tipi di interazione: ordinale e non ordinale.

Nell'interazione ordinale gli effetti di una variabile non cambiano interpretazione ai


diversi livelli dell’altra variabile indipendente; in presenza di un’interazione di questo
tipo una variabile indipendente aumenta gli effetti dell'altra variabile indipendente: un
effetto diventa quindi più potente cambiando il livello dell’altra variabile dipendente;
si parla in questi casi di moderazione. Per esempio, la soddisfazione sul lavoro (VI)
aumenta la soddisfazione generale (VD) per entrambi i livelli di soddisfazione
matrimoniale (VI):

Appunti di Psicometria 2 59
Quando l'interazione è non ordinale, gli effetti di una variabile indipendente
cambiano interpretazione ai diversi livelli dell’altra variabile indipendente; in
presenza di un'interazione non ordinale l'interpretazione degli eventuali effetti
principali è dubbia. Per esempio, alta motivazione (VI) e alte ricompense
economiche (VI), se prese singolarmente, aumentano la performance (VD), ma
quando sono presenti insieme la peggiorano:

Eta quadro parziale e semiparziale


Abbiamo visto nell'esempio che l'R-quadrato è aumentato passando dall'ANOVA a
una via all'ANOVA fattoriale; questo perché, come nella regressione, aggiungere VI
come predittori migliora la spiegazione della varianza della VD. Per sapere il
contributo unico di ciascuna variabile indipendente e dell'interazione alla varianza
spiegata dall'R-quadrato si può usare un indice chiamato

Eta-quadrato parziale; esso rappresenta la varianza spiegata da ciascun effetto,


dopo aver rimosso la varianza spiegata dagli altri effetti (sia principali che
dell'interazione). L'Eta-quadrato parziale corrisponde al coefficiente di correlazione
parziale al quadrato incontrato nella regressione, ed esprime il contributo unico di
ogni VI come rapporto tra la variabilità spiegata unicamente da quella variabile
indipendente e la variabilità non spiegata dalle altre variabili indipendenti. È
espresso in proporzioni di varianza e varia da 0 a 1 e può essere riportato in
percentuale. In presenza di una sola variabile indipendente il suo valore è identico al
valore dell'R-quadro.

Esiste anche Eta quadro semi-parziale: corrisponde all'indice di correlazione semi-


parziale al quadrato, e indica la varianza spiegata da una variabile indipendente al
netto della relazione con le altre variabili indipendenti; tale indice risulta però poco
usato.

Appunti di Psicometria 2 60
Spiegazione dall'esercitazione di SPSS
Nell'ANOVA multivariata o fattoriale, più variabili indipendenti di tipo qualitativo,
influenzano una variabile dipendente. Come lo fanno: attraverso l'analisi della
varianza esattamente come avviene nella regressione. Come poi andiamo ad
interpretare l'effetto dato che sono diverse? attraverso le caratteristiche della VD,
(sono le caratteristiche delle variabili che decidono se farci fare anova o regressione,
perchè in fin dei conti il procedimento è lo stesso).
Quindi, al di là dell'analisi della varianza che ci permette, tramite l'indice del modello,
di sapere quanta varianza spiega (r^2) sia nella regressione che nell'ANOVA,
quello che possiamo andare a vedere dell'effetto di una variabile indipendente sulla
nostra dipendente e le stime che possiamo fare.

Nella regressione le stime sono tante quante le x, quindi potenzialmente infinite,


anche nell'ANOVA sono tante quante la x, ma avendo x finite, ovvero i gruppi
predefiniti che vado a confrontare, avrà le medie di quei gruppi.

Qualora gli effetti della VI siano più di due, non ci basta sapere se c'è l'effetto perchè
effetto significa almeno "due medie sono diverse" (requisito minimo che permette di
avere stime migliori). Oltre a voler saper questo, di solito andiamo a vedere quali e
quante sono diverse attraverso il post hoc, dopodichè andiamo a definire come sono
nel grafico.

ANOVA multivariata o fattoriale


con almeno due variabili indipendenti
se c'è un modello con almeno due VI, succede che nell'anova, in automatico, non si
trova solo l'effetto delle due singole (i due effetti principali) ma anche l'effetto
dell'interazione tra le due variabili principali. Questo non avviene nella
regressione, non perchè non esiste. bensì, perchè lo studio degli effetti di interazione
tra variabili quantitative (chiamato moderazione) è un processo molto complicato, ci
sono diversi metodi per studiarlo uno dei quali è arrivare a dicotomizzare queste
variabili.

L'effetto di moderazione tra variabili qualitative è molto più semplice e concreto e


lo si fa con l'ANOVA fattoriale

Perchè guardare l'interazione: il grafico di interazione ci dice cose anche molto


diverse da quello generale, l'effetto generale se ho due info così significative
(medie), viene annullato. L'effetto può essere ordinale (le due variabili vanno nella
stessa direzione) oppure non ordinale (direzioni opposte).

Appunti di Psicometria 2 61
Esempio: negli effetti generali può risultare che in media, nella popolazione, un
farmaco sia più efficace di un altro. Tuttavia, andando a guardare gli effetti di
interazione, si scopre che negli uomini è effettivamente più efficace, mentre nelle
donne assolutamente no, è più efficace l'altro.

Crossover o effetto di interazione non ordinale: quando gli effetti di interazione


nell'ANOVA sono di tipo non ordinale, la maggior parte, se non tutte le interpretazioni
che facciamo vengono falsificate dal fatto che il grafico dell'interazione che mi dice
qualcosa che vale in un caso (nell'effetto principale) ma non nell'altro. (è vero che un
farmaco in media sembra funzionare meglio, ma è vero solo per una parte del
campione quindi in generale non lo vado più a dire). Se ho un'info di un effetto di
interazione non ordinale vado a dire che sei di un gruppo funziona meglio una cosa
e se sei dell'altro funziona meglio l'altro.

S'interpreta: l'effetto di una delle variabili, scomposta per i livelli dell'altra, è diverso.

Può essere diverso per due caratteristiche:

andamento: le freccie formate dalla scomposizione tendono ad incrociarsi


siamo davanti a effetto d'interazione non ordinale (direzione diversa) (ordinale
invece è stessa direzione)

intensità:

se effetto di interazione è significativo devo andare a controllare che tipo di


interazione è, ancora prima delle interpretazioni sugli effetti principali. Se l'effetto è
non ordinale, non vado a fare l'interpretazione sugli effetti principali bensì mi limito a
interpretare il grafico dell'interazione che ha info combinata tra le due (se serve
facciamo i post hoc quando non abbiamo le dicotomiche).

💡 SPSS: modello lineare generale → no andare in multivariata bensì


univariata → metto le variabili dove devono stare e chiedo tutto ciò che mi
serve (post hoc, descrittive, stime dimensioni degli effetti, e i grafici, uno
per ogni F). (consiglio per i grafici: mettere la variabile a più livelli sull'asse
delle ascisse)

Appunti di Psicometria 2 62
💡 OUTPUT: Tabella test degli effetti tra i soggetti: r^2 e significatività che
mi dice quanta varianza viene spiegata della variabile dipendente. Guardo
le F delle diverse variabili indipendenti con eta quadro. Guardo l'effetto
d'interazione prima di giungere a conclusioni. (effetto di interazione dato
da variabile*variabile, guardo la significatività) vado a vedere grafico di
interazione per vedere le medie. se l'effetto di interazione è non ordinale,
non s'interpreta l'effetto principale perchè se no diciamo cose sbagliate.
Come si presentano effetti di interazione non significativi: due rette
parallele o addirittura sovrapposte.

ANCOVA: metto una variabile tra le covariate e questo significa che la sto usando al
netto di tutto ciò che succede tra i fattori fissi (come se facessimo finta che sia una
costante), il resto rimane uguale. (la richiesta di solito sarebbe "come sarebbe
l'effetto di queste due facendo finta che non conti ad esempio l'età?")

Plus dal laboratorio di SPSS: assunzioni


necessarie
Linearità (solo nella regressione)
Assumiamo che l'effetto che andiamo a studiare, sia lineare ovvero abbia sempre la
stessa unica tendenza. può essere positivo: all'aumentare di x, y aumenta, può
essere costante ma l'assunzione mi dice che deve essere comunque un'unica
tendenza.

esempio: se ho una ricerca con partecipanti che vanno da 30 a 100 anni ben
distribuiti e provo a vedere qual è l'effetto di età su QI è probabile che l'effetto non
sia lineare perchè fino ad un certo punto all'aumentare di x, y aumenta, ma ad un
certa y smette e diminuisce causa età.

quando chiediamo ad spss di stimare l'effetto, stima solo uno che ci permetta di
sbagliare il meno possibile, una via di mezzo verrà fuori un effetto costante che però
non è significativo ne effettivo, completamente falsato

assunzione di linearità nell'anova non può saltare perchè non andiamo a vedere
l'effetto lineare bensì l'effetto di medie

per controllarlo: grafico scatterplot (in x predetti e in y i residui dell'analisi condotta)

Appunti di Psicometria 2 63
Omoschedasticità
quesito: hanno la stessa variabilità o diversa?

si testa dal grafico scatterplot

L'analisi deve avere lo stesso livello di informazione che deriva da tutti i livelli di x,
tutti i livelli di x dunque dovrebbero portare varianza ovvero informazione. esempio,
se nell'anova un gruppo sono 50 e l'altro sono 450 abbiamo molta più informazione
in uno per evidenti motivi di numerosità e quindi è eteroschedastica (dal grafico si
vede che ad un certo punto i puntini esplodono)

Cosa cambia dal punto di vista tecnico nel violarlo: è la varianza che viene falsata,
quindi i calcoli sulla F e t tenderanno a pesare molto di più per una certa parte di x
piuttosto che un'altra
Non essendo un dato oggettivo numerico bensì grafico, assumete come violata
quando è parecchio diverso questo grafico
i test di levene si possono utilizzare ma sono molto inficiati dalla numerosità che più
aumenta e più dirà che va bene, se riusciamo a leggere anche il grafico meglio.

💡 SPSS: analizza → regressione → lineare → inserisco vd e vi e per fare


scatterplot devo salvare valori attesi e residui. solo dopo, vado a prendere
il grafico in sezione "grafici" e inserisco in asse y i residui, in asse x i
predetti

💡 OUTPUT: quando abbiamo nuvola di punti sparsa a caso: le nuvole sono


sia omoschedastiche che lineari

Presenza o meno di outliers


dal grafico possiamo vedere anche la presenza di outliers

più sono e più falsano le analisi, vanno tolti dalle analisi

possono esistere degli outlier che non inficiano la bontà? si usano gli indici distanza
di mahalanobis o cook? tecnicamente sono corretti ma non ne vale la pena

Appunti di Psicometria 2 64
💡 SPSS: nel grafico scatterplot, si vedono dei puntini molto distanti dagli altri

Normalità
Spesso più facilmente delle altre viene violata: tutte le analisi che andiamo a
condurre dovrebbero essere su variabili dipendenti di tipo quantitativo distribuite
normalmente e si basano sulla curva normale

se io non valuto la normalità, il grafico potrebbe non essere normale e quindi viene
distorta la mia interpretazione sulla significatività

Per verificarlo: si va a vedere istogramma dei valori residui che deve essere
approssimato alla normale (per non esserlo deve avere problemi visibili). si può fare
il test ks che restituisce la differenza tra i residui di una campana normale e quella
sfasata. Anche questo test, tuttavia, soffre di numerosità campionaria quindi
attenzione si guarda anche il grafico.

💡 SPSS: si va a vedere istogramma dei valori residui che deve essere


approssimato alla normale

CAP6: La distribuzione del chi quadrato:


Indice statistico per variabili su scala nominale che si basa su informazioni relative
alle frequenze

Utilizziamo la statistica chi-quadrato (χ2) per verificare se un determinato valore


osservato si discosta oppure no da un valore teorico (l’ipotesi nulla)

Quando si applica:
1. ipotesi di equiprobabilità: Verificare se una variabile nominale si distribuisce in
modo casuale, ossia tutti i valori hanno la stessa probabilità di presentarsi

2. ipotesi di indipendenza: Verificare se due variabili nominali sono indipendenti


tra loro

3. verifica del modello: Verificare se una o due variabili si distribuiscono secondo


un modello predefinito

🔧 FORMULA DEL CHI QUADRATO:


Appunti di Psicometria 2 65
La statistica del chi quadrato è la sommatoria degli scarti quadratici fra le frequenze
osservate (fo) e quelle teoriche attese (fe expected) ponderate sulle attese. Il suo
valore oscilla da 0 a infinito e aumenta all'aumentare degli scarti (fo-fe). Si elevano al
quadrato i residui in modo che le discrepanze in negativo non vengano compensate
da quelle in positivo (altrimenti si annullerebbero).

Ipotesi di equiprobabilità:
si impostano delle fe tutte uguali, si calcolano i chi quadrati e si sommano tra di loro,
il totale lo si confronta con il chi quadrato critico sulle tabelle in base ai gradi di
libertà: Ncelle -1

Precauzioni uso del chi quadrato:


Le osservazioni devono essere indipendenti tra loro (= ogni ‘caso’ del nostro
campione deve essere presente una sola volta, non devono esserci legami tra le
osservazioni)

Ciascun caso deve stare in una sola cella

Le frequenze attese non devono essere troppo piccole, seguire questa regola:

se d.f. = 1 → fe ≥ 5

Appunti di Psicometria 2 66
se d.f. = 2 → fe ≥ 3

se d.f. ≥ 3 → una fe può essere uguale a 1, se tutte le altre sono ≥ 5

secondo alcuni, il numero di soggetti deve essere almeno 5 volte maggiore


del numero di celle

se queste frequenze attese non sono soddisfatte, bisogna raccogliere più dati,
oppure ridurre le categorie della tabella

Ipotesi di indipendenza tra due variabili:


verificare se due eventi sono indipendenti tra loro

si costruisce una tabella di contingenza

Il conteggio è semplicemente il numero di persone che troviamo in quella cella,


mentre il conteggio previsto fa riferimento al concetto di frequenza attesa. Nella
tabella troviamo anche i totali marginali di riga e di colonna: si tratta di quei valori
che si trovano al termine di ogni riga e di ogni colonna della tabella; questi valori
possono essere trasformati in percentuali e sono fondamentali per il calcolo delle
frequenze attese. La frequenza attesa è il conteggio teorico che ci aspettiamo di
trovare in ogni cella.

Per ogni cella della tabella di contingenza, dobbiamo calcolare la frequenza attesa,
basata sulla probabilità di due eventi indipendenti: si fa il prodotto delle probabilità
dei due eventi presi singolarmente. Dall'applicazione della regola dell'indipendenza
degli eventi si ricava una "regoletta" per il calcolo dei valori teorici (fe):

🔧 FORMULA PER LE FE NELLE TABELLE DI CONTINGENZA IPOTESI


INDIPENDENZA:

Appunti di Psicometria 2 67
Si parte dai totali marginali e si divide per il totale o numerosità, trovate le fe si
procede con la formula del chi quadrato come di consueto decidendo se accettare o
meno H0 (che le due variabili siano indipendenti)
gdl: (r-1)(c-1)

I residui sono dati dalla differenza tra frequenze osservate e frequenze attese; il
ragionamento è il seguente: se le due variabili sono indipendenti, la differenza tra le
due frequenze sarà piccola e le frequenze osservate saranno simili a quelle teoriche,
fatta eccezione per limitate fluttuazioni casuali. Se invece in molte celle la differenza
tra frequenze osservate e frequenze attese è grande, allora è probabile che le due
variabili presentino un'associazione.

Verifica del modello teorico:


calcolare le frequenze attese sulla base di un modello teorico: calcolare i chi
quadrati, sommare e confrontare sulle tavole: se il test è significativo si può
accettare l'H1 ovvero che la distribuzione è significativamente diversa dal modello
teorico, viceversa con l'H0 (il valore non si discosta significativamente dal modello)

Calcolare fe: totale*percentuale di categoria (per ogni categoria)

I residui: come approfondire le analisi


Per essere più specifici quando si osserva che le variabili sono in relazione, si
guardano i residui standardizzati (r) che sono calcolati per ciascuna casella di una
tabella:

🔧 FORMULA DEI RESIDUI STANDARDIZZATI (r)

Interpretazione dei residui

Appunti di Psicometria 2 68
1. A partire da una tabella, l’interpretazione comincia con l’osservare se i residui di
ciascuna casella sono positivi o negativi:

residuo positivo: Il valore osservato è più grande del valore atteso (indica,
quindi, che ci sono più persone in quella casella di quelle che avevamo supposto
ci sarebbero state se non ci fosse stata associazione)

residuo negativo: Il valore atteso è più grande del valore osservato (indica che
ci sono meno persone di quanto ci saremmo aspettati)

2. Successivamente si considera la grandezza dei residui per vedere se la


differenza tra i valori osservati e quelli attesi è significativa. Per determinare la
significatività al 5%, il valore di ciascun residuo deve essere confrontato con
1,96 o – 1,96, quindi si usano 2 e – 2.

💡 CHI quadrato su SPSS: analizza → non parametrici → finestre di dialogo


legacy → chi quadrato.

💡 OUTPUT: prima tabella: ricapitolo dei dati descrittivi, seconda tabella:


tabella di contingenza vera e propria (è a due vie) sulle righe i livelli della
variabile inserita in righe e sulle colonne i livelli della seconda variabile
inserita sulle colonne. l'incrocio da la frequenza, terza tabella: test del chi
quadrato, osservare la prima riga dove c'è proprio il dato con i gl e la
significatività, quarta tabella: misure simmetriche ovvero indici dell'effetto
del chi quadrato

Appunti di Psicometria 2 69
PHI: Indice di associazione e dimensione dell'effetto
(effect size)
χ2 ci dice se due variabili sono indipendenti oppure no, effettuando un test
probabilistico, ma non sappiamo quanto è forte la relazione, per misurare la forza
dell'associazione tra due variabili a livello nominale si usa l'indice phi

🔧 FORMULA INDICE PHI:

CAP7: Analisi fattoriale


L’analisi fattoriale è un metodo matematico-statistico per individuare delle variabili
latenti. un insieme di metodi statistici che consente, a partire da un set di variabili
osservate (per esempio, una serie di item di un questionario), di estrarre un numero
limitato di variabili latenti o sottostanti, al fine di riassumere i dati iniziali in un
modello semplificato e sintetico, capace però di contenere le informazioni del set
partenza e di rappresentarne al meglio la variabilità. Si tratta quindi di una
metodologia che ha l’obiettivo di descrivere le molte variabili osservate in funzione di
poche variabili latenti, ossia non direttamente osservabili, chiamate fattori o
componenti, che si suppone raggruppino parte della variabilità osservata negli item.

Attraverso l'analisi fattoriale si riesce a descrivere la variabilità delle variabili


osservate in maniera più parsimoniosa e prestando attenzione all'interpretabilità

Appunti di Psicometria 2 70
delle relazioni tra le variabili, ma si perde un po' in precisione: la variabilità che i
fattori comuni non riescono a catturare viene chiamata errore o unicità.

Tipi di analisi fattoriale


AF esplorativa (AFE): quando si parte dai dati empirici senza avere un'ipotesi
del numero di fattori latenti che sottostanno alle variabili analisi; la forma del
modello è decisa da un algoritmo e l'obiettivo è accorpare le variabili. All'interno
di questa categoria ricadono alcuni modelli di AF, come l'analisi delle
componenti principali e l'analisi dei fattori comuni.

AF confermativa o confermatoria (AFC): quando si parte da un'ipotesi sul


modo in cui i fattori latenti descrivono il set di variabili e l'obiettivo è quello di
confermare e verificare il modello teorico; in questo caso la forma del modello è
decisa dai ricercatori.

Funzionamento
Alcuni concetti sono utili per ogni tipo di analisi fattoriale, indipendentemente dalle
differenze tecniche tra queste tipologie. AF esplorativa e AF confermatoria hanno
direzioni diverse ma la medesima origine: una matrice di correlazione tra le
variabili osservate. Il punto di partenza di un’analisi fattoriale è una matrice di
correlazione (calcolata mediante il coefficiente r di Pearson), mentre quello di arrivo
è costituito da una matrice fattoriale, ovvero una misura delle relazioni tra le
variabili osservate e i fattori latenti. Lo scopo dell’analisi fattoriale può essere definito
anche come l’estrazione di un numero ristretto di fattori che riproducano al meglio la
matrice di correlazione osservata. L'idea è che le variabili osservate correlino perché
condividono un fattore sottostante; si cerca quindi di creare delle nuove variabili (i

Appunti di Psicometria 2 71
fattori) che combinino le variabili osservate molto correlate fra loro e separino le
variabili non correlate fra loro.

Le correlazioni tra le variabili osservate e fattori latenti sono chiamate pesi fattoriali
o saturazioni fattoriali. L’obiettivo dell’analisi fattoriale consiste nell’individuazione
di una soluzione fattoriale in cui ciascuna variabile osservata correli o saturi bene su
un solo fattore e correli o saturi poco o per nulla sugli altri fattori.

Potremmo illustrare i principi base di tale analisi attraverso un'analogia con una
tavolozza da pittore: abbiamo a disposizione solo i tre colori primari, rosso, giallo e
blu, ma sappiamo che mescolando i colori primari possiamo ottenere un numero più
elevato di colori secondari (ed eventualmente terziari), che possono avere a loro
volta molte sfumature. Questo numero elevatissimo di colori ha alla base i tre colori
primari utilizzati inizialmente nella tavolozza; i colori primari rappresentano quindi i
fattori e quelli secondari e terziari le variabili osservate. L’analisi fattoriale
consente dunque di risalire ai colori primari partendo da quelli secondari e
terziari osservati. Tuttavia un colore derivato può contenere più pigmento di un certo
colore primario e meno pigmento di un altro colore primario (per esempio, il rosa
contiene rosso ma non giallo); può esistere cioè una "saturazione" maggiore o
minore di un certo colore su ciascun pigmento. La soluzione fattoriale migliore si
ha quando ogni colore derivato satura bene su un solo colore primario.

In tutte le varianti di analisi fattoriale il fine è quello di estrarre una serie di fattori che
siano al “centro” dell'insieme di variabili. Applicando la rappresentazione vettoriale
possiamo rappresentare due variabili x e v come dei vettori. Il fattore comune deve
cercare di rappresentare al meglio la variabilità delle due variabili, per questo
possiamo immaginare che si debba trovare al centro rispetto a x e v, in modo da
minimizzare contemporaneamente l’angolo con x e v.  Dato che più l’angolo è

Appunti di Psicometria 2 72
piccolo più la correlazione è alta, il miglior fattore sarà quello che massimizzerà le
correlazioni con le variabili osservate.

Se si hanno più di due variabili il fattore cercherà di porsi in mezzo a tutte ma


ovviamente le correlazioni con il fattore saranno differenti per le diverse variabili.

Dato che la correlazione al quadrato indica la varianza condivisa, possiamo anche


dire che il miglior fattore è quello che meglio cattura la varianza condivisa tra le
variabili; la varianza spiegata dal fattore sarà la somma delle varianze che
condivide con ogni singola variabile, ovvero la somma dei quadrati delle correlazioni
tra variabili e fattori.

La varianza spiegata dal fattore è data dalla somma del quadrato della correlazione
tra fattore e variabile 1 + il quadrato della correlazione tra fattore e variabile 2 + il
quadrato della correlazione tra fattore e variabile 3, e così via. La quantità di
varianza spiegata dal fattore è chiamata autovalore.

Tale fattore cercherà di spiegare quanta più varianza possibile ma non


necessariamente riuscirà a catturarla tutta; per questo motivo si può considerare di
estrarre più di un fattore dall'insieme di variabili.

Ogni soluzione fattoriale può essere rappresentata, oltre che geometricamente,


anche in una matrice numerica composta da:

il grafico degli autovalori, dove è elencata le quantità di varianza spiegata da


ciascun fattore;

la tabella delle saturazioni, dove sono presentate le correlazioni tra gli item e
ciascuno dei fattori estratti.

Appunti di Psicometria 2 73
Analisi fattoriale esplorativa
Serve per esplorare l’esistenza di una o più variabili latenti (quindi non osservate)
che si manifesta tramite le risposte a variabili osservate

Tutte le X (ma in grado diverso) partecipano ai fattori (che possono anche essere
correlati fra loro).

Le variabili osservate sono

le risposte di un questionario (per misurare i tratti latenti)


oppure

le misurazioni complete, come i punteggi di test mentali o altre misurazioni (per


esplorare o esaminare la struttura delle variabili)

Due elementi fondamentali

1. saturazione (loading): La correlazione fra una variabile osservata (item) e la


variabile latente

2. Il numero e il tipo di fattore, che essendo latente, richiede un’interpretazione


da parte del ricercatore

Requisiti per AFE


I requisiti minimi da soddisfare prima di fare un'AFE sono i seguenti:

avere variabili misurate su scale a intervallo o rapporto;

le variabili dovrebbero seguire la distribuzione normale o almeno approssimarsi


a essa;

i valori anomali dovrebbero essere esclusi perché possono alterare le


correlazioni;

è necessario avere un campione cospicuo di soggetti (almeno 100-200).

Prima di concentrarci sull'esecuzione di un'AFE, è opportuno verificare la


fattorizzabilità della matrice di correlazione delle variabili. Perché un’analisi
fattoriale possa produrre dei fattori rilevanti è necessario che la matrice di
correlazione contenga valori elevati accanto ad altri di bassa entità; avremo quindi
sia variabili che correlano bene tra loro, che variabili che non correlano bene tra loro,
e questo potrebbe essere d'aiuto per ottenere una soluzione fattoriale semplice, in
cui ogni variabile satura bene su un solo fattore o praticamente semplice, in cui il
numero di variabili che non saturano bene (o che saturano su entrambi i fattori, se

Appunti di Psicometria 2 74
ne sono stati estratti più di uno) è relativamente piccolo, circa meno del 10% del
numero delle variabili.

Le fasi di un’analisi fattoriale esplorativa


1. Scegliere il metodo di estrazione

2. Decidere il numero di fattori da estrarre

3. Scegliere il metodo di rotazione degli assi fattoriali (rotazione obliqua o


ortogonale)

4. Calcolare i punteggi fattoriali

1. Scegliere il metodo di estrazione (individuazione dei fattori da


considerare)

principali metodi usati


Componenti principali

1. Dall'output di SPSS a cui sono state chieste le statistiche univariate e la matrice


delle correlazioni, alte correlazioni sono un buon inizio per un'analisi fattoriale.

2. si definiscono e calcolano le comunanze: ossia la somma delle varianze comuni


fra fattori e variabili osservate, per ogni variabile osservata. La somma di queste
varianze (standardizzate) vale 1, per ogni variabile.

3. estrazione delle comunanze dalla tabella "comunalità": Con un numero di fattori


estratti uguale al numero delle variabili, le comunanze (somma dei quadrati delle
saturazioni) sono uguali all’unità. La somma dei quadrati delle saturazioni è
uguale alla varianza del fattore o autovalore. Con un numero di fattori estratti
uguale al numero delle variabili, la somma degli autovalori è uguale alla varianza
standardizzata delle variabili osservate (=N)

4. si guarda la matrice di componenti, che ha queste caratteristiche:

Appunti di Psicometria 2 75
la somma dei prodotti delle saturazioni è uguale a zero

Le n variabili osservate sono scomposte in n componenti (inferite o latenti)

La somma dei loro quadrati per riga è uguale a 1 (=comunanza)

La somma dei loro quadrati per colonna è uguale all’autovalore (o varianza


del fattore)

La somma dei prodotti della riga r per la riga s è uguale al coefficiente di


correlazione fra la variabile r e la variabile s

La somma dei prodotti di una colonna s per una colonna r è uguale a zero (i
fattori sono indipendenti)

5. si osserva il grafico delle componenti dove sono rappresentate le saturazioni su


un grafico cartesiano

6. si devono poi ruotare gli assi per meglio interpretare...

Fattori iterati

Il metodo delle componenti principali è matematicamente corretto, ma


statisticamente improbabile. Spesso si ricorre a quest'altro metodo

1. Al posto delle comunanze, si inserisce il coefficiente di correlazione multiplo di


ogni variabile

2. Si calcolano gli autovalori e le saturazioni

3. Si ricostituisce la matrice delle correlazioni

4. Si ricomincia con l’estrazione dei fattori

5. Si ripete il ciclo, finche le saturazioni osservate sono uguali a quelle ottenute


con la soluzione precedente

Con i Fattori iterati, non si possono ottenere tanti fattori quante sono le variabili
osservate, poiché vi è una riduzione della covariazione (la matrice perde il suo
rango). SPSS stampa un avviso per avvisare che l’estrazione chiederà un numero
più basso di fattori.

Massima verosimiglianza

raramente usati

metodo immagine

fattorizzazione alfa

Appunti di Psicometria 2 76
2. Determinare il numero di fattori
Ottenuta la matrice di correlazione e valutata la sua fattorizzabilità, si va a
determinare quanti e quali siano i fattori utili per spiegare la variabilità delle variabili.
Le diverse tipologie di AFE si differenziano per il metodo di estrazione dei fattori ma,
con un numero elevato di variabili, si equivalgono tutti. Una volta estratti i fattori,
bisogna individuare il numero di fattori da tenere. Tale decisione si basa
essenzialmente su tre criteri :

1. secondo il criterio Mineigen o di Kaiser-Guttman, sono da tenere solo quei


fattori con autovalore maggiore di 1; dal momento che l'autovalore indica la
quantità di varianza spiegata da quel fattore e che una variabile osservata
spiega sempre 1 (cioè sé stessa), tenere i fattori che hanno un autovalore
maggiore di 1 significa tenere i fattori che spiegano più di una variabile. Lo
scopo dell'analisi fattoriale è avere una descrizione sì accurata, ma sintetica e
parsimoniosa, e questo criterio ci permette di escludere tutti i fattori che non
risultano utili nello spiegare la variabilità delle variabili osservate;

2. secondo il terzo criterio è consigliabile estrarre un numero di fattori tale da


raggiungere almeno il 70 o 75% di varianza spiegata dalla soluzione fattoriale
(ovvero da tutti i fattori insieme) rispetto alla varianza totale

3. nello scree-test (o grafico decrescente degli autovalori) vengono


rappresentati su un piano cartesiano gli autovalori ordinati in base all'autovalore,
in modo tale da formare una retta; secondo questo criterio sono da tenere i
fattori che si elevano rispetto al punto di flesso.

Appunti di Psicometria 2 77
Illustriamo nel dettaglio i tre criteri. Guardiamo per primo il grafico degli autovalori:
nella prima colonna troviamo i fattori estratti; nella seconda colonna, gli autovalori,
ovvero le quantità che indicano quanta varianza spiega quel determinato fattore;
nella terza colonna possiamo osservare la quantità di varianza spiegata espressa in
percentuale. Nell'ultima colonna, infine, abbiamo la quantità di varianza spiegata
cumulata, cioè sommata rispetto a più fattori. Per il primo criterio, di Guttman,
decidiamo di tenere i primi due fattori, che hanno autovalori di 4.96 e 3.74, entrambi
maggiori di 1. Notiamo poi che la percentuale di varianza spiegata dai due fattori
assieme supera il 75%, dal momento che insieme spiegano l'87% della varianza
totale (in particolare, il primo da solo spiega il 49.61% e il secondo il 37.42%).
Andiamo ora a osservare lo scree-test :

Se consideriamo di escludere il punto di flesso corrispondente al terzo fattore (come


indicato da Harman), allora lo scree-test ci conferma l'estrazione dei primi due fattori,
che esulano chiaramente dal resto della retta e si innalzano al di sopra del punto di
flesso. In alternativa, potremmo decidere di considerare anche il terzo fattore (il
punto di flesso) ma, dal momento che in questo caso l'autovalore del terzo fattore è
piuttosto basso (.53), è da preferire l'esclusione.

Metodi efficienti
Analisi parallela

Recentemente è stata sviluppata un nuovo metodo per la determinazione del


numero di fattori da considerare, l'analisi parallela. Tale analisi prova ad individuare
in modo meno soggettivo e più formalizzato rispetto allo scree-test la soglia al di
sotto della quale gli autovalori vanno considerati come rumore di fondo e non

Appunti di Psicometria 2 78
varianza legata a dei “veri” fattori. L'analisi parallela calcola gli autovalori ottenuti in
dati casuali (in cui non ci sono fattori) con lo stesso numero di casi e di variabili
rispetto ai dati osservati. Viene quindi generato un numero sufficientemente ampio di
campioni casuali (per esempio, 100) su cui vengono calcolati gli autovalori. In questo
modo è poi possibile calcolare la media degli autovalori ottenuti nei diversi campioni
casuali e l'intervallo di confidenza intorno alla media. Il numero di fattori da estrarre
viene quindi determinato confrontando le medie degli autovalori casuali con quelli
osservati ed estraendo solo gli autovalori maggiori di quelli casuali. In genere,
qualunque sia il criterio utilizzato, si ritiene che il rapporto tra fattori e variabili
osservate debba essere, al massimo, di 1 a 3: non più di un fattore ogni tre
variabili osservate.

Consiste nel generare dei numeri causali, (per esempio punti zeta), uno per ogni
variabile osservata e per ogni partecipante.

1. Si estraggono tutti gli autovalori

2. Si ripete la simulazione molte volte (per es. 100)

3. La media del primo, secondo … kappesimo autovalore servono da confronto per


gli autovalori della matrice reale.

Interpretare i risultati:

Anziché la media, si prende in considerazione il 95° percentile, facendo un paragone


con la procedura di verifica di ipotesi. L’ipotesi nulla è sostanziata qui con la
distribuzione dei k-esimi autovalori: se il 95° percentile del k-esimo autovalore è
maggiore al k-esimo autovalore, allora lo si considera non casuale ma reale, e si
conserva il k-fattore. Se il k-esimo autovalore reale è inferiore al 95° percentile della
distribuzione dei k-esimi autovalori casuali, allora tale autovalore viene considerato
frutto del caso e il corrispondente fattore viene ignorato.

validità analisi parallela: Funziona molto bene, anche se non è entrata


completamente nell’uso. Disponibile con il software Jamovi e Mplus

Analisi delle componenti principali

L'analisi delle componenti principali (ACP) è una delle tipologie di analisi


fattoriale esplorativa. L’algoritmo dell'ACP estrae inizialmente tanti fattori quante
sono le variabili osservate; l’estrazione iniziale spiega il 100% della varianza delle
variabili, ma tale soluzione non è soddisfacente, dal momento che non può essere
considerata né efficiente né parsimoniosa. Si useranno quindi i criteri sopra illustrati
per decidere quanti e quali fattori tenere in modo possano rappresentare in maniera
efficiente le relazioni fra le variabili.

Appunti di Psicometria 2 79
Nell'ACP i fattori sono formati come combinazione lineare (ovvero come somma
pesata) delle variabili. Il primo fattore è estratto in modo tale da massimizzare la
varianza spiegata rispetto a tutte le variabili, il secondo fattore è estratto in modo tale
da massimizzare la varianza non spiegata dal primo, mantenendo l'ortogonalità tra i
fattori. Le saturazioni fattoriali sono quindi calcolate per essere massimizzate, sotto il
vincolo che F1 e F2 siano ortogonali.

Scree test

È la rappresentazione grafica degli autovalori in forma canonica (i primi, più


importanti, sono sulla sinistra del grafico). gli autovalori connessi con i fattori reali e
non casuali hanno un andamento caratteristico a caduta. Quelli casuali degradano
lentamente.

Si estraggono solo quei fattori che sono sulla linea di caduta, e si trascurano quelli
che degradano lentamente.

Appunti di Psicometria 2 80
Vantaggi: facile da utilizzare e molto usato
Svantaggi: non sempre è efficace e veritiero, a volte il pendio e la sua interruzione
non è individuabile con facilità.

Interpretabilità dei fattori estratti

E’ un criterio soggettivo, dipendente dalla natura degli item, dalla teoria soggiacente
e dalle conoscenze precedenti: si accettano i fattori che sono stati previsti e risultano
comprensibili e interpretabili. Pertanto il criterio è molto variabile e poco affidabile in
situazioni di autentica esplorazione.

Calcolo dei punteggi fattoriali in due subcampioni

Metodi inefficienti
Autovalore superiori a 1

Il criterio dovuto a Kaiser stabilisce che si possono accettare quei fattori che hanno
una varianza almeno uguale a una variabile standardizzata. Tuttavia il criterio è
molto debole e impreciso, perché tende a dichiarare buoni troppi fattori casuali. E’ il
criterio prestabilito (default) di Spss

Percentuale di varianza estratta

Non è un vero criterio, ma un modo molto impreciso per decidere di estrarre almeno,
per esempio, 40 o 60 o 80 % di varianza delle variabili osservate. Si usa raramente
e presenta il limite di non avere una vera giustificazione teorica.

Interpretazione delle saturazioni


Una volta estratto un numero limitato di fattori, si pone il problema di identificare
cosa essi rappresentino in termini di contenuto: quali dimensioni indicano i fattori
individuati? Per rispondere a questa domanda si andrà a guardare la matrice delle
saturazioni fattoriali; ricordiamo che la saturazione fattoriale indica quanto è alta la
correlazione tra il fattore e la variabile. La saturazione è considerata sostanziale
quando supera ± .35; interpreteremo quindi il fattore come quel costrutto, quel tratto
o quella dimensione che accomuna gli item con saturazione maggiore di ± .35.

Appunti di Psicometria 2 81
Quando la soluzione è semplice (ogni variabile ha una sola saturazione sostanziale)
o praticamente semplice (il numero di variabili che saturano su più fattori o non
saturano bene su nessuno è relativamente piccolo), useremo gli item che meglio
saturano sul fattore per interpretarne il significato. Se la soluzione si compone di un
solo fattore estratto, tutti le variabili che non saturano bene su quel fattore devono
essere eliminate dall'analisi, in modo tale che la soluzione diventi semplice. Nelle
soluzioni con più di un fattore, invece, bisogna considerare le saturazioni di ogni
variabile su tutti i fattori: in una soluzione multifattoriale ogni fattore è interpretato
mediante il significato delle variabili che saturano fortemente su di esso e non
saturano per nulla sugli altri fattori; quando la soluzione multifattoriale presenta
variabili che non cadono chiaramente su un solo fattore, ma sono in posizione
interstiziale rispetto a più fattori si parla di soluzione complessa.
La matrice sopra presentata è un esempio di soluzione complessa, dato che tutte le
variabili considerate saturano bene su entrambi i fattori estratti (con saturazioni da
.56 a |.89| per il primo fattore e saturazioni da .43 a .72 per il secondo). In casi come
questo, dal momento che abbiamo due fattori, possiamo può procedere con delle
rotazioni per rendere la soluzione multifattoriale semplice e migliorare il valore delle
saturazioni.

3. Scegliere la rotazione
una volta sul grafico, I due fattori non sono molto comprensibili. Però possono
essere modificati, (senza perdita di informazioni) per renderli interpretabili. Si può
scegliere una qualsiasi delle rotazioni proposte qui sotto (secondo dei criteri) al fine
di rendere le saturazioni fattoriali alte su un fattore e nulle sugli altri.
La rotazione massimizza le saturazioni con un solo asse di riferimento e agevola
l’interpretazione delle variabili latenti.

Appunti di Psicometria 2 82
Criteri per scegliere la rotazione:
Interpretazione e verosimilitudine dei risultati

Facilità di interpretazione

Ipotesi di ricerca

Contenuto degli item

Rotazione obliqua (fattori correlati)

Quando la rotazione degli assi non mantiene rigidi (ortogonali) gli assi, i fattori non
sono indipendenti fra di loro, ma le saturazioni fattoriali sono più grandi e facilitano
l’interpretazione dei fattori. Si sceglie perchè in alcuni casi la rotazione ortogonale
non produrrebbe soluzioni ottimali in quanto le variabili risulterebbero troppo simili
tra loro

Oblimin

Promax: parte da una rotazione varimax ma permette di rendere obliqui (non più
perpendicolari) gli assi di riferimento. Ha il vantaggio che i fattori sono definiti in
modo più chiaro rispetto alla rotazione varimax. Ha lo svantaggio che, a causa
dell’obliquità degli assi, i fattori non sono veramente indipendenti, e sono quindi
correlati fra di loro. Inoltre servono due matrici per comprendere la soluzione
fattoriale.

Rotazione ortogonale (fattori non correlati)

gli angoli di rotazione rimangono fissi.

Criteri:

1. una variabile dovrebbe essere molto satura di un solo fattore (r > 0,40)

2. avere saturazioni nulle sugli altri fattori (r circa = 0)

Appunti di Psicometria 2 83
Varimax: proposta da Kaiser. E’ la soluzione migliore perché si mantiene
l’indipendenza fra le variabili latenti.

Quartimax

una volta effettuata la rotazione, si moltiplica la matrice non ruotata per la matrice di
trasformazione

Ciascuna di queste decisioni ha influenza sul risultato finale e può risultare in


soluzioni molto diverse fra loro. La risoluzione finale ai dilemmi posti
dall’analisi fattoriale consiste principalmente nella bontà dei risultati finale, nella
qualità dell’interpretazione e nella validità psicologica dei risultati ottenuti.

Le relazioni tra fattori e variabili non possono essere espresse semplicemente dalle
saturazioni fattoriali dal momento che i fattori sono tra loro correlati. Tali relazioni
vengono quindi decomposte in due matrici di pesi:

la matrice di struttura mostra le correlazioni variabile-fattore semplici; i valori


indicano la correlazione tra variabile e fattore, inclusa quella parte di varianza
condivisa con altri fattori

la matrice dei modelli mostra le correlazioni parziali variabile-fattore; i valori


indicano la correlazione tra variabile e fattore, parzializzando ogni relazione con
altri fattori. La matrice dei modelli indica il contributo unico della variabile al
fattore, dunque useremo questa per interpretare le saturazioni della soluzione
ruotata.

La soluzione obliqua fornisce anche il valore della correlazione tra i fattori, in una
matrice di correlazione di componenti. Quando questa correlazione è bassa
(r<.20) la soluzione obliqua non conviene. Vi sono vari tipi di rotazione obliqua, come
la Oblimin e la Promax.

Punteggi fattoriali
Sono un tentativo di misurare e stimare (non calcolare) i fattori latenti, usando i
punteggi delle variabili osservate

Sono stati proposti molti modi, riconducibili a tre tipi:

Punteggi indipendenti o non correlati fra loro (Anderson Rubin)

Punteggi correlati (regressione o Bartlett )

I primi due si basano sui metodi della regressione multipla: si calcolano i coefficienti
beta da applicare alle variabili per stimare la variabile latente

Appunti di Psicometria 2 84
Punteggi approssimati

Il terzo metodo si basa su un’approssimazione: si prendono i punteggi delle variabili


osservate che hanno saturazioni elevate con una variabile latente e si fa la loro
media.

Analisi fattoriale confermativa


Solo alcune X contribuiscono ai Fattori (variabili latenti)

Dall’analisi fattoriale di un insieme di variabili osservate (item di un questionario,


misure psicometriche eseguite con vari test) si ottiene una matrice fattoriale, ossia
una matrice di correlazioni fra le variabili latenti e le variabili osservate, che devono
essere interpretate. Se la soluzione trovata è ritenuta soddisfacente e adeguata, si
possono stimare i punteggi fattoriali, che sono le coordinate di ciascun partecipante
su ciascuna dimensione latente, espresse in punti zeta.

Analisi fattoriale: spiegazione lab SPSS


Rappresentazione della realtà basata sui dati che abbiamo
Consiste in un certo numero di tecniche statistiche con lo scopo di semplificare
insieme complessi di dati: produrre una matrice, i punteggi fattoriali, che abbia
correlazione più simile possibile con le matrici di dati originali.

SCOPO: ridurre le dimensioni dei dati originali cercando di spiegare il più possibile
della varianza (principio di parsimonia), si scoprono dei fattori sottostanti alla
correlazione tra alcune variabili, ci serve per andare ad esplicitare qualcosa di cui
non abbiamo il "termometro" e quindi, estrarre dei fattori che sono costrutti
psicologici che non ho altro modo per misurare

esempio: come si spiega l'empatia? non la puoi misurare, puoi prendere una serie di
item assieme che ci indica che la correlazione forte con questi item, allora il fattore
sottostante empatia ha senso di esistere.

passaggi pratici:
scegliere metodo di fattorizzazione

scelta numero di fattori

se serve ruotare

Metodo di fattorizzazione

Appunti di Psicometria 2 85
più usati:

analisi delle componenti principali

analisi dei fattori comuni

si differenziano in base a come estraggono i fattori, ma per un grande numero di dati


le differenze non sono così grandi

Analisi delle componenti principali (ACP):


parte dalla comunalità del 100% (varianza iniziale presa in cosiderazione per l'analisi
fattoriale), mette insieme gli item ed estrae i vari componenti (c1, c2, c3 ecc)

ognuno di questi fattori è correlato zero con gli altri: sono tra loro ortogonali ed
estrae in maniera decrescentene, tante volte quante sono gli item

quanti fattori estrarre? si decide con un metodo (qua si comincia a fare qualcosa in
spss)

autovalore maggiore di 1 o mineigen

ogni item ha un punteggio nella prima colonna: l'autovalore, che è la varianza


spiegata da un fattore. non prendere in considerazione le componenti che spiegano
meno di un item.

scree test

metodo grafico decrescente sugli autovalori (salto tra la prima e la seconda


componente). sistema il difetto del menigen che non ci dice che la piccola differenza
tra gli autovalori minori o maggiore di uno è effettivamente diverso statisticamente

interpretabilità dei fattori

Rotazioni
Semplice o complessa da interpretare a livello di dati? si guarda la matrice di
saturazione che restituisce correlazioni tra componente o fattore e gli item.
Metodo più semplice per capire: maggiore .35 è una buona saturazione, se tutti gli
item correlano bene con tutte le componenti, cosa è davvero fattore di quello che
stiamo cercando? è una soluzione complessa quando più del 10% degli item sono
complessi ovvero che non si capisce bene la saturazione perchè l'item correla bene
con entrambe le componenti (non va bene, lo deve fare uno alla volta)

Quando la soluzione è complesssa bisogna applicare la rotazione

Appunti di Psicometria 2 86
la rotazione ci permette di correlare bene solo su uno dei due fattori così da facilitare
interpretazione. Massimizzo le correlazioni di un fattore minimizzandole sull'altre,
semplifico scegliendo tra le soluzioni quella che fa vedere più chiaramente
l'interpretazione dei fattori
rotazioni ortogonali e oblique: la prima mantiene la correlazione zero tra gli item
mentre l'obliqua no, la seconda assume che le varie componenti sono correlate tra
loro (più probabile trovare soluzioni oblique)

La scelta viene fatta con il grafico dei pesi fattoriali, a livello pratico invece si fa quasi
sempre l'obliqua (oblimin)

💡 SPSS: analizza → riduzione delle dimensioni → fattore → inserisco i miei


10 item e poi si va nella casella "estrazione" da cui si può scegliere il
metodo (default componenti) poi mettere grafico "scree" e già selezionato
menigen. poi si va in opzioni si può ordinare per dimensione ed eliminare
coefficienti piccoli (toglie dalla visualizzazione quelli più piccoli di .35,
glielo devo dire nel minibox sotto che di default ha .10). La rotazione
invece si fa in un secondo momento perchè dobbiamo capire se la
soluzione è mono, bi o multidimensionale e se è semplice o complessa

💡 OUTPUT: tabella comunalità: riepilogo che ci dice quella varianza iniziale


e quella post estrazione, tabella varianza totale spiegata: capire qual è
la soluzione ottimale con autovalore maggiore di uno ( a due fattori se due
sono maggiori di uno e via dicendo), guardo la cumulata per dire quanta
varianza si spiega con i due o più fattori. Grafico scree ci dice cosa
decidere, può essere anche solo un fattore e quindi poi in matrice dei
componenti si va a togliere l'altro. Se invece scelgo una soluzione a due,
si va a fare la rotazione dati i diversi item complessi (devono essere più
del 10%). Per ruotare si rifà l'analisi fattoriale andando anche in
"rotazione" scegliendo sempre prima la "oblimin" vado a vedere la matrice
di correlazione delle componenti, se è meggiore di .20, affermo che la
miglior soluzione è quella obliqua altrimenti sarà per forza ortogonale.

CAP8: Il punteggio ottimale

Appunti di Psicometria 2 87
Un metodo matematico-statistico per dare un valore numerico a qualsiasi categoria
che faccia parte di una potenziale scala di misurazione. Si applica a scale ordinali e
nominali (ma anche a intervalli se non sono troppo numerosi). Produce una
quantificazione in punti zeta di ciascuna modalità di ciascuna variabile

Principio
Si basa sul principio che il punteggio totale serve per calibrare le singole risposte. A
loro volta, le singole risposte servono a calcolare il punteggio totale. Il procedimento
è iterativo e reciproco, e si arresta quando i risultati non cambiano dopo una
iterazione (si chiama anche Metodo delle medie reciproche)

Come si ottiene:
1. Si attribuisce il valore 1 a una modalità e zero alle altre, in ogni domanda

2. Si calcola la somma per ogni partecipante

3. Si standardizza il punteggio (punti zeta)

4. Si calcola per ogni domanda la media di chi ha risposto A,B,C. Il valore 1 A è


quindi la media del punteggio totale di coloro che hanno dato la risposta A alla
domanda 1, il valore 1B è la media del punteggio di chi ha dato la risposta 1B e
così via

5. Comincia l'iterazione: La risposta A alla domanda 1 che inizialmente aveva una


codifica pari a 0 oppure 1, adesso viene codificata con il valore 1A, ossia con la
media calcolata con il metodo appena detto.

6. Si riattribuisce la nuova codifica a tutte le risposte

7. Si calcola di nuovo il punteggio totale , la media di ogni categoria… e si


ricomincia da capo

8. Quando si finisce: L’iterazione produce dei valori che tendono a stabilizzarsi


dopo un certo numero di ripetizioni. Quando non si produce più cambiamento
nelle nuovo codifiche, si ferma l’iterazione

Cosa si fa dopo:
Poiché ogni modalità riceve una quantificazione numerica, tutti gli item della scala
sono utilizzabili come una scala a intervalli.
Si può calcolare sia il coefficiente alfa di Cronbach sia le correlazioni fra domande,
su cui si può ulteriormente applicare l’analisi fattoriale, per accertarsi che ogni item

Appunti di Psicometria 2 88
contribuisca alla scala.

Se un item ha una saturazione bassa, non fa veramente parte della scala, e si può
eliminare. Dopo l’eliminazione di un item scadente, si ripetono i calcoli e si ottengono
nuove quantificazioni ottimali.

Si può inoltre applicare il metodo alle scale ordinali di tipo Likert già usate: per
verificare la reale congruenza fra posizione ordinale e quantificazione numerica a
priori

💡 SPSS: menù analizza → riduzione delle dimensioni → scaling ottimale.


Dopo aver scelto le variabili di analizzare, per ottenere le quantificazioni,
si clicca su output e si scelgono le variabili da visualizzare. Per ottenere i
grafici si clicca su "variabili" e si scelgono le variabili da visualizzare. Per
salvare: si possono salvare i punteggi fattoriali delle variabili latenti oppure
le variabili osservate ricodificate con il punteggio ottimale. Dopo aver
scelto le variabili di analizzare, per salvare il punteggio fattoriale si preme
su "salva punteggi dell'oggetto nel dataset attivo"

💡 OUTPUT: si osserva alfa di cronbach in "riepilogo del modello"

Appunti di Psicometria 2 89
Perequazione dei punteggi
I punteggi ottimali, anche se hanno una media pari a zero e una varianza pari a 1,
non hanno necessariamente una distribuzione normale.

Per ottenere la distribuzione perequata, che segue cioè la distribuzione di frequenza


di Gauss, si possono residistribuire i punteggi, accumulandoli o rarefacendoli in
accordo con la curva gaussiana

💡 SPSS: menù trasforma → rango casi → selezionare variabile da


trasformare e poi clic su "tipo di rango". togliere la spunta da "rango"
poichè essendo un valore prestabilito non ci serve. mettiamo la spunta su
"punteggi normali" per avere i punteggi perequati

💡 OUTPUT: crea una nuova variabile perequata che si chiama con lo stesso
nome e in aggiunta la lettera N davanti. la corrispondenza fra i due
punteggi può essere più o meno forte e la relazione più o meno lineare

CAP9: La fedeltà di un test


Caratteristiche dei test psicologici

Sono uno strumento importantissimo nel lavoro degli psicologi

Hanno rilevanza enorme nella pratica professionale e nella ricerca pura e


applicata

Appunti di Psicometria 2 90
Hanno delle caratteristiche uniche come strumenti di misura: la loro capacità di
dare informazioni e misurazioni utili non è mai scontata e la verifica è un
procedimento lungo e dispendioso, per le caratteristiche specifiche dei costrutti
psicologici che ne sono alla base.

Il loro uso presuppone anche la conoscenza teorica, oltre che pratica, di due
concetti fondamentali: la fedeltà e validità di una misurazione

Due fattori importanti di cui tenere conto per un test

1. Fedeltà o attendibilità: Proprietà di un test di fornire delle misurazioni prive di


errori di misurazione. è la quota di varianza vera che varia tra 0 e 1

2. Validità: Proprietà di un test di misurare realmente quella caratteristica per cui è


stato costruito (essere diagnostico)

Studio della fedeltà


può essere vista da due punti

1. Stabilità delle misurazioni nel tempo, correlazione dello stesso test


somministrato in due momenti diversi (una settimana a due mesi)

2. Stabilità della misurazioni negli strumenti

Per valutare la stabilità delle misurazioni


Sottoporre ad un test un gruppo di persone

Farlo ripetere dopo un certo periodo di tempo

Correlare i punteggi

Se la misurazione è perfettamente fedele, la correlazione dovrebbe essere


uguale a 1

Se la misurazione è del tutto inattendibile, la correlazione sarebbe nulla

Nella realtà la situazione è quasi sempre in posizione intermedia

Per valutare la stabilità attraverso gli strumenti


Divisione a metà del test (metodo Split- half): se il test dà una misurazione
coerente, il punteggio ricavato da una metà degli item deve essere altamente
correlato con il punteggio dell’altra metà

Appunti di Psicometria 2 91
Per stabilire quanto è preciso un test, si può considerare questo ragionamento: Se lo
dividiamo in due parti equivalenti, i due punteggi dovrebbero essere correlati. Se il
test è molto affidabile, la correlazione è molto elevata, Se il test è poco affidabile, la
correlazione fra le due metà è bassa.

Il punteggio totale è complessivamente però più coerente di ciascuna delle due e


metà, e di questo fatto si deve tenere conto se si vuole considerare la correlazione
fra due forme come coefficiente di fedeltà
La formula profetica di Spearman-Brown ha questa funzione:

🔧 FORMULA DI SPEARMAN BROWN

Forme parallele: due test con uguali medie, varianze e fedeltà

Le forme parallele sono facili da costruire per alcuni temi ( es. sommare numeri di
due cifre) ma più difficili per altri (test di ansia: non si può
descrivere l’ansia in modi infiniti). Hanno un senso e un’importanza più teorica che
pratica. I test costruiti per essere utilizzati in due momenti diversi (per es. dopo un
trattamento), si chiamano forme alternative o equivalenti.

Per sviluppare la teoria, occorre proporre una distinzione

punteggio vero: è il punteggio ideale, quello perfetto senza errore (osservato-


errore)

punteggio osservato: il punteggio che si prende dalla performance al test, esso


predice o stima il punteggio vero (vero+errore)

errore: errore che si fa per il solo atto di misurare

Teoria della fedeltà


Tre assunti:

1. Gli errori tendono ad annullarsi reciprocamente, per natura degli item, per
occasioni, per persone, per somministratore (Altrimenti si deve parlare di errore

Appunti di Psicometria 2 92
sistematico). La media degli errori è nulla

2. Ripetendo la misurazione, gli errori commessi la prima volta ricadono su altre


misurazioni, e non sulle stesse. Due misurazioni hanno errori indipendenti

3. Il punteggio vero è indipendente dall’errore. Un punteggio alto può avere un


errore alto, medio o basso, un punteggio medio o basso uguale...

🔧 FORMULA COEFFICIENTE DI FEDELTA

Fonti di errore
1. Caratteristiche personali (motivazioni, condizioni fisiche, di salute, ecc.) che non
si possono eliminare

2. Esaminatore (più importanti per la somministrazione individuale e la siglatura


che per quella collettiva); Valutazioni individuali dell’esaminatore

3. Contenuto del test item di varia natura, (se gli item fossero diversi il punteggio
potrebbe essere diverso)

4. Tempo fra due misurazioni (le discrepanze sono dovute al caso o a effettivi
cambiamenti?)

5. Altre situazioni: Ambiente (poca luce, troppo freddo, troppo caldo, ecc.), errori
nel voltare le pagine, Istruzioni scadenti, domande complicate, possibilità di
tirare a indovinare ecc

Calcolare la fedeltà ad oggi:


Esiste un modo più efficace per calcolare la fedeltà di una misurazione psicologica,
ed è il coefficiente alfa di Cronbach

Il coefficiente alfa di Cronbach

Appunti di Psicometria 2 93
Dalla derivazione della formula di Spearman-Brown, diversi autori hanno proposto
ulteriori generalizzazioni e sviluppi, condensati nella formula del
coefficiente alfa di Cronbach, che utilizza direttamente le varianze e covarianze degli
item di un test per stabilire il coefficiente alfa di fedeltà

🔧 FORMULA COEFFICIENTE ALFA DI CRONBACH

n: numero di item in un test


si^2: varianza dell'item i

st^2: varianza del test intero

Caratteristiche del coefficiente alfa


Varia da 0 a 1

E’ la media di tutti i possibili coefficienti split-half

Rileva l’omogeneità dei punteggi, ma non la loro unifattorialità (presenza di una


sola dimensione)

Rappresenta la quota della varianza del punteggio vero

Non rappresenta la quota (o percentuale ) di persone il cui punteggio è privo di


errore

Su cosa si basa
Il coefficiente alfa si basa su un confronto fra:

somma delle varianze dei singoli item di un test

somma di varianze e covarianze degli item (che formano il punteggio totale)

Indicazione di utilizzabilità del coefficiente alfa

Appunti di Psicometria 2 94
< 0,65: inaccettabile

oltre 0,65: sufficiente


oltre 0,70: discreto
oltre 0,80: buono

oltre 0,90: ottimo

Limiti del coefficiente alfa


Le tendenze attuali mettono in luce le sue lacune e molti autori propugnano il ricorso
ad altri coefficienti di fedeltà, basati sul coefficiente omega, che utilizza le
saturazioni fattoriali della scala, per produrre una misurazione più precisa.

💡 SPSS: analizza → scala → analisi di affidabilità. premere oltre in sezione


"statistiche" e selezionare "scala se elemento è eliminato"

💡 OUTPUT: in tabella "statistiche elemento-totale" un buon item ha


un'elevata correlazione positiva (maggiore di 0,3) con il punteggio totale
del test. Un buon item se eliminato, abbassa il coefficiente alfa. Se lo
innalza invece è meglio scartarlo

RIPASSO
Plus di ripasso: verifica di ipotesi
campionamento: selezioniamo un sottoinsieme della popolazione, per fare la
ricerca

inferenza: usiamo le informazioni ottenute dal campione per fare delle


supposizioni sulle caratteristiche della popolazione. Da qui la statistica
inferenziale che utilizza le informazioni tratte dal campione per fare delle
affermazioni più generali riguardanti la popolazione

Appunti di Psicometria 2 95
Obiettivi della statistica inferenziale:
1. stima: si vuole indicare valori plausibili per un parametro della popolazione.
Dato che non possiamo contattare tutta la popolazione, individuiamo un
campione rappresentativo e sulla base dei dati stimiamo il parametro della
popolazione

stima puntuale: un valore definito

stima intervallare: un intervallo entro cui, verosimilmente, il parametro sia


incluso

2. verifica di ipotesi: indicare quale tra due specifiche ipotesi sul parametro (nulla
o alternativa) sia da accettare

Verifica di ipotesi:
ipotesi: affermazione di carattere generale relativa ad un fenomeno, osservabile
direttamente o indirettamente nel mondo fisico
Un’ipotesi scientifica deve poter essere testata empiricamente, facendo un confronto
tra:

i dati provenienti dall'osservazione empirica

le aspettative basate sull'ipotesi

Processo di verifica delle ipotesi:


1. Riformulare il quesito in termini di ipotesi nulla e ipotesi alternativa relative
alla popolazione (o alle popolazioni) d’interesse

ipotesi nulla (H0): nella popolazione, un certo fenomeno non influenza una
determinata caratteristica, quindi non si verifica nessun effetto

ipotesi alternativa o di ricerca (H1): nella popolazione, un certo fenomeno


influenza una determinata caratteristica

2. Determinare le caratteristiche della distribuzione di riferimento ovvero la


distribuzione dei risultati se è vera l'ipotesi nulla
3. Determinare il valore critico nella distribuzione di riferimento ovvero i limiti
tali per cui se il nostro campione oltrepassa quei limiti, decidiamo che è poco
probabile che sia stato estratto dalla distribuzione di riferimento

4. Osservare il risultato ottenuto nel campione

Appunti di Psicometria 2 96
5. Decidere se rifiutare l'ipotesi nulla

se rifiutiamo l'ipotesi nulla: i risultati sono a favore dell’ipotesi alternativa

se non rifiutiamo l'ipotesi nulla: diciamo che il risultato non è statisticamente


significativo

Criterio di significatività:
Quanto deve essere insolita la media campionaria per rifiutare H0? Il valore
convenzionale adottato dalla psicologia è il 5%, un valore che scegliamo a priori e si
chiama livello alfa di significatività
Questo 5% indica che, se è vera H0, la nostra decisione sarà corretta nel 95% dei
casi e sbagliata nel 5% dei casi, è il rischio che decidiamo di assumerci per poter
fare inferenze.

valore p: è la probabilità di ottenere un valore così estremo come quello osservato o


più estremo, se H0 è vera, è la probabilità di sbagliare rifiutando H0. Questo valore
per poter rifiutare H0 deve essere sempre minore del livello alfa (in certi casi p deve
essere addirittura minore di .01)

Controversia: significatività marginale

Logica sottostante alla verifica di ipotesi:


Quanto è probabile, data una certa H0, estrarre un campione come quello che
abbiamo?

se è poco probabile (alla luce dei dati raccolti) estrarre un campione come il
nostro, H0 viene rifiutata e accettiamo H1

Se, data H0 , è probabile estrarre un campione come il nostro, H0 non viene


rifiutata

Il significato di ‘probabile’ e ‘poco probabile’ sono stabiliti dal livello di significatività

Ipotesi alternativa mono e bidirezionale


bidirezionale (a due code): Sia valori eccezionalmente alti nel campione, sia
valori eccezionalmente bassi disconfermano H0. Si ha alfa dimezzato: .025 a
sinistra e .025 a destra, quindi solo valori molto estremi che possono capitare ad
entrambi i lati, permettono il rifiuto di H0

monodirezionale (a una coda): Solo valori eccezionalmente alti disconfermano


H0 oppure solo valori eccezionalmente bassi disconfermano H0. Si ha alfa intero

Appunti di Psicometria 2 97
quindi valori un pochettino meno estremi disconfermano H0 perchè si ha tutta la
probabilità di .05 da un lato, aumenta perciò la potenza (ovvero la probabilità di
ottenere un risultato significativo se H1 è vera). Tuttavia è poco utilizzata perchè
se l'effetto va dall'altra parte non lo becchiamo più, il ricercatore deve perciò
avere un’ipotesi alternativa molto forte

Plus ripasso: Test t


si usano se la varianza è ignota: si può stimare la deviazione standard della
popolazione, sulla base del campione
La formula usata per il calcolo della varianza studiata nell’ambito delle statistiche
descrittive porta a una sottostima della varianza della popolazione (più grande di
quella del campione): è uno stimatore distorto, per ovviare a ciò si usa una formula
corretta
🔧 FORMULA STIMA DELLA VARIANZA:

La formula contiene la lettera s, anziché σ, ad indicare che non usiamo più il


parametro della popolazione (che non conosciamo): usiamo la statistica osservata
nel campione. Togliamo 1 così la numerosità diventa leggermente più piccola (e la
dispersione più grande) appunto perchè per quanto sia grande il campione, non
abbiamo la totalità degli individui che costituiscono la popolazione e quindi anche la
deviazione standard sarà leggermente meno precisa, togliendo 1 si ingrandisce un
pò la varianza della popolazione e ci si avvicina quindi di più alla sua vera varianza.

Proseguire con il calcolo dopo aver cambiato la formula:


1. Stimiamola deviazione standard della popolazione, sulla base del campione. Il
calcolo dell’errore standard si baserà su questa stima

🔧 FORMULA DELL'ERRORE STANDARD DEL CAMPIONE BASATO SULLA


STIMA DELLA DEV DELLA POPOLAZIONE:

Appunti di Psicometria 2 98
1. La formula per il calcolo della distanza tra la media del campione e la media
della popolazione secondo H0 diventa:

🔧 FORMULA TEST T:

la statistica t non si distribuisce esattamente come z quindi non possiamo fare


inferenze statistiche usando la curva normale; per fare l’inferenza devo basarmi sulla
distribuzione di t...

Distribuzione t di Student:
è una famiglia di distribuzioni, che dipende dalla numerosità del campione

Esiste una diversa distribuzione t per ogni dimensione del campione

Più il campione è grande, più la distribuzione t è simile alla distribuzione normale


standardizzata

forma: a campana e simmetrica con media = 0 come nella normale

σ dipende dai gradi di libertà (g.l.): varianza è maggiore di 1 e tende a 1 al


crescere di N, per N che tende a infinito la distribuzione t tende alla normale

Appunti di Psicometria 2 99
gradi di libertà:
il numero di valori che possono variare liberamente quando si calcola una statistica
su un campione ovvero quanta informazione è libera di variare prima di avere un
dato determinato

🔧 FORMULA DEI GRADI DI LIBERTA:


per un campione: g.l. = N - 1

Tipologie di t-test:
1. t-test a campione unico: per la verifica di ipotesi sulla media della popolazione
nel caso di varianza ignota

2. t-test per dati appaiati o campioni dipendenti: per il confronto tra le medie di
due campioni appaiati (o misure ripetute)

3. t-test per campioni indipendenti: per il confronto tra le medie di due campioni
indipendenti

💡 test-t con SPSS: analizza → confronta medie → selezionare tipo di test t.


OUTPUT: prima tabella statistiche campione singolo, seconda tabella:
punteggio t, gl, significatività, intervallo di confidenza

(in generale la procedura è la stessa che con i punti z solo che cambia di poco la
formula per calcolare t e poi sulle tavole per confrontare t critico bisogna guardare

Appunti di Psicometria 2 100


anche i gradi di libertà)

Stima intervallare della media:


fornisce gli estremi di un intervallo entro il quale è plausibile che si trovi il parametro
d’interesse. Questo intervallo si chiama intervallo di confidenza
🔧 FORMULA INTERVALLO DI CONFIDENZA TEST T:

All’aumentare della probabilità che l’intervallo contenga μ, aumenta anche


l’ampiezza dell’intervallo e la media viene stimata in modo meno preciso

T-test per campioni dipendenti/appaiati/correlati o per


misure ripetute:
Vogliamo confrontare due misure che non sono indipendenti:

disegno pre-post

disegno entro i soggetti

coppie dipendenti

💡 OUTPUT t test campioni dipendenti su SPSS: prima tabella: statistiche


campioni (separatamente): media delle due variabili, numerosità,
deviazione standard ed errore standard. seconda tabella correlazione
campioni accoppiati: indice di correlazione di pearson (non è altro che la
grandezza dell'effetto della nostra correlazione) delle due variabili
assieme a numerosità e significatività del test. terza tabella test campioni
accoppiati: (per coppia): la media, deviazione standard, errore standard,
intervallo di confidenza, valore t, gradi di libertà e significato a due code

Test-t per campioni indipendenti o differenza delle


medie di due popolazioni:
i due risultati sono abbastanza diversi per poter affermare che provengono da due
popolazioni diverse e indipendenti o in realtà sono frutto della stessa distribuzione?

Appunti di Psicometria 2 101


Si estraggono ripetutamente coppie di campioni dalle due popolazioni e calcoliamo
ogni volta la differenza tra le medie (X1–X2): distribuzione campionaria della
differenza tra due medie

Distribuzione campionaria della differenza tra due medie:


Le differenze oscillano intorno al valore (X1-X2) = 0

La distribuzione delle differenze è simmetrica rispetto allo 0

Abbiamo bisogno di stimare l’errore standard di questa distribuzione

🔧 FORMULA ERRORE STANDARD DELLA DIFFERENZA TRA DUE MEDIE:

calcolo t sulla base delle differenze delle due medie fratto l'errore standard della
differenza tra le medie appena calcolato

🔧 FORMULA GRADI DI LIBERTA PER T-TEST CAMPIONI INDIPENDENTI:


g.l. = df = N1 + N2 -2

💡 Test-t a campioni indipendenti su SPSS OUTPUT: equivarianze presunte


e non presunte (omoschedasticità o equivarianza) differenza errore
standard, test t, gl e significatività a che coda

Con intervallo di confidenza:


E’ possibile testare qualunque differenza di valore tra le medie.
esempio: H0: mu1 = mu2 + 5

🔧 FORMULA T-TEST CAMPIONI INDIPENDENTI CON DIFFERENZA MEDIE:

Appunti di Psicometria 2 102


🔧 FORMULA INTERVALLO DI CONFIDENZA T-TEST CAMPIONI INDIPENDENTI
DIFFERENZA MEDIE:

Assunti sottostanti al t-test per campioni


indipendenti:
1. Le osservazioni all’interno di ogni campione sono:

indipendenti le une dalle altre: altrimenti analisi multilivello

indipendenti da quelle dell'altro campione: altrimenti t-test per campioni


appaiati

2. la variabile di interesse è distribuita normalmente all'interno di entrambe le


popolazioni: altrimenti test abbastanza robusto a violazioni di quest'assunzione
(statistica per ranghi)

3. le varianze delle due popolazioni sono uguali tra loro (assunto di


omoschedasticità): altrimenti t-test a varianze distinte. Se i due campioni
hanno numerosità simile (ll più grande è meno di una volta e mezza l’altro) si
può ignorare l'assunto, altrimenti t test a varianze distinte (cambia leggermente
la formula)

💡 omoschedasticità con SPSS: OUTPUT: equivarianze presunte o non


presunte, test di Levene per capire se sono significativamente diverse

Dimensione dell'effetto per t-test a campioni indipendenti:


🔧 FORMULA EFFECT SIZE T-TEST CAMPIONI INDIPENDENTI:

Appunti di Psicometria 2 103


Le dimensioni convenzionali dell’effetto d sono le stesse già viste in precedenza:
0.20, 0.50, 0.80

Affidabilità e validità:
affidabilità: stabilità della misurazione, coerenza tra più misurazioni dello stesso
costrutto ottenute con lo stesso strumento.

validità: stiamo misurando effettivamente la cosa che vogliamo misurare (e non


qualcos’altro): lo strumento è diagnostico per ciò che vogliamo misurare

Correlazione e affidabilità:
utilizzando diversi metodi alla fine il calcolo dell'affidabilità si basa comunque sul
coefficiente di correlazione, la correlazione deve essere elevata (valore minimo
accettabile .70; meglio valori superiori a .80)

metodo test-retest: si misura due volte il costrutto con lo stesso strumento.


Coefficiente di attendibilità = correlazione tra i punteggi nelle due misurazioni

metodo delle forme parallele: si utilizzano due versioni equivalenti dello


strumento ma leggermente diversi

metodo split-half: si divide il test in due metà equivalenti e si calcolano i semi-


punteggi. Calcolo grado di correlazione dei punteggi parziali ma con Correzione
di Spearman-Brown

🔧 FORMULA CORREZIONE DI SPEARMAN-BROWN:

Appunti di Psicometria 2 104


permette di stimare l’effetto che un accorciamento o allungamento di un test può
avere sul coefficiente di attendibilità

alpha di Cronbach o interitem consistency: considera tutti gli item come


misure del costrutto. Assunto di base: tutti gli item che compongono il
questionario misurano il costrutto nello stesso modo e poi si calcola alpha di
cronbach che può essere interpretato come la sintesi delle inter-correlazioni tra i
punteggi di tutti gli item

affidabilità tra i valutatori (interrater reliability): confronto tra i punteggi


assegnati da valutatori diversi. Si chiede a due esaminatori di attribuire i
punteggi alle stesse prove, in maniera indipendente (cioè separatamente). Si
correlano i punteggi ottenuti dei due esaminatori

Grado di attendibilità:
r < .60: inadeguato

.60 < r < .80: accettabile

.80 < r < .90: buono

r > .90: ottimo

Correlazione e validità:
Validità di uno strumento: è in grado di misurare quello che riteniamo esso misuri

modi di valutare:

Validità di facciata: non è una vera e propria forma di validità significa ‘se lo
strumento sembra valido’, è importante per il rapporto con il soggetto/cliente

Validità del contenuto: valutazione sul grado in cui i diversi elementi che
compongono uno strumento sono legati al costrutto che si vuole misurare. quello
che sta dentro è effettivamente quello che voglio misurare

Validità in rapporto a un criterio: correlazione tra la misura di cui si vuole


stimare la validità e una misura indipendente dello stesso costrutto. si chiamano
così a seconda che siano fatte contemporaneamente o dopo

validità concorrente: correlazione con una diversa misura dello stesso


costrutto. strumenti simili che dicono di fare la stessa cosa, devono correlare
altrimenti uno dei due non lo sta facendo di misurare la cosa specifica

validità predittiva: La misura è predittiva di comportamenti che sono


espressione del costrutto che sto misurando?

Appunti di Psicometria 2 105


Validità di costrutto: valutazione del grado in cui la misurazione è coerente con
la teoria generale sul costrutto che vogliamo misurare. simile alla validità di
facciata fa riferimento alla letteratura scientifica che ci sta dietro

Dimensione dell'effetto (effect size) e analisi di


potenza:
Immaginando ci sia una differenza significativa tra i due gruppi, quanto è grande
questa differenza media tra i due gruppi?
Dimensione dell'effetto: misura standardizzata della differenza tra la media di due
popolazioni, ovvero l'ampiezza vera del fenomeno indagato nella popolazione.
per capire facilmente l'ampiezza dell'effetto, lo esprimiamo con un'unità di misura
standard, sempre la stessa: la deviazione standard
🔧 FORMULA DELL'EFFECT SIZE

Interpretazione del valore d:


effetto piccolo: d = 0.20

effetto medio: d = 0.50

effetto grande: d = 0.80

si ha così la potenza statistica: La probabilità che lo studio dia un risultato


significativo, se H1 è vera

💡 dimensione dell'effetto su SPSS: spuntare il checkbox quando la chiedono


nelle varie procedure (spesso è la d di cohen)

Appunti di Psicometria 2 106


Analisi della potenza: 4 concetti fondamentali legati
tra loro
criterio di significatività (α): Il criterio per il rifiuto di H0. Corrisponde alla
probabilità di commettere un errore del I tipo

potenza statistica (1 –β): La probabilità di rifiutare H0 quando H0 è falsa

ampiezza del campione N:

dimensione dell'effetto nella popolazione (d): quanto è grande il mio effetto

Utilità dell'analisi della potenza:


Calcolare numerosità richiesta (N) per raggiungere una determinata potenza
statistica (1 –β), dati α e d. Quanti dati devo raccogliere perchè la mia ricerca abbia
senso?

1. l'ipotesi di ricerca deve essere specificata ( m = tot) non basta dire che deve
essere diversa da quella dell'altro campione. in altre parole si ipotizza un
determinato effetto

2. calcolare d sulla base delle due medie o stabilirlo a priori quello che voglio

3. individuare i valori di α (significatività) e (1 –β) ovvero potenza

α = 0.05 valore convenzionale

(1-β) = 0.80 valore convenzionale ma posso scegliere anche valori maggiori

numerosità ottimale si calcola anche con specifici software come G*power

Appunti di Psicometria 2 107

Potrebbero piacerti anche