Appunti di Psicometria 2
CAP1: introduzione alla statistica e
ripasso delle basi (lez 1-7)
Cos'è la statistica:
1. una scienza: una branca della matematica che si occupa dell’organizzazione,
dell’analisi e dell’interpretazione di un insieme di numeri o dati. prendere
decisione migliore data una certa informazione disponibile
3. un metodo o una tecnica: di analisi dei dati (il calcolo della media, una
procedura di calcolo, è una tecnica statistica)
Termini statistici:
popolazione: è l’insieme di tutti i “soggetti/oggetti” che si vorrebbe studiare
Appunti di Psicometria 2 1
parametro: è il corrispettivo dell’indice statistico, ma calcolato/stimato sulla
popolazione. di solito indicati con lettere alfabeto greco
variabile: Una caratteristica che può assumere valori differenti nelle unità
d’osservazione
Le scale di misurazione
Intro termini:
misurare una proprietà: Assegnare un numero (o un simbolo) alle modalità in
modo che le relazioni tra i numeri (o i simboli) riflettano le relazioni tra le
modalità della proprietà.
scala di misura: indica il tipo di relazione che esiste tra i valori corrispondenti
agli attributi della variabile in esame. Sono importanti perché indicano quali tipi di
analisi sono possibili e sensate. L’interpretazione dei dati varia a seconda della
scala
Appunti di Psicometria 2 2
non direttamente sulla proprietà misurata, questo perchè la scala di misura è
arbitraria (serve per dire ad esempio i gradi, dove 14 è il doppio di 7 ma questo
non significa che ci sia calore doppio) (moda, media, mediana, dispersione,
punti z, test t, anova, correlazione, statistica per ranghi, istogrammi)
Appunti di Psicometria 2 3
Distribuzioni di frequenza
Come far capire i dati di una statistica descrittiva?
distribuzioni di frequenza: tabelle di frequenza contano quanti elementi
appartengono a una stessa categoria presente in una variabile
Appunti di Psicometria 2 4
💡 distribuzione di frequenza su SPSS: analizza → stastistiche descrittive →
frequenze
💡 Calcolo dei ranghi con SPSS: trasforma → rango casi → inserire variabile
→ cliccare su "correlazioni" che per SPSS indicano valori uguali →
assegnare un rango alle correlazioni (medio, basso o alto)
💡 Calcolo dei ranghi percentili con SPSS: trasforma → rango casi → inserire
variabile → cliccare su "correlazioni" che per SPSS indicano valori uguali
→ spuntare "rango frazionario come %" oppure analizza → statistiche
descrittive → frequenze → spuntare percentili
Appunti di Psicometria 2 5
Dopo le varie selezioni apparirà una colonna con:
RH: rango
Percentili:
punteggio al di sotto del quale ricade una determinata percentuale di casi
(comprendendo il punteggio stesso)
Qual è il punteggio al di sotto del quale ricade il 15% dei casi? Questo punteggio
rappresenta il quindicesimo percentile
Appunti di Psicometria 2 6
determinare l’intervallo in cui il caso è compreso;
conoscere LRI (limite reale inferiore), SFI (somma delle frequenze inferiori
all’intervallo in esame), frequenza (f) e ampiezza (h) dell’intervallo di riferimento
usare la formula
Quantili:
Se dividendo una distribuzione a metà otteniamo la mediana, dividendola in quattro
parti otterremo tre valori corrispondenti ai quartili. Allo stesso modo, dividendo in tre
parti si ottengono i terzili, in cinque i quintili, in cento i centili, e così via.
Tabelle di contingenza:
servono a rilevare la presenza di due variabili in contemporanea
Appunti di Psicometria 2 7
2. Usare un’ampiezza di intervallo di 2, 3, 5 o multipli di 5, scegliendo il valore più
piccolo che soddisfi la prima condizione
Rappresentazioni grafiche:
grafici a barre e istogrammi
Appunti di Psicometria 2 8
forme delle distribuzioni:
simmetrica: se è speculare rispetto alla metà
curtosi:
forma che la distribuzione assume al centro, standard di riferimento è quella a
campana, curtosi = 0
platicurtica: più piatta del normale, i valori agli estremi sono più elevati che
nella distribuzione a campana e la curtosi è minore di 0
come fare a capire che curtosi abbiamo? test ks: ci dice quante deviazioni standard
la curtosi di quella curva si allontana dalla normale
Altri grafici
Boxplot: media + dispersione
Appunti di Psicometria 2 9
Scatterplot: correlazione
Appunti di Psicometria 2 10
Grafici a torta: frequenze
Grafici ramo-foglia
💡 grafici su SPSS: sezione "grafici" per avere i soliti e "builder di grafico" per
costruirne di più particolari
Appunti di Psicometria 2 11
se N è dispari: si individua semplicemente il valore in mezzo (N+1)/2
se N pari: il valore che si colloca tra le due posizioni centrali (N/2) e (N/2)+1.
Scala ordinale: la mediana è la coppia di valori. Scala a intervallo o rapporto:
si calcola media dei due valori
la differenza fra il punteggio più alto (massimo) e il punteggio più basso (minimo)
della distribuzione:
Appunti di Psicometria 2 13
Questo indice fornisce informazioni poco precise, e talvolta può essere persino
fuorviante, dal momento che i punteggi estremi sono spesso anomali rispetto al
resto della distribuzione. Può comunque essere utile osservare quali sono i valori
minimo e massimo di una distribuzione, per esempio per controllare se sono stati
fatti errori nell’inserimento dei dati o per valutare la presenza di valori anomali
la differenza fra il terzo e il primo quartile e corrisponde al 50% centrale dei valori
della distribuzione:
IQR = Q3 - Q1
Questo indice, come la mediana, è influenzato dai punteggi estremi e, a differenza
del campo di variazione, può essere calcolato anche quando a uno degli estremi
della variabile si trova un intervallo aperto (per esempio, dai 50 anni in su). Dividento
a metà l’IQR si ottiene la semi-differenza interquartilica (SIQR) che corrisponde al
25% dei valori sopra o sotto la mediana. Entrambi gli indici sono poco usati in
psicologia dal momento che non vengono quasi mai utilizzati nelle procedure
statistiche più avanzate.
La variabilità si riferisce alla differenza tra il singolo punteggio e tutto il resto della
distribuzione, ma calcolare la differenza tra ogni punteggio e ciascuno degli altri è
una procedura lunga e complicata, soprattutto con una N grande. La soluzione
potrebbe essere quindi quella di calcolare la differenza, o deviazione, di ogni
punteggio come distanza dal centro della distribuzione. Dal momento che la media è
il miglior indice di tendenza centrale, gli scarti dalla media potrebbero essere una
buona misura di variabilità; tuttavia, si è visto che una delle proprietà della media è il
fatto che la somma degli scarti dalla media è sempre pari a zero. Per ovviare a
questo inconveniente, ci sono due possibili soluzioni:
considerare gli scarti senza il segno (in valore assoluto) e fare la loro media;
elevare gli scarti al quadrato (in modo che siano positivi) e fare la loro media.
Nel primo caso si sta calcolando la deviazione media (DM, MD) o scostamento
semplice medio (SSM):
Nel secondo caso si sta invece calcolando la varianza (sigma elevato al quadro,
var):
Appunti di Psicometria 2 14
1. Quando una costante k viene aggiunta (o sottratta) a tutti i valori della
distribuzione, la varianza e la deviazione standard non cambiano
2. Quando tutti i valori di una variabile X vengono moltiplicati per una costante k,
anche la deviazione standard risulterà moltiplicata della stessa costante k. La
varianza risulterà moltiplicata per k^2
I punti Z (standardizzazione) e la
distribuzione normale:
Punteggio grezzo: il risultato della procedura di misurazione (non ha subìto
trasformazioni). Sono semplici da interpretare se conosciamo la scala su cui sono
misurati
Limiti dei punteggi grezzi:
Per superare questi limiti: Usiamo gli indicatori di tendenza centrale e variabilità
Appunti di Psicometria 2 15
Dividiamo lo scarto dalla media per la deviazione standard, per avere una misura di
distanza che si basa sempre sulla stessa unità di misura (questa unità di misura è la
deviazione standard)
Punti Z:
🔧 FORMULA PUNTO Z:
Proprietà:
La media dei punti z è zero
Valori negativi indicano punteggi inferiori alla media e valori positivi indicano
punteggi superiori alla media
Standardizzazione:
è la trasformazione di una variabile in punti z
La distribuzione dei punti z si dice “distribuzione standardizzata”. Essa ci permette
di confrontare punteggi provenienti da distribuzioni di frequenza diverse
La standardizzazione di una variabile permette il ricorso alla curva normale standard
Appunti di Psicometria 2 16
Vantaggi dei punti Z
Sono confrontabili con punteggi di altri test e misurazioni
Se hanno una distribuzione normale, si può far riferimento alle tavole della
distribuzione della curva normale
Punti T = z ∙10 + 50
Punti C = z ∙2 + 5
punteggi Q
Appunti di Psicometria 2 17
E’ una famiglia di distribuzioni (hanno delle caratteristiche comuni) di frequenza
teorica che vanno da meno infinito a più infinito. è un qualcosa che
immaginiamo, ipotizziamo esista, non è una distribuzione empirica, ossia
qualcosa che è frutto dell’osservazione, però molte delle distribuzioni esistenti in
natura la approssimano
l’area sottesa alla curva è uguale a 1 (in termini di percentuali, diciamo che sotto
la curva c’è il 100%) e rappresenta la distribuzione della popolazione totale
Appunti di Psicometria 2 18
Fra -1 e +1 ds è compreso il 68.26% dei casi (circa 2/3)
Appunti di Psicometria 2 19
Diversa dalla distribuzione della popolazione
media: è uguale a quella della popolazione da cui sono estratti gli elementi
(MUm = MU)
dispersione: è minore rispetto a quella della popolazione da cui sono estratti gli
elementi (sigmam = sigma/radice di N) perchè medie estreme sono meno
probabili di singoli valori estremi. La deviazione standard delle medie è anche
conosciuta come errore standard della media e indica quanto è affidabile
ciascuna media campionaria. Valori piccoli indicano che estraendo più campioni,
le medie sarebbero abbastanza vicine tra loro, al contrario valori grandi indicano
una dispersione attorno a MU. Indica di quanto, tipicamente, il valore della
media osservato nel campione (la statistica osservata) si discosta dal valore
vero della media nella popolazione (il parametro che non conosciamo): è detto
ERRORE perchè indica quanto impreciso è nel rappresentarmi la popolazione
Appunti di Psicometria 2 20
popolazione si discosta dalla normale, tanto maggiore sarà la dimensione
campionaria richiesta perché la distribuzione campionaria si approssimi alla
normale
Mx = μ e σx = σ/ radice di N
3. confrontare questa probabilità con z critico per accettare o meno l'ipotesi nulla
osservando il valore p rispetto alla significatività alfa
Appunti di Psicometria 2 21
Stima di parametri:
Quando non conosciamo la media della popolazione, la miglior stima di questa
media è la media del campione
Dato che spesso la media del campione non è esattamente uguale alla media della
popolazione, una stima puntuale non sarebbe molto precisa perciò si utilizza
l'intervallo di confidenza (CI): un intervallo che includa, con una probabilità
prescelta, il valore della media della popolazione
Esso indica l’intervallo in cui, nel 95% dei casi, si trova il parametro stimato
Il 99% CI comprende il valore vero della popolazione nel 99% dei casi
CAP 2: Correlazione
Covarianza
Appunti di Psicometria 2 22
Un modo per esprimere il movimento di una variabile consiste nel quantificare la sua
variabilità intorno alla media; tanto più la variabile si muove, tanto più ampi saranno
gli scostamenti dalla media. Come è noto, la media degli scostamenti al quadrato è
la varianza (e la radice quadrata della varianza è la deviazione standard). Ogni
variabile esprime quindi una certa variabilità misurabile mediante il calcolo della
varianza.
Si può esprimere il grado di movimento che due variabili hanno in comune attraverso
la
covarianza: questo indice esprime il grado di variazione comune alle due variabili,
ovvero ci dice quanto esse variano assieme. è la media dei prodotti degli scarti dalle
rispettive medie
La covarianza aumenta sia per punteggi entrambi positivi nelle due variabili che per
punteggi entrambi negativi nelle due variabili; al contrario, la covarianza diminuisce
quando i punteggi sono positivi in una variabile e negativi nell’altra.
È analoga alla varianza, ma coinvolge due diverse variabili: X e Y come due variabili
diverse.
L’indice di covarianza è positivo quando c’è concordanza tra gli scarti. Al contrario,
quando c’è discordanza tra gli scarti l’indice è negativo: le due variabili sono
associate negativamente, perciò al crescere di una, l’altra decresce. L’indice di
covarianza è pressoché nullo (quasi zero) quando le variabili non sono associate
(per alcuni casi c’è concordanza, per altri discordanza).
La covarianza, anche se usata spessissimo nelle analisi statistiche, non è facilmente
interpretabile: essa dipende infatti dalla scala di misura delle variabili. Per palliare
questo problema, si è trovato un indice di associazione che non dipende dalla scala
di misura delle variabili, ovvero il coefficiente di correlazione.
Appunti di Psicometria 2 23
A differenza del coefficiente di correlazione, che è un indice e ci permette di
valutare sempre la forza della correlazione lineare, a prescindere dall’unità di
misura, la covarianza non dà nessuna indicazione a questo proposito. Una
covarianza di 0,16 potrebbe essere vicinissima allo zero o rappresentare una
relazione molto forte
Correlazione
associazione tra i punteggi in due variabili misurate su scala a intervalli o rapporto
Correlazione lineare tra due variabili misurate almeno a livello di scala a intervallo
Appunti di Psicometria 2 24
🔧 FORMULA COEFFICIENTE DI PEARSON:
In campo psicologico:
In campo psicologico:
Appunti di Psicometria 2 25
Rappresentazioni della correlazione
Ogni relazione tra variabili può essere rappresentata graficamente al fine di capirne
le proprietà e le caratteristiche. Per quanto riguarda la correlazione abbiamo tre
rappresentazioni possibili:
Appunti di Psicometria 2 26
Il quadrato della correlazione, chiamato (R quadrato), ci indica la proporzione di
varianza condivisa dalle due variabili; se moltiplicato per 100, ci indica la percentuale
di varianza condivisa dalle due variabili
Appunti di Psicometria 2 27
variabile, come l’età, possa contribuire ad alimentare la correlazione tra le due
variabili, dato che sia il numero di parole conosciute che l’intelligenza aumentano
con l’età. Se l’età risulta essere correlata con una delle due variabili o con entrambe,
calcolando la correlazione tra il numero di parole conosciute e l’intelligenza con la
variabile età parzializzata (ovvero al netto di età) troveremo che la correlazione le
due variabili diminuirà. Parzializzare significa quindi considerare la variabile età
come se fosse costante, come se tutti i bambini del campione avessero la stessa età
al momento della raccolta dei dati.
🔧 FORMULA DEL COEFFICIENTE DI CORRELAZIONE PARZIALE TRA X E Y
AL NETTO DELL'EFFETTO DI Z
Coefficiente di determinazione
Il quadrato del coefficiente di correlazione (r^2) indica la quota di varianza
comune fra le due variabili. Se moltiplicato per 100, indica la percentuale di varianza
comune fra le due variabili
0,30 basso
0,40 discreto
0,70 eccellente
0,80 fantastico
0,90 sospetto
Appunti di Psicometria 2 28
Non è possibile utilizzare il coefficiente per calcolare la correlazione di Pearson
quando:
tau di Kendall
coefficiente punto-biseriale
coefficiente fi
biseriale
coefficiente policorico
Si usa con le variabili continue che presuppongono una partizione in più parti (non
solo in due, come per il coefficiente tetracorico), tipica degli item di un questionario.
Si usa generalmente nei programmi di modellistica strutturale (SEM, LISREL).
Richiede molte centinaia di casi per il calcolo
Appunti di Psicometria 2 29
quartetto di Anscombe
Sono quattro insiemi di coppie, la cui correlazione è sempre pari a 0,816, ma hanno
una relazione molto diversa fra di loro. Mette in evidenza la necessità di esaminare
sempre il grafico dei punti per individuare valori anomali e distribuzioni particolari
poi si confronta il valore t risultante con il t critico trovato sulle tavole in base ai gl e si
decide quale ipotesi scartare.
H0: il coefficiente di correlazione è zero, i valori comuni sono quelli attorno allo zero.
Valori rari sono molto lontani da zero.
H1: L’ipotesi alternativa prevede che r sia diverso da zero, quindi elevato, e che
campioni di r elevato siano comuni
Errori decisionali:
la procedura è svolta correttamente (è giusta) ma porta a una decisione sbagliata,
essi sono di due tipi:
1. errore del primo tipo (alfa): si accetta l’ipotesi alternativa ma è vera l’ipotesi
nulla (falso positivo)
Appunti di Psicometria 2 30
2. errore del secondo tipo (beta): si rifiuta l’ipotesi alternativa ma essa è vera
(omissione)
🔧 FUNZIONE
y = mx + a
Dovremo trasformare il punteggio del test predittore con una equazione di una retta,
che predica al meglio (ovvero commettendo meno errori possibili) il punteggio
Appunti di Psicometria 2 31
ottenuto dal soggetto nel test predetto.
Si deve tenere conto che le predizioni non sono precise, e quindi la funzione
dovrebbe essere scritta sempre così. La retta di regressione rappresenta dunque la
predizione lineare (o dipendenza lineare) tra una variabile indipendente e una
variabile dipendente, espressa nelle unità di misura originali
🔧 FORMULA DELL'INTERCETTA
Appunti di Psicometria 2 32
x : variabile indipendente o predittore
y: variabile dipendente o predetto, è una stima, per questo dovrebbe avere il
"cappellino"
Esempi di predizione
Un test di abilità verbale predice il profitto a scuola
Partendo dalla relazione tra le due variabili, la disposizione dei punti indica che tipo
di relazione c'è, la quale può essere descritta e riassunta con una retta. La migliore è
quella più vicina a tutti i punti ovvero quella che rende minimi gli errori, o meglio, i
quadrati degli errori.
Nella regressione si hanno come riferimento un'ipotesi nulla e una alternativa per
l'intercetta e un'ipotesi nulla e una alternativa per il coefficiente di regressione.
Appunti di Psicometria 2 34
H0 = il coefficiente b è 0 nella popolazione; non c'è un'associazione lineare tra le
due variabili e, in particolare, non c'è un effetto della variabile indipendente sulla
dipendente;
L'errore nella regressione sarà dato dalla somma degli scarti tra valori osservati e
valori predetti, elevati al quadrato; tale quantità viene poi divisa per N-1, e si ottiene
così la varianza di errore della regressione:
Facendo una regressione, il nostro obiettivo è spiegare quanto più possibile della
variabile dipendente y attraverso la variabile indipendente x. La varianza di y sarà
dunque data dalla somma tra la varianza spiegata dalla regressione e la varianza di
errore (ovvero tutto ciò che non può essere spiegato dal modello):
Appunti di Psicometria 2 35
La varianza spiegata, rappresentata nei diagrammi di Eulero-Venn come
intersezione tra le due variabili, corrisponde all'R-quadrato, che è chiamato anche
coefficiente di determinazione. La varianza di errore, chiamata anche
coefficiente di alienazione o indeterminazione, sarà data dal complemento dell'R-
quadrato (ovvero da 1 - r^2 ).
Appunti di Psicometria 2 36
💡 OUTPUT: tabella coefficienti: B in seconda riga: costante moltiplicativa o
m, B prima riga: costante additiva o a, è il valore della VD quando la VI è
uguale a zero. Coefficiente beta standardizzato: con una sola VI è uguale
a r, indica l'ammontare di cambiamento della VD per ogni unità se
entrambe le variabili sono standardizzate. Tabella riepilogo del modello:
R multiplo indica la precisione della predizione ovvero la correlazione tra
predittore e predetto, importante nella regressione multipla perchè in
quella semplice R = r, è un valore sempre positivo anche quando r è
negativo. R quadrato multiplo se moltiplicato per 100 da percentuale di
varianza spiegata dalla VI. R quadrato corretto da una stima del possibile
coefficiente ripetuto su un nuovo campione.
2. applicare la regressione
Appunti di Psicometria 2 37
💡 OUTPUT: Costante moltiplicativa è uguale a rxy e la costante additiva è
uguale a zero. Medie dei valori predetti e di quelli osservati sono uguali.
La media dei predetti standardizzati è uguale a zero. Deviazione standard
dei valori predetti è uguale al coefficiente di correlazione
Casi estremi
r = 1: correlazione perfetta, nessun errore
🔧 FORMULA RESIDUO
residuo = osservato - predetto
Appunti di Psicometria 2 38
Tre devianze: sum of squares
residui non spiegati o somma degli errori o errore standard delle stime o
varianza degli errori: la differenza tra la y osservata e quella stimata.
Appunti di Psicometria 2 39
media dei residui pari a zero
Nella predizione del singolo caso non è mai possibile sapere se la predizione è
precisa o no. Si può quantificare la precisione totale, fatta su tutti i casi (presenti e
futuri): la quota di varianza spiegata (r^2) è un utile indice per definire la precisione
della predizione.
Regressione multipla
Quando si trova o si sospetta un effetto di più variabili indipendenti sulla variabile
dipendente, come nell'esempio sopra illustrato, il modello statistico più indicato da
usare è quello della regressione multipla: la regressione multipla studia infatti gli
effetti di due o più variabili indipendenti su una variabile dipendente. Usa più
coefficiente angolari, uno per ciascuna VI
Appunti di Psicometria 2 40
L'effetto di ciascuna variabile indipendente sulla dipendente, tuttavia, potrebbe
essere influenzato dal fatto che le due variabili indipendenti potrebbero essere
correlate tra loro.
Appunti di Psicometria 2 41
Mentre la regressione semplice, è espressa dall'equazione della retta nel piano, la
regressione multipla è espressa dall'equazione di un piano nello spazio.
L'R-quadro può essere concepito anche come la porzione di errore che non si
commette, quindi 1 – e. Il contributo di w alla varianza spiegata è rappresentato
graficamente da a, mentre quello di x da b. Se si aggiungono alla regressione delle
variabili indipendenti, l'R-quadro aumenta anche se il contributo di queste variabili è
di minima entità. L'R-quadro corretto ovvia a tale distorsione e viene usato come
indice di bontà del modello quando ci sono molte variabili indipendenti e il campione
ha una numerosità ristretta. Nel resto dei casi, si può interpretare l'R-quadrato non
corretto per sapere quanta varianza della variabile dipendente è spiegata dalle
variabili indipendenti.
Appunti di Psicometria 2 42
Si interpreta quindi come il contributo unico di una variabile indipendente alla
varianza non spiegata dalle altre variabili indipendenti; ci segnala cioè quanta
varianza spiegherebbe la variabile indipendente x se la variabile dipendente y non
variasse anche in funzione della variabile w, ovvero tenendo costante l’influsso delle
altre VI,
Il contributo unico della VI può anche essere valutato come varianza spiegata totale
parzializzando la varianza condivisa con le altre VI;
Per usarli
Entrambi i coefficienti variano da 0 a 1. In generale, si interpreta il coefficiente di
correlazione semi-parziale quando la variabile indipendente che si parzializza varia
naturalmente nella realtà. Si preferisce invece l'interpretazione del coefficiente di
correlazione parziale quando la variabile indipendente che si parzializza è stata
variata artificialmente dai ricercatori in disegni di ricerca sperimentali.
Appunti di Psicometria 2 43
Multicollinearità
Varianza comune fra le VI: se è molto elevata produce stime instabili
Ci sono degli indici per indicare quando si manifesta questo effetto (tolleranza e VIF,
Variance Inflation Factor)
Soluzione: trasformare le variabili molto correlate in componenti principali
Distanza di Mahalanobis
Una misura di distanza del punto k dagli altri punti, sulle variabili indipendenti
Distanza di Cook
Quantificazione dell’effetto che avrebbe l’eliminazione del punto k sul calcolo dei
residui. Valori elevati indicano che il punto k è un valore anomalo e richiede esame
approfondito
Appunti di Psicometria 2 44
La path analysis o path diagram: andare a cercare le relazioni tra tutte le variabili
in gioco che si influenzano tra di loro (non solo causa effetto) e lo si usa molto in
psicologia cognitiva ma anche sociale
Rappresenta graficamente il gioco tra due o più variabili (quasi tutti dipendenti di
tutti)
Come si studiano
una delle analisi che si può fare attraverso la regressione → analisi avanzata basata
sulla regressione (non è una regressione, è un'analisi che sfrutta i coefficienti della
regressione)
Come si risolve
(abbiamo bisogno di trovare le incognite che sono le lettere che rappresentano le
frecce che se sono unidirezionali significa che sono il beta di una regressione che ha
come variabile indipendente l'origine della freccia e dipendente quella di arrivo)
unica semplice regola: fare una regressione per ogni variabile che riceve freccia in
cui chi riceve è la variabile dipendente e chi manda è l'indipendente (se riceve più
frecce significa regressione multipla)
1. trovare le tre incognite della retta (a, b e c'): faccio regressioni: una regressione
semplice che vede il mediatore come VD e poi una regressione multipla della
VD che riceve dal mediatore esogeno e dalla variabile indipendente esogena
(guardare sempre il beta)
una volta che abbiamo i tre coefficienti possiamo studiare il modello di mediazione.
regge? bisogna vedere se la mediazione esiste
come faccio a stabilire che un'intercetta di 0,3 è diversa da 0? con il test di
significatività (nella regressione il t test a campione unico che testa se il valore di B
che abbiamo trovato è diverso da zero)
Appunti di Psicometria 2 45
a livello matematico: quando ab diversi da zero altrimenti c e c' risultano uguali e
quindi non ci sarebbe mediazione
quando sarà mediazione totale: quando tutto l'effetto passa per il mediatore, c'
sarebbe 0 o non significativo e quindi c= ab
Le variabili binarie o dicotomiche sono quelle che assumono solo due valori. La
codifica più conveniente è attribuire valori 0 e 1. Si possono applicare anche a
variabili categoriali (scale nominali) perchè la presenza di un solo intervallo le
trasforma in una vera scala a intervalli.
categoria di riferimento:
Appunti di Psicometria 2 46
💡 OUTPUT: la costante B della regressione è uguale alla media della
categoria di riferimento, ossia quando i tre indicatori sono tutti uguali a
zero. Le medie degli altri gruppi sono il risultato della somma della
costante e di ciascun coefficiente moltiplicativo
Nel caso di una regressione con variabile dummy non ha senso interpretare il
coefficiente beta, conviene interpretare il coefficiente non standardizzato.
Appunti di Psicometria 2 47
La varianza totale è sempre scomponibile in due: varianza spiegata dalla
regressione e varianza residua o dell’errore
CAP5: ANOVA:
Analisi della varianza: Si confontano le varianze di due o più gruppi per capire se
le medie sono significativamente diverse.
Se è vera H0, ci aspettiamo che le due stime siano simili tra loro (non saranno
uguali, perché sono stime, se H0 è falsa, almeno una delle medie dei k gruppi è
significativamente diversa dalle altre)
Appunti di Psicometria 2 48
Requisiti
La variabile dipendente è misurata su una scala a intervalli
Calcolo
Il calcolo dell'analisi della varianza fa riferimento al concetto di variabilità, intesa
come la dispersione delle osservazioni rispetto alla media. Un indice di variabilità
fondamentale per il calcolo dell'ANOVA è la devianza: il termine devianza (o somma
dei quadrati, SQ) indica la somma degli scarti dalla media generale elevati al
quadrato.
Si tratta quindi della sommatoria degli scarti quadratici di ciascun punteggio dalla
media generale della variabile.
La devianza tra i gruppi è data dalla sommatoria delle differenze tra la media di
ciascun gruppo e la media generale della variabile, elevati al quadrato
Appunti di Psicometria 2 49
La devianza entro i gruppi (detta anche devianza di errore) è data invece dalla
sommatoria delle differenze tra ciascun punteggio e la media del gruppo a cui
appartiene, sempre elevati al quadrato. La media generale è indicata con una
barretta sola, mentre la varianza dei gruppi ha la i come pedice.
Il calcolo dell'ANOVA parte dalla devianza per arrivare a stimare la varianza sulla
popolazione; la varianza si ottiene dividendo ognuna delle tre devianze per il numero
dei gradi di libertà rispettivi
Appunti di Psicometria 2 50
La varianza totale, ovvero la variabilità della variabile dipendente, è stata quindi
scomposta in due componenti, esattamente come è stata precedentemente
scomposta la devianza totale:
La varianza tra i gruppi indica quanto la media di ciascuno dei gruppi si differenzia
dalla media totale, mentre la varianza interna ai gruppi indica quanto la media di
ciascun soggetto si distanzia dalla media del suo gruppo di appartenenza. La
varianza tra i gruppi corrisponde alla quantità di varianza spiegata: infatti, è quella
parte di variabilità della variabile dipendente che può essere spiegata data
l'appartenenza dei soggetti ai diversi gruppi. La varianza interna ai gruppi
rappresenta invece la varianza di errore perché è la parte di variabilità che non
possiamo spiegare con l'appartenenza del soggetto al gruppo; si tratta della
componente d'errore dovuta alle differenze individuali dei soggetti all'interno di uno
stesso gruppo. (indica quanto sto sbagliando quando dico che quella media ben
rappresenta tutti i soggetti nel mio campione)
L'ANOVA, indicata con la lettera F, è calcolata come il rapporto tra, la varianza tra i
gruppi (ovvero la devianza tra i gruppi divisa per i gradi di libertà, qui indicati con la
sigla inglese df) e la varianza interna ai gruppi (ovvero la devianza interna ai gruppi
divisa per i gradi di libertà)
🔧 FORMULA TEST F
Appunti di Psicometria 2 51
Nell'ANOVA la variabilità spiegata sarà la variabilità che può essere attribuita alle
differenze tra le medie dei gruppi; in altre parole, si usa l’informazione contenuta
nella VI per avere una stima più precisa di quella che si sarebbe ottenuta usando la
media totale, e tale stima è tanto più precisa e meno errata quanto più la varianza
entro il gruppo è piccola e quanto più la differenza tra i gruppi è grande.
In linea con la regressione, l'R-quadrato indica la percentuale di varianza spiegata;
nel caso dell'ANOVA, l'R-quadro è dato dalla varianza tra i gruppi divisa per la
varianza totale
Logica dell'ANOVA:
H0: le medie sono tutte uguali
Appunti di Psicometria 2 52
componenti:
Uso di F
Nella ricerca psicologica si usa raramente questa statistica per verificare se due
campioni differiscono fra di loro per la varianza. Invece, l’uso di F per confrontare
due varianze calcolate in modo diverso su subcampioni che si suppongono
provenire dalla stessa popolazione è un’operazione comunissima nella ricerca
psicologica
Appunti di Psicometria 2 53
per rispondere si usa un'apposita distribuzione di probabilità: distribuzione F, essa
indica la probabilità per i diversi valori possibili di F se H0 è vera
Una famiglia di distribuzioni, la forma esatta dipende dal numero di campioni e dal
numero di punteggi (numero di gradi di libertà a numeratore e denominatore)
a numeratore: Numerogruppi - 1
Appunti di Psicometria 2 54
Occorre inserire dei coefficienti numerici, usando dei numeri interi positivi e negativi,
in modo che la loro somma sia sempre uguale a zero. I coefficienti possono essere
anche uguali a zero, quando si vuole contrastare alcuni gruppi trascurandone altri
2. Confronti Post-Hoc:
sono test fatti a posteriori, servono a trovare le differenze tra i gruppi presi a due a
due, ovvero: so che c'è almeno una media diversa dalle altre, ma quale tra queste?
(abbiamo diverse H0 per ogni coppia).
Non si fanno ipotesi, ma si vuole sapere quali gruppi possono essere considerati
uguali
PROCEDURE:
Appunti di Psicometria 2 55
LSD (Least Significant Difference),
Bonferroni
Sidak
Scheffé,
SNK (Student-Neumann-Kouls),
Duncan,
Hochberg,
Gabriel,
Waller-Duncan,
Dunnett
Tamhane
Dunnett
Games-Howell
C di Dunnett
Dati c confronti post hoc, probabilità che almeno uno sia significativo per caso è
minore uguale c*alfac (dove alfac è il valore che adotto per decidere se il singolo
confronto è significativo) alfac = alfa/c. Per ciascun confronto giudico la differenza
come significativa solo se p < (.05/numero confronti totali)
2. gruppi omogenei
Appunti di Psicometria 2 56
ANOVA fattoriale o multivariata
Finora abbiamo delineato il caso di un'analisi della varianza con una variabile
dipendente e una variabile indipendente. Tuttavia nella maggior parte delle ricerche
sperimentali, il disegno prevede più variabili indipendenti incrociate: nei disegni
fattoriali ogni gruppo di partecipanti rappresenta una combinazioni di livelli delle
variabili indipendenti. Nell'ANOVA fattoriale si testa l'effetto di ogni variabile
indipendente sulla dipendente calcolato come se fosse costante in tutti i livelli delle
altre variabili indipendenti. Tale effetto è chiamato effetto principale; avremo tanti
effetti principali quante sono le variabili indipendenti.
Appunti di Psicometria 2 57
L'effetto principale della forma (riga di “forma”) risulta statisticamente significativo
anche nell'ANOVA fattoriale: F (2, 145) = 19.82, p < .001; tenendo costante il colore,
le medie di piacevolezza risultano differenti a seconda del gruppo di forma (per
sapere quali sono le medie che si differenziano dovremmo quindi andare a vedere i
post-hoc). Anche l'effetto principale di colore (riga di “colore”) risulta statisticamente
significativo: F (1, 145) = 22.11, p < .001; tenendo costante l'effetto della forma, le
medie dei gruppi di colore risultano statisticamente diverse. Essendo la variabile
colore dicotomica, sappiamo senza bisogno di fare i post-hoc che la media di
piacevolezza per gli oggetti chiari è statisticamente differente dalla media di
piacevolezza per gli stimoli scuri. L'effetto di interazione tra le variabili lo troviamo
nella riga “forma*colore”: anch'esso risulta statisticamente significativo, quindi siamo
in presenza di un'interazione; per interpretare l'effetto di interazione, è utile
osservare il grafico delle medie con entrambe le VI:
Quando gli oggetti presentati come stimolo sono di colore chiaro (riga verde), la
piacevolezza è massima per le forme miste mentre diminuisce per le forme
arrotondate e per quelle di forma squadrata; quando gli oggetti presentati sono di
colore scuro (riga blu) la piacevolezza è maggiore per le forme arrotondate, mentre
diminuisce per le forme miste e per le forme squadrate in maniera quasi uguale. Se
consideriamo le forme squadrate notiamo che non esiste una grande differenza tra
la piacevolezza degli oggetti scuri e di quelli chiari; se consideriamo le forme
arrotondate, la piacevolezza per oggetti scuri e chiari è praticamente uguale.
Considerando invece le forme miste, notiamo che l'effetto del colore cambia
radicalmente l'interpretazione della piacevolezza: per gli oggetti scuri, infatti, la
piacevolezza diminuisce in maniera notevole; al contrario è massima quando gli
oggetti sono di colore chiaro. Nell'insieme, il modello spiega il 46% della varianza di
piacevolezza, con R-quadrato = .46; rispetto al modello precedente di analisi della
Appunti di Psicometria 2 58
varianza a una via, la varianza spiegata è aumentata, passando da un R-quadrato di
modesta entità a un R-quadrato considerevole.
Interpretazione dell'interazione
Per l'interpretazione dell'interazione in sostanza si interpreta il grafico delle medie
dei gruppi definiti dalla combinazione delle variabili indipendenti. A seconda della
forma, si possono distinguere due tipi di interazione: ordinale e non ordinale.
Appunti di Psicometria 2 59
Quando l'interazione è non ordinale, gli effetti di una variabile indipendente
cambiano interpretazione ai diversi livelli dell’altra variabile indipendente; in
presenza di un'interazione non ordinale l'interpretazione degli eventuali effetti
principali è dubbia. Per esempio, alta motivazione (VI) e alte ricompense
economiche (VI), se prese singolarmente, aumentano la performance (VD), ma
quando sono presenti insieme la peggiorano:
Appunti di Psicometria 2 60
Spiegazione dall'esercitazione di SPSS
Nell'ANOVA multivariata o fattoriale, più variabili indipendenti di tipo qualitativo,
influenzano una variabile dipendente. Come lo fanno: attraverso l'analisi della
varianza esattamente come avviene nella regressione. Come poi andiamo ad
interpretare l'effetto dato che sono diverse? attraverso le caratteristiche della VD,
(sono le caratteristiche delle variabili che decidono se farci fare anova o regressione,
perchè in fin dei conti il procedimento è lo stesso).
Quindi, al di là dell'analisi della varianza che ci permette, tramite l'indice del modello,
di sapere quanta varianza spiega (r^2) sia nella regressione che nell'ANOVA,
quello che possiamo andare a vedere dell'effetto di una variabile indipendente sulla
nostra dipendente e le stime che possiamo fare.
Qualora gli effetti della VI siano più di due, non ci basta sapere se c'è l'effetto perchè
effetto significa almeno "due medie sono diverse" (requisito minimo che permette di
avere stime migliori). Oltre a voler saper questo, di solito andiamo a vedere quali e
quante sono diverse attraverso il post hoc, dopodichè andiamo a definire come sono
nel grafico.
Appunti di Psicometria 2 61
Esempio: negli effetti generali può risultare che in media, nella popolazione, un
farmaco sia più efficace di un altro. Tuttavia, andando a guardare gli effetti di
interazione, si scopre che negli uomini è effettivamente più efficace, mentre nelle
donne assolutamente no, è più efficace l'altro.
S'interpreta: l'effetto di una delle variabili, scomposta per i livelli dell'altra, è diverso.
intensità:
Appunti di Psicometria 2 62
💡 OUTPUT: Tabella test degli effetti tra i soggetti: r^2 e significatività che
mi dice quanta varianza viene spiegata della variabile dipendente. Guardo
le F delle diverse variabili indipendenti con eta quadro. Guardo l'effetto
d'interazione prima di giungere a conclusioni. (effetto di interazione dato
da variabile*variabile, guardo la significatività) vado a vedere grafico di
interazione per vedere le medie. se l'effetto di interazione è non ordinale,
non s'interpreta l'effetto principale perchè se no diciamo cose sbagliate.
Come si presentano effetti di interazione non significativi: due rette
parallele o addirittura sovrapposte.
ANCOVA: metto una variabile tra le covariate e questo significa che la sto usando al
netto di tutto ciò che succede tra i fattori fissi (come se facessimo finta che sia una
costante), il resto rimane uguale. (la richiesta di solito sarebbe "come sarebbe
l'effetto di queste due facendo finta che non conti ad esempio l'età?")
esempio: se ho una ricerca con partecipanti che vanno da 30 a 100 anni ben
distribuiti e provo a vedere qual è l'effetto di età su QI è probabile che l'effetto non
sia lineare perchè fino ad un certo punto all'aumentare di x, y aumenta, ma ad un
certa y smette e diminuisce causa età.
quando chiediamo ad spss di stimare l'effetto, stima solo uno che ci permetta di
sbagliare il meno possibile, una via di mezzo verrà fuori un effetto costante che però
non è significativo ne effettivo, completamente falsato
assunzione di linearità nell'anova non può saltare perchè non andiamo a vedere
l'effetto lineare bensì l'effetto di medie
Appunti di Psicometria 2 63
Omoschedasticità
quesito: hanno la stessa variabilità o diversa?
L'analisi deve avere lo stesso livello di informazione che deriva da tutti i livelli di x,
tutti i livelli di x dunque dovrebbero portare varianza ovvero informazione. esempio,
se nell'anova un gruppo sono 50 e l'altro sono 450 abbiamo molta più informazione
in uno per evidenti motivi di numerosità e quindi è eteroschedastica (dal grafico si
vede che ad un certo punto i puntini esplodono)
Cosa cambia dal punto di vista tecnico nel violarlo: è la varianza che viene falsata,
quindi i calcoli sulla F e t tenderanno a pesare molto di più per una certa parte di x
piuttosto che un'altra
Non essendo un dato oggettivo numerico bensì grafico, assumete come violata
quando è parecchio diverso questo grafico
i test di levene si possono utilizzare ma sono molto inficiati dalla numerosità che più
aumenta e più dirà che va bene, se riusciamo a leggere anche il grafico meglio.
possono esistere degli outlier che non inficiano la bontà? si usano gli indici distanza
di mahalanobis o cook? tecnicamente sono corretti ma non ne vale la pena
Appunti di Psicometria 2 64
💡 SPSS: nel grafico scatterplot, si vedono dei puntini molto distanti dagli altri
Normalità
Spesso più facilmente delle altre viene violata: tutte le analisi che andiamo a
condurre dovrebbero essere su variabili dipendenti di tipo quantitativo distribuite
normalmente e si basano sulla curva normale
se io non valuto la normalità, il grafico potrebbe non essere normale e quindi viene
distorta la mia interpretazione sulla significatività
Per verificarlo: si va a vedere istogramma dei valori residui che deve essere
approssimato alla normale (per non esserlo deve avere problemi visibili). si può fare
il test ks che restituisce la differenza tra i residui di una campana normale e quella
sfasata. Anche questo test, tuttavia, soffre di numerosità campionaria quindi
attenzione si guarda anche il grafico.
Quando si applica:
1. ipotesi di equiprobabilità: Verificare se una variabile nominale si distribuisce in
modo casuale, ossia tutti i valori hanno la stessa probabilità di presentarsi
Ipotesi di equiprobabilità:
si impostano delle fe tutte uguali, si calcolano i chi quadrati e si sommano tra di loro,
il totale lo si confronta con il chi quadrato critico sulle tabelle in base ai gradi di
libertà: Ncelle -1
Le frequenze attese non devono essere troppo piccole, seguire questa regola:
se d.f. = 1 → fe ≥ 5
Appunti di Psicometria 2 66
se d.f. = 2 → fe ≥ 3
se queste frequenze attese non sono soddisfatte, bisogna raccogliere più dati,
oppure ridurre le categorie della tabella
Per ogni cella della tabella di contingenza, dobbiamo calcolare la frequenza attesa,
basata sulla probabilità di due eventi indipendenti: si fa il prodotto delle probabilità
dei due eventi presi singolarmente. Dall'applicazione della regola dell'indipendenza
degli eventi si ricava una "regoletta" per il calcolo dei valori teorici (fe):
Appunti di Psicometria 2 67
Si parte dai totali marginali e si divide per il totale o numerosità, trovate le fe si
procede con la formula del chi quadrato come di consueto decidendo se accettare o
meno H0 (che le due variabili siano indipendenti)
gdl: (r-1)(c-1)
I residui sono dati dalla differenza tra frequenze osservate e frequenze attese; il
ragionamento è il seguente: se le due variabili sono indipendenti, la differenza tra le
due frequenze sarà piccola e le frequenze osservate saranno simili a quelle teoriche,
fatta eccezione per limitate fluttuazioni casuali. Se invece in molte celle la differenza
tra frequenze osservate e frequenze attese è grande, allora è probabile che le due
variabili presentino un'associazione.
Appunti di Psicometria 2 68
1. A partire da una tabella, l’interpretazione comincia con l’osservare se i residui di
ciascuna casella sono positivi o negativi:
residuo positivo: Il valore osservato è più grande del valore atteso (indica,
quindi, che ci sono più persone in quella casella di quelle che avevamo supposto
ci sarebbero state se non ci fosse stata associazione)
residuo negativo: Il valore atteso è più grande del valore osservato (indica che
ci sono meno persone di quanto ci saremmo aspettati)
Appunti di Psicometria 2 69
PHI: Indice di associazione e dimensione dell'effetto
(effect size)
χ2 ci dice se due variabili sono indipendenti oppure no, effettuando un test
probabilistico, ma non sappiamo quanto è forte la relazione, per misurare la forza
dell'associazione tra due variabili a livello nominale si usa l'indice phi
Appunti di Psicometria 2 70
delle relazioni tra le variabili, ma si perde un po' in precisione: la variabilità che i
fattori comuni non riescono a catturare viene chiamata errore o unicità.
Funzionamento
Alcuni concetti sono utili per ogni tipo di analisi fattoriale, indipendentemente dalle
differenze tecniche tra queste tipologie. AF esplorativa e AF confermatoria hanno
direzioni diverse ma la medesima origine: una matrice di correlazione tra le
variabili osservate. Il punto di partenza di un’analisi fattoriale è una matrice di
correlazione (calcolata mediante il coefficiente r di Pearson), mentre quello di arrivo
è costituito da una matrice fattoriale, ovvero una misura delle relazioni tra le
variabili osservate e i fattori latenti. Lo scopo dell’analisi fattoriale può essere definito
anche come l’estrazione di un numero ristretto di fattori che riproducano al meglio la
matrice di correlazione osservata. L'idea è che le variabili osservate correlino perché
condividono un fattore sottostante; si cerca quindi di creare delle nuove variabili (i
Appunti di Psicometria 2 71
fattori) che combinino le variabili osservate molto correlate fra loro e separino le
variabili non correlate fra loro.
Le correlazioni tra le variabili osservate e fattori latenti sono chiamate pesi fattoriali
o saturazioni fattoriali. L’obiettivo dell’analisi fattoriale consiste nell’individuazione
di una soluzione fattoriale in cui ciascuna variabile osservata correli o saturi bene su
un solo fattore e correli o saturi poco o per nulla sugli altri fattori.
Potremmo illustrare i principi base di tale analisi attraverso un'analogia con una
tavolozza da pittore: abbiamo a disposizione solo i tre colori primari, rosso, giallo e
blu, ma sappiamo che mescolando i colori primari possiamo ottenere un numero più
elevato di colori secondari (ed eventualmente terziari), che possono avere a loro
volta molte sfumature. Questo numero elevatissimo di colori ha alla base i tre colori
primari utilizzati inizialmente nella tavolozza; i colori primari rappresentano quindi i
fattori e quelli secondari e terziari le variabili osservate. L’analisi fattoriale
consente dunque di risalire ai colori primari partendo da quelli secondari e
terziari osservati. Tuttavia un colore derivato può contenere più pigmento di un certo
colore primario e meno pigmento di un altro colore primario (per esempio, il rosa
contiene rosso ma non giallo); può esistere cioè una "saturazione" maggiore o
minore di un certo colore su ciascun pigmento. La soluzione fattoriale migliore si
ha quando ogni colore derivato satura bene su un solo colore primario.
In tutte le varianti di analisi fattoriale il fine è quello di estrarre una serie di fattori che
siano al “centro” dell'insieme di variabili. Applicando la rappresentazione vettoriale
possiamo rappresentare due variabili x e v come dei vettori. Il fattore comune deve
cercare di rappresentare al meglio la variabilità delle due variabili, per questo
possiamo immaginare che si debba trovare al centro rispetto a x e v, in modo da
minimizzare contemporaneamente l’angolo con x e v. Dato che più l’angolo è
Appunti di Psicometria 2 72
piccolo più la correlazione è alta, il miglior fattore sarà quello che massimizzerà le
correlazioni con le variabili osservate.
La varianza spiegata dal fattore è data dalla somma del quadrato della correlazione
tra fattore e variabile 1 + il quadrato della correlazione tra fattore e variabile 2 + il
quadrato della correlazione tra fattore e variabile 3, e così via. La quantità di
varianza spiegata dal fattore è chiamata autovalore.
la tabella delle saturazioni, dove sono presentate le correlazioni tra gli item e
ciascuno dei fattori estratti.
Appunti di Psicometria 2 73
Analisi fattoriale esplorativa
Serve per esplorare l’esistenza di una o più variabili latenti (quindi non osservate)
che si manifesta tramite le risposte a variabili osservate
Tutte le X (ma in grado diverso) partecipano ai fattori (che possono anche essere
correlati fra loro).
Appunti di Psicometria 2 74
ne sono stati estratti più di uno) è relativamente piccolo, circa meno del 10% del
numero delle variabili.
Appunti di Psicometria 2 75
la somma dei prodotti delle saturazioni è uguale a zero
La somma dei prodotti di una colonna s per una colonna r è uguale a zero (i
fattori sono indipendenti)
Fattori iterati
Con i Fattori iterati, non si possono ottenere tanti fattori quante sono le variabili
osservate, poiché vi è una riduzione della covariazione (la matrice perde il suo
rango). SPSS stampa un avviso per avvisare che l’estrazione chiederà un numero
più basso di fattori.
Massima verosimiglianza
raramente usati
metodo immagine
fattorizzazione alfa
Appunti di Psicometria 2 76
2. Determinare il numero di fattori
Ottenuta la matrice di correlazione e valutata la sua fattorizzabilità, si va a
determinare quanti e quali siano i fattori utili per spiegare la variabilità delle variabili.
Le diverse tipologie di AFE si differenziano per il metodo di estrazione dei fattori ma,
con un numero elevato di variabili, si equivalgono tutti. Una volta estratti i fattori,
bisogna individuare il numero di fattori da tenere. Tale decisione si basa
essenzialmente su tre criteri :
Appunti di Psicometria 2 77
Illustriamo nel dettaglio i tre criteri. Guardiamo per primo il grafico degli autovalori:
nella prima colonna troviamo i fattori estratti; nella seconda colonna, gli autovalori,
ovvero le quantità che indicano quanta varianza spiega quel determinato fattore;
nella terza colonna possiamo osservare la quantità di varianza spiegata espressa in
percentuale. Nell'ultima colonna, infine, abbiamo la quantità di varianza spiegata
cumulata, cioè sommata rispetto a più fattori. Per il primo criterio, di Guttman,
decidiamo di tenere i primi due fattori, che hanno autovalori di 4.96 e 3.74, entrambi
maggiori di 1. Notiamo poi che la percentuale di varianza spiegata dai due fattori
assieme supera il 75%, dal momento che insieme spiegano l'87% della varianza
totale (in particolare, il primo da solo spiega il 49.61% e il secondo il 37.42%).
Andiamo ora a osservare lo scree-test :
Metodi efficienti
Analisi parallela
Appunti di Psicometria 2 78
varianza legata a dei “veri” fattori. L'analisi parallela calcola gli autovalori ottenuti in
dati casuali (in cui non ci sono fattori) con lo stesso numero di casi e di variabili
rispetto ai dati osservati. Viene quindi generato un numero sufficientemente ampio di
campioni casuali (per esempio, 100) su cui vengono calcolati gli autovalori. In questo
modo è poi possibile calcolare la media degli autovalori ottenuti nei diversi campioni
casuali e l'intervallo di confidenza intorno alla media. Il numero di fattori da estrarre
viene quindi determinato confrontando le medie degli autovalori casuali con quelli
osservati ed estraendo solo gli autovalori maggiori di quelli casuali. In genere,
qualunque sia il criterio utilizzato, si ritiene che il rapporto tra fattori e variabili
osservate debba essere, al massimo, di 1 a 3: non più di un fattore ogni tre
variabili osservate.
Consiste nel generare dei numeri causali, (per esempio punti zeta), uno per ogni
variabile osservata e per ogni partecipante.
Interpretare i risultati:
Appunti di Psicometria 2 79
Nell'ACP i fattori sono formati come combinazione lineare (ovvero come somma
pesata) delle variabili. Il primo fattore è estratto in modo tale da massimizzare la
varianza spiegata rispetto a tutte le variabili, il secondo fattore è estratto in modo tale
da massimizzare la varianza non spiegata dal primo, mantenendo l'ortogonalità tra i
fattori. Le saturazioni fattoriali sono quindi calcolate per essere massimizzate, sotto il
vincolo che F1 e F2 siano ortogonali.
Scree test
Si estraggono solo quei fattori che sono sulla linea di caduta, e si trascurano quelli
che degradano lentamente.
Appunti di Psicometria 2 80
Vantaggi: facile da utilizzare e molto usato
Svantaggi: non sempre è efficace e veritiero, a volte il pendio e la sua interruzione
non è individuabile con facilità.
E’ un criterio soggettivo, dipendente dalla natura degli item, dalla teoria soggiacente
e dalle conoscenze precedenti: si accettano i fattori che sono stati previsti e risultano
comprensibili e interpretabili. Pertanto il criterio è molto variabile e poco affidabile in
situazioni di autentica esplorazione.
Metodi inefficienti
Autovalore superiori a 1
Il criterio dovuto a Kaiser stabilisce che si possono accettare quei fattori che hanno
una varianza almeno uguale a una variabile standardizzata. Tuttavia il criterio è
molto debole e impreciso, perché tende a dichiarare buoni troppi fattori casuali. E’ il
criterio prestabilito (default) di Spss
Non è un vero criterio, ma un modo molto impreciso per decidere di estrarre almeno,
per esempio, 40 o 60 o 80 % di varianza delle variabili osservate. Si usa raramente
e presenta il limite di non avere una vera giustificazione teorica.
Appunti di Psicometria 2 81
Quando la soluzione è semplice (ogni variabile ha una sola saturazione sostanziale)
o praticamente semplice (il numero di variabili che saturano su più fattori o non
saturano bene su nessuno è relativamente piccolo), useremo gli item che meglio
saturano sul fattore per interpretarne il significato. Se la soluzione si compone di un
solo fattore estratto, tutti le variabili che non saturano bene su quel fattore devono
essere eliminate dall'analisi, in modo tale che la soluzione diventi semplice. Nelle
soluzioni con più di un fattore, invece, bisogna considerare le saturazioni di ogni
variabile su tutti i fattori: in una soluzione multifattoriale ogni fattore è interpretato
mediante il significato delle variabili che saturano fortemente su di esso e non
saturano per nulla sugli altri fattori; quando la soluzione multifattoriale presenta
variabili che non cadono chiaramente su un solo fattore, ma sono in posizione
interstiziale rispetto a più fattori si parla di soluzione complessa.
La matrice sopra presentata è un esempio di soluzione complessa, dato che tutte le
variabili considerate saturano bene su entrambi i fattori estratti (con saturazioni da
.56 a |.89| per il primo fattore e saturazioni da .43 a .72 per il secondo). In casi come
questo, dal momento che abbiamo due fattori, possiamo può procedere con delle
rotazioni per rendere la soluzione multifattoriale semplice e migliorare il valore delle
saturazioni.
3. Scegliere la rotazione
una volta sul grafico, I due fattori non sono molto comprensibili. Però possono
essere modificati, (senza perdita di informazioni) per renderli interpretabili. Si può
scegliere una qualsiasi delle rotazioni proposte qui sotto (secondo dei criteri) al fine
di rendere le saturazioni fattoriali alte su un fattore e nulle sugli altri.
La rotazione massimizza le saturazioni con un solo asse di riferimento e agevola
l’interpretazione delle variabili latenti.
Appunti di Psicometria 2 82
Criteri per scegliere la rotazione:
Interpretazione e verosimilitudine dei risultati
Facilità di interpretazione
Ipotesi di ricerca
Quando la rotazione degli assi non mantiene rigidi (ortogonali) gli assi, i fattori non
sono indipendenti fra di loro, ma le saturazioni fattoriali sono più grandi e facilitano
l’interpretazione dei fattori. Si sceglie perchè in alcuni casi la rotazione ortogonale
non produrrebbe soluzioni ottimali in quanto le variabili risulterebbero troppo simili
tra loro
Oblimin
Promax: parte da una rotazione varimax ma permette di rendere obliqui (non più
perpendicolari) gli assi di riferimento. Ha il vantaggio che i fattori sono definiti in
modo più chiaro rispetto alla rotazione varimax. Ha lo svantaggio che, a causa
dell’obliquità degli assi, i fattori non sono veramente indipendenti, e sono quindi
correlati fra di loro. Inoltre servono due matrici per comprendere la soluzione
fattoriale.
Criteri:
1. una variabile dovrebbe essere molto satura di un solo fattore (r > 0,40)
Appunti di Psicometria 2 83
Varimax: proposta da Kaiser. E’ la soluzione migliore perché si mantiene
l’indipendenza fra le variabili latenti.
Quartimax
una volta effettuata la rotazione, si moltiplica la matrice non ruotata per la matrice di
trasformazione
Le relazioni tra fattori e variabili non possono essere espresse semplicemente dalle
saturazioni fattoriali dal momento che i fattori sono tra loro correlati. Tali relazioni
vengono quindi decomposte in due matrici di pesi:
La soluzione obliqua fornisce anche il valore della correlazione tra i fattori, in una
matrice di correlazione di componenti. Quando questa correlazione è bassa
(r<.20) la soluzione obliqua non conviene. Vi sono vari tipi di rotazione obliqua, come
la Oblimin e la Promax.
Punteggi fattoriali
Sono un tentativo di misurare e stimare (non calcolare) i fattori latenti, usando i
punteggi delle variabili osservate
I primi due si basano sui metodi della regressione multipla: si calcolano i coefficienti
beta da applicare alle variabili per stimare la variabile latente
Appunti di Psicometria 2 84
Punteggi approssimati
SCOPO: ridurre le dimensioni dei dati originali cercando di spiegare il più possibile
della varianza (principio di parsimonia), si scoprono dei fattori sottostanti alla
correlazione tra alcune variabili, ci serve per andare ad esplicitare qualcosa di cui
non abbiamo il "termometro" e quindi, estrarre dei fattori che sono costrutti
psicologici che non ho altro modo per misurare
esempio: come si spiega l'empatia? non la puoi misurare, puoi prendere una serie di
item assieme che ci indica che la correlazione forte con questi item, allora il fattore
sottostante empatia ha senso di esistere.
passaggi pratici:
scegliere metodo di fattorizzazione
se serve ruotare
Metodo di fattorizzazione
Appunti di Psicometria 2 85
più usati:
ognuno di questi fattori è correlato zero con gli altri: sono tra loro ortogonali ed
estrae in maniera decrescentene, tante volte quante sono gli item
quanti fattori estrarre? si decide con un metodo (qua si comincia a fare qualcosa in
spss)
scree test
Rotazioni
Semplice o complessa da interpretare a livello di dati? si guarda la matrice di
saturazione che restituisce correlazioni tra componente o fattore e gli item.
Metodo più semplice per capire: maggiore .35 è una buona saturazione, se tutti gli
item correlano bene con tutte le componenti, cosa è davvero fattore di quello che
stiamo cercando? è una soluzione complessa quando più del 10% degli item sono
complessi ovvero che non si capisce bene la saturazione perchè l'item correla bene
con entrambe le componenti (non va bene, lo deve fare uno alla volta)
Appunti di Psicometria 2 86
la rotazione ci permette di correlare bene solo su uno dei due fattori così da facilitare
interpretazione. Massimizzo le correlazioni di un fattore minimizzandole sull'altre,
semplifico scegliendo tra le soluzioni quella che fa vedere più chiaramente
l'interpretazione dei fattori
rotazioni ortogonali e oblique: la prima mantiene la correlazione zero tra gli item
mentre l'obliqua no, la seconda assume che le varie componenti sono correlate tra
loro (più probabile trovare soluzioni oblique)
La scelta viene fatta con il grafico dei pesi fattoriali, a livello pratico invece si fa quasi
sempre l'obliqua (oblimin)
Appunti di Psicometria 2 87
Un metodo matematico-statistico per dare un valore numerico a qualsiasi categoria
che faccia parte di una potenziale scala di misurazione. Si applica a scale ordinali e
nominali (ma anche a intervalli se non sono troppo numerosi). Produce una
quantificazione in punti zeta di ciascuna modalità di ciascuna variabile
Principio
Si basa sul principio che il punteggio totale serve per calibrare le singole risposte. A
loro volta, le singole risposte servono a calcolare il punteggio totale. Il procedimento
è iterativo e reciproco, e si arresta quando i risultati non cambiano dopo una
iterazione (si chiama anche Metodo delle medie reciproche)
Come si ottiene:
1. Si attribuisce il valore 1 a una modalità e zero alle altre, in ogni domanda
Cosa si fa dopo:
Poiché ogni modalità riceve una quantificazione numerica, tutti gli item della scala
sono utilizzabili come una scala a intervalli.
Si può calcolare sia il coefficiente alfa di Cronbach sia le correlazioni fra domande,
su cui si può ulteriormente applicare l’analisi fattoriale, per accertarsi che ogni item
Appunti di Psicometria 2 88
contribuisca alla scala.
Se un item ha una saturazione bassa, non fa veramente parte della scala, e si può
eliminare. Dopo l’eliminazione di un item scadente, si ripetono i calcoli e si ottengono
nuove quantificazioni ottimali.
Si può inoltre applicare il metodo alle scale ordinali di tipo Likert già usate: per
verificare la reale congruenza fra posizione ordinale e quantificazione numerica a
priori
Appunti di Psicometria 2 89
Perequazione dei punteggi
I punteggi ottimali, anche se hanno una media pari a zero e una varianza pari a 1,
non hanno necessariamente una distribuzione normale.
💡 OUTPUT: crea una nuova variabile perequata che si chiama con lo stesso
nome e in aggiunta la lettera N davanti. la corrispondenza fra i due
punteggi può essere più o meno forte e la relazione più o meno lineare
Appunti di Psicometria 2 90
Hanno delle caratteristiche uniche come strumenti di misura: la loro capacità di
dare informazioni e misurazioni utili non è mai scontata e la verifica è un
procedimento lungo e dispendioso, per le caratteristiche specifiche dei costrutti
psicologici che ne sono alla base.
Il loro uso presuppone anche la conoscenza teorica, oltre che pratica, di due
concetti fondamentali: la fedeltà e validità di una misurazione
Correlare i punteggi
Appunti di Psicometria 2 91
Per stabilire quanto è preciso un test, si può considerare questo ragionamento: Se lo
dividiamo in due parti equivalenti, i due punteggi dovrebbero essere correlati. Se il
test è molto affidabile, la correlazione è molto elevata, Se il test è poco affidabile, la
correlazione fra le due metà è bassa.
Le forme parallele sono facili da costruire per alcuni temi ( es. sommare numeri di
due cifre) ma più difficili per altri (test di ansia: non si può
descrivere l’ansia in modi infiniti). Hanno un senso e un’importanza più teorica che
pratica. I test costruiti per essere utilizzati in due momenti diversi (per es. dopo un
trattamento), si chiamano forme alternative o equivalenti.
1. Gli errori tendono ad annullarsi reciprocamente, per natura degli item, per
occasioni, per persone, per somministratore (Altrimenti si deve parlare di errore
Appunti di Psicometria 2 92
sistematico). La media degli errori è nulla
Fonti di errore
1. Caratteristiche personali (motivazioni, condizioni fisiche, di salute, ecc.) che non
si possono eliminare
3. Contenuto del test item di varia natura, (se gli item fossero diversi il punteggio
potrebbe essere diverso)
4. Tempo fra due misurazioni (le discrepanze sono dovute al caso o a effettivi
cambiamenti?)
5. Altre situazioni: Ambiente (poca luce, troppo freddo, troppo caldo, ecc.), errori
nel voltare le pagine, Istruzioni scadenti, domande complicate, possibilità di
tirare a indovinare ecc
Appunti di Psicometria 2 93
Dalla derivazione della formula di Spearman-Brown, diversi autori hanno proposto
ulteriori generalizzazioni e sviluppi, condensati nella formula del
coefficiente alfa di Cronbach, che utilizza direttamente le varianze e covarianze degli
item di un test per stabilire il coefficiente alfa di fedeltà
Su cosa si basa
Il coefficiente alfa si basa su un confronto fra:
Appunti di Psicometria 2 94
< 0,65: inaccettabile
RIPASSO
Plus di ripasso: verifica di ipotesi
campionamento: selezioniamo un sottoinsieme della popolazione, per fare la
ricerca
Appunti di Psicometria 2 95
Obiettivi della statistica inferenziale:
1. stima: si vuole indicare valori plausibili per un parametro della popolazione.
Dato che non possiamo contattare tutta la popolazione, individuiamo un
campione rappresentativo e sulla base dei dati stimiamo il parametro della
popolazione
2. verifica di ipotesi: indicare quale tra due specifiche ipotesi sul parametro (nulla
o alternativa) sia da accettare
Verifica di ipotesi:
ipotesi: affermazione di carattere generale relativa ad un fenomeno, osservabile
direttamente o indirettamente nel mondo fisico
Un’ipotesi scientifica deve poter essere testata empiricamente, facendo un confronto
tra:
ipotesi nulla (H0): nella popolazione, un certo fenomeno non influenza una
determinata caratteristica, quindi non si verifica nessun effetto
Appunti di Psicometria 2 96
5. Decidere se rifiutare l'ipotesi nulla
Criterio di significatività:
Quanto deve essere insolita la media campionaria per rifiutare H0? Il valore
convenzionale adottato dalla psicologia è il 5%, un valore che scegliamo a priori e si
chiama livello alfa di significatività
Questo 5% indica che, se è vera H0, la nostra decisione sarà corretta nel 95% dei
casi e sbagliata nel 5% dei casi, è il rischio che decidiamo di assumerci per poter
fare inferenze.
se è poco probabile (alla luce dei dati raccolti) estrarre un campione come il
nostro, H0 viene rifiutata e accettiamo H1
Appunti di Psicometria 2 97
quindi valori un pochettino meno estremi disconfermano H0 perchè si ha tutta la
probabilità di .05 da un lato, aumenta perciò la potenza (ovvero la probabilità di
ottenere un risultato significativo se H1 è vera). Tuttavia è poco utilizzata perchè
se l'effetto va dall'altra parte non lo becchiamo più, il ricercatore deve perciò
avere un’ipotesi alternativa molto forte
Appunti di Psicometria 2 98
1. La formula per il calcolo della distanza tra la media del campione e la media
della popolazione secondo H0 diventa:
🔧 FORMULA TEST T:
Distribuzione t di Student:
è una famiglia di distribuzioni, che dipende dalla numerosità del campione
Appunti di Psicometria 2 99
gradi di libertà:
il numero di valori che possono variare liberamente quando si calcola una statistica
su un campione ovvero quanta informazione è libera di variare prima di avere un
dato determinato
Tipologie di t-test:
1. t-test a campione unico: per la verifica di ipotesi sulla media della popolazione
nel caso di varianza ignota
2. t-test per dati appaiati o campioni dipendenti: per il confronto tra le medie di
due campioni appaiati (o misure ripetute)
3. t-test per campioni indipendenti: per il confronto tra le medie di due campioni
indipendenti
(in generale la procedura è la stessa che con i punti z solo che cambia di poco la
formula per calcolare t e poi sulle tavole per confrontare t critico bisogna guardare
disegno pre-post
coppie dipendenti
calcolo t sulla base delle differenze delle due medie fratto l'errore standard della
differenza tra le medie appena calcolato
Affidabilità e validità:
affidabilità: stabilità della misurazione, coerenza tra più misurazioni dello stesso
costrutto ottenute con lo stesso strumento.
Correlazione e affidabilità:
utilizzando diversi metodi alla fine il calcolo dell'affidabilità si basa comunque sul
coefficiente di correlazione, la correlazione deve essere elevata (valore minimo
accettabile .70; meglio valori superiori a .80)
Grado di attendibilità:
r < .60: inadeguato
Correlazione e validità:
Validità di uno strumento: è in grado di misurare quello che riteniamo esso misuri
modi di valutare:
Validità di facciata: non è una vera e propria forma di validità significa ‘se lo
strumento sembra valido’, è importante per il rapporto con il soggetto/cliente
Validità del contenuto: valutazione sul grado in cui i diversi elementi che
compongono uno strumento sono legati al costrutto che si vuole misurare. quello
che sta dentro è effettivamente quello che voglio misurare
1. l'ipotesi di ricerca deve essere specificata ( m = tot) non basta dire che deve
essere diversa da quella dell'altro campione. in altre parole si ipotizza un
determinato effetto
2. calcolare d sulla base delle due medie o stabilirlo a priori quello che voglio