Appunti Di Psicometria 2

🎲
Appunti di Psicometria 2
CAP1: introduzione alla statistica e
ripasso delle basi (lez 1-7)
Cos'è la statistica:
1. una scienza: una branca della matematica che si occupa dell’organizzazione,
dell’analisi e dell’interpretazione di un insieme di numeri o dati. prendere
decisione migliore data una certa informazione disponibile
2. un valore: che risulta dall’applicazione di un algoritmo di calcolo (l’indice

statistico)
3. un metodo o una tecnica: di analisi dei dati (il calcolo della media, una
procedura di calcolo, è una tecnica statistica)
Statistica descrittiva e statistica inferenziale:

descrittiva: Ha lo scopo di descrivere e sintetizzare le caratteristiche di un
insieme di misurazioni (che rappresentano informazioni), attraverso grafici,
tabelle e indici statistici
inferenziale: Ha lo scopo di partire da un insieme di osservazioni per trarre

inferenze su una popolazione, andando oltre i dati raccolti
Termini statistici:
popolazione: è l’insieme di tutti i “soggetti/oggetti” che si vorrebbe studiare
campione: è l’insieme dei “soggetti/oggetti” (estratto dalla popolazione) che si

studiano veramente. deve essere rappresentativo della popolazione di
riferimento
indice statistico o statistica: è la sintesi “matematica” di un certo pensiero

logico che viene applicato alle informazioni (variabili) raccolte su un campione
(in particolare gli indici descrittivi). di solito indicati con lettere alfabeto romano
Appunti di Psicometria 2 1
parametro: è il corrispettivo dell’indice statistico, ma calcolato/stimato sulla
popolazione. di solito indicati con lettere alfabeto greco
costante: Una caratteristica che assume lo stesso valore in tutte le unità

d’osservazione
variabile: Una caratteristica che può assumere valori differenti nelle unità
d’osservazione
Le scale di misurazione
Intro termini:
misurare una proprietà: Assegnare un numero (o un simbolo) alle modalità in
modo che le relazioni tra i numeri (o i simboli) riflettano le relazioni tra le
modalità della proprietà.
scala di misura: indica il tipo di relazione che esiste tra i valori corrispondenti
agli attributi della variabile in esame. Sono importanti perché indicano quali tipi di
analisi sono possibili e sensate. L’interpretazione dei dati varia a seconda della
scala
unità statistica: la misurazione singola, un'osservazione, la cella singola del

programma
Livelli di scale di misura:

1. nominale: suddivisione delle unità statistiche in categorie e basta (questo è
uguale o diverso da quello?). Le categorie le stabiliamo noi e sono distinte,
mutualmente esclusive ed esaustive . Si possono comunque ottenere risultati
interessanti: esempio di antoine e il cane (moda, frequenza semplice, chi
quadro, grafici a barre)
2. ordinale: oltre a dividere in categorie possiamo mettere in ordine e quindi

possiamo definire la relazione di maggiore o minore oltre all'ugualianza, ma non
ha senso parlare di distanze tra le categorie (esempio titolo di studio, classifica)
(moda, mediana, frequenza semplice e cumulata, statistiche sui ranghi, grafici a
barre)
3. a intervallo o intervalli equivalenti: oltre a poter mettere in ordine le categorie,

questa distanza (valore 1) ha significato perchè si utilizza un'unità di misura, ma
non esiste ancora lo zero assoluto ovvero il rapporto tra i valori non ha alcun
senso. Si possono effettuare operazioni algebriche basate sulla posizione, ma
non direttamente sulla proprietà misurata, questo perchè la scala di misura è
arbitraria (serve per dire ad esempio i gradi, dove 14 è il doppio di 7 ma questo
non significa che ci sia calore doppio) (moda, media, mediana, dispersione,
punti z, test t, anova, correlazione, statistica per ranghi, istogrammi)
4. a rapporto: possiamo mettere in ordine le categorie e la distanza tra queste ha

significato, inoltre esiste uno zero assoluto che indica assenza della proprietà e
quindi il rapporto tra i valori ha senso (altezza, peso, età ecc) (moda, media,
mediana, rapporto, dispersione, punti z, test t, anova, correlazione, statistica per
ranghi, istogrammi)
Proprietà di cui tenere conto:

Ogni unità statistica può avere un solo valore per ogni caratteristica misurata
Ogni livello di misurazione superiore include le caratteristiche di quelli inferiori
E’ possibile abbassare il livello di misurazione, perdendo informazioni
Sinossi (esposizione sintetica e sistematica) delle quattro scale
Distribuzioni di frequenza
Come far capire i dati di una statistica descrittiva?
distribuzioni di frequenza: tabelle di frequenza contano quanti elementi
appartengono a una stessa categoria presente in una variabile
semplice: contare semplicemente gli elementi. se si vuole fare la

percentuale: calcolare la percentuale di punteggi per ogni valore. La somma
di tutte le frequenze deve equivalere a N (si applica soprattutto a scale
nominali e ordinali)
cumulata o cumulativa (ogiva): è la somma delle frequenze di una data

categoria e delle categorie che la precedono (si applica da ordinali in poi). è
utile per il calcolo di alcune statistiche perchè permette di individuare
velocemente il numero di punteggi uguali o inferiori a un dato valore. L'ogiva
rappresenta un segmento spezzato su un grafico che si ottiene unendo tutti i
punti della percentuale cumulativa
💡 distribuzione di frequenza su SPSS: analizza → stastistiche descrittive →
frequenze
Ranghi e ranghi percentili (indici di posizione)

Rango: numero che indica la posizione di ciascuna osservazione in rapporto alle
altre. Esprime il numero di casi che ha un valore pari o inferiore a quello osservato
Rango percentile o centile: esprime la percentuale di casi che ha un valore pari o

inferiore a quello osservato ovvero la posizione di un'osservazione all'interno di un
insieme prescindendo dalla numerosità del campione
💡 Trasformazione in ranghi con SPSS: trasforma → rango casi → inserire la

variabile e spuntare "rango" o "rango frazionario come %" per il rango
percentile
Quando operiamo su tabelle di frequenza:
1. Suddividiamo i valori in tre fasce: inferiori, valore di riferimento, superiori
2. Individuiamo la posizione centrale del valore di riferimento (calcoliamo la

mediana, facendo le dovute medie se i valori centrali sono uguali)
3. sommare: frequenze inferiori + posizione centrale del riferimento, si ottiene così

il rango del target
E il rango percentile? E’ la stessa quantità, espressa in percentuale: Rango trovato/

totale x 100
💡 Calcolo dei ranghi con SPSS: trasforma → rango casi → inserire variabile
→ cliccare su "correlazioni" che per SPSS indicano valori uguali →
assegnare un rango alle correlazioni (medio, basso o alto)
💡 Calcolo dei ranghi percentili con SPSS: trasforma → rango casi → inserire
variabile → cliccare su "correlazioni" che per SPSS indicano valori uguali
→ spuntare "rango frazionario come %" oppure analizza → statistiche
descrittive → frequenze → spuntare percentili
Dopo le varie selezioni apparirà una colonna con:
RH: rango
PH: rango percentile
Percentili:
punteggio al di sotto del quale ricade una determinata percentuale di casi
(comprendendo il punteggio stesso)
Qual è il punteggio al di sotto del quale ricade il 15% dei casi? Questo punteggio
rappresenta il quindicesimo percentile
Dopo aver ordinato i valori di una distribuzione si può suddividere l'intera

distribuzione di frequenza in n parti uguali. (se divisa in 100 parti uguali: centili o
percentili)
Calcolare il rango percentile dato un punteggio
trovare l’intervallo di classe in cui il punteggio si trova;
calcolare la frequenza dell’intervallo di riferimento, di tutti gli intervalli inferiori e

di tutti quelli superiori;
trasformare le frequenze calcolate in percentuali dividendo le frequenze per la

numerosità del campione (f/N) e moltiplicandole per 100, per ottenere
rispettivamente I%, L% e H%;
conoscere il limite reale inferiore (LRI) dell’intervallo, ovvero il valore di mezzo

tra il valore più basso dell’intervallo di riferimento e il valore più alto dell’intervallo
immediatamente inferiore (per esempio, se l’intervallo di riferimento inizia da 16
e quello inferiore finisce a 15, l’LRI sarà 15,5) e l’ampiezza dell’intervallo (h);
usare la seguente formula:
🔧 FORMULA PER CALCOLARE RANGO PERCENTILE
Calcolare il punteggio dato un percentile (p)
moltiplicare la percentuale per la numerosità;
determinare l’intervallo in cui il caso è compreso;
conoscere LRI (limite reale inferiore), SFI (somma delle frequenze inferiori
all’intervallo in esame), frequenza (f) e ampiezza (h) dell’intervallo di riferimento
usare la formula
🔧 FORMULA PER CALCOLARE IL PUNTEGGIO DATO UN PERCENTILE
Quantili:
Se dividendo una distribuzione a metà otteniamo la mediana, dividendola in quattro
parti otterremo tre valori corrispondenti ai quartili. Allo stesso modo, dividendo in tre
parti si ottengono i terzili, in cinque i quintili, in cento i centili, e così via.
Primo quartile = 25esimo percentile

Secondo quartile = 50esimo percentile = mediana
Terzo quartile = 75esimo percentile
Tabelle di contingenza:
servono a rilevare la presenza di due variabili in contemporanea
totali marginali: totali per riga e per colonna
totale complessivo: somma di totali marginali per riga e colonna
💡 tabelle di contingenza su SPSS: analizza → statistiche descrittive →

tabelle di contingenza
Distribuzione di frequenza per classi:

Quando i diversi valori della variabile sono molti, può essere utile raggrupparle. La
distribuzione di frequenza per classi perde informazioni. E’ appropriata per
riassumere un insieme di dati, ma non va usata per calcolare la media o altri indici
statistici.
REGOLE:
1. Il numero totale delle classi dovrebbe essere tra 8 e 15
2. Usare un’ampiezza di intervallo di 2, 3, 5 o multipli di 5, scegliendo il valore più
piccolo che soddisfi la prima condizione
3. Gli intervalli devono essere tutti della stessa ampiezza
4. Il punteggio più basso incluso in ciascun intervallo dovrebbe essere un multiplo

dell’ampiezza dell’intervallo
Rappresentazioni grafiche:
grafici a barre e istogrammi
Un altro modo per rendere facilmente comprensibile un insieme di valori è

rappresentarli in forma grafica
1. Per variabili nominali e ordinali: le barre dovrebbero essere separate l’una

dall’altra (perché i valori sono discreti); grafico a barre: generalmente delle
ascisse (asse orizzontale) sono riportati i valori della variabile, sull’asse delle
ordinate (asse verticale) sono riportate le frequenze (o le percentuali) di ciascun
valore
1. Per variabili a intervallo e rapporto: le barre sono adiacenti perchè valori

continui; istogramma
forme delle distribuzioni:
simmetrica: se è speculare rispetto alla metà
asimmetrica: se non è speculare rispetto alla metà: indice di asimmetria

diverso da zero indica che la distribuzione dei punteggi ha una coda a sinistra
(asimmetria negativa) oppure a destra (asimmetrica positiva)
distribuzione rettangolare: se tutti i valori si presentano con frequenza più o

meno uguale, avremo un grafico sostanzialmente piatto
distribuzioni con uno o più picchi: unimodale, bimodale e multimodale
distribuzione normale o gaussiana: tipo di distribuzione simmetrica unimodale

con particolare forma a campana. Importante perchè molti fenomeni hanno
questa distribuzione ed essa è alla base di molte statistiche
curtosi:
forma che la distribuzione assume al centro, standard di riferimento è quella a
campana, curtosi = 0
leptocurtica: più allungata del normale, la frequenza nella parte centrale è

superiore a quella della campana, curtosi maggiore di 0
platicurtica: più piatta del normale, i valori agli estremi sono più elevati che
nella distribuzione a campana e la curtosi è minore di 0
come fare a capire che curtosi abbiamo? test ks: ci dice quante deviazioni standard
la curtosi di quella curva si allontana dalla normale
Altri grafici
Boxplot: media + dispersione
Scatterplot: correlazione
Heatmap: correlazione ampia
Grafici a torta: frequenze
Grafici ramo-foglia
💡 grafici su SPSS: sezione "grafici" per avere i soliti e "builder di grafico" per
costruirne di più particolari
Dispersione e tendenza centrale

indici di tendenza centrale: media, moda, mediana
indici di variabilità (dispersione): varianza e deviazione standard
Indicatore di tendenza centrale:

il valore singolo che meglio rappresenta l’insieme dei valori osservati
Livello nominale: la moda il valore più frequente, può essere unimodale,

bimodale e multimodale. La moda è la categoria non la sua frequenza
Livello ordinale: la mediana (il valore collocato al centro della distribuzione,

50% dei valori è più piccolo della mediana, 50% dei valori è più grande della
mediana). essa non è influenzata da cambio valori agli estremi
se N è dispari: si individua semplicemente il valore in mezzo (N+1)/2
se N pari: il valore che si colloca tra le due posizioni centrali (N/2) e (N/2)+1.
Scala ordinale: la mediana è la coppia di valori. Scala a intervallo o rapporto:
si calcola media dei due valori
Livello intervallo e rapporto: la media (il baricentro, punto di equilibrio): è la

somma di tutti i valori di una distribuzione divisa per la numerosità, è influenzata
dagli specifici valori assunti dalla variabile
💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →

frequenze → statistiche (frequenze per eseguire descrittive che vanno
bene per tutte le scale di misura)

descrittive o esplora → opzioni (più indicate per variabili misurate su scale
intervalli equivalenti o rapporto perchè contengono delle altrettante
funzioni che sono più utili per descrivere questo tipo di variabili)
💡 OUTPUT: media ritagliata al 5%, intervallo interquartile: differenza tra

valore del terzo quartile e il primo quartile, valori estremi: riporta i 5
punteggi più alti e più bassi della variabile selezionata, è utile per
identificare gli outlier, box plot: ognuno rappresenta la distribuzione della
variabile per ogni gruppo definito da variabile (distribuzione dell'età per chi
preferisce le varie patatine ad esempio). dà la distribuzione grafica delle
persone a seconda di cosa preferiscono, la parte bassa della scatola
corrisponde al 25 percentile, la riga nera la mediana quindi il 50esimo
percentile
Indici di variabilità (o dispersione):

variabilità: il grado in cui i punteggi di una variabile sono simili o dissimili tra loro,
per saperlo possiamo usare gli indici di dispersione che si basano su operazioni
aritmetiche effettuate sui valori. Perciò possono essere usati per dati su scala a
intervallo e a rapporto.
🔧 FORMULA VARIANZA:
La varianza si chiama anche ‘scarto quadratico medio, è la media delle ‘distanze
dalla media’ elevate al quadrato
🔧 FORMULA DEVIAZIONE STANDARD:
La deviazione standard è una misura di “distanza media dalla media”
🔧 FORMULA STIMA DELLA DEVIAZIONE STANDARD:
la varianza/deviazione standard è calcolata sul campione, ma possiamo usare il

campione per stimare la varianza della popolazione. si sottrae 1 così il valore viene
un pò più alto (disperso) dato che verosimilmente non riusciremo mai a valutare tutta
tutta la popolazione, quello che valuteremo sarà la numerosità ideale meno un
pochettino.
Per le variabili misurate a livello intervallo/rapporto possono essere calcolati altri
indici di variabilità:
Campo di variazione (o gamma di oscillazione o intervallo):
la differenza fra il punteggio più alto (massimo) e il punteggio più basso (minimo)
della distribuzione:
campo di variazione = max - min
Questo indice fornisce informazioni poco precise, e talvolta può essere persino
fuorviante, dal momento che i punteggi estremi sono spesso anomali rispetto al
resto della distribuzione. Può comunque essere utile osservare quali sono i valori
minimo e massimo di una distribuzione, per esempio per controllare se sono stati
fatti errori nell’inserimento dei dati o per valutare la presenza di valori anomali
Differenza interquartilica (DI o IQR) e semi-differenza interquartilica (SIQR):
la differenza fra il terzo e il primo quartile e corrisponde al 50% centrale dei valori
della distribuzione:
IQR = Q3 - Q1
Questo indice, come la mediana, è influenzato dai punteggi estremi e, a differenza
del campo di variazione, può essere calcolato anche quando a uno degli estremi
della variabile si trova un intervallo aperto (per esempio, dai 50 anni in su). Dividento
a metà l’IQR si ottiene la semi-differenza interquartilica (SIQR) che corrisponde al
25% dei valori sopra o sotto la mediana. Entrambi gli indici sono poco usati in
psicologia dal momento che non vengono quasi mai utilizzati nelle procedure
statistiche più avanzate.
La variabilità si riferisce alla differenza tra il singolo punteggio e tutto il resto della
distribuzione, ma calcolare la differenza tra ogni punteggio e ciascuno degli altri è
una procedura lunga e complicata, soprattutto con una N grande. La soluzione
potrebbe essere quindi quella di calcolare la differenza, o deviazione, di ogni
punteggio come distanza dal centro della distribuzione. Dal momento che la media è
il miglior indice di tendenza centrale, gli scarti dalla media potrebbero essere una
buona misura di variabilità; tuttavia, si è visto che una delle proprietà della media è il
fatto che la somma degli scarti dalla media è sempre pari a zero. Per ovviare a
questo inconveniente, ci sono due possibili soluzioni:
considerare gli scarti senza il segno (in valore assoluto) e fare la loro media;
elevare gli scarti al quadrato (in modo che siano positivi) e fare la loro media.
Nel primo caso si sta calcolando la deviazione media (DM, MD) o scostamento
semplice medio (SSM):
Nel secondo caso si sta invece calcolando la varianza (sigma elevato al quadro,
var):
Deviazione media o scostamento semplice medio
Proprietà della varianza e deviazione standard:
1. Quando una costante k viene aggiunta (o sottratta) a tutti i valori della
distribuzione, la varianza e la deviazione standard non cambiano
2. Quando tutti i valori di una variabile X vengono moltiplicati per una costante k,
anche la deviazione standard risulterà moltiplicata della stessa costante k. La
varianza risulterà moltiplicata per k^2

frequenze → statistiche

descrittive → opzioni
Altre tecniche per descrivere insiemi di dati

Il riassunto a 5 numeri, proposto da Tukey, convoglia molte informazioni sulla
posizione, la variabilità e la forma della distribuzione, attraverso cinque indici:
mediana, Q1, Q3, max e min. Questi valori possono essere riportati in diversi
modi:
diagramma a scatola e baffi o box plot
Il grafico delle medie con errori rappresenta in maniera grafica la media e

la deviazione standard di una variabile
I punti Z (standardizzazione) e la
distribuzione normale:
Punteggio grezzo: il risultato della procedura di misurazione (non ha subìto
trasformazioni). Sono semplici da interpretare se conosciamo la scala su cui sono
misurati
Limiti dei punteggi grezzi:
Non sono facili da interpretare se usiamo scale non conosciute
Non permettono di confrontare variabili diverse
Per superare questi limiti: Usiamo gli indicatori di tendenza centrale e variabilità
Dividiamo lo scarto dalla media per la deviazione standard, per avere una misura di
distanza che si basa sempre sulla stessa unità di misura (questa unità di misura è la
deviazione standard)
Punti Z:
🔧 FORMULA PUNTO Z:
Il punto z perciò esprime quanto il punteggio dista dalla media, usando la

deviazione standard come unità di misura. Il segno indica se il punteggio è più basso
(segno negativo) o più alto (segno positivo) della media. Esso è una misura standard
Proprietà:
La media dei punti z è zero
La somma dei punti z è zero
La deviazione standard dei punti z è 1
Valori negativi indicano punteggi inferiori alla media e valori positivi indicano
punteggi superiori alla media
Standardizzazione:
è la trasformazione di una variabile in punti z
La distribuzione dei punti z si dice “distribuzione standardizzata”. Essa ci permette
di confrontare punteggi provenienti da distribuzioni di frequenza diverse
La standardizzazione di una variabile permette il ricorso alla curva normale standard
💡 punteggi Z su SPSS: trasforma → calcola variabile oppure analizza →

statistiche descrittive → descrittive → scegliere dalla finestra di sinistra le
variabili di trasformare → fare clic su opzione "salva valori standardizzati
come variabili"
Vantaggi dei punti Z
Sono confrontabili con punteggi di altri test e misurazioni
Se hanno una distribuzione normale, si può far riferimento alle tavole della
distribuzione della curva normale
Svantaggi dei punti Z

Hanno la virgola (o punto) decimale
Hanno il segno negativo, perciò si fa ricorso ad altri punti standardizzati
Altre forme di punti standardizzati

Altri forme di punteggi, con media e deviazione standard volute hanno il vantaggio di
non avere più valori negativi (sotto lo zero) e la virgola decimale. Si usano
correntemente in molti test
🔧 FORMULA PER ALTRI PUNTEGGI STANDARDIZZATI

Standardizzati= z ∙ s + M
Punti T = z ∙10 + 50
Punti C = z ∙2 + 5
Punti Stanine (Stanine)

punto z· 2 +5 (9 punti in totale, perché gli intervalli estremi sono aperti)
Punti Sten (standard Ten)

punto z· 2 +5,5 (10 punti in totale)
ATTENZIONE: La conversione in punti T non normalizza la distribuzione!
punteggi Q
Media = 100, sigma = 15 (WAIS) o 16 (Standford-Binet) o 20 (GATB)
Per la batteria GATB, i punteggi standardizzati si ottengono con la formula

Q = z ∙20 + 100
Distribuzione normale o gaussiana
E’ una famiglia di distribuzioni (hanno delle caratteristiche comuni) di frequenza
teorica che vanno da meno infinito a più infinito. è un qualcosa che
immaginiamo, ipotizziamo esista, non è una distribuzione empirica, ossia
qualcosa che è frutto dell’osservazione, però molte delle distribuzioni esistenti in
natura la approssimano
è una distribuzione simmetrica unimodale a forma di campana
l’area sottesa alla curva è uguale a 1 (in termini di percentuali, diciamo che sotto
la curva c’è il 100%) e rappresenta la distribuzione della popolazione totale
possono differire per due aspetti: la posizione (rappresentata da punto centrale

mu) e la variabilità (misurata da sigma)
è nota la proporzione (e la percentuale) di osservazioni che si trovano tra

intervalli stabiliti della distribuzione
💡 Calcolare area sottesa su SPSS: standardizzare i punti e poi trasforma →

calcola variabile → CDFNORM nel pannellino "funzioni"
Determinare dei punti:

Possiamo determinare la percentuale di punteggi compresi tra due valori X1 e X2.
graficamente si tratta di individuare la percentuale di area compresa tra quei due
punti, concettualmente essa rappresenta la probabilità di verificarsi di un punteggio
compreso tra X1 e X2
VALORI NOTEVOLI
Fra -1 e +1 ds è compreso il 68.26% dei casi (circa 2/3)
Fra -2 e +2 ds è compreso il 95,45% dei casi
Fra -3 e +3 è compreso il 99,73% dei casi
ALTRI VALORI NOTEVOLI:
Il 90 % dei casi è compreso fra ± 1, 64 z
Il 95 % dei casi è compreso fra ± 1, 96 z (importante per significatività)
Il 50 % dei casi è compreso fra ± 0, 67 z
Da dove arrivano media e deviazione standard che uso per

standardizzare il punteggio grezzo?
1. arrivano dal campione: in questo caso standardizzo rispetto al campione e il
punto z dà informazioni sulla posizione del punteggio nel campione
2. arrivano dalla popolazione: in questo caso si standardizza rispetto alla

popolazione e il punto z da informazioni sulla posizione del punteggio nella
popolazione
Il test Z: distribuzione campionaria della

media
Distribuzione campionaria della media:
Da una stessa popolazione è possibile estrarre molti campioni diversi con una certa
media di popolazione (mu). La maggior parte di questi campioni ha una media che si
avvicina alla media della popolazione, ma le medie di alcuni campioni si discostano
dalla media generale.
Per ciascuno di questi campioni si calcola la media e si costruisce la distribuzione di
frequenza di queste medie ottenendo la distribuzione campionaria della media
è la distribuzione di frequenza di tutti i possibili campioni della stessa dimensione,
estratti da una popolazione
Caratteristiche di questa distribuzione:

È una distribuzione teorica
Diversa dalla distribuzione del campione
Diversa dalla distribuzione della popolazione
Serve nell’inferenza statistica per la stima puntuale e intervallare (per stimare

valori singoli o intervalli di valori probabili)
media: è uguale a quella della popolazione da cui sono estratti gli elementi
(MUm = MU)
dispersione: è minore rispetto a quella della popolazione da cui sono estratti gli
elementi (sigmam = sigma/radice di N) perchè medie estreme sono meno
probabili di singoli valori estremi. La deviazione standard delle medie è anche
conosciuta come errore standard della media e indica quanto è affidabile
ciascuna media campionaria. Valori piccoli indicano che estraendo più campioni,
le medie sarebbero abbastanza vicine tra loro, al contrario valori grandi indicano
una dispersione attorno a MU. Indica di quanto, tipicamente, il valore della
media osservato nel campione (la statistica osservata) si discosta dal valore
vero della media nella popolazione (il parametro che non conosciamo): è detto
ERRORE perchè indica quanto impreciso è nel rappresentarmi la popolazione
🔧 FORMULA ERRORE STANDARD DELLA MEDIA
forma: è approssimativamente normale (se la popolazione ha forma normale o

la numerosità dei campioni è maggiore o uguale a 30).
1. Se una popolazione è distribuita normalmente per una variabile, anche la

corrispondente distribuzione campionaria è distribuita normalmente
2. Teorema del limite centrale o legge dei grandi numeri: all’aumentare

dell’ampiezza dei campioni, la forma della distribuzione campionaria della
media si avvicinerà sempre più alla distribuzione normale e la media
campionata si avvicina a quella della popolazione, (e la dispersione
diminuisce) indipendentemente dalla forma della distribuzione nella
popolazione. Quindi quanto più la distribuzione della variabile nella
popolazione si discosta dalla normale, tanto maggiore sarà la dimensione
campionaria richiesta perché la distribuzione campionaria si approssimi alla
normale
Riepilogo delle tre distribuzioni:

distribuzione della popolazione: punteggi di tutti gli individui nella popolazione,
potenzialmente qualsiasi forma ma spesso normale
distribuzione del particolare campione: punteggi degli individui in un singolo

campione, potenzialmente qualsiasi forma
distribuzione delle medie: medie dei campioni estratti casualmente dalla

popolazione, forma approssimativamente normale se in ciascun campione N >
30 o se la popolazione è normale.
I punti z per le medie campionarie

Possiamo calcolare la probabilità di estrarre un campione con una media compresa
tra XM1e XM2, data una certa distribuzione campionaria della media
1. Se conosciamo μ e σ della popolazione, prima di tutto calcoliamo i parametri

della distribuzione campionaria, usando queste formule:
Mx = μ e σx = σ/ radice di N
2. Poi possiamo calcolare la probabilità di estrarre dalla popolazione un campione

con media uguale o superiore a un determinato valore Xmedio usando la
formula dei punti z: (Mx - μ)/σx
3. confrontare questa probabilità con z critico per accettare o meno l'ipotesi nulla
osservando il valore p rispetto alla significatività alfa
che probabilità ho di estrarre campioni con medie uguali o

superiori a quella del mio campione?
Più il campione estratto è piccolo, più è alta la variabilità della distribuzione
campionaria. Se voglio avere una buona probabilità di un estrarre un campione
con una media simile a quella della popolazione, questo campione deve essere
abbastanza grande
A parità di dimensione (numerosità), i campioni con media più lontana dalla

media della popolazione sono meno probabili di quelli con media più vicina a
quella della popolazione
Stima di parametri:
Quando non conosciamo la media della popolazione, la miglior stima di questa
media è la media del campione
Quanto è accurata questa stima? Ovvero, quanto ci stiamo sbagliando?

Un modo per rispondere è chiedersi: Le medie dei campioni quanto si discostano
dalla media della popolazione? Indicatore di variabilità delle medie campionarie:
l’errore standard σM
Dato che spesso la media del campione non è esattamente uguale alla media della
popolazione, una stima puntuale non sarebbe molto precisa perciò si utilizza
l'intervallo di confidenza (CI): un intervallo che includa, con una probabilità
prescelta, il valore della media della popolazione
Calcolare l'intervallo di confidenza o di fiducia:

1. Scegliere la percentuale di confidenza (es. 95% CI; 99% CI)
2. Calcolare l’errore standard: trovare la deviazione standard della distribuzione

delle medie con la formula
3. Individuare i limiti superiore e inferiore dell’intervallo di confidenza, in termini di

punti z (per 95% è 1.96)
4. Calcolare i punteggi grezzi corrispondenti:
🔧 FORMULA PUNTEGGI GREZZI:
Esso indica l’intervallo in cui, nel 95% dei casi, si trova il parametro stimato
Il 99% CI comprende il valore vero della popolazione nel 99% dei casi
CAP 2: Correlazione
Covarianza
Un modo per esprimere il movimento di una variabile consiste nel quantificare la sua
variabilità intorno alla media; tanto più la variabile si muove, tanto più ampi saranno
gli scostamenti dalla media. Come è noto, la media degli scostamenti al quadrato è
la varianza (e la radice quadrata della varianza è la deviazione standard). Ogni
variabile esprime quindi una certa variabilità misurabile mediante il calcolo della
varianza.
Si può esprimere il grado di movimento che due variabili hanno in comune attraverso
la
covarianza: questo indice esprime il grado di variazione comune alle due variabili,
ovvero ci dice quanto esse variano assieme. è la media dei prodotti degli scarti dalle
rispettive medie
La covarianza aumenta sia per punteggi entrambi positivi nelle due variabili che per
punteggi entrambi negativi nelle due variabili; al contrario, la covarianza diminuisce
quando i punteggi sono positivi in una variabile e negativi nell’altra.
È analoga alla varianza, ma coinvolge due diverse variabili: X e Y come due variabili
diverse.
🔧 FORMULA DELLA COVARIANZA
L’indice di covarianza è positivo quando c’è concordanza tra gli scarti. Al contrario,
quando c’è discordanza tra gli scarti l’indice è negativo: le due variabili sono
associate negativamente, perciò al crescere di una, l’altra decresce. L’indice di
covarianza è pressoché nullo (quasi zero) quando le variabili non sono associate
(per alcuni casi c’è concordanza, per altri discordanza).
La covarianza, anche se usata spessissimo nelle analisi statistiche, non è facilmente
interpretabile: essa dipende infatti dalla scala di misura delle variabili. Per palliare
questo problema, si è trovato un indice di associazione che non dipende dalla scala
di misura delle variabili, ovvero il coefficiente di correlazione.
Proprietà della covarianza
A differenza del coefficiente di correlazione, che è un indice e ci permette di
valutare sempre la forza della correlazione lineare, a prescindere dall’unità di
misura, la covarianza non dà nessuna indicazione a questo proposito. Una
covarianza di 0,16 potrebbe essere vicinissima allo zero o rappresentare una
relazione molto forte
A differenza del coefficiente di correlazione, la covarianza non ha limiti, né

inferiori né superiori. Possiamo anche considerare che il coefficiente di
correlazione è una covarianza standardizzata
Correlazione
associazione tra i punteggi in due variabili misurate su scala a intervalli o rapporto
grafico: scatterplot o grafico a dispersione
retta bisettrice primo e terzo quadrante: correlazione positiva
retta bisettrice secondo e quarto quadrante: correlazione negativa
puntini dispersi senza retta: correlazione inesistente
puntini a U: correlazione non lineare
Correlazione lineare tra due variabili misurate almeno a livello di scala a intervallo
Come calcolarla: coefficiente di correlazione

Coefficiente di correlazione di Pearson (r): forza della correlazione tra due
variabili, il segno indica se è diretta o inversa
🔧 FORMULA COEFFICIENTE DI PEARSON:
r è un valore compreso tra -1 e 1 dove il valore assoluto indica correlazione perfetta

e il segno indica correlazione positiva o negativa (direzione della relazione), mentre
lo zero indica assenza di un legame lineare tra variabili. Esso rappresenta con un
numero la relazione lineare tra due variabili (misurate a livello di scala a intervallo o
a rapporto)
correlazione positiva indica che all’aumentare di una aumenta anche l’altra
la relazione negativa o inversa indica che all’aumentare dell’una, l’altra

diminuisce
Esempi di correlazione positiva

Peso e altezza nei bambini
Peso e statura nei bambini
Peso di un automobile e consumo di carburante per ogni km di spostamento
In campo psicologico:
Abilità numerica e conoscenza di vocabolario
Ore di studio e voti scolastici
Esempi di correlazione negativa

Anzianità di un’auto e risparmio per il trasporto
Peso di un’auto e numero di chilometri per litro
In campo psicologico:
Punteggio in un test di abilità e numero di errori commessi
Ore di studio e ore di attività lusorie negli studenti
Giornate di assenze da scuola e voti scolastici
Rappresentazioni della correlazione
Ogni relazione tra variabili può essere rappresentata graficamente al fine di capirne
le proprietà e le caratteristiche. Per quanto riguarda la correlazione abbiamo tre
rappresentazioni possibili:
1. la rappresentazione cartesiana (diagramma di dispersione);
2. la rappresentazione vettoriale: ogni variabile può essere rappresentata

mediante un vettore di lunghezza uguale alla sua deviazione standard, e
l’associazione tra due variabili si può rappresentare mediante l’angolo tra i due
vettori; più l’angolo tra i due vettori è acuto, più l’associazione sarà forte
3. la rappresentazione in termini di varianza condivisa (diagrammi di Eulero-

Venn): maggiore è la varianza, più grande è il cerchio. Se due variabili
condividono della varianza, cioè se covariano, le loro varianze saranno in parte
sovrapposte
Il quadrato della correlazione, chiamato (R quadrato), ci indica la proporzione di
varianza condivisa dalle due variabili; se moltiplicato per 100, ci indica la percentuale
di varianza condivisa dalle due variabili
Intensità dell'associazione (indicazioni di massima):

.10: effetto piccolo
.30: effetto medio
.50 effetto grande
💡 Correlazione con SPSS: analizza → correlazione → bivariata →

selezionare quale tipo "pearson" solo per intervallo e rapporto.
💡 OUTPUT: tabella statistiche descrittive: N, dev standard e media.

tabella con le combinazioni e il valore di r per ciascuna (sulle diagonali c'è
sempre 1 perchè grado di correlazione di una variabile con sè stessa è
sempre 1)
Coefficiente di correlazione parziale

Il coefficiente di correlazione parziale indica la correlazione tra due variabili a cui
viene tolta l’influenza di una terza variabile, al fine di trovare una stima più accurata
della relazione. La correlazione è perciò calcolata al netto di una terza variabile,
ovvero è calcolata come se la terza variabile fosse costante. Per esempio, se
calcoliamo la correlazione fra “numero di parole conosciute da un bambino” e
“intelligenza” otterremo un certo valore; ipotizziamo che più un bambino è
intelligente più parole conosce e, viceversa, più parole il bambino impara più
aumenta la sua intelligenza. Tuttavia possiamo anche ipotizzare che una terza
variabile, come l’età, possa contribuire ad alimentare la correlazione tra le due
variabili, dato che sia il numero di parole conosciute che l’intelligenza aumentano
con l’età. Se l’età risulta essere correlata con una delle due variabili o con entrambe,
calcolando la correlazione tra il numero di parole conosciute e l’intelligenza con la
variabile età parzializzata (ovvero al netto di età) troveremo che la correlazione le
due variabili diminuirà. Parzializzare significa quindi considerare la variabile età
come se fosse costante, come se tutti i bambini del campione avessero la stessa età
al momento della raccolta dei dati.
🔧 FORMULA DEL COEFFICIENTE DI CORRELAZIONE PARZIALE TRA X E Y
AL NETTO DELL'EFFETTO DI Z
Coefficiente di determinazione
Il quadrato del coefficiente di correlazione (r^2) indica la quota di varianza
comune fra le due variabili. Se moltiplicato per 100, indica la percentuale di varianza
comune fra le due variabili
<0,30 Inifluente, importante solo per ragioni teoriche
0,30 basso
0,40 discreto
0,50-0,60 buono o molto buono
0,70 eccellente
0,80 fantastico
0,90 sospetto
0,90-0,99 stesse variabili, correlazione fra somme delle stesse variabili
Altri coefficienti di correlazione
Non è possibile utilizzare il coefficiente per calcolare la correlazione di Pearson
quando:
Una o entrambe le variabili sono ordinali;
Una o entrambe le variabili non sono distribuite normalmente;
La relazione fra le due variabili non è di tipo lineare.
Ci sono dei valori anomali che modificano notevolmente la relazione
Quindi se ne usano altri:
coefficiente per ranghi rho di Spearman
trasformare i numeri originali in ranghi da 1 a n dove n è la numerosità delle coppie
💡 Trasformazione in ranghi con SPSS: trasforma → rango casi → inserire la

variabile e spuntare "rango" o "rango frazionario come %" per il rango
percentile
tau di Kendall
le cui proprietà psicometriche lo rendono migliore dal punto di vista della

congruenza, ma la cui spiegazione è molto meno intuitiva e facile del rho
coefficiente punto-biseriale
coefficiente fi
Sono strettamente equivalenti al coefficiente di correlazione prodotto-momento di

Bravais-Pearson. Si usano quando una (pb) o entrambe (fi) le misurazioni sono
dicotomiche
biseriale
tetracorico (entrambe dicotomiche)
Quando una o entrambe le variabili sono dicotomiche, ma presuppongono una

distribuzione continua e normale
coefficiente policorico
Si usa con le variabili continue che presuppongono una partizione in più parti (non
solo in due, come per il coefficiente tetracorico), tipica degli item di un questionario.
Si usa generalmente nei programmi di modellistica strutturale (SEM, LISREL).
Richiede molte centinaia di casi per il calcolo
quartetto di Anscombe
Sono quattro insiemi di coppie, la cui correlazione è sempre pari a 0,816, ma hanno
una relazione molto diversa fra di loro. Mette in evidenza la necessità di esaminare
sempre il grafico dei punti per individuare valori anomali e distribuzioni particolari
Interpretazione: verifica di H sul coefficiente di

correlazione (verifica che r sia diverso da zero)
Anche in totale assenza di correlazione, i coefficienti calcolati su piccoli campioni
presentano una grandissima variabilità.
Come si stabilisce allora che un coefficiente di correlazione rappresenta veramente

una relazione e non è invece il prodotto della variabilità stocastica?
modello statistico di riferimento è dato dalla distribuzione t con g.l.: N-2

🔧 FORMULA TEST T PER LA CORRELAZIONE:
poi si confronta il valore t risultante con il t critico trovato sulle tavole in base ai gl e si
decide quale ipotesi scartare.
La probabilità che indica significatività del coefficiente di correlazione, è la probabilità

di ottenere quel valore se non c’è correlazione nella popolazione.
H0: il coefficiente di correlazione è zero, i valori comuni sono quelli attorno allo zero.
Valori rari sono molto lontani da zero.
H1: L’ipotesi alternativa prevede che r sia diverso da zero, quindi elevato, e che
campioni di r elevato siano comuni
Errori decisionali:
la procedura è svolta correttamente (è giusta) ma porta a una decisione sbagliata,
essi sono di due tipi:
1. errore del primo tipo (alfa): si accetta l’ipotesi alternativa ma è vera l’ipotesi
nulla (falso positivo)
2. errore del secondo tipo (beta): si rifiuta l’ipotesi alternativa ma essa è vera
(omissione)
Sono legati tra loro: al diminuire di β aumenta α, e vice versa
CAP3: La predizione o regressione lineare

Il termine di predizione in statistica e psicometria ha un significato molto limitato: si
usa per indicare che una misurazione di un comportamento è usata per predire la
misurazione di un altro comportamento. Il coefficiente di correlazione misura
l’associazione lineare tra due (o più) variabili quantitative e indica la pendenza della
retta che interpola meglio la nuvola di punti nel diagramma di dispersione. Le
misurazioni sono generalmente dei test mentali (abilità, profitto, personalità,
atteggiamenti, temperamenti) o dati fisici o altre rilevazioni comportamentali.
A punteggi alti di un test (predittore) corrispondono punteggi alti di un altro test

(comportamento da predire o stimare)
a punteggi bassi del predittore corrispondono punteggi bassi del predetto
La predizione fa ricorso al concetto matematico di funzione: una funzione

matematica è una regola che lega un insieme di numeri, usando costanti e variabili.
🔧 FUNZIONE
y = mx + a
Dovremo trasformare il punteggio del test predittore con una equazione di una retta,
che predica al meglio (ovvero commettendo meno errori possibili) il punteggio
ottenuto dal soggetto nel test predetto.
🔧 EQUAZIONE DI PREDIZIONE O REGRESSIONE
Si deve tenere conto che le predizioni non sono precise, e quindi la funzione
dovrebbe essere scritta sempre così. La retta di regressione rappresenta dunque la
predizione lineare (o dipendenza lineare) tra una variabile indipendente e una
variabile dipendente, espressa nelle unità di misura originali
🔧 EQUAZIONE DELLA PREDIZIONE CORRETTA

y = mx + a + e
e: indica la parte di errore della predizione
a: La costante additiva a è chiamata intercetta. Rappresenta il punto in cui la retta

incontra l’asse delle ordinate, ossia il valore che la predizione assume quando il
predittore è uguale a zero. La formula dell'intercetta dipende dalle medie delle
variabili e dal coefficiente di regressione b
🔧 FORMULA DELL'INTERCETTA
m o b: Il coefficiente angolare (nell'equazione della retta nel piano solitamente

indicato con m) è anche chiamato coefficiente b o coefficiente di regressione
non standardizzato. Rappresenta il cambiamento in y all’aumentare di una unità in
x, al suo variare, varia l'inclinazione della retta. La formula del coefficiente di
regressione dipende dalla covarianza tra le due variabili e dalla varianza della
variabile indipendente:
🔧 FORMULA COEFFICIENTE DI REGRESSIONE
x : variabile indipendente o predittore
y: variabile dipendente o predetto, è una stima, per questo dovrebbe avere il
"cappellino"
Esempi di predizione
Un test di abilità verbale predice il profitto a scuola
Una scala di Stima di sé è usata per predire il Senso di benessere e di salute

psicofisica
Partendo dalla relazione tra le due variabili, la disposizione dei punti indica che tipo
di relazione c'è, la quale può essere descritta e riassunta con una retta. La migliore è
quella più vicina a tutti i punti ovvero quella che rende minimi gli errori, o meglio, i
quadrati degli errori.
Quindi saranno gli errori elevati al quadrato il criterio da minimizzare e l’equazione

che si otterrà si chiama appunto equazione dei minimi quadrati
Risolvere l'equazione di predizione per trovare Y

trovare m e a tramite le formule, sostituirle nell'equazione
🔧 FORMULA PER TROVARE M

🔧 FORMULA PER TROVARE A
Confermare le ipotesi della predizione

Il coefficiente di regressione, al contrario del coefficiente di correlazione, è un indice
non standardizzato. La seconda differenza tra i due coefficienti è data dal fatto che,
mentre la correlazione è simmetrica (dire che x correla con y equivale a dire che y
correla con x), la regressione non lo è: fare la regressione di x su y è diverso dal fare
la regressione di y su x. In altre parole, l'associazione individuata dal coefficiente di
regressione ha una direzione, indica l'effetto di una variabile sull'altra (ma non
viceversa).
Inoltre, mentre il coefficiente di correlazione varia da -1 a 1, il coefficiente di

regressione varia da - ∞ a + ∞. Come nella correlazione, 0 indica che non c'è alcuna
associazione lineare tra le due variabili.
Nella regressione si hanno come riferimento un'ipotesi nulla e una alternativa per
l'intercetta e un'ipotesi nulla e una alternativa per il coefficiente di regressione.
Ipotesi per l'intercetta

H0 = l'intercetta è 0 nella popolazione; quando la variabile indipendente è 0,
anche il valore della variabile dipendente è 0;
H1 = l'intercetta è diversa da 0 nella popolazione; quando la variabile

indipendente è 0, il valore della variabile dipendente è diverso da 0
Ipotesi per la regressione
H0 = il coefficiente b è 0 nella popolazione; non c'è un'associazione lineare tra le
due variabili e, in particolare, non c'è un effetto della variabile indipendente sulla
dipendente;
H1 = il coefficiente b è diverso 0 nella popolazione; c'è un'associazione lineare

tra le due variabili e, in particolare, c'è un effetto della variabile indipendente
sulla dipendente.
L'inferenza sulla popolazione viene quindi calcolata riconducendo la stima alla

distribuzione t di Student. Per decidere se la regressione è significativa o meno si
dovrà quindi guardare la probabilità associata al test-t abbinato a ciascun
coefficiente (significatività maggiore di 0,05 si accetta H0, significatività minore di
0,05 si rifiuta H0 e si accetta H1.
R^2 e bontà del modello

L’R-quadrato viene comunemente usato come indice di bontà di adattamento del
modello di regressione ai dati: all’aumentare del suo valore, diminuisce la
dispersione dei punti intorno alla retta, dunque diminuisce l’errore. Come si è visto,
infatti, la predizione non corrisponde esattamente ai valori osservati.
L'errore nella regressione sarà dato dalla somma degli scarti tra valori osservati e
valori predetti, elevati al quadrato; tale quantità viene poi divisa per N-1, e si ottiene
così la varianza di errore della regressione:
🔧 FORMULA VARIANZA DI ERRORE NELLA REGRESSIONE
Facendo una regressione, il nostro obiettivo è spiegare quanto più possibile della
variabile dipendente y attraverso la variabile indipendente x. La varianza di y sarà
dunque data dalla somma tra la varianza spiegata dalla regressione e la varianza di
errore (ovvero tutto ciò che non può essere spiegato dal modello):
La varianza spiegata, rappresentata nei diagrammi di Eulero-Venn come
intersezione tra le due variabili, corrisponde all'R-quadrato, che è chiamato anche
coefficiente di determinazione. La varianza di errore, chiamata anche
coefficiente di alienazione o indeterminazione, sarà data dal complemento dell'R-
quadrato (ovvero da 1 - r^2 ).
Essendo un indice al quadrato, è sempre positivo e varia da 0 a 1. Più si avvicina a

1, più sarà la varianza spiegata dal modello di regressione e più tale modello sarà
buono.
Per fare l'inferenza sulla popolazione, l'R-quadrato viene testato attraverso la
distribuzione F (ovvero la distribuzione dell'ANOVA che, essendo il quadrato del t-
test, può avere solo valori positivi, proprio come l'R-quadro). Ipotesi nulla e
alternativa sono le seguenti:
H0 = è 0 nella popolazione, quindi la percentuale di varianza spiegata è

statisticamente pari a 0;
H1 = è diverso da 0 nella popolazione, quindi la percentuale di varianza spiegata

è maggiore di 0.
Per decidere se accettare H0 o H1 si guarda quindi la probabilità associata al test F

riferito all'R-quadrato
💡 regressione con SPSS: analizza → regressione → lineare → dare l'ok

nella finestra di scelta → inserire variabile indipendente e dipendente
💡 OUTPUT: tabella coefficienti: B in seconda riga: costante moltiplicativa o
m, B prima riga: costante additiva o a, è il valore della VD quando la VI è
uguale a zero. Coefficiente beta standardizzato: con una sola VI è uguale
a r, indica l'ammontare di cambiamento della VD per ogni unità se
entrambe le variabili sono standardizzate. Tabella riepilogo del modello:
R multiplo indica la precisione della predizione ovvero la correlazione tra
predittore e predetto, importante nella regressione multipla perchè in
quella semplice R = r, è un valore sempre positivo anche quando r è
negativo. R quadrato multiplo se moltiplicato per 100 da percentuale di
varianza spiegata dalla VI. R quadrato corretto da una stima del possibile
coefficiente ripetuto su un nuovo campione.
Predizione usando i punti standardizzati

1. trasformare le serie di dati in valori standardizzati su SPSS
2. applicare la regressione
💡 OUTPUT: Costante moltiplicativa è uguale a rxy e la costante additiva è
uguale a zero. Medie dei valori predetti e di quelli osservati sono uguali.
La media dei predetti standardizzati è uguale a zero. Deviazione standard
dei valori predetti è uguale al coefficiente di correlazione
🔧 EQUAZIONE REGRESSIONE CON PUNTEGGI STANDARDIZZATI
La varianza dei valori predetti prende il nome di varianza spiegata dalla

regressione, ossia varianza dei predetti standardizzati uguale al coefficiente di
determinazione. Si può quantificare la predizione totale, fatta su tutti i casi (presenti
e futuri): la quota di varianza spiegata (r^2) è un utile indice per definire la precisione
della predizione.
H0: il parametro additivo è uguale a zero e non aiuta a migliorare la predizione
H1: il parametro è diverso da zero e serve a migliorare la predizione

Per scoprire la significatività utilizzo il t di student: ci informa sulla rarità di un tale
parametro sotto l’ipotesi nulla di mancanza di effetto nell’equazione di regressione.
Casi estremi
r = 1: correlazione perfetta, nessun errore
r = 0: correlazione nulla, predizione assente e stime dei valori osservati sempre

uguali alla media (normalmente, più i valori osservati si avvicinano alla media della
variabile dipendente e peggiore è la predizione)
Il residuo nella predizione

residuo: è la differenza fra il punteggio predetto e il punteggio osservato
🔧 FORMULA RESIDUO
residuo = osservato - predetto
Tre devianze: sum of squares
scarti totali: differenza tra la y osservata e la y media
residui spiegati: la differenza tra la y stimata e quella media (normale variabilità

dovuta al fatto che è impossibile stimare il valore perfettamente). La
proporzione di varianza spiegata è anche chiamata “Coefficiente di
determinazione” r^2 oppure varianza comune alle due variabili, si ottiene
facendo il rapporto tra varianza spiegata e quella totale
residui non spiegati o somma degli errori o errore standard delle stime o
varianza degli errori: la differenza tra la y osservata e quella stimata.
💡 Calcolare i residui con SPSS: analizza → regressione → lineare → in

opzioni selezionare "valori previsti non standardizzati" e "residui non
standardizzati"
Caratteristiche dei residui con valori grezzi

correlazione tra residui e predetti è nulla
media dei residui pari a zero
varianza dei residui è pari al coefficiente di indeterminazione (1-r^2) moltiplicato

per la varianza originale
Caratteristiche dei residui con punti standardizzati

La varianza dei predetti è uguale al coefficiente di determinazione: r^2
La deviazione standard dei predetti è uguale al coefficiente di correlazione (in

quanto radice quadrata della varianza)
La varianza dei residui è pari al quadrato del coefficiente di alienazione: (1-r^2)
Uso dei residui

L’esame dei residui permette di valutare distribuzioni anomale, sbilanciate in una
direzione o nell’altra, in alcune zone della distribuzione dei punteggi osservati
piuttosto che in altre. Se la distribuzione dei residui segue la curva normale, si può
stabilire l’intervallo di fiducia al 90 (95) % entro cui ricadono i gli errori di predizione.
L’esame dei residui è veramente proficuo nella regressione multipla.
Nella predizione del singolo caso non è mai possibile sapere se la predizione è
precisa o no. Si può quantificare la precisione totale, fatta su tutti i casi (presenti e
futuri): la quota di varianza spiegata (r^2) è un utile indice per definire la precisione
della predizione.
Regressione multipla
Quando si trova o si sospetta un effetto di più variabili indipendenti sulla variabile
dipendente, come nell'esempio sopra illustrato, il modello statistico più indicato da
usare è quello della regressione multipla: la regressione multipla studia infatti gli
effetti di due o più variabili indipendenti su una variabile dipendente. Usa più
coefficiente angolari, uno per ciascuna VI
L'effetto di ciascuna variabile indipendente sulla dipendente, tuttavia, potrebbe
essere influenzato dal fatto che le due variabili indipendenti potrebbero essere
correlate tra loro.
Per ovviare a questo problema, in una regressione multipla l'effetto di ciascuna

variabile indipendente è calcolato al netto dell'effetto dell'altra variabile indipendente
sulla dipendente. Il coefficiente di regressione esprime quindi l’effetto di x su y,
togliendo l’effetto di x su y che passa indirettamente per w
L'effetto diretto (o parziale) di x su y è dunque pari all'effetto totale di x su y

calcolato come in una regressione semplice (cioè senza tener conto di w) meno
l'effetto indiretto di x su y che passa anche attraverso w. Togliere l’effetto indiretto
equivale a bloccare la possibilità che x abbia un effetto su y mediante w;
quest'operazione è chiamata parzializzazione. Il coefficiente di regressione
multipla viene anche detto coefficiente parziale e indica il cambiamento atteso
nella variabile dipendente al variare di una variabile indipendente, al netto delle altre
variabili indipendenti, ovvero parzializzando le altre variabili indipendenti. L'effetto
diretto, o parziale, è formalizzato nel pedice dal punto che segue le prime due
lettere: si legge come “il coefficiente di regressione di x su y, calcolato al netto di w”.
(si è parlato solo dell'effetto di x su y ma lo stesso ragionamento vale per tutte le
altre variabili). Il valore dell'intercetta nella regressione multipla è pari al valore che
assume la variabile dipendente quando tutte le indipendenti sono pari a 0.
Mentre la regressione semplice, è espressa dall'equazione della retta nel piano, la
regressione multipla è espressa dall'equazione di un piano nello spazio.
Coefficienti di correlazione parziali e semiparziali

Come nella regressione semplice, l’ammontare di varianza spiegata dalle variabili
indipendenti sarà data dall’R-quadrato, che nella regressione multipla indicherà la
quantità di varianza spiegata della variabile dipendente attraverso l'effetto congiunto
delle indipendenti.
L'R-quadro può essere concepito anche come la porzione di errore che non si
commette, quindi 1 – e. Il contributo di w alla varianza spiegata è rappresentato
graficamente da a, mentre quello di x da b. Se si aggiungono alla regressione delle
variabili indipendenti, l'R-quadro aumenta anche se il contributo di queste variabili è
di minima entità. L'R-quadro corretto ovvia a tale distorsione e viene usato come
indice di bontà del modello quando ci sono molte variabili indipendenti e il campione
ha una numerosità ristretta. Nel resto dei casi, si può interpretare l'R-quadrato non
corretto per sapere quanta varianza della variabile dipendente è spiegata dalle
variabili indipendenti.
Se siamo interessati a sapere quanta di questa varianza è spiegata da una variabile

indipendente e quanta è spiegata dall'altra, ovvero per conoscere i contributi unici
delle variabili indipendenti all'R-quadrato, dobbiamo guardare i coefficienti di
correlazione parziali e semi-parziali
Il coefficiente di correlazione parziale pr: quantifica la correlazione tra due

variabili al netto di una terza; se elevato al quadrato, indica l’effetto di una VI sulla
VD dopo aver rimosso tutta la variabilità delle altre VI
🔧 FORMULA COEFFICIENTE DI CORRELAZIONE PARZIALE
Si interpreta quindi come il contributo unico di una variabile indipendente alla
varianza non spiegata dalle altre variabili indipendenti; ci segnala cioè quanta
varianza spiegherebbe la variabile indipendente x se la variabile dipendente y non
variasse anche in funzione della variabile w, ovvero tenendo costante l’influsso delle
altre VI,
Il contributo unico della VI può anche essere valutato come varianza spiegata totale
parzializzando la varianza condivisa con le altre VI;
il coefficiente di correlazione semi-parziale sr, se elevato al quadrato, indica la

percentuale di varianza spiegata unicamente da una variabile indipendente:
🔧 FORMULA COEFFICIENTE DI CORRELAZIONE SEMIPARZIALE
Tale coefficiente si interpreta come il contributo unico di una variabile indipendente al

totale della varianza spiegata; ci mostra quanto aumenta l'R-quadro totale grazie al
contributo di quella variabile e può essere espresso anche in percentuale.
Per usarli
Entrambi i coefficienti variano da 0 a 1. In generale, si interpreta il coefficiente di
correlazione semi-parziale quando la variabile indipendente che si parzializza varia
naturalmente nella realtà. Si preferisce invece l'interpretazione del coefficiente di
correlazione parziale quando la variabile indipendente che si parzializza è stata
variata artificialmente dai ricercatori in disegni di ricerca sperimentali.
Restano le caratteristiche dell’equazione di predizione

Criterio dei minimi quadrati per gli errori
Una sola intercetta
Errori o residui calcolabili nello stesso modo
Verifica della significatività per ciascuna VI
Multicollinearità
Varianza comune fra le VI: se è molto elevata produce stime instabili
Ci sono degli indici per indicare quando si manifesta questo effetto (tolleranza e VIF,
Variance Inflation Factor)
Soluzione: trasformare le variabili molto correlate in componenti principali
Importanza dei singoli casi:

Nel campione esaminato, ci possono essere dei valori osservati che sono molto
diversi dagli altri (Outliers, o valori anomali)
Per apprezzare l’apporto di ogni singola osservazione, si esaminano degli indici:
Distanza di Mahalanobis
Una misura di distanza del punto k dagli altri punti, sulle variabili indipendenti
🔧 FORMULA DISTANZA DI MAHALANOBIS
è un valore sempre positivo che indica la distanza di un punto di k dimensioni dalla

media delle K dimensioni. Tiene conto sia delle distanza di ogni k-esima media sia
della varianza e della covarianza delle k variabili. Valori elevati indicano una grande
distanza del punto da tutte le medie delle k variabili
Distanza di Cook
Quantificazione dell’effetto che avrebbe l’eliminazione del punto k sul calcolo dei
residui. Valori elevati indicano che il punto k è un valore anomalo e richiede esame
approfondito
Leverage (valore di influenza)
È un altro indice, che dipende dalla distanza di Mahalanobis
Plus dal laboratorio di SPSS: La path

analysis
La path analysis o path diagram: andare a cercare le relazioni tra tutte le variabili
in gioco che si influenzano tra di loro (non solo causa effetto) e lo si usa molto in
psicologia cognitiva ma anche sociale
Rappresenta graficamente il gioco tra due o più variabili (quasi tutti dipendenti di
tutti)
Come si studiano
una delle analisi che si può fare attraverso la regressione → analisi avanzata basata
sulla regressione (non è una regressione, è un'analisi che sfrutta i coefficienti della
regressione)
Come si risolve
(abbiamo bisogno di trovare le incognite che sono le lettere che rappresentano le
frecce che se sono unidirezionali significa che sono il beta di una regressione che ha
come variabile indipendente l'origine della freccia e dipendente quella di arrivo)
unica semplice regola: fare una regressione per ogni variabile che riceve freccia in
cui chi riceve è la variabile dipendente e chi manda è l'indipendente (se riceve più
frecce significa regressione multipla)
freccia bidirezionale: non è un rapporto di causa effetto e quindi è una correlazione
Modello di mediazione (sottocaso del path diagram)

variabile indipendente che assieme ad una variabile mediatrice (effetto indiretto)
hanno effetto sulla VD
1. trovare le tre incognite della retta (a, b e c'): faccio regressioni: una regressione
semplice che vede il mediatore come VD e poi una regressione multipla della
VD che riceve dal mediatore esogeno e dalla variabile indipendente esogena
(guardare sempre il beta)
2. vedere se la mediazione esiste: a e b sono significative e facciamo calcolo

effetto mediato
una volta che abbiamo i tre coefficienti possiamo studiare il modello di mediazione.
regge? bisogna vedere se la mediazione esiste
come faccio a stabilire che un'intercetta di 0,3 è diversa da 0? con il test di
significatività (nella regressione il t test a campione unico che testa se il valore di B
che abbiamo trovato è diverso da zero)
a livello matematico: quando ab diversi da zero altrimenti c e c' risultano uguali e
quindi non ci sarebbe mediazione
3. scoprire se c'è mediazione totale o parziale attraverso l'inferenza da c' (quando

c' è significativo, abbiamo mediazione parziale)
quando sarà mediazione totale: quando tutto l'effetto passa per il mediatore, c'
sarebbe 0 o non significativo e quindi c= ab
💡 SPSS: analizza → regressione lineare → compilo variabile dipendente e

indipendente
💡 OUTPUT: guardo la beta e la significatività e me le segno a parte. Faccio

la regressione multipla sulle restanti variabili e segno i risultati di b e c'.
Una volta che ho tutte e tre le incognite, vado a stabilire se l'effetto
mediato esiste: se a e b sono statisticamente significative, la mediazione
esiste (effetto mediato: a*b)
CAP4: Variabili binarie (dummy variables)

nell'analisi di regressione o indicatori
binari
Finora si è detto che nella regressione sia le variabili indipendenti che la dipendente
devono essere quantitative. Tuttavia esiste un caso in cui la variabile indipendente
può essere qualitativa: si tratta della regressione con variabili binarie (o dummy).
Le variabili binarie o dicotomiche sono quelle che assumono solo due valori. La
codifica più conveniente è attribuire valori 0 e 1. Si possono applicare anche a
variabili categoriali (scale nominali) perchè la presenza di un solo intervallo le
trasforma in una vera scala a intervalli.
categoria di riferimento:
È quella che non compare nella regressione, è il valore di quando i restanti

indicatori sono tutti uguali a zero
Può essere scelta secondo l’agio di interpretazione e utilizzazione. E’

fondamentale però ricordare quale è stata scelta per diventare il riferimento
💡 OUTPUT: la costante B della regressione è uguale alla media della
categoria di riferimento, ossia quando i tre indicatori sono tutti uguali a
zero. Le medie degli altri gruppi sono il risultato della somma della
costante e di ciascun coefficiente moltiplicativo
Nel caso di una regressione con variabile dummy non ha senso interpretare il
coefficiente beta, conviene interpretare il coefficiente non standardizzato.
Uso degli indicatori

Soddisfa diverse esigenze:
predizione con una variabile categoriale o realmente dicotomica, come il genere
controllo o eliminazione di alcuni effetti privi di interesse (o che si vogliono

controllare) in un’equazione di regressione multipla
esame delle interazioni fra indicatori diversi
Rappresentazione grafica della predizione

Il predittore viene trasformato con l’equazione di regressione in due variabili: la
prima è perfettamente correlata con il predittore, ha correlazione uguale a uno ma
una deviazione standard inferiore a quella del predetto. La seconda variabile è
costituita dai residui
La varianza totale è sempre scomponibile in due: varianza spiegata dalla
regressione e varianza residua o dell’errore
CAP5: ANOVA:
Analisi della varianza: Si confontano le varianze di due o più gruppi per capire se
le medie sono significativamente diverse.
L’ANOVA esamina se le medie dei campioni differiscono più di quanto è lecito

aspettarsi se H0 è vera: si basa sull’assunto che tutte le popolazioni abbiano la
stessa varianza perciò osserva due stime della varianza:
1. varianza entro il gruppo:
2. varianza tra i gruppi:
Se è vera H0, ci aspettiamo che le due stime siano simili tra loro (non saranno
uguali, perché sono stime, se H0 è falsa, almeno una delle medie dei k gruppi è
significativamente diversa dalle altre)
Requisiti
La variabile dipendente è misurata su una scala a intervalli
Ha una distribuzione normale
La classificazione è fatta in modo indipendente dai dati osservati (esiste in

precedenza e non è influenzata dei valori osservati)
Le varianze all’interno dei gruppi sono omogenee (simili fra di loro)
La variabile indipendente (classificazione in più gruppi) è una misurazione a

livello di scala nominale
Calcolo
Il calcolo dell'analisi della varianza fa riferimento al concetto di variabilità, intesa
come la dispersione delle osservazioni rispetto alla media. Un indice di variabilità
fondamentale per il calcolo dell'ANOVA è la devianza: il termine devianza (o somma
dei quadrati, SQ) indica la somma degli scarti dalla media generale elevati al
quadrato.
🔧 FORMULA DEVIANZA TOTALE
Si tratta quindi della sommatoria degli scarti quadratici di ciascun punteggio dalla
media generale della variabile.
La devianza totale può essere scomposta in due componenti:
La devianza tra i gruppi è data dalla sommatoria delle differenze tra la media di
ciascun gruppo e la media generale della variabile, elevati al quadrato
La devianza entro i gruppi (detta anche devianza di errore) è data invece dalla
sommatoria delle differenze tra ciascun punteggio e la media del gruppo a cui
appartiene, sempre elevati al quadrato. La media generale è indicata con una
barretta sola, mentre la varianza dei gruppi ha la i come pedice.
Il calcolo dell'ANOVA parte dalla devianza per arrivare a stimare la varianza sulla
popolazione; la varianza si ottiene dividendo ognuna delle tre devianze per il numero
dei gradi di libertà rispettivi
la varianza totale si ottiene dividendo la formula della devianza totale per N – 1,

dove N è la numerosità del campione;
la varianza tra i gruppi (o varianza between groups) si ottiene dividendo la

formula della devianza tra i gruppi per J – 1, dove J è il numero di gruppi formati
dalla variabile indipendente
🔧 FORMULA VARIANZA TRA I GRUPPI
la varianza entro i gruppi (varianza within groups o varianza di errore) si

ottiene dividendo la formula della devianza entro i gruppi per N – J, dove N è la
numerosità del campione e J il numero dei gruppi formati dalla variabile
indipendente.
🔧 FORMULA VARIANZA ENTRO I GRUPPI
La varianza totale, ovvero la variabilità della variabile dipendente, è stata quindi
scomposta in due componenti, esattamente come è stata precedentemente
scomposta la devianza totale:
La varianza tra i gruppi indica quanto la media di ciascuno dei gruppi si differenzia
dalla media totale, mentre la varianza interna ai gruppi indica quanto la media di
ciascun soggetto si distanzia dalla media del suo gruppo di appartenenza. La
varianza tra i gruppi corrisponde alla quantità di varianza spiegata: infatti, è quella
parte di variabilità della variabile dipendente che può essere spiegata data
l'appartenenza dei soggetti ai diversi gruppi. La varianza interna ai gruppi
rappresenta invece la varianza di errore perché è la parte di variabilità che non
possiamo spiegare con l'appartenenza del soggetto al gruppo; si tratta della
componente d'errore dovuta alle differenze individuali dei soggetti all'interno di uno
stesso gruppo. (indica quanto sto sbagliando quando dico che quella media ben
rappresenta tutti i soggetti nel mio campione)
L'ANOVA, indicata con la lettera F, è calcolata come il rapporto tra, la varianza tra i
gruppi (ovvero la devianza tra i gruppi divisa per i gradi di libertà, qui indicati con la
sigla inglese df) e la varianza interna ai gruppi (ovvero la devianza interna ai gruppi
divisa per i gradi di libertà)
🔧 FORMULA TEST F
Nell'ANOVA la variabilità spiegata sarà la variabilità che può essere attribuita alle
differenze tra le medie dei gruppi; in altre parole, si usa l’informazione contenuta
nella VI per avere una stima più precisa di quella che si sarebbe ottenuta usando la
media totale, e tale stima è tanto più precisa e meno errata quanto più la varianza
entro il gruppo è piccola e quanto più la differenza tra i gruppi è grande.
In linea con la regressione, l'R-quadrato indica la percentuale di varianza spiegata;
nel caso dell'ANOVA, l'R-quadro è dato dalla varianza tra i gruppi divisa per la
varianza totale
Logica dell'ANOVA:
H0: le medie sono tutte uguali
H1: almeno una delle medie differisce dalle altre

La variabilità dei punteggi entro i campioni è dovuta al caso (è ‘varianza d’errore’)
Se è vera H0 (i campioni provengono da popolazioni che hanno tutte la stessa

media) allora la variabilità tra le medie dei campioni è dovuta anch’essa al caso
(è tutta ‘varianza d’errore’)
Se H0 è falsa (almeno un campione proviene da una popolazione con una

media diversa) allora la variabilità tra le medie dei campioni è dovuta a due
componenti:
il caso (varianza d'errore)
la variabilità tra le medie delle popolazioni, l'effetto del trattamento (varianza

spiegata)
Se F < valore critico → Si accetta H0
Se F > valore critico → Si rifiuta H0 e si accetta H1
💡 ANOVA in SPSS: analizza → modello lineare generale → univariato. Nei

box inserire variabile dipendente in "variabile dipendente" e variabile
indipendente in "fattori fissi".
💡 OUTPUT: prima tabella: statistiche descrittive per ogni campione, tabella

test di levene: guardare prima riga "test basato sulla media":
significatività, statistica di levene (valore di F che viene confrontato),
tabella anova: si chiama "test degli effetti sui soggetti" determina se
accettare o meno l'ipotesi nulla, tabella dimensione effetto anova:
vengono riportati diversi tipi: uno dei principali è eta quadro (proporzione
di varianza spiegata)
Uso di F
Nella ricerca psicologica si usa raramente questa statistica per verificare se due
campioni differiscono fra di loro per la varianza. Invece, l’uso di F per confrontare
due varianze calcolate in modo diverso su subcampioni che si suppongono
provenire dalla stessa popolazione è un’operazione comunissima nella ricerca
psicologica
Requisiti per l'uso di F

Le due varianze devono provenire da popolazioni distribuite normalmente
I campioni devono essere estratti in modo indipendente (non ci devono essere

legami fra le osservazioni e l’attribuzione ad un gruppo)
Quanto deve essere grande F per rifiutare H0:
per rispondere si usa un'apposita distribuzione di probabilità: distribuzione F, essa
indica la probabilità per i diversi valori possibili di F se H0 è vera
Una famiglia di distribuzioni, la forma esatta dipende dal numero di campioni e dal
numero di punteggi (numero di gradi di libertà a numeratore e denominatore)
a numeratore: Numerogruppi - 1
a denominatore: numerosità complessiva - Numerogruppi
Moda = 1 solo valori positivi coda a destra
Dimensione effetto ANOVA:

Eta quadro chiamata anche proporzione di varianza spiegata è una misura della
dimensione dell'effetto per l'analisi della varianza
Quando si scopre che l'ANOVA è significativa

1. Confronti pianificati (o a priori)
Prevedono un ordine nei gruppi, o possibili raggruppamenti, secondo la teoria che
ha ispirato la ricerca.
Questi confronti si chiamano anche contrasti perché contrastano la media di uno o
più gruppi con quella di altri; per esempio il primo con i seguenti, il
secondo con i seguenti ecc. oppure anche l’ultimo con tutti gli altri, oppure anche il
penultimo con gli altri.
Anche in questo caso ci sono due possibilità:
1. contrasti predefiniti: lineare, quadratico, Helmert...
2. contrasti decisi da noi
Occorre inserire dei coefficienti numerici, usando dei numeri interi positivi e negativi,
in modo che la loro somma sia sempre uguale a zero. I coefficienti possono essere
anche uguali a zero, quando si vuole contrastare alcuni gruppi trascurandone altri
💡 SPSS: menù ANOVA → contrasti → polinomiale e si sceglie tra lineare,

quadratico, cubico ecc. Altrimenti si dovranno inserire del coefficienti (uno
alla volta premendo aggiungi)
2. Confronti Post-Hoc:
sono test fatti a posteriori, servono a trovare le differenze tra i gruppi presi a due a
due, ovvero: so che c'è almeno una media diversa dalle altre, ma quale tra queste?
(abbiamo diverse H0 per ogni coppia).
Non si fanno ipotesi, ma si vuole sapere quali gruppi possono essere considerati
uguali
💡 Post-Hoc su SPSS: analizza → modello lineare generale → univariato →

selezionare "post-hoc" nel box → scegliere che tipo fargli fare (noi di solito
tukey e regwg o al massimo bonferroni). OUTPUT: tabella "confronti
multipli": fa vedere differenza della media, errore standard, significatività
e intervallo per ogni coppia incrociata
Perchè non possiamo semplicemente fare dei t-test per ogni

coppia:
quando facciamo un test inferenziale stimiamo la probabilità di commettere un errore
rifiutando l’ipotesi nulla quando è vera, questa probabilità è del 5% e p va bene, ma
di più no. Facendo tuttavia delle estrazioni multiple, così come la probabilità di
vincere alla lotteria aumenta, anche la probabiltà di sbagliare aumenta nel nostro
caso perchè p si moltiplica e supera il valore del 5% quindi i confronti post-hoc
cercano di calcolare le probabilità associate ai vari confronti in modo tale che alfa
rimanga del consentito 5%, cioè cercando di fissare la probabilità di ottenere almeno
un test significativo quando le differenze sono 0, uguale a quella di come se
facessimo un test solo. In pratica, i vari test post-hoc usano vari espedienti per
controllare questa probabilità ai valori corretti
PROCEDURE:
LSD (Least Significant Difference),
Bonferroni
Sidak
Scheffé,
SNK (Student-Neumann-Kouls),
Tukey HSD (Honestly Significant Difference),
Duncan,
Hochberg,
Gabriel,
Waller-Duncan,
Dunnett
Altre procedure non presuppongono uguaglianza di varianza:
Tamhane
Dunnett
Games-Howell
C di Dunnett
Post-Hoc più conservativo: disuguaglianza di Bonferroni
Dati c confronti post hoc, probabilità che almeno uno sia significativo per caso è
minore uguale c*alfac (dove alfac è il valore che adotto per decidere se il singolo
confronto è significativo) alfac = alfa/c. Per ciascun confronto giudico la differenza
come significativa solo se p < (.05/numero confronti totali)
Due tipi di output:

1. confronti multipli completi
2. gruppi omogenei
ANOVA fattoriale o multivariata
Finora abbiamo delineato il caso di un'analisi della varianza con una variabile
dipendente e una variabile indipendente. Tuttavia nella maggior parte delle ricerche
sperimentali, il disegno prevede più variabili indipendenti incrociate: nei disegni
fattoriali ogni gruppo di partecipanti rappresenta una combinazioni di livelli delle
variabili indipendenti. Nell'ANOVA fattoriale si testa l'effetto di ogni variabile
indipendente sulla dipendente calcolato come se fosse costante in tutti i livelli delle
altre variabili indipendenti. Tale effetto è chiamato effetto principale; avremo tanti
effetti principali quante sono le variabili indipendenti.
Il concetto è simile a quello dell'effetto della VI nella regressione multipla: si valuta

l'effetto di ogni VI sulla VD, calcolato parzializzando le altre VI. L'interpretazione
degli effetti principali segue gli stessi passi delineati per l'ANOVA a una via. Oltre agli
effetti principali, però, l'analisi della varianza fattoriale verifica anche se nel modello
è presente un effetto di interazione: se tale effetto risulta significativo (e dunque
siamo in presenza di un'interazione), l'effetto di una VI cambia nei diversi livelli
dell'altra VI; si dice che gli effetti di una VI sono condizionali ai diversi livelli dell'altra.
In presenza di un’interazione, gli effetti principali vanno interpretati come effetti medi
rispetto ai diversi livelli dell’altra variabile indipendente.
Riprendiamo l'esperimento sulla piacevolezza degli stimoli e conduciamo questa
volta un'analisi della varianza fattoriale con forma e colore come VI e piacevolezza
come VD:
L'effetto principale della forma (riga di “forma”) risulta statisticamente significativo
anche nell'ANOVA fattoriale: F (2, 145) = 19.82, p < .001; tenendo costante il colore,
le medie di piacevolezza risultano differenti a seconda del gruppo di forma (per
sapere quali sono le medie che si differenziano dovremmo quindi andare a vedere i
post-hoc). Anche l'effetto principale di colore (riga di “colore”) risulta statisticamente
significativo: F (1, 145) = 22.11, p < .001; tenendo costante l'effetto della forma, le
medie dei gruppi di colore risultano statisticamente diverse. Essendo la variabile
colore dicotomica, sappiamo senza bisogno di fare i post-hoc che la media di
piacevolezza per gli oggetti chiari è statisticamente differente dalla media di
piacevolezza per gli stimoli scuri. L'effetto di interazione tra le variabili lo troviamo
nella riga “forma*colore”: anch'esso risulta statisticamente significativo, quindi siamo
in presenza di un'interazione; per interpretare l'effetto di interazione, è utile
osservare il grafico delle medie con entrambe le VI:
Quando gli oggetti presentati come stimolo sono di colore chiaro (riga verde), la
piacevolezza è massima per le forme miste mentre diminuisce per le forme
arrotondate e per quelle di forma squadrata; quando gli oggetti presentati sono di
colore scuro (riga blu) la piacevolezza è maggiore per le forme arrotondate, mentre
diminuisce per le forme miste e per le forme squadrate in maniera quasi uguale. Se
consideriamo le forme squadrate notiamo che non esiste una grande differenza tra
la piacevolezza degli oggetti scuri e di quelli chiari; se consideriamo le forme
arrotondate, la piacevolezza per oggetti scuri e chiari è praticamente uguale.
Considerando invece le forme miste, notiamo che l'effetto del colore cambia
radicalmente l'interpretazione della piacevolezza: per gli oggetti scuri, infatti, la
piacevolezza diminuisce in maniera notevole; al contrario è massima quando gli
oggetti sono di colore chiaro. Nell'insieme, il modello spiega il 46% della varianza di
piacevolezza, con R-quadrato = .46; rispetto al modello precedente di analisi della
varianza a una via, la varianza spiegata è aumentata, passando da un R-quadrato di
modesta entità a un R-quadrato considerevole.
Interpretazione dell'interazione
Per l'interpretazione dell'interazione in sostanza si interpreta il grafico delle medie
dei gruppi definiti dalla combinazione delle variabili indipendenti. A seconda della
forma, si possono distinguere due tipi di interazione: ordinale e non ordinale.
Nell'interazione ordinale gli effetti di una variabile non cambiano interpretazione ai

diversi livelli dell’altra variabile indipendente; in presenza di un’interazione di questo
tipo una variabile indipendente aumenta gli effetti dell'altra variabile indipendente: un
effetto diventa quindi più potente cambiando il livello dell’altra variabile dipendente;
si parla in questi casi di moderazione. Per esempio, la soddisfazione sul lavoro (VI)
aumenta la soddisfazione generale (VD) per entrambi i livelli di soddisfazione
matrimoniale (VI):
Quando l'interazione è non ordinale, gli effetti di una variabile indipendente
cambiano interpretazione ai diversi livelli dell’altra variabile indipendente; in
presenza di un'interazione non ordinale l'interpretazione degli eventuali effetti
principali è dubbia. Per esempio, alta motivazione (VI) e alte ricompense
economiche (VI), se prese singolarmente, aumentano la performance (VD), ma
quando sono presenti insieme la peggiorano:
Eta quadro parziale e semiparziale

Abbiamo visto nell'esempio che l'R-quadrato è aumentato passando dall'ANOVA a
una via all'ANOVA fattoriale; questo perché, come nella regressione, aggiungere VI
come predittori migliora la spiegazione della varianza della VD. Per sapere il
contributo unico di ciascuna variabile indipendente e dell'interazione alla varianza
spiegata dall'R-quadrato si può usare un indice chiamato
Eta-quadrato parziale; esso rappresenta la varianza spiegata da ciascun effetto,

dopo aver rimosso la varianza spiegata dagli altri effetti (sia principali che
dell'interazione). L'Eta-quadrato parziale corrisponde al coefficiente di correlazione
parziale al quadrato incontrato nella regressione, ed esprime il contributo unico di
ogni VI come rapporto tra la variabilità spiegata unicamente da quella variabile
indipendente e la variabilità non spiegata dalle altre variabili indipendenti. È
espresso in proporzioni di varianza e varia da 0 a 1 e può essere riportato in
percentuale. In presenza di una sola variabile indipendente il suo valore è identico al
valore dell'R-quadro.
Esiste anche Eta quadro semi-parziale: corrisponde all'indice di correlazione semi-

parziale al quadrato, e indica la varianza spiegata da una variabile indipendente al
netto della relazione con le altre variabili indipendenti; tale indice risulta però poco
usato.
Spiegazione dall'esercitazione di SPSS
Nell'ANOVA multivariata o fattoriale, più variabili indipendenti di tipo qualitativo,
influenzano una variabile dipendente. Come lo fanno: attraverso l'analisi della
varianza esattamente come avviene nella regressione. Come poi andiamo ad
interpretare l'effetto dato che sono diverse? attraverso le caratteristiche della VD,
(sono le caratteristiche delle variabili che decidono se farci fare anova o regressione,
perchè in fin dei conti il procedimento è lo stesso).
Quindi, al di là dell'analisi della varianza che ci permette, tramite l'indice del modello,
di sapere quanta varianza spiega (r^2) sia nella regressione che nell'ANOVA,
quello che possiamo andare a vedere dell'effetto di una variabile indipendente sulla
nostra dipendente e le stime che possiamo fare.
Nella regressione le stime sono tante quante le x, quindi potenzialmente infinite,

anche nell'ANOVA sono tante quante la x, ma avendo x finite, ovvero i gruppi
predefiniti che vado a confrontare, avrà le medie di quei gruppi.
Qualora gli effetti della VI siano più di due, non ci basta sapere se c'è l'effetto perchè
effetto significa almeno "due medie sono diverse" (requisito minimo che permette di
avere stime migliori). Oltre a voler saper questo, di solito andiamo a vedere quali e
quante sono diverse attraverso il post hoc, dopodichè andiamo a definire come sono
nel grafico.
ANOVA multivariata o fattoriale

con almeno due variabili indipendenti
se c'è un modello con almeno due VI, succede che nell'anova, in automatico, non si
trova solo l'effetto delle due singole (i due effetti principali) ma anche l'effetto
dell'interazione tra le due variabili principali. Questo non avviene nella
regressione, non perchè non esiste. bensì, perchè lo studio degli effetti di interazione
tra variabili quantitative (chiamato moderazione) è un processo molto complicato, ci
sono diversi metodi per studiarlo uno dei quali è arrivare a dicotomizzare queste
variabili.
L'effetto di moderazione tra variabili qualitative è molto più semplice e concreto e

lo si fa con l'ANOVA fattoriale
Perchè guardare l'interazione: il grafico di interazione ci dice cose anche molto

diverse da quello generale, l'effetto generale se ho due info così significative
(medie), viene annullato. L'effetto può essere ordinale (le due variabili vanno nella
stessa direzione) oppure non ordinale (direzioni opposte).
Esempio: negli effetti generali può risultare che in media, nella popolazione, un
farmaco sia più efficace di un altro. Tuttavia, andando a guardare gli effetti di
interazione, si scopre che negli uomini è effettivamente più efficace, mentre nelle
donne assolutamente no, è più efficace l'altro.
Crossover o effetto di interazione non ordinale: quando gli effetti di interazione

nell'ANOVA sono di tipo non ordinale, la maggior parte, se non tutte le interpretazioni
che facciamo vengono falsificate dal fatto che il grafico dell'interazione che mi dice
qualcosa che vale in un caso (nell'effetto principale) ma non nell'altro. (è vero che un
farmaco in media sembra funzionare meglio, ma è vero solo per una parte del
campione quindi in generale non lo vado più a dire). Se ho un'info di un effetto di
interazione non ordinale vado a dire che sei di un gruppo funziona meglio una cosa
e se sei dell'altro funziona meglio l'altro.
S'interpreta: l'effetto di una delle variabili, scomposta per i livelli dell'altra, è diverso.
Può essere diverso per due caratteristiche:
andamento: le freccie formate dalla scomposizione tendono ad incrociarsi

siamo davanti a effetto d'interazione non ordinale (direzione diversa) (ordinale
invece è stessa direzione)
intensità:
se effetto di interazione è significativo devo andare a controllare che tipo di

interazione è, ancora prima delle interpretazioni sugli effetti principali. Se l'effetto è
non ordinale, non vado a fare l'interpretazione sugli effetti principali bensì mi limito a
interpretare il grafico dell'interazione che ha info combinata tra le due (se serve
facciamo i post hoc quando non abbiamo le dicotomiche).
💡 SPSS: modello lineare generale → no andare in multivariata bensì

univariata → metto le variabili dove devono stare e chiedo tutto ciò che mi
serve (post hoc, descrittive, stime dimensioni degli effetti, e i grafici, uno
per ogni F). (consiglio per i grafici: mettere la variabile a più livelli sull'asse
delle ascisse)
💡 OUTPUT: Tabella test degli effetti tra i soggetti: r^2 e significatività che
mi dice quanta varianza viene spiegata della variabile dipendente. Guardo
le F delle diverse variabili indipendenti con eta quadro. Guardo l'effetto
d'interazione prima di giungere a conclusioni. (effetto di interazione dato
da variabile*variabile, guardo la significatività) vado a vedere grafico di
interazione per vedere le medie. se l'effetto di interazione è non ordinale,
non s'interpreta l'effetto principale perchè se no diciamo cose sbagliate.
Come si presentano effetti di interazione non significativi: due rette
parallele o addirittura sovrapposte.
ANCOVA: metto una variabile tra le covariate e questo significa che la sto usando al
netto di tutto ciò che succede tra i fattori fissi (come se facessimo finta che sia una
costante), il resto rimane uguale. (la richiesta di solito sarebbe "come sarebbe
l'effetto di queste due facendo finta che non conti ad esempio l'età?")
Plus dal laboratorio di SPSS: assunzioni

necessarie
Linearità (solo nella regressione)
Assumiamo che l'effetto che andiamo a studiare, sia lineare ovvero abbia sempre la
stessa unica tendenza. può essere positivo: all'aumentare di x, y aumenta, può
essere costante ma l'assunzione mi dice che deve essere comunque un'unica
tendenza.
esempio: se ho una ricerca con partecipanti che vanno da 30 a 100 anni ben
distribuiti e provo a vedere qual è l'effetto di età su QI è probabile che l'effetto non
sia lineare perchè fino ad un certo punto all'aumentare di x, y aumenta, ma ad un
certa y smette e diminuisce causa età.
quando chiediamo ad spss di stimare l'effetto, stima solo uno che ci permetta di
sbagliare il meno possibile, una via di mezzo verrà fuori un effetto costante che però
non è significativo ne effettivo, completamente falsato
assunzione di linearità nell'anova non può saltare perchè non andiamo a vedere
l'effetto lineare bensì l'effetto di medie
per controllarlo: grafico scatterplot (in x predetti e in y i residui dell'analisi condotta)
Omoschedasticità
quesito: hanno la stessa variabilità o diversa?
si testa dal grafico scatterplot
L'analisi deve avere lo stesso livello di informazione che deriva da tutti i livelli di x,
tutti i livelli di x dunque dovrebbero portare varianza ovvero informazione. esempio,
se nell'anova un gruppo sono 50 e l'altro sono 450 abbiamo molta più informazione
in uno per evidenti motivi di numerosità e quindi è eteroschedastica (dal grafico si
vede che ad un certo punto i puntini esplodono)
Cosa cambia dal punto di vista tecnico nel violarlo: è la varianza che viene falsata,
quindi i calcoli sulla F e t tenderanno a pesare molto di più per una certa parte di x
piuttosto che un'altra
Non essendo un dato oggettivo numerico bensì grafico, assumete come violata
quando è parecchio diverso questo grafico
i test di levene si possono utilizzare ma sono molto inficiati dalla numerosità che più
aumenta e più dirà che va bene, se riusciamo a leggere anche il grafico meglio.
💡 SPSS: analizza → regressione → lineare → inserisco vd e vi e per fare

scatterplot devo salvare valori attesi e residui. solo dopo, vado a prendere
il grafico in sezione "grafici" e inserisco in asse y i residui, in asse x i
predetti
💡 OUTPUT: quando abbiamo nuvola di punti sparsa a caso: le nuvole sono

sia omoschedastiche che lineari
Presenza o meno di outliers

dal grafico possiamo vedere anche la presenza di outliers
più sono e più falsano le analisi, vanno tolti dalle analisi
possono esistere degli outlier che non inficiano la bontà? si usano gli indici distanza
di mahalanobis o cook? tecnicamente sono corretti ma non ne vale la pena
💡 SPSS: nel grafico scatterplot, si vedono dei puntini molto distanti dagli altri
Normalità
Spesso più facilmente delle altre viene violata: tutte le analisi che andiamo a
condurre dovrebbero essere su variabili dipendenti di tipo quantitativo distribuite
normalmente e si basano sulla curva normale
se io non valuto la normalità, il grafico potrebbe non essere normale e quindi viene
distorta la mia interpretazione sulla significatività
Per verificarlo: si va a vedere istogramma dei valori residui che deve essere
approssimato alla normale (per non esserlo deve avere problemi visibili). si può fare
il test ks che restituisce la differenza tra i residui di una campana normale e quella
sfasata. Anche questo test, tuttavia, soffre di numerosità campionaria quindi
attenzione si guarda anche il grafico.
💡 SPSS: si va a vedere istogramma dei valori residui che deve essere

approssimato alla normale
CAP6: La distribuzione del chi quadrato:

Indice statistico per variabili su scala nominale che si basa su informazioni relative
alle frequenze
Utilizziamo la statistica chi-quadrato (χ2) per verificare se un determinato valore

osservato si discosta oppure no da un valore teorico (l’ipotesi nulla)
Quando si applica:
1. ipotesi di equiprobabilità: Verificare se una variabile nominale si distribuisce in
modo casuale, ossia tutti i valori hanno la stessa probabilità di presentarsi
2. ipotesi di indipendenza: Verificare se due variabili nominali sono indipendenti

tra loro
3. verifica del modello: Verificare se una o due variabili si distribuiscono secondo

un modello predefinito
🔧 FORMULA DEL CHI QUADRATO:

La statistica del chi quadrato è la sommatoria degli scarti quadratici fra le frequenze
osservate (fo) e quelle teoriche attese (fe expected) ponderate sulle attese. Il suo
valore oscilla da 0 a infinito e aumenta all'aumentare degli scarti (fo-fe). Si elevano al
quadrato i residui in modo che le discrepanze in negativo non vengano compensate
da quelle in positivo (altrimenti si annullerebbero).
Ipotesi di equiprobabilità:
si impostano delle fe tutte uguali, si calcolano i chi quadrati e si sommano tra di loro,
il totale lo si confronta con il chi quadrato critico sulle tabelle in base ai gradi di
libertà: Ncelle -1
Precauzioni uso del chi quadrato:

Le osservazioni devono essere indipendenti tra loro (= ogni ‘caso’ del nostro
campione deve essere presente una sola volta, non devono esserci legami tra le
osservazioni)
Ciascun caso deve stare in una sola cella
Le frequenze attese non devono essere troppo piccole, seguire questa regola:
se d.f. = 1 → fe ≥ 5
se d.f. = 2 → fe ≥ 3
se d.f. ≥ 3 → una fe può essere uguale a 1, se tutte le altre sono ≥ 5
secondo alcuni, il numero di soggetti deve essere almeno 5 volte maggiore

del numero di celle
se queste frequenze attese non sono soddisfatte, bisogna raccogliere più dati,
oppure ridurre le categorie della tabella
Ipotesi di indipendenza tra due variabili:

verificare se due eventi sono indipendenti tra loro
si costruisce una tabella di contingenza
Il conteggio è semplicemente il numero di persone che troviamo in quella cella,

mentre il conteggio previsto fa riferimento al concetto di frequenza attesa. Nella
tabella troviamo anche i totali marginali di riga e di colonna: si tratta di quei valori
che si trovano al termine di ogni riga e di ogni colonna della tabella; questi valori
possono essere trasformati in percentuali e sono fondamentali per il calcolo delle
frequenze attese. La frequenza attesa è il conteggio teorico che ci aspettiamo di
trovare in ogni cella.
Per ogni cella della tabella di contingenza, dobbiamo calcolare la frequenza attesa,
basata sulla probabilità di due eventi indipendenti: si fa il prodotto delle probabilità
dei due eventi presi singolarmente. Dall'applicazione della regola dell'indipendenza
degli eventi si ricava una "regoletta" per il calcolo dei valori teorici (fe):
🔧 FORMULA PER LE FE NELLE TABELLE DI CONTINGENZA IPOTESI

INDIPENDENZA:
Si parte dai totali marginali e si divide per il totale o numerosità, trovate le fe si
procede con la formula del chi quadrato come di consueto decidendo se accettare o
meno H0 (che le due variabili siano indipendenti)
gdl: (r-1)(c-1)
I residui sono dati dalla differenza tra frequenze osservate e frequenze attese; il
ragionamento è il seguente: se le due variabili sono indipendenti, la differenza tra le
due frequenze sarà piccola e le frequenze osservate saranno simili a quelle teoriche,
fatta eccezione per limitate fluttuazioni casuali. Se invece in molte celle la differenza
tra frequenze osservate e frequenze attese è grande, allora è probabile che le due
variabili presentino un'associazione.
Verifica del modello teorico:

calcolare le frequenze attese sulla base di un modello teorico: calcolare i chi
quadrati, sommare e confrontare sulle tavole: se il test è significativo si può
accettare l'H1 ovvero che la distribuzione è significativamente diversa dal modello
teorico, viceversa con l'H0 (il valore non si discosta significativamente dal modello)
Calcolare fe: totale*percentuale di categoria (per ogni categoria)
I residui: come approfondire le analisi

Per essere più specifici quando si osserva che le variabili sono in relazione, si
guardano i residui standardizzati (r) che sono calcolati per ciascuna casella di una
tabella:
🔧 FORMULA DEI RESIDUI STANDARDIZZATI (r)
Interpretazione dei residui
1. A partire da una tabella, l’interpretazione comincia con l’osservare se i residui di
ciascuna casella sono positivi o negativi:
residuo positivo: Il valore osservato è più grande del valore atteso (indica,
quindi, che ci sono più persone in quella casella di quelle che avevamo supposto
ci sarebbero state se non ci fosse stata associazione)
residuo negativo: Il valore atteso è più grande del valore osservato (indica che
ci sono meno persone di quanto ci saremmo aspettati)
2. Successivamente si considera la grandezza dei residui per vedere se la

differenza tra i valori osservati e quelli attesi è significativa. Per determinare la
significatività al 5%, il valore di ciascun residuo deve essere confrontato con
1,96 o – 1,96, quindi si usano 2 e – 2.
💡 CHI quadrato su SPSS: analizza → non parametrici → finestre di dialogo

legacy → chi quadrato.
💡 OUTPUT: prima tabella: ricapitolo dei dati descrittivi, seconda tabella:

tabella di contingenza vera e propria (è a due vie) sulle righe i livelli della
variabile inserita in righe e sulle colonne i livelli della seconda variabile
inserita sulle colonne. l'incrocio da la frequenza, terza tabella: test del chi
quadrato, osservare la prima riga dove c'è proprio il dato con i gl e la
significatività, quarta tabella: misure simmetriche ovvero indici dell'effetto
del chi quadrato
PHI: Indice di associazione e dimensione dell'effetto
(effect size)
χ2 ci dice se due variabili sono indipendenti oppure no, effettuando un test
probabilistico, ma non sappiamo quanto è forte la relazione, per misurare la forza
dell'associazione tra due variabili a livello nominale si usa l'indice phi
🔧 FORMULA INDICE PHI:
CAP7: Analisi fattoriale

L’analisi fattoriale è un metodo matematico-statistico per individuare delle variabili
latenti. un insieme di metodi statistici che consente, a partire da un set di variabili
osservate (per esempio, una serie di item di un questionario), di estrarre un numero
limitato di variabili latenti o sottostanti, al fine di riassumere i dati iniziali in un
modello semplificato e sintetico, capace però di contenere le informazioni del set
partenza e di rappresentarne al meglio la variabilità. Si tratta quindi di una
metodologia che ha l’obiettivo di descrivere le molte variabili osservate in funzione di
poche variabili latenti, ossia non direttamente osservabili, chiamate fattori o
componenti, che si suppone raggruppino parte della variabilità osservata negli item.
Attraverso l'analisi fattoriale si riesce a descrivere la variabilità delle variabili

osservate in maniera più parsimoniosa e prestando attenzione all'interpretabilità
delle relazioni tra le variabili, ma si perde un po' in precisione: la variabilità che i
fattori comuni non riescono a catturare viene chiamata errore o unicità.
Tipi di analisi fattoriale

AF esplorativa (AFE): quando si parte dai dati empirici senza avere un'ipotesi
del numero di fattori latenti che sottostanno alle variabili analisi; la forma del
modello è decisa da un algoritmo e l'obiettivo è accorpare le variabili. All'interno
di questa categoria ricadono alcuni modelli di AF, come l'analisi delle
componenti principali e l'analisi dei fattori comuni.
AF confermativa o confermatoria (AFC): quando si parte da un'ipotesi sul

modo in cui i fattori latenti descrivono il set di variabili e l'obiettivo è quello di
confermare e verificare il modello teorico; in questo caso la forma del modello è
decisa dai ricercatori.
Funzionamento
Alcuni concetti sono utili per ogni tipo di analisi fattoriale, indipendentemente dalle
differenze tecniche tra queste tipologie. AF esplorativa e AF confermatoria hanno
direzioni diverse ma la medesima origine: una matrice di correlazione tra le
variabili osservate. Il punto di partenza di un’analisi fattoriale è una matrice di
correlazione (calcolata mediante il coefficiente r di Pearson), mentre quello di arrivo
è costituito da una matrice fattoriale, ovvero una misura delle relazioni tra le
variabili osservate e i fattori latenti. Lo scopo dell’analisi fattoriale può essere definito
anche come l’estrazione di un numero ristretto di fattori che riproducano al meglio la
matrice di correlazione osservata. L'idea è che le variabili osservate correlino perché
condividono un fattore sottostante; si cerca quindi di creare delle nuove variabili (i
fattori) che combinino le variabili osservate molto correlate fra loro e separino le
variabili non correlate fra loro.
Le correlazioni tra le variabili osservate e fattori latenti sono chiamate pesi fattoriali
o saturazioni fattoriali. L’obiettivo dell’analisi fattoriale consiste nell’individuazione
di una soluzione fattoriale in cui ciascuna variabile osservata correli o saturi bene su
un solo fattore e correli o saturi poco o per nulla sugli altri fattori.
Potremmo illustrare i principi base di tale analisi attraverso un'analogia con una
tavolozza da pittore: abbiamo a disposizione solo i tre colori primari, rosso, giallo e
blu, ma sappiamo che mescolando i colori primari possiamo ottenere un numero più
elevato di colori secondari (ed eventualmente terziari), che possono avere a loro
volta molte sfumature. Questo numero elevatissimo di colori ha alla base i tre colori
primari utilizzati inizialmente nella tavolozza; i colori primari rappresentano quindi i
fattori e quelli secondari e terziari le variabili osservate. L’analisi fattoriale
consente dunque di risalire ai colori primari partendo da quelli secondari e
terziari osservati. Tuttavia un colore derivato può contenere più pigmento di un certo
colore primario e meno pigmento di un altro colore primario (per esempio, il rosa
contiene rosso ma non giallo); può esistere cioè una "saturazione" maggiore o
minore di un certo colore su ciascun pigmento. La soluzione fattoriale migliore si
ha quando ogni colore derivato satura bene su un solo colore primario.
In tutte le varianti di analisi fattoriale il fine è quello di estrarre una serie di fattori che
siano al “centro” dell'insieme di variabili. Applicando la rappresentazione vettoriale
possiamo rappresentare due variabili x e v come dei vettori. Il fattore comune deve
cercare di rappresentare al meglio la variabilità delle due variabili, per questo
possiamo immaginare che si debba trovare al centro rispetto a x e v, in modo da
minimizzare contemporaneamente l’angolo con x e v. Dato che più l’angolo è
piccolo più la correlazione è alta, il miglior fattore sarà quello che massimizzerà le
correlazioni con le variabili osservate.
Se si hanno più di due variabili il fattore cercherà di porsi in mezzo a tutte ma

ovviamente le correlazioni con il fattore saranno differenti per le diverse variabili.
Dato che la correlazione al quadrato indica la varianza condivisa, possiamo anche

dire che il miglior fattore è quello che meglio cattura la varianza condivisa tra le
variabili; la varianza spiegata dal fattore sarà la somma delle varianze che
condivide con ogni singola variabile, ovvero la somma dei quadrati delle correlazioni
tra variabili e fattori.
La varianza spiegata dal fattore è data dalla somma del quadrato della correlazione
tra fattore e variabile 1 + il quadrato della correlazione tra fattore e variabile 2 + il
quadrato della correlazione tra fattore e variabile 3, e così via. La quantità di
varianza spiegata dal fattore è chiamata autovalore.
Tale fattore cercherà di spiegare quanta più varianza possibile ma non

necessariamente riuscirà a catturarla tutta; per questo motivo si può considerare di
estrarre più di un fattore dall'insieme di variabili.
Ogni soluzione fattoriale può essere rappresentata, oltre che geometricamente,

anche in una matrice numerica composta da:
il grafico degli autovalori, dove è elencata le quantità di varianza spiegata da

ciascun fattore;
la tabella delle saturazioni, dove sono presentate le correlazioni tra gli item e
ciascuno dei fattori estratti.
Analisi fattoriale esplorativa
Serve per esplorare l’esistenza di una o più variabili latenti (quindi non osservate)
che si manifesta tramite le risposte a variabili osservate
Tutte le X (ma in grado diverso) partecipano ai fattori (che possono anche essere
correlati fra loro).
Le variabili osservate sono
le risposte di un questionario (per misurare i tratti latenti)

oppure
le misurazioni complete, come i punteggi di test mentali o altre misurazioni (per

esplorare o esaminare la struttura delle variabili)
Due elementi fondamentali
1. saturazione (loading): La correlazione fra una variabile osservata (item) e la

variabile latente
2. Il numero e il tipo di fattore, che essendo latente, richiede un’interpretazione

da parte del ricercatore
Requisiti per AFE

I requisiti minimi da soddisfare prima di fare un'AFE sono i seguenti:
avere variabili misurate su scale a intervallo o rapporto;
le variabili dovrebbero seguire la distribuzione normale o almeno approssimarsi

a essa;
i valori anomali dovrebbero essere esclusi perché possono alterare le

correlazioni;
è necessario avere un campione cospicuo di soggetti (almeno 100-200).
Prima di concentrarci sull'esecuzione di un'AFE, è opportuno verificare la

fattorizzabilità della matrice di correlazione delle variabili. Perché un’analisi
fattoriale possa produrre dei fattori rilevanti è necessario che la matrice di
correlazione contenga valori elevati accanto ad altri di bassa entità; avremo quindi
sia variabili che correlano bene tra loro, che variabili che non correlano bene tra loro,
e questo potrebbe essere d'aiuto per ottenere una soluzione fattoriale semplice, in
cui ogni variabile satura bene su un solo fattore o praticamente semplice, in cui il
numero di variabili che non saturano bene (o che saturano su entrambi i fattori, se
ne sono stati estratti più di uno) è relativamente piccolo, circa meno del 10% del
numero delle variabili.
Le fasi di un’analisi fattoriale esplorativa

1. Scegliere il metodo di estrazione
2. Decidere il numero di fattori da estrarre
3. Scegliere il metodo di rotazione degli assi fattoriali (rotazione obliqua o

ortogonale)
4. Calcolare i punteggi fattoriali
1. Scegliere il metodo di estrazione (individuazione dei fattori da

considerare)
principali metodi usati

Componenti principali
1. Dall'output di SPSS a cui sono state chieste le statistiche univariate e la matrice

delle correlazioni, alte correlazioni sono un buon inizio per un'analisi fattoriale.
2. si definiscono e calcolano le comunanze: ossia la somma delle varianze comuni

fra fattori e variabili osservate, per ogni variabile osservata. La somma di queste
varianze (standardizzate) vale 1, per ogni variabile.
3. estrazione delle comunanze dalla tabella "comunalità": Con un numero di fattori

estratti uguale al numero delle variabili, le comunanze (somma dei quadrati delle
saturazioni) sono uguali all’unità. La somma dei quadrati delle saturazioni è
uguale alla varianza del fattore o autovalore. Con un numero di fattori estratti
uguale al numero delle variabili, la somma degli autovalori è uguale alla varianza
standardizzata delle variabili osservate (=N)
4. si guarda la matrice di componenti, che ha queste caratteristiche:
la somma dei prodotti delle saturazioni è uguale a zero
Le n variabili osservate sono scomposte in n componenti (inferite o latenti)
La somma dei loro quadrati per riga è uguale a 1 (=comunanza)
La somma dei loro quadrati per colonna è uguale all’autovalore (o varianza

del fattore)
La somma dei prodotti della riga r per la riga s è uguale al coefficiente di

correlazione fra la variabile r e la variabile s
La somma dei prodotti di una colonna s per una colonna r è uguale a zero (i
fattori sono indipendenti)
5. si osserva il grafico delle componenti dove sono rappresentate le saturazioni su

un grafico cartesiano
6. si devono poi ruotare gli assi per meglio interpretare...
Fattori iterati
Il metodo delle componenti principali è matematicamente corretto, ma

statisticamente improbabile. Spesso si ricorre a quest'altro metodo
1. Al posto delle comunanze, si inserisce il coefficiente di correlazione multiplo di

ogni variabile
2. Si calcolano gli autovalori e le saturazioni
3. Si ricostituisce la matrice delle correlazioni
4. Si ricomincia con l’estrazione dei fattori
5. Si ripete il ciclo, finche le saturazioni osservate sono uguali a quelle ottenute

con la soluzione precedente
Con i Fattori iterati, non si possono ottenere tanti fattori quante sono le variabili
osservate, poiché vi è una riduzione della covariazione (la matrice perde il suo
rango). SPSS stampa un avviso per avvisare che l’estrazione chiederà un numero
più basso di fattori.
Massima verosimiglianza
raramente usati
metodo immagine
fattorizzazione alfa
2. Determinare il numero di fattori
Ottenuta la matrice di correlazione e valutata la sua fattorizzabilità, si va a
determinare quanti e quali siano i fattori utili per spiegare la variabilità delle variabili.
Le diverse tipologie di AFE si differenziano per il metodo di estrazione dei fattori ma,
con un numero elevato di variabili, si equivalgono tutti. Una volta estratti i fattori,
bisogna individuare il numero di fattori da tenere. Tale decisione si basa
essenzialmente su tre criteri :
1. secondo il criterio Mineigen o di Kaiser-Guttman, sono da tenere solo quei

fattori con autovalore maggiore di 1; dal momento che l'autovalore indica la
quantità di varianza spiegata da quel fattore e che una variabile osservata
spiega sempre 1 (cioè sé stessa), tenere i fattori che hanno un autovalore
maggiore di 1 significa tenere i fattori che spiegano più di una variabile. Lo
scopo dell'analisi fattoriale è avere una descrizione sì accurata, ma sintetica e
parsimoniosa, e questo criterio ci permette di escludere tutti i fattori che non
risultano utili nello spiegare la variabilità delle variabili osservate;
2. secondo il terzo criterio è consigliabile estrarre un numero di fattori tale da

raggiungere almeno il 70 o 75% di varianza spiegata dalla soluzione fattoriale
(ovvero da tutti i fattori insieme) rispetto alla varianza totale
3. nello scree-test (o grafico decrescente degli autovalori) vengono

rappresentati su un piano cartesiano gli autovalori ordinati in base all'autovalore,
in modo tale da formare una retta; secondo questo criterio sono da tenere i
fattori che si elevano rispetto al punto di flesso.
Illustriamo nel dettaglio i tre criteri. Guardiamo per primo il grafico degli autovalori:
nella prima colonna troviamo i fattori estratti; nella seconda colonna, gli autovalori,
ovvero le quantità che indicano quanta varianza spiega quel determinato fattore;
nella terza colonna possiamo osservare la quantità di varianza spiegata espressa in
percentuale. Nell'ultima colonna, infine, abbiamo la quantità di varianza spiegata
cumulata, cioè sommata rispetto a più fattori. Per il primo criterio, di Guttman,
decidiamo di tenere i primi due fattori, che hanno autovalori di 4.96 e 3.74, entrambi
maggiori di 1. Notiamo poi che la percentuale di varianza spiegata dai due fattori
assieme supera il 75%, dal momento che insieme spiegano l'87% della varianza
totale (in particolare, il primo da solo spiega il 49.61% e il secondo il 37.42%).
Andiamo ora a osservare lo scree-test :
Se consideriamo di escludere il punto di flesso corrispondente al terzo fattore (come

indicato da Harman), allora lo scree-test ci conferma l'estrazione dei primi due fattori,
che esulano chiaramente dal resto della retta e si innalzano al di sopra del punto di
flesso. In alternativa, potremmo decidere di considerare anche il terzo fattore (il
punto di flesso) ma, dal momento che in questo caso l'autovalore del terzo fattore è
piuttosto basso (.53), è da preferire l'esclusione.
Metodi efficienti
Analisi parallela
Recentemente è stata sviluppata un nuovo metodo per la determinazione del

numero di fattori da considerare, l'analisi parallela. Tale analisi prova ad individuare
in modo meno soggettivo e più formalizzato rispetto allo scree-test la soglia al di
sotto della quale gli autovalori vanno considerati come rumore di fondo e non
varianza legata a dei “veri” fattori. L'analisi parallela calcola gli autovalori ottenuti in
dati casuali (in cui non ci sono fattori) con lo stesso numero di casi e di variabili
rispetto ai dati osservati. Viene quindi generato un numero sufficientemente ampio di
campioni casuali (per esempio, 100) su cui vengono calcolati gli autovalori. In questo
modo è poi possibile calcolare la media degli autovalori ottenuti nei diversi campioni
casuali e l'intervallo di confidenza intorno alla media. Il numero di fattori da estrarre
viene quindi determinato confrontando le medie degli autovalori casuali con quelli
osservati ed estraendo solo gli autovalori maggiori di quelli casuali. In genere,
qualunque sia il criterio utilizzato, si ritiene che il rapporto tra fattori e variabili
osservate debba essere, al massimo, di 1 a 3: non più di un fattore ogni tre
variabili osservate.
Consiste nel generare dei numeri causali, (per esempio punti zeta), uno per ogni
variabile osservata e per ogni partecipante.
1. Si estraggono tutti gli autovalori
2. Si ripete la simulazione molte volte (per es. 100)
3. La media del primo, secondo … kappesimo autovalore servono da confronto per

gli autovalori della matrice reale.
Interpretare i risultati:
Anziché la media, si prende in considerazione il 95° percentile, facendo un paragone

con la procedura di verifica di ipotesi. L’ipotesi nulla è sostanziata qui con la
distribuzione dei k-esimi autovalori: se il 95° percentile del k-esimo autovalore è
maggiore al k-esimo autovalore, allora lo si considera non casuale ma reale, e si
conserva il k-fattore. Se il k-esimo autovalore reale è inferiore al 95° percentile della
distribuzione dei k-esimi autovalori casuali, allora tale autovalore viene considerato
frutto del caso e il corrispondente fattore viene ignorato.
validità analisi parallela: Funziona molto bene, anche se non è entrata

completamente nell’uso. Disponibile con il software Jamovi e Mplus
Analisi delle componenti principali
L'analisi delle componenti principali (ACP) è una delle tipologie di analisi

fattoriale esplorativa. L’algoritmo dell'ACP estrae inizialmente tanti fattori quante
sono le variabili osservate; l’estrazione iniziale spiega il 100% della varianza delle
variabili, ma tale soluzione non è soddisfacente, dal momento che non può essere
considerata né efficiente né parsimoniosa. Si useranno quindi i criteri sopra illustrati
per decidere quanti e quali fattori tenere in modo possano rappresentare in maniera
efficiente le relazioni fra le variabili.
Nell'ACP i fattori sono formati come combinazione lineare (ovvero come somma
pesata) delle variabili. Il primo fattore è estratto in modo tale da massimizzare la
varianza spiegata rispetto a tutte le variabili, il secondo fattore è estratto in modo tale
da massimizzare la varianza non spiegata dal primo, mantenendo l'ortogonalità tra i
fattori. Le saturazioni fattoriali sono quindi calcolate per essere massimizzate, sotto il
vincolo che F1 e F2 siano ortogonali.
Scree test
È la rappresentazione grafica degli autovalori in forma canonica (i primi, più

importanti, sono sulla sinistra del grafico). gli autovalori connessi con i fattori reali e
non casuali hanno un andamento caratteristico a caduta. Quelli casuali degradano
lentamente.
Si estraggono solo quei fattori che sono sulla linea di caduta, e si trascurano quelli
che degradano lentamente.
Vantaggi: facile da utilizzare e molto usato
Svantaggi: non sempre è efficace e veritiero, a volte il pendio e la sua interruzione
non è individuabile con facilità.
Interpretabilità dei fattori estratti
E’ un criterio soggettivo, dipendente dalla natura degli item, dalla teoria soggiacente
e dalle conoscenze precedenti: si accettano i fattori che sono stati previsti e risultano
comprensibili e interpretabili. Pertanto il criterio è molto variabile e poco affidabile in
situazioni di autentica esplorazione.
Calcolo dei punteggi fattoriali in due subcampioni
Metodi inefficienti
Autovalore superiori a 1
Il criterio dovuto a Kaiser stabilisce che si possono accettare quei fattori che hanno
una varianza almeno uguale a una variabile standardizzata. Tuttavia il criterio è
molto debole e impreciso, perché tende a dichiarare buoni troppi fattori casuali. E’ il
criterio prestabilito (default) di Spss
Percentuale di varianza estratta
Non è un vero criterio, ma un modo molto impreciso per decidere di estrarre almeno,
per esempio, 40 o 60 o 80 % di varianza delle variabili osservate. Si usa raramente
e presenta il limite di non avere una vera giustificazione teorica.
Interpretazione delle saturazioni

Una volta estratto un numero limitato di fattori, si pone il problema di identificare
cosa essi rappresentino in termini di contenuto: quali dimensioni indicano i fattori
individuati? Per rispondere a questa domanda si andrà a guardare la matrice delle
saturazioni fattoriali; ricordiamo che la saturazione fattoriale indica quanto è alta la
correlazione tra il fattore e la variabile. La saturazione è considerata sostanziale
quando supera ± .35; interpreteremo quindi il fattore come quel costrutto, quel tratto
o quella dimensione che accomuna gli item con saturazione maggiore di ± .35.
Quando la soluzione è semplice (ogni variabile ha una sola saturazione sostanziale)
o praticamente semplice (il numero di variabili che saturano su più fattori o non
saturano bene su nessuno è relativamente piccolo), useremo gli item che meglio
saturano sul fattore per interpretarne il significato. Se la soluzione si compone di un
solo fattore estratto, tutti le variabili che non saturano bene su quel fattore devono
essere eliminate dall'analisi, in modo tale che la soluzione diventi semplice. Nelle
soluzioni con più di un fattore, invece, bisogna considerare le saturazioni di ogni
variabile su tutti i fattori: in una soluzione multifattoriale ogni fattore è interpretato
mediante il significato delle variabili che saturano fortemente su di esso e non
saturano per nulla sugli altri fattori; quando la soluzione multifattoriale presenta
variabili che non cadono chiaramente su un solo fattore, ma sono in posizione
interstiziale rispetto a più fattori si parla di soluzione complessa.
La matrice sopra presentata è un esempio di soluzione complessa, dato che tutte le
variabili considerate saturano bene su entrambi i fattori estratti (con saturazioni da
.56 a |.89| per il primo fattore e saturazioni da .43 a .72 per il secondo). In casi come
questo, dal momento che abbiamo due fattori, possiamo può procedere con delle
rotazioni per rendere la soluzione multifattoriale semplice e migliorare il valore delle
saturazioni.
3. Scegliere la rotazione
una volta sul grafico, I due fattori non sono molto comprensibili. Però possono
essere modificati, (senza perdita di informazioni) per renderli interpretabili. Si può
scegliere una qualsiasi delle rotazioni proposte qui sotto (secondo dei criteri) al fine
di rendere le saturazioni fattoriali alte su un fattore e nulle sugli altri.
La rotazione massimizza le saturazioni con un solo asse di riferimento e agevola
l’interpretazione delle variabili latenti.
Criteri per scegliere la rotazione:
Interpretazione e verosimilitudine dei risultati
Facilità di interpretazione
Ipotesi di ricerca
Contenuto degli item
Rotazione obliqua (fattori correlati)
Quando la rotazione degli assi non mantiene rigidi (ortogonali) gli assi, i fattori non
sono indipendenti fra di loro, ma le saturazioni fattoriali sono più grandi e facilitano
l’interpretazione dei fattori. Si sceglie perchè in alcuni casi la rotazione ortogonale
non produrrebbe soluzioni ottimali in quanto le variabili risulterebbero troppo simili
tra loro
Oblimin
Promax: parte da una rotazione varimax ma permette di rendere obliqui (non più
perpendicolari) gli assi di riferimento. Ha il vantaggio che i fattori sono definiti in
modo più chiaro rispetto alla rotazione varimax. Ha lo svantaggio che, a causa
dell’obliquità degli assi, i fattori non sono veramente indipendenti, e sono quindi
correlati fra di loro. Inoltre servono due matrici per comprendere la soluzione
fattoriale.
Rotazione ortogonale (fattori non correlati)
gli angoli di rotazione rimangono fissi.
Criteri:
1. una variabile dovrebbe essere molto satura di un solo fattore (r > 0,40)
2. avere saturazioni nulle sugli altri fattori (r circa = 0)
Varimax: proposta da Kaiser. E’ la soluzione migliore perché si mantiene
l’indipendenza fra le variabili latenti.
Quartimax
una volta effettuata la rotazione, si moltiplica la matrice non ruotata per la matrice di
trasformazione
Ciascuna di queste decisioni ha influenza sul risultato finale e può risultare in

soluzioni molto diverse fra loro. La risoluzione finale ai dilemmi posti
dall’analisi fattoriale consiste principalmente nella bontà dei risultati finale, nella
qualità dell’interpretazione e nella validità psicologica dei risultati ottenuti.
Le relazioni tra fattori e variabili non possono essere espresse semplicemente dalle
saturazioni fattoriali dal momento che i fattori sono tra loro correlati. Tali relazioni
vengono quindi decomposte in due matrici di pesi:
la matrice di struttura mostra le correlazioni variabile-fattore semplici; i valori

indicano la correlazione tra variabile e fattore, inclusa quella parte di varianza
condivisa con altri fattori
la matrice dei modelli mostra le correlazioni parziali variabile-fattore; i valori

indicano la correlazione tra variabile e fattore, parzializzando ogni relazione con
altri fattori. La matrice dei modelli indica il contributo unico della variabile al
fattore, dunque useremo questa per interpretare le saturazioni della soluzione
ruotata.
La soluzione obliqua fornisce anche il valore della correlazione tra i fattori, in una
matrice di correlazione di componenti. Quando questa correlazione è bassa
(r<.20) la soluzione obliqua non conviene. Vi sono vari tipi di rotazione obliqua, come
la Oblimin e la Promax.
Punteggi fattoriali
Sono un tentativo di misurare e stimare (non calcolare) i fattori latenti, usando i
punteggi delle variabili osservate
Sono stati proposti molti modi, riconducibili a tre tipi:
Punteggi indipendenti o non correlati fra loro (Anderson Rubin)
Punteggi correlati (regressione o Bartlett )
I primi due si basano sui metodi della regressione multipla: si calcolano i coefficienti
beta da applicare alle variabili per stimare la variabile latente
Punteggi approssimati
Il terzo metodo si basa su un’approssimazione: si prendono i punteggi delle variabili

osservate che hanno saturazioni elevate con una variabile latente e si fa la loro
media.
Analisi fattoriale confermativa

Solo alcune X contribuiscono ai Fattori (variabili latenti)
Dall’analisi fattoriale di un insieme di variabili osservate (item di un questionario,

misure psicometriche eseguite con vari test) si ottiene una matrice fattoriale, ossia
una matrice di correlazioni fra le variabili latenti e le variabili osservate, che devono
essere interpretate. Se la soluzione trovata è ritenuta soddisfacente e adeguata, si
possono stimare i punteggi fattoriali, che sono le coordinate di ciascun partecipante
su ciascuna dimensione latente, espresse in punti zeta.
Analisi fattoriale: spiegazione lab SPSS

Rappresentazione della realtà basata sui dati che abbiamo
Consiste in un certo numero di tecniche statistiche con lo scopo di semplificare
insieme complessi di dati: produrre una matrice, i punteggi fattoriali, che abbia
correlazione più simile possibile con le matrici di dati originali.
SCOPO: ridurre le dimensioni dei dati originali cercando di spiegare il più possibile
della varianza (principio di parsimonia), si scoprono dei fattori sottostanti alla
correlazione tra alcune variabili, ci serve per andare ad esplicitare qualcosa di cui
non abbiamo il "termometro" e quindi, estrarre dei fattori che sono costrutti
psicologici che non ho altro modo per misurare
esempio: come si spiega l'empatia? non la puoi misurare, puoi prendere una serie di
item assieme che ci indica che la correlazione forte con questi item, allora il fattore
sottostante empatia ha senso di esistere.
passaggi pratici:
scegliere metodo di fattorizzazione
scelta numero di fattori
se serve ruotare
Metodo di fattorizzazione
più usati:
analisi delle componenti principali
analisi dei fattori comuni
si differenziano in base a come estraggono i fattori, ma per un grande numero di dati

le differenze non sono così grandi
Analisi delle componenti principali (ACP):

parte dalla comunalità del 100% (varianza iniziale presa in cosiderazione per l'analisi
fattoriale), mette insieme gli item ed estrae i vari componenti (c1, c2, c3 ecc)
ognuno di questi fattori è correlato zero con gli altri: sono tra loro ortogonali ed
estrae in maniera decrescentene, tante volte quante sono gli item
quanti fattori estrarre? si decide con un metodo (qua si comincia a fare qualcosa in
spss)
autovalore maggiore di 1 o mineigen
ogni item ha un punteggio nella prima colonna: l'autovalore, che è la varianza

spiegata da un fattore. non prendere in considerazione le componenti che spiegano
meno di un item.
scree test
metodo grafico decrescente sugli autovalori (salto tra la prima e la seconda

componente). sistema il difetto del menigen che non ci dice che la piccola differenza
tra gli autovalori minori o maggiore di uno è effettivamente diverso statisticamente
interpretabilità dei fattori
Rotazioni
Semplice o complessa da interpretare a livello di dati? si guarda la matrice di
saturazione che restituisce correlazioni tra componente o fattore e gli item.
Metodo più semplice per capire: maggiore .35 è una buona saturazione, se tutti gli
item correlano bene con tutte le componenti, cosa è davvero fattore di quello che
stiamo cercando? è una soluzione complessa quando più del 10% degli item sono
complessi ovvero che non si capisce bene la saturazione perchè l'item correla bene
con entrambe le componenti (non va bene, lo deve fare uno alla volta)
Quando la soluzione è complesssa bisogna applicare la rotazione
la rotazione ci permette di correlare bene solo su uno dei due fattori così da facilitare
interpretazione. Massimizzo le correlazioni di un fattore minimizzandole sull'altre,
semplifico scegliendo tra le soluzioni quella che fa vedere più chiaramente
l'interpretazione dei fattori
rotazioni ortogonali e oblique: la prima mantiene la correlazione zero tra gli item
mentre l'obliqua no, la seconda assume che le varie componenti sono correlate tra
loro (più probabile trovare soluzioni oblique)
La scelta viene fatta con il grafico dei pesi fattoriali, a livello pratico invece si fa quasi
sempre l'obliqua (oblimin)
💡 SPSS: analizza → riduzione delle dimensioni → fattore → inserisco i miei

10 item e poi si va nella casella "estrazione" da cui si può scegliere il
metodo (default componenti) poi mettere grafico "scree" e già selezionato
menigen. poi si va in opzioni si può ordinare per dimensione ed eliminare
coefficienti piccoli (toglie dalla visualizzazione quelli più piccoli di .35,
glielo devo dire nel minibox sotto che di default ha .10). La rotazione
invece si fa in un secondo momento perchè dobbiamo capire se la
soluzione è mono, bi o multidimensionale e se è semplice o complessa
💡 OUTPUT: tabella comunalità: riepilogo che ci dice quella varianza iniziale

e quella post estrazione, tabella varianza totale spiegata: capire qual è
la soluzione ottimale con autovalore maggiore di uno ( a due fattori se due
sono maggiori di uno e via dicendo), guardo la cumulata per dire quanta
varianza si spiega con i due o più fattori. Grafico scree ci dice cosa
decidere, può essere anche solo un fattore e quindi poi in matrice dei
componenti si va a togliere l'altro. Se invece scelgo una soluzione a due,
si va a fare la rotazione dati i diversi item complessi (devono essere più
del 10%). Per ruotare si rifà l'analisi fattoriale andando anche in
"rotazione" scegliendo sempre prima la "oblimin" vado a vedere la matrice
di correlazione delle componenti, se è meggiore di .20, affermo che la
miglior soluzione è quella obliqua altrimenti sarà per forza ortogonale.
CAP8: Il punteggio ottimale
Un metodo matematico-statistico per dare un valore numerico a qualsiasi categoria
che faccia parte di una potenziale scala di misurazione. Si applica a scale ordinali e
nominali (ma anche a intervalli se non sono troppo numerosi). Produce una
quantificazione in punti zeta di ciascuna modalità di ciascuna variabile
Principio
Si basa sul principio che il punteggio totale serve per calibrare le singole risposte. A
loro volta, le singole risposte servono a calcolare il punteggio totale. Il procedimento
è iterativo e reciproco, e si arresta quando i risultati non cambiano dopo una
iterazione (si chiama anche Metodo delle medie reciproche)
Come si ottiene:
1. Si attribuisce il valore 1 a una modalità e zero alle altre, in ogni domanda
2. Si calcola la somma per ogni partecipante
3. Si standardizza il punteggio (punti zeta)
4. Si calcola per ogni domanda la media di chi ha risposto A,B,C. Il valore 1 A è

quindi la media del punteggio totale di coloro che hanno dato la risposta A alla
domanda 1, il valore 1B è la media del punteggio di chi ha dato la risposta 1B e
così via
5. Comincia l'iterazione: La risposta A alla domanda 1 che inizialmente aveva una

codifica pari a 0 oppure 1, adesso viene codificata con il valore 1A, ossia con la
media calcolata con il metodo appena detto.
6. Si riattribuisce la nuova codifica a tutte le risposte
7. Si calcola di nuovo il punteggio totale , la media di ogni categoria… e si

ricomincia da capo
8. Quando si finisce: L’iterazione produce dei valori che tendono a stabilizzarsi

dopo un certo numero di ripetizioni. Quando non si produce più cambiamento
nelle nuovo codifiche, si ferma l’iterazione
Cosa si fa dopo:
Poiché ogni modalità riceve una quantificazione numerica, tutti gli item della scala
sono utilizzabili come una scala a intervalli.
Si può calcolare sia il coefficiente alfa di Cronbach sia le correlazioni fra domande,
su cui si può ulteriormente applicare l’analisi fattoriale, per accertarsi che ogni item
contribuisca alla scala.
Se un item ha una saturazione bassa, non fa veramente parte della scala, e si può
eliminare. Dopo l’eliminazione di un item scadente, si ripetono i calcoli e si ottengono
nuove quantificazioni ottimali.
Si può inoltre applicare il metodo alle scale ordinali di tipo Likert già usate: per
verificare la reale congruenza fra posizione ordinale e quantificazione numerica a
priori
💡 SPSS: menù analizza → riduzione delle dimensioni → scaling ottimale.

Dopo aver scelto le variabili di analizzare, per ottenere le quantificazioni,
si clicca su output e si scelgono le variabili da visualizzare. Per ottenere i
grafici si clicca su "variabili" e si scelgono le variabili da visualizzare. Per
salvare: si possono salvare i punteggi fattoriali delle variabili latenti oppure
le variabili osservate ricodificate con il punteggio ottimale. Dopo aver
scelto le variabili di analizzare, per salvare il punteggio fattoriale si preme
su "salva punteggi dell'oggetto nel dataset attivo"
💡 OUTPUT: si osserva alfa di cronbach in "riepilogo del modello"
Perequazione dei punteggi
I punteggi ottimali, anche se hanno una media pari a zero e una varianza pari a 1,
non hanno necessariamente una distribuzione normale.
Per ottenere la distribuzione perequata, che segue cioè la distribuzione di frequenza

di Gauss, si possono residistribuire i punteggi, accumulandoli o rarefacendoli in
accordo con la curva gaussiana
💡 SPSS: menù trasforma → rango casi → selezionare variabile da

trasformare e poi clic su "tipo di rango". togliere la spunta da "rango"
poichè essendo un valore prestabilito non ci serve. mettiamo la spunta su
"punteggi normali" per avere i punteggi perequati
💡 OUTPUT: crea una nuova variabile perequata che si chiama con lo stesso
nome e in aggiunta la lettera N davanti. la corrispondenza fra i due
punteggi può essere più o meno forte e la relazione più o meno lineare
CAP9: La fedeltà di un test

Caratteristiche dei test psicologici
Sono uno strumento importantissimo nel lavoro degli psicologi
Hanno rilevanza enorme nella pratica professionale e nella ricerca pura e

applicata
Hanno delle caratteristiche uniche come strumenti di misura: la loro capacità di
dare informazioni e misurazioni utili non è mai scontata e la verifica è un
procedimento lungo e dispendioso, per le caratteristiche specifiche dei costrutti
psicologici che ne sono alla base.
Il loro uso presuppone anche la conoscenza teorica, oltre che pratica, di due
concetti fondamentali: la fedeltà e validità di una misurazione
Due fattori importanti di cui tenere conto per un test
1. Fedeltà o attendibilità: Proprietà di un test di fornire delle misurazioni prive di

errori di misurazione. è la quota di varianza vera che varia tra 0 e 1
2. Validità: Proprietà di un test di misurare realmente quella caratteristica per cui è

stato costruito (essere diagnostico)
Studio della fedeltà

può essere vista da due punti
1. Stabilità delle misurazioni nel tempo, correlazione dello stesso test

somministrato in due momenti diversi (una settimana a due mesi)
2. Stabilità della misurazioni negli strumenti
Per valutare la stabilità delle misurazioni

Sottoporre ad un test un gruppo di persone
Farlo ripetere dopo un certo periodo di tempo
Correlare i punteggi
Se la misurazione è perfettamente fedele, la correlazione dovrebbe essere

uguale a 1
Se la misurazione è del tutto inattendibile, la correlazione sarebbe nulla
Nella realtà la situazione è quasi sempre in posizione intermedia
Per valutare la stabilità attraverso gli strumenti

Divisione a metà del test (metodo Split- half): se il test dà una misurazione
coerente, il punteggio ricavato da una metà degli item deve essere altamente
correlato con il punteggio dell’altra metà
Per stabilire quanto è preciso un test, si può considerare questo ragionamento: Se lo
dividiamo in due parti equivalenti, i due punteggi dovrebbero essere correlati. Se il
test è molto affidabile, la correlazione è molto elevata, Se il test è poco affidabile, la
correlazione fra le due metà è bassa.
Il punteggio totale è complessivamente però più coerente di ciascuna delle due e

metà, e di questo fatto si deve tenere conto se si vuole considerare la correlazione
fra due forme come coefficiente di fedeltà
La formula profetica di Spearman-Brown ha questa funzione:
🔧 FORMULA DI SPEARMAN BROWN
Forme parallele: due test con uguali medie, varianze e fedeltà
Le forme parallele sono facili da costruire per alcuni temi ( es. sommare numeri di
due cifre) ma più difficili per altri (test di ansia: non si può
descrivere l’ansia in modi infiniti). Hanno un senso e un’importanza più teorica che
pratica. I test costruiti per essere utilizzati in due momenti diversi (per es. dopo un
trattamento), si chiamano forme alternative o equivalenti.
Per sviluppare la teoria, occorre proporre una distinzione
punteggio vero: è il punteggio ideale, quello perfetto senza errore (osservato-

errore)
punteggio osservato: il punteggio che si prende dalla performance al test, esso

predice o stima il punteggio vero (vero+errore)
errore: errore che si fa per il solo atto di misurare
Teoria della fedeltà

Tre assunti:
1. Gli errori tendono ad annullarsi reciprocamente, per natura degli item, per
occasioni, per persone, per somministratore (Altrimenti si deve parlare di errore
sistematico). La media degli errori è nulla
2. Ripetendo la misurazione, gli errori commessi la prima volta ricadono su altre

misurazioni, e non sulle stesse. Due misurazioni hanno errori indipendenti
3. Il punteggio vero è indipendente dall’errore. Un punteggio alto può avere un

errore alto, medio o basso, un punteggio medio o basso uguale...
🔧 FORMULA COEFFICIENTE DI FEDELTA
Fonti di errore
1. Caratteristiche personali (motivazioni, condizioni fisiche, di salute, ecc.) che non
si possono eliminare
2. Esaminatore (più importanti per la somministrazione individuale e la siglatura

che per quella collettiva); Valutazioni individuali dell’esaminatore
3. Contenuto del test item di varia natura, (se gli item fossero diversi il punteggio
potrebbe essere diverso)
4. Tempo fra due misurazioni (le discrepanze sono dovute al caso o a effettivi
cambiamenti?)
5. Altre situazioni: Ambiente (poca luce, troppo freddo, troppo caldo, ecc.), errori
nel voltare le pagine, Istruzioni scadenti, domande complicate, possibilità di
tirare a indovinare ecc
Calcolare la fedeltà ad oggi:

Esiste un modo più efficace per calcolare la fedeltà di una misurazione psicologica,
ed è il coefficiente alfa di Cronbach
Il coefficiente alfa di Cronbach
Dalla derivazione della formula di Spearman-Brown, diversi autori hanno proposto
ulteriori generalizzazioni e sviluppi, condensati nella formula del
coefficiente alfa di Cronbach, che utilizza direttamente le varianze e covarianze degli
item di un test per stabilire il coefficiente alfa di fedeltà
🔧 FORMULA COEFFICIENTE ALFA DI CRONBACH
n: numero di item in un test

si^2: varianza dell'item i
st^2: varianza del test intero
Caratteristiche del coefficiente alfa

Varia da 0 a 1
E’ la media di tutti i possibili coefficienti split-half
Rileva l’omogeneità dei punteggi, ma non la loro unifattorialità (presenza di una

sola dimensione)
Rappresenta la quota della varianza del punteggio vero
Non rappresenta la quota (o percentuale ) di persone il cui punteggio è privo di

errore
Su cosa si basa
Il coefficiente alfa si basa su un confronto fra:
somma delle varianze dei singoli item di un test
somma di varianze e covarianze degli item (che formano il punteggio totale)
Indicazione di utilizzabilità del coefficiente alfa
< 0,65: inaccettabile
oltre 0,65: sufficiente

oltre 0,70: discreto
oltre 0,80: buono
oltre 0,90: ottimo
Limiti del coefficiente alfa

Le tendenze attuali mettono in luce le sue lacune e molti autori propugnano il ricorso
ad altri coefficienti di fedeltà, basati sul coefficiente omega, che utilizza le
saturazioni fattoriali della scala, per produrre una misurazione più precisa.
💡 SPSS: analizza → scala → analisi di affidabilità. premere oltre in sezione

"statistiche" e selezionare "scala se elemento è eliminato"
💡 OUTPUT: in tabella "statistiche elemento-totale" un buon item ha

un'elevata correlazione positiva (maggiore di 0,3) con il punteggio totale
del test. Un buon item se eliminato, abbassa il coefficiente alfa. Se lo
innalza invece è meglio scartarlo
RIPASSO
Plus di ripasso: verifica di ipotesi
campionamento: selezioniamo un sottoinsieme della popolazione, per fare la
ricerca
inferenza: usiamo le informazioni ottenute dal campione per fare delle

supposizioni sulle caratteristiche della popolazione. Da qui la statistica
inferenziale che utilizza le informazioni tratte dal campione per fare delle
affermazioni più generali riguardanti la popolazione
Obiettivi della statistica inferenziale:
1. stima: si vuole indicare valori plausibili per un parametro della popolazione.
Dato che non possiamo contattare tutta la popolazione, individuiamo un
campione rappresentativo e sulla base dei dati stimiamo il parametro della
popolazione
stima puntuale: un valore definito
stima intervallare: un intervallo entro cui, verosimilmente, il parametro sia

incluso
2. verifica di ipotesi: indicare quale tra due specifiche ipotesi sul parametro (nulla
o alternativa) sia da accettare
Verifica di ipotesi:
ipotesi: affermazione di carattere generale relativa ad un fenomeno, osservabile
direttamente o indirettamente nel mondo fisico
Un’ipotesi scientifica deve poter essere testata empiricamente, facendo un confronto
tra:
i dati provenienti dall'osservazione empirica
le aspettative basate sull'ipotesi
Processo di verifica delle ipotesi:

1. Riformulare il quesito in termini di ipotesi nulla e ipotesi alternativa relative
alla popolazione (o alle popolazioni) d’interesse
ipotesi nulla (H0): nella popolazione, un certo fenomeno non influenza una
determinata caratteristica, quindi non si verifica nessun effetto
ipotesi alternativa o di ricerca (H1): nella popolazione, un certo fenomeno

influenza una determinata caratteristica
2. Determinare le caratteristiche della distribuzione di riferimento ovvero la

distribuzione dei risultati se è vera l'ipotesi nulla
3. Determinare il valore critico nella distribuzione di riferimento ovvero i limiti
tali per cui se il nostro campione oltrepassa quei limiti, decidiamo che è poco
probabile che sia stato estratto dalla distribuzione di riferimento
4. Osservare il risultato ottenuto nel campione
5. Decidere se rifiutare l'ipotesi nulla
se rifiutiamo l'ipotesi nulla: i risultati sono a favore dell’ipotesi alternativa
se non rifiutiamo l'ipotesi nulla: diciamo che il risultato non è statisticamente

significativo
Criterio di significatività:
Quanto deve essere insolita la media campionaria per rifiutare H0? Il valore
convenzionale adottato dalla psicologia è il 5%, un valore che scegliamo a priori e si
chiama livello alfa di significatività
Questo 5% indica che, se è vera H0, la nostra decisione sarà corretta nel 95% dei
casi e sbagliata nel 5% dei casi, è il rischio che decidiamo di assumerci per poter
fare inferenze.
valore p: è la probabilità di ottenere un valore così estremo come quello osservato o

più estremo, se H0 è vera, è la probabilità di sbagliare rifiutando H0. Questo valore
per poter rifiutare H0 deve essere sempre minore del livello alfa (in certi casi p deve
essere addirittura minore di .01)
Controversia: significatività marginale
Logica sottostante alla verifica di ipotesi:

Quanto è probabile, data una certa H0, estrarre un campione come quello che
abbiamo?
se è poco probabile (alla luce dei dati raccolti) estrarre un campione come il
nostro, H0 viene rifiutata e accettiamo H1
Se, data H0 , è probabile estrarre un campione come il nostro, H0 non viene

rifiutata
Il significato di ‘probabile’ e ‘poco probabile’ sono stabiliti dal livello di significatività
Ipotesi alternativa mono e bidirezionale

bidirezionale (a due code): Sia valori eccezionalmente alti nel campione, sia
valori eccezionalmente bassi disconfermano H0. Si ha alfa dimezzato: .025 a
sinistra e .025 a destra, quindi solo valori molto estremi che possono capitare ad
entrambi i lati, permettono il rifiuto di H0
monodirezionale (a una coda): Solo valori eccezionalmente alti disconfermano

H0 oppure solo valori eccezionalmente bassi disconfermano H0. Si ha alfa intero
quindi valori un pochettino meno estremi disconfermano H0 perchè si ha tutta la
probabilità di .05 da un lato, aumenta perciò la potenza (ovvero la probabilità di
ottenere un risultato significativo se H1 è vera). Tuttavia è poco utilizzata perchè
se l'effetto va dall'altra parte non lo becchiamo più, il ricercatore deve perciò
avere un’ipotesi alternativa molto forte
Plus ripasso: Test t

si usano se la varianza è ignota: si può stimare la deviazione standard della
popolazione, sulla base del campione
La formula usata per il calcolo della varianza studiata nell’ambito delle statistiche
descrittive porta a una sottostima della varianza della popolazione (più grande di
quella del campione): è uno stimatore distorto, per ovviare a ciò si usa una formula
corretta
🔧 FORMULA STIMA DELLA VARIANZA:
La formula contiene la lettera s, anziché σ, ad indicare che non usiamo più il

parametro della popolazione (che non conosciamo): usiamo la statistica osservata
nel campione. Togliamo 1 così la numerosità diventa leggermente più piccola (e la
dispersione più grande) appunto perchè per quanto sia grande il campione, non
abbiamo la totalità degli individui che costituiscono la popolazione e quindi anche la
deviazione standard sarà leggermente meno precisa, togliendo 1 si ingrandisce un
pò la varianza della popolazione e ci si avvicina quindi di più alla sua vera varianza.
Proseguire con il calcolo dopo aver cambiato la formula:

1. Stimiamola deviazione standard della popolazione, sulla base del campione. Il
calcolo dell’errore standard si baserà su questa stima
🔧 FORMULA DELL'ERRORE STANDARD DEL CAMPIONE BASATO SULLA

STIMA DELLA DEV DELLA POPOLAZIONE:
1. La formula per il calcolo della distanza tra la media del campione e la media
della popolazione secondo H0 diventa:
🔧 FORMULA TEST T:
la statistica t non si distribuisce esattamente come z quindi non possiamo fare

inferenze statistiche usando la curva normale; per fare l’inferenza devo basarmi sulla
distribuzione di t...
Distribuzione t di Student:
è una famiglia di distribuzioni, che dipende dalla numerosità del campione
Esiste una diversa distribuzione t per ogni dimensione del campione
Più il campione è grande, più la distribuzione t è simile alla distribuzione normale

standardizzata
forma: a campana e simmetrica con media = 0 come nella normale
σ dipende dai gradi di libertà (g.l.): varianza è maggiore di 1 e tende a 1 al

crescere di N, per N che tende a infinito la distribuzione t tende alla normale
gradi di libertà:
il numero di valori che possono variare liberamente quando si calcola una statistica
su un campione ovvero quanta informazione è libera di variare prima di avere un
dato determinato
🔧 FORMULA DEI GRADI DI LIBERTA:

per un campione: g.l. = N - 1
Tipologie di t-test:
1. t-test a campione unico: per la verifica di ipotesi sulla media della popolazione
nel caso di varianza ignota
2. t-test per dati appaiati o campioni dipendenti: per il confronto tra le medie di
due campioni appaiati (o misure ripetute)
3. t-test per campioni indipendenti: per il confronto tra le medie di due campioni
indipendenti
💡 test-t con SPSS: analizza → confronta medie → selezionare tipo di test t.

OUTPUT: prima tabella statistiche campione singolo, seconda tabella:
punteggio t, gl, significatività, intervallo di confidenza
(in generale la procedura è la stessa che con i punti z solo che cambia di poco la
formula per calcolare t e poi sulle tavole per confrontare t critico bisogna guardare

anche i gradi di libertà)
Stima intervallare della media:

fornisce gli estremi di un intervallo entro il quale è plausibile che si trovi il parametro
d’interesse. Questo intervallo si chiama intervallo di confidenza
🔧 FORMULA INTERVALLO DI CONFIDENZA TEST T:
All’aumentare della probabilità che l’intervallo contenga μ, aumenta anche

l’ampiezza dell’intervallo e la media viene stimata in modo meno preciso
T-test per campioni dipendenti/appaiati/correlati o per

misure ripetute:
Vogliamo confrontare due misure che non sono indipendenti:
disegno pre-post
disegno entro i soggetti
coppie dipendenti
💡 OUTPUT t test campioni dipendenti su SPSS: prima tabella: statistiche

campioni (separatamente): media delle due variabili, numerosità,
deviazione standard ed errore standard. seconda tabella correlazione
campioni accoppiati: indice di correlazione di pearson (non è altro che la
grandezza dell'effetto della nostra correlazione) delle due variabili
assieme a numerosità e significatività del test. terza tabella test campioni
accoppiati: (per coppia): la media, deviazione standard, errore standard,
intervallo di confidenza, valore t, gradi di libertà e significato a due code
Test-t per campioni indipendenti o differenza delle

medie di due popolazioni:
i due risultati sono abbastanza diversi per poter affermare che provengono da due
popolazioni diverse e indipendenti o in realtà sono frutto della stessa distribuzione?

Si estraggono ripetutamente coppie di campioni dalle due popolazioni e calcoliamo
ogni volta la differenza tra le medie (X1–X2): distribuzione campionaria della
differenza tra due medie
Distribuzione campionaria della differenza tra due medie:

Le differenze oscillano intorno al valore (X1-X2) = 0
La distribuzione delle differenze è simmetrica rispetto allo 0
Abbiamo bisogno di stimare l’errore standard di questa distribuzione
🔧 FORMULA ERRORE STANDARD DELLA DIFFERENZA TRA DUE MEDIE:
calcolo t sulla base delle differenze delle due medie fratto l'errore standard della
differenza tra le medie appena calcolato
🔧 FORMULA GRADI DI LIBERTA PER T-TEST CAMPIONI INDIPENDENTI:

g.l. = df = N1 + N2 -2
💡 Test-t a campioni indipendenti su SPSS OUTPUT: equivarianze presunte

e non presunte (omoschedasticità o equivarianza) differenza errore
standard, test t, gl e significatività a che coda
Con intervallo di confidenza:

E’ possibile testare qualunque differenza di valore tra le medie.
esempio: H0: mu1 = mu2 + 5
🔧 FORMULA T-TEST CAMPIONI INDIPENDENTI CON DIFFERENZA MEDIE:

🔧 FORMULA INTERVALLO DI CONFIDENZA T-TEST CAMPIONI INDIPENDENTI
DIFFERENZA MEDIE:
Assunti sottostanti al t-test per campioni

indipendenti:
1. Le osservazioni all’interno di ogni campione sono:
indipendenti le une dalle altre: altrimenti analisi multilivello
indipendenti da quelle dell'altro campione: altrimenti t-test per campioni

appaiati
2. la variabile di interesse è distribuita normalmente all'interno di entrambe le

popolazioni: altrimenti test abbastanza robusto a violazioni di quest'assunzione
(statistica per ranghi)
3. le varianze delle due popolazioni sono uguali tra loro (assunto di

omoschedasticità): altrimenti t-test a varianze distinte. Se i due campioni
hanno numerosità simile (ll più grande è meno di una volta e mezza l’altro) si
può ignorare l'assunto, altrimenti t test a varianze distinte (cambia leggermente
la formula)
💡 omoschedasticità con SPSS: OUTPUT: equivarianze presunte o non

presunte, test di Levene per capire se sono significativamente diverse
Dimensione dell'effetto per t-test a campioni indipendenti:

🔧 FORMULA EFFECT SIZE T-TEST CAMPIONI INDIPENDENTI:

Le dimensioni convenzionali dell’effetto d sono le stesse già viste in precedenza:
0.20, 0.50, 0.80
Affidabilità e validità:
affidabilità: stabilità della misurazione, coerenza tra più misurazioni dello stesso
costrutto ottenute con lo stesso strumento.
validità: stiamo misurando effettivamente la cosa che vogliamo misurare (e non

qualcos’altro): lo strumento è diagnostico per ciò che vogliamo misurare
Correlazione e affidabilità:
utilizzando diversi metodi alla fine il calcolo dell'affidabilità si basa comunque sul
coefficiente di correlazione, la correlazione deve essere elevata (valore minimo
accettabile .70; meglio valori superiori a .80)
metodo test-retest: si misura due volte il costrutto con lo stesso strumento.

Coefficiente di attendibilità = correlazione tra i punteggi nelle due misurazioni
metodo delle forme parallele: si utilizzano due versioni equivalenti dello

strumento ma leggermente diversi
metodo split-half: si divide il test in due metà equivalenti e si calcolano i semi-

punteggi. Calcolo grado di correlazione dei punteggi parziali ma con Correzione
di Spearman-Brown
🔧 FORMULA CORREZIONE DI SPEARMAN-BROWN:

permette di stimare l’effetto che un accorciamento o allungamento di un test può
avere sul coefficiente di attendibilità
alpha di Cronbach o interitem consistency: considera tutti gli item come

misure del costrutto. Assunto di base: tutti gli item che compongono il
questionario misurano il costrutto nello stesso modo e poi si calcola alpha di
cronbach che può essere interpretato come la sintesi delle inter-correlazioni tra i
punteggi di tutti gli item
affidabilità tra i valutatori (interrater reliability): confronto tra i punteggi

assegnati da valutatori diversi. Si chiede a due esaminatori di attribuire i
punteggi alle stesse prove, in maniera indipendente (cioè separatamente). Si
correlano i punteggi ottenuti dei due esaminatori
Grado di attendibilità:
r < .60: inadeguato
.60 < r < .80: accettabile
.80 < r < .90: buono
r > .90: ottimo
Correlazione e validità:
Validità di uno strumento: è in grado di misurare quello che riteniamo esso misuri
modi di valutare:
Validità di facciata: non è una vera e propria forma di validità significa ‘se lo
strumento sembra valido’, è importante per il rapporto con il soggetto/cliente
Validità del contenuto: valutazione sul grado in cui i diversi elementi che
compongono uno strumento sono legati al costrutto che si vuole misurare. quello
che sta dentro è effettivamente quello che voglio misurare
Validità in rapporto a un criterio: correlazione tra la misura di cui si vuole

stimare la validità e una misura indipendente dello stesso costrutto. si chiamano
così a seconda che siano fatte contemporaneamente o dopo
validità concorrente: correlazione con una diversa misura dello stesso

costrutto. strumenti simili che dicono di fare la stessa cosa, devono correlare
altrimenti uno dei due non lo sta facendo di misurare la cosa specifica
validità predittiva: La misura è predittiva di comportamenti che sono

espressione del costrutto che sto misurando?

Validità di costrutto: valutazione del grado in cui la misurazione è coerente con
la teoria generale sul costrutto che vogliamo misurare. simile alla validità di
facciata fa riferimento alla letteratura scientifica che ci sta dietro
Dimensione dell'effetto (effect size) e analisi di

potenza:
Immaginando ci sia una differenza significativa tra i due gruppi, quanto è grande
questa differenza media tra i due gruppi?
Dimensione dell'effetto: misura standardizzata della differenza tra la media di due
popolazioni, ovvero l'ampiezza vera del fenomeno indagato nella popolazione.
per capire facilmente l'ampiezza dell'effetto, lo esprimiamo con un'unità di misura
standard, sempre la stessa: la deviazione standard
🔧 FORMULA DELL'EFFECT SIZE
Interpretazione del valore d:

effetto piccolo: d = 0.20
effetto medio: d = 0.50
effetto grande: d = 0.80
si ha così la potenza statistica: La probabilità che lo studio dia un risultato

significativo, se H1 è vera
💡 dimensione dell'effetto su SPSS: spuntare il checkbox quando la chiedono

nelle varie procedure (spesso è la d di cohen)

Analisi della potenza: 4 concetti fondamentali legati
tra loro
criterio di significatività (α): Il criterio per il rifiuto di H0. Corrisponde alla
probabilità di commettere un errore del I tipo
potenza statistica (1 –β): La probabilità di rifiutare H0 quando H0 è falsa
ampiezza del campione N:
dimensione dell'effetto nella popolazione (d): quanto è grande il mio effetto
Utilità dell'analisi della potenza:

Calcolare numerosità richiesta (N) per raggiungere una determinata potenza
statistica (1 –β), dati α e d. Quanti dati devo raccogliere perchè la mia ricerca abbia
senso?
1. l'ipotesi di ricerca deve essere specificata ( m = tot) non basta dire che deve
essere diversa da quella dell'altro campione. in altre parole si ipotizza un
determinato effetto
2. calcolare d sulla base delle due medie o stabilirlo a priori quello che voglio
3. individuare i valori di α (significatività) e (1 –β) ovvero potenza
α = 0.05 valore convenzionale
(1-β) = 0.80 valore convenzionale ma posso scegliere anche valori maggiori
numerosità ottimale si calcola anche con specifici software come G*power

Appunti Di Psicometria 2

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Di Psicometria 2

Caricato da

Copyright:

Formati disponibili

🎲

2. un valore: che risulta dall’applicazione di un algoritmo di calcolo (l’indice

Statistica descrittiva e statistica inferenziale:

inferenziale: Ha lo scopo di partire da un insieme di osservazioni per trarre

campione: è l’insieme dei “soggetti/oggetti” (estratto dalla popolazione) che si

indice statistico o statistica: è la sintesi “matematica” di un certo pensiero

costante: Una caratteristica che assume lo stesso valore in tutte le unità

unità statistica: la misurazione singola, un'osservazione, la cella singola del

Livelli di scale di misura:

2. ordinale: oltre a dividere in categorie possiamo mettere in ordine e quindi

3. a intervallo o intervalli equivalenti: oltre a poter mettere in ordine le categorie,

4. a rapporto: possiamo mettere in ordine le categorie e la distanza tra queste ha

Proprietà di cui tenere conto:

Ogni livello di misurazione superiore include le caratteristiche di quelli inferiori

E’ possibile abbassare il livello di misurazione, perdendo informazioni

Sinossi (esposizione sintetica e sistematica) delle quattro scale

semplice: contare semplicemente gli elementi. se si vuole fare la

cumulata o cumulativa (ogiva): è la somma delle frequenze di una data

Ranghi e ranghi percentili (indici di posizione)

Rango percentile o centile: esprime la percentuale di casi che ha un valore pari o

💡 Trasformazione in ranghi con SPSS: trasforma → rango casi → inserire la

Quando operiamo su tabelle di frequenza:

1. Suddividiamo i valori in tre fasce: inferiori, valore di riferimento, superiori

2. Individuiamo la posizione centrale del valore di riferimento (calcoliamo la

3. sommare: frequenze inferiori + posizione centrale del riferimento, si ottiene così

E il rango percentile? E’ la stessa quantità, espressa in percentuale: Rango trovato/

PH: rango percentile

Dopo aver ordinato i valori di una distribuzione si può suddividere l'intera

trovare l’intervallo di classe in cui il punteggio si trova;

calcolare la frequenza dell’intervallo di riferimento, di tutti gli intervalli inferiori e

trasformare le frequenze calcolate in percentuali dividendo le frequenze per la

conoscere il limite reale inferiore (LRI) dell’intervallo, ovvero il valore di mezzo

usare la seguente formula:

🔧 FORMULA PER CALCOLARE RANGO PERCENTILE

Calcolare il punteggio dato un percentile (p)

moltiplicare la percentuale per la numerosità;

🔧 FORMULA PER CALCOLARE IL PUNTEGGIO DATO UN PERCENTILE

Primo quartile = 25esimo percentile

Terzo quartile = 75esimo percentile

totali marginali: totali per riga e per colonna

totale complessivo: somma di totali marginali per riga e colonna

💡 tabelle di contingenza su SPSS: analizza → statistiche descrittive →

Distribuzione di frequenza per classi:

1. Il numero totale delle classi dovrebbe essere tra 8 e 15

3. Gli intervalli devono essere tutti della stessa ampiezza

4. Il punteggio più basso incluso in ciascun intervallo dovrebbe essere un multiplo

Un altro modo per rendere facilmente comprensibile un insieme di valori è

1. Per variabili nominali e ordinali: le barre dovrebbero essere separate l’una

1. Per variabili a intervallo e rapporto: le barre sono adiacenti perchè valori

asimmetrica: se non è speculare rispetto alla metà: indice di asimmetria

distribuzione rettangolare: se tutti i valori si presentano con frequenza più o

distribuzioni con uno o più picchi: unimodale, bimodale e multimodale

distribuzione normale o gaussiana: tipo di distribuzione simmetrica unimodale

leptocurtica: più allungata del normale, la frequenza nella parte centrale è

Heatmap: correlazione ampia

Dispersione e tendenza centrale

indici di variabilità (dispersione): varianza e deviazione standard

Indicatore di tendenza centrale:

Livello nominale: la moda il valore più frequente, può essere unimodale,

Livello ordinale: la mediana (il valore collocato al centro della distribuzione,

Livello intervallo e rapporto: la media (il baricentro, punto di equilibrio): è la

💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →

💡 indici di tendenza centrale su SPSS: analizza → statistiche descrittive →

💡 OUTPUT: media ritagliata al 5%, intervallo interquartile: differenza tra