Sei sulla pagina 1di 29

PSICOMETRIA I

1. INTRODUZIONI GENERALI………………………………………………..……..1
2. CENNI SUI TEST PSICOLOGICI……………………………………..………..…2
3. ATTENDIBILITÀ E VALIDITÀ…………………………………………..……….…3
4. MUTABILI, VARIABILI, FREQUENZA……………………………………….…...3
5. DIVERSI TIPI DI SCALE DI MISURA……………………………………...……..4
6. RAPPRESENTAZIONI GRAFICHE……………………………………….……...5
7. INDICATORI DI TENDENZA CENTRALE………………………………..………7
8. INDICI DI POSIZIONE: QUARTILI, DECILI E PERCENTILI ………….………8
9. INDICATORI DI VARIABILITÀ (O DI DISPERSIONE)……………………..…...9
10. CURVA DI GAUSS E INDICE DI ASIMMETRIA……………………………….10
11. STANDARDIZZAZIONE DELLE MISURE…………………………………...…11
12. DIAGRAMMI DI DISPERSIONE…………………………………………………13
13. COEFFICIENTI DI CORRELAZIONE…………………………………………..14
14. LA REGRESSIONE……………………………………………………………….16
15. COEFFICIENTE DI ATTENDIBILITÀ, DI EQUIVALENZA E FORMULA
PROFETICA DI SPEARMAN-BROWN………………………………….……...17
16. LA PROBABILITÀ………………………………………………………………...18
17. PERUTAZIONI, COMBINAZIONI E DISPOSIZIONI………………….…….…20
18. LA DISTRIBUZIONE BINOMIALE……………………………………………….21
19. LA DISTRIBUZIONE NORMALE O GAUSSIANA……………………………..22
20. DISTRIBUZIONE chi2……………………………………………………………..26
21. DISTRIBUZIONE F DI FISHER………………………………………………….26
22. DISTRIBUZIONE t DI STUDENT………………………………………………..26
23. VERIFICA DELLE IPOTESI……………………………………………………...27
1. INTRODUZIONI GENERALI

La psicometria è la disciplina che si occupa della misurazione delle variabili psicologiche e


della loro elaborazione in dati numerici, consentendo di quantificare le caratteristiche
psicologiche negli individui.

La misura delle caratteristiche psicologiche (chiamati anche costrutti psicologici) è in genere


indiretta, vale a dire non tramite l’assunzione diretta del dato, bensì per inferenza statistica
ovvero quel procedimento per cui si inducono le caratteristiche di una popolazione
partendo dall’osservazione di una parte di essa (il c.d. campione).

Pianificazione di una ricerca:


✗ il ricercatore pone un quesito partendo da una teoria o da un’esperienza soggettiva;
✗ il ricercatore formula delle ipotesi che possano rispondere al quesito;
✗ il ricercatore esegue dei test usando metodi di indagine statistica;
✗ il ricercatore raccoglie i dati, li elabora e li confronta con gli indici statistici, giungendo
a delle conclusioni.

 Il campione di ricerca deve essere rappresentativo della popolazione studiata, cioè


deve rappresentare le caratteristiche più importanti della popolazione stessa.

Definiamo frazione (o tasso) di campionamento il rapporto tra la dimensione del campione


n e la popolazione intera N.
𝑛
𝑓=
𝑁

1
2. CENNI SUI TEST PSICOLOGICI
● TEST COGNITIVI sono TEST di LIVELLO che misurano specifiche competenze:

✔ Test di ABILITÀ: misurano le capacità dei soggetti in ambiti specifici (es: logico,
matematico, verbale…). In genere consistono in una serie di problemi che il
rispondente deve risolvere individuando la risposta corretta. Tali test sono utilizzati
spesso in ambito scolastico.

✔ Test di INTELLIGENZA: misurano le capacità generali di ragionamento. Dati


da una serie di problemi a difficoltà crescente, il punteggio ottenuto da ciascun
rispondente viene poi confrontato con la sua età anagrafica o col gruppo di
riferimento.

✔ Test di PROFITTO: misurano il grado di padronanza delle cognizioni. Sono


costituiti da una serie di quesiti a cui il rispondente deve dare la risposta corretta.
Usate in ambito scolastico e lavorativo, i test di profitto si concentrano sulla
conoscenza dei contenuti e vanno distinti dai test di intelligenza e abilità perché
questi ultimi sono svincolanti dal livello culturale dell’individuo e misurano le
capacità in astratto.

✔ Test di ATTITUDINE: offrono una stima della performance futura di un individuo.


Si differenziano dai test di abilità, che rilevano le competenze presenti in dati
ambiti, in quanto mirano a prevedere la prestazione futura in certi compiti.

● TEST NON COGNITIVI sono i TEST di PERSONALITÀ e di ATTEGGIAMENTO.

✔ Test di PERSONALITÀ: non esiste una risposta giusta in termini assoluti, bensì
esiste la risposta che maggiormente si avvicina alla descrizione del proprio
comportamento o sentimento. Lo scopo è di misurare i tratti di personalità.
I test di personalità sono vari e diversificati tra loro.
Abbiamo l’intervista faccia a faccia, utilizzata soprattutto nella pratica clinica e nella psicologia
del lavoro. Può svolgersi tramite interviste strutturate, non strutturate o semistrutturate.
Abbiamo l’osservazione diretta del comportamento, in quanto l’assunto è che i tratti di
personalità regolano i comportamenti degli individui. Usato soprattutto negli studi dell’età
dello sviluppo.
Infine abbiamo i metodi proiettivi che, pur non essendo prettamente dei test psicometrici,
consentono di indagare caratteristiche di personalità profonde e inconsce dell’individuo.

✔ Test di ATTEGGIAMENTO: misura il grado di favore o sfavore verso un


determinato comportamento o oggetto.
Un metodo molto diffuso per la misura degli atteggiamenti è il differenziale semantico di
Osgood che si basa sull’uso di aggettivi bipolari, posti agli estremi di una scala graduata a 7
posizioni:
Es: come giudichi il servizio ospedaliero della tua regione?
Pessimo _ _ _ _ _ X _ Eccellente

Altra scala largamente usata è la Scala Likert che misura il grado di accordo con
un’affermazione:
Es: quando studi, leggi e ripeti?
Mai □ Raramente □ A volte □ Spesso □ Sempre □
Altre scale ormai cadute i disuso sono la Scala Thurstone (serie di affermazioni in cui il
rispondente deve indicare se è in accordo o in disaccordo con sì/no, favorevole/ contrario) e
la Scala Guttman (serie di affermazioni in ordine gerarchico di favore verso l’oggetto, dalla
meno condivisibile alla più condivisibile).

2
3. ATTENDIBILITÀ E VALIDITÀ
Ogni test deve soddisfare i requisiti di:
➢ ATTENDIBILITÀ: si riferisce alla precisione dello strumento utilizzato. Un test è
attendibile quando, ripetendo la misurazione distanza di tempo con il medesimo
strumento, si giunge al medesimo risultato.
Tuttavia, le misure non sono esenti da errori dovuti al caso, ecco perché si esprime la
formula dell’attendibilità come:
𝑋 = 𝑉+𝐸
Dove X è il dato osservato, V è la misura vera, E è l’errore. Chiaramente
minore è l’errore E, maggiore è l’attendibilità (in quanto la misura vera V si
avvicina al dato osservato X). A tal proposito esistono degli indici da 0 a 1, in cui il
valore 1 indica l’assenza di errore, ma vengono normalmente accettati anche valori con il
75% di punteggio vero V.
➢ VALIDITÀ: un test è valido quando misura ciò che intende misurare.
Nello specifico abbiamo:
• Validità di contenuto: quando gli item di un test devono coprire l’intera
definizione teorica de costrutto in esame;
• Validità di criterio: in particolare abbiamo la validità concorrente quando il
punteggio del test concorda con altre misure già validate dello stesso costrutto, e
la validità predittiva che indica la capacità del test di predire accuratamente la
prestazione nel dominio teorico cui il test appartiene;
• Validità di costrutto: è riferita alla corrispondenza tra il piano della ricerca e la
teoria di riferimento. Verifica se un punteggio al test misura il costrutto di interesse.
In particolare si parla di validità convergente quando è presente un alto grado di
accordo con altre misure fatte sullo stesso costrutto, e la validità discriminante
quando è presente un basso grado di accordo con altre misure di altri costrutti.

4. MUTABILI, VARIABILI E FREQUENZA


Le mutabili sono attributi che definiscono le caratteristiche di tipo qualitativo (es: colore degli
occhi, sesso si appartenenza, regione di provenienza, stato civile…)
Le variabili invece, sono attributi che possono assumere valori diversi all’interno di un
insieme di dati, e vengono misurate quantitativamente (altezza, tempo impiegato, numero di
volte...). Distinguiamo tra:
✗ variabili continue: quando assumono qualsiasi valore della serie numerica (es: altezza,
peso…)
✗ variabili discrete: quando assumono solo alcuni valori all’interno della serie numerica
(es: numero di stanze in una casa)
La frequenza è il numero di volte in cui si verifica in dato evento all’interno di una popolazione
o di un campione (nel caso delle mutabili) o quante volte si presenta un determinato valore
(nel caso delle variabili).
Va ricordato che la somma delle frequenze darà il numero n del campione:
Σ𝑓 = 𝑛
In alcuni casi, per una immediata comprensione dei dati o per confrontare diverse distribuzioni, è utili
trasformare la distribuzione di frequenza in percentuale:
𝑓100
f %= 𝑛

3
5. DIVERSI TIPI DI SCALE DI MISURA

SCALA NOMINALE: è una scala impropria, in quanto categorizza e raggruppa i soggetti


sulla base di mutabili (quindi caratteristiche non quantificabili).
Equivalenza tra i membri della stessa categoria
Proprietà formali
Non equivalenza tra membri di categorie diverse
La relazione di equivalenza è simmetrica e transitiva (se A=B e B=C, allora B=A e A=C);
La relazione di non equivalenza è simmetrica ma non transitiva (se A≠B, allora B≠A; ma se
B≠C, A può essere ≠ o = da C)
L’indicatore di tendenza centrale possibile è la moda.

SCALA ORDINALE: crea un ordinamento di rango e non di quantità vera e propria (A è


più grande di B, B a sua volta è più grande di C).
Equivalenza tra i membri dello stesso rango
Proprietà formali Non equivalenza tra membri di rango diverso
Relazione d’ordine tra i soggetti o oggetti
La relazione d’ordine è asimmetrica (se A>B non può essere che B>A) e transitiva (se A>B
e B>C, allora A>C).
Gli indicatori di tendenza centrali usabili sono la moda e la mediana. Si possono usare anche
i coefficienti di correlazione tra ranghi (coefficiente rs di Spearman e Ƭ di Kendall).

SCALA A INTERVALLI EQUIVALENTI: utilizza un’unità di misura costante e uniforme,


consentendo di fare operazioni algebriche basate sulla differenza dei punteggi.
Equivalenza tra i membri dello stesso intervallo
Proprietà formali Non equivalenza tra i membri di intervalli differenti
Relazione d’ordine
Costanza dell’unità di misura tra intervalli
La scala a intervalli equivalenti assume uno zero è arbitrario, perciò consente valori negativi.
Lo zero infatti, non viene attribuito all’elemento del sistema empirico nel quale la caratteristica
misurata risulta assente (es: zero intelligenza)

SCALA A RAPPORTI EQUIVALENTI: è il più alto grado di misura possibile. Simile alla scala
ad intervalli, differisce da questa perché in essa è possibile individuare lo zero assoluto,
ovvero quell’elemento del sistema empirico in cui la caratteristica misurata è ad intensità nulla
(es: zero peso).

Equivalenza tra i membri della stessa ripartizione


Proprietà formali Non equivalenza tra membri di ripartizioni diverse
Relazione d’ordine
Distanza e rapporto costanti

4
6. RAPPRESENTAZIONI GRAFICHE
IL GRAFICO A BARRE

✔ viene utilizzato per le mutabili (scala nominale, scala ordinale, variabili discrete)
✔ le barre sono divise
✔ base: sull’asse delle ascisse gli intervalli sono tutti di uguale ampiezza
✔ altezza: sull’asse delle ordinate abbiamo le frequenze o le f% (h=f o f%)

L’ISTOGRAMMA
✔ viene usato per variabili su scala a intervalli o a rapporti equivalenti
✔ variabili continue
✔ le barre sono adiacenti
✔ base: sull’asse delle ascisse abbiamo i limiti reali degli intervalli (classi)
✔ area: rappresenta la frequenza della classe
✔ sull’asse delle ordinate troviamo il valore che si ottiene dividendo ciascuna frequenza
per l’ampiezza dell’intervallo
✔ se l’intervallo della classe non varia da classe a classe allora è consentito
rappresentare in ordinata direttamente la frequenza (poiché sono proporzionali
all’altezza)

5
POLIGONO DI FREQUENZA
✔ viene usato per variabili su scala a intervalli o a rapporti equivalenti
✔ sull’asse delle ascisse abbiamo Xc
✔ sull’asse delle ordinate:
• se classi di stessa ampiezza: h=f
• se classi di ampiezza diversa: h= f/b

6
7. INDICATORI DI TENDENZA CENTRALE

Gli indicatori di tendenza centrale consentono di sintetizzare in un valore


rappresentativo un insieme di misure.

MODA (Mo): corrisponde al valore più frequente nella distribuzione di dati osservata. È
applicabile alla scala nominale, ordinale, a intervalli equivalenti e a rapporti equivalenti.

MEDIANA (Me): corrisponde al valore che occupa la posizione centrale in una distribuzione
ordinata; il valore al di sopra o al di sotto del quale cade il 50% dei casi, poiché divide a metà
un insieme ordinato di dati. È applicabile alla scala ordinale, a intervalli equivalenti e a rapporti
equivalenti.
Per trovare il valore della mediana Me:
1) ordinare i dati, o le categorie, in ordine crescente
2) calcolare fcum (frequenze cumulate)
3) trovare la posizione della mediana tramite PosMe (Attensione!!! Qui si trova solo la
posizione, non il valore corrispondente!!!)
4) se n è dispari la Me è facilmente individuabile
5) se n è pari la Me cade in un punto intermedio tra due valori (fare M dei 2 valori)
6) calcolare la Mediana tramite Me se abbiamo raggruppamenti in classi

N al numeratore (invece di N+1) quando N>30 sia quando la distribuzione è


raggruppata in classi di frequenza (anche se classi di ampiezza 1)
 i= ampiezza della classe
 Xll = limite inferiore della classe
 fllcum = fcum della classe precedente alla Me

MEDIA (M, 𝑿 ̅ ): è la media aritmetica data dalla somma delle misure osservate diviso il
numero di osservazioni. Corrisponde al valore intermedio tra il maggiore e il minore dei valori
osservati. È applicabile alle scale a intervalli o a rapporti equivalenti.

7
8. INDICI DI POSIZIONE: QUARTILI, DECILI E PERCENTILI

Oltre alla mediana (che divide a metà un insieme di dati ordinati) esistono altri indici di
posizione che suddividono l’insieme di dati ordinati in un dato numero di parti uguali.

QUARTILI: suddividono l’insieme di dati ordinati in 4 parti, per cui avremo Q 1, Q2, Q3.

In analogia al calcolo della Me, per il calcolo dei Qj si procederà come segue:
1) ordinare i dati, o le categorie, in ordine crescente
2) calcolare fcum (frequenze cumulate)
3) trovare la posizione Qj tramite PosQj e vedere nella colonna x a quale valore
corrisponde
4) calcolare il valore di Qj tramite formula se raggruppamento in classi
Le formule da applicare per trovare la posizione e poi il valore corrispondente sono:

 N al numeratore (invece di N+1), sia quando N>30 sia quando la distribuzione è


raggruppata in classi di frequenza (anche se classi di ampiezza 1)

DECILI: suddividono l’insieme di dati ordinati in 10 parti.


Le formule da applicare per trovare la posizione e poi il valore corrispondente sono:

 N al numeratore (invece di N+1), sia quando N>30 sia quando la distribuzione è


raggruppata in classi di frequenza (anche se classi di ampiezza 1)

CENTILI: suddividono l’insieme di dati ordinati in 100 parti.


Le formule da applicare per trovare la posizione e poi il valore corrispondente sono:

 N al numeratore (invece di N+1), sia quando N>30 sia quando la distribuzione è


raggruppata in classi di frequenza (anche se classi di ampiezza 1)

8
9. INDICATORI DI VARIABILITÀ (O DI DISPERSIONE)

Gli indicatori di dispersione o variabilità descrivono sinteticamente in che misura i valori


della distribuzione di dati sono distanti da un valore centrale.

CAMPO DI VARIAZIONE: è il più semplice indice di variabilità dato dalla differenza tra il
valore massimo e il valore minimo di una distribuzione di dati.

COEFFICIENTE DI VARIAZIONE: è un indice di variabilità relativa che consente di


raffrontare misure di fenomeni riferite a unità di misura differenti. Sintetizza la dispersione dei
punteggi usando come unità di misura la media dei punteggi stessi:
𝑠
𝐶𝑉 = 100
𝑥̅

SCARTO SEMPLICE MEDIO (SSM) o scarto medio assoluto: è la media delle differenze
(in valore assoluto) dalla media aritmetica della distribuzione:

VARIANZA (S2, σ2, VAR): è la media del quadrato degli scostamenti dalla media aritmetica:

SCARTO QUADRATICO MEDIO (S, σ, SQM) o deviazione standard (DS): è la radice


quadrata della varianza. Molto usato perché è più facilmente confrontabile con la stessa
media rispetto alla varianza che è un indice quadratico.

9
10. CURVA DI GAUSS e INDICE DI ASIMMETRIA

La distribuzione normale o curva di Gauss è la curva della probabilità più usata nell’analisi
statistica perché descrive con buona efficacia gran parte dei fenomeni naturali.
 Ha una caratteristica forma a campana
 Simmetrica rispetto alla media e unimodale (ossia una unica moda)
 L’area complessiva sotto la curva è pari a 1.
 Le probabilità più elevate di un fenomeno si concentrano intorno alla media, e le
probabilità si riducono man mano che ci si allontana dal valore medio verso destra o
verso sinistra.
 Nella curva gaussiana Media, Mediana e Moda coincidono
 È applicata a variabili continue

I due parametri che caratterizzano posizione e forma sono media (μ) e varianza (σ).
A volte tuttavia, la distribuzione dei valori può assumere anche forma e posizione differenti
rispetto alla curva ideale di Gauss.

Questo perché la moda, la mediana e la media non coincidono fra di loro.


Esistono 2 tipi di asimmetria, quella positiva (con una coda più lunga a destra rispetto al
valore centrale) e quella negativa (con una cosa più lunga a sinistra rispetto al valore
centrale).

In tal caso è utile calcolare l’INDICE DI ASIMMETRIA che esprime un valore circa la misura
dell’asimmetria stessa, indicando anche se quest’ultima è di tipo positivo o negativo.

3 (𝑥̅ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝐴𝑠 =
𝑠

10
11. STANDARDIZZAZIONE DELLE MISURE

Nella pratica statistica è utile ricondurre i dati osservati durante l’esecuzione di un test, ad
una curva di distribuzione normale standardizzata, ossia una curva che non dipenda dall’unità
di misura della variabile xi utilizzata (test differenti possono avere unità di misura diverse).
Per fare questo si ricorre alla standardizzazione delle misure attraverso scale convenzionali
con media e deviazione standard note.

SCALA STANDARD o SCALA Z Media(μ)=0 Varianza(σ2)=1 Dev. standard(σ)=1

Inoltre, è possibile affrontare il problema inverso: conoscendo il punteggio standardizzato z,


trovare il punteggio x corrispondente:
x = μ + zσ

Tuttavia la Scala Z presenta degli svantaggi, in quanto presuppone una media = 0, e i


punteggi al di sotto della media saranno negativi. Inoltre fa largo uso di decimali.
Per ovviare a questi inconvenienti sono state proposte altre scale che si basano sulla
relazione lineare della scala z:
Y = a + bz
Y è il nuovo punteggio standardizzato
a corrisponde alla media μ
b alla deviazione standard σ
z è il punteggio z calcolato in precedenza

SCALA T: Media(μ)=50 Deviazione standard(σ)=10


T= 50 + 10z

SCALA STEN o TEN: Media(μ)=5,5 Deviazione standard(σ)=2


STEN= 5,5 + 2z

SCALA STANINE o NINE: Media(μ)=5 Deviazione standard(σ)=2


STANINE= 5 + 2z

QUOZIENTE D’INTELLIGENZA (QI): è un punteggio che si prefigge di misurare l’intelligenza


di un soggetto, ovvero lo sviluppo cognitivo. In origine veniva calcolato come il rapporto tra
l’età mentale (ottenuta tramite test) e l’età anagrafica moltiplicata per 100:
𝑒𝑡à 𝑚𝑒𝑛𝑡𝑎𝑙𝑒
𝑄𝐼 = 100
𝑒𝑡à 𝑎𝑛𝑎𝑔𝑟𝑎𝑓𝑖𝑐𝑎
Un bambino di 7 anni, che risolve un compito solitamente risolto da bambini più grandi ha un
QI > 100, perché l’età mentale è superiore all’età anagrafica. Tuttavia, nei soggetti adulti
l’intelligenza non aumenta di pari passo con l’età, e si è cercato di ovviare a questo
inconveniente introducendo i QI di deviazione che valuta la prestazione al test in base a
quella di un gruppo di riferimento.
Vengono pertanto raccolti i punteggi di ciascun membro del gruppo, standardizzati tutti i
punteggi con la scala z e quindi convertiti in:
QI di deviazione Media(μ)=100 Deviazione standard(σ)=15
𝑄𝐼𝑑𝑒𝑣 = 100 + 15𝑧

11
RANGHI PERCENTILI, RP(x): si basa sulla posizione che i soggetti occupano nella
distribuzione dei punteggi ottenuti dal campione.
Si procede come segue:
1) ordinare i dati, o le categorie, in ordine crescente
2) calcolare fcum (frequenze cumulate)
3) trovare la PosPj,

4) calcolare il rango Percentile RP(x) :

 N al denominatore (invece di N+1), sia quando N>30 sia quando la distribuzione è


raggruppata in classi di frequenza (anche se classi di ampiezza 1)

 Analogamente al Rango Percentile è possibile calcolare il Rango Quartile RQ(x) e il


Rango Decile RD(x)

12
12. DIAGRAMMI DI DISPERSIONE
Nella ricerca sociale e psicologica molto spesso si studiano in modo simultaneo più variabili
nello stesso gruppo, e la natura della relazione che le lega.

Viene definita covarianza la tendenza di due variabili a variare congiuntamente.

Il ricercatore è pertanto interessato a comprendere:


a) Il tipo di relazione esistente tra due variabili forma (lineare, curva, parabola…);
b) L’intensità della relazione entità (concordanza, discordanza o nulla);
c) La direzione della relazione, che può essere positiva (all’incremento della variabile
x corrisponde un incremento nella variabile y), o negativa (all’aumentare di x
decrementa y);
Un primo strumento consiste nel rappresentare graficamente, attraverso il diagramma di
dispersione le due grandezze rilevate (x,y) per osservarne la forma assunta, individuando
se esiste una relazione e di che tipo. La coppia di coordinate x e y individuano un punto sul
quadrante cartesiano.

13
13. COEFFICIENTI DI CORRELAZIONE
Gli indici di correlazione individuano in maniera quantitativa la forza, o l’intensità, del
legame tra variabili
COEFFICIENTE DI CORRELAZIONE r BRAVAIS-PEARSON viene anche chiamato
coefficiente di correlazione prodotto-momento, ed è definito come il rapporto tra la
covarianza di x e y ed il prodotto delgi scarti quadratici medi di x e di y.
Si utilizza per analizzare in simultanea due variabili rilevate ambedue con scala a intervalli o
a rapporti equivalenti.
È un coefficiente atto a cogliere una relazione di tipo lineare tra variabili, per tanto un r vicino
allo 0 indica la mancanza di una relazione lineare, ma le variabili potrebbero essere legate
tra loro da altri tipi di relazione (parabolico, esponenziale...).
L’indice può assumere valori che vanno da -1 a +1. In particolare:
r = +1  quando la concordanza tra variabili è positiva lineare perfetta (all’incremento di x si
incrementa di una quantità costante y);
r = - 1  quando la concordanza tra variabili e negativa lineare perfetta (all’incremento di x
si decrementa di una quantità costante y);
r compreso tra + 1 e + 0,5  relazione positiva molto elevata;
r compreso tra - 1 e - 0.5  relazione negativa molto elevata;
r compreso tra +0,05 e +0,2  tendenza alla relazione positiva;
r compreso tra -0,05 e -0,2  tendenza alla relazione negativa;
r compreso tra +0,2 e -0,2  relazione nulla.

COEFFICIENTE DI CORRELAZIONE rs DI SPEARMAN viene utilizzato per le graduatorie,


ovvero scale ordinali, ma può essere utilizzato anche nel caso in cui una variabile è misurata
su scala ordinale e l’altra variabile su scala a intervalli o a rapporti equivalenti (in tal caso si
trasformerà la scala a intervalli o rapporti in una graduatoria sulla base del punteggio, dal
maggiore al minore).
I risultati ottenuti di rs vanno da -1 a +1 con gli stessi significati del coefficiente di Bravais-
Pearson.

Dopo aver messo una delle due graduatorie nell’ordina naturale crescente, si accosta la
seconda graduatoria, e si vanno a confrontare i risultati della prima classifica con quelli della
seconda classifica per tutti i soggetti.
D2 è la differenza al quadrato delle posizioni, per ciascun soggetto, nelle rispettiva graduatorie
(es: Silvia è 1° in matematica, e 4° in storia  D = 3, D2 = 9).
Tuttavia, qualora vi fossero troppi soggetti con la stessa posizione in entrambe le graduatorie,
il risultato di rs verrebbe falsato per eccesso. Ecco perché in questi casi si utilizza il
coefficiente Ƭ di Kendall.

14
COEFFICIENTE DI CORRELAZIONE Ƭ DI KENDALL viene utilizzato per le graduatorie,
ovvero scale ordinali . Ha anch’esso risultati che vanno da -1 a +1.
𝑆
𝜏=
𝑛/2(𝑛 − 1)
Dopo aver messo una delle due graduatorie nell’ordine naturale crescente, si vanno a
confrontare i valori dell’altra classifica, partendo dal primo soggetto con tutti gli altri che lo
seguono. Qui si valorizza + 1 se ordine corretto (es: Paolo è il primo nell’ordine della
graduatoria ordinata per ordine crescente ed è, in merito alla seconda classifica, il 1° in
matematica su Marco che è 2°), -1 se ordine non corretto (Francesca che è al 5° posto
nell’ordine della graduatoria ordinata per ordine crescente è, in merito all’altra classifica, 6°
in storia su Silvia che è 4°) e 0 se ordine uguale (Michela è 7° nella graduatoria ordinata in
ordine crescente, si è classificata 2° in storia a pari merito con Marco).
S è la somma dei valori -1, 0, +1 assegnati.

COEFFICIENTE DI CORRELAZIONE PUNTO-BISERIALE rpb viene utilizzato per misurare


la correlazione tra una variabile su scala a intervalli o a rapporti equivalenti e una variabile
categoriale dicotomica (una variabile nominale che può assumere solo 2 modalità es: V/F,
Maschio/Femmina, S/N…). N è la popolazione

Va ricordato che:

COEFFICIENTE DI CORRELAZIONE TRA VARIABILI DICOTOMICHE rphi viene utilizzato


per misurare la correlazione tra variabili entrambe dicotomiche (sono variabili nominali che
possono assumere solo 2 modalità es: V/F, Maschio/Femmina, S/N, giusto/sbagliato…)

Viene costruita una tabella 2x2 in cui si riportano le frequenze calcolate per i due test

15
14. LA REGRESSIONE

La regressione semplice (chiamata anche bivariata) consiste della determinazione di una


funzione matematica che esprima la relazione esistente tra due variabili.
Viene introdotto il concetto di causa-effetto, o di antecedente-susseguente. In questo senso
dobbiamo identificare la variabile indipendente e la variabile dipendente (che per
l’appunto dipende dalla prima variabile). La variabile indipendente ‘spiega’ la variazione della
variabile indipendente. Qualora esista un’alta correlazione tra variabili è possibile individuare
in che misura la variabile dipendente varierà in funzione della variabile indipendente.

EQUAZIONE DI REGRESSIONE: quando la correlazione tra due variabili è molto alta, una
indipendente e l’altra dipendente, dato un valore x è possibile prevedere il corrispondete
valore di y’ (y predetto) attraverso l’equazione di regressione.
Y’ = a + bx
La RETTA DI REGRESSIONE è la migliore tra tutte le infinite rette che si possono far
passare attraverso i punti del diagramma di dispersione.

a è l’intercetta (il punto in cui la retta lineare interseca l’asse delle ordinate e corrisponde al
valore atteso di y quando x=0);

b è il coefficiente angolare o coefficiente di regressione (l’inclinazione della retta di


regressione di y su x e indica di quante unità cambia y per una variazione unitaria di x).

Il CRITERIO DEI MINIMI QUADRATI è il metodo di stima usato per scegliere la migliore retta
possibile, cioè quella retta che rende MINIMA la somma delle distanze al quadrato tra le y
(variabili osservate) e le y’ (variabili stimate).

L’errore standard della stima Sestim/y misura la variabilità degli scostamenti dei valori osservati
dai valori previsti.
e = (Y – Y’)

COEFFICIENTE DI DETERMINAZIONE r2: in una relazione causale esprime la proporzione


di varianza comune a x e y, ossia la parte di varianza spiegata. Di conseguenza la varianza
residua, ossia quella proporzione di varianza della variabile dipendente che non trova
spiegazione nella variabile indipendente (ma da altri fattori) è pari a 1 – r2.
Il legame tra correlazione e regressione è dato dal coefficiente di correlazione r elevato al
quadrato.

16
15._COEFFICIENTE DI ATTENDIBILITÀ, DI EQUIVALENZA E
FORMULA PROFETICA DI SPEARMAN-BROWN
Il Coefficiente di Attendibilità Test-retest rtt esprime il grado di correlazione fra due
misurazioni ottenute somministrando lo stesso test allo stesso gruppo di soggetti dopo un
certo intervallo di tempo (test re-test). Il coefficiente di correlazione calcolato (r di Bravais-
Pearson, rs di Spearman, Ƭ di Kendall, rpb punto-biseriale, o rphi tra variabili dicotomiche) viene
identificato come coefficiente di attendibilità di test-retest.
Se riprendiamo la formula dell’attendibilità X=V+E si può dimostrare che la varianza del
punteggio osservato è uguale alla somma della varianza della parte V e della parte E

Passando per , si ottiene .


Per tanto si definisce coefficiente di attendibilità il rapporto tra la varianza della parte
vera (V) e la varianza della parte osservata (X): s2v / s2x. Il rapporto massimo sarà pari
a 1 (ossia quando la parte di errore è 0). Tuttavia, non è possibile conoscere
effettivamente la parte di varianza V, per tanto l’attendibilità di un test psicologico è
sempre stimata.
L’utilizzo del test-retest ha in sé un paio di limiti che possono generare fonti di errore.
Il primo limite è dato dall’apprendimento dei soggetti (i quali hanno ‘imparato’ a
rispondere nel test precedente) e dalla possibilità che la caratteristica psicologica
osservata possa essersi modificata nel tempo.
Per ovviare a questi inconvenienti e minimizzare le fonti di errore, un’alternativa è
somministrare 2 forme parallele dello stesso test, cioè due forme equivalenti di uno
stesso test con lo stesso numero di item e stesse caratteristiche psicometriche.
Calcolare il coefficiente di correlazione per ciascuna forma del test significa calcolare
il cosiddetto Coefficiente di Equivalenza rtt.
Altro metodo usato è quello dello split-half, ovvero suddividere a metà il test (es: item
pari e dispari) il quale comporta però, un numero inferiore di item per ciascuna parte,
col rischio di una sottostima della reale attendibilità.
Per correggere la stima del Coefficiente di Equivalenza (calcolato sempre tramite uno
dei vari Coefficienti di Correlazione) si utilizza la formula profetica di Spearman-
Brown rntt:
𝑛𝑟𝑡𝑡
𝑟𝑛𝑡𝑡 =
1 + (𝑛 − 1)𝑟𝑡𝑡
dove n è dato dal rapporto tra il numero di item del test iniziale e il numero degli item
di un singolo test una volta suddiviso (es: un test era composto di 40 domande, una
volta suddiviso abbiamo due test di 20 domande cadauno n= 40/20, ossia 2), e rtt
è l’attendibilità della scala di partenza (calcolata con coefficiente di attendibilità).
Il valore calcolato dalla formula profetica di Spearman-Brown rappresenta
l’attendibilità stimata di ciascuna test.

17
16._CONCETTO DI PROBABILITÀ
Prima di introdurre il concetto di probabilità è necessario definire:
 EVENTO: ogni possibile risultato;
 EVENTO SEMPLICE: ogni possibile risultato non scomponibile (es: esca il nr. 6
lanciano un dado);
 EVENTO COMPOSITO: ogni possibile risultato scomponibile nelle sue parti (es:
lanciando due volte un dato esca 6 e poi esca 1);

Esistono due definizioni di probabilità che si rifanno a due filoni di pensiero distinti:
Teoria della probabilità a priori la probabilità che si verifichi un evento A è uguale a
rapporto tra i casi favorevoli e i casi ugualmente possibili (es: la probabilità di pescare
da un mazzo di 40 carte l’asso di cuori è pari a 1/40);
Teoria frequentista la probabilità che si verifichi un certo evento A è uguale alla
frequenza con cui l’evento si verifica in un numero n di prove sufficientemente grande,
ripetute nelle medesime condizioni
𝑓𝐴
𝑃(𝐴) = 𝑙𝑖𝑚
𝑛→∞ 𝑛

P(A) è la probabilità che si verifichi l’evento A, 𝑙𝑖𝑚 limite per n che tende a infinito, fA
𝑛→∞
rappresenta la frequenza con cui si è verificato l’evento A nelle n prove.
Sulla base di questa definizione pertanto, non è possibile determinare la probabilità sulla
base di un'unica prova, ma solamente avvicinarci alla probabilità vera sulla base di tantissime
prove.
Va inoltre detto che non sempre si conoscono a priori il numero di casi possibili e se questi
sono tutti ugualmente possibili.

La probabilità che si verifichi un evento è indicata e P(non A) è la totalità dei casi, che è
sempre = 1, pertanto possiamo dire che
0 ≤ P(A) ≤ 1

 A e B si dicono eventi indipendenti se il verificarsi dell’uno non modifica il verificarsi


dell’altro (es: pesco un fante di cuori e poi pescare una donna di picche);
 A e B si dicono eventi non indipendenti se il verificarsi dell’uno modifica la probabilità
del verificarsi dell’altro (es: da un urna con 5 palline, 2 verdi e 3 rosse, la possibilità
che esca una pallina rossa alla seconda estrazione dipende dall’estrazione della
prima pallina. La P(A) della prima estrazione è 2/5, se non opero il reinserimento della
pallina estratta, la P(A) della seconda estrazione dipende dall’esito della prima. Se
per prima è uscita una pallina rossa, allora P(A) che esca pallina rossa è 2/4; se prima
estratta è stata pallina verde, allora P(A) sarà 3 su 4);
 A e B sono eventi mutualmente escludenti quando il verificarsi di un evento
preclude il verificarsi dell’altro (es: uscita del numero 6 nel lancio del dado, può uscire
solo una faccia del dado, precludendo le altre).
 A e B sono eventi non mutualmente escludenti quando il verificarsi dell’uno non
esclude il verificarsi dell’altro (es: uscita del numero 6 al secondo lancio del dado,
l’eventuale uscita del 6 già dal primo lancio non esclude il verificarsi dell’uscita del 6
nel secondo lancio).

18
PRINCIPIO DELLA SOMMA: la probabilità di verificarsi di due eventi mutualmente escludenti
è uguale alla somma delle probabilità del verificarsi dei singoli eventi (connettivo logico è o):
P(A o B) = P(A) + P(B)
Es: calcolare le probabilità che da un mazzo di 40 carte esca un asso o un re.
P(asso)= 4/40 e P(re) =4/40. Per cui P(asso o re) = 4/40+4/40= 8/40=0.2

PRINCIPIO DEL PRODOTTO: la probabilità che due eventi A e B si verificano


simultaneamente o in successione è uguale al prodotto delle singole probabilità (connettivo
logico è e):
P(A e B) = P(A) * P(B)

Es con eventi indipendenti: calcolare la probabilità che nel lancio contemporaneo di due dadi
esca come somma 2. Dei 36 casi possibili sono 1 è quella che può verificarsi (1+1)
P(A e B) = 1/6 * 1/6 = 36

Es con eventi non indipendenti: calcolare la probabilità che da un mazzo di 40 carte esca un
asso alla prima estrazione e un altro asso alla seconda estrazione (senza reintegro)
P(asso1 e asso2) =4/40 * 3/39
la probabilità di ciascun successivo risultato è condizionato dai risultati precedenti, per tanto
la formula del principio del prodotto diventa
P(A e B) = P(A) * P(A/B)
dove P(A/B) viene letto come ‘probabilità condizionale di B una volta che si sia verificato
l’evento A’

19
17._PERMUTAZIONI, COMBINAZIONI E DISPOSIZIONI

 PERMUTAZIONE: dati n elementi si definiscono permutazioni P(n) i gruppi che si


possono formare in modo che ciascun gruppo contenga tutti gli elementi, ma differisca
dagli altri solo per l’ordine in cui sono disposti gli elementi.
Es: ABC oppure ACB, BAC, BCA, CAB, CBA.
La formula della permutazione è:
nPn = n!
nell’esempio di prima: 3P3 = 3! = 3*2*1 = 6

 COMBINAZIONE: dati n elementi e un numero intero e positivo r ≤ n, si definiscono


combinazioni C(n,r) tutti i gruppi che si possono formare a r a r senza tener conto
dell’ordine degli elementi stessi.
Es: ABCD r=2, avremo AB, AC, AD ma anche BC, BD e infine CD
La formula della combinazione è:
𝒏 𝒏!
nCr = ( )=
𝒓 𝒓!(𝒏−𝒓)!
4 4! 24 24
nell’esempio di prima: 4C2 = ( )= ( ) = ( ) = =6
2 2! 4−2 ! 2 2 ! 4

 DISPOSIZIONE: dati n elementi e un numero intero e positivo r ≤ n, si definiscono


disposizioni D(n,r) tutti i gruppi che si possono formare a r a r tenendo conto dell’ordine
degli elementi stessi.
Es: ABCD r=2, avremo AB, AC, AD, ma anche BA, CA, DA, ecc
La formula della disposizione semplice è:
𝒏!
nDr =
(𝒏−𝒓)!

nell’esempio di prima: 4D2 = (42) = (4−2


4!
)!
24
= 2 = 12

Se alle disposizioni possibili vogliamo anche tener conto delle ripetizioni degli elementi
avremo la possibilità di avere anche AA, BB, CC e DD.
In tal caso la formula della disposizione con ripetizione è:

(R)
nDr = nr

nell’esempio di prima: 4D2(R) = 42 = 16

20
18._DISTRIBUZIONE BINOMIALE
In teoria della probabilità, la DISTRIBUZIONE BINOMIALE è una distribuzione di probabilità
discreta. È un modello matematico che studia fenomeni che possono assumere solo 2 valori,
osservati n volte, e ne descrive il numero di successi (es: risposta Vero o Falso in un
questionario). La formula della distribuzione teorica di probabilità binomiale è
f(x) = nCxpxqn-x
in cui f(r) è la distribuzione di probabilità dell’evento x, p è la probabilità che si verifichi l’evento
desiderato e che esso non si verifichi (q = 1 – p), n è il numero delle prove e ncx il numero dei
modi in cui si possono combinare i successi e (n-x) gli insuccessi in n prove.

Più in generale nella distribuzione binomiale:

P(r) = (𝒏𝒓)prq(n-r)
P(r) probabilità di ottenere esattamente r successi in n prove
(𝑛𝑟) numero di modi in cui si possono combinare r successi e (n-r) insuccessi
coefficiente binomiale
Prq(n-r) probabilità di ogni singola sequenza con r successi e (n-r) insuccessi

Le proprietà della distribuzione binomiale sono:


 È una distribuzione discreta (r assume solo valori interi)
 Ha parametri noti (media, varianza, s.q.m.)
μ = np σ2 = npq σ = √𝒏𝒑𝒒
 Il valore medio è il risultato più probabile
 Se p = q = ½, allora è simmetrica
 Se p ≠ q è asimmetrica ma per n molto elevato tenda alla simmetria
 Se p > ½ la distribuzione è asimmetrica negativa
 Se p < ½ la distribuzione è asimmetrica positiva

21
19._LA DISTRIBUZIONE NORMALE O GAUSSIANA

La distribuzione normale o curva di Gauss è la curva della probabilità più usata nell’analisi
statistica perché descrive con buona efficacia gran parte dei fenomeni naturali.
 Ha una caratteristica forma a campana
 Simmetrica rispetto alla media e unimodale (ossia una unica moda) e continua
 L’area complessiva sotto la curva è pari a 1.
 Le probabilità più elevate di un fenomeno si concentrano intorno alla media, e
le probabilità si riducono man mano che ci si allontana dal valore medio verso destra
o verso sinistra.
 Nella curva gaussiana Media, Mediana e Moda coincidono
 È applicata a variabili continue per cui la funzione si applica su tutto l’asse dei numeri
reali da -∞ a +∞
 È asinttotica all’asse delle ascisse (x) vale a dire che non tocca mai l’asse delle
ascisse se non per valori +/- ∞
 Ha due flessi (punti in cui la curva passa da concava a convessa)
 μ è il valore massino della funzione

Se conosciamo μ e σ, la curva gaussiana consente di individuare la probabilità esatta di


qualsiasi x o di un qualsiasi intervallo fino ad x.
Questo è possibile grazie al calcolo dell’area sottostante della curva. Le tabulazioni utilizzare
sono quelle per la Distribuzione Normale Standardizzata (scala z), per tanto se abbiamo μ e
σ noti, basta trasformare in punti z i valori di x.

22
23
24
25
20._DISTRIBUZIONE chi2 o χ2
È la più nota tra le distribuzioni non normali e viene generata della somma dei quadrati di
valori indipendenti di una variabile normale standardizzata.
Essendo valori al quadrato la distribuzione viene definita solo su valori positivi, da 0 e + ∞.
(𝑥− 𝜇)2
𝑐ℎ𝑖𝜈2 = ∑𝜈1 𝜎2
dove μ e σ2 sono noti (in quanto standardizzate, per cui μ = 0 e σ2 = 1) e l’unico parametro
che varia è ν (ni greco) che corrisponde all’ampiezza del campione.
In base alla formula avremo inoltre distribuzioni diverse per ogni ν differente, perciò si parla
di famiglia di distribuzioni che varia al variare di ν.
Come tutte le distribuzioni di probabilità l’area compresa tra la curva e l’asse delle ascisse è
pari a 1.
Tuttavia, se i valori della variabile normale non sono del tutto indipendenti tra loro è
necessario stabilite il numero di vincoli che li condizionano.
Se vi sono dei vincoli, il parametro ν può non coincidere con il numero effettivo dei valori che
generano la distribuzione, ma coincidere con i gradi di libertà (gdl) ovvero il numero dei valori
veramente indipendenti che generano la distribuzione.
 Grado di libertà: è il numero di valori o di variabili indipendenti che sono liberi di variare
(ossia possono essere assegnati arbitrariamente)
Essa fornisce un criterio per stabilire se ci sia una connessione o meno tra 2 caratteri statistici
x e y qualitativi, ponendo a confronto le frequenze osservate nelle distribuzioni dei due
caratteri con le corrispondenti frequenze teoriche che si avrebbero nel caso di una loro
assoluta indipendenza

21._DISTRIBUZIONE F di Fisher
È il rapporto tra due variabili chi2 indipendenti con ν1 e v2 gradi di libertà.
Trattandosi del rapporto tra due distribuzioni positive, anche la distribuzione di Fisher viene
definita da 0 a +∞.
La famiglia di distribuzioni sono definite su v1 e v2.
2 𝑣
𝑐ℎ𝑖𝑣1 2
Fv1v2 = 2 𝑣
𝑐ℎ𝑖𝑣2 1

22._DISTRIBUZIONE t di Student
È utilizzata soprattutto per campioni di ampiezza inferiore a 30 unità.
La famiglia di distribuzioni dipendono anche in questo caso dai gradi di libertà.
Ricorda la distribuzione normale in quanto simmetrica rispetto all’asse delle ordinate e con
valori che vanno da – ∞ a + ∞.

𝑐ℎ𝑖2
1
𝑥̅ − 𝜇
t= 𝑠 =√ 1
𝑐ℎ𝑖2
𝑣
√ 𝑛−1 𝑣

26
23._ VERIFICA DELLE IPOTESI

Inferenza statistica: è il procedimento mediante il quale, dall’analisi dei dati osservati su un


campione, si perviene a conclusioni relativa all’intera popolazione.
Si distinguono due tipi di inferenza statistica:
1) Dal campione si può stimare il valore di qualche parametro della popolazione, come
media, varianza, frequenza stima dei parametri (o campionaria);
2) Per mezzo del campione si vuole decidere se un’ipotesi fatta su una data popolazione
è accettabile, o rifiutabile, ad un dato livello di significatività verifica delle ipotesi.
Popolazione o universo (N): è l’insieme di tutti gli elementi cui si rivolge il ricercatore nel
fare la sua indagine.
 Popolazioni finite: definibili in termini quantitativi in merito agli elementi che la
compongono (es: tutti i cittadini aventi diritto al voto alle prossime elezioni);
 Popolazioni infinite: non definibili in termini quantitativi in merito agli elementi che la
compongono (es: tutti i possibili acquirenti di un nuovo prodotto).
Non è quasi mai possibile studiare l’intera popolazione quando:
* questa è data da un numero molto grande di elementi
* per motivi di tempo
* per i costi elevati che comporterebbe.
Per tanto si preferisce studiare un campione, ossia un sottoinsieme composto da n
elementi dell’insieme finito o infinito della popolazione.
Affinché il risultato della ricerca sul campione sia in seguito estendibile all’intera popolazione,
il campione deve essere rappresentativo, ossia riprodurre le caratteristiche dell’intera
popolazione.
Il campionamento casuale si è dimostrata la scelta migliore, in quanto gli errori casuali del
campione possono essere attribuiti al caso e non al sistema di campionamento. Tuttavia, va
precisato che tanto più n è maggiore, tanto più i margini di errore si riducono.
Il campionamento casuale semplice può essere fatta secondo due schemi:
 Con reinserimento, in cui ogni successiva estrazione non cambia la popolazione di
riferimento;
 Senza reinserimento, dove la popolazione cambia ad ogni estrazione successiva
(molto utilizzato in psicologia, infatti non si fa compilare lo stesso test alla stessa
persona).

Parametro: caratteristica studiata riferita a una popolazione


Indicatore o statistica: caratteristica studiata riferita a un campione.

Esistono distribuzioni di probabilità teoriche (binomiale, normale, chi2, t di Studenti, F di


Fisher…), cui corrispondono più o mende fedelmente distribuzioni di probabilità di popolazioni
e distribuzioni di probabilità campionaria i cui indicatori sono indicatori statistici.

La più importante distribuzione campionaria è la distribuzione campionaria della media,


che gode della proprietà secondo cui: la media delle medie dei campioni coincide con la
media della popolazione dalla quale i campioni sono stati estratti
𝜇𝑥̅ = μ
Non è detto che la forma delle due distribuzioni coincidano, ma maggiore è n, maggiore è la
precisione della stima (della media della popolazione).

27
Per la legge dei grandi numeri abbiamo che all’aumentare di n la variabilità della distribuzione
campionaria delle medie diminuisce fino a tendere a 0.
Per il teorema del limite centrale invece, abbiamo che per campioni > 30 la distribuzione
campionaria delle medie si approssima alla distribuzione normale, qualunque sia la forma
della distribuzione della popolazione.
Una stima non distorta della varianza 𝑠̂ 2 della popolazione si ottiene dividendo al devianza
del campione (o sqm del campione) per n-1 (anziché per n).
𝑛
𝑠̂ 2 = s2
𝑛−1
Per tanto la varianza della distribuzione campionaria della media stimata (partendo da un
campione) sarà:
𝑠2
𝜎𝑥̅2 = 𝑛−1

Attraverso il calcolo dell’intervallo di fiducia (o di confidenza) è possibile valutare il grado di


probabilità che il parametro cada in un determinato intervallo.

28

Potrebbero piacerti anche