Sei sulla pagina 1di 48

METODOLOGIA

 DELLA  RICERCA  IN  AMBITO  CLINICO


Prof.ssa  Mannarini  stefania.mannarini@unipd.it  

Fenomeno casuale o aleatorio: accadimento che prevede più di un risultato.


Esempio di fenomeno casuale: se noi lanciamo un dado è il caso che regola quale delle
6 facce uscirà. Una delle 6 facce è il possibile risultato. Noi a livello probabilistico non
sappiamo quale delle 6 facce salterà fuori. Secondo l’interpretazione classica della
probabilità ogni faccia avrà ⅙ di probabilità di potersi verificare.

Esempio di fenomeno non casuale: se un chimico combina 2 sostanze chimiche che


generano sempre lo stesso risultato quel risultato è certo, previsto al 100%.

Spazio campionario (Ω): lo spazio campionario è caratterizzato da tutti i possibili


risultati (oppure descrizioni) di un fenomeno casuale. Ovvero lo spazio campionario
contiene tutti i possibili risultati (o descrizioni) di un fenomeno casuale.
Nell’esempio del fenomeno causale lancio di un dado lo spazio campionario è definito
dalle 6 facce e si può scrivere in 2 modi Ω={1,2,3,4,5,6,} oppure Ω={1≤x≥6}.
Faccio un altro esempio. Per il fenomeno casuale voto positivo ad un esame, lo spazio
campionario sarà caratterizzato da tutti i voti positivi
Ω={18,19,20,21,22,23,24,25,26,27,28,29,30} oppure Ω={18≤x≥30}.

Evento: sottoinsieme di uno spazio campionario. Tutto quello che riguarda la


probabilità solitamente viene spiegato usando l’insiemistica. Per cui l’insieme lo
possiamo definire usando lo spazio campionario e gli eventi possono essere dei
sottoinsieme di uno spazio campionario.
Io posso considerare l’evento A voti compresi da 25 a 30 come un sottoinsieme dello
spazio campionario di tutti i voti positivi a un esame che abbiamo definito prima come
Ω={18≤x≥30}. Quindi per definire un evento come un sottoinsieme di uno spazio
campionario si utilizzano le lettere maiuscole per cui io dirò A={25≤x≥30}. A è un

1
evento, sottoinsieme dello spazio campionario=Ω={voti positivi che possono essere
presi a una prova d’esame}.
A={25≤x≥30} sottoinsieme dello spazio campionario Ω={18≤x≥30}
I voti compresi fra 23 e 27 (che si scrive B={23≤x≥27}) sono un sottoinsieme dello
spazio campionario voti positivi a un esame. Quindi anche questo è un evento,
sottoinsieme dello spazio campionario voti positivi a un esame.
B={23≤x≥27} sottoinsieme dello spazio campionario Ω={18≤x≥30}.
Posso anche scrivere B={23,24,25,26,27} sottoinsieme dello spazio campionario
Ω={18≤x≥30}cioè posso elencare le descrizioni ovvero i possibili risultati di un
evento.
A e B sono due eventi, sottoinsieme dell’insieme dello spazio campionario
Ω={18≤x≥30}.
Nota bene: un evento può coincidere anche con lo spazio campionario.

Operazioni:
Nota bene: per presentare le operazioni utilizziamo l’insiemistica, i cosiddetti
diagrammi di Venn. Quindi anche la rappresentazione grafica passa attraverso
insiemistica.
Intersezione: l’evento intersezione di 2 eventi A e B (l’evento intersezione si scrive
A∩B) si verifica al concomitante verificarsi di A e di B. L’evento intersezione A
intersecato a B (A∩B) comprende quegli elementi che appartengono
contemporaneamente ad A e a B. Quindi l’operazione di intersezione è costituita dagli
elementi comuni.
A livello di rappresentazione grafica se noi sappiamo che l’evento A={25≤x≥30} e
l’evento B={23≤x≥27}, se io voglio fare l’operazione di intersezione fra 2 eventi A e
B il risultato sarà A∩B={25,26,27} cioè l’evento A∩B è costituito dagli eventi comuni
ad A e a B.
I puntini rappresentano gli elementi positivi comuni che appartengono
contemporaneamente sia all’evento A sia all’evento B.

A={25≤x≥30}
2
B={23≤x≥27}
A∩B={25,26,27}
Unione: per indicare l’operazione di unione usiamo il simbolo ∪. L’unione è
caratterizzata a quegli elementi che appartengono ad A o a B o a entrambi. Quindi
nell’operazione di unione utilizzo la congiunzione “o”, mentre nell’operazione di
intersezione ho utilizzato la congiunzione “e”. Prima di effettuare l’operazione di
unione di due eventi dobbiamo prima vedere se l’unione di questi 2 eventi ha
intersezione o non ha intersezione.
- Unione di eventi disgiunti (o incompatibili o mutualmente escludetesi):
Eventi disgiunti ( detti anche incompatibili o mutualmente escludentesi): due eventi
A e B sono disgiunti quando la loro intersezione è un evento impossibile (A∩B=Ø).
L’evento A={la persona ha 20 anni} e l’evento B={la persona ha 22 anni} sono
eventi disgiunti in quanto l’evento intersezione è un evento impossibile: ossia la
persona o ha 20 anni o ne ha 22. Anche l’evento A={essere di sesso femminile} e
l’evento B={essere di sesso maschile} sono eventi disgiunti perché o si è maschi o
si è femmine.
Per capire meglio l’unione di eventi disgiunti avvaliamo di un esempio: ipotizziamo
che io lanci un dado (evento A) e saltano fuori tre facce dispari:1,3,5. L’evento A è
caratterizzato da n (cioè la numerosità delle descrizioni)=3 elementi=i numeri
dispari.
A->i numeri dispari nel lancio di un dado
A={1,3,5}-> 3 elementi ->n=3 elementi=numeri dispari
Nel lancio di un altro dado io caratterizzo l’evento B, costituito solo esclusivamente
dai risultati delle facce pari. Quindi avrò che l’evento B è caratterizzato dalle facce
pari del dado: 2,4,6. L’evento B è caratterizzato come l’evento A da 3 descrizioni-
>n=3 elementi=i numeri pari.
B->i numeri pari nel lancio di un dado
A={2,4,6}-> 3 elementi ->n=3 elementi=numeri pari
Ora proprio perché questi 2 eventi ce li ho già ben definiti, voglio fare l’operazione
di unione. Quindi dirò che A∪B è caratterizzato dalle 6 facce->A∪B={1,2,3,4,5,6}.

3
Nell’operazione di unione abbiamo 6 elementi—>somma di n=numerosità delle
descrizioni dell’evento A=3=numeri dispari e di n=numerosità delle descrizioni
dell’evento B=3=numeri pari).
In questo caso ho detto che gli eventi sono disgiunti perché ho verificato che fra
l’evento A e l’evento B non c’è alcuna intersezione cioè A intersecato a B è uguale
all’insieme vuoto-> A∩B=Ø (si può scrivere anche A∩B=0)
Quando devo effettuare l’unione fra 2 eventi la prima domanda che mi devo porre è:
“Questi 2 eventi hanno intersezione?”. Se non hanno intersezione ossia sono
disgiunti (o incompatibili) basta fare la semplice operazione di unione cioè
elencherò gli elementi di A più gli elementi di B.
Unione di eventi incompatibili: A∪B= A+B con A∩B=0

Eventi disgiunti (o incompatibili o mutualmente escludentesi): A∩B=Ø


(oppure A∩B=0).
Unione di eventi diagiunti: A∪B= A+B con A∩B=0

- Unione di eventi compatibili: l’unione di eventi compatibili si verifica quando


l’intersezione fra i due eventi A e B è maggiore di 0 (A∩B>0).
Ad es. supponiamo di definire con spazio campionario gli studenti di una scuola e
lo studio di una lingua straniera. Definiamo l’evento A:{studenti che hanno deciso
di studiare l’inglese} e l’evento B:{studenti che hanno deciso di studiare il
tedesco}. Possiamo avere degli studenti che hanno scelto di studiare entrambe le
lingue->per cui abbiamo A∩B>0. Nel momento in cui decidiamo di fare l’unione
fra A e B, dovrò fare A∪B = A+B-(A∩B) cioè A∪B sarà dato da A:{studenti che

hanno deciso di studiare l’inglese}+ B:{studenti che hanno deciso di studiare il


tedesco}meno A∪B:{studenti che hanno deciso di studiare entrambe le lingue}.

Quindi quando dobbiamo effettuare l’operazione di unione di eventi compatibili ci

4
dobbiamo ricordare di sommare i due eventi e poi sottrarre l’intersezione fra
l’evento A e l’evento B (cioè ci dobbiamo ricordare di sottrarre gli elementi che
appartengono sia ad A sia a B).
Nella rappresentazione grafica possiamo vedere A∩B che è costituito dagli
studenti che studiano entrambe le lingue. In A abbiamo gli studenti che studiano
solo l’inglese e in B abbiamo gli studenti che studiano solo il tedesco. Quando
faccio l’unione mi devo ricordare di sottrarre la parte che è in comune fra l’evento
A e l’evento B.

Eventi compatibili: A∩B>0


Unione di eventi compatibili: A∪B= A+B- (A∩B) con A∩B>0

5
Operazione Simbolo Definizione Esempi Rappresentazione
grafica

Intersezione A∩B comprende gli eventi che es.1


appartengono all’evento A e A={25≤x≥30}
all’evento B A={25≤x≥30}
A∩B={25,26,27}

es. 2
se A={essere iscritto al
1°anno} e B={essere studente
di psicologia}, allora A∩B=
{essere studente del 1°anno
di psicologia}

Unione A∪B comprende gli eventi che Prima di fare l’operazione di


appartengono ad A o a B o a unione fra 2 eventi devo
entrambi chiedermi: “Questi 2 eventi
sono incompatibili?”

sì->unione di eventi disgiunti


(o incompatibili):

es.1 A={1,3,5}->numeri
dispari dal lancio di un dado
B={2,4,6}->numeri pari dal
lancio di un dado.

es.2 l’evento A= essere di


sesso femminile e l’evento
B= essere di sesso maschile
sono eventi disgiunti perché o
si è maschi o si è femmine.

se A∩B=Ø (cioè se A e b
sono disgiunti) , A∪B: A+ B

no->unione di eventi
compatibili

es. Ω:{studenti di una scuola}


A:{studenti che hanno deciso
di studiare l’inglese}
B:{studenti che hanno deciso
di studiare il tedesco}
A∩B={studenti che hanno
deciso di studiare entrambe le
lingue}->per cui: A∩B>0.

se A∩B>0 (cioè se A e B
sono compatibili), A∪B = A
+B-(A∩B)

Probabilità di eventi: utilizziamo l’interpretazione classica del calcolo della


probabilità che sostiene che gli eventi sono tutti equiprobabili. Secondo
l’interpretazione classica tutti gli esiti possono essere equiprobabili, cioè hanno la
stessa probabilità di verificarsi.
La probabilità (P) di un certo evento A è data dalla numerosità (n) dell’evento A
(cioè il numero delle descrizioni o dei possibili risultati dell’evento A ovvero le
frequenze di A) fratto la numerosità dello spazio campionario (N).

6
Probabilità dell’evento A= numerosità dell’evento A/numerosità dello spazio
campionario: P(A)= n(A)/N(Ω)
Ad es. qual’è la probabilità dell’evento A:{uscita della faccia numero 2 dal lancio di
un dado}?
Le facce di un dado sono sei; per cui N(Ω)=6.
P(A)=n(A)/N(Ω) =1/6
Se mi occupo anche dell’intersezione io posso dire che la probabilità di A
intersecato B p(A∩B) è data dalla numerosità di A∩B (quindi tutti gli elementi
comuni ad A e a B) fratto la numerosità di tutto lo spazio campionario.

Probabilità dell’evento A intersezione B= numerosità dell’evento A intersecato


B/ numerosità dello spazio campionario: P(A∩B)= n(A∩B)/N(Ω)

Probabilità dell’evento A unione B:


- se A e B sono disgiunti (A∩B=Ø): P(A∪B)=P(A)+P(B)
- se A e B sono compatibili (A∩B>0): P(A∪B)=P(A)+P(B)-P(A∩B)

Es.1 La numerosità dello spazio campionario è costituita da 100 studenti. La


numerosità dell’evento A:{studenti maschi}è 30. La numerosità dell’evento
B:{studenti di psicologia}è 40. La numerosità dell’evento C:{studenti femmine}è
70. La numerosità di A intersecato B (A∩B) cioè la numerosità degli studenti
maschi che sono anche studenti di psicologia è 15.
N(Ω)=100
n(A)=30->studenti maschi
n(B)=40->studenti di psicologia
n(C)=70->studenti femmine
n(A∩B)=15->studenti maschi di psicologia

- Qual’è la probabilità dell’evento A:{studenti maschi}?


P(A)= n(A)/N(Ω)=30/100=0.30

7
- Qual’è la probabilità dell’evento B:{studenti di psicologia}?
P(B)= n(B)/N(Ω)=40/100=0.40
- Qual’è la probabilità dell’evento A intersecato B (A∩B) cioè di essere maschi e
contemporaneamente studenti di psicologia ?
P(A∩B)= n(A∩B)/N(Ω)=15/100=0.15
- Qual’è la probabilità dell’evento A unito a C (A∪C) cioè di essere maschi o
femmine?
Gli eventi A e C sono compatibili, non c’è nessuna intersezione A∩C>0. Per cui
per fare la probabilità di A∪C non devo sottrarre nulla.
P(A∪C)=P(A)+P(C)=(30/100)+(70/100)=1

La probabilità di A∪C è uguale a 1 cioè alla probabilità dello spazio campionario


perché se faccio la numerosità di A più la numerosità di C ottengo 100 che è la
numerosità dello spazio campionario.
n(A∪C)=n(A)+ n(C)= N(Ω)

n(A∪C)=30+70=100= N(Ω)
Per calcolare la probabilità di A unito a C sommo la probabilità di A con la
probabilità di C e ottengo 1 che coincide con la probabilità riferita allo spazio
campionario.
P(A∪C)=P(A)+ P(C)= p(Ω)
P(A∪C)=(30/100)+(70/100) = 1=P(Ω)
- Qual’è la probabilità di A∪B cioè la probabilità di essere maschi e di psicologia?
P(A∩B )=15/100=0,15
P(A∪B)=P(A)+P(B)- P(A∩B)=0.30+0.40-0.15=0.55 probabilità di essere maschi
e di psicologia

Gli assiomi della probabilità


Lo spazio campionario e i suoi eventi sono regolati da 3 assiomi:
- 1° assioma: la probabilità riferita a tutto lo spazio campionario deve essere uguale
a 1 cioè evento certo: P(Ω)=1

8
- 2° assioma: la probabilità riferita a qualunque evento (E) deve essere compresa fra 0
e 1. Quindi la probabilità degli eventi non può mai essere negativa. La probabilità
dell’evento è 0 se l’evento non ha nessuna probabilità di verificarsi= evento
impossibile. La probabilità dell’evento è 1 se l’evento è certo: 0≤P(E)≥1 dove
P(E)=1 evento certo
P(E)=0 evento impossibile
- 3° assioma: dati due eventi disgiunti (A∩B=0), la probabilità di A unito a B è data
dalla somma della probabilità di A più la probabilità di B-> P(A∪B)= P(A)+P(B) se
A∩B=0. Dati due eventi complementari (A∩B>0), la probabilità di A unito a B è
data dalla somma della probabilità di A più la probabilità di B meno la probabilità di
A intersecato a B->P(A∪B)= P(A)+P(B)-P(A∩B) se A∩B>0.

Assiomi della probabilità

1° assioma P(Ω)=1

2° assioma 0≤P(E)≥1
P(E)=1 evento certo
P(E)=0 evento impossibile

3° assioma P(A∪B)= P(A)+P(B) se A∩B=0 (eventi disgiunti—>non c’è intersezione)

P(A∪B)= P(A)+P(B)-P(A∩B) se A∩B>0 (eventi compatibili—>c’è intersezione)

Vediamo come i 3 assiomi sono verificati nell’Es.1:


P(A):0.30->probabilità dell’evento “studente maschio”
P(B):0.40->probabilità dell’evento “studente di psicologia”
p(C):0.70->probabilità dell’evento “studente femmina”
P(A∩B):0.15->probabilità dell’evento “studente maschio e di psicologia”
- 1° assioma:P(Ω)=1
Se sommiamo la P(A)a P(C) otteniamo 1=spazio campionario: 0,30+0.70=1. E
quindi verifichiamo il primo assioma.
- 2° assioma:0≤P(E)≥1
P(A):0.30
P(B):0.40
P(C):0.70

9
Queste 3 probabilità sono tutte e tre comprese fra 1 e 0 per cui anche il 2°
assioma è verificato.
- 3° assioma: P(A∪B)= P(A)+P(B)-P(A∩B) se A∩B>0 (eventi compatibili)
A e B sono due eventi compatibili (A∩B>0) per cui per calcolare A unito a B
devo sommare P(A) a P(B) e sottrarre l’intersezione.
P(A∪B)=P(A)+P(B)- P(A∩B )=0,30+0,40-0,15=0,55
Per cui anche il 3° assioma è verificato.

La probabilità condizionale
Definizione di probabilità condizionale: probabilità che si verifichi un evento A
nella condizione che si verifichi un altro evento B.
Dati 2 eventi A e B con A∩B, la probabilità di B dato A -che si scrive P(B/A)- è
uguale alla probabilità di A∩B fratto la probabilità di A (dell’evento dato). La
probabilità di B dato A significa la probabilità di B nell’ipotesi (nella condizione)
che si sia verificato già A.
Se invece voglio calcolare la probabilità di A dato B, P(A/B), -cioè voglio calcolare
la probabilità di A nella condizione che sia sia già verificato l’evento B- devo fare la
probabilità di A∩B fratto la probabilità di B (dell’evento dato).
Metto sempre al numeratore la probabilità dell’intersezione fra i 2 eventi P(A/B) e
al denominatore la probabilità dell’evento dato.

P(A/B):
al numeratore la probabilità dell’intersezione fra gli eventi: P(A∩B)
al denominatore la probabilità dell’evento dato -che si è già verificato-: P(B)

Quindi se voglio calcolare P(B/A) dovrò fare P(A∩B)/P(A): P(B/A)=P(B∩A)/P(A)


Se voglio calcolare P(A/B) dovrò fare P(A∩B)/P(B): P(A/B)=P(A∩B)/P(B)

La probabilità dell’evento dato vada sempre al denominatore e questo fa sì che P(B/


A) sia diversa dalla P(A/B).

10
Es.1 Calcolare la probabilità di uno studente maschio dato che abbiamo verificato
che sia uno studente di psicologia?
P(A∩B):0.15 studenti maschi di psicologia
P(B):0.40 studenti di psicologia
P(A/B)=P(A∩B)/P(B)=0.15/0.40=0.375->questa probabilità mi rappresenta la
probabilità condizionale cioè la probabilità che sia uno studente maschio a
condizione (nell’ipotesi) che sia di psicologia.

P(B/A): voglio verificare la probabilità di B nell’ipotesi (nella condizione)


che si sia verificato già A.
P(A/B): voglio verificare la probabilità di A nell’ipotesi (nella condizione)
che si sia verificato già B.

P(B/A)=

P(A/B)=

dove:
P(A∩B)=n(A∩B)/N(Ω)
P(A)=n(A)/N(Ω)
P(B)=n(B)/N(Ω)

11
Es. 2
La tavola di contingenza è una tavola di frequenza. Quella che segue è una tavola
bivariata (o bidimensionale) perché in questa tavola incrocio 2 variabili:
- la variabile 1 (v1) che viene definita anche come variabile riga
- la variabile 2 (v2) che viene definita anche come variabile colonna.
La variabile 1 è costituita nella tabella seguente da 2 eventi: l’evento A e l’evento B.
La variabile 2 è costituita da 3 eventi: l’evento C, l’evento D e l’evento E.
Marginali mi danno la numerosità degli eventi. es. 30=numerosità dell’evento A
(variabile riga); 20=numerosità dell’evento B (variabile riga); 10=numerosità
dell’evento C (variabile colonna) e così via.
8,10,12,2,5,13 cioè quello che sta dentro alla tabella sono denominati “incroci”,
“caselle”, “celle”. Gli incroci corrispondono all’intersezione fra 2 eventi che
appartengono contemporaneamente alla variabile 1 e alla variabile 2. Ad esempio 8
sono gli elementi che appartengono sia all’evento A che all’evento C.
I marginali degli eventi C,D,E non hanno intersezione, cioè sono mutualmente
escludentesi.
Se sommo i marginali di riga (30+20) o i marginali di colonna (10+15+25) o tutti gli
incroci di tutte le celle (8+10+12+2+5+13) ottengo la numerosità dello spazio
campionario. Quindi la numerosità dello spazio campionario N(Ω) la posso ottenere
sommando la numerosità di tutti gli evento di riga (marginali di riga) o sommando
la numerosità di tutti gli eventi di colonna (marginali di colonna) o sommando la
numerosità di tutte le intersezioni (di tutti gli incroci della tabella).
Gli incroci danno le intersezioni.

12
Tavola bivariata riga x colonna= r x c= 2 x 3 (perchè 2 sono le categorie di v1 e 3
sono le categorie di v2).
v1:variabile riga
v2:variabile colonna
Ricorda: L’ordine è sempre riga x colonna. Quindi se la prof dice tabella 2 x 3 so
che la v1 ha 2 categorie e la v2 ha 3 categorie.

Tavola 1.1: Tavola di contingenza (tavola di frequenze grezze)


v2

C D E

8 10 12 30
A n(A∩C) n(A∩D) n(A∩E) n(A)
v1
2 5 13 20
B n(B∩C) n(B∩D) n(B∩E) n(B)

10 15 25 50
n(C) n(D) n(E) N(Ω)

P(A)=n(A)/N(Ω) =30/50=0.6
P(D)=n(D)/N(Ω)=15/50=0.3
P(B∩D)= n(B∩D)/N(Ω)=5/50=0.1
P(C∪E)=P(C)+P(E)=(10/100)+(25/100)=0.1+0.25=0.35 perché C∩E=0 cioè

l’evento C e l’evento E sono incompatibili.


Ricorda:Una regola perché io possa costruire una tavola di contingenza e definire
le categorie di una variabile è che queste categorie debbano essere fra di loro
mutualmente escludentesi, non devono avere intersezioni. Ad es. io voglio incrociare
la variabile genere con la variabile atteggiamento (favore, sfavorevole, né uno né
l’altro). Le categorie della variabile 1 sono maschi e femmine che sono categorie
mutualmente escludetesi. Le categorie della variabile colonna sono i tre tipi di
atteggiamento che anche loro sono mutualmente escludentesi. Quindi quando
incrocio due variabili la prima regola è definire le categorie ma devo tenere

13
presente che le categorie appartenenti alla stessa variabile non devono avere
intersezione, cioè devono essere mutualmente escludentesi.
Probabilità di eventi marginali (o probabilità marginale):
P(A)=n(A)/N(Ω)=30/50=0.6
P(B)=20/50=0.4
P(C)=10/50=0.2
P(D)=15/50=0.3
P(E)=25/50=0.5

Probabilità delle intersezioni fra gli eventi (o probabilità congiunta, detta così
perché considero 2 eventi contemporaneamente):
P(A∩C)=N(A∩C)/N(Ω)=8/50=0.16
P(A∩D)=10/50=0.20
P(A∩E)=12/50=0.24
P(B∩C)=2/50=0.04
P(B∩D)=5/50=0.10
P(B∩E)=13/50=0.26

Quando parliamo di tavole di contingenza intendiamo una tavola di frequenze


grezze (come la tavola 1.1). Dalla tavola di contingenza possiamo calcolare la
tavola di probabilità dove al posto delle frequenze ci sono le probabilità degli eventi
(tavola 1.2).

Tavola 1.2: Tavola di probabilità


v2

C D E

0.16 0.20 0.24 0.60


A P(A∩C) P(A∩D) P(A∩E) P(A)
v1
0.04 0.10 0.26 0.40
B P(B∩C) P(B∩D) P(B∩E) P(B)

0.20 0.30 0.50 1


P(C) P(D) P(E) P(Ω)

14
Nella tavola di probabilità posso verificare i 3 assiomi della probabilità.
- 1° assioma: la probabilità dello spazio campionario è uguale a 1: P(Ω)=1
Possiamo vedere che nella tabella il 1° assioma è verificato.
- 2° assioma: la probabilità riferita a un qualunque evento deve essere compresa fra
0 e 1: 0≤P(E)≥1.
Possiamo vedere nella tabella che tutte le probabilità sono comprese fra 0 e 1 e
quindi anche il 2° assioma è verificato
- 3° assioma: P(A∪B)= P(A)+P(B)-P(A∩B) se A∩B>0 (eventi compatibili)
P(A∪B)= P(A)+P(B) se A∩B=0 (eventi disgiunti)
Se voglio sapere la probabilità di A più B, P(A+B), devo fare la probabilità di A
più la probabilità di B, perché le due categorie sono mutualmente escludetesi
P(A+B)=P(A)+P(B).
P(A+B)=0.60+0.40=1 che corrisponde allo spazio campionario
P(C+D+E)=0.20+0.30+0.50=1
P(B∪C)=P(B)+P(C)-P(B∩C)=0.40+0.20-0.04=0.56 perché B e C hanno
intersezione (sono compatibili).
E quindi anche il 3° assioma è verificato.

Ora calcoliamo la probabilità condizionale.


- Qual’è la probabilità di A dato C, P(A/C), cioè la probabilità di A nell’ipotesi
che si sia verificato C? P(A/C)=P(A∩C)/P(C)=0.16/0.20=0.80
- Qual’è la probabilità di B dato D, P(B/D)?
P(B/D)=P(B∩D)/P(D)=0.10/0.30=0.30
- Qual’è la probabilità di A dato E, P(A/E)?
P(A/E)=P(A∩E)/P(E)=0.24/0.50=0.48
- Qual’è la probabilità di B dato E, P(B/E)?
P(B/E)=P(B∩E)/P(E)=0.26/0.50=0.52
- Qual’è la probabilità di A dato E, P(A/E)?
P(A/D)=P(A∩D)/P(ED)=0.20/0.30=0.67
- Qual’è la probabilità di B dato C, P(B/C)?

15
P(B/C)=P(B∩C)/P(C)=0.04/0.20=0.20
Ricorda: nella probabilità condizionale, la probabilità dell’evento che si è già
verificato va sempre messa al denominatore (sotto).

Probabilità condizionale di eventi indipendenti


Due eventi sono indipendenti quando il verificarsi dell’uno non influenza il
verificarsi dell’altro.
Per verificare se due eventi sono indipendenti si parte dalla probabilità condizionale.
Dati 2 eventi A e B, essi sono indipendenti se la probabilità di B dato A è uguale alla
probabilità di B: P(B/A)=P(B). Noi abbiamo appena visto che la probabilità di B
dato A è uguale alla probabilità di B intersecato A fratto la probabilità di A
(probabilità condizionale). Per dimostrare che due eventi sono indipendenti devo
dimostrare che la probabilità di B dato A corrisponde perfettamente alla probabilità
di B. (Io so per certo che la formula P(B/A)=P(B) è vera e la devo verificare con i
dati numerici).
P(B/A)=P(B)
Dato che P(B/A)=P(B∩A)/P(A) (probabilità condizionale)
P(B∩A)/P(A)=P(B)
di conseguenza moltiplicando entrambi i membri per P(A) diventa:
P(B∩A)=P(B)·P(A)

Quindi se gli eventi sono indipendenti P(B∩A)=P(B)·P(A). Posso usare questa


formula per dimostrare che la probabilità dell’incrocio è uguale al prodotto delle
probabilità marginali:
Pij=Pi. ·P.j
Quindi se io moltiplico la probabilità della prima riga per la probabilità della prima
colonna ottengo la probabilità della loro intersezione, ma solo se gli eventi sono fra
loro indipendenti(A∩B=0). Se gli eventi non sono indipendenti (A∩B>0) questo
non si verifica.

16
Allo stesso modo posso verificare che la probabilità di A dato B è uguale alla
probabilità di A.
P(A/B)=P(A)
Dato che P(A/B)=P(A∩B)/P(B) (probabilità condizionale)
P(A∩B)/P(B)=P(A)
di conseguenza moltiplicando entrambi i membri per P(B) diventa:
P(A∩B)=P(A)·P(B)

Quindi se gli eventi sono indipendenti (A∩B>0) la probabilità di A dato B è uguale


al prodotto della probabilità di A per la probabilità di B: P(A/B)=P(A).
Solo nella condizione in cui gli eventi sono indipendenti (A∩B=0), la probabilità
condizionale di A dato B è uguale alla probabilità dell’evento A e la probabilità della
loro intersezione è data dal prodotto delle loro probabilità marginali:
P(A∩B)=P(A)·P(B) —>Pij=Pi. ·P.j
Nota bene: L’indipendenza è importantissima perché io parto dall’indipendenza e
spererei come ricercatore di rifiutare l’indipendenza (cioè di dire che i due eventi
non sono indipendenti). Ad es. se ho costruito un progetto io come ricercatore spero
che le mie due variabili siano indipendenti, ad es. che la variabile genere sia
associata alla variabile atteggiamento.
L’indipendenza si verifica quando la probabilità di un incrocio è data dal prodotto
delle probabilità marginali (Pij=Pi.·P.j) Se io applico questa formula e dai miei
calcoli risulta che questa formula è verificata significa che i miei due eventi sono
indipendenti.Se invece trovo un valore diverso vuol dire che in quell’incrocio c’è la
dipendenza fra le due variabili.

Es. si ipotizzi che in una biblioteca ci sia probabilità 0.75 di trovare libro di filosofia
(F) e che ci sia probabilità 0.10 di trovare un libro con la copertina nera (N). Si è
riscontrato inoltre che c’è probabilità 0.75 di trovare un libro di filosofia con la
copertina nera. Essere un libro di filosofia (F) e avere la copertina nera (E) sono due
eventi indipendenti?
P(F)=0.75 essere un libro di filosofia
17
P(N)=0.10 avere la copertina nera
P(F∩N)=0.075
P(F/N)=P(F∩N)/P(N)=P(F)
0.075=0.75/0.10

Nota bene: L’indipendenza è importantissima perché noi nei modelli logaritmici


lob-lineari partiamo dall’indipendenza e spererei come ricercatore di rifiutare
l’indipendenza (cioè di dire che i due eventi non sono indipendenti).
Costruisco una tavola di contingenza dove incrocio 2 variabili (variabile 1=genere,
variabile 1=atteggiamento verso una problematica).
Parto dall’ipotesi nulla H0=le due variabili sono indipendenti (mentre nell’ipotesi
alternativa H1 le 2 variabili sono dipendenti): dobbiamo dimostrare che la
probabilità dell’evento A intersecato a B è uguale alla probabilità dell’evento A per
la probabilità dell’eventi B. P(A∩B)=P(A)·P(B)—>Pij=Pi. ·P.j.

18
Tabella riassuntiva 2
EVENTI A e B

INCOMPATIBILI COMPATIBILI

(A∩B)=Ø (A∩B)≠ Ø l’intersezione è un insieme con n>0

P(A∪B)=P(A)+P(B)perchè P(A∩B)=0 P(A∪B)=P(A)+P(B)-P(A∩B)

INDIPENDENTI DIPENDENTI

P(A∩B)=P(A)·P(B) P(A∩B)=P(A)·P(B/A)
=P(B)·P(A/B)

Spiegazione tabella 2: Due eventi A e B sono incompatibili?


- se sì. 2 eventi si dicono compatibili o disgiunti se la loro intersezione è uguale
all’insieme vuoto (A∩B)=Ø Nel momento in cui in un esercizio viene chiesto di
fare (A∪B) e io so che fra A e B non c’è intersezione (sono incompatibili), so che
la probabilità di A unito a B è uguale alla probabilità di A più la probabilità di B
perché A intersecato a B è uguale a 0: P(A∪B)=P(A)+P(B) perchè P(A∩B)=0. Nota
bene: Io per 2 eventi posso calcolare 2 cose: l’unione e l’intersezione. Quando gli
eventi sono indipendenti posso calcolare solo l’unione perché l’intersezione la
conosco già, è 0.
- se no. Se 2 eventi sono compatibili (cioè quando hanno qualche elemento o
descrizione in comune A∩B)≠ Ø), nel momento in cui io devo fare la probabilità di
A unito a B devo sommare la probabilità di A più la probabilità di B meno la
probabilità di A intersecato a B perché la probabilità di A intersecato a B è maggiore
di 0: P(A∪B)=P(A)+P(B)-P(A∩B). Per calcolarmi la probabilità di A intersecato a
B mi devo porre un ulteriore domanda: “Sono due eventi indipendenti o
dipendenti?”. Se gli eventi sono indipendenti la probabilità di A intersecato a B
è data dalla probabilità di A per la probabilità di B: P(A∩B)=P(A)·P(B). Se
invece gli eventi sono dipendenti la probabilità di A intersecato a B è data dalla
probabilità di A per la probabilità di B dato A oppure dalla probabilità di B

19
per la probabilità di A dato B: P(A∩B)=P(A)·P(B/A) oppure
P(A∩B)=P(B)·P(A/B).
La formula P(A∩B)=P(A)·P(B/A) per verificare se due eventi compatibili sono
indipendenti deriva da P(B/A)=P(A∩B)/P(A). Moltiplicando entrambi i membri per
P(A) ottengo la formula P(A∩B)=P(A)·P(B/A).
Allo stesso modo la formula P(A∩B)=P(B)·P(A/B) deriva da P(A/B)=P(A∩B)/
P(B). Moltiplicando entrambi i membri per P(B) ottengo la formula
P(A∩B)=P(B)·P(A/B).

Probabilità di eventi indipendenti se i dati numerici confermano questa formula vuol dire
che gli eventi sono indipendenti:
P(A∩B)=P(A)·P(B)

Probabilità di eventi dipendenti P(A∩B)=P(A)·P(B/A) oppure P(A∩B)=P(B)·P(A/B)

Nota bene: quando negli es.c’è scritto “con inserimento” (la pallina la rimetto) vuol
dire che l’estrazione successiva non sarà condizionata e quindi gli eventi sono
indipendenti. Se invece nell’esercizio c’è scritto “senza inserimento” (la pallina non
la rimetto dentro) vuol dire che l’estrazione successiva sarà condizionata e quindi i 2
eventi sono dipendenti: devo calcolare la probabilità di un evento dato (nell’ipotesi)
che si sia verificato un altro.
Quindi quando devo calcolare la probabilità di un evento nell’ipotesi che se ne sia già
verificato un altro altro (che ci sia stata già prima un estrazione della pallina senza
reinserimento) parlo di A/B.

20
La teoria della misurazione
Ipotizziamo di voler valutare gli studenti di una classe rispetto a una determinata
variabile ansia. Quindi il costrutto è l’ansia. Dobbiamo decidere come valutare la
nostra variabile-ansia. Io posso valutare l’ansia utilizzando un test già standardizzato
oppure utilizzare un’altra tecnica (ad ed un role playing). Alla fine della valutazione
posso distribuire tutti i soggetti della classe rispetto alla variabile ansia. Quello che sto
facendo è MISURARE: io ho individuato una qualche tecnica che mi ha consentito di
valutare il sistema relazionale empirico (cioè gli studenti della classe) e poi associo
a ogni soggetto un numero, perchè per misurare devo arrivare a una misura, misura
che decido in base alla tecnica che utilizzo. Quindi ad es. se somministro un test
standardizzato arrivo a una misura che è a livello di scala ad intervallo; se utilizzo una
qualche altra tecnica di tipo qualitativo potrò solamente ordinare i soggetti rispetto alla
variabile-ansia ma non stabilire la distanza fra i diversi soggetti.
Misurare in psicologia significa partire da un sistema relazionale empirico in cui
osservo determinate relazioni e sulla base di quelle relazioni -stabilite attraverso una
variabile definita- io assocerò un numero e quel numero deve essere dato secondo
delle regole ben precise cioè devo rispettare le caratteristiche che sto osservando
all’interno di quel sistema relazionale empirico. Altrimenti se non rispetto le
caratteristiche che sono presenti all’interno di quel sistema relazionale empirico, non
faccio una misurazione corretta, ma faccio una forzatura. Quindi misurare in
psicologia: si parte da un sistema relazionale empirico e osservando le relazioni
rispetto a una variabile definita, associo un numero. Quel numero deve essere
assegnato secondo delle regole ben precise cioè devo rispettare le caratteristiche che
sto trovando all’interno di quel sistema relazionale empirico. Altrimenti se non rispetto
le caratteristiche che sono presenti in quel sistema redazionale empirico non sto
misurando correttamente. A differenza di altre discipline come ad es. la fisica, noi in
psicologia partiamo da quel sistema relazionale empirico, osserviamo le relazioni
presenti in quel sistema relazionale empirico e sulla base delle relazioni presenti in
quel sistema relazionale empirico associamo un numero attraverso una regola
funzionale.

21
Scala nominale: partiamo da un esempio: supponiamo di distribuire i soggetti della
classe (che sono il sistema relazionale empirico) rispetto alla variabile genere. Io sto
facendo un operazione di misurazione ma sto categorizzando, classificando: conto il
numero delle femmine preseti in aula e le metto nella categoria femmine; conto i
maschi presenti in aula e li metto nella categoria maschi. Nel momento in cui
introduco questa variabile genere, devo stabilire all’interno del sistema relazionale
empirico se esiste una relazione di equivalenza rispetto alla variabile da me
individuata. Per poter fare la classificazione devo quindi verificare che sia soddisfatta
la relazione di equivalenza. Significa che rispetto alla variabile genere tutte le
femmine devono essere equivalenti. Attenzione: equivalenza (che si indica con il
simbolo ~ ) è diversa dall’uguaglianza: parliamo di uguaglianza quando siamo a
livello numerico; parliamo di equivalenza quando siamo a livello empirico. Quindi
rispetto alla variabile genere stabilisco tutti gli individui che risultano fra loro
equivalenti rispetto alla categoria femmina. Nel momento in cui confronto un maschio
e una femmina dirò “diverso rispetto alla variabile femmina” e quindi il maschio andrà
nell’altra categoria (maschi). Quindi all’interno di questo sistema relazionale empirico
costituito dagli studenti della classe stabilisco una relazione di equivalenza; vado a
verificare quella relazione di equivalenza; se la relazione di equivalenza sussiste
rispetto alla categoria femmina, tutti quegli individui apparterranno alla stessa
categoria (o classificazione). Se invece la relazione di equivalenza non sussiste rispetto
alla categoria femmina, gli individui apparterranno all’altra categoria (maschi). Alle
categorie (categoria femmine e categoria maschi) devo assegnare un valore numerico:
ad es. alla categorie femmine il numero 1 e alla categoria maschi il numero 2. I numeri
sono delle etichette; non hanno nessun valore quantitativo. Per cui avrei potuto
assegnare alla categoria femmine il numero 2 e alla categoria maschi il numero 1.
Siamo a livello di classificazione, stiamo categorizzando: la categoria si verifica nel
momento in cui ho verificato all’interno di un sistema relazionale empirico una
relazione di equivalenza. Nel momento in cui sono arrivato a un sistema classificatorio
io so che i numeri hanno un carattere qualitativo, sono etichette. Siamo a livello di
scala nominale e questa scala si chiama “nominale” proprio perché i numeri sono dei
nomi, delle etichette, non hanno nessun carattere quantitativo. All’interno della scala
22
nominale io posso solo calcolare alcune statistiche descrittive significanti per quella
scala di misura, “significanti” perché hanno un senso per quella scala di misura: cioè
io non posso applicare all’interno di questa scala nominale delle statistiche descrittive
che possano forzare quelle relazioni che ho trovati in quel sistema relazionale
empirico. In psicologia non mi devo mai dimenticare il sistema relazionale empirico
da cui sono partita: il numero mi deve rappresentare il sistema relazionale empirico
come relazione, come caratteristica e nel momento in cui utilizzo le statistiche
descrittive per rappresentare, per sintetizzare i miei dati a livello di scala nominale lo
devo fare sempre nel rispetto di quella scala di misura in cui mi trovo e quindi di quel
sistema relazionare empirico che ho individuato.

Scala ordinale: un esempio di scala ordinale è il titolo di studio perché nel titolo di
studio possiamo presupporre un ordine (scuola elementare, scuola media, scuola
superiore, laurea, ecc.). Ad es. gli alunni della classe dell’esempio precedente
potrebbero essere categorizzati in base al titolo di studio dei loro genitori per avere
info socio-culturale degli alunni stessi. Se trovo che due ragazzi hanno genitori che
hanno lo stesso titolo di studio vuole dire che quei ragazzi sono equivalenti all’interno
della stessa categoria. Se due ragazzi hanno genitori con titoli di studio diversi,
collocherò questi ragazzi in categorie diverse. Le categorie andranno poi ordinate, dal
livello di studio più basso al livello di studio più alto. Nel momento in cui io ordino le
categorie, io ho solo un ordine, non ho informazioni sulla distanza quantitativa fra gli
elementi ; quindi fra 27 e 31 non c’è nessuna distanza in termini quantitativi. La scala
ordinale consente solo di affermare che un elemento gode meno o di più di una
caratteristica in esame rispetto a un elemento della classe successiva, ma non consente
di stabilire di quanto differenziano gli elementi o le 2 classi.
Poi posso assegnare dei numeri ad es. 1 alla categoria scuola elementare, 2 alla
categoria scuola media, 3 alla categoria scuola superiore e così via. Ma potrei anche
assegnare 27 alla categoria scuola elementare, 32 alla categoria scuola media, 50 alla
categoria scuola superiore e così via. I numeri li devo assegnare in ordine: dal livello
più basso al livello di scolarità più alto dovrò dare dei numeri in ordine crescente ma
qualunque numero.
23
es. titolo di studio:
1 (scolarità elementare)>2(scolarità media)>3(scolarità superiore)>4(laurea) ecc.
A livello di scala ordinale tra le categorie non c’è indicazione in termini di distanza per
cui il numero ha solo un carattere qualitativo non quantitativo, oltre a costruire delle
classi di equivalenza come la scala nominale. Ordina le classi di equivalenza rispetto
al grado in cui godono della caratteristica, da quella che ne gode di meno a quella che
ne gode di più: per cui l’unica differenza rispetto alla scala ordinale è che abbiamo un
ordine.
Scala ad intervallo: Ora supponiamo di somministrare agli alunni della nostra classe
un test per valutare l’ansia di stato e di tratto. Dal test ottengo dei numeri che hanno un
valore quantitativo e ciò significa che posso distribuire i soggetti rispetto ai valori
numerici e posso ottenere informazioni su quanto un soggetto è distante da un altro
soggetto in termini numerici riguardo all’ansia. Il valore numerico nella scala a
intervallo è un valore quantitativo per cui è possibile definire una differenza, una
distanza fra due individui qualsiasi che appartengono all’insieme relazionale che sto
considerando rispetto a quella variabile. Rispetto alla scala precedente il numero,
carattere quantitativo, informa sulla distanza tra le classi o gli elementi stessi. Per cui
dati 2 elementi o classi di elementi è possibile misurare la differenza tra loro
intercorrente sulla comune caratteristica. Ciò è possibile perché la scala a intervallo -a
differenza delle scale precedenti- presenta uno 0 arbitrario (non uno 0 assoluto perché
non esiste una elemento che presenti un elemento con intensità nulla) e un unità di
misura fissata, costante e invariate lungo tutta la scala. La scala a intervallo è
caratterizzata da un sistema finito ed equispaziato. Se io decido di valutare l’ansia di
soggetti della classe con un test ottengo una misura che si esprime a livello di scala a
intervallo e nella scala a intervallo i numeri rappresentano delle quantità cioè delle
distanze. Proprio perché i numeri diventano delle distanze significa che una volta che
ho valutato i soggetti della classe li posso collocare su una retta, per cui posso dire
quanto un soggetto x di sta da un soggetto y e da un altro soggetto z. Nel momento cui
colloco i soggetti su una retta e quella retta esprime una quantità posso calcolare le
distanze, le differenze.

24
Le tre scale di misura (nominale, ordinale, a intervallo) che abbiamo appena descritto
sono costituite da un sistema relazionale empirico e da un sistema relazionale
numerico (perchè siamo arrivati a individuare dei numeri). Questo passaggio da
sistema relazionale empirico a sistema relazionale numerico è stato possibile perché
abbiamo adottato una regola funzionale che ci ha reso possibile il passaggio
dall’empirico al numerico nel rispetto delle caratteristiche delle relazioni che abbiamo
trovato in quel sistema empirico. Si dice infatti quando si parla di scale che le scale
sono costituite da una terna:
1. sistema relazionale empirico
2. sistema relazionale numerico
3. funzione
La funzione è la regola funzionale che mi consente di passare dall’empirico al
numerico: noi abbiamo dato dei numeri agli individui in base alla variabile e in base
alla scala di misura. Quindi noi abbiamo dato dei numeri nel rispetto delle
caratteristiche della variabile considerata e di quel sistema di misurazione.

Per sintetizzare i dati si utilizza la statistica descrittiva. Quindi cosa fa la statistica


descrittiva? Sintetizza i dati. Una volta che abbiamo raccolto i dati e abbiamo
individuato i nostri livelli di misura, per poter sintetizzare i dati che ho raccolto faccio
riferimento alla statistica descrittiva. I cosiddetti indici di statistica descrittiva
vengono individuati sempre nel rispetto delle scale di misura, quindi sempre nel
rispetto delle caratteristiche di quel sistema relazionale empirico. Detto altrimenti: la
scelta degli indici di statistica descrittivi deve essere fatta sulla base di quella
significanza cioè non posso forzare quel sistema relazionale empirico su cui sto
lavorando. Sto forzando ad es. se calcolo la media della variabile genere (scala
nominale) perché a livello di scala nominale non posso calcolare la media, posso solo
categorizzare.
Le caratteristiche che sono presenti a un livello di scala meno evoluta le posso trovare
verificate in una scala più evoluta: significa che se a livello di scala nominale abbiamo
semplicemente individuato delle categorie, nella scala ordinale possiamo individuare
l’ordine ma anche le categorie. Quindi nella scala successiva sono presenti tutte le
25
caratteristiche che abbiamo individuato nella scala precedente( di ordine meno
evoluto). Ne consegue che gli indici di statistica descrittiva che individuo in una scala
a intervallo non li posso adottare in una scala nominale, ma invece posso adottare gli
indici di statistica descrittiva che individuo in una scala nominale a una scala a
intervallo.
Gli indici di statistica descrittiva sono:
- gli indici di tendenza centrale: moda, media, mediana
- gli indici di posizione: quartili, percentuali, rango percentile
- gli indici di dispersione di variabilità: varianza, deviazione standard, gamma,
differenza e semidifferenza interquartilica
Ora proviamo a individuare gli indici di statistica descrittiva che sono consentite per
ogni livello di scala:
- a livello di scala nominale abbiamo indici di tendenza centrale (solo moda) e indici
di dispersione. Per quanto riguarda gli indici di dispersione, quando abbiamo
introdotto la variabile genere, abbiamo individuato 2 categorie che in statistica
descrittiva sono dette classi di equivalenza, perché sulla base della relazione di
equivalenza ho messo tutte le femmine da una parte e tutti i maschi dall’altra parte.
Quindi il numero di classi di equivalenza corrisponde alle categorie di una
variabile; quindi la variabile genere si distribuisce secondo 2 classi di equivalenza.
Quindi il numero di classi di equivalenza (categorie) è l’indice di dispersione di
variabilità consentito a livello di scale nominale. A livello di scala nominale non
posso calcolare gli indici di posizione perché non c’è un ordine.
- a livello di scala ordinale abbiamo come indici di tendenza centrale la moda e
mediana (anche la mediana perchè nella scala ordinale abbiamo un ordine-), come
indici di posizione i quartili, i percentili e i ranghi percentili e come indici di
dispersione i numeri di classi di equivalenza.
- a livello di scala a intervalli: la scala a intervalli ha tutte le caratteristiche delle
scale precedenti: per cui posso avere l’equivalenza (perchè un soggetto può avere la
stessa valutazione di un altro soggetto), l’ordine e la distanza (cioè devo decidere
un’unità di misura attraverso la quale poter poi confrontare i soggetti). Nella scala a
intervalli abbiamo gli indici di tendenza centrale delle scale precedenti e quindi la
26
moda e la mediana e in più anche la media. La media è l’indice di tendenza centrale
tipico della scala a intervallo. Come indici di posizione nella scala a intervallo
abbiamo gli stessi della scala ordinale (quartili, percentuali, ranghi percentuali) e in
più i punti z (o valore standard) che rappresentano quanto un dato dista dalla media
in termini di deviazione standard. AttCome indici di dispersione di variabilità nella
scala a intervallo abbiamo la deviazione standard, la varianza, la gamma, la
differenza interquartilica e la semidifferenza interquartilica. Nel calcolare la gamma
così come nel calcolare la differenza e la semidifferenza interquartilica noi
effettuiamo un operazione che è la differenza per cui la possiamo calcolare solo a
livello di scala a intervallo perché nella scala a intervallo -e non nella scala
ordinale- i numeri hanno un valore quantitativo e quindi è consentito il calcolo di
una distanza. Quando uso in una scala a intervalli la deviazione standard e quando
la gamma o la differenza/semidifferenza interquartilica? Quando devo associare un
indice di dispersione alla media - e quindi sono interessata a cosa accade al centro
della distribuzione- uso la deviazione standard; invece se sono interessata a cosa
accade agli estremi della distribuzione posso utilizzare la gamma o la differenza
interquartilica.

Ripasso indici di statistica descrittiva:


1. Indici di tendenza centrale: servono per determinare i valori centrali di una
distribuzione di dati.
Moda (Mo): classe che ha il maggior numero di elementi; è quel valore che
compare con maggiore frequenza. es. nell’insieme di 9 numeri X:
{1,2,5,5,5,2,4,7,1}, la moda è 5 perché questo è il valore che appare più volte (3
volte).
Mediana (Mdn): è quel valore che occupa la posizione centrale in un insieme di
dati disposti in ordine crescente. Si calcola in modo diverso a seconda che n
(numero di dati) sia pari o dispari:
- se n è dispari la mediana corrisponde al valore nella disposizione ordinata che
occupa la posizione (n+1)/2. es. n=5 X:{2,3,5,7,9}. La mediana è quel valore

27
nella distribuzione che occupa la 3° posizione (n+1)/2=(5+1)/2= 3. Quindi
Mdn=5.
- se n è pari: 2 casi:1) se la scala è ordinale la mediana corrisponde a 2 valori,
rispettivamente quelli che occupano nella distribuzione ordinata la posizione (n/
2) e (n/2)+1. Es. X={1,2,3,5,6,7,8,9}. La mediana corrisponde a quei valore nella
distribuzione che occupa la 4° e la 5° posizione (n/2)=8/2=4 e (n/2)+1=(8/2)+1=5
Quindi Mdn=5 e 6. 2) se la scala è a intervalli faccio come nel punto 2 per
invidiare 2 valori della mediana (Mdn=5,6) ma poi faccio la media aritmetica fra
2 valori centrali: Mdn=(5+6)/2=5.5.
Media (X): è quel valore che si ottiene sommando tutti i dati e dividendo il totale
per il numero complessivo dei dati. Es.n=25
X={2,1,1,1,2,2,3,3,3,4,3,4,4,5,4,4,5,5,6,7,5,5,6,7,8}. La media è data da:
(1·3+2·3+3·4+4·5+5·5+6·2+7·2+8·1)/25=4
2. Indici di posizione: servono per individuare che posizione occupa uno specifico
dato o valore in una posizione ordinata di dati.
Quartili (Q1,Q2,Q3,Q4): dividono la distribuzione in 4 parti di uguale numerosità.
- Q1:è quel valore della distribuzione che ha il 25% delle frequenze dei valori al
di sotto e il 75% al di sopra.
- Q2:è quel valore della distribuzione che ha il 50% delle frequenze dei valori al
di sotto e il 50% al di sopra. Corrisponde alla mediana.
- Q3:è quel valore della distribuzione che ha il 75% delle frequenze dei valori al
di sotto e il 25% al di sopra.
- Q4:è quel valore della distribuzione che si colloca al di sopra del 100% delle
frequenze.
Percentili (Pm): dividono la distribuzione in 100 parti. Es. 30° percentile è quel
valore numerico al di sotto del quale sta il 30% dei dati.
Ranghi percentili (Rp(x)): il rango percentile di un dato x è la percentuale di dati
che si trova al di sotto di x. Per calcolare (Rp(x)) occorre:
- ordinare i dati;
- contare i dati che assumono valori < o = al dato x cioè quante frequenze si
accumulano fino a x: chiameremo questo valore k;
28
- si calcola la percentuale di k rispetto al numero totale dei dati: (k/n)·100
Es. n=11 X={8,15,18,16,20,21,23,7,22,17,19}. Per calcolare Rp(18):
- ordino i dati X={7,8,15,16,17,18,19,20,21,22,23,};
- conto i dati che hanno valore < o = a 18; quindi k=6;
- calcolo Rp(18) facendo (6/11)·100=54.55
Punto z o valore standard (zi): rappresenta quanto un dato valore, dato o soggetto
di cui abbiamo il punteggio greggio dista dalla media in termini di deviazione
standard. La deviazione standard diventa quindi l’unità di misura.
3. Indici di dispersione della variabilità: servono per avere info sulla dispersione
dei dati in una distribuzione.
Numeri di classi di equivalenza (N.d.E.): quante categorie o classi sono
utilizzate per misurare un insieme di elementi. Se il N.d.E. è alto, i dati sono molto
sparpagliati cioè dispersi. Se il N.d.E. i dati tendono a distribuirsi in poche classi e
sono quindi più concentrati.
Varianza(s2) e Deviazione standard (s): sono indici di dispersione di variabilità
che stanno ad indicare lo scarto, quanto il soggetto dista dalla media. La varianza è
l’indice di variabilità di tipo quadratico, mentre la deviazione standard è l’indice di
variabilità di tipo metrico. La deviazione standard si calcola sommando le
deviazioni dalla media di ogni dato moltiplicate al quadrato e dividendo il risultato
così ottenuto per n. La deviazione standard è la radice quadrata della varianza.
s2=∑(valore-media)2/n
s=√s2
Gamma (G): differenza fra il valore massimo e il valore minimo di un insieme di
dati. G= valore max-valore minimo
Differenza interquartilica(D.I.) e Semidfifferenza interquartilica(S.I.):la
differenza interquartilica(D.I.) consiste nella differenza fra 1° e 3° quartile e la
semidifferenza interquartilica(S.I.) consiste nella metà della differenza
interquartilica.
Differenza interquartilica(D.I.)=Q1-Q3
Semidifferenza interquartilica(S.I.)=(Q1-Q3)/2=D.I./2


29
SCALE DI MISURAZIONE

Tipo di scala Caratteristiche Indici di statistica


descrittiva

Scala nominale - fa una classificazione: suddivide gli elementi in - indice di tendenza


(scala qualitativa) categorie (o classi di equivalenza)in base alla centrale: moda
presenza o meno di una data caratteristica; - indice di posizione:
- i numeri hanno solo un valore qualitativo, non moda, mediana
hanno alcun valore quantitativo cioè i numeri - indice di dispersione
sono solo etichette, simboli distintivi; della variabilità:
- assegno numeri diversi a categorie diverse. numero di classi di
equivalenza

Scala ordinale - oltre a costruire delle classi di equivalenza - indici di tendenza


(scala qualitativa) come la scala nominale, ordina le classi di centrale:moda,
equivalenza rispetto al gradini cui godono mediana
della caratteristica, da quella che ne gode di - indici di posizione:
meno a quella che ne gode di più; quartili,percentili,
- consente di affermare che un elemento o una ranghi percentili
classe gode meno o di più di una data - indice di dispersione
caratteristica in esame, ma non consente di della variabilità:
stabilire di quanto differiscono i due elementi o numero di classi di
le due classi; equivalenza
- i numeri indicano semplicemente l’ordine con
cui sono disposti rispetto al grado di possesso
di una caratteristica.

Scala a intervalli - oltre ordinare gli elementi o le classi di - indice di tendenza


(scala quantitativa) equivalenza , possiamo precisare la distanza centrale: moda,
fra le classi o gli elementi stessi sulla comune mediana, media
caratteristica (dire non solo che x ha meno o - indici di posizione:
più caratteristica di y ma anche di quanto); quartili,percentili,
- 0 arbitrario ranghi percentili,
- unità di misura arbitraria ma costante e punti z
invariate lungo tutta la scala; - indici ci dispersione
- i numeri hanno un valore quantitativo; della variabilità:
informano sulla distanza fra le classi sulla varianza, deviazione
comune caratteristica. standard,
gamma,differenza e
semidifferenza
interquartilica

30
SCALE DI MISURAZIONE INDICE DI INDICI DI INDICE DI
TENDENZA POSIZIONE DISPERSIONE
CENTARLE DELLA
VARIABILITA’

Scala nominale sì: moda no sì: numero di classi di


equivalenza

Scala ordinale sì: moda, mediana sì: quartili,percentili, sì: numeri di classi di
ranghi percentili equivalenza

Scala a rapporti sì: moda, mediana, sì: quartili,percentili, sì: varianza,


media ranghi percentili deviazione standard,
gamma, differenza e
semidifferenza
inetrquartilica

INDICE DESCRITTIVI O STATISTICHE

A cosa servono? Quali sono?

Indici di servono per determinare i valori centrali di una - moda(Mo)


tendenza distribuzione di dati - media
centrale - mediana(Mdn)
Indici di servono per individuare che posizione occupa uno - quartili(Q1,Q2,Q3,Q4)
posizione specifico dato o valore in una posizione ordinata - percentili(Pm)
di dati - ranghi percentili(Rp(x))
- punto z (o valore
standard)

Indici di servono per avere info sulla dispersione dei dati in - numero di classi di
dispersione della una distribuzione equivalenza(N.d.E)
variabilità - differenza
interquartilica(D.I)
- semidifferenza
interquartilica (S.I.)
- gamma (G)
- varianza (s2)
- deviazione standard(s)

31
Funzione normale
La funzione normale:
- è una funzione teorica di probabilità di tipo continuo (perché l’area sottesa della
funzione è rappresentata da un integrale e quindi se è rappresentata da un integrale
vuol dire che abbiamo una funzione di tipo continuo);
- è definita da una curva a campana (gaussiana) e l’area sottesa alla curva è uguale
a 1 (1 perché stiamo lavorando con funzioni teoriche di probabilità e abbiamo detto
che la probabilità va da 0 a 1). Quindi l’area sottesa alla curva a campana va da 0 a
1 perché esaurisce tutta la funzione teorica di probabilità;
- è caratterizzata in ascissa da un dominio di valori e numeri reali che va da -
infinito (-∞) a + infinito (+∞);
- in ordinata la sua curva è continua;
- è simmetrica rispetto alla sua media (cioè la parte che va da -∞ alla media è
perfettamente identica e speculare all’altra parte che va dalla media a +∞) e
unimodale (ha solo una moda);
- è definita da 2 parametri: la media(µ) e la deviazione standard(σ)1:

Formula della distribuzione normale:

Come possiamo notare dalla formula nella formula ci sono delle costanti (π) mentre
ciò che varia sono la media e la deviazione standard. Per cui al variare di questi 2
parametri io posso ottenere tante funzioni normali. Quindi ho tantissime funzioni
normali. Al variare della media e della deviazione standard ottengo tante funzioni
normali tantè che si parla di “famiglia di funzioni normale”.
Se rimane invariata la media ma cambia la deviazione standard: la curva si
appiattisce se la deviazione standard aumenta, la curva si appuntisce se se
deviazione standard diminuisce.

1 media e deviazione standard nella statistica descrittiva erano indicate con diversa simbologia.
32
Se mantengo costante la deviazione standard e cambio la media, la curva si sposta
sull’asse delle ascisse. Quindi io posso variare o solo la media o solo la variazione
standard o le posso variare entrambe. Per cui posso ottenere tante funzioni normali
al variare della media e della deviazione standard. E’ per questo che si dice che la
funzione normale è definita da 2 parametri: la media e la deviazione standard.

Se cambio la media e mantengo costante la deviazione standard, la forma delle 2 curve è


identica perché la deviazione standard è rimasta costante, ma c’è uno spostamento della curva
sull’asse delle ascisse.

Se mantengo costante la media e cambio la deviazione standard, ottengo 2 curve di forme di


curva diversa. Nell’esempio 1 la deviazione standard è maggiore nella seconda curva rispetto alla
prima per cui la seconda curva la curva è più schiacciata. Nell’esempio 2 la deviazione standard è
minore nella seconda curva rispetto alla prima per cui la seconda curva la curva è appuntita della
prima perché c’è minore variabilità.

- ha dominio che va da -∞ a +∞ (ciò significa che sono previsti sia valori positivi che
negativi);
- ha moda, mediana e media coincidono e cadono perfettamente al centro della curva;
- è crescente per i valori che vanno da -∞ alla media e decrescente per i valori che
vanno dalla media a +∞. Quindi da -∞ alla media la curva cresce e poi dalla media a
+∞ la curva decresce;
- presenta 2 flessi in corrispondenza dei punti (µ-σ) e (µ+σ) cioè se proiettiamo i due
punti di flesso sull’asse delle ascisse otteniamo la deviazione standard;
33
- al variare di media e deviazione standard posso ottenere tante funzioni normali
perché se io proietto il punto di flesso sull’asse delle ascisse ottengo la deviazione
standard.

FUNZIONE NORMALE

- funzione teorica di probabilità di tipo continuo


- definita da una curva a campana (gaussiana)
- l’area sottesa alla curva che va da -∞ a +∞ è uguale a 1
- in ascissa è caratterizzata da un dominio di valori e numeri reali che va da -∞ a +∞
- in ordinata la curva è continua
- è crescente per i valori che vanno da -∞ a μ e decrescente per i valori che vanno da μ a
+∞
- la curva è simmetrica rispetto alla media (μ)
- media, moda e mediana coincidono (μ=Mo=Mdn)
- è crescente per i valori che vanno da -∞ a μ e decrescente per i valori che vanno da μ a
+∞
- presenta due punti di flesso in corrispondenza dei valori (μ- σ) e (μ+σ) e se proiettiamo i
due punti di flesso sull’asse delle ascisse otteniamo la deviazione standard (σ)
- è definita da due parametri: la media (μ) e la deviazione standard
- al variare di media e deviazione standard posso ottenere tante funzioni normali
- è definita dalla funzione:

Abbiamo detto che noi possiamo avere tantissime funzioni normali al variare della
media e della variazione standard, ma noi abbiamo bisogno di una sola funzione
normale per poterci riferire a quella. Per cui ora trasformiamo la funzione normale in
funzione normale standard. Per trasformare la funzione normale in funzione normale
standard dobbiamo sostituire i valori x della variabile in punti z, usando la seguente
formula:

zi=(xi-µ)/σ

indica quanto il valore xi dista dalla media in termini di deviazione standard

Trasformando i punteggi grezzi della funzione normale in punti z, trasformo la


funzione normale in funzione normale standard. La funzione normale standard
mantiene le stesse caratteristiche della funzione normale che è rappresentata dalla
seguente funzione:

34
FUNZIONE NORMALE STANDARD

- si ottiene trasformando i punti grezzi della funzione normale in punti z con la sg. formula:
- ha le stesse caratteristiche della funzione normale
- è definita dalla funzione

L’area sottesa alla distribuzione normale standard è sempre 1 ma il vantaggio è che io


posso usare le tavole della funzione normale (pag.238 libro di Psicometria)
Come si fa a leggere la tavola della distribuzione normale standard?
Abbiamo detto che la tavola è simmetrica per cui vengono riportati solo i valori
positivi tant’è sopra alla tavola c’è scritto “Area della distribuzione normale standard
tra a=0 e b>0”. Quindi se la mia distribuzione nomale standard ha media=0, io ho
riportati solo i valori positivi ma so che i valori che vanno da media a -∞ sono
speculari a quelli che vanno da 0 a +∞. Quindi la probabilità sottesa all’area fra -∞ e
media=0 è identica a quella fra media=0 e +∞.
Nella 1° colonna della tavola sono riportati i punti z. I punti z mi danno fino alla prima
cifra decimale (0,1); se voglio la seconda cifra decimale del punto z devo guardare la
prima riga in alto. La prima riga in alto mi da la seconda cifra decimale del punto z.
es. qual’è l’area compresa fra la media e il punto z=1.72? Vado a cercare nell’ultima
colonna a sx. 1.7, resto su quella riga e incrocio con il 2 della prima riga in alto.
Quindi l’area di probabilità compresa fra media=0 e punto z=1.72 è 0.4573 che si
scrive P(0<z<1.72)=0.4573.
Qual’è l’area compresa fra la media=0 e il punto z=1.14? L’area compresa fra
media=0 e punto z=1.72 è 0.3729. Quindi la probabilità che va da media=0 al punto
z=1.14 è 0.3729 (0<z<1.14)=0.3729.
Qual’è la probabilità sottesa fra media e punto z=−1.81? Noi sappiamo che la
probabilità sottesa all’area fra -∞ e media=0 è identica a quella fra media=0 e +∞, per

Funzione della distribuzione normale standard:

35
RICORDA: LA PROBABILITA’ NON è MAI NEGATIVA!!!!!

cui vado a vedere sulla tavola la probabilità dell’area sottesa fra 0 e +1.81 e questa
probabilità sarà la stessa dell’area sottesa fra 0 e −1.81. Quindi P(−1.81<z<0)=0.4649.
Attenzione!!!la probabilità è sempre compresa fra 0 e 1 (2° assioma della probabilità:
0≤P(E)≥1) per cui non mi saltasse mai in mente di metterci un meno davanti (MAI:
P(−1.81<z<0)=−0,4649).
Qual’è la probabilità sottesa fra media=0e punto z=−1.96? P(−196<z>0)=0.4750.
Attenzione!!!la prof in un esercizio ci può dare un campione di cui ho i punteggi grezzi
(x) che devono ancora essere trasformati in punti z oppure può dire di trovare la
probabilità utilizzando la distribuzione normale standard. Se troviamo nell’esercizio
indicato x vuol dire che sono punti grezzi e prima di calcolare la probabilità dobbiamo

Ricorda:
z=punti z posso calcolare direttamente la probabilità sottesa all’area della curva
compresa fra la 0 e punto z.
x=punti grezzi—>devo trasformarli in punti z per trovare la probabilità

trasformarli in punti z. Se invece nell’esercizio la Prof mi da i punti z devo solo


calcolare la probabilità sottesa all’area della curva, utilizzando la tavola.
Fino ad ora abbiamo calcolato la probabilità partendo dal punto z. Ma possiamo fare
anche il percorso inverso cioè possiamo dalla probabilità risalire al punto z.
es.1: Individuare la probabilità di un punto z compreso fra 0 e b dove b è l’incognita.
L’intervallo compreso fra 0 e b deve dare una probabilità di 0.4871? Quindi b è il
punto z. Vado a vedere nella tavola a quale punto z corrisponde P=0.4871 e trovo che

Scrivi per inserire testo

corrisponde al punto z=2.23—>b=2.23.


36
se P(b<z<0)=0.4871 allora b=2.23
es. 2: Individuare la probabilità fra il valore negativo −b(che è la mia incognita) e 0,
sapendo che la probabilità sottesa fra −b e 0 deve essere uguale a 0.4871. La
probabilità 0.4871 mi riporta ancora al punto z=2.23 però siccome nel testo
dell’esercizio mi dice che b è negativo (-b) mi devo ricordare che il punto z è negativo
e quindi devo aggiungere al punto z il meno davanti—>punto z=–2.23
se P(−b<z<0)=0.4871 allora b=−2.23

Scrivi per inserire testo

es. 3: Individuare la probabilità del punto z (+b), sapendo che l’intervallo compreso fra
il punto z positivo e +∞ ha P(b<z<+∞)=0.0495. Come faccio a ottenere b? L’esercizio
mi dice la probabilità relativa all’intervallo che va da b a +∞ e b è l’incognita
dell’esercizio; quindi quello che devo trovare è il valore di b (punto z). Io so che la
probabilità da b a +∞ è 0.0495 P(b<z<+∞)=0.0495, ma per ricavare b devo sapere la
probabilità fra media=a2 =0 e b. Mi devo ricordare che metà della mia curva ha P(0<z<
+∞)=0.50, così come P=(−∞<z<0)=0.50 perché sappiamo che la probabilità associata
all’area sottesa a tutta la curva da -∞ a +∞ è 1. Quindi siccome so che la metà della
curva che va da media=0 a +∞ vale 0.50, sottraggo a 0.50 l’area da b a +∞ per ricavare
l’area da media=a=0 a b. In questo modo ottengo la probabilità dell’area da

2 nella tavola la media è chiamata a=0


37
media=a=0 a b che è 0.4505. Ora vado a vedere a quale punto z corrisponde la
probabilità di 0.4505 e vedo che corrisponde al punto z=1.65.
b=? P(b<z<+∞)=0.0495 P(0<z<b)=0.5−0.0495=0.4505 b=1.65
es. 4: Individuare la probabilità del punto z (-b), sapendo che l’intervallo compreso fra
il punto -∞ a −b ha P(-∞<z<−b)=0.0495. Come faccio a ottenere -b? L’esercizio mi
dice la probabilità relativa all’intervallo che va da -∞ a −b è l’incognita dell’esercizio;
quindi quello che devo trovare è il valore di −b(punto z). Io replico lo stesso discorso
che ho fatto nell’es. precedente perché so che la metà della curva che va da -∞ a
media=0 è simmetrica e identica alla metà della curva che va da media=0 a +∞.
Quindi siccome so che la metà della curva che va -∞ alla media=a=0 vale 0.50,
sottraggo a 0.50 l’area da -∞ a −b per ricavare l’area da −b alla media. In questo modo
ottengo la probabilità dell’area da −b alla media=a=0 che è 0.4505. Ora vado a vedere
a quale punto z corrisponde la probabilità di 0.4505 e vedo che corrisponde al punto
z=-1.65; in questo caso il punto z è negativo perché siamo nella metà negativa della
curva.
−b =? P(-∞<z<−b)=0.0495 P(−b<0<0)=0.5-0.0495=0.4505 −b=−1.65

Scrivi per inserire testo

es. 5: P(-1.87<z<1.54)=?
P(-1.87<z<0)=0.4693
P(0<z<1.54)=0.4382
P(-1.87<z<1.54)=0.4693+0.4382=0.9075

Scrivi per inserire testo

38
es. 6: P(1.12<z<2.01)=?
P(0<z<1.12)=0.3686
P(0<z<2.01)= 0.4778
P(1.12<z<2.01)= 0.4778-0.3686=0.109

Scrivi per inserire testo

39
La funzione di probabilità di Κ2
E’ una funzione di probabilità di tipo continuo (come la funzione di probabilità della
distribuzione normale).
Data una variabile casuale distribuita normalmente (ricorda: noi sappiamo che una
distribuzione normale ha media (µ) e la deviazione standard (σ)3 ), se dall’insieme di
valori x di questa variabile casuale decidiamo di estrarre un campione di n4 valori
otteniamo tanti valori che vanno da x1 a xn. Quindi i valori estratti li trasformo in punti
z e li elevo al quadrato. Una volta che ho elevato al quadrato tutti i punti x trasformati
in punti z, li sommo. Nel momento in cui li sommo ottengo il valore di Κ2.
Ricorda:
zi=(xi-μ)/σ

Come ottengo Κ
- dall’insieme di valori della variabile casuale distribuita normalmente, estraggo un
campione di
- ogni punto x lo trasformo in punto z
- elevo ogni punto z al quadrato
- sommo tutti i punti z elevati al quadrato

La differenza sostanziale fra la distribuzione normale e la distribuzione del Κ2 è che


la distribuzione normale va da -∞ a +∞ e quindi ha anche valori negativi, mentre la
distribuzione del Κ2 proprio perché elevo al quadrato tutti i punti z non può mai essere
negativa e quindi va da 0 a +∞ (solo valori positivi).

Distribuzione della funzione normale Distribuzione del Κ2

valori negativi e positivi valori solo positivi

va da -∞ a +∞ va da 0 a +∞

3 o varianza (σ2)
4 campione di valori di numerosità n
40
l Κ2 è dato dalla sommatoria di tutti i punti z elevati al quadrato fino ad n (n che è il
numero massimo del valore del campione estratto).

Ipotizziamo che la numerosità n del campione da estrarre sia 1 (quindi estraggo un


solo valore), il Κ2 sarà dato solo da quel punto z elevato al quadrato. Nella
distribuzione normale standard la probabilità del punto z=1 è 0.3413 che è la stessa
del punto z=−1. La probabilità che va da −1 a 1 è 0.68 perché se P(−1<z<0)=0.3413 e
P(0<z<1) allora P(-1<z<1)=0.3413= 0.3413+0.3413=0.68.
Dato che il Κ2 sono punti z elevati al quadrato, se considero un valore 1, io devo
considerare l’intervallo che va da -1 a 1 e quindi sul Κ2 da 0 a 1 troverò quello che
nella distribuzione normale standard è compreso fra -1 e 1 perché nel Κ2 tutti i valori
negativi del punto z li devo elevare al quadrato, quindi non faccio altro che
raddoppiare il valore. Quindi la probabilità che nella distribuzione normale standard
fra -1 e 1 è 0.68, nella distribuzione del Κ2 questa probabilità è associata a valori che
vanno da da 0 a 1: perciò quando andiamo a vedere il Κ2 associato a 1 sappiamo che in
quell’1 è compreso quello che nella distribuzione normale standard era anche il -1.
L’intervallo della distribuzione normale standard che va da -1 a 1 nella distribuzione
del K21(al pedice metto la numerosità del campione che ho estratto) lo trovo fra 0 e 1. Diventa quindi
rilevante la numerosità del campione.
Se n=2 , K22 (pedice metto la numerosità del campione che ho estratto) è composto dal 2 punti z: punto z
di 1 al quadrato più punto z di 2 al quadrato.
Se n=3, il K23 sarà costituito dalla somma di 3 punti z: il punto z di 1 al quadrato più
il punto z di 2 al quadrato più il punto z di 3 al quadrato.
Quindi il pedice del K2 mi indica la numerosità del campione che è stato estratto dalla
distribuzione normale iniziale.

41
Mentre la distribuzione normale è definita da media e deviazione standard, per la
distribuzione del K2 èrilevante la numerosità del campione cioè la distribuzione del K2
dipende molto da n. In realtà ad essere rilevante non è proprio n ma i gradi di libertà
(gdl,gl o df=degress of freedom).
Ora ipotizziamo di avere una somma=24 e questa somma è costituita come numerosità
da 3 addendi: il primo addendo è 12, il secondo è 10 e il terzo addendo deve essere per
forza 2. Quindi il terzo addendo è vincolato alla somma. I primi due addendi sono
liberi di variare, mentre il terzo addendo è vincolato. Quindi se la somma è costituito
da 3 addendi 2 sono i gradi di libertà, cioè 2 li posso scegliere liberamente, mentre il
terzo è vincolato a quella somma. Quindi i primi 2 addendi rappresentano i gradi di
libertà. I gradi di libertà saranno quindi dati dalla numerosità del campione meno 1:
gdl=n-1 che nel nostro caso è gdl=23-1 cioè 23 sono liberi di variare mentre uno è
vincolato.

gdl=n-1
dove n è la numerosità del campione che ho estratto

Proprietà della funzione di K2:


- in ascissa, il suo dominio va da 0 a +∞ perché sono punti z elevati al quadrato (solo
valori positivi); quindi quando disegno la funzione del k2 è fatta come segue (va da
0 a +∞);

42
- in ordinata la curva è continua; per cui l’area sottesa alla funzione -rappresentata da
un integrale che va da 0 a +∞-è = a 1;
- è definita dai gradi di libertà che rappresentano il numero di addendi z2
indipendenti dalla somma che genera il K2;.quindi io so che gli addendi (n) del K2
sono costituiti da punti z elevati al quadrato e io li posso scegliere tutti i miei K2 ad
eccezione dell’ultimo che è vincolato alla somma. Quindi i gradi di libertà sono dati
da n dove n rappresenta il numero di addendi (nel nostro caso erano 24) –1. Quindi
24-1=23 e 23 sono gli addendi liberi di variare e per questo si chiamano “gradi di
libertà.
Es. Se ho una somma di 74 addendi che sono 4, 9, 25,36 e so che gli addendi devono
essere per forza 4, l’ultimo addendo sarà vincolato dalla somma di 74.

Quando faremo inferenza e dovrò guardare la tavola del K2 la prof mi dovrà indicare
la probabilità di errore e la numerosità del campione per poter ricavare dalla
numerosità del campione il numero di gradi di libertà facendo gdl=n–1.
La distribuzione di K2 varia la sua forma al variare dei gradi di libertà (e quindi della
numerosità): man mano che aumentano i gdl la curva tende ad avere una forma
gaussiana cioè si approssima sempre di più a una curva gaussiana.

43
Funzione di K2
- è una funzione di probabilità di tipo continuo (come la funzione normale);
- in ascissa, il suo dominio va da 0 a +∞ perché sono punti z elevati al quadrato.
Quindi la funzione del K2 ha solo valori positivi(mentre la funzione normale
aveva sia valori + che negativi);
- in ordinata la curva è continua: per cui l’area sottesa alla funzione -rappresentata
da un integrale che va da 0 a +∞-è = a 1;
- definita dai gradi di libertà che rappresentano il numero di addendi z2
indipendenti dalla somma che genera il K2.

44
Percorso di un progettazione di ricerca
1. problema della ricerca
2. variabili del problema
3. ruolo della variabile:
- indipendente
- dipendente
4. modello di analisi:
- univariato
- bivariato
- multivariato
5. misurazione delle variabili:
- nominale
- ordinale
- a intervalli

- variabili discrete (dette anche categoriche o categoriali): nominali e e ordinali—>qualitative


- variabili continue: a intervallo o a rapporto—>quantitative (unità di misura)

6. soggetto della ricerca:


- popolazione (insieme)
- campione (sottoinsieme)
7. formulazione delle ipotesi della ricerca
—————————————————————————————————————
1. Problema della ricerca: perché sto mettendo insieme uno studio? che cosa voglio
studiare? posso essere interessato ad es. un processo cognitivo, un processo di
apprendimento, un comportamento, un pregiudizio, determinate patologie, ecc.
2. Variabili del problema: quando definisco il problema della ricerca non posso fare a meno
di pensare già alle variabili. Nello studio posso essere interessata ad indagare la
relazione fra diverse variabili ad es. se esiste una relazione fra età e sviluppo del
pensiero; se esiste una relazione fra aggressività e atteggiamento nei confronti di
determinati gruppi; se esiste una relazione fra genere e disturbo(perchè alcuni disturbi
possono svilupparsi più nel genere maschile o nel genere femminile); se esiste una

45
relazione fra risorse e coping. Definizione di variabile: la variabile è una
caratteristiche che si presenta con modalità uguali o diverse in individui diversi. Es.
di variabili: abilità cognitiva, atteggiamento, ansia, tipo di disturbo, età, scolarità.
Quando penso alle variabili del mio problema devo pensare già a che livello di
misurazione si collocano quelle variabili. Perché quando misuro in psicologia non posso
mai perdere di vista il sistema relazionale empirico.
3. Ruolo della variabile: la variabile è dipendente o indipendente? nel momento in cui
stabilisco una relazione fra genere e disturbo, io posso già decidere a priori quale è la
variabile dipendente e qual’è la variabile indipendente: ad es. se le mie due variabili
sono genere e disturbo, la dipendente è il disturbo e l’indipendente è il genere. Io posso
anche avere un approccio di un altro tipo cioè non decidere a priori qual’è la dipendente
e l’indipendente ma semplicemente cercare di capire qual’è la relazione fra le 2 variabili.
4. Modello di analisi: qual’è il modello di analisi che voglio utilizzare all’interno di queste
variabili? Il modello di analisi può essere univariato (modello che mi consente di
considerare una variabile alla volta), bivariato (modello che mi consente di considerare 2
variabili alla volta) o multivariato (modello che mi consente di considerare più di 2
variabili alla volta: da 3 in su si parla di modello multivariato).
5. Misurazione delle variabili: nominale, ordinale, a intervalli. nel momento cui decidiamo
il problema della ricerca e individuiamo le variabili dobbiamo decidere a che livello di
misurazione raccogliere queste variabili: a livello di scala nominale, a livello di scala
ordinale o a livello di scala a intervalli (è raro trovarle a livello di scala a rapporto). Ad
es. se lavoriamo con la variabile genere, sappiamo che la variabile genere si esprime a
livello di scala nominale. Se invece lavoriamo con un costrutto, il costrutto lo possiamo
raccogliere attraverso un test e quindi stiamo lavorando a livello di scala a intervallo
oppure possiamo raccogliere sotto forma di intervista o di domande strutturate a livello
categorico e quindi stiamo decidendo di utilizzare una scala a livello nominale o
ordinale. Nel momento in cui decido il problema della ricerca e individuo le variabili,
già sto pensando a priori a che livello di misura devo raccogliere la mia variabile perché
il livello di misura che decido per misurare la mia variabile inciderà non solo sugli indici
di statistica descrittiva ma anche sul modello di analisi. Il tipo di scala di misura che

46
decido di utilizzare mi consente di distinguere anche fra tipi variabili discrete e
continue.
- le variabili discrete (dette anche categoriche o categoriali) si esprimono a livello di
scala nominale e ordinale. Le variabili discrete sono ben distinte in classi; abbiamo
visto che le classi di equivalenza corrispondono alle categorie distinte. Ecco perché a
livello di scala nominale e ordinale si parla di dati discreti.
- le variabili continue si esprimono a livello di scala a intervallo o a livello di scala a
rapporto.
6. Soggetto della ricerca: possiamo in maniera molto generale definire la popolazione come
insieme e il campione come sottoinsieme. Quando facciamo ricerca e vogliamo studiare
una variabile, non è parsimonioso raggiungere tutta la popolazione, l’insieme; quindi noi
lavoriamo con il campione, un sottoinsieme. Per scegliere un campione che sia
rappresentativo di quella popolazione devo usare delle tecniche campionamento.
7. Formulazioni delle ipotesi della ricerca: si parte dalle ipotesi di ricerca che poi vengono
trasformate in ipotesi statistiche. Per formulare le ipotesi della ricerca devo tener conto
del problema della ricerca, delle variabili e dei soggetti.
—————————————————————————————————————
Esempio:
- Problema della ricerca: relazione fra età e sviluppo del pensiero
- Variabili del problema: v1=età v2=sviluppo del pensiero
- Soggetti: adolescenti fra 11 e 15 anni
- Livello di misurazione delle variabili: v1=età= intervalli o rapporto o ordinale (in caso di
fasce di età) v2=sviluppo del pensiero=test che misurano lo sviluppo del pensiero
- Modello di analisi per il controllo delle ipotesi di ricerca: molteplici. La scelta del metodo
di analisi tiene conto del tipo di variabile (variabile a livello di scala nominale, ordinale o
a intervallo), della numerosità del campione e di come si distribuiscono i dati nella
popolazione. Se dalla letteratura sappiamo che nella popolazione i dati si distribuiscono
secondo la distribuzione normale o si approssimano alla normale possiamo utilizzare
determinati metodi di analisi. Se non abbiamo info sulla distribuzione dei dati diventa
rilevante la numerosità (n): più n del campione è elevato più è probabile che ci sia una
distribuzione che si approssima alla normale e quindi posso se sono a livello di scala a
47
intervallo utilizzare determinati livelli di analisi. Quindi diventa rilevante la numerosità,
il livello di misurazione e le info su come si distribuiscono i dati nella popolazione da cui
quei dati li ho estratti.
- Ipotesi della ricerca (che poi diventano ipotesi statistiche): prima formulo le ipotesi di
ricerca poi trasformo le ipotesi di ricerca in ipotesi statistiche. Le ipotesi statistiche si
formano relativamente alle caratteristiche della popolazione a cui appartiene il
campione,l e devo verificare nell’ambito della funzione teorica di probabilità che
caratterizza quella popolazione: parto dal campione, faccio inferenza sul campione per
vedere se quel dato interessante che ho trovato sul campione lo posso generalizzare
all’intera popolazione. Per fare inferenza dobbiamo avere info sulla numerosità della
distribuzione, sul tipo di variabili e sulla distribuzione dei dati nella popolazione.
Attenzione: noi lavoriamo con variabili discrete e quindi con metodi di analisi per variabili
discrete.

48