Sei sulla pagina 1di 94

Lezioni di Psicometria Base del prof. Renato Miceli (a.a.

2014-2015) UNIVERSITA' DEGLI STUDI DI TORINO


Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche
DIPARTIMENTO DI PSICOLOGIA
prof. Renato Miceli
OTTOBRE 2014

Il presente file (in formato PDF) contiene le diapositive che, nel loro insieme, forniscono supporto visivo alle
lezioni del docente. Si raccomanda di NON considerare questo materiale alla stregua di un libro di testo! In
particolare è fortemente sconsigliata la stampa (su carta) di questo materiale. Alcune diapositive possono
essere presenti più volte in questo stesso insieme (doppioni), perchè questa sequenza di diapositive NON
rappresenta necessariamente l'ordine di utilizzo delle medesime a lezione. Inoltre, NON tutte le diapositive qui
riportate sono sempre utilizzate durante le specifiche lezioni dell'anno in corso...
!!! Si ricorda comunque che il presente materiale didattico non sostituisce i libri di testo !!!
Il presente materiale didattico é:
- utile per ripassare, ripensare e riflettere sugli argomenti trattati a lezione;
- utile per approfondire lo studio svolto sui libri di testo, consentendo di
confrontare modi diversi di presentare gli stessi argomenti e disponendo
di specifici esempi, commenti etc.;
- provvisorio e soggetto a continue revisioni e aggiornamenti;
- nella versione qui resa disponibile può risultare incompleto o di difficile lettura
in quanto alcune diapositive sfruttano caratteri, colori e/o animazioni
specifiche del software utilizzato (PowerPoint) che non sono altrimenti
riproducibili.
Lezioni di Psicometria Base del prof. Renato Miceli (a.a. 2014-2015) UNIVERSITA' DEGLI STUDI DI TORINO
Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche
DIPARTIMENTO DI PSICOLOGIA
prof. Renato Miceli
OTTOBRE 2014

Indice degli argomenti

Premessa (il posto della PSICOMETRIA; analfabetismo e snumeratezza)


Introduzione (caratteristiche del corso) ... E DEL PERCORSO...(vedi
presentazione: PERCORSO.PPT)
Il linguaggio delle variabili
• Teoria dei dati (cenni)
• Livelli di scala delle variabili

Statistica descrittiva (mono-bivariata)


• Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
• Forma delle distribuzioni di frequenze (cenni alla teoria dei momenti-prodotto)

Statistica inferenziale
• Teoria della probabilità (cenni)
• Principali distribuzioni di probabilità e loro proprietà
• La logica della decisione in statistica, test sulle ipotesi
• Principali misure di relazione bivariata (per variabili cardinali e categoriali)

Cenni introduttivi all'analisi dei dati


• Regressione lineare (semplice)
• Analisi della varianza (ad una via)
• Scomposizione della variabilità (cenni introduttivi)
Premessa Psicologia  Psicometria  Matematica e Statistica

Settore di ricerca della psicologia che si


PSICOMETRIA occupa della rilevazione e della misurazione
di costrutti (tratti) della mente

psicofisica (Fechner, 1860); relazione fra mente e corpo;


legge della 'soglia' minima percepita (Weber e Fechner).

Thurstone (1928); aspetti soggettivi


(gradimento estetico, preferenze, etc.),
'confronti a coppie' e 'legge dei giudizi comparativi'.
STORICAMENTE
psicologia applicata (studio differenze individuali)
(Galton -- Pearson, 1850-1930).

?
 come rilevare e registrare i fenomeni manifesti
....
PSICOLOGIA
 che legame è possibile stabilire fra fenomeni
manifesti e costrutti teorici METODOLOGIA

MATEMATICA
 quali strumenti di misura utilizzare o costruire
STATISTICA
....
Premessa Psicologia  Psicometria  Matematica e Statistica psicometria: coordinate "geografiche"...

Indagine conoscitiva: (speculazione filosofica; scienza; contemplazione mistica; critica letteraria; etc)
Scienze (della vita)

Psicologia (scienza che studia, descrive, interpreta la fenomenologia dei processi mentali)

Ricerca empirica: (successione di operazioni per produrre risposte a domande sulla realtà)
- produce affermazioni sulla realtà (asserti) o stabilisce nessi fra asserti;
- giustifica le affermazioni su una base empirica;
- produce un sapere controllabile.

Con matrice dati: (operativizzazione)


(si avvale della) Analisi dei dati per:
DESCRIVERE
SPIEGARE MISURARE
INTERPRETARE

(fa ampio uso di) MATEMATICA e STATISTICA


Premessa "Snumeratezza"...

NOTIZIA... <<Gli studenti universitari residenti nel capoluogo

(forse letta su costituiscono l'80% di tutti gli universitari della regione.


un giornale)
Di questo 80%, il 60% termina regolarmente gli studi
universitari>>

<<I universitari del capoluogo anno studiatto beni, ma


potessero fare di più per essere risultanti più bravi ...>>

<<Non v'è dubbio che gli studenti universitari del capoluogo che
terminano regolarmente i propri studi sono la maggioranza di
tutti gli universitari della regione >>

QUANTI SONO IN GRADO


DI STUPIRSI E DI SORRIDERE ANCHE
PER QUESTA SECONDA AFFERMAZIONE'
COSì PALESEMENTE ERRATA?
Lezioni di Psicometria Base del prof. Renato Miceli (a.a. 2014-2015)
Introduzione (1 / 2) Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche

 Il corso intende fornire le competenze preliminari riguardanti i metodi quantitativi e l'analisi dei
dati in psicologia e offrire altresì gli strumenti di base necessari per la comprensione delle teorie
e delle procedure di misura nelle scienze psicologiche

Contenuti
- costruzione e descrizione di variabili (costrutti teorici e variabili, concetto di misura, livelli e tipi di
variabili, matrice CxV, distribuzione di frequenze, operatori di tendenza centrale e di dispersione);

- probabilità e inferenza statistica (calcolo delle probabilità, concetto di variabile casuale, distribuzioni
teoriche di probabilità, distribuzioni campionarie, stima puntuale e intervallare, costruzione delle
ipotesi statistiche e loro controllo);

- studio della relazione tra variabili (forza, direzione e forma della relazione, operatori di associazione,
concordanza e correlazione e loro uso descrittivo e inferenziale);

- cenni introduttivi all’analisi dei dati (analisi della varianza a una via e regressione lineare semplice)

Prerequisiti
conoscenze matematico-statistiche della scuola secondaria

Si raccomanda (soprattutto a chi ne sente il bisogno) la frequenza al corso di "AZZERAMENTO"

In particolare gli argomenti del corso di "azzeramento" si prefiggono di:


- ripassare, uniformare le conoscenze matematico-statistiche acquisite durante gli studi pregressi;
- fornire le conoscenze minime necessarie (propedeutiche) allo studio delle discipline psicometriche e di analisi dei dati;
- aiutare gli studenti ad accostarsi in modo proficuo agli strumenti e alle conoscenze della psicometria, così da agevolare
una visione integrata con gli altri ambiti della psicologia;
Introduzione (2 / 2) Lezioni di Psicometria Base del prof. Renato Miceli (a.a. 2014-2015)
Per il Corso di Laurea Triennale in: Scienze e Tecniche Psicologiche

 Testi di riferimento

R . Albano, S. Testa, Statistica per la ricerca sociale, Carocci, Roma, 2002

Esclusi i paragrafi o sottoparagrafi dei seguenti capitoli:


capitolo 1: 5.2, 5.3;
capitolo 2: 4.2, 5;
capitolo 3: 4.3, 4.8, 5;
capitolo 5: 3.3;
capitolo 6: 6.3, 6.5;
capitolo 7: 2, 3.2, 3.3, 3.4

Ulteriori indicazioni di testi facoltativi da utilizzare per eventuale approfondimento e/o consultazione:

- M. Cardano, R. Miceli (a cura di), Il linguaggio delle variabili, Rosenberg&Sellier, Torino, 1991 (parte prima e seconda).
- R . Miceli (a cura di), Numeri, dati, trappole, Carocci, Roma, 2004 (in particolare i cap. 1, 2, 4).
- A . Areni, T. Scalisi, A. Bosco, Esercitazioni di psicometria, Masson, Milano, 2005.
- C . Primi, F. Chiesi, Introduzione alla psicometria, Laterza, Bari, 2005.

 Le lezioni del corso riguarderanno prevalentemente gli argomenti trattati nel testo di riferimento; specifici
approfondimenti o estensioni potranno, tuttavia, essere realizzate (ad esempio le lezioni qui dette di "azzeramento").
Resta inteso che l'esame verterà esclusivamente sulle parti del testo di riferimento così come indicato nel programma
ufficiale del corso e qui sopra riportato.

L'esame è orale. Una parte, anche consistente, di domande (del tipo a "scelta multipla") potrà essere
formulata in modalità scritta (correzione, valutazione e validità saranno contestuali).
Gli studenti degli anni precedenti possono portare all'esame il programma dell'anno di riferimento;
l'esame è orale

 Il ricevimento studenti si svolge (di norma) il giovedì pomeriggio (h. 15-17) previo
appuntamento tramite e-Mail all'indirizzo: r.miceli@univda.it

 Il materiale didattico usato dal docente durante il corso (appunti, diapositive,


etc.) verrà reso disponibile agli studenti al termine delle lezioni
"Teoria" e "Dati" condividono una stessa natura congetturale
Teoria dei dati (cenni)
<<I dati non esistono al di fuori delle operazioni che il ricercatore compie in rapporto a un
determinanto quadro di riferimento teorico>>

<<I cosiddetti "dati" non crescono nei prati e i ricercatori non li raccolgono, essi sono
piuttosto "costruiti" dal ricercatore stesso attraverso procedure di interpretazione e di
attribuzione di significato>>
trascrizione (su un qualche
Qualche definizione: definisce una qualche supporto) di un "fatto" (risultato
caratteristica dell’entità di un PROCESSO DI
(Oggetto) sotto osservazione DATO RILEVAZIONE)
CONCETTO, (Idea),
COSTRUTTO TEORICO,
TRATTO, PROPRIETA' insieme di REGOLE (algoritmo,
procedura) che governa la
rilevazione e che permette di
evento semplice, asserto rilevare lo STATO di un oggetto VARIABILE..
descrittivo intersoggettivamente DEFINIZIONE (o caso) rispetto ad una
FATTO condiviso (il valore segnato dalla OPERATIVA proprietà (trasformando
lancetta della bilancia; l'osservazione in un "fatto")
il contenuto del documento
amministrativo; la risposta scritta
sul foglio di carta; etc.)
<< [oggettività nella scienza] ... non
implica che lo scienziato si
distacchi freddamente dall’oggetto
dei suoi studi, né che egli tratti la
CONCETTO DATO gente come oggetti anziché come
persone. Essa non comporta
neppure che ciò che lo scienziato
osserva sia ciò che realmente
accade. Oggettività significa che
delle persone, che avessero
guardato sopra la spalla dello
ENTITA' (OGGETTO) STATO dell'OGGETTO scienziato mentre faceva
sotto osservazione (rispetto alla proprietà) l’osservazione,
avrebbero visto le stesse cose>>
(McBurney D.H., 1983, p.19).

DEFINIZIONE OPERATIVA
Teoria dei dati (cenni)
grandezza, generalmente indicata con una delle ultime lettere dell'alfabeto (x, y, z),
che può assumere tutti i valori appartenenti a un determinato insieme e che
rappresenta in generale tutti gli elementi di tale insieme
VARIABILE...

MUTABILE
sequenza ordinata e codificata di rilevazioni (osservazioni)  vettore (colonna) di una matrice dati

Il processo di rilevazione può riguardare:  UNA entità in UN arco temporale


statura
Renato ha una statura pari a 1.75 mt.  Renato 1.75

 UNA entità in PIU' archi temporali (processo DIACRONICO)


Stefano
(statura) T0 T1 T2 ...
T0 0.50
T1 0.67 Stefano 0.50 0.67 1.05 .......
T2 1.05 (statura)
.......... ......

 PIU' entità in PIU' archi temporali  PIU' entità in UN arco temporale (processo SINCRONICO)

T0 T1 T2 ..... statura

A ...
Renato 1.75
xA,0 xA,1 xA,2
Maria 1.63
B xB,0 xB,1 xB,2 ...
Giuseppe 1.94
C xC,0 xC,1 xC,2 ... .......... ......

.... .... ... ... ... esempi...


(Limitatamente a processi SINCRONICI) Teoria dei dati (cenni) Matrici elementari: "2-vie 1-modo"
TEORIA DEI DATI
(Cattel, 1940; Coombs, 1964; Carol, Arabie, 1980)
(Km.) Amsterdam Milano Roma Venezia

vettori matrice CxV


Insieme (collettivo) di 5 individui x w A Amsterdam 0 1130 1750 1430

 Alberto  23 M 23 M 


 Maria  18 F 18 F  Milano 1130 0 630 300
       
 Francesca  
 età (proprietà) ⇒ variabile " x" 21 F  21 F  Roma 1750 630 0 580
 Federico  genere (proprietà) ⇒ variabile " w"      
  19 M 19 M  Venezia 1430 300 580 0
 Anna 
19  F  19 F 

Matrici elementari: "2-vie 2-modi"

un esempio...

Relazione ASIMMETRICA di APPARTENENZA (ad una classe di equivalenza) Relazione ASIMMETRICA di DOMINANZA [se = 1]

CxV D1, D2, D3, ... Domande Likert S1, S2, S3, ...
Stimoli Test

ident statura genere voto ident D1 D2 D3 ident S1 S2 S3


1 175 M 108 1 1 3 5 1 1 0 1
2 150 F 100 2 2 4 2 2 1 1 0
3 183 M 98 3 4 1 3 3 0 0 1
4 ... ... .... 4 ... ... .... 4 ... ... ....

CONDIZIONATA PER COLONNA CONDIZIONATA PER RIGA NON CONDIZIONATA


Teoria dei dati (cenni) Un esempio ... MATRICE DATI ELEMENTARE (2 VIE, 2 MODI)

Le elencherò alcuni comportamenti che le persone adottano per far fronte


Pensando ai prossimi 5 anni, ad un evento alluvionale con ai pericoli idrogeologici. Pensando ad una tale eventualità, Lei o qualcuno
frane e smottamenti che coinvolga la zona in cui abita della sua famiglia ...
quanto è PROBABILE che... ["SI", "NO"]
 Genere? ["per nulla", "poco", "abbastanza", "molto"]  (1) Ha seguito un corso di pronto soccorso?
 Età?  (1) viabilità interrotta...  (2) Tiene in efficienza (e/o in un luogo particolare) radio e torcia
 (2) servizi (luce, telefono, acqua, etc.) interrotti... elettrica funzionanti a pile?
 (3) suoi beni ... danneggiati...  (3) Ha messo da parte scorte di cibo e acqua?
 (4) sua abitazione principale danneggiata...  (4) Ha trascritto (in un luogo particolare) i numeri di telefono da
 (5) Lei, o persone care, subiscano danni fisici chiamare in caso di emergenza?
 .... etc. etc. (9 comportamenti)

condizionata condizionata <<NON>>


<<colonna>> <<riga>> condizionata
_N_ IDENT genere eta d12_3 d12_4 d12_5 d85_1 d85_2 d85_3 d85_4 d85_5
1 31 F 51 2 2 2 1 0 1 1 1
2 35 M 42 1 1 1 0 0 1 1 1
3 41 F 32 1 1 1 0 0 0 0 0
4 50 F 45 0 0 2 0 0 0 0 1
5 53 M 64 0 0 2 0 0 1 0 0
6 66 F 43 0 1 2 1 0 1 1 1
7 88 F 64 2 1 2 1 1 1 1 1
8 91 F 73 2 0 1 0 0 0 0 0
9 104 F 55 1 1 1 0 0 1 1 1
10 107 M 21 3 1 1 0 0 1 0 1
11 132 F 41 1 1 0 0 1 1 0
12 141 F 41 0 0 0 0 0 0 0 0
13 201 F 20 1 3 2 1 0 1 1 0
14 245 F 49 1 1 1 0 0 0 0 0
15 279 M 33 1 1 1 0 0 1 1 0
16 289 F 70 0 0 0 1 0 1 1 0
17 305 F 43 0 1 2 0 0 1 0 1
18 320 M 41 0 1 0 1 0 1 0 0
19 327 F 39 3 3 3 1 0 1 1 0
20 333 M 70 3 3 1 0 0 1 1 1
21 349 F 43 1 1 1 0 1 1 1 0
22 352 M 80 0 0 1 1 1 1 1 0
23 383 F 50 1 1 1 1 0 1 1 1
24 396 F 31 0 0 0 1 0 0 0 0
25 418 M 74 1 0 0 0 0 1 0 0
26 449 M 65 1 2 2 1 0 1 1 1
27 506 M 69 1 3 3 0 0 1 0 1
28 550 F 85 0 0 2 0 0 1 1 0
29 581 F 61 2 3 3 1 0 1 1 1
..... .... .... .... .... .... .... .... .... .... .... ....

Tratto da:
R. Miceli, "Gli abitanti della valle del Lys e il rischio idrogeologico",
Indagine psico-sociologica, 2006 (N = 407)
Teoria dei dati (cenni) Inoltre le matrici elementari si distinguono...

 PRIMARIE  PICO
Esempio di matrice derivata (micro  macro)
 SECONDARIE  MICRO

 DERIVATE  MACRO

--- Es. di matrice dati DERIVATA (versione elementare):  Tabella di contingenza

Rappresentazione dei dati individuali (2 variabili - X e Y - categoriali) in forma tabellare:

(frequenze; conteggi)
(esempio : f12 = 2)
Ident X Y (esempio : f 21 = 0)
1 1 2 X \ Y 1 2 .. K Tot.

2 1 2
L'algebra delle sommatorie e delle
1 f11 f12 .. f1K f1+
3 1 1 produttorie
(unitamente all'algebra della matrici)
4 2 3 2 f21 f22 .. f22 f2+ sono strumenti utili per operare su
tali
5 3 1 "strutture di dati"
... .. .. .. .. ...
6 3 3
7 H K H fH1 fH2 .. fHK fH+

… … …
Tot. f+1 f+2 .. f+K f++
N ... ...
Algebra delle sommatorie e delle produttorie (vettori)

N
1
⋅ ( x1 + x2 + x3 + x... + xN ) ∑x
1
 x1 
x 
media aritmetica =
N
x= N i =1
i

 2
x =  x3  1
   N

xg =  ∏
N

 x...  media geometrica = (x1 ⋅ x2 ⋅ x3 ⋅ x... ⋅ xN )


1
 xi

N
 xN  i =1

ATTENZIONE! Non confondere...


1
1
1 N
2
2

xq =  1
N
 2
x = ∑ xi2
1 N
sx = ∑ ( − )
∑x
2 x x
2
i  x2 N
 i =1
i 

N i =1  N i =1
scarto quadratico medio
media quadratica quadrato della media media dei quadrati (deviazione standard)

∑x
N
In assenza di ambiguità (quando è superfluo...) 
∑x
i =1
i i
Algebra delle sommatorie (alcune proprietà)

N
(1) ∑c = N ⋅ c
i =1

(2) ∑c ⋅ x i = c ⋅ ∑ xi

(3)
∑ x + ∑ y + ∑ z = ∑ (x + y
i i i i i + zi )

∑ (xi + yi ) = ∑ (xi2 + yi2 + 2 xi yi ) = ∑ xi2 + ∑ yi2 + 2∑ xi yi


2
(4)

∑ (x − x ) = ∑ (x )
N N N N
+ x − 2 x xi = ∑ x + N x − 2 x ∑ xi
2 2 2 2 2
(5)
i i i
i =1 i =1 i =1 i =1
Più indici (contatori) Matrici (sommatorie e produttorie) La TABELLA DI CONTINGENZA riporta le frequenze di N individui
sottoposti a due trattamenti (T1 e T2)
con, rispettivamente, H e K modalità

Id T1i T2j
1 1 1 Freq. y 1 .......... K Totale
2 1 1
  (T1 / T2)
   
3 1 1 K
      1 f11 f1 j f1 K f1+ = ∑ f1 j
4 1 2 j =1
5 1 2
     
6 1 2 K
 ... 
 
1
 
... 
 
....... f i1 f ij f iK f i + = ∑ f ij
j =1
 ...  1 K 
 ...  2 1
      K
 ...  2 1
 ...  2 2
H fH1 f Hj f HK f H + = ∑ f Hj
      j =1
 ...  2 2
 ...  2 2 H
f +1 = ∑ f i1
H H H K
      f + + = ∑∑ f ij
 ...  2 3
Totale f + j = ∑ f ij f + K = ∑ f iK
i =1 i =1 j =1
      i =1 i =1
 ...  2 ... 
 ...  2 K 
     
 ...   ...  ... 
 ... 
 
 ... 
 
... 
 
f ++ = N
N  H  K 
Livelli di scala delle variabili (1 / 8)
Il processo di rilevazione può seguire quattro percorsi...

... producendo VARIABILI DIVERSE per quanto riguarda il loro LIVELLO DI SCALA (caratteristiche formali) ...
(Stevens, 1946; Torgerson, 1958; Galtung, 1967; Krantz, Luce e altri, 1971; Conti, 1972; Marradi, 1984; Ricolfi, 1985; Miceli, 2001)

3 principi della logica classica:


- unicità del "fundamentum divisionis" (tutte le categorie in funzione unica proprietà);
CLASSIFICAZIONE in
(1) categorie:
(es. di violazione: << Lei è Maschio o ha 20 anni di età ?)
- mutua esclusività (partizione / ricoprimento);
- esaustività (es. uso della categoria "altro")

NON-ORDINATE
ORDINATE
(sconnesse)

(2) ORDINAMENTO di “oggetti” ; attribuzione di rango (rank, ranking); pareggi (tie)

(3) CONTEGGIO Numeri interi positivi; frequenze assolute

Intesa come:

(4) MISURAZIONE => modalità di rilevazione quando si dispone di uno strumento e di una unità
=> processo di misura quando si costruisce lo strumento e si definisce l’unità
Livelli di scala delle variabili (2 / 8)

Teoria della
Il PROCESSO DI RILEVAZIONE misurazione
stabilisce una relazione ...

ELEMENTI ELEMENTI
SISTEMA EMPIRICO SISTEMA NUMERICO
(tratti o dimensioni)

Teoria dei livelli di scala Tecniche e modelli


delle variabili di analisi dei dati

OPERAZIONE DI RILEVAZIONE UNITA' DI ORIGINE TRASFORMAZIONE LIVELLO DI


MISURA O AMMISSIBILE SCALA
CONTO

1 CLASSIF IC AZIONE assente assente ---- CATEGORIALE


(transcodifica)
2 ORDINAMENTO assente non (monotona crescente) ORDINALE
(ASSEGNAZIONE A CATEGORIE convenzionale δm( y )
y ′ = m( y ); >0
ORDINATE) δy
3A MISURAZIONE non convenzionale (traslazione) DIFFERENZE
convenzionale y′ = y + a
3B MISURAZIONE convenzionale convenzionale (affine) INTERVALLI
y ′ = b ⋅ y + a; (b > 0 )
4 MISURAZIONE convenzionale non (dilatazione) RAPPORTI
convenzionale y ′ = b ⋅ y; (b > 0 )
5 CONTEGGIO non non (identica) ASSOLUTA
convenzionale convenzionale y′ = y
Livelli di scala delle variabili (3 / 8)
Qualche esempio...

Matrice dati

ID x z y w q
(Genere) (Graduatoria) (punti al test) (reddito) (N° romanzi)
A M 2 80 4 3
B M 6 20 2 0
C F 3 40 0 1
D M 1 45 3 4
E F 4 70 6 6
.... .... .... .... .... ....

ID Codice identificativo individui


x Genere
z Posizione in graduatoria per l'ammissione ad un corso di specializzazione
y Punteggio grezzo (0-100) al test di "comprensione e lettura"
w Reddito netto mensile (migliaia di Euro)
q N° romanzi letti negli ultimi 3 mesi
Livelli di scala delle variabili (4 /8)

LIVELLO DI SCALA CATEGORIALE (SCALA NOMINALE) SI SI

ID x Confronti ammessi: ID x' x''


(Genere)
A M A = B; B ≠ C; B = D; etc... A 1 1

B M B 1 1
trasformazione ammessa TRANSCODIFICA
C F (restano costanti le "diversità") C 0 2

D M D 1 1

E F E 0 2

.... .... .... .... ....

LIVELLO DI SCALA ORDINALE (SCALA ORDINALE)


SI SI SI

ID z Confronti ammessi: ID z' z'' z'''


(Graduatoria) z'=0.5*z z''=ln(z) z'''=exp(z)
A < B; B > C;C = E; etc...
A 2 A 1.0 0.69 7.39
B 6 trasformazione ammessa B 3.0 1.79 403.43
MONOTONA CRESCENTE
C 3 (restano costanti le posizioni d'ordine) C 1.5 1.10 20.09
D 1
δm (z )
D 0.5 0.00 2.72
E 4 z ′ = m ⋅ (z ); dove : >0 E 2.0 1.39 54.60
δz
.... .... .... .... .... ...
Livelli di scala delle variabili (5 / 8)
LIVELLO DI SCALA INTERVALLI (SCALA DI INTERVALLI) SI NO!

ID y Confronti ammessi: ID y' y''


(punti al test) y'=2+0.1*y y''=ln(y)
A 80 (A-B) / (A-C); (A-B) / (B-C); etc...
A 10.0 4.38
B 20 B 4.0 2.30
trasformazione ammessa
C 40 AFFINE C 6.0 3.69
(restano costanti i rapporti fra le differenze)
D 45 D 6.5 3.81
y ′ = a + b ⋅ y ; dove : (b > 0 )
E 70 E 9.0 4.25
.... .... .... .... ....

Esempio di costanza dei rapporti fra le differenze


nonostante il cambiamento di "scala" (unità di misura)...

rapporti fra differenze


(Es.:)

(A-B) / (A-C) (A-B) / (B-C)

Y (80-20) / (80-40) = 60 / 40 = +1.50 (80-20) / (20-40)= 60 / (-20) = -3.00

Y' (10-4) / (10-6) = 6 / 4 = +1.50 (10-4) / (4-6) = 6 / (-2) = -3.00 SI

Y'' (4.38-2.30) / (4.38-3.69) = 2.08 / 0.69 = +3.01 (4.38-2.30) / (2.30-3.69) = 2.08 / (-1.39) = -1.50 NO!
Livelli di scala delle variabili (6 / 8)
LIVELLO DI SCALA INTERVALLI (SCALA DI INTERVALLI)

Esempio di costanza dei rapporti fra le differenze


nonostante il cambiamento di "scala" (unità di misura)...

Si dispone dei dati relativi alla temperatura media, in gradi Fahrenhheit (F), registrata nella citta X,
durante il GIORNO e la NOTTE, in due stagioni: ESTATE e INVERNO...

Dati F°
A ESTATE - GIORNO 86.0 (A – B) / (C –D)

(86.0 − 50.0) (46.4 − 39.2) = 36.0 7.2 = 5


B ESTATE - NOTTE 50.0
C INVERNO - GIORNO 46.4
D INVERNO - NOTTE 39.2

C = (F − 32) 1.8 l’escursione termica (GIORNO-NOTTE) ESTIVA è 5 volte superiore a


quella INVERNALE (!!!)
F = C ⋅ 1.8 + 32

Conversione C°
unità di misura
(A – B) / (C –D)
A ESTATE - GIORNO 30
B
C
ESTATE - NOTTE
INVERNO - GIORNO
10
8
(30 − 10) (8 − 4 ) = 20 4 = 5
D INVERNO - NOTTE 4
Livelli di scala delle variabili (7 / 8) LIVELLO DI SCALA RAPPORTI (SCALA DI RAPPORTI) 1 € = 1.32 $; 1 $ = 0.76 €

(migliaia di $)
ID w Confronti ammessi: SI
ID w'
(reddito)
(migliaia di €) A/ B; A / C; B / C; etc... w'=0.76*w
A 3.04
A 4 trasformazione ammessa
DILATAZIONE B 1.52
B 2
(restano costanti i rapporti)
C 0
C 0
D 3 w ′ = b ⋅ w ; (dove : b > 0 ) D 2.28
E 4.56
E 6
.... ....
.... ....

LIVELLO DI SCALA ASSOLUTA (SCALA ASSOLUTA)

ID q Confronti ammessi: ID q' SI


(N° romanzi) q' = q
A/ B; A / C; B / C; etc...
A 3 A 3
B 0 trasformazione ammessa B 0
IDENTICA
C 1 (restano costanti i rapporti) C 1
D 4
q′ = q
D 4
E 6 E 6
.... .... .... ....
Livelli di scala delle variabili (8 /8)
Schema terminologico riassuntivo dei livelli di scala

Indicando come "livelli" i valori distinti (stati) di una generica variabile....

Scala di rappporti
Scala di intervalli
Scala di differenze Variabili
Quantità cardinali
o VARIABILI
L quantitative CONTINUE
Scala assoluta O
o METRICHE
I conteggio

Ordinamenti
V
Ranghi Scala
o
E Gradi
ordinale
VARIABILI
DISCRETE
Attribuzione a
L categorie ordinate

L
Categorie Variabili
o categoriali
I Classi Scala nominale Politomiche
Dicotomiche
o Dummy o Booleane
Modalità
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

VARIABILI CATEGORIALI (distribuzioni di frequenza) K K

∑F
k =1
k =N ∑f k =1
k =1
==> Distribuzione di frequenze (variabile categoriale con K classi) K
=> ASSOLUTE Fk
=> RELATIVE (o proporzioni) fk = Fk / N
∑p k =1
k = 100
=> PERCENTUALI pk = fk * 100
SAS System
SAS System
Cumulative Cumulative
Cumulative Cumulative VARC2 Frequency Percent Frequency Percent
VARC1 Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ELEMENTARE 80 16.0 80 16.0
LICEO 216 54.0 216 54.0 MEDIA INF. 162 32.4 242 48.4
PROFESS. 123 30.8 339 84.8 MEDIA SUP. 212 42.4 454 90.8
ALTRO 61 15.3 400 100.0 LAUREA 46 9.2 500 100.0
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

SERIAZIONE DI FREQUENZE (riduzione in classi di una variabile cardinale)

Classi di età LIMITI TABULATI --- LIMITI VERI


Cumulative Cumulative
ETA Frequency Percent Frequency Percent 18 − 27 17.5¬27.5 17.5 < età ≤ 27.5
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
18-27 73 14.6 73 14.6
28 − 37 27.5¬37.5 27.5 < età ≤ 37.5
28-37 114 22.8 187 37.4 38 − 47 37.5¬47.5 37.5 < età ≤ 47.5
38-47 145 29.0 332 66.4
48-57 76 15.2 408 81.6
48 − 57 47.5¬57.5 47.5 < età ≤ 57.5
58-67 82 16.4 490 98.0 58 − 67 57.5¬67.5 57.5 < età ≤ 67.5
68-80 10 2.0 500 100.0
68 − 80 67.5¬80.5 67.5 < età ≤ 80.5

limiti fk
k tabul. veri fk ak dk dk =
---------------------------------------------------------- ak
1 18 − 27 17.5¬27.5 73 10 7.300
2 28 − 37 27.5¬37.5 114 10 11.400
3 38 − 47 37.5¬47.5 145 10 14.500
4 48 − 57 47.5¬57.5 76 10 7.600
5 58 − 67 57.5¬67.5 82 10 8.200
6 68 − 80 67.5¬80.5 10 13 0.769

FREQUENZA
AMPIEZZA
DENSITÁ

=> La base dei rettangoli è proporzionale alla ampiezza della classe.


=> L'area dei rettangoli rappresenta la frequenza.
=> L'altezza dei rettangoli indica il numero di osservazioni per ogni
sottoclasse di ampiezza unitaria
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

Operatori monovariati di tendenza centrale (indici di posizione centrale)

=> MODA = il livello della variabile che ricorre con maggiore frequenza;

=> MEDIANA = il livello cui appartiene il caso al di sopra e al di sotto del quale sta il 50% dei casi;

1 N
=> MEDIA ARIT. = il livello che rappresenta il "centro di gravità" della distribuzione; x = ∑ xi
N i =1

MODA:
Modificando l'ordine delle modalità ==>

Diploma Diploma
conseguito f % conseguito f %
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
LICEO 216 54.0 <== MODA PROFESS. 123 30.8
PROFESS. 123 30.8 ALTRO 61 15.3
ALTRO 61 15.3 LICEO 216 54.0 <== MODA
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

Variabili ordinali  MEDIANA: si calcola su un insieme ORDINATO di valori;


si calcola in modo diverso se la variabile è:
(a) CONTINUA e N è dispari;
(b) CONTINUA e N è pari;
(c) DISCRETA

(a) Variabile continua; N dispari N +1


==> il valore che corrisponde all'i-esimo caso del vettore ORDINATO; dove: i=
2
Es.: x ==> punteggio al test di abilità .......
ORDINANDO ===> (prestazione peggiore  migliore)

ident xi ni ident xi

a 5 1 b 3

b 3 2 a 5
11 + 1
c 9 3 c 9 i= =6
4 e 12
2
d 34

e 12 5 m 15 La mediana (Me) è pari a 17;

f 23 6 h 17 pari cioè al valore del 6° elemento


della serie ordinata (individuo "h")
g 18 7 g 18

h 17 8 f 23

i 24 9 i 24

l 31 10 l 31

m 15 11 d 34
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

Intervallo: N N
(b) Variabile continua; N pari < i < +1
==> si ordinano gli elementi del vettore; 2 2
==> si individua l'intervallo i-esimo in cui cade;
==> il valore della mediana si ottiene per "interpolazione"
xN + xN
+1
Me = 2 2
2
ni ident xi

6 6 x 3 + x 4 8 + 12
1 a 1 < i < + 1; 3 < i < 4 Me = = = 10
2 2 2 2
2 b 5

3 c 8

4 d 12 } La mediana (Me=10) è compresa fra il valore 8 e 12

5 e 23

6 f 35
(c) Variabile discreta (raggruppata in classi):
==> si individua la classe mediana o l'intervallo mediano;
==> il valore della mediana si ottiene per "interpolazione"

N
− Finf dove (con riferimento alla classe mediana) :
Me = Linf + 2 ⋅ ωm Linf = limite inferiore; fm = frequenza;
fm ωm = ampiezza; Finf = freq. cumulata;
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

x1 + x 2 + x 3 + ... + x n 1 N
Variabili cardinali  MEDIA ARITMETICA:
x= = ∑ xi
N N i =1
Principali proprietà:

N N 2

(1) ∑ (x
i =1
i − x) = 0 (2) ∑ (x
i =1
i − x ) = min

La somma dei QUADRATI DEGLI SCARTI da qualunque valore (a ≠media arit.) è più grande

1
Per r = 1 ==> ARITMETICA
1 r 
N r
Altre medie; in generale: Mr =  ∑ x i  Per
Per
r
r
= 2 ==> QUADRATICA
= -1 ==> ARMONICA
 N i =1  Per r che tende a zero ==> GEOMETRICA

=> La media aritmetica è meno ROBUSTA della mediana; Es.:


ni x1 x2
1 100 001
valore "eccentrico" in x2
2 150 150

Me ( x1 ) = 200 ;
3 200 200
x1 = 200 ;
4 300 300

5 250 250
x 2 = 180.2 ; Me ( x 2 ) = 200 ;
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

Altri indici di posizione ===> QUANTILI, (PER)CENTILI, RANGO (PER)CENTILE

Definizioni:
 RANGO = numero che esprime la posizione di un valore osservato (o punteggio) nell'ambito
dell'insieme, serie o vettore ORDINATO(!) cui il valore osservato appartiene;

 QUANTILE = il valore osservato del vettore ORDINATO (MINMAX) che corrsiponde ad una
qualsiasi suddivisione in parti dei dati (es: quartili, decili, centili)

 (PER)CENTILE = il QUANTILE (quando la suddivisione è operata su 100 parti); in tal modo l'm-esimo
percentile corrisponde a quel valore osservato, del vettore ORDINATO (MINMAX),
al di sotto del quale cade l'm-esima percentuale dei valori osservati

 RANGO PERCENTILE =è la percentuale di valori (in funzione dell'attribuzione di RANGO) che si


trova al di sotto di un dato RANGO (cui corrisponde un dato valore osservato)

!! ATTENZIONE !!
il RANGO PERCENTILE di un valore osservato (o punteggio) è una percentuale
un QUANTILE o PERCENTILE è un valore osservato (o punteggio) del vettore di dati

Per esempio:
 se il risultato ottenuto da Pierino ad un test è superiore a quello dell'80% degli altri individui,
diremo che Pierino occupa l'80° rango percentile (ovvero l'80% degli inividui sottoposti al test ha
ottenuto una prestazione peggiore);

 l'80° percentile (P80) nella serie di punteggi prodotti dalla somministrazione del test (cui Pierino ha
partecipato) è – per esempio – il valore (o punteggio): 33
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione) Attribuzione del RANGO: esempi

l'attribuzione di RANGO può avvenire:


- sia attribuendo il RANGO MINORE (1) al VALORE MINORE della serie (R1Vmin),
- sia attribuendo il RANGO MINORE (1) al VALORE MAGGIORE della serie (R1Vmax)
Generalmente, nell'ambito dei test (soprattutto nei test di "massima performance") si usa la regola:
R1Vmax
Una difficoltà nell'attribuzione del rango ai valori osservati (o punteggi) consiste nel comportamento da tenere in
presenza di valori osservati uguali (pareggi o ties)...

senza "pareggi"  10 individui sottoposti al test (x1) di abilità verbale  con "pareggi"

RANGO (TIES=HIGH)
N_PROG IDENT x1 RANGO
1 a 15 7 RANGO (TIES=LOW)
2 b 8 10
N_PROG IDENT X1 RANGO RANGO RANGO
3 c 10 9
1 a 5 9.5 9 10
RANGO (TIES=MEAN)
4 d 12 8
2 b 8 7.0 7 7
5 e 19 4
3 c 10 6.0 6 6
6 f 23 2
4 d 12 5.0 5 5
7 g 24 1
N_PROG IDENT X1 RANGO
5 e 19 4.0 4 4
8 h 17 6
9 i 21 3 1 g 24 1 6 f 23 2.0 2 2

10 l 18 5 2 f 23 2 7 g 24 1.0 1 1
3 i 21 3 8 h 6 8.0 8 8
4 e 19 4 9 i 21 3.0 3 3
5 l 18 5 10 l 5 9.5 9 10
Ordinando in funzione
6 h 17 6
del RANGO
(R1Vmax) 7 a 15 7
8 d 12 8
9 c 10 9
10 b 8 10
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione) Calcolo dei QUANTILI: esempi
10 individui sottoposti al test (x1) di abilità verbale
Quartili
N_PROG IDENT x1
1  1 
1 a 15 Q1 = ?;  N  < i <  N + 1; 2.5 < i < 3.5; ... cioè ... i = 3; ⇒ Q1 = 12;
2 b 8 4  4 
3 c 10
xN + xN
4 d 12
2  2  +1 x 5 + x 6 17 + 18
5 e 19
Q2 = Me = ?;  N  < i <  N + 1; 5 < i < 6; Q2 = Me = 2 2
= = = 17.5
4  4  2 2 2
6 f 23
7 g 24
3  3 
8 h 17 Q3 = ?;  N  < i <  N + 1 ; 7.5 < i < 8.5;....i = 8; ⇒ Q3 = 21;
9 i 21 4  4  (output SAS )
10 l 18 Percentili In generale, l'm-esimo percentile SAS System
è dato da: Univariate Procedure
(N < i < N+1 per N pari)
Variable=X1
N Moments
Ordinando: MINMAX Pm = x i ; dove : i = m Pertanto...
100 N 10 Sum Wgts 10
Mean 16.7 Sum 167

P25 = Q1; P50 = Q2 = Me; P75 = Q3 ; P100 = Q4 ; Std Dev


Skewness
5.139066
-0.24686
Variance
Kurtosis
26.41
-1.13212
USS 3053 CSS 264.1
N_PROG IDENT x1 CV 30.77285 Std Mean 1.625115
T:Mean=0 10.27619 Pr>|T| 0.0001
1 b 8 ... e, ad esempio:
Num ^= 0 10 Num > 0 10
2 c 10 M(Sign) 5 Pr>=|M| 0.0020
Sgn Rank 27.5 Pr>=|S| 0.0020
1°Q 3 d 12 P90 = ?;
4 a 15 Quantiles(Def=5)
 10   10 
5 h 17  90  < i <  90 + 1; 9 < i < 10; 100% Max 24 99% 24
2°Q  100   100  75% Q3 21 95% 24
6 l 18
50% Med 17.5 90% 23.5
7 e 19 23 + 24 25% Q1 12 10% 9
3°Q 8 i 21
P90 = = 23.5; 0% Min 8 5% 8
2 1% 8
9 f 23 Range 16
Q3-Q1 9
10 g 24
Mode 8
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)
Calcolo dei ranghi percentili: esempio
N_PROG IDENT x1 RANGO
Punteggi (dati) osservati su 10 individui sottoposti a test x1 e RANGO (R1Vmax)
1 a 15 7
Legenda :
2 b 8 10
RC = Rango Percentile
3 c 10 9 N = Numero totale individui (punteggi osservati)
Formula 1 Formula 2
4 d 12 8 G = Rango (posizione in graduatoria)
(Galton-Ferguson) (Claparède)
5 e 19 4
6 f 23 2 N − (G − 0.5 ) RC = 100 ⋅
N −G
RC = 100 ⋅
7
8
g
h
24
17
1
6
N N −1
9 i 21 3 Rango Percentile dell'individuo "d" nel test X1 (punteggio=12) ?
10 l 18 5

Arrotondamento
Formula 1 Formula 2 all'unità
superiore

10 − (8 − 0.5 ) 2.5 10 − 8 2
RC = 100 ⋅ = 100 ⋅ = 25 RC = 100 ⋅ = 100 ⋅ = 22.2 ⇒ 23
10 10 10 − 1 9

L'individuo "d" (punteggio=12) occupa il 23° (25°) rango percentile nel test X1;
ovvero:
la sua prestazione è SUPERIORE a quella del 25% (circa) e INFERIORE a quella del restante 75%

 X − La   100 ⋅ fa   100 ⋅ fcb  Per punteggi


RC =  ⋅ +  raggruppati in classi
 a   N   N 
dove (oltre agli simboli che mantengono il loro significato) :
X = punteggio grezzo;
La = limite inferiore (vero) della classe
fa = frequenza nella classe
fcb = frequenza cumulata dal basso dei valoro della serie
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione) Utilizzo dei ranghi percentili: esempio

10 individui sottoposti a test (x1) di abilità verbale e (x2) di abilità logica; ci si chiede:
Ranghi
=> l'individuo "h" ha conseguito un risultato(relativamente) migliore al test 1 o 2 ?
(R1Vmax)
=> l'individuo "c" ha conseguito un risultato (relativamente) migliore al test 1 o 2 ?

N_PROG IDENT X1 RANGO X2 RANGO


X1 X2
IDENT X1 R_X1 X2 R_X2
1 a 15 7 15 1
Punteggi e ranghi di "h" e "c"
h 17 6 6 9
2 b 8 10 8 7
3 c 10 9 7 8 Calcolo del rango percentile: c 10 9 7 8

4 d 12 8 11 4
Formula 1 (Galton-Ferguson):
5 e 19 4 14 2
6 f 23 2 10 5
7 g 24 1 12 3 N − (G − 0.5 )
8 h 17 6 6 9 RC = 100 ⋅
9 i 21 3 5 10 N
10 l 18 5 9 6

la prestazione di "h" si è collocata al di sopra del 45% degli


10 − (6 − 05 )
X1 => Rc (" h") = 100 ⋅ = 45 altri risultati nel test X1 e al di sopra del 15% nel test X2.
10 L'individuo "h" ha conseguito un risultato relativamente
10 − (9 − 05 )
X2 => Rc (" h") = 100 ⋅ = 15 migliore nel test X1 (dove ha anche conseguito un punteggio
10 più elevato)

10 − (9 − 05 ) La prestazione di "c" si è collocata al di sopra del 15% degli


X1 => Rc (" c ") = 100 ⋅ = 15 altri risultati nel test X1 e al di sopra del 25% nel test X2.
10
10 − (8 − 05 ) L'individuo "c" ha conseguito un risultato relativamente
X2 => Rc (" c ") = 100 ⋅ = 25 migliore nel test X2 (nonostante il punteggio sia inferiore)
10
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione) ==> devianza = d;
==> varianza = s2;
Due gruppi (A e B) di 6 elementi ==> dev. st. = s
Operatori monovariati di dispersione
VARIABILI CARDINALI
ID Gr. yi
1 A 44
2 A 46
 d A+B = 3385. 9 gruppo A + B (N = 12); y ( A+B ) = 50;
N

d = ∑ (y i − y ) = d A = 136.0000 gruppo A (N = 6); y ( A) = 50;
2
3 A 48
gruppo B (N = 6); y (B ) = 50;
4 A 50 i =1 d = 3250.000
5 A 54
 B
6 A 58
 s A2 +B = 282.16667
1 N 
s = ⋅ d = ⋅ ∑ (y i − y )
ID Gr. yi 1
=  s A2 = 22.66667
2 2

1 B 25 N N i =1  s 2 = 541.66667
2 B 30  B
3 B 35
4 B 50  sA+B = 16.7978
N

⋅ ∑ (y i − y )
1
s = s2 = =  s A = 4.7610
2
5 B 70
6 B 90 N i =1  s = 23.2737
 B

Per il calcolo (manuale) della varianza


si può anche usare ==> s2 = x 2 − x 2

Gruppo A e Gruppo B hanno la stessa media;


i valori di y sono dello stesso ordine di grandezza (stessa unità di misura);
facile stabilire che sB è circa 5 volte sA (23.3 / 4.8 = 4.9) ... Cv ==>
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

COEFFICIENTE DI VARIAZIONE
(In genere, come qui, viene moltiplicato per 100;
I valori di varianza e deviazione standard esprime così
dipendono dall'unità di misura! LA PERCENTUALE DI VARIABILITA’ per ogni
UNITA’ DI VALORE MEDIO)

Ora i dati del gruppo A sono cambiati...

s
ID Gr. yi
CV = 100 ⋅
1 A 0.001
 y A = 0.4405 x
2 A 0.013
 2
3 A 0.998
 s A = 0.1935 0.4399
 s = 0.4399
4 A 0.753
CV = 100 ⋅ = 99.86
5
6
A
A
0.005
0.873
 A 0.4405

MAGGIORE VARIABILITA' IN "B" ? NO !!!

ID Gr. yi
1 B 25  y B = 50.0000 23.2737
2 B 30  2 CV = 100 ⋅ = 46.55
3 B 35  sB = 541.667 50.0000
4 B 50
 s = 23.2737
5 B 70
 B
6 B 90
Distribuzioni empiriche (operatori di tendenza centrale e di dispersione)

STANDARDIZZAZIONE DI VARIABILI CARDINALI (Punti z)

6 individui sono stati sottoposti ad un test di abilità matematica (x) e ad un test di abilità verbale (y);
ci si chiede, ad esempio:
 Andrea risulta più bravo al test di matematica o a quello di verbalizzazione ?
 Stessa domanda per Petra

IDENT X Y
 x = 57.83  y = 71.33
Marco 52 60
 
Diana 53 63  s x = 4.49  sy = 9.25
Andrea 56 65
Petra 60 75
 Il confronto è reso disagevole dal fatto che si hanno medie e
Luca 62 80
deviazioni standard diverse (o diverse unità di misura)
Simona 64 85
IDENT Zx Zy
Marco -1.30 -1.22
xi − x
In generale... zi = ; ( per : 1≤i ≤N ) Diana -1.08 -0.90

sx Andrea -0.41 -0.68


Petra +0.48 +0.40
PROPRIETA': Luca +0.93 +0.94
N N
1 N Simona +1.37 +1.48
1) ∑ zi = 0; (2) ∑ z = N; (3) s = ∑ (zi − z ) = 1
2 2 2
i z
i =1 i =1 N i =1
Forma delle distribuzioni di frequenze (cenni alla teoria dei momenti-prodotto)

N N N

∑ (xi − x ) ;
1 1 1
x= ∑ xi ; s = x = ∑ i
2 2 2 2
SONO TUTTI VALORI MEDI ...
concetto più generale: "MOMENTO"
x
N i =1 N i =1 N i =1

Un momento è sempre la media fra prodotti i cui fattori hanno esponenti interi.

• L’ordine del momento è definito dal numero di fattori, ciascuno preso con il proprio esponente
• I prodotti possono coinvolgere 1 o più variabili
• I prodotti possono essere ottenuti sui valori grezzi o sugli scarti dalla media

valori Definizione generale di MOMENTO OMOGENEO (e notazione)


N
1
grezzi scarti
M=
N
∑ z α ⋅1 ;
i =1
i

omogenei omogenei
1 variabile (non-centrali o centrali (o OMOGENEI N
1
∑ i ⋅1
α
rispetto origine) rispetto media)
RISPETTO
ORIGINE
per z = x ⇒ ωα = x
misti
N i =1
misti
γ variabili centrali
N
per z = ( xi − x ) ⇒ µα = ( )
1
∑ i
OMOGENEI α
CENTRALI x − x ⋅1
RISPETTO MEDIA N i =1
Esempio: x’ = [1.0 2.0 3.0 4.0 4.5 5.0 5.5] N=7
Momenti omogenei
grezzi (intorno origine) centrali (intorno media)

1 N 1 N
ω1 = ∑ xi ⋅1 = 3.57 µ1 = ∑ ( xi − x) ⋅1 = 0
N i =1 N i =1
1 N 2 1 N
ω 2 = ∑ xi ⋅1 = 15.07 µ 2 = ∑ ( xi − x) 2 ⋅1 = 2.32
N i =1 N i =1

1 N 3 1 N
ω 3 = ∑ xi ⋅1 = 68.93 µ 3 = ∑ ( xi − x)3 ⋅1 = −1.44
N i =1 N i =1

1 N
1 N 4
ω 4 = ∑ xi ⋅1 = 329.16 µ 4 = ∑ ( xi − x) 4 ⋅1 = 9.81
N i =1 N i =1

FORNISCONO ω1 ⇒ TENDENZA CENTRALE µ3 ⇒ SIMMETRIA


IN FORMAZIONI DI: µ2 ⇒ DISPERSIONE µ4 ⇒ CURTOSI

Forma delle distribuzioni di frequenze (cenni alla teoria dei momenti-prodotto)


SIMMETRIA E
CURTOSI
Esempio: x’ = [1.0 2.0 3.0 4.0 4.5 5.0 5.5]
Misure di ASIMMETRIA o SKEWENESS
N=7

µ 32
β1 = 3 ; ⇒
(− 1.44 )
2
=
2.07
= 0.17 β1 = −0.17
Pearson ==>
µ2 (2.32) 12.49
3
CON IL SEGNO DEL
MOMENTO TERZO

Fischer ==> γ 1 = β1 = 0.17 = 0.41


γ 1 = −0.41

> 0 ⇒ asimmetria valori bassi (a sinistra)



β1 ; γ 1  = 0 ⇒ simmetria
 < 0 ⇒ asimmetria valori alti (a destra)

CURTOSI:

µ4 9.81 9.81
β2 = ; ⇒ = = 1.82
µ2
2
(2.32) 5.38
2

γ 2 = β 2 − 3 ⇒ 1.82 − 3 = −1.18

Forma delle distribuzioni di frequenze (cenni alla teoria dei momenti-prodotto)


Forma delle distribuzioni di frequenze (cenni alla teoria dei momenti-prodotto)

Misure di CURTOSI Esempio: x’ = [1.0 3.3 3.4 3.5 3.6 3.7 3.8 5.0] N=8

ω1 = 3.41  µ1 = 0.00  > 0 ⇒ leptocurtica


ω = 12.72  µ = 1.08 
 2  2 γ 2 = 0 ⇒ mesocurtica (normale) [β 2 = 3]
  
ω 3 = 49.54  µ 3 = −1.24  < 0 ⇒ platicurtica
ω 4 = 199.02 µ 4 = 5.03
µ4 5.03 5.03
β2 = 2 ; ⇒ = = 4.30
Pearson ==>
µ2 (1.08) 1.17
2

Fischer ==> γ 2 = β 2 − 3 ⇒ 4.30 − 3 = 1.30

ASIMMETRIA:
µ 32
β1 = 3 ; ⇒
(− 1.24 ) 1.54
2
= = 1.22 ⇒ (− 1.22 )
µ2 (1.08)3
1 .26

γ 1 = β1 = 1.22 = 1.10 ⇒ (− 1.10)


Teoria della probabilità (cenni)

==> La riflessione filosifica sul concetto di "probabilità" è successiva alla sua trattazione
matematica che nasce nel 1654 (Pascal; Fermat);
==> Approfondimenti:
Ian Hacking, 1975, L'emergenza della probabilità, Milano Il Saggiatore;
Paolo Vinais, 1999, Nel crepuscolo della probabilità, Torino, Einaudi.
==> Tre concezioni teoriche (le prime due convergono tecnicamente):

(1) FREQUENTISTA [Bernulli (1654-1705)]: La probabilità è una cartteristica complessiva di una serie infinita
(indefinitamente numerosa) di eventi ripetibili. (<<<< definizione: ex-post o empirica)
fi
Es.: E1 = "evento faccia 1 del dado" PE1 = lim
N →∞ N
(2) CLASSICA [Pascal (1623-1662); Laplace (1749-1827)]: La probabilità è definita come rapporto fra casi
favorevoli e casi equamente possibili. (<<<< definizione tautologia: ex-ante o teorica)
1
Es.: k = "numero eventi equamente possibili" PE1 =
k
Convergenza: un dado con 6 facce numerate tutte equiprobabili permette di dire
(ex-ante) che E1 = 1/6; lo stesso dado lanciato infinite volte farà osservare
(ex-post) una frequenza relativa per E1 = 1/6

(3) SOGGETIVISTA [De Finetti (1906-1985)]: La probabilità è definita come rapporto (quota di scommessa) fra
rischio e guadagno. (<<<< implica soggetto razionale posto in condizioni olimpiche - Simon - di conoscenza)
r
Es.: r = "somma giocata"; t = "somma vinta" PE1 =
t
Fenomeno (esperimento):

==> deterministico: lascio cadere un oggetto e, conoscendo condizioni iniziali e equazioni


del moto, posso dire quale sarà lo stato dell'oggetto (la sua posizione nello spazio) al tempo t.

==> aleatorio (casuale): lancio una moneta e non posso dire (con certezza) su quale faccia cadrà.

DEFINIZIONI => EVENTO FAVOREVOLE (ottenuto, verificato)

A =" evento faccia 1"; A =" non A";


Es.:
le 6 facce del dado => INSIEME DEGLI EVENTI A + A = Ω ⇒" evento certo" , " insieme degli eventi" ,
evento: faccia "1" => EVENTO ELEMENTARE
evento: numero pari => EVENTO COMPLESSO
" spazio probabilistico" ;
(formato da più eventi semplici) ∅ ⇒ " evento impossibile"

Dato un insieme degli eventi Ω è possibile definire ==> L'INSIEME DELLE PARTI (BΩ) ; l'insieme, cioè, dei possibili
eventi semplici e complessi associati a Ω
Es.: spazio probabilistico di una moneta

Ω = {T , C};
BΩ = {(0/ ), (T ), (C ), (TC )}
EVENTO IMPOSSIBILE EVENTO CERTO
(nè testa, nè croce) (testa oppure croce)

Teoria della probabilità (cenni)


E = A∩B Si legge "INTERSEZIONE" indica un elemento che appartiene SIA ad A SIA a B
ASSIOMI E = A∪B Si legge "UNIONE" indica un elemento che appartiene ad A OPPURE a B

1) (definizione di evento) Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe additiva;

2) Ad ogni evento è assegnato un numero reale positivo, detto probabilità dell'evento, indicato con: P(Ei), tale che:

0 ≤ P(Ei ) ≤ 1
3) La probabilità dell'evento certo è 1;

4) (della probabilità totale o della somma) Se Ei ed Ej sono eventi incompatibili (disgiunti) dello stesso spazio
( )
probabilistico, allora: P E i ∪ E j = P (E i ) + P E j ( ) In termini formali, quando due
Ei ∩ E j = 0/
eventi sono incompatibi si ha che:

Es.: Spazio probabilistico ==> lancio di un dado;


Evento congiunto ==> numero pari (3 eventi semplici incompatibili)
La probabilità dell'evento congiunto (unione dei 3 eventi semplici incompatibili) è data da:

P = P (E2 ) + P (E 4 ) + P (E6 ) =
1 1 1 3 1
+ + = =
6 6 6 6 2

P(0/ ) = 0;
P (E ) = 1 − P(E );
Dai precedenti assiomi si ricava anche:

(dove : E indica l' evento complementare ad E )


Teoria della probabilità (cenni)
LEGGE della SOMMA o TEOREMA della PROBABILITA' TOTALE SI RIFERISCE AD EVENTI QUALSIASI;
Quando gli eventi sono INCOMPATIBILI
( )
P (Ei ∪ E j ) = P (Ei ) + P (E j ) − P (Ei ∩ E j )
si ha che: P Ei ∩ E j ≡ 0/

Esempio: mazzo di 40 carte


4 1
P= = = 0.1
=> Evento: ESTRAZIONE DI UN RE ==> 40 10
10 1
=> Evento: ESTRAZIONE DI UNA CARTA DI DENARI ==> P = = = 0.25
40 4
1
=> Evento: ESTRAZIONE DEL RE DI DENARI ==> P = = 0.025
40
=> Evento (composto): 1 1 1 13
ESTRAZIONE DI UN RE OPPURE DI UNA CARTA DI DENARI ==> P = + − = = 0.325
10 4 40 40

EVENTI NON INCOPATIBILI

Esempio:
Studenti di psicologia (III anno); si sa che: 91% ha superato "Generale"; 40% ha superato "Psicometria";
35% ha superato entrambi. Estraendo a sorte uno studente qual è la probabilità che abbia superato uno
dei due esami ("Generale" OPPURE "Psicometria") ?

=> Superato "Generale" ==> P = 0.91;


=> Superato "Psicometria" ==> P = 0.40;
=> Superato "Generale" E "Psicometria" ==> P = 0.35;

=> Superato "Generale" OPPURE "Psicometria" ===> P = 0.91 + 0.40 - 0.35 = 0.96
Teoria della probabilità (cenni)
... DA 1 EVENTO A ... 2 EVENTI ... Concetto di => INDIPENDENZA STOCASTICA: due eventi A e B si dicono
stocasticamente indipendenti se la Prob. di B non è influenzata
dall'avverarsi di A (o viceversa).

==> INDIPENDENZA STOCASTICA ≠ INDIPENDENZA STATISTICA (assenza di associazione, correlazione)

Esempio (INDIPENDENZA): ottenere la faccia 6 in 2 lanci (successivi) di 1 dado.

Esempio (NON INDIPENDENZA): estrarre il re di denari da un mazzo di 40 carte in 2 estrazioni senza reimmissione;
=> alla prima estrazione la Prob. è 1/40; se l'evento non accade e non si reintroduce la carta estratta, alla seconda
estrazione la Prob. è 1/39. L'evento B (alla seconda estrazione) non è stocasticamente indipendente da A (alla prima)
e si indica: P(B|A) = 1/39 = 0.026

Teorema della probabilità composta (o del prodotto):


LA PROBABILITA' DI OTTENERE L'EVENTO A e L'EVENTO B è data da:

Situazione 1: EVENTI STOCASTICAMENTE INDIPENDENTI ==> PA ∩ PB = PA ⋅ PB


Situazione 2: EVENTI STOCASTICAMENTE NON INDIPENDENTI ==> PA ∩ PB = PA ⋅ PB| A
1 1 1
Esempio Situazione 1: Qual è la Prob. di ottenere "faccia 1" e "faccia 2" in due lanci di un dado? P= ⋅ = = 0.03
6 6 36
Esempio Situazione 2: Un'urna contiene 5 palline bianche e 3 nere; in 2 estrazioni senza reimmissione, qual è la Prob. di estrarre:
(prima estrazione, evento A) = bianca e (seconda estrazione, evento B) = bianca ?
5 4 quindi, Prob. "bianca" e "bianca"=
PA = = 0.625; se è uscita " bianca" e non si reimmette : PB| A = = 0.57 5 4 20
8 7 ⋅ = = 0.36
8 7 56

Teoria della probabilità (cenni)


ESEMPI ed ESERCIZI ... 1 1
⋅ = 0.25
2 2 0 (ZERO)
Prob. di ottenere "T" e "T" lanciando 2 monete non truccate

Lanciando un dado (6 facce) definiamo i seguenti eventi: "A" = uscita numero pari; "B" = uscita numero 5;
Calcolare la probabilità esatta dell'evento: "A" e "B".

Calcolare la Prob. di ottenere 7 lanciando due dadi (numerati a 6 facce e sommando i valori delle due facce)

Vi sono 6 combinazioni di valori possibili; ognuna ha prob. 1/36; 6*(1/36) = 1/6 = 0.1666666

Un'urna contiene 90 palline numerate;


si procede all'estrazione senza reimmisione;
I numeri dispari sono 45;
1° estrazione => 3
1 è già stato estratto (ne restano 44);
2° estrazione => 14
dopo 3 estrazione l'urna contiene 87 palline;
3° estrazione => 64
quindi: Prob. = 44 / 87 = 0.51
Qual è la prob. che nella 4° estrazione
venga estratto un numero dispari ?

Calcolare la Prob. di fare "13" giocando una sola colonna al totocalcio (1; x; 2)

13
3 simboli; Prob.: 1 1
  = = 0.000000627 = 6.27 E − 07 = 6.27 ⋅10 −7
1/3* 1/3*1/3* ...... =
3 1594323
Teoria della probabilità (cenni)
Principali distribuzioni di probabilità e loro proprietà  Può essere utile ricordare il concetto di "funzione" ....

Dati due insiemi non vuoti A e B, si chiama funzione


di A in B una qualsiasi legge che fa corrispondere ad
ogni elemento x di A, uno e un solo elemento y di B
Il concetto di "funzione"

y = f (x) f indica la funzione di A in B


y è l'elemento di B che la funziona assegna all'elemento x di A

yi = f ( xi )
B A

Si dice che fra gli elementi di due insiemi A e B, non vuoti,


intercorre una corrispondenza BIUNIVOCA (o biiezione) quando
esiste una legge che fa corrispondere ad ogni elemento di A uno
ed un solo elemento di B, e viceversa, ogni elemento di B è il
corrispondente di uno e un solo elemento di A

Attenzione!
x è un elemento di A;
f(x) è un elemento di B;
f è un ente matematico diverso sia da x, sia da f(x); f è la legge che associa all'elemento x di A, l'elemento f(x) di B.

 Spesso però si dice <<...la funzione f(x) >> invece di dire <<...la funzione f >>
 indicando così sia la funzione, sia il valore da essa assunto in x
Principali distribuzioni di probabilità e loro proprietà - Il concetto di: VARIABILE CASUALE (ALEATORIA)

==> Una variabile casuale è un'applicazione "x" che trasforma gli eventi (di uno spazio Ω) in eventi
numerici cui è associata una probabilità;
... si tratta cioè del risultato dell'attribuzione ad ogni punto dello spazio campione Ω di un NUMERO
REALE che rappresenta l'immagine numerica degli eventi.

Ident. N°
Es.: a 4 individui si chiede di comunicare il numero di figli; si ottiene... figli
a 2
L'immagine numerica dei 4 individui è data da 3 valori:
b 3
c 3
2 3 4 <====== immagine numerica
d 4
----------------------------------
a bc d <====== eventi

Dato che ad ogni "punto" o elemento dell'immagine 2 accade 1 volta su 4 ---------- 1/4 = 0.25
numerica può essere associata una probabilità di 3 accade 2 volte su 4 ----------- 2/4 = 0.50
accadere, si avrà che: 4 accade 1 volta su 4 ----------- 1/4 = 0.25

diciamo allora che la precedente applicazione (x) è una VARIABILE ALEATORIA

==> Per definire x come variabile aleatoria abbiamo implicitamente definito una FUNZIONE di
PROBABILITA', cioè una LEGGE di DISTRIBUZIONE che permette di stabilire la misura
dell'incertezza con la quale la variabile casuale x può assumere i suoi valori.

(Una variabile casuale è una funzione che associa PROBABILITA' ai valori numerici ......)
VARIABILI CASUALI (ALEATORIE) o FUNZIONI DI PROBABILITA' o DISTRIBUZIONI DI PROBABILITA'

1) DISCRETE; se i valori numerici che può assumere solo discreti (es.: N° di figli)

2) CONTINUE; se possono assumere un qualsiasi valure numerico in un dato intervallo dei numeri reali (-∞; +∞)

==> Per una v.c. discreta è sempre possibile assegnare ad ogni valore una probabilità
non nulla tale che la somma delle probabilità sia uguale a 1.
==> Per una v.c. continua è matematicamente impossibile assegnare probabilità non nulle
a tutti i punti dell'intervallo e soddisfare la condizione di somma uguale a 1

Es.: Statura pari a 1 mtero e 756 millimetri (1.756); anche se si osservano molti individui con una statura compresa fra 1.750 e 1.760 è del
tutto verosimile che si potrebbe NON osservare mai l'esatto valore 1.756;

Così, se la v.c. è continua la probabilità che essa assuma un determinato valore può essere
nulla, anche se l'evento non è impossibile ...
==> Per ovviare alla difficoltà si definisce la probabilità in un intervallo infinitesimo
(x; x+dx) e si definisce P(x) la probabilità che la v.c. x cada nell'intervallo infinitesimo dx.

==> La Probabilità è definita dalla FUNZIONE DI DENSITA' (di probabilità);


graficamente .....................

Principali distribuzioni di probabilità e loro proprietà


Generica funzione di densità di probabilità f(x)
b
P (a ≤ x ≤ b ) = ∫ f ( x )dx
a

La probabilità è il numero che rappresenta l'area


della regione piana sottesa alla curva (area del
trapezoide con base dx e altezza f(x)

(in generale ad ogni evento è associata una probabilità del suo verificarsi e tale
probabilità assume una distribuzione ben precisa)

==> Come per le distribuzioni di frequenze, anche per le distribuzioni di probabilità si


definiscono i VALORI CARATTERISTICI (momenti e forma):

Media => valore atteso => speranza matematica => µ


Varianza => => => σ2

Principali distribuzioni di probabilità:


Per v.c. DISCRETE ==> Binomiale o Bernulliana, Poisson;
Per v.c. CONTINUE ==> Normale (Gauss) ,Chiquadrato, t (di "student" pseudonimo di Gosset) ,
F (di Fischer-Snedecor)

Principali distribuzioni di probabilità e loro proprietà


Distribuzione BINOMIALE Principali distribuzioni di probabilità e loro proprietà

==> Quando gli eventi possono assumere soltanto due valori (giusto /sbagliato) e si tratta di eventi
INDIPENDENTI e RECIPROCAMENTE ESCLUDENTESI, allora la distribuzione teorica di
probabilità è quella BINOMIALE

Se p = Prob. che si presenti un evento => SUCCESSO e q = 1-p (INSUCCESSO), allora la Prob. che l'evento "successo"
si presenti esattamente k volte in n prove è dato da:

n n!
  =
 n  k n−k  k  K !(n − k )!
Dove:
n = numero di prove;

Pk =   p ⋅ q k = numero di successi ; n-k = numero di insuccessi;


p = Probabilità di successo;
combinatoria di n elementi a k a k
(k < n )
k  q = 1-p

Es.: La prob. che si presenti 4 "testa" in 10 lanci di una moneta non truccata:
n = 10; p = 0.5;
k = 4; q = 1 − 05 = 0.5

10  10!
P4 =  0.54 ⋅ 0.510− 4 = ⋅ 0.54 ⋅ 0.56 = 210 ⋅ 0.0625 ⋅ 0.015625 = 0.205
4 4!(10 − 4 )!
Se, in modo analogo, si calcola la Prob. di ottenere 0, 1, 2, ..... 10 "testa" in 10 lanci, si ottiene:
n = 10 Prob.
k (numero di "testa") La distrib. delle Prob. è:
0 0.001 ==> SIMMETRICA perché p = q = 0.5;
1 0.010 => Se p ≠ q è ASIMMETRICA (positiva per p > 0.5);
==> DISCRETA perché k assume solo valori interi;
2 0.044 ==> ha somma = 1;
3 0.117 ==> I parametri p e q sono detti "caratteristici della distribuzione"
4 0.205

5 0.246

6 0.205
Si può anche ragionare così => un esperimento aleatorio,
7 0.117 che produce 2 esiti (es.: GIUSTO / SBAGLIATO)
indipendenti e reciprocamente escludentesi, ripetuto 10
8 0.044 volte (si pensi ad una prova d’esame con 10 domande a
ciascuna delle quali si può risposdere solo: SI / NO e solo
9 0.010
una delle due possibili risposte è GIUSTA) produce un A B C B/C
10 0.001 insieme degli eventi foramto da 10!
210 = 1024 sequenze possibili. Di queste sequenze solo k k! (10 − k )! 210 Prob.

0 1 1024 0.001
10!
k! (10 − k )!
1 10 1024 0.010
Altre proprietà: 2 45 1024 0.044
=> media presentano k successi (es: GIUSTO).
µ = n⋅ p
3 120 1024 0.117
(valore atteso) => Se si pensa di rispondere in maniera casuale (facendo in modo 4 210 1024 0.205
che la probabilità di rispondere “GIUSTO” sia uguale a quella 5 252 1024 0.246
=> varianza => σ = n⋅ p⋅q
2 di rispondere “SBAGLIATO” (p = q = 0.5), la probabilità di
ottenere k successi può essere calcolata anche .... =====>
6 210 1024 0.205

q− p 7 120 1024 0.117


=> asimmetria => m3 = D’altra parte l’equazione della distribuzione binomiale è utile 8 45 1024 0.044
npq soprattutto quando p ≠ 0.5; in questi casi la distribuzione delle 9 10 1024 0.010
1 − 6 pq probabilità non è più simmetrica ....
=> curtosi => m4 = 3 + 10 1 1024 0.001
npq

Principali distribuzioni di probabilità e loro proprietà


Principali distribuzioni di probabilità e loro proprietà
Esempi di distribuzione binomiale simmetrica e non simmetrica.
Una prova (test) di profitto è composta da 16 domande con alternative di risposta precodificate, una
sola delle quali corrisponde alla risposta GIUSTA. Di un tale test vengono predisposte 3 versioni:

2 µ = n⋅ p a) 2 alternative di risposta (1 sola giusta)  p = 0.5 ; q = 0.5


b) 5 alternative di risposta (1 sola giusta);  p = 0.2 ; q = 0.8
Test (a) => µ = 16 ⋅ 0.5 = 8.0 c) 10 alternative di risposta (1 sola giusta)  p = 0.1 ; q = 0.9

Si chiede
Test (b) => µ = 16 ⋅ 0.2 = 3.2 1) calcolare la probabilità di rispondere GIUSTO a 6 domande (su 16) in ciascuna versione del test
sotto la condizione che le risposte vengano vengano fornite casualmente;
Test (c) => µ = 16 ⋅ 0.1 = 1.6 2) stabilire il valore atteso (numero di risposte GIUSTO) che, nelle diverse versioni del test, ci si può
attendere per effetto del caso
1
[NOTA: nella sottostante figura i valori di probabilità delle 3 curve sono rappresentati da linee continue per ragioni di semplicità grafica; essendo la
v.c. binomiale discreta, in corrispondenza dei diversi valori sull’ascissa, la probabilità dovrebbe essere rappresentata con un punto separato. La possibilità
di cogliere visivamente le 3 distribuzioni risulterebbe, tuttavia, del tutto compromessa]

Probabilità di successi su 16 prove con:


Successi (p = 0.5) (p = 0.2) (p = 0.1) p = 1 = 0.1
10
1 0.0002441 0.11259 0.3294258
2 0.0018311 0.2111062 0.2745215
3 0.0085449 0.2462906 0.1423445
p = 1 = 0.2
4 0.027771 0.2001111 0.0514022 5
5 0.0666504 0.1200667 0.0137072
6 0.1221924 0.0550306 0.0027922 p = 1 = 0.5
2
7 0.1745605 0.0196538 0.0004432
8 0.1963806 0.0055276 0.0000554
9 0.1745605 0.0012284 5.5E-6
10 0.1221924 0.000215 4E-7
11 0.0666504 0.0000293 0
12 0.027771 3.1E-6 0
13 0.0085449 2E-7 0
14 0.0018311 0 0
15 0.0002441 0 0
16 0.0000153 0 0
Distribuzione NORMALE Principali distribuzioni di probabilità e loro proprietà

==> Quando gli eventi possono assumere un qualsiasi valore (in un qualsiasi intervallo, anche -∞ +∞ )
allora la distribuzione teorica di probabilità può essere quella NORMALE
=> Molte variabili si distribuiscono approssimativamente in modo normale;
=> Gode di comode proprietà come la simmetria;
=> Viene anche detta "curva degli errori" perché si può dimostrare (Gauss) che essa descrive la LEGGE DI DISTRIBUZIONE DEGLI
ERRORI ACCIDENTALI (per es.: di misurazione di una lunghezza)

==> Una variabile casuale x ha una distribuzione normale con media µ e varianza σ2 se la sua densità
di probabilità (funzione di probabilità) è data da:  − ∞ < x < +∞
− 2 ⋅( x − µ )2
1  π = 3.1416
 2
f (x ) = ⋅ exp − 2 ⋅ ( x − µ ) 
1 1 1 
⋅ e 2σ = con:  e = 2.7183
2πσ 2 2πσ 2  2σ   µ = media
 2
σ = var ianza

µ = 1; σ 2 = 3; Asimm < 0; Curtosi < 0;

1
µ = 0; σ 2 = ; Asimm = 0; Curtosi > 0;
3
1
µ = −1; σ 2 = ; Asimm > 0; Curtosi > 0;
5
µ = 0; σ 2 = 1; Asimm = 0; Curtosi = 0;
Principali distribuzioni di probabilità e loro proprietà

Caratteristiche delle curva normale:

=> è SIMMETRICA (moda = mediana = media);


=> è ASINTOTICA (per x → ±∞);
=> è completamente CARATTERIZZATA da 2 parametri (µ e σ2 );
=> ha 2 punti di FLESSO (da convessa a concava) situati a ± 1 σ ;
=> la probabilità relativa ad intervalli di valori è definita dall'AREA SOTTESA alla porzione di curva e
quindi dall'integrale della funzione (per xi = a):
1  x−µ 
2
a −  
P(a ) =
1

2 σ 
⋅e dxi
−∞ 2πσ 2

 Opportunità di definire una distribuzione NORMALE STANDARDIZZATA (µ = 0 e σ2 =1)

1
xi − µ f (z ) =
1
⋅e
− ⋅z 2
zi = 2
σ Per cui: 2π
 disponendo di una distribuziane empirica, normale, può essere utile definire
"nuovi" valori (punteggi o scale) avendo come riferimento la distribuzione dei valori Z

 I valori Z della distribuzione normale standardizzata possono essere facilmente tabulati e


fornire un criterio per l'assunzione di decisioni statistiche ("verifica" o controllo delle ipotesi)
Principali distribuzioni di probabilità e loro proprietà

Usando come riferimento i valori (Z) della distribuzione nomale standardizzata è possibile definire
"nuovi" valori (punteggi o scale). Alcuni esempi...

La scala T (proposta da McCall, 1922, in onore di E.L. Thorndike) usa: media = 50 e dev.st. = 10

Ti = 50 + 10 ⋅ zi
La scala C (Guilford, 1956), considera 11 valori ed è definita con media = 5 e dev.st. = 2

La scala STANINE ("standard nine"), considera 9 valori ed è definita con media = 5 e dev.st. = 1.96

Originalmente (per es. nell'adattamento americano Età Mentale


della scala d'intelligenza di Binet e Simon, 1905, da QI = ⋅ 100
Età Crono log ica
allora detta: Stanford-Binet)
il QI era definito:

Nelle revisioni più recenti (1960) viene invece utilizzato il cosiddetto QI di deviazione...

Il QI di deviazione della Stanford-Binet è ottenuto considerando: media = 100 e dev.st. = 16

Il QI di deviazione della serie di scale Wechsler è invece basato: media = 100 e dev.st. = 15

Corrispondenze fra alcune delle più comuni scale normalizzate


100.00 %
Corrispondenze
fra alcune 99.87 %
delle più
comuni scale 97.73 %
normalizzate
(valori arrotondati) 84.14 %

50.00 %

Percentuale
(cumulata) 15.86 %
di casi
sotto la curva
2.50% (Z=-1.96)
2.27 %

0.13 %

Deviazioni standard

Percentuale
(negli intervalli)
0.02 0.11 0.49 1.65 4.41 9.18 14.99 19.15 19.15 14.99 9.18 4.41 1.65 0.49 0.11 0.02
di casi %  0.13   2.14   13.59   34.14   34.14   13.59   2.14   0.13 
%
sotto la curva

Z -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 +0.5 +1.0 +1.5 +2.0 +2.5 +3.0 +3.5 +4.0

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
T
C (stanine) 1 2 3 4 5 6 7 8 9
QI di deviazione
Wechsler (100;15) 40 48 55 63 70 78 85 93 100 108 115 123 130 138 145 153 160
----------------------
Stanford-Binet
(100;16) 36 44 52 60 68 76 84 92 100 108 116 124 132 140 148 156 164
+0.13
+0.25

Valori Z
-0.39

+0.39

+0.84

+1.28
+0.52
+0.67

+1.04

+1.64

+2.33
-1.04

-0.67

-0.13
-1.28

-0.25
-2.33

-1.64

-0.84

-0.52

0.00

e relativi
PERCENTILI % 1 5 10 20 30 40 50 60 70 80 90 95 99 %
Principali distribuzioni di probabilità e loro proprietà
I valori Z possono essere facilmente tabulati...

Distribuzione NORMALE STANDARDIZZATA

-4 -3 -2 -1 0 z 1 2 3 4

1-p

Generalmente, il software statistico fornisce direttamente (sotto l'etichetta "prob.") il valore: 1-p

Se zt è il valore del test e l'ipotesi alternativa è biderizionale;


1-p  Prob. di ottenere un valore ≥ +zt e ≤ -zt
La distribuzione CHI-QUADRATO χ2 Helmert, 1876 (astronomo tedesco)
Pearson, 1900

Data una popolazione di numerosità N distribuita NORMALMENTE con media µ e varianza σ2 , è possibile
estrarre innumerevoli campioni di n osservazioni.

Ogni campione di osservazioni è una variabile casuale NORMALE con media µ e varianza σ2 .

Se si standardizzano i valori di k campioni, si avranno k variabili casuali z1, z2, ..., zk normali con stessa media
e stessa varianza.

La sommatoria dei quadrati di k variabili normali standardizzate è una variabile casuale detta CHI-QUADRO
che viene espressa dalla seguente forma funzionale:

χ2 dove : υ = gradi di libertà della distribuzione;


υ
( ) = C( ) (χ )
Pχ 2
υ
2 2 −1
⋅e

2
(0 ≤ χ 2
≤ +∞ ) C(υ ) = costante (che dipende da G.d.L.)
tale da assicurare area sottesa = 1

Principali distribuzioni di probabilità e loro proprietà


La distribuzione CHI-QUADRO è di tipo CONTINUO (non può assumere valori negativi) e assume FORME diverse
in funzione di ν

Proprietà:
=> per ν → ∞ la curva tende alla Normale;
=> la media (valore atteso) = ν

(Uso tavole): Probabilità di osservare un


valore uguale o maggiore di χ2a = area
1-p
sottesa alla curva p

Principali distribuzioni di probabilità e loro proprietà


La distribuzione F (Fischer - Snedecor, 1924-1934)

==> E' definita come rapporto di DUE VARIABILI CASUALI CHI-QUADRO;


==> molto usata in ANOVA => test F;
==> è caratterizzata da due parametri (ν1 ν2) corrispondenti ai GdL numeratore e denominatore;
==> è UNIMODALE e ASIMMETRICA, comprende come casi speciali le altre distribuzioni;

==> per ν1 = 1 e ν2 → ∞ F tende alla Normale Standardizzata;


==> per ν1 = 1 e ν2 = (valore piccolo) F = t2;
==> per ν1 = (valore piccolo) e ν2 → ∞ F tende alla χ2;

La distribuzione t di Student (W. S. Gosset, 1908)

==> E' definita come rapporto fra una variabile casuale Normale Standardizzata e la radice quadrata
di una variabile χ2 divisa per il numero dei suoi GdL, sotto la condizione che le due variabili
siano fra loro indipendenti;

==> molto usata per lo studio di fenomeni casuali relativi a campioni piccoli (n < 30);
==> significatività dei parametri stimati in modelli lineari classici;
==> La forma della distribuzione dipende dai GdL; le diverse curve sono CAMPANULARI e
SIMMETRICHE (platicurtiche)
==> al crescere dei GdL, t tende alla normale

Principali distribuzioni di probabilità e loro proprietà


La logica della decisione in statistica, test sulle ipotesi
Perché la velocità di lettura è differente
nell'ambito di un certo insieme di
individui ? Dipenderà dal metodo di
insegnamento ???
Dalle domande di conoscenza alle ipotesi teoriche ==>
Se gli individui sono stati sottoposti a
due diversi metodi di insegnamento (a; b)
allora la loro velocità di lettura è differente

Indicando con µa e µb le medie incognite della velocità di lettura, rispettivamente per la popolazione
di coloro che hanno seguito il metodo a e b, è possibile scrivere la corrispondente ipotesi statistica:
H: µa ≠ µb che naturalmente implica anche l'ipotesi opposta H: µa = µb

Generalmente si preferisce porsi nella condizione di RESPINGERE l'ipotesi che riveste interesse per
lo studio; e tale ipotesi viene detta IPOTESI NULLA; l'altra IPOTESI ALTERNATIVA
H0: µa = µb H1: µa ≠ µb

L'ipotesi alternativa H1: µa ≠ µb implica due situazioni µa < µb e µa > µb


e viene pertanto detta COMPOSTA o BIDIREZIONALE o BILATERALE
Si possono formulare ipotesi teoriche PIU' SPECIFICHE; per es.: Se gli individui sono stati sottoposti
al metodo diinsegnamento "a", allora leggono più velocemente di quelli sottoposti al metodo "b".

H0: µa ≤ µb (H0: µa - µb ≤ 0) H1: µa > µb (H0: µa - µb > 0)

Ora l'ipotesi alternativa H1: µa > µb viene detta; SEMPLICE o


MONODIREZIONALE o UNILATERALE

==> Il controllo delle ipotesi consiste nello stabilire una regola che permetta di decidere;

==> Tale regola viene detta "TEST STATISTICO";

==> Un test statistico è una variabile casuale i cui valori (definiti dalla regola di calcolo)
stanno in un certo intervallo e seguono una distribuzione di probabilità nota.

==> I valori del test (spazio campionario) vengono generalmente suddivisi in:
- una regione di ACCETTAZIONE di H0
- una regione di RIFIUTO di H0 (accettazione di H1)
sulla base di un valore (Vc) che viene detto VALORE CRITICO (al di là del quale si
estende la regione di rifiuto)

La logica della decisione in statistica, test sulle ipotesi


In generale lo spazio delle decisioni possibili (spazio delle ipotesi) può essere così suddiviso:

Quando si pensa H0 come ... decidere di ... ... comporta ... ... errore di ... ... con probabilità ...

RESPINGERE H0 DECISIONE I° TIPO α


SBAGLIATA
VERA
ACCETTARE H0 DECISIONE NESSUN ERRORE 1-α
GIUSTA
RESPINGERE H0 DECISIONE NESSUN ERRORE 1-β
GIUSTA
FALSA ACCETTARE H0 DECISIONE II° TIPO β
SBAGLIATA

==> La quantità β dipende dal valore prefissato di α e dal valore del parametro incognito .....
==> Si desidera minimizzare sia α sia β; ma POSSONO ESSERE RIDOTTI ENTRAMBI SOLO
AUMENTANDO LA DIMENSIONE DEL CAMPIONE ...

Ecco perché generalmente si preferisce porsi nella condizione di RESPINGERE (H0) l'ipotesi che riveste interesse per lo studio:
==> Es. Il ricercatore desidera sostenere che il diverso metodo di insegnamento influisce sulla velocità di lettura. Definendo:
H0: µa = µb
si dice: “fra i due gruppi che hanno seguito metodi diversi di insegnamento NON vi è alcuna differenza significativa”.
==> MAI SI POTRA’ SAPERE SE HO E’ VERA O FALSA; ma così facendo (assumendo che sia vero µa = µb) si “restringe” lo spazio
decisionale ai primi due casi (illustrati in tabella);
==> ORA PER MINIMIZZARE IL RISCHIO DI SBAGLIARE E’ SUFFICIENTE SCEGLIERE UN α ABBASTANZA PICCOLO !!!

In genere si formulano le ipotesi statistiche in modo che sia più vantaggioso avere un α piccolo (e consegunetemente un β grande) piuttosto che il contrario: Esempio dell'accusato.
Porre H0 = innocente (H1 = colpevole) e scegliere un α piccolo significa preferire la liberazione di un colpevole piuttosto che la condanna di un innocente;
viceversa, con H0 = colpevole (H1 = innocente) e sempre α piccolo, significa preferire un innocente in galera piuttosto che un colpevole in libertà.

La logica della decisione in statistica, test sulle ipotesi


CONTROLLO DELLE IPOTESI: sulla media --- sulla differenza fra medie

=> “sulla media" implica un solo campione e la decisione riguarda SE la media campionaria è (o non è)
significativamente diversa dalla media della popolazione;

=> “sulla differenza fra medie" implica (almeno) due campioni e la decisione riguarda SE la differenza riscontrata è
tale da far ritenere che i campioni provengano da popolazioni con medie diverse (oppure così piccola da far
ritenere che sia dovuta al caso (fluttuazioni campionarie).
[importante distinguere: CAMPIONI INDIPENDENTI / CAMPIONI DIPENDENTI]

In generale il procedimento può essere articolato in:

1) Formulazione delle ipotesi statistiche e definizione coefficiente di fiducia;

2) Calcolo (uso tavole) del valore critico della variabile casuale associata al test [zc; tc; Fc; χ2c];

3) Trasformazione dei valori campionari in quelli della variabile associata opportuna [ze; te; Fe; χ2e]
(e = empirico);

4) Decisione (respingere / non-respingere H0)

(Esempi ...)

La logica della decisione in statistica, test sulle ipotesi


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE (σ ig noto) Z

=> Due campioni (casuali e indipendenti) di studenti vengono sottoposti ad una prova di memoria;
Il primo campione è composto interamente da 43 studenti maschi che ottengono un punteggio
medio pari a 20 con uno scarto quadratico medio di 4.6; il secondo campione è composto
interamente da 40 studentesse che ottengono un punteggio medio pari a 18 con una deviazione
standard pari a 4.4. Si chiede di stabilire, con un livello di fiducia del 99%, se la differenza fra
studenti maschi e femmine è statisticamente significativa.

Dati: xM = 20; xF = 18; nM = 43; nF = 40; sM = 4.6; s F = 4.4


H 0 : µM = µF α = 0.01; 0.99
1 2 H1 è bidirezionale: α /2 => = 0.495 ⇒ zc = ±2.58
H1 : µ M ≠ µ F 1 − α = 0.99; 2

xM − x F 20 − 18
ze = = = +2.0
sM + s F 4.6 + 4.4
3

n1 + n2 − 2 43 + 40 − 2

4 ze cade nella zona di NON rifiuto (interna)


(+2.0 < +2.58) con software statistico...
H0 ==> NON RESPINTA

La logica della decisione in statistica, test sulle ipotesi


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE (σ ig noto) con software statistico...

La logica della decisione


ident genere x
in statistica, test sulle ipotesi
α=
1 M 16.1018
2 F 16.1969
0.01
3 M 13.8570
4 M 20.1517
5 F 30.7632
6 M 14.7090
7 M 15.3023 I DATI...
8 F 18.6471
9 M 23.3436
10 M 22.3045
::::::::::::::::::::::::::
::::::::::::::::::::::::::
80 F 17.7992 Two Sample t-test for the Means of x within genere
81 F 20.7040
Sample Statistics
82 M 18.6702
83 M 15.6051 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
The SAS System
The GLM Procedure F 40 18 4.4 0.6957
Dependent Variable: x
Sum of
M 43 20 4.6 0.7015
Source DF Squares Mean Square F Value Pr > F

Model 1 82.891566 82.891566 4.08 0.0466 Hypothesis Test

Error 81 1643.760000 20.293333 Null hypothesis: Mean 1 - Mean 2 = 0

Corrected Total 82 1726.651566


Alternative: Mean 1 - Mean 2 ^= 0

F
R-Square Coeff Var Root MSE x Mean
If Variances Are t statistic Df Pr > t
0.048007 23.66452 4.504812 19.03614
----------------------------------------------------
Source DF Type I SS Mean Square F Value Pr > F
Equal -2.021 81 0.0466
genere 1 82.89156627 82.89156627 4.08 0.0466 Not Equal -2.024 80.93 0.0462
Standard
Parameter Estimate Error t Value Pr > |t|

Intercept 18.00000000 B 0.71227336 25.27 <.0001


genere
genere
M
F
2.00000000 B
0.00000000 B
0.98958139
.
2.02
.
0.0466
.
t
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Esempio 2. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE: (σ ig noto) t

=> Per controllare se un nuovo tipo di psicofarmaco influisce o meno sulla memoria delle persone si
organizza un esperimento. 60 individui che hanno trovato giovamento dallo psicofarmaco vengono
suddivise (casualmente) in due gruppi di 30 individui; al gruppo 1 viene somministrato il
medicinale, al gruppo 2 un placebo. Dopo un certo intervallo di tempo tutti sono sottoposti ad una
prova di memoria che fornisce i seguenti risultati: media pari a 13.30 e deviazione standard 1.77
per il gruppo 1 (sperimentale); media pari a 16.03 e deviazione standard 1.74 per il gruppo 2
(controllo). Si chiede di stabilire se lo psicofarmaco influisce significativamete sulla memoria
(alfa = 0.05).

Dati: x1 = 13.30; x2 = 16.03; n1 = 30; n2 = 30; s1 = 1.77; s2 = 1.74


H 0 : µ1 = µ 2 α = 0.05;
1 2 Gdl ≈ 60 ⇒ tc = ±2.0
H1 : µ1 ≠ µ 2 1 − α = 0.95; H1 è bidirezionale: GdL = 58 =>

x1 − x2 13.30 − 16.03 − 2.73


te = = = = −5.93
3
n1s12 + n2 s22 n1 + n2 30 ⋅1.77 2 + 30 ⋅1.74 2 30 + 30 0.46
⋅ ⋅
n1 + n2 − 2 n1 ⋅ n2 30 + 30 − 2 30 ⋅ 30

4 te cade nella zona di rifiuto (esterna)


(-5.93 < -2.0) (lo psicofarmaco influisce con software statistico...
H0 ==> RESPINTA (negativamente) sulla memoria

La logica della decisione in statistica, test sulle ipotesi


Esempio 1. TEST DELLE IPOTESI SULLA DIFFERENZA FRA MEDIE (σ ig noto) con software statistico...

α=
0.05

I DATI...

Two Sample t-test for the Means of x within gruppo


Sample Statistics
Group N Mean Std. Dev. Std. Error
------------------------------------------------------
1 30 13.3 1.77 0.3232
2 30 16.03 1.74 0.3177

Hypothesis Test
Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0

If Variances Are t statistic Df Pr > t


----------------------------------------------------
Equal -6.024 58 <.0001
Not Equal -6.024 57.98 <.0001

La logica della decisione in statistica, test sulle ipotesi


La logica della decisione in statistica, test sulle ipotesi
Esempio 3. TEST del CHI-QUADRATO

(f )
=> Assume un valore compreso fra 0 e un numero positivo
2
J K − fˆ jk che dipende da N e dai GdL;
χ = ∑∑
2 jk

j =1 k =1 fˆjk
=> I valori seguono l'omonima distribuzione, per cui è possibile
stabilire se il valore ottenuto è significativamente diverso
da zero

Esempio: Con lo scopo di conoscere il giudizio degli studenti nei confronti dell'introduzione di una
modifica organizzativa del corso di laurea, è stato intervistato un campione casuale di 150
studenti. I risultati dell'indagine sono riportati in forma tabellare distinguendo i giudizi (y)
rispetto al genere (x) degli intervistati. Si chiede di stabilire se:
a) fra genere e giudizio esiste un qualche grado di associazione;
b) l'eventuale associazione fra genere e giudizio é statisticamente significativa (alfa = 0.05)
TABELLA DI X PER Y STATISTICHE PER LA TABELLA DI X PER Y
X Y
Frequenza‚favorev.‚contrari‚incerti ‚ Totale Statistica DF Valore Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Chi quadro 2 12.959 0.002
maschi ‚ 28 ‚ 29 ‚ 17 ‚ 74 Likelihood Ratio Chi-Square 2 13.220 0.001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Mantel-Haenszel Chi-Square 1 2.110 0.146

femmine ‚ 12 ‚ 51 ‚ 13 ‚ 76 Phi Coefficient 0.294


Contingency Coefficient 0.282
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Cramer's V 0.294
Totale 40 80 30 150
Sample Size = 150
con software statistico...

H0: CHI-QUADRO calcolato = 0; L'associazione fra le due variabili è statisticamente significativa per alfa = 0.05 ?
Principali misure di relazione bivariata (variabili CARDINALI)

I valori di due variabili cardinali (x e y) possono essere rappresentati geometricamente come punti (coordinate) in
uno spazio cartesiano a due dimensioni ...

FORMA DELLA RELAZIONE ............

RELAZIONI PERFETTE ..... NON PERFETTE ...... LINEARI e NON-LINEARI

==> Nessuna statistica capace di cogliere (misurare o esprimere) una relazione lineare è anche
capace di cogliere l'esistenza di una relazione non-lineare

=> due variabili vengono dette: ortogonali (o indipendenti) quando si osserva una totale assenza di
relazione;
=> quando la relazione è lineare e perfetta, le variabili vengono dette collineari.
Principali misure di relazione bivariata (variabili CARDINALI)
Misure (statistiche) della relazione LINEARE fra due variabili cardinali

==> COVARIANZA; riprendendo la formula della varianza (di x), questa può essere espressa come
covarianza di x CON SE STESSA ...

1 N 1 N
s = ∑ (xi − x ) = ∑ (xi − x ) ⋅ (xi − x ) = x 2 − x 2
2 2 ==> con due variabili (x e y)
si può scrivere la
N i =1 N i =1 COVARIANZA come:

1 N 1 N
cov xy = ∑ (xi − x ) ⋅ ( yi − y ) = ∑ xi yi − x y = xy − x y
==> se le due variabili sono
ortogonali ... covxy = 0
... diversamente il valore
N i =1 N i =1 dipende dai dati ...

La misura o indice di CORRELAZIONE (Bravais-Pearson - 1889) si ottiene "pesando" la covarianza


con il prodotto delle deviazioni standard ...

Se entrambe le varibili sono STANDARDIZZATE...


1 N
cov xy ∑ (xi − x )⋅ ( yi − y ) sx = s y = 1 e il coefficiente di correlazione può

N i =1 essere definito anche come MEDIA DEI PRODOTTI


rxy = = DELLE VARIABILI STANDARDIZZATE
sx ⋅ s y 1 N 1 N
∑ i ( x − x )2
⋅ ∑ i ( y − y )2
1 N

N i =1 N i =1 rxy =
N
∑z
i =1
xi z yi
==> Proprietà: -1 ≤ r xy ≤ +1

Principali misure di relazione bivariata (variabili CARDINALI)


Esempio ....

Id. X Y X2 y2 XY
s = x2 − x 2 cov xy = xy − x ⋅ y
1 2 10 4 100 20
2 3 9 9 81 27
3 4 9 16 81 36
4 5 7 25 49 35 cov xy
5 6 5 36 25 30 rxy =
6 7 3 49 9 21
---------------------------------
sx ⋅ s y
Media 4.5 7.17 23.17 57.50 28.17

s x = 23.17 − 20.25 = 1.71 s y = 57.5 − 51.41 = 2.47

cov xy = 28.17 − (4.5 ⋅ 7.17 ) = SAS System


Correlation Analysis

= −4.095 2 'VAR' Variables: X Y


Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

− 4.095 X 6 4.50000 1.70783 27.00000 2.00000 7.00000

rxy = = −0.97 Y 6 7.16667 2.47768 43.00000 3.00000


Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6
10.00000

1.71⋅ 2.47 X 1.00000


X
-0.96500
Y

0.0 0.0018
Y -0.96500 1.00000
0.0018 0.0
con software statistico...

Principali misure di relazione bivariata (variabili CARDINALI)


Principali misure di relazione bivariata (variabili CATEGORIALI) – Il test CHI-QUADRATO

ID X Y UTILIZZO DI UN MODELLO A SCOPO DESCRITTIVO


Dalla matrice CxV alla Il modello di indipendenza (due variabili categoriali)
1 a c tabella di contingenza ....
2 a c ident esito docente
3 a d 1 0 A
2 0 A ESEMPIO
4 a d
3 0 A
5 a d ... ... ...
6 a e 11 0 B
12 0 B
7 a e
13 0 B I SUCCESSI (o gli insuccessi) degli studenti
8 a e 14 0 B
15 0 B
SONO EQUAMENTE DISTRIBUITI FRA I
9 a e
L H 16 0 B DOCENTI (A,B,C) ???
∑∑ f
10 a e
11 b c jk = f ++ = N ...
37
...
0
...
C
12 b c j =1 k =1 38 0 C
39 0 C
13 b c
40 0 C
14 b d 41 1 A Le variabili categoriali "esito" e "docente"
15 b e ... ... ... sono fra loro indipendenti o esiste una
45 1 A
16 b e
46 1 A qualche associazione ?
17 b e ... ... ...
18 b e 56 1 B
... ... ...
... ... ...
98 1 C
... ... ... 99 1 C
... ... ... 100 1 C

X \ Y 1 2 ... H Tot.
esito docente
1 f11 f12 ... f1H f1+
Frequenze ‚A ‚B ‚C ‚ Totale
2 f21 f22 ... f2H f2+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
... ... ... ... ... ... ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
L fL1 fL2 ... fLH fL+ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Totale 25 50 25 100
Tot. f+1 f+2 ... f+H f++
⇒ In un'urna (x) ci sono 50 palline "N" e 70 palline "R";
Modello teorico
(nella situazione di indipendenza) .... in un'altra urna (y) ci sono 80 palline "N" e 40 palline "R";
in 120 estrazioni (con ripetizione) qual è la Prob. di estrarre "N" e "N" ???

xj\ yk N R Tot.
 fˆNN =?
ˆ
 f NR =?
N ? ? 50 (Prob.) * (N° di estrazioni) = Frequenza attesa = fˆ jk ˆ
 f RN =?
R ? ? 70  fˆ =?
 RR
Tot. 80 40 120

Dalla teoria della probabilità ... Teorema della probabilità composta (o del prodotto):
SE DUE EVENTI SONO STOCASTICAMENTE INDIPENDENTI, LA PROBABILITA' DI

OTTENERE L'EVENTO A e L'EVENTO B è data da: PA ∩ PB = PA ⋅ PB

50 80
Facendo qualche calcolo ... in x ==> P( N ) = = 0.416 6 in y ==> P( N ) = = 0.666 6
120 120

50 80
fˆNN = ⋅ = 0.277 7 ⋅120 = 33.333 3 ≅ 33
120 120
f j+ f +k f j+ ⋅ f +k
In generale ... fˆ jk = ⋅ ⋅ f ++ =
f ++ f ++ f ++

Principali misure di relazione bivariata (variabili CATEGORIALI)


... dati i marginali, è possibile ottenere la tabella delle frequenze attese fˆ jk nella situazione di indipendenza (fra x e y) ...
frequenze attese
... che può essere confrontata con la tabella delle frequenze empiriche ...
fˆ jk ....
(xj\ yk) N R Tot.

 fˆ11 f11 
... utilizzando N 33 17 .... 50
 ˆ 
 f12 f12  R 47 23 .... 70
 ... ... 
 
(f )
........... ........... ........... .... ...........
In generale ... 2
 fˆ jk f jk  L H
− fˆjk Tot. 80 40 .... 120
 ...

... 

χ = ∑∑
2 jk

 ... ...  j =1 k =1 fˆ
jk
che assume un valore compreso fra 0
e un numero positivo che dipende da
ˆ 
 f LH f LH  N (f++) e dai GdL
GdL = (L − 1) ⋅ (H − 1)

A scopo descrittivo possono essere ricavate altre misure (SIMMETRICHE) di associazione basate sul CHI-quadro (forza della relazione ...)

χ 2 χ2
Coefficiente PHI ==> φ= φ = 2
MIN = 0 ; MAX = 1 SOLO PER TABELLE: 2 * H

N N
φ2
V=
MIN = 0 ; MAX = 1 PER TABELLE: L * H

min[(L − 1), (H − 1)]


Coefficiente V (Cramer) ==>

Per tabelle 2x2 ==> ϕ =V Inoltre, per variabili booleane ....


φ = (f11 ⋅ f22 − f12 ⋅ f21 ) (f1+ ⋅ f2+ ⋅ f+1 ⋅ f+ 2 )
MIN = -1 ; MAX =+ 1
A scopo inferenziale ... i valori di CHI2 seguono l'omonima distribuzione ...

Principali misure di relazione bivariata (variabili CATEGORIALI)


Ritornando all'esempio empirico ... The SAS System

The FREQ Procedure

Table of esito by docente


I SUCCESSI (o gli insuccessi) SONO EQUAMENTE
DISTRIBUITI FRA I DOCENTI (A,B,C) ??? esito docente

Frequency ‚
Expected ‚
Le variabili categoriali "esito" e "docente" Percent ‚
Row Pct ‚
sono fra loro indipendenti o esiste una
Col Pct ‚A ‚B ‚C ‚ Total
qualche associazione ? ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40
‚ 10 ‚ 20 ‚ 10 ‚
‚ 10.00 ‚ 20.00 ‚ 10.00 ‚ 40.00
‚ 25.00 ‚ 50.00 ‚ 25.00 ‚
‚ 40.00 ‚ 40.00 ‚ 40.00 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
esito docente 1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60
‚ 15 ‚ 30 ‚ 15 ‚
Frequenze ‚A ‚B ‚C ‚ Totale ‚ 15.00 ‚ 30.00 ‚ 15.00 ‚ 60.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 25.00 ‚ 50.00 ‚ 25.00 ‚
0 (INSUCCESSO) ‚ 10 ‚ 20 ‚ 10 ‚ 40 ‚ 60.00 ‚ 60.00 ‚ 60.00 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 (SUCCESSO) ‚ 15 ‚ 30 ‚ 15 ‚ 60 Total 25 50 25 100
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 25.00 50.00 25.00 100.00
Totale 25 50 25 100

Statistics for Table of esito by docente

Statistic DF Value Prob


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
con software statistico... Chi-Square 2 0.0000 1.0000
Likelihood Ratio Chi-Square 2 0.0000 1.0000
Mantel-Haenszel Chi-Square 1 0.0000 1.0000
Phi Coefficient 0.0000
Contingency Coefficient 0.0000
Cramer's V 0.0000

Sample Size = 100

Principali misure di relazione bivariata (variabili CATEGORIALI)


I SUCCESSI (o gli insuccessi) SONO EQUAMENTE DISTRIBUITI FRA I DOCENTI (A,B,C) ???
Altro esempio empirico, stessa domanda ...
con software statistico...
Frequenze (e %) OSSERVATE esito docente

esito docente Frequency‚


Expected ‚
Frequenze‚ Percent ‚
% (Tot.) ‚A ‚B ‚C ‚ Totale
Row Pct ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96 Col Pct ‚A ‚B ‚C ‚ Total
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ 69 ‚ 6 ‚ 21 ‚ 96
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 ‚ 60.706 ‚ 14.118 ‚ 21.176 ‚
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 ‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ‚ 71.88 ‚ 6.25 ‚ 21.88 ‚
Totale 86 20 30 136 ‚ 80.23 ‚ 30.00 ‚ 70.00 ‚
63.24 14.71 22.06 100.00
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40
‚ 25.294 ‚ 5.8824 ‚ 8.8235 ‚
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41
... qualche informazione in più ... ‚ 42.50 ‚ 35.00 ‚ 22.50 ‚
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚
esito docente ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 86 20 30 136
Frequency‚ 63.24 14.71 22.06 100.00
Percent ‚
Row Pct ‚
Col Pct ‚A ‚B ‚C ‚ Total Statistics for Table of esito by docente
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
0 ‚ 69 ‚ 6 ‚ 21 ‚ 96
Statistic DF Value Prob
‚ 50.74 ‚ 4.41 ‚ 15.44 ‚ 70.59
‚ 71.88 ‚ 6.25 ‚ 21.88 ‚
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ 80.23 ‚ 30.00 ‚ 70.00 ‚ Chi-Square 2 19.7279 <.0001
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Likelihood Ratio Chi-Square 2 18.1787 0.0001
1 ‚ 17 ‚ 14 ‚ 9 ‚ 40 Mantel-Haenszel Chi-Square 1 3.6911 0.0547
‚ 12.50 ‚ 10.29 ‚ 6.62 ‚ 29.41 Phi Coefficient 0.3809
‚ 42.50 ‚ 35.00 ‚ 22.50 ‚ Contingency Coefficient 0.3559
‚ 19.77 ‚ 70.00 ‚ 30.00 ‚ Cramer's V 0.3809
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 86 20 30 136
63.24 14.71 22.06 100.00
Sample Size = 136

... FREQUENZE ATTESE E CONFRONTO CON IL MODELLO DI INDIPENDENZA

Principali misure di relazione bivariata (variabili CATEGORIALI)


Il modello lineare classico  "REGRESSIONE"

ESEMPIO Il modello è nato come uno strumento per stimare i parametri di


una relazione lineare fra due variabili entrambe cardinali.
Su un campione di 10 donne è stato rilevato
“l’atteggiamento nei confronti della Il termine “regressione” si deve al biologo Galton (1822-1911)
subordinazione della donna” (y) e un tratto che ha cercato di stabilire in che misura la statura dei figli segnasse
di personalità, “autoritarismo” (x) un ritorno (una regressione appunto) verso la statura media della
specie, allorché la statura dei genitori se ne allontanava
Entrambe le varibili sono a livello di scala di intervalli,
con punteggi che variano da 0 a 10
(10 = max subordinazione = max autoritarismo)

Id y x Dai dati...
yi = θˆ0 + θˆ1 xi + ei
y = 4.40; x = 3.00 x 2 = 3.00 2 = 9.00
y

1 2 1
10

9
N
2 4 3 1 1
∑x y
8

7 xy = i i = 144.00 = 14.40
3 5 2 N i =1 10
yˆ i = 2.6 + 0.6 xi
6

5
4 5 5 1 N
1
∑x
4

3 x2 = 2
= 110.00 = 11.00
5 6 5 N
i
10
2 i =1
6 4 1 1

0
0 1 2 3 4 5 6 7 8 9 10 11
x sx = sx2 = 2.00 = 1.414 ; s y = 1.44 = 1.20
7 4 4
8 3 2
COVxy xy − x ⋅ y 14.40 − 3.00 ⋅ 4.40 1.20
9 5 3 θˆ1 = = = = = 0.60 θˆ0 = y − θˆ1 x = 4.40 − 0.60 ⋅ 3.00 = 2.60
10 6 4 VARx x −x2 2 11.00 − 9.00 2.00
N
DEVt = ∑ ( yi − y ) = 14.40 ; GdLt = 10 − 1 = 9 DEVs 7.20
2
R2 = = = 0.50
i =1 DEVt 14.40
N
DEVs = ∑ ( yˆ i − y ) = 7.20 ; GdLs = 1
2 DEVs
GdLs 7.20
i =1 F= = = 8.00;
DEVr 0.90
N GDLr
DEVr = ∑ (ei ) = 7.20 ; GdLr = 10 − 1 − 1 = 8 {per α = 0.05; Fcritico = 5.32}
2
(H0 : respinta)
i =1

t = F = 8.00 = 2.83
GdLr = 8; {per α = 0.05; tcritico = 2.306} (H0 : respinta)
ESEMPIO  Quando le variabili (y e x) sono standardizzate, il coefficiente di
regressione stimato coincide con il coefficiente di correlazione (r)
 Coefficienti θˆ1 e βˆ1
 Interpretazione parametri (θˆ ;θˆ ; βˆ )
0 1 1
 Questo coefficiente (peso β ) esprime la variazione attesa in y, in
unità di deviazione standard, per la variazione di 1 dev. standard in x
 Stime (ŷ) al di là dei dati empirici (x = ???)
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
The REG Procedure proc reg data=uno; model y =x / stb;quit;
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Model: MODEL1
y 10 4.4000000 1.2000000 2.0000000 6.0000000 Dependent Variable: y
x 10 3.0000000 1.4142136 1.0000000 5.0000000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
data uno;input y x;cards; Obs y x ystd xstd Model 1 7.20000 7.20000 8.00 0.0222
2 1 1 2 1 -2.00000 -1.41421 Error 8 7.20000 0.90000
4 3 Corrected Total 9 14.40000
2 4 3 -0.33333 0.00000
5 2
5 5 3 5 2 0.50000 -0.70711
4 5 5 0.50000 1.41421 Root MSE 0.94868 R-Square 0.5000
6 5 Dependent Mean 4.40000 Adj R-Sq 0.4375
4 1 5 6 5 1.33333 1.41421
Coeff Var 21.56098
4 4 6 4 1 -0.33333 -1.41421
3 2 7 4 4 -0.33333 0.70711
Parameter Estimates
5 3 8 3 2 -1.16667 -0.70711 Parameter Standard Standardized
6 4 9 5 3 0.50000 0.00000 Variable DF Estimate Error t Value Pr > |t| Estimate
; 10 6 4 1.33333 0.70711 Intercept 1 2.60000 0.70356 3.70 0.0061 0
x 1 0.60000 0.21213 2.83 0.0222 0.70711

The REG Procedure proc reg data=uno; model ystd = xstd ;quit;
y
yˆ i = 2.6 + 0.6 xi Model: MODEL1
Dependent Variable: ystd
10
Analysis of Variance
9 Sum of Mean
ŷ = 7.4 Source DF Squares Square F Value Pr > F
8 Model 1 5.00000 5.00000 8.00 0.0222
7
Error 8 5.00000 0.62500
Corrected Total 9 10.00000
6
Root MSE 0.79057 R-Square 0.5000
5
Dependent Mean -2.8866E-16 Adj R-Sq 0.4375
4 Coeff Var -2.73878E17

3 Parameter Estimates
2 Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
1 Intercept 1 -2.8866E-16 0.25000 -0.00 1.0000
xstd 1 0.70711 0.25000 2.83 0.0222
0
0 1 2 3 4 5 6 7 8 9 10 11
x
Analisi della Varianza (Fisher, 1935) R... Esempio: CAMPIONI CASUALI INDIPENDENTI - DATI BILANCIATI
<<Se gli individui sono stati sottoposti a diversi metodi di insegnamento
...Come estensione del TEST sulla differenza fra medie... (a; b; c; ....; z), allora la loro velocità di lettura è differente>>
-------------------------------------------------
per semplicità:  3 metodi (a, b,c);  3 individui ogni campione
Ident y Metodo
Disegno ad Assegnazione Casuale completa
(parole lette / (Completely Randomized CR-3)  ANOVA ad UNA VIA 
intervallo di

H0 : µ a = µ b = µ c
tempo)
1a 50 a
2a 40 a a ya = 50
3a 60 a
1b 70 b
y = 50
2b 80 b b yb = 80
3b 90 b  Per utilizzare il TEST (t) sulla differenza
fra due medie è necessario effettuare
1c 20 c 3 CONFRONTI...
2c 15 c
c yc = 20  In generale con k medie, k ⋅ (k − 1)
3c 25 c il numero dei confronti è pari a: c=
2
 Fissato il coefficiente di fiducia (α),
la probabilità di incorrere in un ERRORE
del I° TIPO aumenta all'aumentare dei confronti!

<< Se il diverso metodo di insegnamento influenza la velocità di lettura, allora le medie dei campioni saranno diverse>>
MA SI TRATTA DI DIFFERENZE STATISTICAMENTE SIGNIFICATIVE?
Ovvero:
I tre campioni possono essere ricondotti ad ununico universo di riferimento (con la stessa media)?
Ovvero:
Le differenze osservate fra le medie dei tre campioni sono oscillazioni casuali intorno ad un'unica media?

 La Prob. di incorrere in un errore del I° tipo può essere approssimata per eccesso (confronti tutti ortogonali)

Per esempio:
Pr = 1 − (1 − α )
c
Medie Confronti (c) −−−− − −−−−− − Pr. Errore I° tipo
con α = 0.05
2 1 1 − 0.951 = 1 − 0.950 = 0.050
4 6 1 − 0.956 = 1 − 0.735 = 0.265
6 15 1 − 0.9515 = 1 − 0.463 = 0.537
8 28 1 − 0.95 28 = 1 − 0.238 = 0.762
10 45 1 − 0.9545 = 1 − 0.099 = 0.901
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie... R...

H0 : µ a = µ b = µ c ? H1 : µ a ≠ µ b ≠ µ c
<<eventuali differenze fra le medie empiriche dei <<almeno una differenza fra le medie empiriche dei
campioni sono POCO MARCATE così che possono campioni è ABBASTANZA MARCATA così che
essere attribuite ad oscillazioni casuali intorno si può sostenere l’appartenenza dei diversi
ad un’unica media dell’universo di riferimento>> campioni a universi distinti con medie differenti>>
Test F
 Organizzando diversamente i dati dell'esempio, si evidenziano
DUE FONTI DI VARIABILITÀ (unico EFFETTO: "metodo")...

Ident y Metodo
(parole lette /
intervallo di  Effettuando i calcoli...
tempo)
NOTAZIONE
1a 50 a
N = numerosità totale
2a 40 a
3a 60 a
n = na = nb = nc = numerosità campione
1b 70 b k = numero di campioni
2b 80 b GdL = Gradi di Libertà
3b 90 b DEV = devianze
1c 20 c VAR = varianze
2c 15 c DEVS ⇔ VARS =" Spiegata" , "FRA" , "between"
3c 25 c DEVR ⇔ VARR ="Residua" , "ENTRO" , " within"

DEVs = n∑ ( y j − y ) = n( ya − y ) + n( yb − y ) + n( yc − y ) =
K
2 2 2 2
GdLS = k − 1 = 3 − 1 = 2
j =1

= 3(50 − 50 ) + 3(80 − 50 ) + 3(20 − 50 ) = 5400


2 2 2 GdLR = N − k = 9 − 3 = 6

DEVR = ∑∑ ( yij − y j ) =
n K
2

i =1 j =1

= ( y1a − ya ) + ( y2 a − ya ) + ( y3 a − ya ) + ( y1b − yb ) + ( y2 b − yb ) + ( y3 b − yb ) + ( y1c − yc ) + ( y2 c − yc ) + ( y3 c − yc ) =


2 2 2 2 2 2 2 2 2

= (50 − 50 ) + (40 − 50 ) + (60 − 50 ) + (70 − 80 ) + (80 − 80 ) + (90 − 80 ) + (20 − 20 ) + (15 − 20 ) + (25 − 20 ) = 450
2 2 2 2 2 2 2 2 2

DEVs 5400 DEVr 450


VARs = = = 2700 VARR = = = 75
GdLs 2 GdLr 6
Analisi della Varianza ...Come estensione del TEST sulla differenza fra medie... R... VARS
F=
VARS e VARR sono stime INDIPENDENTI (calcolate con riferimento a medie diverse) della variabilità dei dati VARR
VARS è priva di errore sistematico (Teorema del Limite Centrale), se le differenze fra le medie sono dovute ad oscillazioni casuali (campionarie)

VARS è affetta da errore sistematico, se le differenze fra le medie sono dovute a universi di riferimento con medie diverse e, in tal caso l'errore
condurrà ad una sovrastima (della varianza fra le medie dei campioni) dato che il numero di campioni è sempre inferiore al numero degli individui

VARR è una stima (campione per campione) e pertanto è sempre priva di errore sistematico

 F ha una distribuzione campionaria che fornisce la probabilità di ottenere, per effetto del caso, un valore uguale o maggiore a quello empirico

 Ritornando all'esempio empirico... NOTAZIONE : FE = empirico; FT = teorico (critico)

VARs 2700 Dalle tavole per α = 0.01;


FE =
VARr
=
75
= 36.00
con : GdLS = 2; GdLR = 6; ⇒ FT = 10.92
FE > FT

Obs y x Dependent Variable: y


Sum of
1 50 a Source DF Squares Mean Square F Value Pr > F
Model 2 5400.000000 2700.000000 36.00 0.0005
2 40 a
Error 6 450.000000 75.000000
3 60 a Corrected Total 8 5850.000000
in SAS vedi il file:
4 70 b ES_ANOVA0.SAS
5 80 b R-Square Coeff Var Root MSE y Mean
6 90 b 0.923077 17.32051 8.660254 50.00000
7 20 c
8 15 c Source DF Type I SS Mean Square F Value Pr > F
9 25 c x 2 5400.000000 2700.000000 36.00 0.0005

H0 : (µ a = µ b = µ c ) ⇒ RESPINTA Il metodo di insegnamento influenza la velocità di lettura; individui sottoposti a diversi


metodi rimandano a universi di riferimento con differente velocità di lettura...
Scomposizione della variabilità (1)

TEOREMA
La somma dei quadrati totale o da spiegare (SQT) può sempre essere scomposta in due addendi: la somma dei
quadrati spiegata (SQS) e la somma dei quadrati residua o dello scarto (SQR)

DIMOSTRAZIONE

yi = yˆ i + ei Elevando al quadrato
e sommando ... (1 < i < N ) ... ∑ y = ∑ yˆ
2
i
2
i + 2∑ yˆ i ei + ∑ ei2 Ma... (∑ yˆ i ei = 0 ); pertanto...

Ovvero...

∑ yi2 = ∑ yˆ i2 + ∑ e i2 SQT = SQS + SQR (in notazione vettoriale)

y′y = yˆ ′yˆ + e ′e
Se nel modello è presente l'intercetta...
SOMME dei QUADRATI = DEVIANZE
SQθ0
Sfruttando alcune proprietà delle stime
(yˆ = y ; e = 0) SQθ1
vale, anche per le DEVIANZE, SQS
il precedente TEOREMA; infatti... SQθ2

yi − y = yˆ i − y + ei − e yi = yˆ i + ei DevT = DevS + Dev R SQT .…..

il TEOREMA vale anche per i Gradi di Libertà SQθ k

GdLT = GdLS + GdLR SQR


GdLT = N

Somme dei Quadrati GdLS = K
GdL = N − K
 R

Dove: GdLT = N − 1

N = Osservazioni; Devianze GdLS = K
K = Variabili esplicative
GdL = N − 1 − K
 R
Scomposizione della variabilità (1)
Le tre componenti (DevT ; DevS ; DevR) possono essere illustrate graficamente riportando
sugli assi cartesiani un'unica osservazione (yi) di un modello lineare classico bivariato

∑ ( y − y) = DevT
2
i

yˆ i = θˆ0 + θˆ1 xi
∑ ( y − yˆ ) = ∑ e = Dev R
2 2
i i

yi
( yi − yˆ i )
( yi − y ) ∑ ( yˆ − y ) = Dev S
2
ŷi i

( yˆ i − y )
y y
θˆ0
θˆ1

x
Variabili categoriali
Variabili booleane 12 individui... rilevazione di:
 GRUPPO di riferimento (A, B, C)  GENERE (1 = Maschio; 0 = Femmina)

variabile In MATRICE DATI (CxV)... Gruppo Genere

DUMMY

IDENT IDENT
Gruppo Genere A B C M F
FORMA
01 A 1 matrice  RIDOTTA 01 1 0 0 1 0
variabili COMPRESSA
02 A 1 02 1 0 0 1 0

03 A 0 03 1 0 0 0 1

04 A 0 04 1 0 0 0 1

05 B 1 05 0 1 0 1 0

06 B 1 06 0 1 0 1 0

07 B 0 07 0 1 0 0 1

08 B 0 08 0 1 0 0 1

09 C 1 09 0 0 1 1 0

10 C 1 FORMA 10 0 0 1 1 0
matrice  CANONICA o ESTESA
11 C 0 variabili  DISGIUNTIVA COMPLETA 11 0 0 1 0 1

12 C 0 12 0 0 1 0 1

classi di equivalenza valore

... ...
APPARTENENZA VERITÀ
xi xi

... ...
ESEMPIO (1a) ==> 2 gruppi di individui (3 individui ogni grupo) sono stati sottoposti a metodi diversi di insegnamento;
si potrebbero ottenere i seguenti dati...

PAROLE DOMANDE...
LETTE
INTERVALLO (1) I due metodi producono una differenza statisticamente significativa?
di TEMPO (2) Qual è l’effetto del metodo "b" sulla velocità di lettura ?
Id y Metodo x
Two Sample t-test for the Means of y within metodo
(1)
1b 70 B 1
Sample Statistics
2b 80 B 1 Group N Mean Std. Dev. Std. Error
----------------------------------------------------
3b 90 B 1 b 3 80 10 5.7735
c 3 20 5 2.8868
1c 20 C 0
Hypothesis Test
2c 15 C 0 Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0
3c 25 C 0
yi = θˆ0 + θˆ1 xi + ei If Variances Are t statistic Df Pr > t
----------------------------------------------------
Equal 9.295 4 0.0007
(2) Not Equal 9.295 2.94 0.0029

y = 50; x = 0.5

y
90
80
70 In una situazione così elementare
è possibile seguire, passo-passo,
60 (50;0.5) il procedimento di stima del modello...
50 yˆ i = θˆ0 + θˆ1 xi
40 ⇓ ⇓
30 20 60
20
10 θˆ0
θˆ1
0 1 x
ESEMPIO (1a) N N

yi = θˆ0 + θˆ1 xi + ei
Si tratta di trovare quei parametri (a; b) che... ∑e = ∑(y
i =1
2
i
i =1
i − yˆ i ) = min
2

yˆ i = θˆ0 + θˆ1 xi
( )
N N N

∑ e = ∑ ( yi − yˆi ) = ∑ yi − θˆ0 − θˆ1 xi


è necessario calcolare 2 2
2
le derivate parziali
ed eguagliarle a zero i
yi = yˆ i + ei ; ei = yi − y
ˆi i =1 i =1 i =1

Parametro: θ0

∑( ) = −2∑ (y − θˆ − θˆ x ) = 0
∂ N N

( ) = −2∑ z (w − θˆ − θˆ z ) = 0
2 1
yi − θˆ0 − θˆ1 xi ∂ N N


2 1
∂θˆ0 wi − θˆ0 − θˆ1 zi
i 0 1 i
i =1 i =1
∂θ 1 i =1
i i 0 1 i
ˆ i =1
N N

∑ yi − Nθˆ0 − θˆ1 ∑ xi = 0 N N N
i =1 i =1
∑ wi zi − θˆ0 ∑ zi − θˆ1 ∑ zi2 = 0 ;
i =1 i =1 i =1
1 N 1 N
θ 0 = ∑ yi − θˆ1
ˆ
∑ xi N N
N i =1 N i =1 Ma : ∑ zi = ∑ ( xi − x ) = 0
θˆ = y − θˆ x
0 1
i =1 i =1
N N
Parametro: θ1 (traslazione degli assi)  wi = yi − y

∑ w z ∑ ( y − y )( x
i i i i − x)
CoDev xy
 zi = xi − x θˆ1 = i =1
= i =1
=
Dev x
100
N N

∑z (
∑ i )
y

90 w 2
2
80
70
i x x
60 i =1 i =1
50
N

∑ ( y − y )( x − x)
40
30
1
20
N
i i
Cov xy
10
θ1 Ovvero... θˆ1 = i =1
=
N
Varx
0
-10
-20
x 1
(
∑ ix − x )2

-30
-40
N i =1
θ1 (y;x)
-50
-60 (w;z)
z
-0.5 0.0 +1.0
I calcoli...
yi = θˆ0 + θˆ1 xi + ei yˆ i = θˆ0 + θˆ1 xi
ESEMPIO (1a)
Qualche conto utile...

y = 50; x = 0.5 x 2 = 0.5 2 = 0.25


Id y x ŷ e N
1 1
1b 70 1 80 -10 xy =
N
∑ xi yi = 6
240 = 40
2b
3b
80
90
1
1
80
80
0
+10
} ŷ = 80 = MEDIA ("B")

1
i =1

N
1
1c 20 0 20 0 x =
2
∑x 2
= 3 = 0.5
2c
3c
15
25
0
0
20
20
-5
+5
} ŷ = 20 = MEDIA ("C") N i =1
i
6

COVxy xy − x ⋅ y 40 − 0.5 ⋅ 50 15
θ1 =
ˆ = 2 = = = 60 θˆ0 = y − θˆ1 x = 50 − 60 ⋅ 0.5 = 20
VARx x −x 2 0.5 − 0.25 0.25

Inoltre...
N N N
DEVt = ∑ ( yi − y ) = 5650 ; GdLt = 6 − 1 = 5 DEVs = ∑ ( yˆ i − y ) = 5400 ; GdLs = 1 DEVr = ∑ (ei ) = 250 ; GdLr = 6 − 1 − 1 = 4
2 2 2

i =1 i =1 i =1

sx = sx2 = 0.25 = 0.5; s y = 941.67 = 30.69


DEVs
= 86.4; {per α = 0.01; Fcritico = 21.20 } (H0 : respinta)
GdLs 5400
F= =
DEVr 62.5
GDLr

COV xy 15 DEVs DEVs 5400


r= = = +0.98 R 2 = r 2 = 0.98 2 = 0.96 R2 = = = = 0.96
sx ⋅ s y 0.5 ⋅ 30.69 DEVt DEVs + DEVr 5650

con software statistico...


data uno;input y metodo $1.;cards; data uno;set uno;x=0;if metodo="b" then x=1;
ESEMPIO (1a) t-TEST 70 b
80 b
Two Sample t-test for the Means of y within metodo 90 b
20 c
Sample Statistics
15 c The GLM Procedure proc glm data=uno; model y =x;quit;
Group N Mean Std. Dev. Std. Error 25 c Dependent Variable: y
---------------------------------------------------- ;
b 3 80 10 5.7735
Sum of
c 3 20 5 2.8868 Source DF Squares Mean Square F Value Pr > F
Model 1 5400.000000 5400.000000 86.40 0.0007
Hypothesis Test Error 4 250.000000 62.500000
Null hypothesis: Mean 1 - Mean 2 = 0 Corrected Total 5 5650.000000
Alternative: Mean 1 - Mean 2 ^= 0
R-Square Coeff Var Root MSE y Mean
If Variances Are t statistic Df Pr > t 0.955752 15.81139 7.905694 50.00000
----------------------------------------------------
Equal 9.295 4 0.0007 Source DF Type I SS Mean Square F Value Pr > F
Not Equal 9.295 2.94 0.0029 x 1 5400.000000 5400.000000 86.40 0.0007
Source DF Type III SS Mean Square F Value Pr > F
x 1 5400.000000 5400.000000 86.40 0.0007
The REG Procedure proc reg data=uno; model y =x;quit;
Model: MODEL1 Standard
Dependent Variable: y Parameter Estimate Error t Value Pr > |t|
Analysis of Variance Intercept 20.00000000 4.56435465 4.38 0.0119
Sum of Mean x 60.00000000 6.45497224 9.30 0.0007
Source DF Squares Square F Value Pr > F
Model 1 5400.00000 5400.00000 86.40 0.0007
Error 4 250.00000 62.50000
Corrected Total 5 5650.00000 proc glm data=uno; class metodo;model y = metodo /solution;quit;

Root MSE 7.90569 R-Square 0.9558 The SAS System


Dependent Mean 50.00000 Adj R-Sq 0.9447 The GLM Procedure
Coeff Var 15.81139 Dependent Variable: y
Sum of
Parameter Estimates Source DF Squares Mean Square F Value Pr > F
Parameter Standard Model 1 5400.000000 5400.000000 86.40 0.0007
Variable DF Estimate Error t Value Pr > |t| Error 4 250.000000 62.500000
Intercept 1 20.00000 4.56435 4.38 0.0119 Corrected Total 5 5650.000000
x 1 60.00000 6.45497 9.30 0.0007
R-Square Coeff Var Root MSE y Mean
0.955752 15.81139 7.905694 50.00000
The GLM Procedure
Dependent Variable: y Source DF Type I SS Mean Square F Value Pr > F
Sum of metodo 1 5400.000000 5400.000000 86.40 0.0007
Source DF Squares Mean Square F Value Pr > F Source DF Type III SS Mean Square F Value Pr > F
Model 1 5400.000000 5400.000000 86.40 0.0007 metodo 1 5400.000000 5400.000000 86.40 0.0007
Error 4 250.000000 62.500000
Corrected Total 5 5650.000000 Standard
Parameter Estimate Error t Value Pr > |t|
R-Square Coeff Var Root MSE y Mean Intercept 20.00000000 B 4.56435465 4.38 0.0119
0.955752 15.81139 7.905694 50.00000
metodo b 60.00000000 B 6.45497224 9.30 0.0007
metodo c 0.00000000 B . . .
Source DF Type I SS Mean Square F Value Pr > F
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
x 1 5400.000000 5400.000000 86.40 0.0007
was used to solve the normal equations. Terms whose estimates are
Source DF Type III SS Mean Square F Value Pr > F
x 1 5400.000000 5400.000000 86.40 0.0007 followed by the letter 'B' are not uniquely estimable.

Standard
Parameter Estimate Error t Value Pr > |t| proc sort data=uno out=uno;by descending x;
Intercept 20.00000000 B 4.56435465 4.38 0.0119 proc glm data=uno order=data; class x;
x 1 60.00000000 B 6.45497224 9.30 0.0007
model y = x /solution;quit;
x 0 0.00000000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.

Potrebbero piacerti anche