Sei sulla pagina 1di 68

Statistica Descrittiva

Stefano Montaldo

Università degli Studi di Cagliari


Laurea in Biologia

A.A. 2009/2010

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 1 / 136

Modelli Matematici

Un modello matematico di un fenomeno naturale è una


rappresentazione semplificata dello stesso, fatta in modo da
conservare gli aspetti più significativi del fenomeno.

Il modello matematico è un modello concettuale, consistente in un


insieme di assunzioni sul fenomeno stesso, assieme ad una analisi
delle conseguenze logiche delle assunzioni, il tutto sviluppato in
termini matematici.

Il primo passo per utilizzare un modello matematico consiste


nell’analisi strutturata dei dati riguardanti il fenomeno che si vuole
studiare. Questa fase è espletata dalla statistica descrittiva di cui ora ci
occuperemo.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 2 / 136


Statistica descrittiva

La statistica descrittiva è un insieme di tecniche per descrivere e


riassumere dati ricorrendo a tecniche matematiche.
Gli strumenti di sintesi sono essenzialmente di tre tipi:
tabelle
rappresentazioni grafiche
indici sintetici

Attenzione
Quando sintetizziamo l’informazione contenuta nei dati, ne perdiamo
una parte. Gli strumenti di sintesi devono essere scelti in modo tale
da:
preservare, per quanto possibile, l’informazione rilevante per il
problema analizzato
eliminare l’informazione non necessaria

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 3 / 136

Campione statistico
Uno studio statistico riguarda un gruppo di individui. Gli individui
possono essere persone, cellule, molecole, foglie, pietre...

Definizione
Gli individui costituiscono le nostre unità statistiche di
osservazione
L’insieme delle unità statistiche forma il campione
La popolazione indica la totalità delle unità individuali alle quali
vogliamo estendere le analisi effettuate sul campione.

Il campione è quindi un sottoinsieme della popolazione.


Indicheremo con N il numero di unità statistiche che costituiscono un
campione e denoteremo le unità statistiche con:

U1 , U2 , . . . , UN

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 4 / 136


Variabile

Sulle unità statistiche vengono effettuate delle osservazioni o


misurazioni.
Definizione
Chiamiamo variabile o carattere ciò che si misura o osserva sulle unità
statistiche di un campione

Generalmente, su un dato campione statistico possiamo fare diverse


misurazioni. Indicheremo quindi con le lettere

X, Y, Z...

le diverse variabili misurate sulla stessa unità statistica.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 5 / 136

Esempio

Gli studenti di Biologia del primo anno sono un campione degli studenti
di Biologia. Se misuriamo a ciascun studente il peso e l’altezza si ha:
studenti = unità statistiche
campione = studenti del primo anno
popolazione = studenti di Biologia Sperimentale
peso = X
altezza = Y

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 6 / 136


La tabella cronologica

Variabili Variabili
Unità X Y Z Unità peso altezza sesso
U1 X1 Y1 Z1 U1 48 156 0
U2 X2 Y2 Z3 U2 45 151 0
U3 X3 Y3 Z3 U3 65 160 1
· · · · · · · ·
· · · · · · · ·
· · · · · · · ·
UN XN YN ZN UN 68 162 1

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 7 / 136

Rappresentazione di una variabile

Di solito i valori di una variabile misurati su un campione si


rappresentano come un vettore

X = {X1 , X2 , . . . , XN }

dove si è indicato con Xk il valore della variabile X relativo all’unità


statistica Uk . Questa rappresentazione non fornisce alcuna
informazione sui dati.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 8 / 136


Rappresentazione non strutturata

Esempio
Simulazione del lancio di due dadi a sei facce
dadi = (6, 6, 5, 6, 3, 4, 8, 7, 7, 6, 9, 5, 10, 6, 6, 7, 10, 10, 3, 3, 8, 5, 7, 6, 10, 7, 6, 7, 9, 4, 7,
2, 5, 11, 6, 6, 8, 6, 4, 7, 7, 9, 7, 7, 8, 10, 9, 5, 8, 6, 6, 7, 5, 5, 11, 4, 10, 7, 9, 9, 7, 4, 9, 5, 10,
8, 5, 6, 9, 7, 6, 4, 7, 7, 6, 3, 2, 8, 9, 4, 8, 11, 2, 8, 9, 7, 11, 6, 9, 4, 8, 7, 6, 3, 6, 7, 4, 2,
6, 3, 4, 6, 3, 5, 4, 10, 6, 9, 9, 9, 3, 7, 6, 9, 9, 4, 6, 7, 7, 5, 11, 8, 10, 3, 10, 8, 8, 4, 4, 5,
9, 7, 5, 11, 8, 9, 11, 3, 9, 6, 7, 8, 5, 2, 8, 4, 6, 7, 9, 5, 6, 6, 5, 5, 8, 10, 12, 7, 8, 6, 6, 8, 6,
3, 8, 5, 7, 3, 2, 8, 8, 9, 9, 8, 4, 5, 8, 7, 8, 5, 7, 10, 7, 8, 5, 7, 2, 10, 7, 3, 5, 5, 6, 8, 11, 7, 8, 7,
6, 11, 12, 8, 7, 5, 9, 4, 10, 4, 10, 4, 5, 7, 6, 12, 6, 9, 4, 6, 7, 3, 11, 12, 6, 5, 7, 6, 2, 4, 11, 5,
4, 9, 7, 10, 8, 7, 8, 2, 7, 11, 3, 7, 12, 11, 6, 8, 5, 8, 10, 8)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 9 / 136

Rappresentazione non strutturata

Esempio
Il vettore riporta il peso di 300 trote.

peso trote = (217, 250, 297, 212, 380, 344, 259, 269, 303, 327, 285, 341, 326, 233, 217, 379, 284, 307, 377, 369, 382, 253, 256, 295,
311, 342, 309, 409, 287, 341, 259, 392, 250, 296, 336, 239, 301, 235, 368, 264, 288, 269, 255, 254, 391, 311, 363, 251, 294, 287,
287, 328, 227, 158, 303, 371, 312, 306, 341, 347, 314, 342, 283, 345, 347, 250, 328, 213, 284, 269, 240, 193, 260, 282, 344, 316,
405, 269, 355, 356, 253, 299, 395, 293, 283, 394, 291, 296, 277, 353, 287, 314, 322, 274, 340, 394, 236, 448, 258, 269, 358, 323,
268, 327, 338, 332, 334, 344, 292, 337, 373, 244, 334, 276, 296, 297, 227, 259, 244, 193, 301, 274, 286, 378, 288, 267, 369, 215,
232, 350, 333, 240, 349, 320, 277, 311, 296, 360, 316, 265, 249, 270, 222, 380, 249, 291, 320, 249, 273, 251, 239, 254, 325, 345,
244, 334, 315, 245, 345, 323, 241, 307, 314, 363, 256, 339, 304, 320, 409, 265, 301, 271, 333, 287, 367, 220, 268, 239, 276, 282,
288, 285, 317, 304, 313, 251, 363, 330, 271, 247, 279, 351, 340, 278, 332, 316, 291, 276, 225, 330, 317, 254, 244, 179, 263, 334,
285, 359, 343, 275, 269, 256, 244, 302, 364, 290, 303, 320, 247, 348, 290, 318, 257, 221, 418, 218, 395, 325, 332, 348, 283, 339,
243, 351, 305, 234, 300, 399, 320, 310, 309, 320, 322, 331, 258, 384, 329, 277, 339, 271, 308, 270, 255, 303, 269, 315, 304, 337,
334, 267, 355, 356, 242, 239, 319, 323, 305, 323, 346, 357, 316, 250, 293, 228, 270, 374, 278, 375, 299, 364, 258, 357, 238, 300,
298, 321, 202, 368, 371, 422, 212, 349, 306, 344, 303, 328, 339, 363, 264, 305)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 10 / 136


Rappresentazioni cartesiana - Diagramma di
dispersione

La prima rappresentazione strutturata è quella data dalla


visualizzazione cartesiana dei dati.
Si riporta
in ascissa il numero progressivo delle unità statistiche
in ordinata il valori della variabile X
Si posiziona poi un cerchietto in corrispondenza dei punti Pk di
coordinate
Pk = (k, Xk ), k = 1, . . . , N

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 11 / 136

Lancio dei due dadi

12

10

50 100 150 200 250

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 12 / 136


Peso delle trote

450

400

350

300

250

200

50 100 150 200 250 300

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 13 / 136

Rappresentazioni strutturate

Si consideri il vettore (da ora in poi sarà l’esempio guida)

X = (8, 15, 18, 2, 19, 5, 1, 10, 5, 17, 15, 5, 3, 6, 13,


19, 13, 14, 10, 13, 13, 15, 13, 17, 11, 0, 7, 6, 0, 6)

La rappresentazione di tutti i dati non è sempre molto chiara. Di fatto


molte volte interessa sapere se un certo valore è all’interno di un dato
intervallo, più che il singolo valore.

Procediamo nel modo seguente:


�1 Per primo riordiniamo i dati del vettore X:

X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,


11, 13, 13, 13, 13, 13, 14, 15, 15, 15, 17, 17, 18, 19, 19)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 14 / 136


Ampiezza e sotto intervalli
�2
Definizione
L’ampiezza di un vettore X è il numero M − m = XN∗ − X1∗ dove M e m
sono il massimo ed il minimo valore di X rispettivamente.

Nell’esempio l’ampiezza vale 19.


�3 Adesso suddividiamo l’intervallo I = [0, 19] in sotto intervalli.
Scegliendo, per esempio, sotto intervalli omogenei di ampiezza 5,si
ottiene:

I1 = [0, 5), I2 = [5, 10), I3 = [10, 15), I4 = [15, 20)

Osservazione
Si osservi che per convenzione il primo estremo dei sotto intervalli è
incluso mentre il secondo no, cioè appartiene al sotto intervallo
successivo.
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 15 / 136

Frequenze assolute e relative

�4 Per ciascun sotto intervallo calcoliamo le frequenze assolute e


quelle relative definite da

Definizione
Le frequenze assolute, indicate con nk misurano il numero di unità
statistiche con un valore della variabile X all’interno dell’intervallo Ik .
Le frequenze relative definite da fk = nk /N, indicano la frequenza
assoluta rapportata al numero totale di unità statistiche. Di solito si
esprimono in percentuale.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 16 / 136


Esempio guida

X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,


11, 13, 13, 13, 13, 13, 14, 15, 15, 15, 17, 17, 18, 19, 19)

Intervalli nk fk
I1 = [0, 5) 5
I2 = [5, 10) 8
I3 = [10, 15) 9
I4 = [15, 20) 8

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 17 / 136

Esempio guida

X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,


11, 13, 13, 13, 13, 13, 14, 15, 15, 15, 17, 17, 18, 19, 19)

Intervalli nk fk
I1 = [0, 5) 5 5/30 = 16.6%
I2 = [5, 10) 8 8/30 = 26.6%
I3 = [10, 15) 9 9/30 = 30.0%
I4 = [15, 20) 8 8/30 = 26.6%

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 18 / 136


Istogramma a barre

�5 Se la suddivisione dell’ampiezza è omogenea l’istogramma a barre


si ottiene costruendo dei rettangoli affiancati di base l’estensione dei
sotto intervalli scelti per il calcolo delle frequenze assolute e di altezza
le corrispondenti frequenze relative.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 19 / 136

Istogramma a barre - Esempio guida

Esempio guida
30

25

20

15

10

1 2 3 4

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 20 / 136


Istogramma del lancio dei dadi

40

30

20

10

2 3 4 5 6 7 8 9 10 11 12

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 21 / 136

Istogramma del peso delle trote

100

80

60

40

20

175 225 275 325 375 425

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 22 / 136


Istogramma a torta del lancio dei due dadi

4
6

12

7
11

10

8 9

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 23 / 136

Istogramma non omogeneo

In certi casi la suddivisione dell’ampiezza di una variabile X non è


omogenea. In questo caso l’istogramma a barre va costruito nel modo
seguente.
Si costruiscono dei rettangoli la cui base è data dai sotto intervalli
mentre l’altezza si ottiene imponendo che l’area dei rettangoli sia pari
alla frequenza relativa.
Dalla formula dell’area di un rettangolo segue che le altezza dei
rettangoli sono date dalla formula:

fk
hk =
lunghezza di Ik

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 24 / 136


Esempio
Dato il vettore
X = (31, 14, 22, 30, 5, 18, 18, 2, 31, 1, 10, 20, 0, 10, 31, 0, 19, 6, 16, 22, 3,
16, 19, 15, 23, 0, 28, 19, 4, 18, 8, 35, 29, 28, 6, 28, 23, 2, 11, 0)

dividiamo l’ampiezza, pari a 35, nei seguenti sotto intervalli

[0, 10), [10, 30), [30, 35)

Le frequenze assolute, relative e le altezze dei rettangoli sono

Intervalli nk fk hk
I1 = [0, 10) 13 13/40 = 32.5% 3.25
I2 = [10, 30) 22 22/40 = 50% 2.75
I3 = [30, 35) 5 5/40 = 12.5% 2.5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 25 / 136

Istogramma a barre non omo-


geneo con altezza dei rettan-
goli pari alle frequenze rela-
tive

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 26 / 136


Istogramma a barre non omo-
geneo con altezza dei rettan-
goli pari alle frequenze rela-
tive

Istogramma a barre non omo-


geneo con area dei rettangoli
pari alle frequenze relative

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 27 / 136

Indicatori di centralità

Gli indicatori di centralità indicano un "centro" dei dati e si utilizzano


per rappresentare i valori di un vettore

X = {X1 , X2 , . . . , XN }

tramite un unico numero che rappresenti tutti i dati.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 28 / 136


Sommatorie

Dato un vettore
X = {X1 , X2 , . . . , XN }
si indica con
N
∑ Xk = X1 + X2 + · · · + XN
k=1

la somma delle sue componenti e si leggere: la sommatoria di Xk con k


che va da 1 a N.
Proprietà della sommatoria
∑Nk=1 (Xk + Yk ) = ∑Nk=1 Xk + ∑Nk=1 Yk
∑Nk=1 λ Xk = λ ∑Nk=1 Xk
∑Nk=1 λ = Nλ
dove λ è un numero reale.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 29 / 136

Media e Mediana

Definizione
Si chiama media aritmetica (o solo media) di un vettore X il numero

1 1 N
X = (X1 + X2 + · · · + XN ) = ∑ Xk
N N k=1

Definizione
Si chiama mediana di un vettore X un numero, denotato con X0.5 , tale
che almeno il 50% delle componenti di X sono minori o uguali di X0.5 e
almeno il 50% delle componenti di X sono maggiori o uguali di X0.5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 30 / 136


Calcolo della mediana

Per calcolare la mediana si procede nel modo seguente:


Si riordina il vettore, cioè si costruisce X ∗ e si distinguono i seguenti
due casi
N dispari. In questo caso esiste un valore centrale di X ∗ e la
mediana è data da

X0.5 = X(N+1)/2

N pari. In questo caso esistono due valori centrali di X ∗ ,cioè XN/2


e X(N/2)+1
∗ , e la mediana è data da
∗ + X∗
XN/2 (N/2)+1
X0.5 =
2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 31 / 136

Esempio numerico

Dato il vettore
X = {14, 17, 5, 2, 2, 15, 15, 13, 3, 6}
di N = 10 componenti si ha
14 + 17 + 5 + 2 + 2 + 15 + 15 + 13 + 3 + 6 46
X= = = 9.2
10 5

X ∗ = {2, 2, 3, 5, 6, 13, 14, 15, 15, 17}


In questo caso, siccome N = 10 è pari, la mediana è
6 + 13 19
X0.5 = = = 9.5
2 2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 32 / 136


Differenze tra media e mediana
La media tiene conto del valore esatto di tutte le componenti di un
vettore X mentre la mediana tiene conto esclusivamente dell’ordine dei
valori.
Per esempio dato il vettore

X = {14, 17, 5, 2, 2, 15, 15, 13, 3, 6, 230}

si ha
X ∗ = {2, 2, 3, 5, 6, 13, 14, 15, 15, 17, 230}
da cui
X = 29.27... X0.5 = 13
La differenza tra media e mediana in questo caso dipende dal valore
aberrante 230 che, chiaramente, non è in linea con i restanti. In questo
caso la mediana sembra più attendibile per rappresentare il vettore.
Infatti se non si considera l’ultimo numero la mediana diventa 9.5
mentre la media si riduce a 9.2.
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 33 / 136

Il voto di laurea

Il voto di laurea è quasi sempre calcolato sulla base della media


pesata dei voti riportati nei singoli esami.
La media pesata è una media aritmetica che tiene conto del peso di
ciascun esame, dove il peso è calcolato in CFU.
Quindi, indicato con (Vk , Pk ), k = 1, . . . N, il voto e i crediti di N esami, si
definisce media pesata il numero

∑Nk=1 Vk Pk
Xp =
∑Nk=1 Pk

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 34 / 136


Il voto di laurea - Media pesata
Per esempio, la media pesata dei seguenti voti

X = {(25, 6), (30, 8), (20, 4), (28, 6)}

è
25 · 6 + 30 · 8 + 20 · 4 + 28 · 6
Xp = = 26.583
6+8+4+6
mentre la media è

25 + 30 + 20 + 28
X= = 25.75
4

Attenzione
Se
X = {(25, 6), (30, 4), (20, 8), (28, 6)}
X p = 24.916

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 35 / 136

Indicatori di dispersione
Consideriamo il seguenti vettori

X = {0, 10, 20} Y = {9, 10, 11}

entrambi hanno media e mediana uguali a 10. Quindi, in questo caso i


coefficienti di centralità non permettono di distinguere i due vettori.
Nonostante questo a prima vista risultà ovvia una differenza: i dati di Y
sono più raccolti (meno dispersi) di quelli di X.
Cerchiamo quindi di introdurre un indicatore che ci permetta di
misurare la dispersione di un vettore.
Abbiamo già definito l’ampiezza (chiamata anche estensione) di un
vettore come la differenza
M−m
tra il massimo ed il minimo valore.
Questo è un primo indicatore di dispersione. Infatti nell’esempio
precedente l’estensione di X è 20 mentre quella di Y è 2.
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 36 / 136
L’estensione però non risulta utile con un esempio del tipo:

X = {0, 1, 10, 19, 20} Y = {0, 9, 10, 11, 20}

In questo caso oltre media e mediana coincidono anche le estensioni.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 37 / 136

Scarto medio
Un buon metodo per calcolare la dispersione consiste nel misurare la
distanza media dei valori dalla media. Vediamo un esempio
Dato il vettore X = {0, 1, 10, 19, 20}
calcoliamo per ogni componente la distanza dalla media, ottenendo
cosí un nuovo vettore

|X − X| = {10, 9, 0, 9, 10}

La media di questo nuovo vettore, 38/5 = 7.6, rappresenta lo scarto


medio, cioè la media delle distanze dei dati dalla loro media.

Definizione
Dato un vettore X di N osservazioni si definisce scarto medio il numero

1 N
∑ |Xk − X|
N k=1
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 38 / 136
Deviazione standard

In statistica si preferisce calcolare un altro coefficiente di dispersione


che non differisce molto dallo scarto medio.
L’idea è riscrivere il valore assoluto |Xk − X| nella forma

|Xk − X| = (Xk − X)2

Segue che

N N �
1 1 1 N

N k=1
|Xk − X| = ∑ (Xk − X)2 ≈
N k=1 ∑
N k=1
(Xk − X)2

Attenzione
Il simbolo ≈ non vuol dire che le quantità sono uguali ma che i due
valori non differiscono troppo.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 39 / 136

Deviazione standard

Definizione
Si chiama scarto quadratico medio (o deviazione standard) di un
vettore X di N osservazioni il numero

1 N
σX = ∑
N k=1
(Xk − X)2

Si chiama varianza il quadrato della deviazione standard, cioè

Var(X) = (σX )2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 40 / 136


Dato un vettore
X = {X1 , . . . , XN }
definiamo
X 2 = {X12 , . . . , XN2 }

Formula di König
2
Var(X) = X2 − X

Dimostrazione

1 N 1 N 2
∑ (Xk − X) = ∑ (Xk − 2Xk X + X )
2 2
Var(X) =
N k=1 N k=1
1 N 2 1 N 1 N 2
= ∑ Xk − 2X N ∑ Xk + N ∑ X
N k=1 k=1 k=1
1 2 2
= X 2 − 2X X + NX = X 2 − X
N
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 41 / 136

Esempio

Calcoliamo le deviazioni standard dei seguenti vettori

X = {0, 1, 10, 19, 20} Y = {0, 9, 10, 11, 20}

X 2 = {0, 1, 100, 361, 400} Y 2 = {0, 81, 100, 121, 400}

862 702
X = Y = 10 X 2 = Y2 =
5 5

2 862 362
Var(X) = X2 − X = − 100 = = 72.4
5 5

2 702 202
Var(Y) = Y2 − Y = − 100 = = 40.4
5 5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 42 / 136


Il coefficiente di variazione

Consideriamo il peso di 26 ragazzi e di 26 ragazze

pesoM = M = (75, 75, 65, 90, 90, 60, 60, 72, 73, 61, 73, 72, 68, 67, 56, 65,
80, 67, 78, 64, 58, 56, 65, 61, 86, 63)

pesoF = F = (59, 59, 40, 52, 52, 45, 65, 53, 46, 42, 58, 55, 75, 74, 48, 52,
48, 47, 58, 42, 48, 52, 53, 50, 50, 67)
si ha
σM = 9.53 σF = 8.86
A prima vista si potrebbe concludere che il peso degli uomini è più
disperso di quello delle donne.
Tale affermazione non è corretta se si tiene conto del peso medio degli
uomini e di quello delle donne. Infatti, una variazione di un Kg di peso
per un uomo e mediamente meno rilevante che per una donna.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 43 / 136

Il coefficiente di variazione

Per ovviare al problema consideriamo la deviazione standard rispetto


alla media ed introduciamo un nuovo coefficiente
Definizione
Dato un vettore X il coefficiente di variazione è il numero
σX
CV(X) =
X
Nell’esempio di recedente si ottiene

CV(M) = 0.137 CV(F) = 0.165

In questo esempio la conclusione corretta è che il peso delle donne


varia maggiormente rispetto a quello degli uomini.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 44 / 136


Calcolo dell’ampiezza dei sotto intervalli

Per suddividere l’ampiezza di un dato vettore X per il calcolo delle


frequenze assolute si può utilizzare il seguente:

Criterio
Dividere l’ampiezza in sotto intervalli di lunghezza pari al primo intero
più grande di σX /2.

Esempio
Se σX = 5 si scelgono sotto intervalli di ampiezza pari a 3. Infatti tre è il
primo intero più grande di σX /2 = 5/2 = 2.5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 45 / 136

Esempi pratici

Nelle slide seguenti descriveremo tre situazioni reali in cui gli


istogrammi e gli indicatori di centralità e di dispersione aiutono a fare
una scelta scientifica.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 46 / 136


Tre organizzazioni di un reparto di produzione

Il problema
In un reparto dove sono assemblati walkman vengono provate, in
tre giorni diversi, tre differenti organizzazioni delle linee di
produzione. Le tre diverse organizzazioni sono chiamate nel
seguito vecchia (quella in uso al momento dell’esperimento),
nuova 1 e nuova 2.
Nei tre giorni, per ciascuno dei 288 addetti che lavorano nel
reparto, viene rilevato il numero di operazioni completato, che,
ovviamente, può essere visto come una misura della produttività
Domanda: qual’è l’organizzazione del lavoro migliore?

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 47 / 136

Tre organizzazioni di un reparto di produzione

Vecchia organizzazione
725 724 710 724 700 724 713 692 683 712 684 707 703 691 709 702 705 715 704 705 697 725 692 719 694 717 696 707 726

703 705 712 710 697 698 694 701 715 701 707 706 701 687 708 719 713 699 702 694 708 712 704 703 687 709 693 715 707

710 700 718 702 718 705 723 718 701 698 692 684 716 710 708 707 695 726 710 709 692 707 717 709 710 718 708 720 705

714 687 707 707 723 695 676 705 684 717 719 715 710 711 696 696 715 686 702 708 713 701 692 713 700 704 726 702 706

706 700 700 687 696 694 699 709 704 704 715 706 688 724 713 686 697 710 704 724 721 717 690 707 713 685 706 699 687

702 701 708 704 705 702 701 699 699 685 712 678 706 706 695 707 718 706 716 703 721 714 704 697 693 711 697 710 713

702 715 714 716 698 714 704 717 700 692 718 699 698 690 710 703 702 719 710 725 721 713 699 703 698 712 714 707 691

711 712 718 702 711 709 700 719 692 716 700 707 714 717 714 703 709 711 704 689 712 714 711 692 720 697 698 700 689

693 707 699 704 696 708 713 714 712 708 704 720 705 703 712 719 713 716 712 703 717 695 711 697 693 701 699 697 724

713 706 705 704 707 704 719 711 700 694 706 705 698 697 697 700 705 722 712 703 688 694 708 703 690 706 704

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 48 / 136


Tre organizzazioni di un reparto di produzione

Organizzazione “nuova 1”
695 686 694 690 713 704 693 697 723 694 690 721 683 701 718 715 738 694 692 704 728 697 711 706 714 710 717 729 709

695 699 714 691 698 680 720 683 696 713 674 689 683 708 704 725 695 690 696 678 725 683 700 699 705 688 714 709 693

681 717 691 706 684 684 693 719 731 706 686 698 710 679 712 688 697 729 695 697 717 679 736 671 695 739 698 696 714

711 701 720 686 706 722 695 688 709 693 756 677 712 670 693 695 683 713 672 706 708 690 685 686 681 716 709 704 679

686 676 718 683 689 696 687 736 699 685 698 700 723 681 713 700 708 705 718 692 743 715 745 700 693 676 723 712 671

714 687 687 687 683 671 677 696 696 714 713 671 688 675 671 692 725 690 680 693 703 733 708 720 704 688 732 711 685

714 704 686 682 699 708 708 704 685 685 694 702 738 702 696 709 701 687 703 701 702 693 691 701 735 721 705 691 741

685 716 716 737 687 732 697 670 684 693 711 685 705 690 705 693 698 678 704 710 686 689 686 698 684 687 696 719 679

696 701 712 691 686 704 744 705 718 709 725 699 721 690 678 713 714 705 681 721 673 698 717 711 670 726 694 723 701

683 716 671 712 704 699 705 727 719 702 692 708 694 670 694 697 682 718 705 699 709 695 711 688 717 699 686

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 49 / 136

Tre organizzazioni di un reparto di produzione

Organizzazione “nuova 2”
698 715 675 710 731 721 705 718 693 702 713 730 707 710 744 725 724 701 737 715 704 723 705 702 698 729 698 723 716

698 732 724 721 722 728 740 727 709 724 746 704 740 729 708 721 714 739 713 752 732 713 692 734 727 725 690 749 706

758 722 697 722 705 723 748 730 706 688 709 739 709 744 704 716 748 713 744 721 723 733 707 723 702 734 690 715 711

705 718 702 706 742 742 736 740 712 722 731 713 704 704 735 700 717 746 735 717 718 691 696 720 735 716 745 714 698

709 704 704 684 749 747 715 717 731 700 747 709 705 749 704 697 694 715 737 734 705 726 710 716 740 731 714 733 726

752 714 710 714 753 749 728 696 733 731 728 686 706 710 729 729 730 722 707 716 702 728 716 743 750 715 735 710 734

712 706 719 709 702 712 710 729 728 720 721 752 715 712 717 692 724 720 739 719 712 713 734 734 710 711 722 743 707

729 712 681 739 699 721 706 703 708 719 708 724 730 726 731 734 739 727 759 718 716 715 719 693 729 738 710 730 726

719 726 733 717 701 723 720 744 730 698 729 696 717 713 705 700 715 710 735 726 732 701 707 724 708 730 721 720 706

700 735 706 725 725 735 695 709 705 702 737 688 727 717 708 720 724 731 706 730 714 703 721 712 748 734 724

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 50 / 136


Tre organizzazioni di un reparto di produzione

I dati non sono moltissimi rispetto ad altre situazioni che si possono


incontrare nelle applicazioni. Sono però troppi per cercare di capire
qualcosa solamente guardandoli.
Dobbiamo quindi cercare di sintetizzarli in qualche modo. Un primo
tentativo in questo senso consiste nel suddividere l’intervallo che
contiene tutti i valori osservati ([670; 759]) in sotto-intervalli di
lunghezza 5, si ottengono le seguenti tabelle.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 51 / 136

Tre organizzazioni di un reparto di produzione


Frequenze assolute Frequenze relative
vecchia nuova1 nuova2 vecchia nuova1 nuova2
[670, 675) 0 13 0 [670, 675) 0, 000 0, 045 0, 000
[675, 680) 2 12 1 [675, 680) 0, 007 0, 042 0, 003
[680, 685) 4 20 2 [680, 685) 0, 014 0, 069 0, 007
[685, 690) 13 33 3 [685, 690) 0, 045 0, 115 0, 010
[690, 695) 23 33 8 [690, 695) 0, 080 0, 115 0, 028
[695, 700) 35 38 13 [695, 700) 0, 122 0, 132 0, 045
[700, 705) 55 27 24 [700, 705) 0, 191 0, 094 0, 083
[705, 710) 52 28 34 [705, 710) 0, 181 0, 097 0, 118
[710, 715) 50 28 32 [710, 715) 0, 174 0, 097 0, 111
[715, 720) 33 19 32 [715, 720) 0, 115 0, 066 0, 111
[720, 725) 15 12 34 [720, 725) 0, 052 0, 042 0, 118
[725, 730) 6 9 27 [725, 730) 0, 021 0, 031 0, 094
[730, 735) 0 4 30 [730, 735) 0, 000 0, 014 0, 104
[735, 740) 0 7 17 [735, 740) 0, 000 0, 024 0, 059
[740, 745) 0 3 12 [740, 745) 0, 000 0, 010 0, 042
[745, 750) 0 1 12 [745, 750) 0, 000 0, 003 0, 042
[750, 755) 0 0 5 [750, 755) 0, 000 0, 000 0, 017
[755, 760) 0 1 2 [755, 760) 0, 000 0, 003 0, 007
totale 288 288 288
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 52 / 136
Tre organizzazioni di un reparto di produzione
Istogramma delle frequenze assolute - Vecchia organizzazione

Vecchia

50

40

30

20

10

670 700 730 760

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 53 / 136

Tre organizzazioni di un reparto di produzione


Istogramma delle frequenze assolute - Nuova 1 organizzazione

Nuova 1

35

30

25

20

15

10

670 700 730 760

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 54 / 136


Tre organizzazioni di un reparto di produzione
Istogramma delle frequenze assolute - Nuova 2organizzazione

Nuova 2

30

25

20

15

10

670 700 730 760

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 55 / 136

Tre organizzazioni di un reparto di produzione


Vecchia Nuova 1 Nuova 2

50 35
30

30

40 25

25

20
30
20

15
15
20

10
10

10
5
5

670 700 730 760 670 700 730 760 670 700 730 760

vecchia nuova 1 nuova 2


media 705.5 700.8 719.2
mediana 706 699 718.5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 56 / 136


Analisi di un esperimento su due sonniferi
Descrizione dell’esperimento
Per verificare se una certa molecola aveva un qualche effetto come
sonnifero è stato condotto il seguente esperimento:
A 10 volontari, senza una storia pregressa di insonnia, è stato
somministrato in una notte un placebo ( = una pillola contenente
una polvere innoqua) e in un altra notte una pillola contenente il
sonnifero. L’individuo ignorava quale pillola aveva assunto.
Per ogni individuo e per tutte e due le notti sono state
cronometrate le ore di sonno.
E’ stata poi calcolata la variabile, denominata sonno extra,
calcolata come:
ore di sonno nella notte con sonnifero meno ore di sonno nella
notte con placebo
L’esperimento è stato poi ripetuto per una variante della molecola sotto
studio.
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 57 / 136

Analisi di un esperimento su due sonniferi

Ore di sonno extra


soggetto molecola originaria variante
1 0, 7 1, 9
2 −1, 6 0, 8
3 −0, 2 1, 1
4 −1, 2 0, 1
5 −0, 1 −0, 1
6 3, 4 4, 4
7 3, 7 5, 5
8 0, 8 1, 6
9 0, 0 4, 6
10 2, 0 3, 4

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 58 / 136


Analisi di un esperimento su due sonniferi

molecola originaria variante


media 0.75 2.33
mediana 0.35 1.75
estensione 5.3 5.6
dev. standard 1.7 1.9

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 59 / 136

Due metodi per il dosaggio dell’emoglobina

Descrizione dei dati


Per confrontare l’efficacia di due diverse metodiche, diciamo A e B, per
la misurazione dell’emoglobina si è proceduto nella seguente maniera:

Si è creato in laboratorio del sangue artificiale con un contenuto


nominale di 15 grammi per 100 cm3 di emoglobina.
Dal composito sono stati estratti 360 campioni. Su 180 campioni
l’emoglobina è stata misurata utilizzando la metodica A mentre
per i restanti campioni è stata usata la metodica B.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 60 / 136


Due metodi per il dosaggio dell’emoglobina
Metodica A
14.98654 15.14828 15.15741 14.78573 15.22160 14.86475 14.94835 14.64653 15.00364 15.06475 14.99282 14.92189

14.99575 15.64405 15.33492 14.73466 14.93331 14.94189 15.22719 14.64697 15.29087 14.90708 15.02215 14.97803

14.85369 15.35937 15.09510 14.70682 14.77203 15.28139 14.97825 14.93426 14.88053 15.11486 15.01449 15.10965

15.06394 14.79222 14.76657 15.15009 14.72711 14.98090 14.75410 14.90115 15.17730 14.89586 14.96936 15.00198

15.21905 14.97432 15.04769 14.90602 14.98397 15.33279 15.23659 15.07793 15.11311 14.78668 14.94863 15.05302

14.66592 15.13632 15.05976 14.98333 14.94836 14.99909 14.89628 15.19492 14.58320 14.83856 15.02708 15.03368

14.77780 15.40490 15.34432 14.71978 15.01237 14.73821 15.15963 15.22495 14.72350 15.31984 15.15886 15.49579

14.92472 15.32498 14.75861 15.13450 15.32448 14.98809 15.10179 15.29890 14.98695 14.96983 15.41413 15.12123

15.26597 15.09788 14.72764 15.14286 15.46952 15.13055 15.00559 14.83167 14.71813 15.03142 14.99039 14.89292

15.38937 14.76792 15.28734 15.20681 15.10421 15.45162 15.00441 14.90440 14.88044 15.26423 14.73072 14.60118

15.02576 14.84693 15.14960 14.55898 14.98658 15.23278 15.12612 15.09414 15.08752 15.09658 15.00574 15.03512

15.14976 14.93821 14.60090 14.97181 15.46100 15.05996 15.15891 15.08800 15.18066 14.64953 14.78898 14.82059

15.10667 15.00653 14.86939 15.16498 14.73762 14.58239 14.88403 15.19361 14.97908 15.00001 14.67176 15.01569

14.84952 14.79514 14.83009 15.11935 14.88455 14.51907 15.30290 14.93205 15.04080 15.11013 14.98879 14.91813

14.44163 14.80356 14.95201 15.11953 14.70853 15.15046 14.86291 15.34034 14.75090 14.86912 14.92036 14.93270

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 61 / 136

Due metodi per il dosaggio dell’emoglobina


Metodica B
14.62067 15.26097 14.87602 15.45027 15.32593 14.74834 15.19424 14.97163 15.09104 15.31831 15.06252 15.19373

14.72724 14.90797 14.75423 14.99820 14.31944 15.36786 15.48341 15.01780 14.58473 15.12630 15.03021 15.01365

14.34351 14.58493 14.97563 15.29785 15.44040 14.76965 14.53352 15.27177 15.28055 15.53123 13.82846 15.12360

15.24214 14.92428 14.65803 15.18722 14.83586 15.60325 14.85619 15.01115 15.30457 14.63107 15.13094 15.01104

14.64376 14.95360 15.53356 15.69041 14.82695 15.29568 15.09679 15.28104 15.10458 14.56744 15.19535 15.12521

14.46866 14.71408 14.93787 14.96020 14.78997 14.90338 15.45271 15.21145 15.38612 15.65470 15.06021 14.93443

15.02647 14.81672 15.38435 15.33135 15.11671 14.88797 15.03316 15.44367 15.43368 14.49792 14.82239 14.67267

14.59706 14.47115 15.19742 14.99877 15.06001 15.38270 14.60696 15.22274 15.63418 14.93377 15.36101 15.33171

15.32998 15.22515 14.42690 15.04781 15.64006 15.00974 14.60602 14.99329 15.33431 15.21277 14.87049 14.51086

15.80354 14.87940 14.90026 14.88420 14.44305 14.97657 14.78323 14.88690 15.10098 15.17093 14.91092 15.11042

14.59041 15.53938 14.58149 15.02527 14.86442 15.11187 14.85419 14.71329 14.75993 14.91381 15.09344 14.98552

15.30405 15.21515 14.99674 14.82704 15.06626 15.07602 14.96841 15.25176 14.84417 15.22224 15.42500 15.54409

15.54403 15.04272 14.74762 14.99012 15.15673 14.71890 15.15306 15.40174 14.37135 14.83015 15.27419 14.97257

14.59326 15.17822 15.15458 15.41121 15.16800 15.15758 14.58378 14.74625 14.85794 15.67266 14.99509 14.78124

15.21816 14.68988 14.84746 14.96116 14.96338 15.07308 14.85328 15.13676 14.89107 15.18928 14.74481 15.13047

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 62 / 136


Due metodi per il dosaggio dell’emoglobina
Metodica A

Metodica A

35

30

25

20

15

10

13.9 15 15.7

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 63 / 136

Due metodi per il dosaggio dell’emoglobina


Metodica B

Metodica B

25

20

15

10

13.9 15 15.7

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 64 / 136


Due metodi per il dosaggio dell’emoglobina

Indicatori

metodica A metodica B
media 15 15.02
mediana 15 15.02
estensione 1.2 1.97
dev. standard 0.213 0.315

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 65 / 136

Statistica descrittiva in due variabili

Supponiamo di misurare su un campione statistico due diverse


variabili X e Y. Indichiamo come al solito con

X = (X1 , . . . , XN ) Y = (Y1 , . . . , YN )

i valori osservati. In questo caso abbiamo due possibilità


Studiare le due variabili separatamente
Studiare se esistono dei legami tra le due variabili
Di fatto la cosa più importante, quando si misurano due caratteri sullo
stesso campione, è capire se le due variabili sono dipendenti, cioè se
variazioni di una producono variazioni dell’altra.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 66 / 136


Tabella di contingenza

Per determinare se due variabili sono dipendenti o indipendenti si


procede nel modo seguente.
Si costruisce per primo una tabella a doppia entrata, o di contingenza,
che, per semplicità, descriveremo con un esempio.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 67 / 136

Dati i vettori
X = (4, 18, 10, 16, 1, 10, 1, 9, 11, 9, 18, 15, 8, 12, 17, 2, 10, 3, 18, 4, 19,
11, 15, 10, 12, 9, 17, 8, 6, 13)

Y = (27, 13, 23, 17, 19, 26, 23, 2, 25, 21, 3, 11, 14, 10, 3, 24, 11, 15, 7, 10,
6, 30, 8, 24, 8, 20, 28, 26, 29, 30)
suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo
con cui abbiamo operato per il calcolo delle frequenze assolute.
Nell’esempio X ha ampiezza 18 mentre quella di Y è 28. Possiamo
quindi dividere l’ampiezza di X in due sotto intervalli di lunghezza 10 e
quella di Y in tre di lunghezza 10.
Si ottiene la seguente tabella

X↓Y→ J1 = [1, 11) J2 = [11, 21) J3 = [21, 31)


I1 = [1, 11)
I2 = [11, 21)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 68 / 136


Tabella di contingenza

Adesso andiamo a riempire le caselle vuote della tabelle con le


frequenze osservate definite nel modo seguente

Definizione
La frequenza osservata nij rappresenta il numero di unità statistiche il
cui valore della variabile X si trova nell’intervallo Ii e simultaneamente
il valore della variabile Y si trova nell’intervallo Jj .

Per calcolare le frequenze osservate conviene dare dei colori ai sotto


intervalli. Per esempio, usando il blu, il rosso ed il verde

X↓Y→ J1 = [1, 11) J2 = [11, 21) J3 = [21, 31)


I1 = [1, 11)
I2 = [11, 21)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 69 / 136

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le


componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19
19 6
10 26
11 30
1 23
15 8
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 70 / 136
Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le
componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11)
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 71 / 136

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le


componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 72 / 136
Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le
componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 73 / 136

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le


componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 74 / 136
Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le
componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21) 7
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 75 / 136

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le


componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21) 7 3
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 76 / 136
Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le
componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21) 7 3 4
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 77 / 136

X↓Y→ [1, 11) [11, 21) [21, 31)


[1, 11) 2 5 9
[11, 21) 7 3 4

Questa rappresenta la tabella di contingenza e le entrate


rappresentano le frequenze osservate.
Completiamo la tabella inserendo le distribuzioni marginali che si
ottengono sommando in verticale ed in orizzontale le frequenze
osservate.
X ↓ Y → [1, 11) [11, 21) [21, 31)
[1, 11) 2 5 9 16
[11, 21) 7 3 4 14
9 8 13 30
Il numero in basso a destra, corrispondente alla somma delle
frequenze marginali, è pari al numero delle unità statistiche.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 78 / 136


La tabella di contingenza permette di valutare come cambia la
distribuzione di una variabile (per esempio della Y) condizionata a
particolari valori dell’altra (per esempio X).
Nel nostro caso la distribuzione marginale orizzontale

9 8 13

dice come è distribuita la variabile Y nei tre sotto intervalli senza


nessuna condizione della variabile X.
Mentre la distribuzione
2 5 9
dice come è distribuita la variabile Y nei tre sotto intervalli condizionata
ad avere la variabile X nell’intervallo [1, 11)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 79 / 136

Se le tre distribuzioni

2 5 9
7 3 4
9 8 13
sono equivalenti, allora la variabile Y non è condizionata dalla variabile
X e quindi le variabili si dicono indipendenti.
Ma cosa vuol dire equivalenti?
Per confrontarle bisogna trasformarle in frequenze relative dividendole
per i rispettivi totali di riga.
Nel nostro caso si ha

2/16 5/16 9/16


7/14 3/14 4/14
9/30 8/30 13/30
che, trasformate in percentuale, diventano
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 80 / 136
X↓Y→ [1, 11) [11, 21) [21, 31)
[1, 11) 12.5% 31.25% 56.25
[11, 21) 50% 21.43% 28.57
30% 26.67% 43.33%

Definizione
Due variabili sono indipendenti se le distribuzioni orizzontali,
trasformate in percentuale, coincidono.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 81 / 136

In generale, indicata con nij la frequenza osservata corrispondente alla


i-esima riga e alla j-esima colonna, la tabella di contingenza diventa
X↓Y→ J1 J2 · · · Jc Marginale
I1 n11 n12 · · · n1c n1•
I2 n21 n22 · · · n2c n2•
.. ..
. ··· ··· ··· ··· .
Ir nr1 nr2 · · · nrc nr•
Marginale n•1 n•2 · · · n•c N

Con queste notazioni segue che due variabili sono indipendenti se le


distribuzioni
n11 n12 n1c
n1• n1• · · · n1•
.. .
. · · · · · · ..
nr1 nr2 nrc
nr• nr• ··· nr•
sono uguali alla distribuzione
n•1 n•2 n•c
N N ··· N

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 82 / 136


Considerando ciascuna componente si ottiene
nij n•j
= ∀i, j
ni• N
o, equivalentemente,
ni• n•j
nij = ∀i, j
N

Definizione
I numeri
ni• n•j
νij =
N
sono chiamati frequenze attese.

Quindi due variabili sono indipendenti se le frequenze osservate


coincidono con quelle attese.
Ma noi stavamo cercando di capire quando due variabili sono
DIPENDENTI!
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 83 / 136

Definizione
Diremo che due variabili sono dipendenti se le frequenze osservate
sono molto diverse da quelle attese.

ma cosa vuol dire molto diverse?


Per capire quanto sono diverse si può calcolare la distanza delle
frequenze osservate da quelle attese. Tale distanza si può calcolare,
tenendo conto del quadrato delle differenze nij − νij , introducendo la
quantità
r c
(nij − νij )2
χ =∑∑
2
i=1 j=1 νij

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 84 / 136


Torniamo all’esempio

Frequenze osservate

X↓Y→ [1, 11) [11, 21) [21, 31)


[1, 11) 2 5 9 16
[11, 21) 7 3 4 14
9 8 13 30

Frequenze attese

X↓Y→ [1, 11) [11, 21) [21, 31)


9·16 8·16 13·16
[1, 11) 30 30 30 16
9·14 8·14 13·14
[11, 21) 30 30 30 14
9 8 13 30

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 85 / 136

Torniamo all’esempio
Frequenze osservate
X↓Y→ [1, 11) [11, 21) [21, 31)
[1, 11) 2 5 9 16
[11, 21) 7 3 4 14
9 8 13 30
Frequenze attese
X↓Y→ [1, 11) [11, 21) [21, 31)
[1, 11) 4.8 4.3 6.9 16
[11, 21) 4.2 3.7 6.1 14
9 8 13 30

2 (2 − 4.8)2 (5 − 4.3)2 (9 − 6.9)2


χ = + +
4.8 4.3 6.9
(7 − 4.2)2 (3 − 3.7)2 (4 − 6.1)2
+ + + � 5.11
4.2 3.7 6.1
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 86 / 136
Utilizzo del χ 2

Ovviamente χ 2 = 0 se e solo se le variabili sono matematicamente


indipendenti.
Da un punto di vista qualitativo si può dire che:
per valori di χ 2 grandi le variabili sono dipendenti
per valori di χ 2 piccoli le variabili sono indipendenti
In statistica è stato elaborato un test per calcolare con che fiducia, noto
il valore del χ 2 , si possa affermare che due variabili siano dipendenti.

Questo test prende il nome di Test del χ 2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 87 / 136

Calcolo della fiducia


Per calcolare la fiducia si calcola per primo un numero, denotato con
df , che misura i gradi di libertà, definito come

df = (r − 1)(c − 1)

Calcolati il χ 2 ed il df si utilizza la seguente tabella.


df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001
1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 88 / 136


Il df individua una riga della tabella. Nella riga individuata si cerca il
più grande numero minore del χ 2 .Partendo da questo numero si
procede in verticale sino ad incontrare una casella nella prima riga
della tabella. In questa tabella si troverà un valore di α. Il valore di α
rappresenta la sfiducia, cioè la percentuale di errore che si commette
nell’affermare che due variabili sono dipendenti. Trasformando in
percentuale si ha che la fiducia è data da

F = 100(1 − α)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 89 / 136

Vediamo il nostro esempio


χ 2 = 5.11 df = (2 − 1)(3 − 1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001


1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 90 / 136
Vediamo il nostro esempio
χ 2 = 5.11 df = (2 − 1)(3 − 1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001


1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 91 / 136

Vediamo il nostro esempio


χ 2 = 5.11 df = (2 − 1)(3 − 1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001


1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 92 / 136
Quindi α = 0.1, da cui la fiducia risulta:

F = 100(1 − α) = 100(1 − 0.1) = 100(0.9) = 90%


Possiamo affermare che le due variabili sono dipendenti con una
fiducia del 90%.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 93 / 136

Il caso 2 × 2

Se la tabella di contingenza è 2 × 2, cioè del tipo

X↓Y→ J1 J2
I1 a b a+b
I2 c d c+d
a+c b+d N

si può calcolare il χ 2 senza calcolare le frequenze attese tramite la


formula

2 (ad − bc)2
χ =N
(a + b)(c + d)(a + c)(b + d)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 94 / 136


Uso del test del χ 2
Di solito l’uso del test del χ 2 è riservato allo studio di due variabili
qualitative rilevate su un campione statistico.
Esempio
In uno studio di immunologia, vengono studiate 111 cavie nel modo
seguente:
57 di esse ricevono una dose di batteri patogeni seguiti da un
antisiero;
le restanti 54 ricevono solo i batteri ma non l’antisiero.
Dopo un tempo sufficiente per il periodo di incubazione e per il
decorso della malattia si contano 38 cavie morte di cui:
12 avevano ricevuto il siero
26 solo i batteri
L’antisiero è efficace?

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 95 / 136

Per valutare l’efficacia costruiamo una tabella di contingenza indicando


con:
BA = cavia inoculata con batteri e antisiero
B = cavia inoculata con solo batteri
D = cavia deceduta
S = cavia sopravissuta

Si ottiene la seguente tabella di contingenza:

D S
BA 12 45 57
B 26 28 54
38 73 111
Dalla formula per il calcolo del χ 2 per una tabella 2 × 2 si ottiene

2 (12 · 28 − 45 · 26)2
χ = 111 � 9.042
57 · 54 · 38 · 73

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 96 / 136


Dalla tabella del χ 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001


1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47

si ottiene α = 0.005 da cui la fiducia

F = 100(1 − 0.005) = 99.5%

Possiamo quindi affermare che le due variabili sono dipendenti con


una fiducia del 99.5. Questo significa che il l’antisiero è efficace.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 97 / 136

Diagramma di dispersione

Supponiamo di misurare su un campione statistico due diverse


variabili X e Y. Indichiamo come al solito con

X = (X1 , . . . , XN ) Y = (Y1 , . . . , YN )

i valori osservati. Supponiamo inoltre di aver verificato che le due


variabili sono statisticamente dipendenti.
Il problema naturale è capire quale tipo di dipendenza matematica
intercorre tra le due variabili. In altre parole ci si chiede se sia possibile
determinare una funzione y = f (x) che, con una buona
approssimazione, soddisfi:

Yi = f (Xi ) i = 1, . . . , N

Un primo tentativo è osservare il diagramma di dispersione associato


alle variabili X e Y e costruito nel modo seguente.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 98 / 136


Diagramma di dispersione

Si costruisce un nuovo vettore

P = X × Y = ((X1 , Y1 ), . . . , (XN , XN )) = (P1 , . . . , PN )

In un sistema di riferimento cartesiano si traccia per ogni Pi = (Xi , Yi )


un punto di coordinate (Xi , Yi ). Si ottiene in questo modo una nuvola di
punti detta diagramma di dispersione.
Per esempio per i vettori

X = (4, 18, 10, 16, 1, 10, 0, 9, 11, 9, 18, 15, 8, 12, 17, 2, 10, 3, 18, 4, 19,
11, 15, 10, 12, 9, 17, 8, 6, 13)

Y = (27, 13, 23, 17, 19, 26, 23, 2, 25, 21, 3, 11, 14, 10, 3, 24, 11, 15, 7, 10,
6, 30, 8, 24, 8, 20, 28, 26, 29, 30)
si ottiene il diagramma

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 99 / 136

30

25

20

15

10

2.5 5 7.5 10 12.5 15 17.5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 100 / 136


Tipi di diagramma di dispersione

40

30

20

10

5 10 15 20 25 30 35

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 101 / 136

Tipo retta y = x + 3

40

30

20

10

5 10 15 20 25 30 35

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 102 / 136


Tipi di diagramma di dispersione

1200

1000

800

600

400

200

5 10 15 20 25 30 35

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 103 / 136

Tipo parabola y = x2

1200

1000

800

600

400

200

5 10 15 20 25 30 35

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 104 / 136


Tipi di diagramma di dispersione

0.8

0.6

0.4

0.2

5 10 15 20 25 30 35

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 105 / 136

1
Tipo iperbole y = x

0.8

0.6

0.4

0.2

5 10 15 20 25 30 35

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 106 / 136


Regressione lineare

La situazione più semplice è quando il diagramma di dispersione


segue l’andamento di una retta. I problemi da risolvere in questa
situazione sono essenzialmente due
esiste un modo quantitativo per decidere quanto il diagramma di
dispersione è sufficientemente vicina ad una retta?
nel caso fosse sufficientemente vicina come calcolo l’equazione
della retta?
Per dare una risposta a questi quesiti dobbiamo introdurre un nuovo
indice.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 107 / 136

La covarianza
Siano X e Y due variabili indicate, come al solito, con
X = (X1 , . . . , XN ) Y = (Y1 , . . . , YN )

Definizione
Si chiama covarianza di X e Y il numero

1 N
Cov(X, Y) = ∑ (Xk − X)(Yk − Y)
N k=1

La covarianza misura come le due variabili covariano nel senso


seguente: se pensiamo ai singoli addendi della somma, cioè ai termini
(Xk − X)(Yk − Y)
questi saranno:
positivi se entrambi sono positivi o entrambi negativi
negativi se hanno segni opposti
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 108 / 136
quindi
se Cov(X, Y) > 0 vuol dire che mediamente ci sono più termini
positivi e questo implica che mediamente a valori di X maggiori
della media corrispondono valori di Y maggiori della media e
viceversa
se Cov(X, Y) < 0 vuol dire che mediamente ci sono più termini
negativi e questo implica che mediamente a valori di X maggiori
della media corrispondono valori di Y minori della media e
viceversa

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 109 / 136

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)

Le medie sono
X=4 Y =5
Adesso costruiamo la tabella

Xk − X Yk − Y

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 110 / 136


Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)

Le medie sono
X=4 Y =5
Adesso costruiamo la tabella

Xk − X Yk − Y
8−4 2−5
3−4 9−5
4−4 6−5
1−4 3−5

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 111 / 136

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)

Le medie sono
X=4 Y =5
Adesso costruiamo la tabella

Xk − X Yk − Y
4 −3
−1 4
0 1
−3 −2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 112 / 136


Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)

Le medie sono
X=4 Y =5
Adesso costruiamo la tabella

Xk − X Yk − Y prodotto
4 −3
−1 4
0 1
−3 −2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 113 / 136

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)

Le medie sono
X=4 Y =5
Adesso costruiamo la tabella

Xk − X Yk − Y prodotto
4 −3 −12
−1 4 −4
0 1 0
−3 −2 6

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 114 / 136


Calcolo della covarianza
Calcoliamo la covarianza dei vettori

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)

Le medie sono
X=4 Y =5
Adesso costruiamo la tabella
Xk − X Yk − Y prodotto
4 −3 −12
−1 4 −4
0 1 0
−3 −2 6
−10

−10
Cov(X, Y) = = −2.5
4
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 115 / 136

Il coefficiente di correlazione lineare

A partire dalla covarianza si introduce un nuovo indice chiamato


coefficiente di correlazione lineare è definito come
Cov(X, Y)
ρ(X, Y) =
σX σY

Questo coefficiente indicherà, come vedremo più avanti, con che


bontà una retta approssima il diagramma di dispersione di X e Y.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 116 / 136


Retta di regressione lineare

In questa lezione andiamo a determinare uno strumento qualitativo


che ci permetta di individuare quanto due variabili dipendano da un
legge di tipo lineare. Cioè del tipo

Y = mX + q

L’idea è di misurare quale errore si commette nel rappresentare il


diagramma di dispersioni di due variabili con una singola retta.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 117 / 136

Retta di regressione lineare

Nella figura 40

30

20

10

5 10 15 20 25 30 35

la retta verde non passa per tutti i punti, ma forse tra tutte le rette è
quella che meglio rappresenta il diagramma di dispersione.
Come facciamo a determinare l’equazione della retta verde in
modo che sia la migliore possibile?
Qual’è l’errore nel rappresentare il legame tra le due variabili
tramite l’equazione della retta verde?

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 118 / 136


Retta di regressione lineare sulla X
Dati i vettori
X = (X1 , X2 , X3 , X4 ) Y = (Y1 , Y2 , Y3 , Y4 )
tracciamo assieme al diagramma di dispersione una generica retta di
equazione y = mx + q.
5

y = mx + q
3

-1 1 2 3 4

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 119 / 136

Pk = (Xk , Yk )
3

2

(Xk , mXk + q)
1

-1 1 2 3 4

Per ogni punto Pk = (Xk , Yk ) misuriamo la differenza tra l’ordinata del


punto Pk e l’ordinate del punto sulla retta di ascissa Xk . In questo
modo stiamo misurando l’errore che si commette sulle ordinate a
considerare il punto appartenente alla retta.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 120 / 136


5

Pk = (Xk , Yk )
3

εk
2

(Xk , mXk + q)
1

-1 1 2 3 4

Indicando con εk = Yk − (mXk + q) si ottiene un nuovo vettore

ε = (ε1 , . . . , εN ).

Osservazione
εk > 0 se Pk si trova sopra la retta
εk < 0 se Pk si trova sotto la retta.
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 121 / 136

Gli errori
ε = (ε1 , . . . , εN )
dipendono dalla scelta delle retta y = mx + q.
Cerchiamo quindi delle condizioni sui coefficienti m e q in modo che gli
errori siano il più possibile contenuti.
Per fare questo utilizziamo i seguenti criteri:
la retta dovrebbe passare il più possibile al centro del diagramma
di dispersione, cioè per un punto che si trova sopra la retta
dovrebbe esserci un altro punto che si trova sotto alla stessa
distanza.
il vettore degli errori dovrebbe essere il meno disperso possibile.
I due criteri sono soddisfati se:
1 la media di ε è zero;
2 la deviazione standard di ε è la minore possibile.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 122 / 136


La condizione ε = 0
Dalla definizione di εk = Yk − (mXk + q) segue che

1 N 1 N
ε = ∑ εk = N ∑ [Yk − (mXk + q)]
N k=1 k=1
1 N 1 N 1 N
= ∑ Yk − N ∑ (mXk ) − N ∑ q
N k=1 k=1 k=1
= Y − mX − q

Criterio
La media degli errori è zero se e solo se

Y − mX − q = 0 equivalentemente Y = mX + q

cioè il punto P = (X, Y) appartiene alla retta

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 123 / 136

La prima condizione ci permette di scrivere la retta cercata nella forma

y − Y = m(x − X)

Questo vuol dire che tutte le rette con media degli errori zero passano
per il punto del piano le cui coordinate sono le medie di X e Y.

P = (X, Y)
2

-1 1 2 3 4

-2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 124 / 136


La condizione σε minima
Per individuare univocamente la retta
y − Y = m(x − X)
dobbiamo determinare il coefficiente angolare m.
A questo scopo utilizziamo la seconda condizione, cioè quella che
richiede che la deviazione standard σε degli errori sia la minore
possibile. Osserviamo che la condizione che σε sia minima è
equivalente alla condizione che Var(ε) sia minima.
Dalla definizione di varianza si ha:
1 N 1 N
Var(ε) = ∑
N k=1
(εk − ε) = ∑ (εk )2
2
N k=1
1 N
= ∑
N k=1
(Yk − mXk − q)2

1 N � �2
(q = Y − mX) = ∑ Yk − mXk − Y + mX
N k=1
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 125 / 136

1 N � �2
Var(ε) = ∑ k
N k=1
Y − mX k − Y + mX

1 N � �2
= ∑ k
N k=1
(Y − Y) − m(Xk − X)

1 N � �
= ∑ (Yk − Y) + m (Xk − X) − 2m(Xk − X)(Yk − Y)
N k=1
2 2 2

1 N 21
N
1 N
= ∑ (Yk − Y) + m N ∑ (Xk − X) − 2m N ∑ (Xk − X)(Yk − Y)
N k=1
2 2
k=1 k=1
= Var(Y) + m2 Var(X) − 2m Cov(X, Y)
= m2 Var(X) − 2m Cov(X, Y) + Var(Y)
= A m2 − 2B m + C
dove abbiamo posto
A = Var(X) B = Cov(X, Y) C = Var(Y)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 126 / 136


Quindi
Var(ε) = A m2 − 2B m + C
è una funzione del coefficiente angolare m.
La seconda condizione richiede che Var(ε) sia minima, quindi,
essendo Var(ε) una funzione di m possiamo cercare i minimi di Var(ε)
utilizzando la teoria dei massimi e minimi di una funzione.
La derivata prima e seconda di Var(ε) sono
Var(ε)� = 2A m − 2B; Var(ε)�� = 2A > 0
La derivata prima si annulla quando 2A m − 2B = 0, cioè in
B
m=
A
Siccome la derivata seconda è sempre positiva segue che la funzione
Var(ε) ha un minimo per m = BA .Sostituendo i valori di A e B si ottiene
Cov(X, Y)
m=
Var(X)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 127 / 136

Retta di regressione lineare sulla X

In conclusione abbiamo ottenuto la seguente

Proposizione
Una retta soddisfa alle due condizioni
la media di ε è zero,
la deviazione standard di ε è la minore possibile,
se ha equazione
Cov(X, Y)
y−Y = (x − X)
Var(X)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 128 / 136


Retta di regressione lineare sulla Y

Torniamo alla definizione degli εk .

Pk = (Xk , Yk )
3

εk
2

(Xk , mXk + q)
1

-1 1 2 3 4

Pensiamo adesso di definire gli εk tenendo conto degli errori


orizzontali, cioè

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 129 / 136

Retta di regressione lineare sulla Y

εk
3

-1 1 2 3 4

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 130 / 136


Retta di regressione lineare sulla Y

Con calcoli analoghi a quelli vista prima si ottiene la retta

Var(Y)
y−Y = (x − X)
Cov(X, Y)

In conclusione si ottengono due rette di regressione lineare, una sulla


X ed una sulla Y le cui equazioni sono:

Cov(X,Y)
retta sulla X y − Y = mX (x − X) mX = Var(X)

Var(Y)
retta sulla Y y − Y = mY (x − X) mY = Cov(X,Y)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 131 / 136

Rette di regressione lineare


Le due rette di regressione lineare rX e rY passano entrambe per lo
stesso punto P = (X, Y) e formano un angolo α tra di loro.

6
rY

α rX
P = (X, Y)
2

-1 1 2 3 4

-2

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 132 / 136


Rette di regressione lineare

Possiamo distinguere i seguenti casi limite


α � 0, in questo caso le due rette coincidono e il diagramma di
dispersione può essere ben rappresentata dall’unica retta di
regressione lineare;
α � π2 , in questo caso le due rette sono ortogonali e il diagramma
di dispersione non può essere rappresentata dalle rette di
regressione lineare.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 133 / 136

Rette di regressione lineare

10

17.5

15
α �0 8 α grande
12.5

10 6

7.5

4
5

2.5

2 4 6 8 10

2 4 6 8 10 12

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 134 / 136


Analisi dell’angolo α

se α � 0, le due rette coincidono e quindi mX � mY ;


se α � π2 , in questo caso le due rette sono ortogonali ed in più
quella sulla X diviene orizzontale (mX = 0) mentre quella sulla Y
verticale (mY = ∞).
Possiamo quindi considerare la quantità
mX
mY
Dalle formule trovate prima si ha
Cov(X,Y) � �2
mX Var(X) Cov(X, Y)2 Cov(X, Y)
= = = = ρ2
mY Var(Y) Var(X)Var(Y) σX σY
Cov(X,Y)

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 135 / 136

Il coefficiente di correlazione lineare

Abbiamo quindi dimostrato che il coefficiente di correlazione lineare


soddisfa
mX
= ρ2
mY
da cui segue che
se ρ 2 � 1, allora mX � mY ed in più
se ρ � 1 la retta è crescente
se ρ � −1 la retta è decrescente
se ρ 2 � 0, le due rette sono quasi ortogonali.
In termini di dipendenza lineare delle variabili X e Y si ha
se ρ 2 � 1, le due variabili sono dipendenti da una legge lineare
se ρ � 1 il diagramma di dispersione è crescente
se ρ � −1 il diagramma di dispersione è decrescente
se ρ 2 � 0, le due variabili non sono dipendenti da una legge
lineare.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 136 / 136