Stat Web

Statistica Descrittiva
Stefano Montaldo
Università degli Studi di Cagliari

Laurea in Biologia
A.A. 2009/2010
S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 1 / 136
Modelli Matematici
Un modello matematico di un fenomeno naturale è una

rappresentazione semplificata dello stesso, fatta in modo da
conservare gli aspetti più significativi del fenomeno.
Il modello matematico è un modello concettuale, consistente in un

insieme di assunzioni sul fenomeno stesso, assieme ad una analisi
delle conseguenze logiche delle assunzioni, il tutto sviluppato in
termini matematici.
Il primo passo per utilizzare un modello matematico consiste

nell’analisi strutturata dei dati riguardanti il fenomeno che si vuole
studiare. Questa fase è espletata dalla statistica descrittiva di cui ora ci
occuperemo.

Statistica descrittiva
La statistica descrittiva è un insieme di tecniche per descrivere e

riassumere dati ricorrendo a tecniche matematiche.
Gli strumenti di sintesi sono essenzialmente di tre tipi:
tabelle
rappresentazioni grafiche
indici sintetici
Attenzione
Quando sintetizziamo l’informazione contenuta nei dati, ne perdiamo
una parte. Gli strumenti di sintesi devono essere scelti in modo tale
da:
preservare, per quanto possibile, l’informazione rilevante per il
problema analizzato
eliminare l’informazione non necessaria
Campione statistico
Uno studio statistico riguarda un gruppo di individui. Gli individui
possono essere persone, cellule, molecole, foglie, pietre...
Definizione
Gli individui costituiscono le nostre unità statistiche di
osservazione
L’insieme delle unità statistiche forma il campione
La popolazione indica la totalità delle unità individuali alle quali
vogliamo estendere le analisi effettuate sul campione.
Il campione è quindi un sottoinsieme della popolazione.

Indicheremo con N il numero di unità statistiche che costituiscono un
campione e denoteremo le unità statistiche con:
U1 , U2 , . . . , UN

Variabile
Sulle unità statistiche vengono effettuate delle osservazioni o

misurazioni.
Definizione
Chiamiamo variabile o carattere ciò che si misura o osserva sulle unità
statistiche di un campione
Generalmente, su un dato campione statistico possiamo fare diverse

misurazioni. Indicheremo quindi con le lettere
X, Y, Z...
le diverse variabili misurate sulla stessa unità statistica.
Esempio
Gli studenti di Biologia del primo anno sono un campione degli studenti
di Biologia. Se misuriamo a ciascun studente il peso e l’altezza si ha:
studenti = unità statistiche
campione = studenti del primo anno
popolazione = studenti di Biologia Sperimentale
peso = X
altezza = Y

La tabella cronologica
Variabili Variabili
Unità X Y Z Unità peso altezza sesso
U1 X1 Y1 Z1 U1 48 156 0
U2 X2 Y2 Z3 U2 45 151 0
U3 X3 Y3 Z3 U3 65 160 1
· · · · · · · ·
· · · · · · · ·
· · · · · · · ·
UN XN YN ZN UN 68 162 1
Rappresentazione di una variabile
Di solito i valori di una variabile misurati su un campione si

rappresentano come un vettore
X = {X1 , X2 , . . . , XN }
dove si è indicato con Xk il valore della variabile X relativo all’unità

statistica Uk . Questa rappresentazione non fornisce alcuna
informazione sui dati.

Rappresentazione non strutturata
Esempio
Simulazione del lancio di due dadi a sei facce
dadi = (6, 6, 5, 6, 3, 4, 8, 7, 7, 6, 9, 5, 10, 6, 6, 7, 10, 10, 3, 3, 8, 5, 7, 6, 10, 7, 6, 7, 9, 4, 7,
2, 5, 11, 6, 6, 8, 6, 4, 7, 7, 9, 7, 7, 8, 10, 9, 5, 8, 6, 6, 7, 5, 5, 11, 4, 10, 7, 9, 9, 7, 4, 9, 5, 10,
8, 5, 6, 9, 7, 6, 4, 7, 7, 6, 3, 2, 8, 9, 4, 8, 11, 2, 8, 9, 7, 11, 6, 9, 4, 8, 7, 6, 3, 6, 7, 4, 2,
6, 3, 4, 6, 3, 5, 4, 10, 6, 9, 9, 9, 3, 7, 6, 9, 9, 4, 6, 7, 7, 5, 11, 8, 10, 3, 10, 8, 8, 4, 4, 5,
9, 7, 5, 11, 8, 9, 11, 3, 9, 6, 7, 8, 5, 2, 8, 4, 6, 7, 9, 5, 6, 6, 5, 5, 8, 10, 12, 7, 8, 6, 6, 8, 6,
3, 8, 5, 7, 3, 2, 8, 8, 9, 9, 8, 4, 5, 8, 7, 8, 5, 7, 10, 7, 8, 5, 7, 2, 10, 7, 3, 5, 5, 6, 8, 11, 7, 8, 7,
6, 11, 12, 8, 7, 5, 9, 4, 10, 4, 10, 4, 5, 7, 6, 12, 6, 9, 4, 6, 7, 3, 11, 12, 6, 5, 7, 6, 2, 4, 11, 5,
4, 9, 7, 10, 8, 7, 8, 2, 7, 11, 3, 7, 12, 11, 6, 8, 5, 8, 10, 8)
Rappresentazione non strutturata
Esempio
Il vettore riporta il peso di 300 trote.
peso trote = (217, 250, 297, 212, 380, 344, 259, 269, 303, 327, 285, 341, 326, 233, 217, 379, 284, 307, 377, 369, 382, 253, 256, 295,
311, 342, 309, 409, 287, 341, 259, 392, 250, 296, 336, 239, 301, 235, 368, 264, 288, 269, 255, 254, 391, 311, 363, 251, 294, 287,
287, 328, 227, 158, 303, 371, 312, 306, 341, 347, 314, 342, 283, 345, 347, 250, 328, 213, 284, 269, 240, 193, 260, 282, 344, 316,
405, 269, 355, 356, 253, 299, 395, 293, 283, 394, 291, 296, 277, 353, 287, 314, 322, 274, 340, 394, 236, 448, 258, 269, 358, 323,
268, 327, 338, 332, 334, 344, 292, 337, 373, 244, 334, 276, 296, 297, 227, 259, 244, 193, 301, 274, 286, 378, 288, 267, 369, 215,
232, 350, 333, 240, 349, 320, 277, 311, 296, 360, 316, 265, 249, 270, 222, 380, 249, 291, 320, 249, 273, 251, 239, 254, 325, 345,
244, 334, 315, 245, 345, 323, 241, 307, 314, 363, 256, 339, 304, 320, 409, 265, 301, 271, 333, 287, 367, 220, 268, 239, 276, 282,
288, 285, 317, 304, 313, 251, 363, 330, 271, 247, 279, 351, 340, 278, 332, 316, 291, 276, 225, 330, 317, 254, 244, 179, 263, 334,
285, 359, 343, 275, 269, 256, 244, 302, 364, 290, 303, 320, 247, 348, 290, 318, 257, 221, 418, 218, 395, 325, 332, 348, 283, 339,
243, 351, 305, 234, 300, 399, 320, 310, 309, 320, 322, 331, 258, 384, 329, 277, 339, 271, 308, 270, 255, 303, 269, 315, 304, 337,
334, 267, 355, 356, 242, 239, 319, 323, 305, 323, 346, 357, 316, 250, 293, 228, 270, 374, 278, 375, 299, 364, 258, 357, 238, 300,
298, 321, 202, 368, 371, 422, 212, 349, 306, 344, 303, 328, 339, 363, 264, 305)

Rappresentazioni cartesiana - Diagramma di
dispersione
La prima rappresentazione strutturata è quella data dalla

visualizzazione cartesiana dei dati.
Si riporta
in ascissa il numero progressivo delle unità statistiche
in ordinata il valori della variabile X
Si posiziona poi un cerchietto in corrispondenza dei punti Pk di
coordinate
Pk = (k, Xk ), k = 1, . . . , N
Lancio dei due dadi
12
10
50 100 150 200 250

Peso delle trote
450
400
350
300
250
200
50 100 150 200 250 300
Rappresentazioni strutturate
Si consideri il vettore (da ora in poi sarà l’esempio guida)
X = (8, 15, 18, 2, 19, 5, 1, 10, 5, 17, 15, 5, 3, 6, 13,

19, 13, 14, 10, 13, 13, 15, 13, 17, 11, 0, 7, 6, 0, 6)
La rappresentazione di tutti i dati non è sempre molto chiara. Di fatto

molte volte interessa sapere se un certo valore è all’interno di un dato
intervallo, più che il singolo valore.
Procediamo nel modo seguente:

�1 Per primo riordiniamo i dati del vettore X:
X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,

11, 13, 13, 13, 13, 13, 14, 15, 15, 15, 17, 17, 18, 19, 19)

Ampiezza e sotto intervalli
�2
Definizione
L’ampiezza di un vettore X è il numero M − m = XN∗ − X1∗ dove M e m
sono il massimo ed il minimo valore di X rispettivamente.
Nell’esempio l’ampiezza vale 19.

�3 Adesso suddividiamo l’intervallo I = [0, 19] in sotto intervalli.
Scegliendo, per esempio, sotto intervalli omogenei di ampiezza 5,si
ottiene:
I1 = [0, 5), I2 = [5, 10), I3 = [10, 15), I4 = [15, 20)
Osservazione
Si osservi che per convenzione il primo estremo dei sotto intervalli è
incluso mentre il secondo no, cioè appartiene al sotto intervallo
successivo.
Frequenze assolute e relative
�4 Per ciascun sotto intervallo calcoliamo le frequenze assolute e

quelle relative definite da
Definizione
Le frequenze assolute, indicate con nk misurano il numero di unità
statistiche con un valore della variabile X all’interno dell’intervallo Ik .
Le frequenze relative definite da fk = nk /N, indicano la frequenza
assoluta rapportata al numero totale di unità statistiche. Di solito si
esprimono in percentuale.

Esempio guida
X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,

11, 13, 13, 13, 13, 13, 14, 15, 15, 15, 17, 17, 18, 19, 19)
Intervalli nk fk
I1 = [0, 5) 5
I2 = [5, 10) 8
I3 = [10, 15) 9
I4 = [15, 20) 8
Esempio guida
X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,

11, 13, 13, 13, 13, 13, 14, 15, 15, 15, 17, 17, 18, 19, 19)
Intervalli nk fk
I1 = [0, 5) 5 5/30 = 16.6%
I2 = [5, 10) 8 8/30 = 26.6%
I3 = [10, 15) 9 9/30 = 30.0%
I4 = [15, 20) 8 8/30 = 26.6%

Istogramma a barre
�5 Se la suddivisione dell’ampiezza è omogenea l’istogramma a barre

si ottiene costruendo dei rettangoli affiancati di base l’estensione dei
sotto intervalli scelti per il calcolo delle frequenze assolute e di altezza
le corrispondenti frequenze relative.
Istogramma a barre - Esempio guida
Esempio guida
30
25
20
15
10
1 2 3 4

Istogramma del lancio dei dadi
40
30
20
10
2 3 4 5 6 7 8 9 10 11 12
Istogramma del peso delle trote
100
80
60
40
20
175 225 275 325 375 425

Istogramma a torta del lancio dei due dadi
4
6
12
7
11
10
8 9
Istogramma non omogeneo
In certi casi la suddivisione dell’ampiezza di una variabile X non è

omogenea. In questo caso l’istogramma a barre va costruito nel modo
seguente.
Si costruiscono dei rettangoli la cui base è data dai sotto intervalli
mentre l’altezza si ottiene imponendo che l’area dei rettangoli sia pari
alla frequenza relativa.
Dalla formula dell’area di un rettangolo segue che le altezza dei
rettangoli sono date dalla formula:
fk
hk =
lunghezza di Ik

Esempio
Dato il vettore
X = (31, 14, 22, 30, 5, 18, 18, 2, 31, 1, 10, 20, 0, 10, 31, 0, 19, 6, 16, 22, 3,
16, 19, 15, 23, 0, 28, 19, 4, 18, 8, 35, 29, 28, 6, 28, 23, 2, 11, 0)
dividiamo l’ampiezza, pari a 35, nei seguenti sotto intervalli
[0, 10), [10, 30), [30, 35)
Le frequenze assolute, relative e le altezze dei rettangoli sono
Intervalli nk fk hk
I1 = [0, 10) 13 13/40 = 32.5% 3.25
I2 = [10, 30) 22 22/40 = 50% 2.75
I3 = [30, 35) 5 5/40 = 12.5% 2.5
Istogramma a barre non omo-

geneo con altezza dei rettan-
goli pari alle frequenze rela-
tive

geneo con altezza dei rettan-
goli pari alle frequenze rela-
tive

geneo con area dei rettangoli
pari alle frequenze relative
Indicatori di centralità
Gli indicatori di centralità indicano un "centro" dei dati e si utilizzano

per rappresentare i valori di un vettore
X = {X1 , X2 , . . . , XN }
tramite un unico numero che rappresenti tutti i dati.

Sommatorie
Dato un vettore
X = {X1 , X2 , . . . , XN }
si indica con
N
∑ Xk = X1 + X2 + · · · + XN
k=1
la somma delle sue componenti e si leggere: la sommatoria di Xk con k

che va da 1 a N.
Proprietà della sommatoria
∑Nk=1 (Xk + Yk ) = ∑Nk=1 Xk + ∑Nk=1 Yk
∑Nk=1 λ Xk = λ ∑Nk=1 Xk
∑Nk=1 λ = Nλ
dove λ è un numero reale.
Media e Mediana
Definizione
Si chiama media aritmetica (o solo media) di un vettore X il numero
1 1 N
X = (X1 + X2 + · · · + XN ) = ∑ Xk
N N k=1
Definizione
Si chiama mediana di un vettore X un numero, denotato con X0.5 , tale
che almeno il 50% delle componenti di X sono minori o uguali di X0.5 e
almeno il 50% delle componenti di X sono maggiori o uguali di X0.5

Calcolo della mediana
Per calcolare la mediana si procede nel modo seguente:

Si riordina il vettore, cioè si costruisce X ∗ e si distinguono i seguenti
due casi
N dispari. In questo caso esiste un valore centrale di X ∗ e la
mediana è data da
∗
X0.5 = X(N+1)/2
N pari. In questo caso esistono due valori centrali di X ∗ ,cioè XN/2

∗
e X(N/2)+1
∗ , e la mediana è data da
∗ + X∗
XN/2 (N/2)+1
X0.5 =
2
Esempio numerico
Dato il vettore
X = {14, 17, 5, 2, 2, 15, 15, 13, 3, 6}
di N = 10 componenti si ha
14 + 17 + 5 + 2 + 2 + 15 + 15 + 13 + 3 + 6 46
X= = = 9.2
10 5
X ∗ = {2, 2, 3, 5, 6, 13, 14, 15, 15, 17}

In questo caso, siccome N = 10 è pari, la mediana è
6 + 13 19
X0.5 = = = 9.5
2 2

Differenze tra media e mediana
La media tiene conto del valore esatto di tutte le componenti di un
vettore X mentre la mediana tiene conto esclusivamente dell’ordine dei
valori.
Per esempio dato il vettore
X = {14, 17, 5, 2, 2, 15, 15, 13, 3, 6, 230}
si ha
X ∗ = {2, 2, 3, 5, 6, 13, 14, 15, 15, 17, 230}
da cui
X = 29.27... X0.5 = 13
La differenza tra media e mediana in questo caso dipende dal valore
aberrante 230 che, chiaramente, non è in linea con i restanti. In questo
caso la mediana sembra più attendibile per rappresentare il vettore.
Infatti se non si considera l’ultimo numero la mediana diventa 9.5
mentre la media si riduce a 9.2.
Il voto di laurea
Il voto di laurea è quasi sempre calcolato sulla base della media

pesata dei voti riportati nei singoli esami.
La media pesata è una media aritmetica che tiene conto del peso di
ciascun esame, dove il peso è calcolato in CFU.
Quindi, indicato con (Vk , Pk ), k = 1, . . . N, il voto e i crediti di N esami, si
definisce media pesata il numero
∑Nk=1 Vk Pk
Xp =
∑Nk=1 Pk

Il voto di laurea - Media pesata
Per esempio, la media pesata dei seguenti voti
X = {(25, 6), (30, 8), (20, 4), (28, 6)}
è
25 · 6 + 30 · 8 + 20 · 4 + 28 · 6
Xp = = 26.583
6+8+4+6
mentre la media è
25 + 30 + 20 + 28
X= = 25.75
4
Attenzione
Se
X = {(25, 6), (30, 4), (20, 8), (28, 6)}
X p = 24.916
Indicatori di dispersione
Consideriamo il seguenti vettori
X = {0, 10, 20} Y = {9, 10, 11}
entrambi hanno media e mediana uguali a 10. Quindi, in questo caso i

coefficienti di centralità non permettono di distinguere i due vettori.
Nonostante questo a prima vista risultà ovvia una differenza: i dati di Y
sono più raccolti (meno dispersi) di quelli di X.
Cerchiamo quindi di introdurre un indicatore che ci permetta di
misurare la dispersione di un vettore.
Abbiamo già definito l’ampiezza (chiamata anche estensione) di un
vettore come la differenza
M−m
tra il massimo ed il minimo valore.
Questo è un primo indicatore di dispersione. Infatti nell’esempio
precedente l’estensione di X è 20 mentre quella di Y è 2.
L’estensione però non risulta utile con un esempio del tipo:
X = {0, 1, 10, 19, 20} Y = {0, 9, 10, 11, 20}
In questo caso oltre media e mediana coincidono anche le estensioni.
Scarto medio
Un buon metodo per calcolare la dispersione consiste nel misurare la
distanza media dei valori dalla media. Vediamo un esempio
Dato il vettore X = {0, 1, 10, 19, 20}
calcoliamo per ogni componente la distanza dalla media, ottenendo
cosí un nuovo vettore
|X − X| = {10, 9, 0, 9, 10}
La media di questo nuovo vettore, 38/5 = 7.6, rappresenta lo scarto

medio, cioè la media delle distanze dei dati dalla loro media.
Definizione
Dato un vettore X di N osservazioni si definisce scarto medio il numero
1 N
∑ |Xk − X|
N k=1
Deviazione standard
In statistica si preferisce calcolare un altro coefficiente di dispersione

che non differisce molto dallo scarto medio.
L’idea è riscrivere il valore assoluto |Xk − X| nella forma
�
|Xk − X| = (Xk − X)2
Segue che
�
N N �
1 1 1 N
∑
N k=1
|Xk − X| = ∑ (Xk − X)2 ≈
N k=1 ∑
N k=1
(Xk − X)2
Attenzione
Il simbolo ≈ non vuol dire che le quantità sono uguali ma che i due
valori non differiscono troppo.
Deviazione standard
Definizione
Si chiama scarto quadratico medio (o deviazione standard) di un
vettore X di N osservazioni il numero
�
1 N
σX = ∑
N k=1
(Xk − X)2
Si chiama varianza il quadrato della deviazione standard, cioè
Var(X) = (σX )2

Dato un vettore
X = {X1 , . . . , XN }
definiamo
X 2 = {X12 , . . . , XN2 }
Formula di König
2
Var(X) = X2 − X
Dimostrazione
1 N 1 N 2
∑ (Xk − X) = ∑ (Xk − 2Xk X + X )
2 2
Var(X) =
N k=1 N k=1
1 N 2 1 N 1 N 2
= ∑ Xk − 2X N ∑ Xk + N ∑ X
N k=1 k=1 k=1
1 2 2
= X 2 − 2X X + NX = X 2 − X
N
Esempio
Calcoliamo le deviazioni standard dei seguenti vettori
X = {0, 1, 10, 19, 20} Y = {0, 9, 10, 11, 20}
X 2 = {0, 1, 100, 361, 400} Y 2 = {0, 81, 100, 121, 400}
862 702
X = Y = 10 X 2 = Y2 =
5 5
2 862 362
Var(X) = X2 − X = − 100 = = 72.4
5 5
2 702 202
Var(Y) = Y2 − Y = − 100 = = 40.4
5 5

Il coefficiente di variazione
Consideriamo il peso di 26 ragazzi e di 26 ragazze
pesoM = M = (75, 75, 65, 90, 90, 60, 60, 72, 73, 61, 73, 72, 68, 67, 56, 65,
80, 67, 78, 64, 58, 56, 65, 61, 86, 63)
pesoF = F = (59, 59, 40, 52, 52, 45, 65, 53, 46, 42, 58, 55, 75, 74, 48, 52,
48, 47, 58, 42, 48, 52, 53, 50, 50, 67)
si ha
σM = 9.53 σF = 8.86
A prima vista si potrebbe concludere che il peso degli uomini è più
disperso di quello delle donne.
Tale affermazione non è corretta se si tiene conto del peso medio degli
uomini e di quello delle donne. Infatti, una variazione di un Kg di peso
per un uomo e mediamente meno rilevante che per una donna.
Il coefficiente di variazione
Per ovviare al problema consideriamo la deviazione standard rispetto

alla media ed introduciamo un nuovo coefficiente
Definizione
Dato un vettore X il coefficiente di variazione è il numero
σX
CV(X) =
X
Nell’esempio di recedente si ottiene
CV(M) = 0.137 CV(F) = 0.165
In questo esempio la conclusione corretta è che il peso delle donne

varia maggiormente rispetto a quello degli uomini.

Calcolo dell’ampiezza dei sotto intervalli
Per suddividere l’ampiezza di un dato vettore X per il calcolo delle

frequenze assolute si può utilizzare il seguente:
Criterio
Dividere l’ampiezza in sotto intervalli di lunghezza pari al primo intero
più grande di σX /2.
Esempio
Se σX = 5 si scelgono sotto intervalli di ampiezza pari a 3. Infatti tre è il
primo intero più grande di σX /2 = 5/2 = 2.5
Esempi pratici
Nelle slide seguenti descriveremo tre situazioni reali in cui gli

istogrammi e gli indicatori di centralità e di dispersione aiutono a fare
una scelta scientifica.

Tre organizzazioni di un reparto di produzione
Il problema
In un reparto dove sono assemblati walkman vengono provate, in
tre giorni diversi, tre differenti organizzazioni delle linee di
produzione. Le tre diverse organizzazioni sono chiamate nel
seguito vecchia (quella in uso al momento dell’esperimento),
nuova 1 e nuova 2.
Nei tre giorni, per ciascuno dei 288 addetti che lavorano nel
reparto, viene rilevato il numero di operazioni completato, che,
ovviamente, può essere visto come una misura della produttività
Domanda: qual’è l’organizzazione del lavoro migliore?
Vecchia organizzazione
725 724 710 724 700 724 713 692 683 712 684 707 703 691 709 702 705 715 704 705 697 725 692 719 694 717 696 707 726
703 705 712 710 697 698 694 701 715 701 707 706 701 687 708 719 713 699 702 694 708 712 704 703 687 709 693 715 707
710 700 718 702 718 705 723 718 701 698 692 684 716 710 708 707 695 726 710 709 692 707 717 709 710 718 708 720 705
714 687 707 707 723 695 676 705 684 717 719 715 710 711 696 696 715 686 702 708 713 701 692 713 700 704 726 702 706
706 700 700 687 696 694 699 709 704 704 715 706 688 724 713 686 697 710 704 724 721 717 690 707 713 685 706 699 687
702 701 708 704 705 702 701 699 699 685 712 678 706 706 695 707 718 706 716 703 721 714 704 697 693 711 697 710 713
702 715 714 716 698 714 704 717 700 692 718 699 698 690 710 703 702 719 710 725 721 713 699 703 698 712 714 707 691
711 712 718 702 711 709 700 719 692 716 700 707 714 717 714 703 709 711 704 689 712 714 711 692 720 697 698 700 689
693 707 699 704 696 708 713 714 712 708 704 720 705 703 712 719 713 716 712 703 717 695 711 697 693 701 699 697 724
713 706 705 704 707 704 719 711 700 694 706 705 698 697 697 700 705 722 712 703 688 694 708 703 690 706 704

Organizzazione “nuova 1”
695 686 694 690 713 704 693 697 723 694 690 721 683 701 718 715 738 694 692 704 728 697 711 706 714 710 717 729 709
695 699 714 691 698 680 720 683 696 713 674 689 683 708 704 725 695 690 696 678 725 683 700 699 705 688 714 709 693
681 717 691 706 684 684 693 719 731 706 686 698 710 679 712 688 697 729 695 697 717 679 736 671 695 739 698 696 714
711 701 720 686 706 722 695 688 709 693 756 677 712 670 693 695 683 713 672 706 708 690 685 686 681 716 709 704 679
686 676 718 683 689 696 687 736 699 685 698 700 723 681 713 700 708 705 718 692 743 715 745 700 693 676 723 712 671
714 687 687 687 683 671 677 696 696 714 713 671 688 675 671 692 725 690 680 693 703 733 708 720 704 688 732 711 685
714 704 686 682 699 708 708 704 685 685 694 702 738 702 696 709 701 687 703 701 702 693 691 701 735 721 705 691 741
685 716 716 737 687 732 697 670 684 693 711 685 705 690 705 693 698 678 704 710 686 689 686 698 684 687 696 719 679
696 701 712 691 686 704 744 705 718 709 725 699 721 690 678 713 714 705 681 721 673 698 717 711 670 726 694 723 701
683 716 671 712 704 699 705 727 719 702 692 708 694 670 694 697 682 718 705 699 709 695 711 688 717 699 686
Organizzazione “nuova 2”
698 715 675 710 731 721 705 718 693 702 713 730 707 710 744 725 724 701 737 715 704 723 705 702 698 729 698 723 716
698 732 724 721 722 728 740 727 709 724 746 704 740 729 708 721 714 739 713 752 732 713 692 734 727 725 690 749 706
758 722 697 722 705 723 748 730 706 688 709 739 709 744 704 716 748 713 744 721 723 733 707 723 702 734 690 715 711
705 718 702 706 742 742 736 740 712 722 731 713 704 704 735 700 717 746 735 717 718 691 696 720 735 716 745 714 698
709 704 704 684 749 747 715 717 731 700 747 709 705 749 704 697 694 715 737 734 705 726 710 716 740 731 714 733 726
752 714 710 714 753 749 728 696 733 731 728 686 706 710 729 729 730 722 707 716 702 728 716 743 750 715 735 710 734
712 706 719 709 702 712 710 729 728 720 721 752 715 712 717 692 724 720 739 719 712 713 734 734 710 711 722 743 707
729 712 681 739 699 721 706 703 708 719 708 724 730 726 731 734 739 727 759 718 716 715 719 693 729 738 710 730 726
719 726 733 717 701 723 720 744 730 698 729 696 717 713 705 700 715 710 735 726 732 701 707 724 708 730 721 720 706
700 735 706 725 725 735 695 709 705 702 737 688 727 717 708 720 724 731 706 730 714 703 721 712 748 734 724

I dati non sono moltissimi rispetto ad altre situazioni che si possono

incontrare nelle applicazioni. Sono però troppi per cercare di capire
qualcosa solamente guardandoli.
Dobbiamo quindi cercare di sintetizzarli in qualche modo. Un primo
tentativo in questo senso consiste nel suddividere l’intervallo che
contiene tutti i valori osservati ([670; 759]) in sotto-intervalli di
lunghezza 5, si ottengono le seguenti tabelle.

Frequenze assolute Frequenze relative
vecchia nuova1 nuova2 vecchia nuova1 nuova2
[670, 675) 0 13 0 [670, 675) 0, 000 0, 045 0, 000
[675, 680) 2 12 1 [675, 680) 0, 007 0, 042 0, 003
[680, 685) 4 20 2 [680, 685) 0, 014 0, 069 0, 007
[685, 690) 13 33 3 [685, 690) 0, 045 0, 115 0, 010
[690, 695) 23 33 8 [690, 695) 0, 080 0, 115 0, 028
[695, 700) 35 38 13 [695, 700) 0, 122 0, 132 0, 045
[700, 705) 55 27 24 [700, 705) 0, 191 0, 094 0, 083
[705, 710) 52 28 34 [705, 710) 0, 181 0, 097 0, 118
[710, 715) 50 28 32 [710, 715) 0, 174 0, 097 0, 111
[715, 720) 33 19 32 [715, 720) 0, 115 0, 066 0, 111
[720, 725) 15 12 34 [720, 725) 0, 052 0, 042 0, 118
[725, 730) 6 9 27 [725, 730) 0, 021 0, 031 0, 094
[730, 735) 0 4 30 [730, 735) 0, 000 0, 014 0, 104
[735, 740) 0 7 17 [735, 740) 0, 000 0, 024 0, 059
[740, 745) 0 3 12 [740, 745) 0, 000 0, 010 0, 042
[745, 750) 0 1 12 [745, 750) 0, 000 0, 003 0, 042
[750, 755) 0 0 5 [750, 755) 0, 000 0, 000 0, 017
[755, 760) 0 1 2 [755, 760) 0, 000 0, 003 0, 007
totale 288 288 288
Istogramma delle frequenze assolute - Vecchia organizzazione
Vecchia
50
40
30
20
10
670 700 730 760

Istogramma delle frequenze assolute - Nuova 1 organizzazione
Nuova 1
35
30
25
20
15
10
670 700 730 760

Istogramma delle frequenze assolute - Nuova 2organizzazione
Nuova 2
30
25
20
15
10
670 700 730 760

Vecchia Nuova 1 Nuova 2
50 35
30
30
40 25
25
20
30
20
15
15
20
10
10
10
5
5
670 700 730 760 670 700 730 760 670 700 730 760
vecchia nuova 1 nuova 2

media 705.5 700.8 719.2
mediana 706 699 718.5

Analisi di un esperimento su due sonniferi
Descrizione dell’esperimento
Per verificare se una certa molecola aveva un qualche effetto come
sonnifero è stato condotto il seguente esperimento:
A 10 volontari, senza una storia pregressa di insonnia, è stato
somministrato in una notte un placebo ( = una pillola contenente
una polvere innoqua) e in un altra notte una pillola contenente il
sonnifero. L’individuo ignorava quale pillola aveva assunto.
Per ogni individuo e per tutte e due le notti sono state
cronometrate le ore di sonno.
E’ stata poi calcolata la variabile, denominata sonno extra,
calcolata come:
ore di sonno nella notte con sonnifero meno ore di sonno nella
notte con placebo
L’esperimento è stato poi ripetuto per una variante della molecola sotto
studio.
Ore di sonno extra

soggetto molecola originaria variante
1 0, 7 1, 9
2 −1, 6 0, 8
3 −0, 2 1, 1
4 −1, 2 0, 1
5 −0, 1 −0, 1
6 3, 4 4, 4
7 3, 7 5, 5
8 0, 8 1, 6
9 0, 0 4, 6
10 2, 0 3, 4

molecola originaria variante

media 0.75 2.33
mediana 0.35 1.75
estensione 5.3 5.6
dev. standard 1.7 1.9
Due metodi per il dosaggio dell’emoglobina
Descrizione dei dati

Per confrontare l’efficacia di due diverse metodiche, diciamo A e B, per
la misurazione dell’emoglobina si è proceduto nella seguente maniera:
Si è creato in laboratorio del sangue artificiale con un contenuto

nominale di 15 grammi per 100 cm3 di emoglobina.
Dal composito sono stati estratti 360 campioni. Su 180 campioni
l’emoglobina è stata misurata utilizzando la metodica A mentre
per i restanti campioni è stata usata la metodica B.

Metodica A
14.98654 15.14828 15.15741 14.78573 15.22160 14.86475 14.94835 14.64653 15.00364 15.06475 14.99282 14.92189
14.99575 15.64405 15.33492 14.73466 14.93331 14.94189 15.22719 14.64697 15.29087 14.90708 15.02215 14.97803
14.85369 15.35937 15.09510 14.70682 14.77203 15.28139 14.97825 14.93426 14.88053 15.11486 15.01449 15.10965
15.06394 14.79222 14.76657 15.15009 14.72711 14.98090 14.75410 14.90115 15.17730 14.89586 14.96936 15.00198
15.21905 14.97432 15.04769 14.90602 14.98397 15.33279 15.23659 15.07793 15.11311 14.78668 14.94863 15.05302
14.66592 15.13632 15.05976 14.98333 14.94836 14.99909 14.89628 15.19492 14.58320 14.83856 15.02708 15.03368
14.77780 15.40490 15.34432 14.71978 15.01237 14.73821 15.15963 15.22495 14.72350 15.31984 15.15886 15.49579
14.92472 15.32498 14.75861 15.13450 15.32448 14.98809 15.10179 15.29890 14.98695 14.96983 15.41413 15.12123
15.26597 15.09788 14.72764 15.14286 15.46952 15.13055 15.00559 14.83167 14.71813 15.03142 14.99039 14.89292
15.38937 14.76792 15.28734 15.20681 15.10421 15.45162 15.00441 14.90440 14.88044 15.26423 14.73072 14.60118
15.02576 14.84693 15.14960 14.55898 14.98658 15.23278 15.12612 15.09414 15.08752 15.09658 15.00574 15.03512
15.14976 14.93821 14.60090 14.97181 15.46100 15.05996 15.15891 15.08800 15.18066 14.64953 14.78898 14.82059
15.10667 15.00653 14.86939 15.16498 14.73762 14.58239 14.88403 15.19361 14.97908 15.00001 14.67176 15.01569
14.84952 14.79514 14.83009 15.11935 14.88455 14.51907 15.30290 14.93205 15.04080 15.11013 14.98879 14.91813
14.44163 14.80356 14.95201 15.11953 14.70853 15.15046 14.86291 15.34034 14.75090 14.86912 14.92036 14.93270

Metodica B
14.62067 15.26097 14.87602 15.45027 15.32593 14.74834 15.19424 14.97163 15.09104 15.31831 15.06252 15.19373
14.72724 14.90797 14.75423 14.99820 14.31944 15.36786 15.48341 15.01780 14.58473 15.12630 15.03021 15.01365
14.34351 14.58493 14.97563 15.29785 15.44040 14.76965 14.53352 15.27177 15.28055 15.53123 13.82846 15.12360
15.24214 14.92428 14.65803 15.18722 14.83586 15.60325 14.85619 15.01115 15.30457 14.63107 15.13094 15.01104
14.64376 14.95360 15.53356 15.69041 14.82695 15.29568 15.09679 15.28104 15.10458 14.56744 15.19535 15.12521
14.46866 14.71408 14.93787 14.96020 14.78997 14.90338 15.45271 15.21145 15.38612 15.65470 15.06021 14.93443
15.02647 14.81672 15.38435 15.33135 15.11671 14.88797 15.03316 15.44367 15.43368 14.49792 14.82239 14.67267
14.59706 14.47115 15.19742 14.99877 15.06001 15.38270 14.60696 15.22274 15.63418 14.93377 15.36101 15.33171
15.32998 15.22515 14.42690 15.04781 15.64006 15.00974 14.60602 14.99329 15.33431 15.21277 14.87049 14.51086
15.80354 14.87940 14.90026 14.88420 14.44305 14.97657 14.78323 14.88690 15.10098 15.17093 14.91092 15.11042
14.59041 15.53938 14.58149 15.02527 14.86442 15.11187 14.85419 14.71329 14.75993 14.91381 15.09344 14.98552
15.30405 15.21515 14.99674 14.82704 15.06626 15.07602 14.96841 15.25176 14.84417 15.22224 15.42500 15.54409
15.54403 15.04272 14.74762 14.99012 15.15673 14.71890 15.15306 15.40174 14.37135 14.83015 15.27419 14.97257
14.59326 15.17822 15.15458 15.41121 15.16800 15.15758 14.58378 14.74625 14.85794 15.67266 14.99509 14.78124
15.21816 14.68988 14.84746 14.96116 14.96338 15.07308 14.85328 15.13676 14.89107 15.18928 14.74481 15.13047

Metodica A
Metodica A
35
30
25
20
15
10
13.9 15 15.7

Metodica B
Metodica B
25
20
15
10
13.9 15 15.7

Indicatori
metodica A metodica B
media 15 15.02
mediana 15 15.02
estensione 1.2 1.97
dev. standard 0.213 0.315
Statistica descrittiva in due variabili
Supponiamo di misurare su un campione statistico due diverse

variabili X e Y. Indichiamo come al solito con
X = (X1 , . . . , XN ) Y = (Y1 , . . . , YN )
i valori osservati. In questo caso abbiamo due possibilità

Studiare le due variabili separatamente
Studiare se esistono dei legami tra le due variabili
Di fatto la cosa più importante, quando si misurano due caratteri sullo
stesso campione, è capire se le due variabili sono dipendenti, cioè se
variazioni di una producono variazioni dell’altra.

Tabella di contingenza
Per determinare se due variabili sono dipendenti o indipendenti si

procede nel modo seguente.
Si costruisce per primo una tabella a doppia entrata, o di contingenza,
che, per semplicità, descriveremo con un esempio.
Dati i vettori
X = (4, 18, 10, 16, 1, 10, 1, 9, 11, 9, 18, 15, 8, 12, 17, 2, 10, 3, 18, 4, 19,
11, 15, 10, 12, 9, 17, 8, 6, 13)
Y = (27, 13, 23, 17, 19, 26, 23, 2, 25, 21, 3, 11, 14, 10, 3, 24, 11, 15, 7, 10,
6, 30, 8, 24, 8, 20, 28, 26, 29, 30)
suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo
con cui abbiamo operato per il calcolo delle frequenze assolute.
Nell’esempio X ha ampiezza 18 mentre quella di Y è 28. Possiamo
quindi dividere l’ampiezza di X in due sotto intervalli di lunghezza 10 e
quella di Y in tre di lunghezza 10.
Si ottiene la seguente tabella
X↓Y→ J1 = [1, 11) J2 = [11, 21) J3 = [21, 31)

I1 = [1, 11)
I2 = [11, 21)

Tabella di contingenza
Adesso andiamo a riempire le caselle vuote della tabelle con le

frequenze osservate definite nel modo seguente
Definizione
La frequenza osservata nij rappresenta il numero di unità statistiche il
cui valore della variabile X si trova nell’intervallo Ii e simultaneamente
il valore della variabile Y si trova nell’intervallo Jj .
Per calcolare le frequenze osservate conviene dare dei colori ai sotto

intervalli. Per esempio, usando il blu, il rosso ed il verde
X↓Y→ J1 = [1, 11) J2 = [11, 21) J3 = [21, 31)

I1 = [1, 11)
I2 = [11, 21)
Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le

componenti con il colore dell’intervallo a cui appartengono.
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19
19 6
10 26
11 30
1 23
15 8
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11)
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30

17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30

17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21)
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21) 7
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30

17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21) 7 3
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
17 3
X Y
2 24
4 27
10 11
18 13
3 15
10 23
18 7
16 17
4 10
1 19 X↓Y→ [1, 11) [11, 21) [21, 31)
19 6
10 26
11 30 [1, 11) 2 5 9
1 23
15 8 [11, 21) 7 3 4
9 2
10 24
11 25
12 8
9 21
9 20
18 3
17 28
15 11
8 26
8 14
6 29
12 10
13 30
X↓Y→ [1, 11) [11, 21) [21, 31)

[1, 11) 2 5 9
[11, 21) 7 3 4
Questa rappresenta la tabella di contingenza e le entrate

rappresentano le frequenze osservate.
Completiamo la tabella inserendo le distribuzioni marginali che si
ottengono sommando in verticale ed in orizzontale le frequenze
osservate.
X ↓ Y → [1, 11) [11, 21) [21, 31)
[1, 11) 2 5 9 16
[11, 21) 7 3 4 14
9 8 13 30
Il numero in basso a destra, corrispondente alla somma delle
frequenze marginali, è pari al numero delle unità statistiche.

La tabella di contingenza permette di valutare come cambia la
distribuzione di una variabile (per esempio della Y) condizionata a
particolari valori dell’altra (per esempio X).
Nel nostro caso la distribuzione marginale orizzontale
9 8 13
dice come è distribuita la variabile Y nei tre sotto intervalli senza

nessuna condizione della variabile X.
Mentre la distribuzione
2 5 9
dice come è distribuita la variabile Y nei tre sotto intervalli condizionata
ad avere la variabile X nell’intervallo [1, 11)
Se le tre distribuzioni
2 5 9
7 3 4
9 8 13
sono equivalenti, allora la variabile Y non è condizionata dalla variabile
X e quindi le variabili si dicono indipendenti.
Ma cosa vuol dire equivalenti?
Per confrontarle bisogna trasformarle in frequenze relative dividendole
per i rispettivi totali di riga.
Nel nostro caso si ha
2/16 5/16 9/16

7/14 3/14 4/14
9/30 8/30 13/30
che, trasformate in percentuale, diventano
X↓Y→ [1, 11) [11, 21) [21, 31)
[1, 11) 12.5% 31.25% 56.25
[11, 21) 50% 21.43% 28.57
30% 26.67% 43.33%
Definizione
Due variabili sono indipendenti se le distribuzioni orizzontali,
trasformate in percentuale, coincidono.
In generale, indicata con nij la frequenza osservata corrispondente alla

i-esima riga e alla j-esima colonna, la tabella di contingenza diventa
X↓Y→ J1 J2 · · · Jc Marginale
I1 n11 n12 · · · n1c n1•
I2 n21 n22 · · · n2c n2•
.. ..
. ··· ··· ··· ··· .
Ir nr1 nr2 · · · nrc nr•
Marginale n•1 n•2 · · · n•c N
Con queste notazioni segue che due variabili sono indipendenti se le

distribuzioni
n11 n12 n1c
n1• n1• · · · n1•
.. .
. · · · · · · ..
nr1 nr2 nrc
nr• nr• ··· nr•
sono uguali alla distribuzione
n•1 n•2 n•c
N N ··· N

Considerando ciascuna componente si ottiene
nij n•j
= ∀i, j
ni• N
o, equivalentemente,
ni• n•j
nij = ∀i, j
N
Definizione
I numeri
ni• n•j
νij =
N
sono chiamati frequenze attese.
Quindi due variabili sono indipendenti se le frequenze osservate

coincidono con quelle attese.
Ma noi stavamo cercando di capire quando due variabili sono
DIPENDENTI!
Definizione
Diremo che due variabili sono dipendenti se le frequenze osservate
sono molto diverse da quelle attese.
ma cosa vuol dire molto diverse?

Per capire quanto sono diverse si può calcolare la distanza delle
frequenze osservate da quelle attese. Tale distanza si può calcolare,
tenendo conto del quadrato delle differenze nij − νij , introducendo la
quantità
r c
(nij − νij )2
χ =∑∑
2
i=1 j=1 νij

Torniamo all’esempio
Frequenze osservate
X↓Y→ [1, 11) [11, 21) [21, 31)

[1, 11) 2 5 9 16
[11, 21) 7 3 4 14
9 8 13 30
Frequenze attese
X↓Y→ [1, 11) [11, 21) [21, 31)

9·16 8·16 13·16
[1, 11) 30 30 30 16
9·14 8·14 13·14
[11, 21) 30 30 30 14
9 8 13 30
Torniamo all’esempio
Frequenze osservate
X↓Y→ [1, 11) [11, 21) [21, 31)
[1, 11) 2 5 9 16
[11, 21) 7 3 4 14
9 8 13 30
Frequenze attese
X↓Y→ [1, 11) [11, 21) [21, 31)
[1, 11) 4.8 4.3 6.9 16
[11, 21) 4.2 3.7 6.1 14
9 8 13 30
2 (2 − 4.8)2 (5 − 4.3)2 (9 − 6.9)2

χ = + +
4.8 4.3 6.9
(7 − 4.2)2 (3 − 3.7)2 (4 − 6.1)2
+ + + � 5.11
4.2 3.7 6.1
Utilizzo del χ 2
Ovviamente χ 2 = 0 se e solo se le variabili sono matematicamente

indipendenti.
Da un punto di vista qualitativo si può dire che:
per valori di χ 2 grandi le variabili sono dipendenti
per valori di χ 2 piccoli le variabili sono indipendenti
In statistica è stato elaborato un test per calcolare con che fiducia, noto
il valore del χ 2 , si possa affermare che due variabili siano dipendenti.
Questo test prende il nome di Test del χ 2
Calcolo della fiducia

Per calcolare la fiducia si calcola per primo un numero, denotato con
df , che misura i gradi di libertà, definito come
df = (r − 1)(c − 1)
Calcolati il χ 2 ed il df si utilizza la seguente tabella.

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001
1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

Il df individua una riga della tabella. Nella riga individuata si cerca il
più grande numero minore del χ 2 .Partendo da questo numero si
procede in verticale sino ad incontrare una casella nella prima riga
della tabella. In questa tabella si troverà un valore di α. Il valore di α
rappresenta la sfiducia, cioè la percentuale di errore che si commette
nell’affermare che due variabili sono dipendenti. Trasformando in
percentuale si ha che la fiducia è data da
F = 100(1 − α)
Vediamo il nostro esempio

χ 2 = 5.11 df = (2 − 1)(3 − 1) = 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
χ 2 = 5.11 df = (2 − 1)(3 − 1) = 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

χ 2 = 5.11 df = (2 − 1)(3 − 1) = 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52
6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46
7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32
8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12
9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88
10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59
11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26
12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91
13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53
14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12
15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7
16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25
17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
Quindi α = 0.1, da cui la fiducia risulta:
F = 100(1 − α) = 100(1 − 0.1) = 100(0.9) = 90%

Possiamo affermare che le due variabili sono dipendenti con una
fiducia del 90%.
Il caso 2 × 2
Se la tabella di contingenza è 2 × 2, cioè del tipo
X↓Y→ J1 J2
I1 a b a+b
I2 c d c+d
a+c b+d N
si può calcolare il χ 2 senza calcolare le frequenze attese tramite la

formula
2 (ad − bc)2
χ =N
(a + b)(c + d)(a + c)(b + d)

Uso del test del χ 2
Di solito l’uso del test del χ 2 è riservato allo studio di due variabili
qualitative rilevate su un campione statistico.
Esempio
In uno studio di immunologia, vengono studiate 111 cavie nel modo
seguente:
57 di esse ricevono una dose di batteri patogeni seguiti da un
antisiero;
le restanti 54 ricevono solo i batteri ma non l’antisiero.
Dopo un tempo sufficiente per il periodo di incubazione e per il
decorso della malattia si contano 38 cavie morte di cui:
12 avevano ricevuto il siero
26 solo i batteri
L’antisiero è efficace?
Per valutare l’efficacia costruiamo una tabella di contingenza indicando

con:
BA = cavia inoculata con batteri e antisiero
B = cavia inoculata con solo batteri
D = cavia deceduta
S = cavia sopravissuta
Si ottiene la seguente tabella di contingenza:
D S
BA 12 45 57
B 26 28 54
38 73 111
Dalla formula per il calcolo del χ 2 per una tabella 2 × 2 si ottiene
2 (12 · 28 − 45 · 26)2
χ = 111 � 9.042
57 · 54 · 38 · 73

Dalla tabella del χ 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27
4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
si ottiene α = 0.005 da cui la fiducia
F = 100(1 − 0.005) = 99.5%
Possiamo quindi affermare che le due variabili sono dipendenti con

una fiducia del 99.5. Questo significa che il l’antisiero è efficace.
Diagramma di dispersione
Supponiamo di misurare su un campione statistico due diverse

variabili X e Y. Indichiamo come al solito con
X = (X1 , . . . , XN ) Y = (Y1 , . . . , YN )
i valori osservati. Supponiamo inoltre di aver verificato che le due

variabili sono statisticamente dipendenti.
Il problema naturale è capire quale tipo di dipendenza matematica
intercorre tra le due variabili. In altre parole ci si chiede se sia possibile
determinare una funzione y = f (x) che, con una buona
approssimazione, soddisfi:
Yi = f (Xi ) i = 1, . . . , N
Un primo tentativo è osservare il diagramma di dispersione associato

alle variabili X e Y e costruito nel modo seguente.

Diagramma di dispersione
Si costruisce un nuovo vettore
P = X × Y = ((X1 , Y1 ), . . . , (XN , XN )) = (P1 , . . . , PN )
In un sistema di riferimento cartesiano si traccia per ogni Pi = (Xi , Yi )

un punto di coordinate (Xi , Yi ). Si ottiene in questo modo una nuvola di
punti detta diagramma di dispersione.
Per esempio per i vettori
X = (4, 18, 10, 16, 1, 10, 0, 9, 11, 9, 18, 15, 8, 12, 17, 2, 10, 3, 18, 4, 19,
11, 15, 10, 12, 9, 17, 8, 6, 13)
Y = (27, 13, 23, 17, 19, 26, 23, 2, 25, 21, 3, 11, 14, 10, 3, 24, 11, 15, 7, 10,
6, 30, 8, 24, 8, 20, 28, 26, 29, 30)
si ottiene il diagramma
30
25
20
15
10
2.5 5 7.5 10 12.5 15 17.5

Tipi di diagramma di dispersione
40
30
20
10
5 10 15 20 25 30 35
Tipo retta y = x + 3
40
30
20
10
5 10 15 20 25 30 35

1200
1000
800
600
400
200
5 10 15 20 25 30 35
Tipo parabola y = x2
1200
1000
800
600
400
200
5 10 15 20 25 30 35

0.8
0.6
0.4
0.2
5 10 15 20 25 30 35
1
Tipo iperbole y = x
0.8
0.6
0.4
0.2
5 10 15 20 25 30 35

Regressione lineare
La situazione più semplice è quando il diagramma di dispersione

segue l’andamento di una retta. I problemi da risolvere in questa
situazione sono essenzialmente due
esiste un modo quantitativo per decidere quanto il diagramma di
dispersione è sufficientemente vicina ad una retta?
nel caso fosse sufficientemente vicina come calcolo l’equazione
della retta?
Per dare una risposta a questi quesiti dobbiamo introdurre un nuovo
indice.
La covarianza
Siano X e Y due variabili indicate, come al solito, con
X = (X1 , . . . , XN ) Y = (Y1 , . . . , YN )
Definizione
Si chiama covarianza di X e Y il numero
1 N
Cov(X, Y) = ∑ (Xk − X)(Yk − Y)
N k=1
La covarianza misura come le due variabili covariano nel senso

seguente: se pensiamo ai singoli addendi della somma, cioè ai termini
(Xk − X)(Yk − Y)
questi saranno:
positivi se entrambi sono positivi o entrambi negativi
negativi se hanno segni opposti
quindi
se Cov(X, Y) > 0 vuol dire che mediamente ci sono più termini
positivi e questo implica che mediamente a valori di X maggiori
della media corrispondono valori di Y maggiori della media e
viceversa
se Cov(X, Y) < 0 vuol dire che mediamente ci sono più termini
negativi e questo implica che mediamente a valori di X maggiori
della media corrispondono valori di Y minori della media e
viceversa
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8, 3, 4, 1) Y = (2, 9, 6, 3)
Le medie sono
X=4 Y =5
Adesso costruiamo la tabella
Xk − X Yk − Y

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)
Le medie sono
X=4 Y =5
Xk − X Yk − Y
8−4 2−5
3−4 9−5
4−4 6−5
1−4 3−5
X = (8, 3, 4, 1) Y = (2, 9, 6, 3)
Le medie sono
X=4 Y =5
Xk − X Yk − Y
4 −3
−1 4
0 1
−3 −2

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)
Le medie sono
X=4 Y =5
Xk − X Yk − Y prodotto
4 −3
−1 4
0 1
−3 −2
X = (8, 3, 4, 1) Y = (2, 9, 6, 3)
Le medie sono
X=4 Y =5
4 −3 −12
−1 4 −4
0 1 0
−3 −2 6

X = (8, 3, 4, 1) Y = (2, 9, 6, 3)
Le medie sono
X=4 Y =5
4 −3 −12
−1 4 −4
0 1 0
−3 −2 6
−10
−10
Cov(X, Y) = = −2.5
4
Il coefficiente di correlazione lineare
A partire dalla covarianza si introduce un nuovo indice chiamato

coefficiente di correlazione lineare è definito come
Cov(X, Y)
ρ(X, Y) =
σX σY
Questo coefficiente indicherà, come vedremo più avanti, con che

bontà una retta approssima il diagramma di dispersione di X e Y.

Retta di regressione lineare
In questa lezione andiamo a determinare uno strumento qualitativo

che ci permetta di individuare quanto due variabili dipendano da un
legge di tipo lineare. Cioè del tipo
Y = mX + q
L’idea è di misurare quale errore si commette nel rappresentare il

diagramma di dispersioni di due variabili con una singola retta.
Retta di regressione lineare
Nella figura 40
30
20
10
5 10 15 20 25 30 35
la retta verde non passa per tutti i punti, ma forse tra tutte le rette è
quella che meglio rappresenta il diagramma di dispersione.
Come facciamo a determinare l’equazione della retta verde in
modo che sia la migliore possibile?
Qual’è l’errore nel rappresentare il legame tra le due variabili
tramite l’equazione della retta verde?

Retta di regressione lineare sulla X
Dati i vettori
X = (X1 , X2 , X3 , X4 ) Y = (Y1 , Y2 , Y3 , Y4 )
tracciamo assieme al diagramma di dispersione una generica retta di
equazione y = mx + q.
5
y = mx + q
3
-1 1 2 3 4
Pk = (Xk , Yk )
3
�
2
(Xk , mXk + q)
1
-1 1 2 3 4
Per ogni punto Pk = (Xk , Yk ) misuriamo la differenza tra l’ordinata del

punto Pk e l’ordinate del punto sulla retta di ascissa Xk . In questo
modo stiamo misurando l’errore che si commette sulle ordinate a
considerare il punto appartenente alla retta.

5
Pk = (Xk , Yk )
3
�
εk
2
(Xk , mXk + q)
1
-1 1 2 3 4
Indicando con εk = Yk − (mXk + q) si ottiene un nuovo vettore
ε = (ε1 , . . . , εN ).
Osservazione
εk > 0 se Pk si trova sopra la retta
εk < 0 se Pk si trova sotto la retta.
Gli errori
ε = (ε1 , . . . , εN )
dipendono dalla scelta delle retta y = mx + q.
Cerchiamo quindi delle condizioni sui coefficienti m e q in modo che gli
errori siano il più possibile contenuti.
Per fare questo utilizziamo i seguenti criteri:
la retta dovrebbe passare il più possibile al centro del diagramma
di dispersione, cioè per un punto che si trova sopra la retta
dovrebbe esserci un altro punto che si trova sotto alla stessa
distanza.
il vettore degli errori dovrebbe essere il meno disperso possibile.
I due criteri sono soddisfati se:
1 la media di ε è zero;
2 la deviazione standard di ε è la minore possibile.

La condizione ε = 0
Dalla definizione di εk = Yk − (mXk + q) segue che
1 N 1 N
ε = ∑ εk = N ∑ [Yk − (mXk + q)]
N k=1 k=1
1 N 1 N 1 N
= ∑ Yk − N ∑ (mXk ) − N ∑ q
N k=1 k=1 k=1
= Y − mX − q
Criterio
La media degli errori è zero se e solo se
Y − mX − q = 0 equivalentemente Y = mX + q
cioè il punto P = (X, Y) appartiene alla retta
La prima condizione ci permette di scrivere la retta cercata nella forma
y − Y = m(x − X)
Questo vuol dire che tutte le rette con media degli errori zero passano
per il punto del piano le cui coordinate sono le medie di X e Y.
P = (X, Y)
2
-1 1 2 3 4
-2

La condizione σε minima
Per individuare univocamente la retta
y − Y = m(x − X)
dobbiamo determinare il coefficiente angolare m.
A questo scopo utilizziamo la seconda condizione, cioè quella che
richiede che la deviazione standard σε degli errori sia la minore
possibile. Osserviamo che la condizione che σε sia minima è
equivalente alla condizione che Var(ε) sia minima.
Dalla definizione di varianza si ha:
1 N 1 N
Var(ε) = ∑
N k=1
(εk − ε) = ∑ (εk )2
2
N k=1
1 N
= ∑
N k=1
(Yk − mXk − q)2
1 N � �2
(q = Y − mX) = ∑ Yk − mXk − Y + mX
N k=1
1 N � �2
Var(ε) = ∑ k
N k=1
Y − mX k − Y + mX
1 N � �2
= ∑ k
N k=1
(Y − Y) − m(Xk − X)
1 N � �
= ∑ (Yk − Y) + m (Xk − X) − 2m(Xk − X)(Yk − Y)
N k=1
2 2 2
1 N 21
N
1 N
= ∑ (Yk − Y) + m N ∑ (Xk − X) − 2m N ∑ (Xk − X)(Yk − Y)
N k=1
2 2
k=1 k=1
= Var(Y) + m2 Var(X) − 2m Cov(X, Y)
= m2 Var(X) − 2m Cov(X, Y) + Var(Y)
= A m2 − 2B m + C
dove abbiamo posto
A = Var(X) B = Cov(X, Y) C = Var(Y)

Quindi
Var(ε) = A m2 − 2B m + C
è una funzione del coefficiente angolare m.
La seconda condizione richiede che Var(ε) sia minima, quindi,
essendo Var(ε) una funzione di m possiamo cercare i minimi di Var(ε)
utilizzando la teoria dei massimi e minimi di una funzione.
La derivata prima e seconda di Var(ε) sono
Var(ε)� = 2A m − 2B; Var(ε)�� = 2A > 0
La derivata prima si annulla quando 2A m − 2B = 0, cioè in
B
m=
A
Siccome la derivata seconda è sempre positiva segue che la funzione
Var(ε) ha un minimo per m = BA .Sostituendo i valori di A e B si ottiene
Cov(X, Y)
m=
Var(X)
Retta di regressione lineare sulla X
In conclusione abbiamo ottenuto la seguente
Proposizione
Una retta soddisfa alle due condizioni
la media di ε è zero,
la deviazione standard di ε è la minore possibile,
se ha equazione
Cov(X, Y)
y−Y = (x − X)
Var(X)

Retta di regressione lineare sulla Y
Torniamo alla definizione degli εk .
Pk = (Xk , Yk )
3
�
εk
2
(Xk , mXk + q)
1
-1 1 2 3 4
Pensiamo adesso di definire gli εk tenendo conto degli errori

orizzontali, cioè
εk
3
-1 1 2 3 4

Con calcoli analoghi a quelli vista prima si ottiene la retta
Var(Y)
y−Y = (x − X)
Cov(X, Y)
In conclusione si ottengono due rette di regressione lineare, una sulla

X ed una sulla Y le cui equazioni sono:
Cov(X,Y)
retta sulla X y − Y = mX (x − X) mX = Var(X)
Var(Y)
retta sulla Y y − Y = mY (x − X) mY = Cov(X,Y)
Rette di regressione lineare

Le due rette di regressione lineare rX e rY passano entrambe per lo
stesso punto P = (X, Y) e formano un angolo α tra di loro.
6
rY
α rX
P = (X, Y)
2
-1 1 2 3 4
-2

Possiamo distinguere i seguenti casi limite

α � 0, in questo caso le due rette coincidono e il diagramma di
dispersione può essere ben rappresentata dall’unica retta di
regressione lineare;
α � π2 , in questo caso le due rette sono ortogonali e il diagramma
di dispersione non può essere rappresentata dalle rette di
regressione lineare.
10
17.5
15
α �0 8 α grande
12.5
10 6
7.5
4
5
2.5
2 4 6 8 10
2 4 6 8 10 12

Analisi dell’angolo α
se α � 0, le due rette coincidono e quindi mX � mY ;

se α � π2 , in questo caso le due rette sono ortogonali ed in più
quella sulla X diviene orizzontale (mX = 0) mentre quella sulla Y
verticale (mY = ∞).
Possiamo quindi considerare la quantità
mX
mY
Dalle formule trovate prima si ha
Cov(X,Y) � �2
mX Var(X) Cov(X, Y)2 Cov(X, Y)
= = = = ρ2
mY Var(Y) Var(X)Var(Y) σX σY
Cov(X,Y)
Il coefficiente di correlazione lineare
Abbiamo quindi dimostrato che il coefficiente di correlazione lineare

soddisfa
mX
= ρ2
mY
da cui segue che
se ρ 2 � 1, allora mX � mY ed in più
se ρ � 1 la retta è crescente
se ρ � −1 la retta è decrescente
se ρ 2 � 0, le due rette sono quasi ortogonali.
In termini di dipendenza lineare delle variabili X e Y si ha
se ρ 2 � 1, le due variabili sono dipendenti da una legge lineare
se ρ � 1 il diagramma di dispersione è crescente
se ρ � −1 il diagramma di dispersione è decrescente
se ρ 2 � 0, le due variabili non sono dipendenti da una legge
lineare.

Stat Web

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Stat Web

Caricato da

Copyright:

Formati disponibili

Statistica Descrittiva

Università degli Studi di Cagliari

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 1 / 136

Un modello matematico di un fenomeno naturale è una

Il modello matematico è un modello concettuale, consistente in un

Il primo passo per utilizzare un modello matematico consiste

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 2 / 136

La statistica descrittiva è un insieme di tecniche per descrivere e

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 3 / 136

Il campione è quindi un sottoinsieme della popolazione.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 4 / 136

Sulle unità statistiche vengono effettuate delle osservazioni o

Generalmente, su un dato campione statistico possiamo fare diverse

le diverse variabili misurate sulla stessa unità statistica.

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 5 / 136

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 6 / 136

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 7 / 136

Rappresentazione di una variabile

Di solito i valori di una variabile misurati su un campione si

dove si è indicato con Xk il valore della variabile X relativo all’unità

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 8 / 136

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 9 / 136

Rappresentazione non strutturata

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 10 / 136

La prima rappresentazione strutturata è quella data dalla

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 11 / 136

Lancio dei due dadi

50 100 150 200 250

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 12 / 136

50 100 150 200 250 300

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 13 / 136

Si consideri il vettore (da ora in poi sarà l’esempio guida)

X = (8, 15, 18, 2, 19, 5, 1, 10, 5, 17, 15, 5, 3, 6, 13,

La rappresentazione di tutti i dati non è sempre molto chiara. Di fatto

Procediamo nel modo seguente:

X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 14 / 136

Nell’esempio l’ampiezza vale 19.

I1 = [0, 5), I2 = [5, 10), I3 = [10, 15), I4 = [15, 20)

Frequenze assolute e relative

�4 Per ciascun sotto intervallo calcoliamo le frequenze assolute e

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 16 / 136

X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 17 / 136

X ∗ = (0, 0, 1, 2, 3, 5, 5, 5, 6, 6, 6, 7, 8, 10, 10,

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 18 / 136

�5 Se la suddivisione dell’ampiezza è omogenea l’istogramma a barre

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 19 / 136

Istogramma a barre - Esempio guida

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 20 / 136

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 21 / 136

Istogramma del peso delle trote

175 225 275 325 375 425

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 22 / 136

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 23 / 136

Istogramma non omogeneo

In certi casi la suddivisione dell’ampiezza di una variabile X non è

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 24 / 136

dividiamo l’ampiezza, pari a 35, nei seguenti sotto intervalli

[0, 10), [10, 30), [30, 35)

Le frequenze assolute, relative e le altezze dei rettangoli sono

S. Montaldo (Univ. Cagliari) Statistica Descrittiva A.A. 2009/2010 25 / 136

Istogramma a barre non omo-