Sei sulla pagina 1di 6

LA DISTRIBUZIONE NORMALE

(Vittorio Colagrande)

Allo scopo di interpolare un istogramma di un carattere statistico X con una funzione continua (di densità), si può far ricorso nell’analisi statistica alla distribuzione normale o distribuzione di Gauss come modello teorico di riferimento. Ciò, in particolare, quando il numero delle classi dell’istogramma è elevato e l’ampiezza di ogni classe piccola. Ad esempio, la figura che segue si riferisce alla distribuzione empirica della statura di 700 maschi di età 13-18 anni; l’istogramma può essere “interpolato” con una curva normale con

media μ = 172.8 cm e varianza

σ

2

= 56.7 cm 2 (deviazione standard σ = 7.53 cm):

Statura di 700 maschi di età 13-18 anni

150 154 158 162 166 170 174 178 182 186 190 194 Densità 0.00 0.01
150
154
158
162
166
170
174
178
182
186
190
194
Densità
0.00
0.01
0.02
0.03
0.04
0.05
0.06

statura

In realtà, la variabilità di alcuni caratteri biologici (peso, statura, pressione arteriosa, glicemia, temperatura corporea,…) dipende dall’apporto di molteplici fattori genetici e ambientali e le loro distribuzioni sono tanto più “vicine” alla distribuzione normale quanto più grande è il numero di fattori che entrano in gioco. La densità di un carattere X distribuito normalmente è individuata dalla funzione:

f

(

x

)

=

1 2 − − (x μ) e 2π ⋅ σ
1
2
− −
(x
μ)
e
σ

2σ

2

2

ed è caratterizzata dai due parametri di media μ e varianza La figura seguente rappresenta la curva di una distribuzione normale con μ =5 e sull’asse orizzontale sono evidenziati i valori di μ + σ = 2.5 , μ = 5 e μ + σ = 7.5 :

σ

.

σ

2

= 6.3 e

i valori di μ + σ = 2.5 , μ = 5 e μ + σ

La curva normale risulta:

1

simmetrica rispetto alla retta parallela all’asse verticale e passante per la media, ovvero, presi due punti qualsiasi sull’asse orizzontale equidistanti dalla mediana (=media), uno a sinistra e l’altro a destra, la funzione di densità assume per essi lo stesso valore;

asintotica rispetto all’asse delle ascisse, cioè per valori sempre più distanti dalla media l’ordinata della curva tende a zero;

crescente nell’intervallo (−∞, μ ) e decrescente nell’intervallo (μ,+∞ ); la crescita è “meno veloce” fino a μ − σ (punto di flesso) e più rapida da tale valore a μ ; si ha un massimo in μ e poi l’andamento è decrescente con ritmo più veloce dal massimo a μ + σ (punto di flesso).

Un significato importante assume l’area “al di sotto” della curva tra i valori X=x 1 e X=x 2 :

Area tra x 1 e x 2 = Frequenza % dei valori di X compresi tra x 1 e x 2 = P(x 1 <X x 2 )

tra x 1 e x 2 = P (x 1 <X ≤ x 2 ) L’area

L’area totale al di sotto della curva è uguale a 1 e si può osservare che:

P(X>x 1 ) = 1 P(X x 1 ) e P(x 1 <X x 2 ) = P(X x 2 ) P(X x 1 ).

La media è il parametro di posizione, nel senso che, al variare del suo valore, la curva non cambia nella forma ma subisce una traslazione rispetto all’asse orizzontale; nella figura sono rappresentate tre distribuzioni di pesi aventi la stessa varianza ma media diversa:

di pesi av enti la stessa varianza ma media diversa: La varianza è il parametro di

La varianza è il parametro di scala: al suo variare cambia la forma della curva di distribuzione. In particolare, per bassi valori di σ , l’area sotto la curva è concentrata intorno alla media, mentre per alti valori di σ , la curva è “schiacciata” rispetto all’asse orizzontale; nella figura sono riportate tre distribuzioni di pesi aventi ugual media, ma varianze diverse:

2

Evidentemente esiste un numero infinito di distribuzioni normali di verse tra loro, ottenute al variare

Evidentemente esiste un numero infinito di distribuzioni normali diverse tra loro, ottenute al variare dei due parametri. Tutte queste distribuzioni diverse possono essere ricondotte ad un unica distribuzione standard: la distribuzione normale standard, avente media μ = 0 e

varianza

σ

2

=1.

All’uopo va considerata la trasformazione (standardizzazione):

Z =

X −μ

σ

,

e Z è la variabile normale standardizzata e ha densità

Graficamente:

f

(

z

) =

1

e standardizzata e ha densità Graficamente: f ( z ) = 1 − z 2 2 .

z

2

2

.

e ha densità Graficamente: f ( z ) = 1 − e z 2 2 .

Per il calcolo delle aree al di sotto della curva normale standardizzata si può far ricorso ad un programma informatico (ad esempio all’ambiente R) o a tavole della distribuzione normale standardizzata (come quella riportata in Appendice). In merito alle aree, un risultato importante è schematizzato nella figura che segue:

3

Esempio 1 . Una popolazione di maschi si distribuisce normalmente secondo la statura (X) con

Esempio 1. Una popolazione di maschi si distribuisce normalmente secondo la statura (X) con media μ = 173 cm e deviazione standard σ =13 cm. Determinare la frequenza relativa degli individui:

1. con statura maggiore di 200 cm;

2. con statura compresa tra 175 e 190 cm;

3. con statura minore di 156 cm.

Per

rispondere

alle

domande

poste

è

necessario

procedere

alla

standardizzazione

dell’altezza e utilizzare la tavola riportata in Appendice.

1. standardizzando x = 200 cm:

z

=

200

13

173

= 2.08

,

si ha:

P(X>200) = P(Z>2.08) = 1 P(Z 2.08) = (ricercando all’interno della tavola nell’incrocio tra la riga del 2.0 e la colonna di 0.08) = 10.9812 = 0.019 = 1.9% 2% di individui;

2. standardizzando 175 e 190 cm:

z 1

=

175

173

13

= 0.15

e

z 2

=

190

13

173

=

1.31

,

si ha:

P(175<X 199)=P(0.15<Z 1.31)=P(Z 1.31)–

tavola

nell’incrocio tra la riga di 1.3 e 0.01 e nell’incrocio tra la riga di 0.1 e 0.05) = 0.9049–0.5596 35% di maschi;

P(Z 0.15)= (valori

interni

alla

4

tra la riga di 0.1 e 0.05) = 0.9049–0.5596 ≅ 35% di maschi; – P (Z
tra la riga di 0.1 e 0.05) = 0.9049–0.5596 ≅ 35% di maschi; – P (Z

3. standardizzando 156 cm:

z

=

156

13

173

=− 1.31

,

risulta:

P(X 156)=P(Z 1.31)= (per la simmetria della curva) = P(Z >1.31) = 1 – P(Z 1.31) = (valore interno alla tavola nell’incrocio tra la riga 1.3 e la colonna 0.01) =1 – 0.9049 10% di individui.

e la colonna 0.01) =1 – 0.9049 ≅ 10% di individui. Sempre in riferimento all’esempio considerato,

Sempre in riferimento all’esempio considerato, ci si può chiedere:

4. qual è la statura massima del 10% degli individui più bassi;

5. qual è la statura minima del 5% degli individui più alti.

Per rispondere alle due domande è necessario partire dai valori interni alla tavola (che sono valori di frequenze relative/probabilità).

4.

5.

risulta

P(Z z 1 )=10%=0.1. Per la simmetria della curva (vedi grafico) risulta che: P(Z z 1 ) =

P(Z>z 2 )=1–P(Z z 2 ).Osservando all’interno

della tabella di Appendice, il valore z 2 di Z al quale corrisponde una probabilità di 0.90 (data da 1–0.1) è pari a 1.28 (riga di 1.2 e colonna di 0.08). Pertanto, sempre per la simmetria, si ha: z 1 =–1.28 e, per la standardizzazione, il valore x 1 della variabile

X corrispondente a z 1 è dato da (x 1

Va

determinato,

anzitutto,

il

valore

z 1

della

variabile

Z

per

il

quale

anzitutto, il valore z 1 della variabile Z per il quale 173)/13= –1.28 ⇒ x 1

173)/13= –1.28 x 1 = 156 cm. Tale valore è proprio la massima altezza del 10% degli individui più bassi.

In questo caso il valore z 1 di z è tale che P(Z>z 1 ) = 5% = 0.05 e va determinato in modo che risulti 1– P(Z z 1 ) = 0.95. Dall’interno della tavola si evince che il valore di Z al quale corrisponde una probabilità del 95% è pari a z 1 = 1.645 (media dei valori di Z corrispondenti al probabilità di 0.9495 e 0.9505). Il valore x 1 dell’altezza di ottiene da:

(x 1 –173)/13= 1.645 x 1 = 194 cm, che rappresenta proprio la statura minima del 5% degli individui più alti nella popolazione presa

in esame.

degli individui più alti nella popolazione presa in esame. Esempio 2. In una data popolazione è

Esempio

2.

In

una

data

popolazione

è

noto

che

l’HDL-colesterolo

si

distribuisce

normalmente con media μ = 57 mg/100ml e deviazione standard σ = 5 mg/100ml.

Determinare la percentuale di soggetti della popolazione con

a) HDL maggiore di 60 mg/100ml,

b) HDL compreso tra 40 e 45 mg/100ml,

c) HDL minore di 58 mg/100ml,

d) HDL tra 55 e 58 mg/100ml.

(risultati: a) 27.43%, b) 0.79%, c) 57.93%, d) 23.47%).

5

APPENDICE

APPENDICE 6
APPENDICE 6

6