Sei sulla pagina 1di 42

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.

-27/02/2004

ELEMENTI DI STATISTICA PER IDROLOGIA

1 Introduzione
Una variabile si dice casuale quando assume valori che dipendono da un numero elevato di cause
sconosciute e/o parzialmente note e che, quindi, non sono prevedibili a priori.
Le grandezze idrologiche possono essere considerate variabili casuali. Ad esempio le portate
massime annuali in un corso d acqua non sono prevedibili e si succedono con variazioni di entit
rilevante e possono quindi apparire come una serie di numeri casuali. Per determinare il possibile
campo di valori che pu assumere una grandezza idrologica si esegue sulla base di dati noti un
analisi statistico-probabilistico al fine di individuare la distribuzione di probabilit che segue per
associare ad ogni valore che pu assumere la grandezza idrologica la frequenza con cui si verifica.
Per tempo di ritorno Tr si intende l intervallo di tempo, per essere pi precisi il numero di anni, in
cui un dato valore di una grandezza idrologica viene mediamente uguagliato o superato una sola
volta. Per evento si intende il verificarsi di un qualsiasi valore della variabile casuale superiore od
inferiore ad un valore prefissato o compreso in un possibile intervallo due valori prestabiliti. Il
verificarsi di un valore della grandezza idrologica uguale o superiore a quello prefissato un evento
con tempo di ritorno Tr pari al numero di anni di osservazione. Il tempo di ritorno quindi
univocamente collegato ad un prefissato valore della grandezza idrologica. Ad esempio se un anno
il valore massimo della portata convogliata dal fiume Po Q = 7000 m3/s e l anno successivo Q =
6000 m3/s, il primo valore corrisponde ad un tempo di ritorno di due anni, ovvero accade ogni due
anni, mentre il secondo corrisponde ad un tempo di ritorno di un anno, ovvero viene uguagliato o
superato ogni anno. Nell esempio sopra riportato la stima del tempo di ritorno associata ad un
evento (verificarsi del valore della grandezza idrologica) basata su una finestra di osservazione di
due anni. Prendendo in considerazione una finestra di osservazione di pi anni, i tempi di ritorno
associati ai valori considerati possono cambiare. Data una qualsiasi variabile casuale si definisce
popolazione l insieme di tutti i valori che la variabile casuale pu assumere. Si definisce campione
di dimensione N, un insieme di N valori estratto dalla popolazione della variabile casuale. Ad
esempio i valori di precipitazione massima annuale registrati da un pluviometro per la durata di un
ora per il periodo 1970-2000 costituiscono un campione della popolazione della variabile casuale
precipitazione massima annuale per la durata di un ora nella localit in cui stata registrata.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004

2 Analisi statistica preliminare del campione e funzioni di frequenza


L analisi statistica preliminare del campione si esegue per descrivere l andamento dei valori del
campione. Si ordinano gli N valori della variabile casuale che costituiscono il campione in senso
crescente o decrescente. Il campione viene quindi suddiviso in classi che comprendono pi di un
elemento. Il numero di classi k stabilito mediante la relazione di Snedecor:

k = 1 + 1.33 ln N

(1)

Il valore di k ottenuto tramite la relazione (1) deve essere arrotondato ad un numero intero: con N =
20, k = 4.98, si assume k = 5, con N = 50, k = 6.2, si assume k = 6. Si determinano quindi gli
estremi delle classi in cui si vuole suddividere il campione. L estremo inferiore della prima classe
x1 un valore della variabile casuale minore del valore minimo del campione mentre l estremo
superiore dell ultima classe xN un valore della variabile casuale maggiore od uguale al valore
massimo del campione. Fissati gli estremi inferiore e superiore della prima ed ultima classe si
stabiliscono gli estremi delle rimanenti classi dividendo l intervallo tra i due estremi in parti uguali
o diseguali. Gli elementi del campione facenti parte di una classe di estremi xi ed xi+1 (xi < xi+1)
sono quelli per cui il loro valore x compreso tra gli estremi della classe che viene considerata
chiusa a destra:
xi < x

xi+1

Il numero di elementi di un campione fAi contenuti in una classe denominato frequenza assoluta di
classe. Si definisce frequenza relativa fRi il rapporto fra la frequenza assoluta di classe e la
dimensione del campione: fRi = fAi/N. La frequenza relativa di classe indica la percentuale di
elementi del campione compresi in quella classe, ovvero la frequenza con cui si presenta un
qualsiasi elemento contenuto in quella classe. Si introduce il rapporto gi = fAi/(N (xi+1 xi)),
denominato densit di frequenza relativa che rapporta la frequenza relativa fAi/N all ampiezza della
classe (xi+1 xi). La rappresentazione grafica della densit di frequenza relativa l istogramma di
frequenza relativa costituito da un insieme di rettangoli aventi per base l ampiezza di classe xi+1
xi e per altezza la densit di frequenza relativa gi (fig. 1).
La densit di frequenza relativa indica come distribuita la frequenza relativa in funzione dei valori
del campione. Ad esempio se un campione composto di 9 elementi divisi in due classi la cui
ampiezza l una il doppio dell altra e con un corrispondente numero di elementi l uno il doppio

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004

dell altro la densit di frequenza relativa uguale per ogni classe, ovvero il campione distribuito
uniformemente e qualsiasi elemento del campione si presenta con la stessa frequenza (fig. 2a).

x1 x2 x3 x4 x5 x6

Figura 1. Istogramma di frequenza relativa.

Se invece il numero di elementi del campione in classi di ampiezza l una il doppio dell altra l
uno la met dell altro la distribuzione non uniforme la densit di frequenza con cui si
presentano gli elementi appartenenti alla classe di ampiezza maggiore di quella con cui si
presentano gli elementi appartenenti alla classe di ampiezza minore (fig. 2b). L istogramma di
frequenza relativa permette di visualizzare la distribuzione di frequenza relativa per tutti i valori
degli elementi del campione. La somma delle aree delle barre costituenti l istogramma 1 perch
rappresenta la frequenza con cui si presenta l insieme di tutti gli elementi del campione.

a)

0.3

b)

0.3

0.2

0.2

0.1
1

0.1

6
5

6
3

Fig. 2. Istogrammi di frequenza relativa con 6 elementi nella prima classe e 3 elementi nella
seconda (a) e con 3 elementi nella prima classe e 6 elementi nella seconda (b).

Si definisce frequenza cumulata di non superamento Fa il numero di elementi del campione che
hanno un valore minore od uguale ad uno prefissato: x

xprefissato. Se si scelgono come valori

prefissati gli estremi superiori di ogni classe la frequenza cumulata di non superamento coincide
con la somma progressiva delle frequenze assolute di classe fai:

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004

Fa (x

xi+1) =
j=1

f aj

(2)

Nel caso si scelgano come valori prefissati gli elementi stessi del campione la frequenza cumulata
di non superamento il numero di ordine in senso crescente dell elemento:

Fa (x

x i) = i

(3)

con
1

Fa

Si definisce frequenza cumulata relativa di non superamento F, la frequenza cumulata di non


superamento divisa per la dimensione N del campione (numero di elementi dello stesso). In questo
caso:
F(x

xi ) =

1/N

i
N

(4)

con
1

La frequenza cumulata di non superamento rappresentata graficamente dalla curva spezzata di


cumulata di non superamento (fig. 4).
La frequenza relativa e la densit di frequenza relativa insieme alle frequenza cumulata di
superamento/non superamento sono funzioni di frequenza, ovvero indicano la frequenza con cui si
presentano uno od un insieme di elementi del campione. Il tempo di ritorno di un elemento del
campione per la definizione al paragrafo precedente :

Tr (x = x i ) =

1
F(x

xi )

1
1 - F(x < x i )

(6)

Ad esempio considerando un campione di dieci valori di portata massima annuale in un corso d


acqua posto in ordine crescente (Qi i =1,10; Qi < Qi+1) l elemento Q9 viene uguagliato o superato
due volte in dieci anni e per cui si verifica mediamente una volta ogni cinque anni ed ha quindi un
tempo di ritorno pari a 5 anni. La frequenza cumulata relativa di superamento 2/10 = 1/5 che il
valore inverso del tempo di ritorno.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004


Secondo la relazione (4) vale F(x

xN) = N/N = 1, il che significa associare al valore massimo del

campione xN una frequenza cumulata relativa di non superamento pari ad uno, ovvero, tutti i valori
del campione sono minori od uguali di xN, il che esteso alla popolazione da cui il campione
estratto significa che tutti gli elementi della popolazione devono essere minori od uguali di xN che
pu non essere vero. Per ovviare a questo inconveniente la frequenza cumulata di non superamento
viene stimata mediante la formula di plotting position di Weibull:

F(x

xi ) =

i
N +1

(5)

per cui al valore massimo del campione viene associata una frequenza cumulata relativa di non
superamento leggermente inferiore ad uno (N/(N+1)).
Nella tabella I, in prima colonna, sono presentate le precipitazioni massime annuali corrispondenti
alla durata 1h misurate dalla stazione pluviometrica di San Martino di Castrozza (TN) negli anni
1952-1990 che vengono ordinate in senso crescente in seconda colonna. In terza colonna sono poste
le corrispondenti frequenze cumulate relative di non superamento ed in quarta colonna il
corrispondente tempo di ritorno relativo alla finestra di osservazione di 32 anni, uno in pi della
reale finestra di osservazione per tener conto dell utilizzo della formula di plotting position:

Tr =

1
i
1
N +1

N +1
N +1- i

(7)

Tabella 1. Precipitazione massime annuali (x) di durata 1 ora registrati dalla stazione pluviometrica
di San Martino di Castrozza (Tn) e le corrispondenti funzioni di frequenza ed il tempo di ritorno
associato.
Anno
1952
1953
1954
1955
1956
1957
1958
1959
1960
1962
1963

x (mm)
25.8
15.4
12.2
19.8
10.6
8.8
-

i
1
2
3
4
5
6
7
8
9
10
11

xi (mm)
7.2
7.8
8.0
8.8
9.2
10.2
10.6
11.0
11.4
11.8
12.2

F(x xi)
0.031
0.063
0.094
0.125
0.156
0.188
0.219
0.25
0.281
0.313
0.344

Tr
1.03
1.07
1.1
1.14
1.19
1.23
1.28
1.33
1.39
1.45
1.52

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004


1963
1964
1965
1966
1967
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990

13.2
11.4
11.0
15.6
16.0
7.2
15.0
9.2
12.8
29.4
7.8
15.0
26.2
13.6
19.8
16.0
10.2
11.8
18.0
13.4
8.0
16.0
16.8
13.6
18.8

12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

12.8
13.2
13.4
13.6
13.6
15.0
15.0
15.4
15.6
16.0
16.0
16.0
16.8
18.0
18.8
19.8
19.8
25.8
26.2
29.4

0.375
0.406
0.438
0.469
0.5
0.531
0.563
0.594
0.625
0.656
0.688
0.719
0.75
0.781
0.813
0.844
0.875
0.906
0.938
0.969

1.6
1.68
1.78
1.88
2.0
2.13
2.29
2.46
2.67
2.91
3.2
3.56
4.0
4.58
5.33
6.4
8.0
10.67
16.0
32.0

Gli anni in cui non si hanno dati (ad esempio il 1953) non sono considerati e nel caso che in anni
differenti sia registrato lo stesso valore di precipitazione, questi, viene considerato per ogni anno in
cui compare come un valore a se stante e quindi nella tabella nella colonna xj si possono avere
valori uguali e consecutivi ma caratterizzati da una frequenza diversa proprio perch considerati
indipendenti l uno dall altro.
Nelle figure 3 e 4 sono illustrati l istogramma di frequenza relativa e la spezzata di cumulata
relativa di non superamento del campione in tabella I.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004

g
0.1

0.05

0
0

10

15

20

25

30

Figura 3. Istogramma di frequenza relativa del campione in tabella 1.

0.8
0.6
0.4
0.2
0
0

10

15

20

25

30

Figura 4. Spezzata di frequenza cumulata relativadi non superamento per il campione in tabella 1.

3 Concetto di probabilit e di probabilit cumulata di non superamento


La densit di probabilit p(x) associata ad un dato valore x della popolazione della variabile casuale
esprime la frequenza con cui il valore x si pu presentare.
La probabilit cumulata di non superamento P(x

X) esprime la frequenza con cui si presenta un

valore x della variabile casuale minore od uguale del prefissato X. La probabilit cumulata di
superamento P(x

X) esprime la frequenza con cui si presenta un valore x della variabile casuale

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004

maggiore od uguale del prefissato X. La probabilit cumulata di non superamento e la probabilit


cumulata di superamento sono complementari rispetto ad 1 perch qualsiasi valore generico x della
variabile casuale sicuramente o maggiore o minore od uguale a X e quindi si presenta sempre e la
sua frequenza l unit. Vale:
P(x

X) + P(x > X) = 1

Ambedue la probabilit cumulata di non superamento e di superamento sono comprese tra 0 ed 1.


In base alla definizione della probabilit cumulata di superamento il tempo di ritorno linverso
della probabilit cumulata di superamento ed tale che:

Tr =

1
P(x

X)

1
1 - P(x < X)

(8)

4 Curva densit di probabilit e curva probabilit cumulata di non superamento


L istogramma di frequenza relativa costruito con un campione di N elementi estratto da una
popolazione di una variabile casuale. Se si aumenta la dimensione N del campione, aumenta il
numero di classi k (eq. 1) e diminuisce lampiezza delle stesse per cui si ottiene un istogramma
meglio definito nella forma (fig. 5). Se la dimensione N del campione tende ad infinito, ovvero
estendendo il campione all intera popolazione, il numero di classi tende all infinito, l ampiezza
delle stesse a zero. La densit di frequenza relativa diviene, quindi, rappresentativa di un solo valore
x della variabile casuale e non pi ad un intervallo di valori e viene chiamata densit di probabilit
ed indicata con p(x) mentre l istogramma di frequenza relativa diventa una curva continua
chiamata curva densit di probabilit (fig. 6).
La densit di probabilit p(x) esprime la frequenza con cui si presenta il valore x della variabile
casuale cui si riferisce ed il prodotto p(x) dx , area sottesa dalla curva densit di probabilit tra i
valori x dx/2 e x + dx/2, esprime la frequenza con cui si presenta un valore della variabile
compreso tra x dx/2 e x + dx/2 (analogamente allistogramma). L area sottesa dalla curva p(x)
per x1

x2, e tratteggiata in figura 6 esprime la frequenza con cui si presenta un valore di x

compreso nel precedente intervallo.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004

g
0.1

0.05

0
5

10

15

20

25

30

35

Figura 5. Istogramma di frequenza relativa per un campione di dimensione N = 250

L area sottesa dalla curva densit di probabilit vale 1 perch rappresenta la frequenza con cui si
presenta un qualsiasi possibile valore x della variabile casuale che un evento certo:
p(x) dx = 1

(9)

p(x)
0.4

0.3

0.2

0.1

10

15

20 X1 25 X2 30

35

40 x

Figura 6. Curva densit di probabilit (distribuzione doppio esponenziale) con area sottesa per x1
x x2.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 10


Analogamente la spezzata di cumulata di non superamento, estendendo il campione alla
popolazione, diviene una curva continua e la frequenza cumulata relativa di non superamento F(x
X) diviene la probabilit cumulata di non superamento P(x

X) (fig. 7).

Il valore della probabilit cumulata di non superamento sempre minore od uguale ad 1, come
spiegato nel paragrafo precedente. L area sottesa dalla curva densit di probabilit compresa tra il
valore minimo che pu assumere la nostra variabile casuale ed il valore X (fig. 8) la probabilit
cumulata di non superamento:

P(x

X) =

(10)

p(x) dx
0

p(x)
0.4

0.3

0.2

0.1

0
0

10

15

20

25

30

35

40

Figura 7. Curva di probabilit cumulata di non superamento (distribuzione doppio esponenziale).

P(x X)
1
0.8
0.6
0.4
0.2
0
0

Figura 8. Area sottesa per x


esponenziale)

10

15

20

25

30

35

40

X dalla curva densit di probabilit (distribuzione doppio

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 11


L estremo inferiore di integrazione x = 0 perch le variabili casuali considerate sono le grandezze
idrologiche (precipitazioni, portate etc etc) caratterizzate da valori positivi altrimenti l estremo
minore di integrazione x = - . Essendo la derivata di un integrale la funzione integranda vale:

dP(x X)
dx

p(x) =

(11)

Se la variabile casuale x funzione della variabile casuale y, y = f(x), per cui Y = f(X) vale:
P(x

X) = P(y

Y)

(12)

e quindi:
p(y) =

dP(y Y) dP(x X) dx
dx
=
= p(x)
dy
dx
dy
dy

p(y) dy = p(x) dx

(13)

(14)

5 Parametri
I parametri sono entit che descrivono quantitativamente alcune caratteristiche della distribuzione
dei valori di un campione o di una popolazione della variabile casuale generica x. I parametri si
dividono in parametri di tendenza centrale che quantificano i valori verso cui si accentrano i valori
del campione/popolazione e di dispersione che quantificano la dispersione dei valori del
campione/popolazione rispetto ai primi. Appartiene ai parametri di tendenza centrale il valor medio
(o media) dei valori del campione/popolazione.
Il valor medio dei valori di un campione di dimensione N estratto dalla popolazione della variabile
casuale x :
N

x=

i =1

xi

(15)

La densit di probabilit p(x) rappresenta la frequenza probabile con cui si presenta il generico
valore x rispetto a tutti gli altri valori della variabile casuale. Il prodotto x p(x) rappresenta quindi il
valore mediato del generico valore x rispetto a tutti gli altri valori della popolazione. Il valore
medio dei valori che costituiscono la popolazione della variabile casuale la somma di tutti i valori
mediati:

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 12

X = x p(x) dx

(16)

Se la variabile casuale y = a x + b funzione lineare e crescente della variabile casuale x, tenendo


conto della relazione (14), si ha:
Y = y p(y) dy = (a x + b) p(x) dx = a x p(x) dx + b p(x) dx = a X + b
0

(17)

Appartengono ai parametri di dispersione, la deviazione standard, lo scarto quadratico medio e la


varianza. Si definisce scarto la quantit xi - x differenza tra un valore del campione ed il suo valore
medio. La somma degli scarti per gli N elementi del campione nulla per definizione di valore
medio (eq. 15):

N
i =1

(x i

x) =

N
i =1

Nx =Nx

xi

N x = 0 . La somma del quadrato degli scarti

non nulla perch vengono sommate quantit positive. La stessa propriet vale per la popolazione.
Si definisce deviazione standard per un campione di N valori estratto da una popolazione di una
variabile casuale la seguente:
N
i =1

sX =

(x i

x) 2
(18)

Per la popolazione, il quadrato dello uno scarto viene mediato sulla popolazione tramite la densit
di probabilit, e la deviazione standard assume la seguente espressione:

(x - X ) 2 p(x) dx

(19)

Si definisce varianza il quadrato della deviazione standard. Per il campione la varianza la media
del quadrato degli scarti:
N

sX2 =

i =1

(x i
N

x) 2

(20)

Per la popolazione la varianza il valore del quadrato dello scarto rispetto al valor medio mediato
sull intera popolazione:

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 13

2
X

= (x - X ) 2 p(x) dx

(21)

Definito il valore atteso, il valore medio di una qualunque serie di valori o quantit generiche, il
valor medio si suddivide la popolazione di una variabile casuale in campioni. Il valore atteso del
valor medio dei singoli campioni estratti dalla popolazione risulta uguale al valor medio della
popolazione:
E( x ) = X

Il valore atteso della varianza dei singoli campioni non per uguale alla varianza della
popolazione:
2
X

E(sX2)

per cui la deviazione standard, per il campione, viene corretta, mediando il quadrato degli scarti su
N-1 valori, invece che con N valori:
N

sXC =

i =1

x) 2

(x i

(22)

N -1

Analogamente la varianza del campione viene sostituita con la varianza corretta:

sXC2 =

i =1

x) 2

(x i
N -1

(23)

per cui
E(sXC2) =

2
X

Le quantit deviazione standard e varianza indicano la dispersione dei valori del


campione/popolazione intorno al valor medio degli stessi. Valori elevati di questi parametri
significano grande dispersione dei valori del campione/popolazione, ovvero la maggior parte dei
valori del campione/popolazione sono lontani dal valor medio mentre bassi valori di questi
parametri indicano che la maggior parte dei valori del campione/popolazione sono vicini al valor
medio. La deviazione standard non corretta anche denominata scarto quadratico medio.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 14


Nella figura 9 sono illustrati i grafici delle funzioni di frequenza per il campione e le corrispondenti
per la popolazione.
Nella tabella seguente si illustrano le grandezze ed i parametri che descrivono il campione e le
corrispondenti grandezze e parametri della popolazione.

Tabella 2. Rappresentazione di parametri e frequenze per il campione e la popolazione

Campione

Popolazione

frequenza relativa di classe gi

Densit di probabilit p(x)

Frequenza relativa

Frequenza relativa attesa p(x) dx

fai /(xi+1 - xi)

Frequenza relativa cumulata di non superamento Probabilit


F(x

X)

P(x

cumulata

di

non

superamento

X)

gi (xi+1 xi) = 1

p(x) dx = 1
0

Valor medio

x=

i =1

xi

Valor medio

N
N

Deviazione standard

sXC =

i =1

(x i

x) 2

sXC2 =

Deviazione standard

(x - X ) 2 p(x) dx

=
0

N -1
N

Varianza

X = x p(x) dx

i =1

(x i

x) 2

Varianza

2
X

= (x - X ) 2 p(x) dx
0

N -1

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 15

p(x)

g
0.1

0.1

0.05

0.05

10 15

20 25 30 x

10 15

20 25 30 35 40 x

10 15

x2
20 25 30 35 40 x

P(x X)
1

1
0.8
0.6
0.4
0.2
0

10 15

0.8
0.6
0.4
0.2
0

x1 x2
20 25 30 x

Figura 9. Funzioni di frequenza per il campione e le corrispondenti per la popolazione.

6 Distribuzioni di probabilit
Le espressioni della densit di probabilit p(x) e della probabilit cumulata di non superamento P(X
x) sono anche indicate con il termine distribuzioni di probabilit perch rappresentano la
distribuzione delle funzioni di frequenza per tutti i valori della popolazione della variabile casuale.
Le distribuzioni di probabilit sono, in genere, funzioni della variabile casuale x e dei parametri
valor medio e varianza o funzioni di questi parametri.

7 Distribuzione doppio esponenziale o di Gumbel


La distribuzione doppio esponenziale, nota anche come distribuzione di Gumbel o dei valori estremi
di tipo 1, segue la seguente legge:
x u
P(x

essendo

X) = e e

(24)

ed u due costanti che cambiano da popolazione a popolazione. Si introduce la variabile

ridotta y:
y=

x u

(25)

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 16


e l eq. 24 diventa:
y
Y) = e e

P(y

(26)

che di pi semplice utilizzo. La densit di probabilit p(y) :

y
dP(y Y)
= e- y e e
dy

p(y) =

(27)

Il valore medio della popolazione della variabile casuale y che segue la distribuzione di probabilit
secondo la relazione (27) :
y =

y
ye y e e dy = 0.5772

L integrale ha come estremo di integrazione minore -

(28)

invece che 0 perch la variabile casuale y

pu assumere valori negativi in corrispondenza di valori positivi della variabile casuale x.


La varianza della distribuzione di probabilit della variabile casuale y :

2
Y

(y - Y ) p(y) dy = (y - 0.5772) p(y) dy =


2

=
-

Essendo y funzione lineare di x secondo le costanti parametriche u ed

y =
2
Y

x - u x
-

(y - Y ) p(y) dy =
2

=
-

(29)

si ha (equazione 17):

(30)

p(x) dx =

p(x) dx =

2
x
2

(31)

Combinando l eq. (29) con l eq. (31) si ha:


=

che sostituita insieme alla (28) nella (30) porge:

2
x

(32)

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 17

u = x

0.5772

2
x

(33)

Le equazioni (32) e (33) esprimono i parametri della distribuzione doppio esponenziale in funzione
del valor medio e della varianza della popolazione che segue quella distribuzione.
Si introduce una propriet della distribuzione doppio esponenziale tramite l utilizzo del legame tra
tempo di ritorno Tr e probabilit cumulata di non superamento. Tramite l eq. (26) si ottiene:
ln (P( y

Y)) = - e

ln( ln(P(y

Y) )) = y

y = ln( ln(P(y

Y) ))

(34)

Dall eq. (8) si ottiene:


Y) =

1 - P(y
P(y

Y) = 1 -

1
Tr

1 Tr - 1
=
Tr
Tr

(35)

che sostituita a secondo membro dell eq. (35) permette:

y = ln ln

Tr
Tr - 1

(36)

sostituendo nella relazione (36) l espressione che la lega la variabile casuale y alla variabile casuale
x si ottiene:
x-u

= ln ln

Tr
Tr - 1

x=

ln ln

Tr
Tr - 1

e quindi
+u

(37)

Noto il valore del tempo di ritorno Tr, il corrispondente valore della variabile casuale x viene
calcolato tramite l eq. (37), mentre, noto il valore della variabile casuale x, il corrispondente valore
del tempo di ritorno si ottiene tramite l eq. (8) dopo aver calcolato il valore della variabile ridotta

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 18


tramite l eq. (25) e della corrispondente probabilit cumulata di non superamento P(y
l eq. (26) tenendo conto che P(x

X) = P(y

Y) tramite

Y).

8 Distribuzione lognormale
La distribuzione di probabilit lognormale la distribuzione di una variabile casuale continua x tale
che la variabile casuale y = ln x segue la distribuzione di probabilit normale di Gauss:

p(y) =

1 y y
2
y

(38)

essendo y funzione di x vale la relazione (14) per cui:

p(x) = p(y) dy/dx


e

p(x) =

I parametri della distribuzione sono Y e

1
2

yx

1 ln x y
2
y

(39)

che sono legati ai parametri della popolazione della

variabile casuale x dalle seguenti relazioni ottenute introducendo la variabile ridotta:

z=

y y

(40)

y
per cui:
dy
= p(y)
p(z) = p(y)
dz

x = x p(x) dx =
0

x p(y) dy =

e y p(y) dy =

z2
2

z y +y
p(z) dz

(41)

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 19

x =

- 0.5 z 2 + z

+y

dz = e

x = e

y +

y +

2
y /2

(42)

2
y /2

(43)

da cui:
2
y
2

y = ln x

2
X

(x

= (x - x ) 2 p(x) dx =
-

- 2 x x + 2x p(x) dx =

(44)

x 2 p(x) dx - 2 x x p(x) dx + 2x
0

p(x) dx
0

introducendo la variabile y si ottiene:


2
X

e 2y p(y) dy - 2 2x + 2x
-

e quindi la variabile z:

2
X

2 z y + y

p(z) dz -

2x

2 - 0.5 z 2 + z y + y

dz - 2x

sostituendo la 40 e la 41 si ottiene:

2 y +

2
y

2 =e
x

2 y +
e

2
y

=e

(2

2
y

)e

2
y

1 = 2x e

2
y

da cui:
e

2
y

I parametri y e

2
y

= ln

sono legati ai parametri xe

2
= x +1
2x

2
x
2
x

+1

(45)

della popolazione tramite le relazioni (44) e (45).

Si introduce una propriet della distribuzione lognormale. La variabile ridotta z segue la legge di

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 20


distribuzione data dalla relazione (41) e fissato Z rimane fissata la probabilit cumulata di non
superamento:
Z

P(z

I valori di P(z

z2
2 dz

(46)

Z) secondo la (46) sono tabulati in funzione di z. Se noto il valore di z anche

noto il valore di P(z


ottiene P(z

Z) =

Z) e quindi il tempo di ritorno Tr = 1/(1 P(z

Z)). Se, invece, noto Tr, si

Z) = (Tr-1)/Tr e tramite i valori tabulati si stima il corrispondente valore di z.

Conoscendo i parametri della distribuzione tramite la (40) ed essendo y = ln x dal valore z si ottiene
il corrispondente valore della variabile casuale x e viceversa.

9 Carta probabilistica
La carta probabilistica un diagramma con in ascissa il valore della variabile casuale ed in ordinata
il corrispondente valore della probabilit cumulata di non superamento. Poich quest ultima
legata al tempo di ritorno Tr (eq. (8)) presente un secondo asse delle ordinate con il tempo di
ritorno.
Il procedimento di associare ad un qualunque valore della variabile casuale x, il corrispondente
della probabilit cumulata di non superamento si realizza tramite la variabile ridotta che diventa il
terzo asse delle ordinate della carta probabilistica.
Per la distribuzione doppio esponenziale la relazione tra variabile casuale x e variabile ridotta y
(eq. 25):
y=

x u

mentre quello tra la variabile ridotta y e la probabilit cumulata di non superamento (eq. (34)) :
y = ln( ln(P(y

Y) ))

Poich la variabile y funzione della probabilit cumulata di non superamento, la retta y = (x u)/
individua la popolazione dei valori della variabile casuale x che segue la distribuzione doppio
esponenziale di parametri u ed

(fig. 10). Nella figura 11 illustrata la carta probabilistica della

distribuzione doppio esponenziale in cui in ascissa in scala decimale posta la variabile x ed in

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 21


ordinata in scala decimale ce la variabile ridotta y ed in scala dipendente dal legame y = f(P) e/o y
= f(Tr) ci sono la probabilit cumulata di non superamento P(y

Y) ed il tempo di ritorno Tr.

Figura 10. Rappresentazione di una popolazione di valori tramite una retta nella carta probabilistica
della distribuzione doppio esponenziale.

Figura 11. Carta probabilistica della distribuzione doppio esponenziale.


Per la distribuzione lognormale la relazione tra il logaritmo della variabile casuale x, y = ln x, e
variabile ridotta z (eq. 40):

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 22

z=

y y
y

Poich la variabile ridotta z segue la distribuzione normale di Gauss possibile stabilire noto un
valore z della stessa il corrispondente valore della probabilit cumulata di non superamento P(z

Z)

tramite la tabella 3.
La retta z = (y y)/

individua la popolazione dei valori del logaritmo della variabile casuale x

che segue la distribuzione lognormale di parametri y ed

(fig. 12). Nella figura 13 illustrata la

carta probabilistica della distribuzione lognormale in cui in ascissa in scala logaritmica ce la


variabile x ed in ordinata in scala decimale ce la variabile ridotta z ed in scala dipendente dalla
distribuzione normale di Gauss la probabilit cumulata di non superamento P(z

Z).

Figura 12. Rappresentazione di una popolazione di valori tramite una retta nella carta probabilistica
della distribuzione lognormale
I valori in tabella 3 esprimono la probabilit secondo la distribuzione normale di Gauss che si abbia
0

Z. Nel caso Z = 0.71, questa probabilit 0.2612 (area tratteggiata in figura 14). La

distribuzione di densit di probabilit normale di Gauss simmetrica rispetto all origine. Per
calcolare la probabilit cumulata di non superamento, per il caso di Z positivo al valore in tabella
deve essere aggiunto la quantit 0.5 pari a all area sottostante la curva densit di probabilit per i
valori negativi di Z (fig. 14). Per esempio la probabilit cumulata di non superamento per Z = 0.71
P(0.71) = 0.5 + 0.2612 = 0.7612. Nel caso di valori negativi di z la probabilit cumulata di non
superamento il complementare a 0.5 del valore in tabella 3 (fig. 14). Per esempio la probabilit
cumulata di non superamento per Z = -0.71 P(-0.71) = 0.5 - 0.2612 = -0.2388

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 23

Figura 13. Carta probabilistica della distribuzione lognormale.

Tabella 3. Valori della probabilit secondo la distribuzione normale di Gauss per 0


Z

0.0

0.0

0.004

0.008

0.012

0.016

Z.
9

0.0199 0.0239 0.0279 0.0319 0.0359

0.1

0.0399 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0754

0.2

0.0793 0.0832 0.0871

0.3

0.1179 0.l217

0.4

0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879

0.5

0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224

0.6

0.2253 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2518 0.2549

0.7

0.2580 0.2612 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852

0.8

0.2881 0.2910 0.2939 0.2967 0.2996 0.3023 0.3051 0.3078 0.3106 0.3133

0.9

0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315

1.0

0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3534 0.3577 0.3599 0.3621

1.1

0.3463 0.3665 0.3686 0.3708 0.33729 0.3749 0.3770 0.3790 0.3810 0.3830

1.2

0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015

1.3

0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177

1.4

0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319

1.5

0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441

1.6

0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545

0.091

0.0948 0.0987 0.1026 0.1064 0.1103 0.1141

0.1255 0.1293 0.1331 0.1368 0.1406 0.1443

0.334

0.148

0.1517

0.3365 0.3389

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 24


1.7

0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633

1.8

0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706

1.9

0.4713 0.4719 0.4726 0.4732 0.4738 0.4744

2.0

0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817

2.1

0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857

2.2

0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890

2.3

0.4893 0.4896 0.4998 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916

2.4

0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936

2.5

0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952

2.6

0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964

2.7

0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974

2.8

0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981

2.9

0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4986 0.4986 0.4986

3.0

0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989

3.1

0.499

3.2

0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995

3.3

0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997

3.4

0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998

3.5

0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998

3.6

0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998

3.7

0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999

3.8

0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999

3.9

0.5

0.475

0.4756 0.4761 0.4767

0.499

0.499

0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993

0.5

0.5

0.5

0.5

0.5

0.5

0.5

0.5

Figura 14. Curva densit di probabilit della distribuzione normale di Gauss.

0.5

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 25

10 Adattamento di una distribuzione di probabilit ad un campione:


interferenza statistica
L obbiettivo dell analisi statistico-probabilistico quella di individuare la distribuzione di
probabilit della variabile casuale considerata che permette di associare ad ogni valore della
variabile casuale la sua frequenza probabile, ovvero il suo tempo di ritorno.
Ipotizzata una possibile distribuzione di probabilit seguita dalla popolazione le incognite da
determinare per stimare la frequenza corrispondente ad ogni singolo valore della variabile casuale
sono i parametri della distribuzione stessa.
Una qualsiasi retta sulla carta probabilistica individua una popolazione che segue la distribuzione di
probabilit con parametri individuati tramite il coefficiente angolare e l intercetta sull asse delle
ordinate. I parametri della distribuzione vengono stimati ricercando la retta che permette il miglior
allineamento possibile dei valori del campione riportati sulla carta probabilistica. I valori del
campione sono riportati sulla carta probabilistica approssimando la probabilit cumulata di non
superamento con la frequenza cumulata di non superamento stimata mediante una formula di
plotting position. Questa assunzione tanto pi vera quanto pi grande la dimensione del
campione N. Si consideri una variabile casuale x, distribuita con probabilit P(x) e si estragga dalla
sua popolazione un campione di valori. La differenza tra la frequenza cumulata di non superamento
e la probabilit cumulata di non superamento di ogni singolo valore tende a zero all aumentare di
N. Questa affermazione non si pu dimostrare e costituisce un postulato che viene accettato dall
esperienza: al crescere del numero di osservazioni la frequenza cumulata di non superamento
associata ad un evento converge alla probabilit cumulata di non superamento.
Affinch tale procedura di stima abbia un significato statistico il campione deve essere
sufficientemente rappresentativo della popolazione, ovvero questi deve avere una dimensione N
superiore od uguale a 30. In caso contrario la media e la varianza del campione possono differire
sensibilmente dai corrispondenti valori della popolazione ed l adattamento della distribuzione di
probabilit al campione non assicurato.La ricerca della miglior retta possibile viene eseguita
tramite il metodo dei momenti, il metodo dei minimi quadrati ed il metodo di Gumbel.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 26

11 Metodo dei momenti


Il metodo dei momenti consiste nello stimare i parametri della distribuzione di probabilit tramite il
valor medio e la varianza del campione. La retta di miglior allineamento quindi individuata dai
parametri del campione. Si attribuiscono alla popolazione il valor medio e la varianza del campione:
X = x
2
X

= sXC2

Per la distribuzione doppio esponenziale le relazioni che legano i parametri

ed u alla media ed

alla varianza della popolazione (eq. 32 e 33) diventano:

6 s 2XC

u = x 0.5772

(47)
6 s 2XC

(48)

Le espressioni (47) e (48), sostituite nell eq. (25), permettono di individuare la retta di miglior
allineamento secondo il presente criterio:

y=

x u

x x + 0.5772
6 s 2XC

6 s 2XC
(49)

Sulla carta probabilistica si riportano i valori del campione e la retta secondo l eq. (49). Il disegno
della retta permette una stima visiva e soggettiva per la verifica del miglior all allineamento dei
punti del campione.
Tramite la retta possibile determinare un valore della variabile casuale x per un assegnato tempo
di ritorno Tr e viceversa (fig. 15). L utilizzo della retta esemplifica le operazioni analitiche per
determinare le coppie di valori (x,Tr), l uno in funzione dell altro, tramite l eq. (37) o tramite le
eq. (25), (26) e (35).
In tabella 4 si riportano i valori del campione in tabella 1 insieme al quadrato dello scarto (xi - x )
corrispondente ad ogni valore.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 27

Figura 15. Utilizzo della retta che rappresenta la popolazione per determinare il valore della
variabile x corrispondente ad un fissato tempo di ritorno Tr.

Tabella 4. Valori del campione ed i corrispondenti quadrati degli scarti dal valor medio.
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

xi (mm)
7.2
7.8
8.0
8.8
9.2
10.2
10.6
11.0
11.4
11.8
12.2
12.8
13.2
13.4
13.6

(xi- x )2
57.5640
48.8195
46.0647
35.8453
31.2157
21.0415
17.5318
14.3421
11.4724
8.9227
6.6931
3.9486
2.5189
1.9240
1.4092

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 28


16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

13.6
15.0
15.0
15.4
15.6
16.0
16.0
16.0
16.8
18.0
18.8
19.8
19.8
25.8
26.2
29.4

1.4092
0.0453
0.0453
0.3757
0.6608
1.4711
1.4711
1.4711
4.0518
10.3227
16.1034
25.1292
25.1292
121.2840
130.2544
213.5369

La somma dei valori del campione e del quadrato degli scarti sono 458.4 e 862.07. Il valor medio, la
deviazione standard e la varianza corrette sono:
x = 458.4/31 = 14.79 mm
sXC2 = 862.07/30 = 28.73
sXC = 28.731/2 = 5.36
I parametri

ed u secondo le eq. (47) e (48) sono:

6 x 28.73

u = 14.79 0.5772 x

Sostituendo i valori di u ed

= 4.18

6 x 28.73

= 12.38

nella eq. (25) si ottiene la retta che individua la popolazione sulla

carta probabilistica:
y = 0.239 x 2.96

La retta viene disegnata in figura 16 congiungendo due coppie di valori determinate tramite l
equazione di cui sopra: (10,-0.57) e (20,1.81) insieme ai valori del campione rappresentati dai punti
di coordinate (xi, Fi) secondo la tabella 1 (le frequenze cumulate di non superamento sono
considerate come probabilit cumulate di non superamento).

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 29

Figura 16. Adattamento della distribuzione doppio esponenziale al campione: metodo dei momenti.

Per la distribuzione lognormale l utilizzo del metodo dei momenti permette la stima dei parametri
Y e

attribuendo alla popolazione il valor medio e la varianza del campione e le eq. (45) e (44)

diventano:
2
y

= ln

y = ln x 0.5 ln

s 2XC
x2
s 2XC
x2

+1

(50)

+1

(51)

Le espressioni (50) e (51), sostituite nell eq. (40), permettono di individuare la retta di miglior
allineamento secondo il presente criterio:

z=

y Y
Y

ln x ln x + 0.5 ln
=
ln

s 2XC
2
x

s 2XC
x2

+1

+1

Dato il campione di N = 31 elementi riportato in tabella 1, i parametri Y e


(51) sono:

(52)

secondo le eq. (50) e

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 30

2
y

= ln

28.73
+ 1 = 0.122
14.79 2
Y

= 0.349

y = ln 14.79 0.5 x ln

28.73
14.79 2

+ 1 = 2.633

La retta che individua la popolazione sulla carta probabilistica :

z = 2.865 ln x 7.544

La retta viene disegnata in figura 17 congiungendo due coppie di valori determinate tramite l
equazione di cui sopra: (10,-0.947) e (20,1.039) insieme ai valori del campione secondo la tabella 1.

Figura 17. Adattamento della distribuzione lognormale al campione: metodo dei momenti.

12 Metodo dei minimi quadrati


Il metodo dei minimi quadrati assume come retta di miglior allineamento quella per cui si ha il
minimo della somma dei quadrati degli scarti tra i valori xi del campione ed i corrispondenti della
retta incognita x i (fig 18).

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 31

Figura 18. Interpolazione lineare ai minimi quadrati.

Questa retta denominata retta ai minimi quadrati o di interpolazione lineare ed il procedimento


anche noto come interpolazione lineare.
La retta ai minimi quadrati, x = A y + B, minimizza la somma dei quadrati degli scarti D per le N
coppie di valori (xi,yi):
D=

N
i =1

(x i

x i ) 2 =

N
i =1

(x i

(Ay i + B)) 2

I valori di A e B che rendono minimo D sono quelli per cui le derivate di D rispetto ad A ed B si
annullano:
D
=0
A
D
=0
B

La soluzione del sistema costituito dalle due soprascritte :

A=

s XY
s 2Y

B=x Ay

essendo x ed y i valori medi delle coordinate degli N valori ed sXY la covarianza:

(53)
(54)

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 32


N

s XY =

i =1

(x i

x)(y i

y)

(55)

Nel caso si fosse minimizzata la somma degli scarti orizzontali, ovvero gli scarti della variabile y, le
relazioni (53) e (54) valgono ancora sostituendo a denominatore della (53) sX2 con sY2.
Il calcolo della covarianza sXY pu essere semplificato utilizzando i valori medi di x ed y:
N

s XY =

i =1

(x i

x)(y i

y)
=

i =1

s XY =

x i yi
N

i =1

xi

x i y - xy i + xy)
N

N
i =1

(x i y i

i =1

i =1

x i yi
y

i =1

xi

i =1

yi

+ xy

yi

+ xy =

i =1

x i yi
xy xy + xy

s XY =

i =1

x i yi
N

(56)

xy

Per la distribuzione doppio esponenziale valgono le eq. (34) e (36) per cui:

y = ln( ln(P(y

Y) )) = ln ln

Tr
Tr - 1

Si approssima la probabilit cumulata di non superamento dei valori del campione con la frequenza
di probabilit cumulata di non superamento stimata mediante la formula di plotting position di
Weibull (eq. 5). Per il campione estratto da una popolazione che segue la distribuzione doppio
esponenziale vale:
y = ln( ln(F(y

Y) )) = ln ln

Essendo la frequenza cumulata di non superamento F(y

Tr
Tr - 1

(57)

Y) stimata con la formula di Weibull (eq.

5) F(yi) = i/(N+1) il valor medio y , la deviazione standard sY e la varianza sY2 della variabile ridotta
y dipendono dalla dimensione del campione e sono tabulati nelle tabelle 5a,b. In questo caso per la

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 33


deviazione standard e la varianza si utilizzano le espressioni (18) e (19), ovvero si fa riferimento ai
parametri non corretti.

Tabella 5. Valori medi e deviazione standard della variabile ridotta in funzione della dimensione del
campione
Valore medio della variabile ridotta y
20

0
1
2
3
4
5
6
7
8
9
0.5236 0.5252 0.5268 0.5283 0.5296 0.5309 0.5320 0.5332 0.5343 0.5353

30

0.5362 0.5371 0.5380 0.5388 0.5396 0.5402 0.5410 0.5418 0.5424 0.5430

40

0.5436 0.5442 0.5448 0.5453 0.5458 0.5463 0.5408 0.5473 0.5477 0.5481

50

0.5485 0.5489 0.5493 0.5497 0.5501 0.5504 0.5508 0.5511 0.5515 0.5518

60

0.5521 0.5524 0.5527 0.5530 0.5533 0.5535 0.5538 0.5540 0.5543 0.5545

70

0.5548 0.5550 0.5552 0.5555 0.5557 0.5559 0.5561 0.5563 0.5565 0.5567

80

0.5569 0.5570 0.5572 0.5574 0.5576 0.5578 0.5580 0.5581 0.5583 0.5585

90

0.5586 0.5587 0.5589 0.5591 0.5592 0.5593 0.5595 0.5596 0.5598 0.5599
Deviazione standard della variabile ridotta sY

20

0
1
2
3
4
5
6
7
8
9
1.0628 1.0696 1.0754 1.0811 1.0864 1.0915 1.0961 1.1004 1.1047 1.1086

30

1.1124 1.1159 1.1193 1.1226 1.1255 1.1285 1.1313 1.1339 1.1363 1.1388

40

1.1413 1.1436 1.1458 1.1480 1.1499 1.1519 1.1538 1.1557 1.1574 1.1590

50

1.1607 1.1623 1.1638 1.1658 1.1667 1.1681 1.1696 1.1708 1.1721 1.1734

60

1.1747 1.1759 1.1770 1.1782 1.1793 1.1803 1.1814 1.1824 1.1834 1.1844

70

1.1854 1.1863 1.1873 1.1881 1.1890 1.1898 1.1906 1.1915 1.1923 1.1930

80

1.1938 1.1945 1.1953 1.1959 1.1967 1.1973 1.1980 1.1987 1.1994 1.2001

90

1.2007 1.2013 1.2020 1.2026 1.2032 1.2038 1.2044 1.2049 1.2055 1.2060

rappresenta le decine e la prima riga le unit: per esempio: N=42, ym=0.5448, Sy=1.1458)

Il legame lineare tra x ed y espresso dalla retta ai minimi quadrati esplicitando y :


x B
A

y=

(58)

Confrontando le eq. (25) e (58) e tenendo conto delle (53) e (54) si ha:
=A=
u=B= x
Sostituendo i valori di u ed

s XY
s 2Y

s XY
s 2Y

(59)

(60)

nella eq. (25) o di A ed B nella eq. (58) si ottiene la retta di miglior

allineamento secondo il presente criterio:

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 34

y=

x-u

s 2Y
=
(x - x) + y
s XY

(61)

In tabella 6 sono riportati i valori di xi ed yi con i corrispondenti prodotti xi yi.


Tabella 6. Valori x del campione con i corrispondenti valori di y ed il prodotto xy
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

xi (mm)
7.2
7.8
8.0
8.8
9.2
10.2
10.6
11.0
11.4
11.8
12.2
12.8
13.2
13.4
13.6
13.6
15.0
15.0
15.4
15.6
16.0
16.0
16.0
16.8
18.0
18.8
19.8
19.8
25.8
26.2
29.4

Fi
0.0313
0.0625
0.0938
0.1250
0.1563
0.1875
0.2188
0.2500
0.2813
0.3125
0.3438
0.3750
0.4063
0.4375
0.4688
0.5000
0.5313
0.5625
0.5938
0.6250
0.6563
0.6875
0.7188
0.7500
0.7813
0.8125
0.8438
0.8750
0.9063
0.9375
0.96880

yi
-1.2429
-1.0198
-0.8617
-0.7321
-0.6186
-0.5152
-0.4186
-0.3266
-0.2378
-0.1511
-0.0656
0.0194
0.1045
0.1903
0.2775
0.3665
0.4580
0.5528
0.6514
0.7550
0.8646
0.9816
1.1079
1.2459
1.3989
1.5720
1.7726
2.0134
2.3183
2.7405
3.4499

xi yi
-8.9491
-7.9543
-6.8934
-6.4425
-5.6910
-5.2551
-4.4371
-3.5930
-2.7114
-1.7834
-0.8008
0.2478
1.3792
2.5505
3.7738
4.9846
6.8706
8.2913
10.0321
11.7782
13.8338
15.7064
17.7269
20.9311
25.1808
29.5527
35.0965
39.8657
59.8123
71.8009
101.4272

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 35


La sommatoria dei prodotti xiyi 426.33 il valore di y , secondo la tabella 5 (N=31) 0.5371 (il
valor medio x , stimato nel paragrafo precedente 14.79). La covarianza calcolata secondo l eq.
(56) per il campione in tabella 1 :

sXY = 426.33/31 14.79 x 0.5371 = 5.809


La deviazione standard della variabile ridotta secondo la tabella 5 sY = 1.1124 e la varianza :
sY2 = 1.11242 = 1.237

I valori di A ( ) ed B (u) secondo le equazioni (53) e (54) sono:

A=

= sXY/sY2 = 5.809/1.237 = 4.696

B = u = x - A y = 14.79 4.696 x 0.5371 = 12.27

Sostituendo i valori A ed B nell espressione (58) (o di

ed u nell eq. (25)) si ottiene la retta che

individua la popolazione sulla carta probabilistica:

y = 0.213 x 2.61

La retta viene disegnata in figura 19 congiungendo due coppie di valori determinate tramite l
equazione di cui sopra: (10,-0.48) e (20,1.65) insieme ai valori del campione secondo la tabella 1 ed
alla retta ottenuta con il metodo dei momenti.
La retta ottenuta col metodo dei momenti permette un miglior allineamento rispetto alla retta
ottenuta col metodo dei minimi quadrati. La retta ai minimi quadrati, essendo un interpolazione nel
piano (x,y), risente della dispersione dei punti sul cartogramma probabilistico, ovvero risente dell
approssimazione della probabilit cumulata di non superamento dei valori del campione con la
frequenza cumulata di non superamento determinata con la formula di plotting position, mentre la
retta ottenuta con il metodo dei momenti dipendendo dalla deviazione standard e dalla media dei
valori del campione non ne risente.
Per la distribuzione lognormale non possibile utilizzare in modo diretto il metodo dei minimi
quadrati perch i valori della variabile ridotta z non sono noti a priori, ovvero non esiste una
relazione analitica, come per la distribuzione doppio esponenziale, che esprima la variabile ridotta z
in funzione della probabilit cumulata di non superamento o del tempo di ritorno. Per poter

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 36


utilizzare il metodo dei minimi quadrati occorre riportare sulla carta probabilistica tutti i valori del
campione ed elemento per elemento determinare il valore della variabile ridotta z corrispondente
alla frequenza cumulata di non superamento determinata tramite la formula di Weibull.

Figura 19. Adattamento della distribuzione doppio esponenziale al campione: metodo dei minimi
quadrati.

13 Metodo di Gumbel
Il metodo di Gumbel per la ricerca della retta di miglior allineamento dei valori del campione nella
carta probabilistica un metodo di interpolazione analogo al metodo ai minimi quadrati. La retta di
interpolazione viene determinata minimizzando invece che gli scarti la distanza delle coppie di
valori (yi,xi) del campione dalla retta stessa (fig. 20). In questo caso i coefficienti A ed B della retta
di interpolazione x = Ay + B diventano:

A=

sX
sY

B=x Ay

(62)
(63)

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 37

Figura 20. Interpolazione lineare ai minimi quadrati tramite la distanza dalla retta.
Le relazioni (eq. 59 e 60) che esprimono i parametri della distribuzione

ed u in funzione di A e B

rimangono valide sostituendo sXY con sX ed sY2 con sY e l espressione della retta di interpolazione
per cui si ha il miglior allineamento dei punti, secondo il presente criterio :

y=

x-u

sY
(x - x) + y
sX

(64)

L espressione della retta uguale a quella ottenuta tramite il metodo dei momenti (eq. 49) se y =
0.5772, sY = / 6 ed sX = sXC.
La procedura di adattamento della distribuzione doppio esponenziale al campione in tabella 1 viene
eseguita utilizzando i risultati ottenuti nei paragrafi precedenti. La somma del quadrato degli scarti
862.07 e la standard non corretta :
862.07
= 5.27
31

sX =

La deviazione standard non corretta della variabile ridotta y (tabella 6, N=31) :

sY = 1.1124

Il valore di y , secondo la tabella 5 (N=31) :

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 38


y = 0.5371

Il coefficiente angolare A e l intercetta B della retta secondo il metodo di Gumbel, secondo le


equazioni (62) e (63) sono:
A = sX/sY = 5.27/1.1124 = 4.158
B = x - A y = 14.79 4.158 x 0.5371 = 12.56

Sostituendo i valori A ed B nell espressione (58) si ottiene la retta che individua la popolazione
sulla carta probabilistica:
y = 0.240 x 3.02

In figura 21 disegnata la retta corrispondente al metodo di Gumbel insieme alle rette ottenute con
il metodo dei momenti e dei minimi quadrati oltre ai valori del campione.

Figura 21. Adattamento della distribuzione doppio esponenziale al campione: metodo di Gumbel.

La retta ottenuta con il metodo di Gumbel permette un miglior allineamento dei punti del campione
rispetto a quella ottenuta con i minimi quadrati perch la distanza tra punto e retta presenta una
minor dispersione rispetto allo scarto sia verticale che orizzontale, ma uno peggiore rispetto alla
retta ottenuta con il metodo dei momenti perch, quest ultima non risente dell approssimazione

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 39


della probabilit cumulata di non superamento dei valori del campione con la frequenza cumulata di
non superamento determinata con la formula di plotting position.

14 Test di Pearson o del


Il test di pearson o del

un test convenzionale per stabilire se accettare o meno l adattamento di

una distribuzione di probabilit ad un campione.


Il campione viene diviso in un numero k di classi equi-probabili: la probabilit che un valore della
popolazione ha di cadere in una classe la stessa per tutte le classi. Indicata con p* = 1/k la
probabilit che ha un valore di cadere in una classe equi-probabile, gli estremi delle classi equiprobabili dipendono dalla distribuzione di probabilit adattata. Gli estremi delle classi equiprobabili sono quei valori per cui P(x) = n p* (n = 1, k-1), come illustrato nella figura 22, essendo
p* k = 1.

Figura 22. Divisione in intervalli equi-probabili della distribuzione doppio esponenziale (p* = 0.2).

Si confronta quindi per ogni classe il numero di elementi del campione che ricade nella classe con
N p* (N/k), numero che rappresenta il numero di elementi del campione che cadrebbe in una classe
equi-probabile se la distribuzione di probabilit si adattasse perfettamente al campione: punti
allineati ed appartenenti alla retta che rappresenta la popolazione nella carta probabilistica.

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 40


Infatti i valori della frequenza cumulata di non superamento degli elementi del campione sono
uniformemente distribuiti tra 0 ed 1 e nel caso di adattamento perfetto della distribuzione di
probabilit sono anche coincidenti con i valori della probabilit cumulata di non superamento e
quindi equamente distribuiti nella classi equi-probabili.
Maggiore la differenza tra il numero di elementi del campione in una classe equi-probabile ed N
p* (N/k) minore l adattamento della distribuzione al campione.
Il parametro che quantifica questa differenza e permette quindi di valutare l adattamento o meno
della distribuzione al campione :
k
2

(N i - Np *)2

(65)

Np *

essendo Ni il numero di elementi del campione ricadenti nella classe iesima.


La quantit

misura la dispersione dei valori del campione rispetto alle classi equi-probabili. Il

valore del

deve essere confrontato con uno di riferimento indicato con

crit.

Affinch la

distribuzione di probabilit si adatti al campione deve essere:


2

Il valore di

crit

crit

quello per cui la probabilit cumulata di non superamento relativa alla

distribuzione di probabilit del

pari a 0.95 (P ( 2) = 0.95). La distribuzione del

dipende dal

parametro:
= k - s 1

(66)

essendo k il numero delle classi ed s il numero di parametri della distribuzione di probabilit che si
vuole adattare al campione. Nel caso delle distribuzione di probabilit doppio esponenziale e lognormale s = 2 (i parametri sono u ed

per la distribuzione doppio esponenziale e y e

distribuzione log-normale). Nella tabella 7 sono riportati i valori di

crit

per la

per diversi .

Il valore di p* viene scelto secondo la seguente regola empirica:

N p*

(67)

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 41


In genere si cerca di scegliere p* in modo che 1/p* sia un numero intero. Infatti il numero di classi
viene infatti individuato dal rapporto 1/p*, essendo 1 il valore massimo della probabilit cumulata
di non superamento si ha 1 = k p*, da cui:
k = (1/p*)

Nel caso di 30 elementi (N = 30), p*

(68)

5/30 = 1/6 = 0.17. Si sceglie quindi p* = 0.2 e ne consegue

k = (1/0.2)

Affinch il test abbia significato deve essere N


potrebbe diventare nulla o negativa (

1 per definizione).
2

Tabella 7 Valori di

crit

25, altrimenti k diventa troppo piccolo e

crit

in funzione di

3.84

5.99

7.81

9.49

11.1

15 Esempio di applicazione del test del

Nella tabella 1I sono riportate in ordine crescente i valori di pioggia massimi annuali per una durata
di 1 h registrati dal pluviometro della stazione di San Martino di Castrozza. L elaborazione
statistico probabilistica di questo campione di N = 31 elementi ha prodotto il seguente adattamento
della distribuzione doppio esponenziale mediante il metodo dei momenti:

y = 0.239 x + 2.96

(69)

essendo x la massima precipitazione annuale di durata 1 h.


Si sottopone l adattamento della distribuzione di probabilit al test del
suggerisce p*

. La regola empirica (2)

5/31 = 0.161. Si sceglie p* = 0.2 che permette k = 1/0.2 = 5. Gli estremi degli

Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-27/02/2004 42


intervalli equi-probabili si determinano individuando i valori della variabile ridotta y per cui P(y) =
0.2; 0.4; 0.6; 0.8 tramite la relazione:
y = ln( ln(P(y

Y) ))

I valori di y calcolati (fig. 22) ed i corrispondenti valori di x, estremi dell intervallo, calcolati
secondo la (69) sono riportati nella tabella 8.

Tabella 8 Estremi degli intervalli equi-probabili.

P(y)

0.2

-0.4759

10.39

0.4

0.0874

12.75

0.6

0.6717

15.19

0.8

1.4999

18.65

Nella tabella 9 vengono riportati per ogni classe, gli estremi, il numero di elementi del campione
contenuto nella classe Ni e la quantit (Ni N p*)2.

Tabella 9 Valori riassuntivi per il calcolo del parametro

Classe

Estremi

Ni (Ni N p*)2

- 10.39

0.04

0.04

10.39 12.75

1.44

1.48

12.75 15.19

0.64

2.12

15.19 18.65

0.64

2.76

18.65 -

0.04

2.8

Il valore del parametro


2

Essendo

crit

(Ni N p*)2

= 2.8 / (31 x 0.2) = 0.45

= 5.99 ladattamento della distribuzione doppio esponenziale al campione accettato.

Potrebbero piacerti anche