Sei sulla pagina 1di 52

IDROLOGIA STATISTICA 1: Rappresentazione dei Campioni di dati

Ogni processo naturale è soggetto a variabilità, ed investigando il fenomeno è quindi necessario


affrontare l’incertezza analizzando un campione di dati, che viene utilizzato per scopi descrittivi.
Per scopi inferenziali però, sarà necessario prendere decisioni sulla base della popolazione di cui
quel determinato campione fa parte. Le quantità misurate vengono chiamate variabili, ognuna
delle quali assumerà un generico valore di uno specifico set. Per via della casualità e
imprevedibilità, ci si riferisce a variabili casuali (o aleatorie), per definire una qualsiasi quantità i
cui valori dipendono dal caso.
Una variabile casuale continua potrà assumere un qualsiasi valore in una scala continua tra tue
limiti. (R) Una variabile casuale discreta potrà assumere un isolato e contato valore. (N)
Le rappresentazioni grafiche consentono di visualizzare la variabilità e altre determinate proprietà
di un set di dati.

Andiamo ad analizzare una variabile casuale X → {x 1 , x 2 , … , x n } che costituisce il nostro campione


di numerosità n. Ipotizzando si tratti di osservazioni stocasticamente indipendenti andiamo ad
osservare le possibile rappresentazioni grafiche del campione osservato:

Diagramma a Linee:
Il diagramma a linee è adatto alla rappresentazione di
variabili casuali discrete. In ascissa si riportano i valori
osservati della variabile ed in ordinata il numero di
occorrenze (frequenze assolute) per ciascun valore
osservato

Figura 1: Diagramma a Linee Figura 2: Diagramma a Punti

Diagramma a Punti
Il diagramma a punti è adatto alla rappresentazione di variabili continue, con campioni di
numerosità inferiore ai 30 elementi per una questione di leggibilità

Istogramma
È adatto alla rappresentazione di variabili casuali continue. Si necessita della suddivisione
dell’intervallo di variabilità del campione in un determinato numero di classi, che può essere
definito mediante la regola di Sturges per esempio

{ x 1 , x 2 ,… , x n } → x max =max { x 1 , x 2 ,… , x n } xmin =min {x 1 , x 2 , … , x n }


range=x max −x min nc =1+3.3 log10 (n)

Di n c si terrà la parte intera, ed è in genere buona norma avere almeno 5 osservazioni per ogni
classe.
L’ampiezza di ciascuna classe è definita come
range
ac=
nc

E per ciascuna classe si può calcolare o il numero


delle occorrenze (Frequenze Assolute), o le
frequenze relative.
Frequenze Assolute=numero di occorrenze
numero di occorrenze
Frequenze Relative=
numerosità campione
Vi sono poi le frequenze relative cumulate, che
producono un istogramma in cui all’ultima classe Figura 3: Istogramma

sarà associata la frequenza relativa cumulata pari


ad 1.
L’area di ciascun blocco è proporzionale al
numero delle occorrenze in ciascun gruppo, e la
variabilità dei dati è mostrata dalla dispersione
orizzontale dei blocchi.
Si può poi definire il poligono di frequenza, che
può essere tracciato congiungendo i punti di
mezzo del lato superiore di ciascun rettangolo. Se
immaginiamo un numero di osservazioni molto
alto, l’ampiezza di classe di un istogramma di Figura 4: Poligono di Frequenza
frequenze relativo diminuisce sempre di più, e nel
caso ideale di un campione di numerosità infinita,
il poligono di frequenza diviene una curva di
frequenza (pdf).

Diagramma di Frequenza Cumulata


Può essere utilizzato per rappresentare sia variabili casuali continue che discrete. Richiede
innanzitutto un ordinamento crescente del campione, di cui poi si andranno a calcolare le
frequenze assolute, quelle relative, rapportando le prime alla numerosità del campione, che infine
si andranno a sommare per ottenere le frequenze relative cumulate. Nel caso di rappresentazione
di n variabili casuali continue, la frequenza assoluta di ciascuna osservazione sarebbe 1. Mostra la
probabilità di non superamento dei valori riportati in ascissa.
Le frequenze relative cumulate sono ciò che più si avvicina al concetto di funzione di distribuzione
di probabilità, e quindi per evitare che al massimo valore del campione sia associata una frequenza
unitaria, che si tradurrebbe in “certezza statistica”, si usa la formula di Weibull per calcolare la
frequenza relativa di ciascun elemento:
i
F i=
n+1
Nel caso di campioni di dati riferiti a specifiche
variabili idrologiche, come le precipitazioni,
possiamo avere ripetizioni dei medesimi
valori. Prendiamo ad esempio i pluviografi,
degli strumenti di misura che sono
sostanzialmente contenitori gradati con una
risoluzione di 0.2mm. Le osservazioni saranno
costituite da numerose ripetizioni di vari
multipli di 0.2.
Se la numerosità del campione cresce, il
diagramma di frequenza relativa cumulata
Figura 5: Diagramma delle frequenze relative cumulate
tenderà a diventare una curva di distribuzione
(cdf).

Curva di durata delle portate: Flow Duration


Curve
Si tratta in realtà anche in questo caso di un
diagramma delle frequenze cumulate, con una
scala dei tempi specifica. Il campione viene
ordinato in senso decrescente però, non
crescente, e si assegnano delle frequenze relative
cumulate di superamento (è l’opposto di prima in
cui ad essere rappresentate erano le frequenze di
non superamento).

Figura 6: Curva di Durata delle Portate

Box Plot
È adatto alla rappresentazione di variabili casuali continue, e consente una rappresentazione del
campione non tanto nella sua completezza, quanto più che altro tramite alcuni suoi indici
fondamentali:

 La mediana è l’osservazione centrale del campione,


ordinato in senso crescente o, in linguaggio
probabilistico “il quantile con assegnato livello di
probabilità del 50%”.
 Il primo ed il terzo quantile sono la mediana della
prima e della seconda metà del campione ordinato in
senso crescente.
Se le “ali” del boxplot sono molto ampie, avremo un campione
disperso, e questo può essere spiegato con la presenza di
Outliers.
IDROLOGIA STATISTICA 2: Indici di rappresentazione di un campione
Oltre ai metodi di rappresentazione grafica, è possibile utilizzare un set di numeri caratteristici per
indicare in maniera rapida e intuitiva le informazioni contenute in un determinato data set.
Vengono utilizzati degli “indici”, che si distinguono principalmente in tre differenti tipologie, di
tendenza centrale, di dispersione ed asimmetria.

Indici di Tendenza Centrale:


Generalmente i dati dei sistemi naturali tendono a raggrupparsi nell’intorno di uno specifico valore
della variabile, che quindi può essere considerato rappresentativo del comportamento del
campione. Sono caratterizzati dall’avere la stessa dimensione della variabile casuale di riferimento:

 Media:
n
1
x= ∑x
n i =1 i
Volendo utilizzare un unico valore per rappresentare i dati la media aritmetica è il metodo
ideale. La media è anche il centroide dell’area tra il poligono di frequenza e l’asse delle
ascisse, ovvero il baricentro della curva di frequenza. La media potrebbe essere influenzata
dalla presenza di outliers.
 Media Armonica:
1
x h= n
1 1

n i=1 xi
È il reciproco della media dei reciproci.
 Mediana:
x 0.5 è il valore centrale del campione ordinato in senso crescente, o anche il quantile con
livello di probabilità pari al 50%. Risente poco degli outliers, e per questo vi si riferisce
spesso come ad una misura resistente.
 Moda:
~
x è il valore più frequente all’interno del campione. Non risente degli outliers.

Indici di Variazione
Mentre le misure di tendenza centrale si ottengono definendo un valore centrale o
rappresentativo, gli indici di variazione rappresentano il grado di dispersione delle osservazioni. La
dispersione indica anche la precisione dei dati.

 Devianza assoluta media:


n
1
d= ∑ ¿¿
n i=1
Misura la deviazione assoluta media dalla media aritmetica del campione. È facilmente
comprensibile ed utilizzabile, comunque ha validità solo se le piccole e grandi deviazioni
hanno la medesima significatività della deviazione media.
 Deviazione Standard:

√ √
n n
1 ~ 1
S= ∑ (|x i−x|) distorto S= ∑
2 2

n i=1 n−1 i=1 (|x i−x|) non distorto


Al contrario della devianza assoluta media, è ampiamente influenzato da piccoli e grandi
valori. La stima della deviazione standard è, mediamente, più vicina ai valori della
popolazione perch
 Varianza:
n n
1 ~2 1
S = ∑ (|x i−x|) distorta S = ∑
2 2
2
n i=1 n−1 i=1
(|x i−x|) non distorta

 Coefficiente di Variazione:
~
S
CV =
x
Altri indici
 Coefficiente di Asimmetria:
n
1

3

n i=1
(|x i− x|)
C a= 3
S
Si tratta di un coefficiente adimensionale caratterizzato da un denominatore sempre
positivo, quindi il segno del coefficiente sarà determinato unicamente dal numeratore, ed
in particolare avremo
Ca = 0: Campione simmetrico rispetto alla media
Ca > 0: Campione asimmetrico a destra, le osservazioni a destra della media
pesano di più.
Ca < 0: Campione asimmetrico a sinistra, le osservazioni a sinistra della
media pesano di più.

 Coefficiente di Kurtosis:
n
1

4

n i=1
(|x i−x|)
K= 4
S
Anch’esso un coefficiente adimensionale, sempre positivom ed ha un valore di riferimento
pari a 3 (quello della normale), rispetto cui si definisce il grado di appiattimento del
campione, in particolare se K > 3 più appiattito della normale, se K < 3 campione meno
appiattito di una normale.
Si possono poi volendo definire altri coefficienti di qualunque ordine, con la medesima struttura
dei precedenti, ovvero
n
1

k

n i=1
(|xi −x|)
M k=
Sk
Si parla di Momenti, e vengono utilizzati solitamente per andare a stimare i parametri che
caratterizzano le distribuzioni di probabilità. Di solito k non supera il valore k = 5.

Nel caso in cui si stia analizzando due variabili casuali ( X , Y )= {( x 1 , y 1 ) , ( x 2 , y 2 ) ,… , ( x n , y n) }


possiamo definire per ciascuna gli indici già precedentemente espressi, ma anche
 Covarianza:
n
1
S xy = ∑ (|x −x|)( yi − y)
n i=1 i
 Coefficiente di Correlazione Lineare:
S xy
ρ xy = ¿
Sx S y
Può essere maggiore, minore o uguale ad uno. In particolare, se andiamo ad analizzare il
caso in cui il legame che sussiste tra le due variabili sia lineare:
( X , Y )= {( x 1 , y 1 ) , ( x 2 , y 2 ) ,… , ( x n , y n) } y=mx+ c
n
1
μ x =x= ∑ x i
n i=1


n
1
σ x =S x = ∑ (| xi −x|)
2

n i=1

n n
1 1
μ y = y= ∑
n i=1
y i = ∑ m x i +c=m x+ c
n i=1

√ √ √
n n n
1 1 1
∑ y i− y|) = ∑ (|( m x i+ c)−(m x+ c)|) = ∑ (m (|x i−x|) ) =mσ x
2 2 2
σ y =S y =
n i=1 (| n i=1 n i=1
Da cui si ottiene

σ x → σ y =m σ x μ x → μ y =m μ x +c
n n n
1
∑ (|x −x|) ( y i− y )= 1n ∑ (|x i−x|) [ ( m x i+ c ) −( m x + c ) ] = 1n ∑ m (|x i−x|) =m σ 2x
2
σ xy=
n i=1 i i =1 i=1

Quindi

m σ 2x
{
σ xy m
ρ xy = = = = +1 se m> 0
σ x σ y σ x |m|σ x |m| −1 se m< 0

IDROLOGIA STATISTICA 3: Concetti Fondamentali di Probabilità


L’incertezza cui già abbiamo accennato nei capitoli precedenti, legata all’imprevedibilità dei
fenomeni naturali, rappresenta uno dei maggiori problemi in ambito ingegneristico. Mediante la
teoria della probabilità, è possibile tener conto di tale incertezza e giungere prendere decisioni su
basi logiche e razionali. È possibile descrivere e predire eventi nel modo reale tramite l’utilizzo di
modelli.
Prima di introdurre i concetti fondamentali della teoria della probabilità è necessario definire il
concetto matematico di evento casuale e altri correlati come lo spazio campionario e lo spazio
degli eventi. Gli eventi possono essere caratterizzati pensando alla realizzazione di un
esperimento. Prima che venga svolto, non si sa a priori quale ne sarà il risultato, e devono
pertanto essere considerate tutte le possibili risposte. In senso statistico ognuna di queste
possibilità costituisce un evento, e l’insieme di tutte queste possibilità viene chiamato spazio
campionario.
 Evento: Il verificarsi di una variabile o di un fenomeno (è un sottoinsieme dello spazio
campionario)
 Spazio Campionario: Viene definito spazio campionario l’insieme che raccoglie tutti i
possibili risultati di un esperimento Ω=¿
Ci sono differenti modi in cui gli eventi possono essere correlati nello spazio campionario:

(1) A1 e A2 si dicono mutuamente escludentisi se l’occorrenza dell’uno esclude l’altro; A1 e A2


comprendono il set nullo A1 A 2= A1 ∩ A2=0
(2) I punti in comune di due eventi costituiscono la loro intersezione, definita come A1 A 2 o
come A1 ∩ A 2
(3) L’unione di due eventi rappresenta la loro comune occorrenza. L’evento combinato dei due
si definisce come A1 ∪ A 2 o A1 + A2

I diagrammi di Venn consento una più comprensibile ed intuitiva rappresentazione della teoria
della probabilità, affrontandola con un approccio insiemistico.
L’insieme di tutti gli eventi associati ad un esperimento e delle loro possibili combinazioni viene
definito spazio degli eventi.

 Spazio degli Eventi: A, è un insieme di eventi più ampio di quello campionario, e raccoglie
in sé tutti i possibili eventi associati ad un determinato esperimento. È caratterizzato dalle
seguenti proprietà
- Ω∈A
- Se A∈ A allora A c ∈ A
- Se A1 ∈ A e A 2 ∈ A , allora A 1+ A 2 ∈ A

Cui segue

- Se A1 ∈ A e A 2 ∈ A , allora A 1 A2 ∈ A
- Se 0 ∈ A allora A c ∈ A
Il concetto di spazio degli eventi è più complesso rispetto
a quello campionario, perché lo contiene cosi come
contiene l’evento nullo, o tutte le possibili combinazioni
degli eventi dello spazio campionario.
La classica definizione della probabilità si riferisce ai
risultati di un generico esperimento, come può essere il
lancio di una moneta. Se l’esperimento ha un certo
numero di risultati n mutuamente escludentisi e con
medesima possibilità di realizzarsi, e tra questo numero
una certa partizione n A ha lo stesso attributo A, allora la
probabilità di A sarà il rapporto tra n A ed n .

 Funzione di Probabilità: Pr[], è una funzione


definita nello spazio degli eventi A, con codominio
[0,1], che soddisfa i 3 assiomi della probabilità:
(1) ∀ A ∈ A → Pr ⁡[ A]≥ 0 (non esiste probabilità negativa)
(2) Pr [ Ω ]=1
(3) ∀ A , B ∈ A : AB=∅ → Pr [ A ∪ B ] =Pr [ A ] + Pr ⁡[ B]
Il terzo assioma asserisce che la proprietà additiva della probabilità può essere estesa ad ogni
sequenza di eventi mutuamente escludentisi. Se A1 , A 2 ,… , Ak ∈ A e A i A j=∅ ∀ i, j, allora
Pr [ A 1+ A 2+ …+ A k ] =Pr [ A 1 ] + Pr [ A2 ] +…+ Pr ⁡[ A k ]

Questo ci permette di generalizzare il secondo assioma come:

Pr [ Ω ]=1 ma Ω∩ Ω =0 per definizione Pr [ Ω∪ Ωc ]=Pr [ Ω ] + Pr [ Ωc ] dalterzo assioma


c

Pr [ Ω∪ Ωc ]=1+ Pr [ Ωc ] → Pr [ Ωc ]=0 generalizzando

c
A ∩ A =∅ }
A ∪ A c =Ω → Pr [ A ∪ Ac ]=Pr [ A ] + Pr [ A c ] =Pr [ Ω ] =1
Pr [ A c ] =1−Pr [ A ]

Inoltre, sfruttando i diagrammi di Venn, risulta semplice dimostrare come la probabilità di due
eventi A e B è pari alla differenza tra la somma delle proabbilità dei suddetti eventi e la probabilità
della loro intersezione. Nel caso di eventi mutuamente escludentisi, la probabilità dell’intersezione
sarà nulla.

Pr [ A ∪B ] =Pr [ A ∪ ( A ∩ B ) ] =¿¿ Pr [ A ] + Pr [ A c ∩ B ] Ma B=[ A ∩ B ] ∪ [ A c ∩ B ]


c

Pr [ B ] =Pr [ ( A ∩ B ) ∪ ( Ac ∩B ) ]=¿¿ Pr [ A ∩ B ] + Pr [ A c ∩B ]
La definizione generale della probabilità unione sarà Pr [ A ∪B ] =Pr [ A ] + Pr [ B ] −Pr ⁡[ A ∩B ]

 Probabilità Condizionata: Dati due eventi A e B tali che B≠ 0 → Pr [ B ] ≠ 0, la probabilità che


si verifichi A, posto che si sia verificato B, è detta probabilità condizionata, e si esprime
come:
Pr [ A ∩ B ]
Pr [ A|B ]=
Pr [ B ]
Per comprendere più facilmente tale concetto può risultare utile immaginarselo come un
ridimensionamento del dominio. Siccome deve essersi verificato B è come se il nuovo
spazio campionario si sia ristretto al solo insieme B. Pertanto, in questo nuovo dominio, ciò
che rimane di A è proprio la sua intersezione con B. Dividendo la probabilità di tale
intersezione per la probabilità di B concettualmente stiamo effettuando una
normalizzazione rispetto al nuovo spazio degli eventi.
Valgono poi le due seguenti proprietà:
Pr [ A ∩ B ]
1. Pr [ B| A ] =
Pr [ A ]
2. Pr [ A ∩B ] =Pr [ A|B ]∗Pr [ B ] =Pr [ B| A ]∗Pr ⁡[ A ]
 Indipendenza Stocastica: L’evento A è stocasticamente indipendente dall’evento B, se è
valida:
Pr [ A|B ]=Pr ⁡[ A]
A cui consegue:
Pr [ A|B ]
Pr [ A|B ]= =Pr [ A ] → Pr [ A ∩ B ] =Pr [ A ]∗Pr [ B ]
Pr [ B ]
Se due eventi sono stocasticamente indipendenti la probabilità della loro intersezione è
data dal prodotto delle loro probabilità.

 Teorema Della Probabilità Totale: Abbiamo una serie di eventi Bi mutuamente


escludentisi, ma tali che la loro unione compone tutto lo spazio campionario.
Bi ∩ B j ∀ i , jB1 ∪ B2 ∪…∪ Bn =Ω
Poi possiamo considerare l’evento A come unione delle intersezioni dello stesso A con i
relativi Bi interessati:
Pr [ A ]=Pr [ ( A ∩ B1 ) ∪ ( A ∩ B 2) ∪ … ∪ ( A ∩ Bk ) ]
k k
Pr [ A ]=∑ Pr [ ( A ∩ Bi ) ] =∑ Pr [ ( A∨Bi ) ]∗Pr [ B i ]
i=1 i=1

La probabilità di un evento A concorrenziale ad un insieme di eventi Bi è pari alla somma


dei prodotti della probabilità condizionata di A rispetto a Bi e la probabilità di Bi stessa.

IDROLOGIA STATISTICA 4: Variabili Aleatorie e Indicatori


Definiamo variabile casuale una qualsiasi variabile che assume valori non certi o imprevedibili. Una
variabile casuale assume valori la cui entità dipende da una particolare occorrenza o risultato di un
esperimento. Ogni risultato corrisponde ad un valore numerico della variabile casuale.
Una variabile casuale può essere interpretata come una funzione definita sullo spazio campionario
di un esperimento così che ci sia un valore numerico corrispondente ad ogni possibile risultato. C’è
una probabilità associata ad ogni occorrenza nello spazio campionario.

Variabile Casuale Discreta


Una variabile casuale può essere statisticamente specificata dalla sua distribuzione o legge di
probabilità. Si definisce variabile casuale discreta una variabile che non può assumere tutti i valori
reali, ma solo alcuni. Nel caso discreto, la variabile può assumere solo un finito insieme di valori
isolati, come integrali positivi. È possibile descriverla mediante 3 Funzioni:
1. Funzione di massa di probabilità: la funzione massa di probabilità di una variabile casuale
X discreta fornisce le probabilità puntuale dei valori assunti dalla variabile stessa.
p X ( x )=Pr ⁡[ X =x]

Questa funzione deve rispettare i 3 assiomi della probabilità. L’esempio più elementare è
Bernoulli. X può assumere solamente i valori 0 ed 1: X ∈ { 0; 1 } : si può scrivere :

p X ( x=1 )= p
X
}
p X ( x=0 ) =1− p → p ( x )= p x ( 1− p )1− x

Questa variabile è molto utile per descrivere l’esperimento del lancio di una moneta, oppure il
generico superamento di un valore di soglia di una qualunque variabile, se si fissa ad esempio il
superamento come valore 1 ed il non superamento come valore 0.
2. Funzione di Distribuzione di Probabilità Cumulata: Per una variabile casuale X, la CDF è la
probabilità di non superamento del valore x. Si tratta di una funzione continua e monotona
crescente, limitata tra 0 ed 1. Nel caso discreto è fornita dalla somma dei valori della pmf.
xn
F X ( x) = ∑ p X (x i)
x i =x ( 1 )

Anche questa funzione deve rispettare i 3 assiomi della probabilità. Ciò che andiamo a fare
mediante l’operazione scritta sopra, è cumulare la probabilità per tutti i valori assumibili da una
variabile discreta, minore od uguale di un certo valore x n. Pertanto se la mia variabile discreta può
assumere i seguenti valori:
x 1 , x 2 , x 3 ,… , x n

Allora F X ( x n ) sarà la sommatoria di tutte le funzioni di massa di probabilità calcolate in tutti i valori
minori uguali di x n, perciò
F X ( x n )= p X ( x 1 ) + p X ( x 2 ) + p X ( x 3 ) +…+ p X ( x n )

Naturalmente se x n=x max sullo spazio campionario Ω → F X ( x max ) =1. Ciò che abbiamo appena
descritto, la funzione di distribuzione cumulata, è sostanzialmente parente delle frequenze relative
cumulate, e concettualmente esprime quindi la probabilità di non superamento.
3. Funzione di Sopravvivenza
x max
F X ( x n )=Pr [ X > x n ]= ∑ p X (xi )
x i =x n+ 1

È di fatto la probabilità complementare alla precedente, quindi esprime la probabilità di


superamento
F X ( x n )=1−F X ( x n )

Variabile Casuale Continua


Può assumere qualsiasi valore tra due limiti, determinati fisicamente o teoricamente. Tale valore
può essere definito da un numero infinito di cifre decimali, che nella pratica sono però limitati
dall’accuratezza degli strumenti di misura.
 Funzione Densità di probabilità: La legge di probabilità per una variabile continua è
specificata dalla funzione di densità di probabilità (pdf) che rappresenta il caso limite in cui
il poligono di frequenza è applicato ad un campione di numerosità infinita, con
un’ampiezza di classi tendente a 0.
Pr [ x ≤ X ≤ x +dx ]
f X ( x )= lim
dx → 0 dx
Parliamo di densità di probabilità in questo caso, non di massa, questo perché, essendo
nell’ambito di una variabile casuale continua, la probabilità che la nostra variabile assuma
esattamente uno specifico valore, su tutto R, è pressocché nulla, per cui si introduce un intervallo
di valori infinitesimo di cui si calcola il limite del rapporto incrementale.
Andando ad integrare:
x2 x2 x1

Pr [ x 1 ≤ X ≤ x 2 ] =∫ f X ( x ) dx= ∫ f X ( x ) dx− ∫ f X ( x ) dx=Pr [ X ≤ x 2 ]−Pr [ X ≤ x 1 ] =F X ( x 2 )−F X ( x 1)


x1 −∞ −∞

La pdf, come implicato dalla sua definizione, non è adimensionale, e dunque di per sé non
rappresenta una probabilità, ma indica un’intensità di probabilità o un tasso di probabilità. L’area
sottesa alla curva, compresa tra due limiti, fornisce la probabilità che la variabile X giaccia
nell’intervallo definito dai limiti.

 Funzione di Distribuzione di Probabilità (Cumulata)


x
F X ( x ) =∫ f X ( ξ ) dξ
−∞

È l’analogo delle frequenze relative cumulate, o delle funzioni di distribuzione cumulata, per cui
esprime la probabilità di non superamento.
x
d FX (x )
F X ( x ) =Pr [ X ≤ x ] = ∫ f X ( x ) dx f X ( x )=
−∞ dx

 Survival Probability Function


+∞
F X ( x ) =Pr [ X > x ] =∫ f X ( ξ ) dξ=1−F X (x )
x

Anche qui abbiamo la complementare della precedente, e che quindi esprime la probabilità di
superamento.

Indicatori di una Variabile Casuale


Ci sono dei cosiddetti indicatori di una variabile casuale che ne descrivono determinate proprietà e
sono estremamente importanti in ambito ingegneristico.
Media: La media aritmetica di un set di valori è semplicemente la media dei dati osservati, che
corrisponde al valore che ci si aspetta la variabile casuale possa assumere. μ( x ) oppure E [x ], può
essere definita sia per variabili casuali discrete che continue, e viene pesata sulla distribuzione di
probabilità. Si tratta di una misura importante della tendenza centrale della variabile casuale e la
rappresenta in modo appropriato.
n +∞
discreta μ ( x ) =∑ x i p X ( x i )continua μ ( x )=∫ x f X ( x ) dx
i=1 −∞

Si tratta di una media pesata fra tutti i valori che la variabile casuale può assumere, i pesi sono le
funzioni di massa di probabilità, la cui somma è al denominatore (vale 1).
Possiamo applicare l’operatore media anche a funzioni di X, ammesso che esista E[x]. E allora
avremo
n +∞
discreta E [ g ( x ) ]=∑ g ( x i ) P X ( x i )continua E [ g ( x ) ] =∫ g ( x ) f X ( x ) dx
i=1 −∞

Per cui, volendo fare un esempio, andando ad ipotizzare una forma semplice per la funzione
+∞ +∞
g ( X )=a X → E [ g ( x ) ] =∫ g ( x ) f X ( x ) dx=∫ a x f X ( x ) dx=a E[ x]
−∞ −∞

Questo ci permette di calcolare diversi semplici casi ricorrenti

g ( x )=a X → E [ g ( x ) ]=a E [ x ] g ( x )=a → E [ g ( x ) ]=ag ( x )=ax +b → E [ g ( x ) ]=a E [ x ] + b


g' ( x )=g ( x ) +h ( x ) → E [ g ' ( x ) ]=E [ g ( x ) ]+ E [h ( x ) ]

Il ricorso alle funzioni della variabile casuale X ci permette di introdurre il concetto di Momenti
Statistici:

g ( x )=( X −μ X ) R → E [ g ( X ) ]=E [ ( X −μ X ) R ]

Momento statistico di ordine R. La media, o il valore atteso, di una funzione o variabile, può essere
calcolato pesando la funzione tramite la sua funzione di massa o densità di probabilità, a seconda
che si tratti di una variabile discreta o continua. Tale procedura viene definita metodo dei
momenti, e costituisce una famiglia di media della variabile casuale che funge da descrittore del
comportamento della variabile casuale stessa.
Al variare del valore di R avremo indici differenti.

1. R=1: E [(X−μ X )] Di fatto possiamo considerare l’argomento dell’operatore come una


semplice funzione g ( x )=aX +b dove il coefficiente a vale 1, mentre il coefficiente b sarà
pari a −μ X , e quindi per quanto abbiamo visto:
E [ g ( x ) ]=a E [ x ] +b → E [ X−μ X ]=E [ X ]−μ X =μ X −μ x =∅

2. R=2: E [ ( X−μ X ) ] =σ X
2 2
Varianza
Si può scrivere in questo caso
[ ]
σ x =E [ ( X−μ X ) ]=¿E ( X 2−2 X μ X + μ 2X ) =¿E [ ( X )2 ] + E [−2 μ X X ] + E [ μ 2X ]=¿
2 2

E [ X ]−2 μ X E [ x ] + E [ μ X ] =¿ E [ X 2 ] −2 μ X μ X + μ2X =¿
2 2

σ x =E [ X ] −μ X =E [ X ] −( E [ X ] )
2 2 2 2 2

Da tale espressione possiamo ricavare diverse notazioni importanti


- Poiché σ 2x >0 → E [ X 2 ]> ( E [ X ] )
2

E [ X 2 ] può essere letto come E [ ( X −∅ ) ] ovvero come il momento di secondo ordine


2
-
rispetto all’origine
3. R = 3 generalmente in questo caso si ricorre ad un indice leggermente più complesso
E [ ( X−μ X ) ]
3

γ1 X = 3
σX
Ovvero il coefficiente di asimmetria.

E [ ( X−μ X ) ]= E [ ( X−μ X ) ]
3 3

γ1 X = =¿
{√ E [ X ]−( E [ X ]) }
3 3
σ x
2 2

E [ X −3 X μ X + 3 X μ X −μ X ] E [ x ]−3 μ X E [ x ] +3 μ X E [ x ]−μ X
3 2 2 3 3 2 2 3
¿ 3
= 3
=¿
{ √ E [ X ]−( E [ X ] ) }
2 2
{√ E [ X ]−μ }
2
X
2

E [ x ] −3 μ X E [ x ] +3 μ −μ E [ x ] −3 μ X E [ x ] +2 μ X
3 2 3 3 3 2 3
X X
¿ =
{ √ E [ X ]−μ }
3
{ √ E [ X ]−μ }
3
2 2 2 2
X X

Per cui in definitiva


γ 1 X =f ( E [ x ] , E [ x ] , E [ x ] =μ X )
3 2

Il coefficiente di asimmetria, definito a partire dal momento di terzo ordine rispetto alla
media, è una funzione dei momenti di 1°, 2° e 3° ordine rispetto all’origine.
Generalmente in idrologia le variabili aleatorie tipiche sono asimmetriche a destra, ovvero hanno
un valore positivo del coefficiente di asimmetria. Inoltre, in questa situazione, è valida la seguente
relazione
Moda< Mediana< Media
Quantili: Molti problemi ingegneristici richiedono di trovare la probabilità che un determinato
carico ecceda i livelli di progetto. Pertanto è importante introdurre il concetto di quantile,
associato ad un certo livello di probabilità q, definito come il più piccolo valore della variabile
aleatoria x, che soddisfa la seguente disuguaglianza:
F X ( x q )≥ q

Se la mediana è definita come il quantile 0.5, allora l’affermazione alla pagina precedente può
essere riscritta come
~
x < x 0.5 < x

4. R=4 : Coefficiente di Appiattimento, o di Kurtosis


E [ ( X−μ x )4 ]
γ2 x= 4
( σ x)
E [ x −4 x μ x +6 x μ x −4 x μ x + μ x ] E [ x ]−4 μ x E [ x ] +6 μ x E [ x ]−4 μ x E [ x ] + μ x
4 3 2 2 3 4 4 3 2 2 3 4

γ2 x= =¿ =¿
{ √ E [ x ]−( E [ x ] ) }
4 4
{ √ E [ x ]−( E [ x ] ) }
2 2 2 2

E [ x 4 ]−4 μ x E [ x 3 ] +6 μ2x E [ x 2 ]−4 μ 3x E [ x ] + μ 4x E [ x 4 ] −4 μ x E [ x 3 ] +6 μ2x E [ x 2 ] −4 μ 4x + μ4x


¿¿ ¿¿
E [ x ] −4 μ x E [ x ] +6 μ x E [ x ]−3 μ x
4 3 2 2 4

¿¿
IDROLOGIA FISICA 5: Tecniche di Stima dei Parametri
In ambito ingegneristico la statistica permette di ottenere informazioni rilevanti da un determinato
campione di dati. Assumendo di conoscere la distribuzione, i valori dei parametri che la
caratterizzano devono essere stimati dai campioni, un sottoinsieme della popolazione della
variabile.
Tutte le distribuzioni di probabilità, tanto per variabile discrete quanto continue, sono
caratterizzate da uno o più parametri, a priori incogniti, che devono essere determinati a partire
da un campione di dati osservati. Per determinare il vettore di parametri incogniti andiamo a
fornire una stima θ^ a partire da uno stimatore θ . Lo stimatore è definito come una vera e propria
variabile aleatoria, è la forma funzionale con cui fornisco una certa stima a partire dal campione di
dati. La stima è il valore numerico specifico, ottenuto dall’applicazione della formula stimatore al
campione di dati.

Metodo dei Momenti


Questo metodo si basa sull’uguaglianza di metodi teorici e campionari. I momenti campionari sono
calcolabili numericamente, mentre i momenti teorici sono funzione dei parametri o i parametri
stessi. Prendendo per esempio la distribuzione esponenziale, che ha un solo parametro, avremo
Distribuzione Esponenziale : X ∈ ( 0; +∞ ) → F X ( x ) =1−exp {−λx }

Basterà dunque eguagliare un momento


+∞ +∞ − λx
de
E [ x ] =μ x =∫ x f x ( x ) dx=∫ x λ e−λx dx ma λ e− λx =−d e−λx infatti =−λ e
− λx

0 0 dx
+∞
E [ x ] =∫ −x d ( e−λx ) ed integrando per parti
0

}
∞ 100
g ( x )=x → g ( x ) d h ( x ) = d g ( x ) h ( x ) − h ( x ) d g ( x )
∫ ( ) ∫ [ ] ∫ ( ) E [ x ] =∫ d [− ( x e ) ] + ∫ e−λx dx
− λx
h ( x )=e− λx 0 0

− λx ∞
il primo termine è semplicemente l integrale diun differenziale E [ x ] =−[ x e
'
] +∫ e− λx dx
0
0

[ ]
∞ ∞
−1 − λx −1
Il primo terminerisulta nullo sia per x =0 che per x=∞E [ x ] =∫ e−λ x dx= e = [ ∅−1 ] = 1
0 λ 0 λ λ
1 1 −1
Per cui E [ x ] =μ x = → λ= =E [ x ]
λ μx

Naturalmente se dovessimo avere due parametri eguaglieremo 2 momenti, se θ è il vettore di


parametri incogniti, scriveremo
^ ( ^μ x , σ^ 2x )=f (x , s 2x )
θ=f ( μ x , σ 2x ) → θ=f

E se necessitassi di 3 o 4 parametri dovrei aggiungere rispettivamente anche il coefficiente di


asimmetria e Kurtosis. Il problema legato a questo metodo è che, per campioni di numerosità
ridotta (<30 elementi), la stima degli indici non risulta essere robusta. Il metodo in questo caso
risentirebbe eccessivamente degli outliers.
In generale infatti, il valore numerico del momento campionario può differire significativamente
da quello della distribuzione di probabilità da cui è generato, se la numerosità del campione è
ridotta. Dall’altro lato questo metodo fornisce stime ottenibile facilmente nella stragrande
maggioranza dei casi, che sono considerate essere consistenti, ovvero che convergono al valore
reale del parametro per una dimensione del campione crescente.

Metodo dei Momenti pesato in probabilità


I momenti pesati in probabilità (pwms) sono dei valori attesi di funzioni di quantili e probabilità di
non superamento di una variabile casuale. A differenza dei momenti statistici non hanno una
connotazione fisica. I momenti pesati in probabilità caratterizzano una distribuzione come i
momenti statistici, ma sono meno soggetti a effetti negativi del campione.
Anche in questo caso si pone un’uguaglianza fra momenti teorici e campionari, che però vengono
pesati in probabilità, come suggerito dal nome.

[ ]
X ∗F X ( x ) ∗( 1−F X ( x )) =E [ g ( x ) ]=∫ g ( x ) f X ( x ) dx
i j k
β ijk=E ⏟
Pesi

Dove il peso j-esimo fa pesare maggiormente la coda destra, mentre quello k-esimo fa pesare
maggiormente la coda sinistra, e con j=k =0 si ottiene un classico momento di ordine i rispetto
alla media. La scelta comunemente presa è di scegliere un valore di i pari ad 1 e di k pari a 0, il che
significa

β 1 j 0=β j=E [ X F X ( x ) ]
j

I momenti campionari pesati in probabilità saranno


n
1
b j= ∑ x F (x)j
n i=1 i X

E quindi nei rispettivi casi:


 1 Parametro Incognito → β 100 =b100 → μ x =^μ x

{
n
1
β110 =b110 → E [ X F x ( x ) ]= ∑ x F (x )
n i=1 i i i
 2 parametri incogniti →
β 100 =b100 → μ x =^μx
Metodo degli L-Moments
Questo metodo deriva dal precedente, in quanto si sfruttano dei particolari momenti, denominati
“L-Moments”, che sono delle combinazioni lineari dei momenti pesati in probabilità. Sono funzioni
dei pwms, della posizione, scala ed altre proprietà che caratterizzano una distribuzione, e sono
pertanto utilizzabili per la stima dei parametri.

λ 1=β 100=μ x λ 2=2 β 110 −β 100 λ 3=6 β 120 −6 β 110 + β 100 λ 4=20 β 130 −30 β 120 +12 β110 −β 100

Gli “L-Moments” sono combinazioni lineari delle osservazioni, e pertanto non necessitano di
elevamenti quadratici o cubici a potenza, come invece richiesto dagli stimatori di varianza,
asimmetria e Kurtosis. Pertanto, gli “L-Moments” risultano molto meno variabili che la loro
controparte convenzionale, e sono distribuiti quasi normalmente.

Metodo della Massima Verosimiglianza


Questo metodo si basa sulla massimizzazione della funzione di verosimiglianza (Likelihood in
inglese). Abbiamo la variabile casuale X, la funzione f X ( x ,θ) con θ vettore dei parametri incogniti, ed
un campione di valori osservati (x 1 , x 2 ,… , x n) . Allora possiamo definire la funzione di verosimiglianza
come
n
L (θ )=∏ f X ( xi , θ ) =f X ( x1 , θ )∗f X ( x 2 ,θ )∗…∗f X ( xn , θ)
i=1

E la massimizzazione di tale funzione avviene risolvendo, per via analitica o numerica, il seguente
sistema

{
dL
=0
d θ1
dL
=0 → dL
dθ =0
d θ2

Spesso, dovendo calcolare la funzione di verosimiglianza come la produttoria di molteplici numeri


molto piccoli, viene utilizzato il logaritmo naturale
n
ln ( L ( θ ) )=∑ ln ( f X ( x i , θ ) )
i=1
Lo stimatore di massima verosimiglianza è consistente ed è spesso preferito agli altri per la stima
dei parametri di una distribuzione. D’altro canto, si ha la necessità di campioni di elevata
numerosità per non fornire una stima scorretta. Inoltre questo metodo non fornisce stime con
varianze inferiori rispetto agli altri e in alcuni casi il massimo della funzione di verosimiglianza non
è calcolabile o lo è solo per via numerica.
Vediamo un esempio di applicazione per la distribuzione Normale: si tratta di una distribuzione in
cui i parametri stessi sono dei momenti, infatti i parametri risultano μ x e σ x.

[ ( )]
2
1 −1 x −μ x
X N ( μx , σ x )→ f X ( x ) = exp
√2 π σ x 2 σx

Avendo a disposizione un campione di n valori noti, calcoliamo


L ( x , μ x , σ x )=f X ( x 1 , μ x , σ x )∗f X ( x 2 , μ x , σ x )∗f X ( x3 , μx , σ x )∗…∗f X (x n , μ x , σ x )

ln ( L ( x , μ x , σ x ) ) =ln f X ( x 1 , μ x , σ x ) +ln f X ( x 2 , μx , σ x ) + ln f X ( x3 , μx , σ x ) + …+ln f X ( x n , μ x , σ x )

{ [ ( ) ]} ∑ { [ [ ]}
n 2 n 2
1 −1 x−μx 1 x i−μ x
¿ ∑ ln
i=1 √2 π σ x
exp
2 σx
=
i =1
ln (√ 2 π σ x )
−1
] −
2 σx
=¿

( ) ( )
n 2 n 2
1 xi −μ x 1 x i−μ x
¿ n ln [ ( √2 π σ ) ]x
−1
−∑
i=1 2 σx
per cuiln ( L ( x , μ x , σ x ) ) =−n ln [ √ 2 π σ x ]− −∑
2 i=1 σx

Dobbiamo ora massimizzare questa funzione rispetto ai due parametri μ x e σ x

[
d ln ( L ( x , μ x , σ x ) ) ] = −1 ( 2 )
( ) ( )
n
−1 x i−μ x
d μx 2 σx
∑ σx
=∅
i=1

[
d ln ( L ( x , μ x , σ x ) ) ] =−n 1 − 1 (−2 ) σ n

d σx σx 2
( x)
−3
∑ ( xi −μx ) =∅
i=1

Otteniamo il seguente sistema

{ { {
n n
1
2∑( i
n n

σ x i=1
x −μ x )=0 ∑ ( xi −μ x )=0 ∑ x i−∑ μ x=0
n
= i=1
n
= i=1 i=1
−n 1 1 n
+ 3 ∑ ( x i−μ x ) =0
2
−n+ 2 ∑ ( xi −μx )2=0
σ x σ x i=1 σ x i=1 ∑ ( x i−μ x ) 2=n σ 2x
i=1

Da cui infine otteniamo

{
n
1
μ x = ∑ xi =^μ x
n i=1
n
1
σ x=
2

n i=1
(
2 2
x i−μ x ) =σ^ x

Quindi applicando il metodo della massima verosimiglianza o il metodo dei momenti alla
distribuzione normale otteniamo il medesimo risultato.
Teorema delle Distribuzioni Derivate
Viene utilizzato per ricavare la funzione densità di probabilità di una variabile aleatoria che è
funzione di un’altra variabile aleatoria di cui conosciamo la funzione densità di probabilità.
X : variabile aleatoria di distribuzione nota

Y =g ( X ) :dobbiamo determinare la distribuzione di probabilità diY → X=g−1 (Y )


Dobbiamo per fare ciò distinguere due casi, a seconda che la funzione g sia monotona crescente o
decrescente, perché tale caratteristica va ad influenzare il segno o andamento dell’inversa inversa
−1
g . Per cui

g mon . crescente : FY ( y )=Pr [ Y ≤ y ] =Pr [ g ( X ) ≤ y ] =Pr [ g ( g ( x )) ≤ g ( y ) ]


−1 −1

F Y ( y )=Pr [ X ≤ g ( y ) ]=F X ( g ( y ) ) → F Y ( y ) =F X ( g ( y ) )
−1 −1 −1

g mon . decrescente : F Y ( y )=Pr [ Y ≤ y ] =Pr [ g ( X ) ≤ y ] =Pr [ g ( g ( x )) ≥ g ( y ) ]


−1 −1

F Y ( y )=Pr [ X ≥ g ( y ) ] → F Y ( y )=1−F X ( g ( y ) )
−1 −1

Questo è valido sia per variabili casuali continue che discrete, se però la variabile è continua ci
interesserà anche conoscere
d FY ( y )
f Y ( y )= →¿
dy
Visto che la derivata dell’inversa di g rispetto ad y sarà positiva nel primo caso e negativa nel
secondo.
IDROLOGIA STATISTICA 6: Distribuzioni di Probabilità di V.C.
Discrete
Una distribuzione discreta viene utilizzata per modellare una variabile casuale che può assumere
un insieme finito di valori nello spazio campionario. In questi casi solitamente si è interessati ad un
esperimento consistente in una singola prova, il cui risultato deve appartenere a due categorie,
solitamente successo e insuccesso.

Distribuzione di Bernoulli
È una distribuzione utile a modellare una variabile casuale che può assumere solo due valori, 0 ed
1, che devono corrispondere ad eventi mutuamente escludentisi ed equiprobabili. Generalmente il
valore 1 è associato all’evento “Successo” ed il valore 0 è associato all’evento “Fallimento”. Le
funzioni caratteristiche di questa distribuzione sono:

{
x 1−x
p X ( x )= p ( 1− p ) se x={0 ; 1 }
∅ se x ≠ {0 ; 1 }

Dove p è la probabilità elementare di successo, ed è l’unico parametro della distribuzione. q=1− p


è la probabilità elementare di fallimento, conseguentemente. Il valore atteso e la varianza di tale
distribuzione saranno:
1 1
μ x =E [ x ]=∑ x p x ( x )=∑ x p x ( 1− p )
1− x
=p → μ x =p
x=0 x=0
1
σ x =VAR [ x ] =E [ x ]−( E [ x ] ) =∑ x 2 p x ( x )− p2= p− p2 → σ 2x = p(1−p)
2 2

x=0

Distribuzione Uniforme
È una distribuzione utile a modellare un esperimento in cui la variabile può assumere N valori,
mutuamente escludentesi ed equiprobabili, indicati con x i , i=1 … N

Le funzioni caratteristiche di questa distribuzione sono:

{
1
se x =xi
densità o massa di probabilità p X ( x )= N i=1 , … , N
∅ se x ≠ x i

{
i
se x=x i
Distribuzione Cumulata F X ( x )= ∑ p X (x i )= N
i: X ≤ x
i
∅ se x ≠ x i

La sua varianza ed il suo valore atteso saranno:


N N N N
1 1 1 1 N ( N + 1) N +1
μ x =∑ x i p x ( xi )=∑ x i = ∑ x i= ∑ i= → μ x=
i=1 i=1 N N i=1 N i=1 N 2 2

( )
N 2
1 N +1 2 1 N ( N + 1 )( 1+2 N ) ( N +1 ) N 2−1
σ x =E [ x ]−( E [ x ] ) =∑ x i
2 2 2 2 2
− = − → σ x=
i=1 N 2 N 6 4 12
Distribuzione Binomiale
Si tratta di una distribuzione utile a descrivere la combinazione di n esperimenti di tipo
Bernoulliano, cioè ciascuno dei quali, preso singolarmente, può essere descritto con una Bernoulli.
Vogliamo ad esempio considerare la variabile “ X =n ° di successi∈n esperimenti bernoulliani”.
Consideriamo la probabilità di avere 1 successo in 4 lanci di moneta. I possibili scenari sono

{ {
1 ° :T C C C Pr [ x=testa ∩ x=croce ∩ x=croce ∩ x=croce ]
2 ° :C T C C La probabilità sarà per ciascuno Pr [ x=croce ∩ x =testa ∩ x=croce ∩ x=croce ]
3 ° :C C T C Pr [ x=croce ∩ x =croce ∩ x=testa ∩ x=croce ]
4 ° :C C C T Pr [ x=croce ∩ x =croce ∩ x=croce ∩ x=testa ]

Ma la probabilità congiunta di eventi indipendenti è il prodotto delle elementari


Pr [ x=T ]∗Pr [ x=C ]∗Pr [ x=C ]∗Pr [ x=C ] = p∗( 1− p )∗ (1− p )∗(1− p)

E la probabilità di ciascuno scenario è


3
p ( 1− p )

Ma gli scenari sono da sommarsi, quindi in definitiva la probabilità di avere un successo in quattro
esperimenti è pari a:
3
P=4 p ( 1− p ) ≅ 31.25 %

Quindi, generalizzando, se definiamo con x il numero di successi e con n il numero di esperimenti


Bernoulliani, la probabilità sarà definita come

()
p x ( x )= n p (1−p ) =
x
x n−x n!
x ! ( n−x ) !
x
p ( 1− p )
n− x

Il coefficiente binomiale ( nx ) indica il fatto il numero di modi, o scenari, in cui il mio risultato può
essere ottenuto.
Calcoliamo il valore atteso e la varianza
n n

x=0
()
μ x =E [ x ]=∑ x n p x ( 1− p ) =∑
x
n− x x n!
x=0 x ! ( n−x ) !
n− x
p x ( 1− p ) =¿
n ( x−1) n−x n
x n ( n−1 ) ! p p ( 1− p ) ( n−1 ) ! p x−1 ( 1− p )n− x
¿∑ =n p ∑
x=0 x ! ( n−x ) ! x=0 ( x −1 ) ! ( n−x ) !
Effettuando una sostituzione in cui y=x −1
n−1
( n−1 ) ! p y ( 1− p )n−1− y
μ x =n p ∑ =np
y=0 y ! ( n−1− y ) !

Perché la serie converge ad 1. Dunque


1
μ x =np
2
σ x =np ( 1−p )
Distribuzione di Poisson
È una distribuzione asintotica della binomiale, nel senso che è una binomiale con numero di
esperimenti Bernoulliani infinito, ovvero avremo un numero n enorme di esperimenti e
conseguentemente una probabilità di successo elementare p molto piccola. Il prodotto tra n e p
esisterà e sarà comunque finito.
Ricordando che per la binomiale vale

Binomiale→
()
p x ( x )= n p (1−p )
x
x n−x

x
F ( x )=∑ ( n) p ( 1− p )
k n−k
X
k=0 k

Per ottenere una Poisson andremo a calcolare il limite per n che tende ad infinito

( )( )
x n−x

n→∞ ()
lim px ( x )=lim n p x ( 1− p ) =
n →∞ x
n−x n! ν
x ! ( n−x ) ! n
1−
ν
n
x
Con ν=np ≅n

( )( ) n ( n−1 ) ( n−2 )( … )( n−x+1 )( n−x ) !


x n−x
n! ν ν
lim 1− =lim …
n→∞ ( )
x ! n−x ! n n n→∞ x ! ( n−x ) !

( )( ) ( )
x x n −x x n
n ν ν ν ν ν
¿ lim x
1− 1− =lim 1−
n→∞ x ! n n n n →∞ x ! n

Andiamo ad analizzare il secondo fattore


1
→ sviluppo∈serie →1+ z + z 2+ z3 …
1−z
1
Possiamo integrare entrambi i membri, con l’integrale di che vale: −ln ( 1−z )
1−z

z2 z3 z4
−ln ( 1−z ) =z+ + + +…
2 3 4
ν
Sostituendo a z otteniamo
n

( ) () ()
2 3
ν ν 1 ν 1 ν
−ln 1− = + + +…
n n 2 n 3 n

Moltiplicando entrambi i membri per n prima, e poi per -1

( )
−n ln 1−
ν
n
=ν +
1 ν 2 1 ν3 1 ν 4
+ 2+
2 n 3 n 4 n3
…n ln 1−
ν
n
=−ν −
ν2
− ( )
ν3

ν4
2 n 3 n2 4 n3

( )
n 2 3 4
ν ν ν ν
ln 1− =−ν − − 2 − 3
n 2n 3n 4n

Da cui risulta facilmente intuibile che


( ) [ ]
n 2 3 4
ν ν ν ν
lim ln 1− = lim −ν − − 2 − 3 =−ν
n→∞ n n→ ∞ 2n 3n 4n

Ma quindi

lim 1−
n→∞
( ) ν n
n
=exp (−ν )

Indi per cui

lim
n→∞
( )
νx
x!
ν n νx
1− = exp (−ν )
n x!

E dunque
x
ν x −ν ν k −ν
p x ( x )= e F X ( x ) =∑ e
x! k=0 k !

Ed il valore atteso e varianza varranno

μ x =E [ x ]=ν=np σ 2x =VAR [ x ] =ν=np

E [ x ] =VAR [ x ]
Se media e varianza campionarie di un campione di dati coincidono si può ipotizzare un comportamento
Poissoniano per la variabile.

Distribuzione di Poisson Troncata


In idrologia, la Poisson descrive bene il numero di eventi di piena in un anno. Ma è possibile
operare una troncatura, un condizionamento, che può essere svolto a destra, cioè si eliminano
alcuni valori a destra nella distribuzione, o a sinistra, cioè si eliminano alcuni valori a sinistra nella
distribuzione. Da un punto di vista probabilistico, come traduciamo la troncatura?
X P= { 0 ,1 , 2 ,3 , … } → X PT ={ 1 ,2 , 3 , … } → Pr [ X =x| X ≥1 ¿ ¿

Ma la teoria della probabilità condizionata, ci dice che


Pr [ A ∩ B ]
Pr [ A|B ]=
Pr [ B ]
Possiamo quindi scrivere

ν x −ν
e
¿ Pr [ X=x ] x !
Pr [ X =x| X ≥ 1 ¿ = ∀ x ≥ 1=
Pr [ X ≥ 1 ] Pr [ X ≥ 1 ] 1−e
−ν

Infatti
x
ν −ν
Pr [ X ≥1]=1−Pr [ x=0 ] =1− e =1−e−ν
x!
Quindi possiamo scrivere
x −ν
ν e 1
Pr [ X =x| X ≥ 1 ¿ ¿=
x ! 1−e−ν

E generalizzando ad una troncatura a destra in m


x −ν m k −ν
ν e 1 ν e
Pr [ X =x| X ≤ m ¿ ¿= con F X ( m) =∑
x ! F X (m) k=0 k!

E per una troncatura a sinistra in m

ν x e− ν 1
Pr [ X =x| X ≥ m ¿ ¿=
x ! 1−F X (m)

Distribuzione Binomiale Negativa


Immaginiamo di essere interessati ad avere r successi in un esperimento Bernoulliano ma in modo
tale che, di questi, l’ultimo successo coincida con l’ultimo risultato dell’esperimento.
V .C . X : numero di esperimenti per r successi ∈ { r ; r+ 1;r +2 ; … ;∞ }

Poi possiamo considerare la generica variabile casuale binomiale


V .C . X ' : numero di esperimenti per avere r−1 successi∈x−1 esperimenti

( )
X = x −1 p (1− p )
r −1
r−1 [ ( x−1) −( r −1 ) ]

Con questa distribuzione proviamo a valutare la probabilità di avere in un generico ordine r-1
successi in x-1 esperimenti
Se aggiungiamo qualcosa a tale distribuzione possiamo passare dalla descrizione di X’ a quella di X,
ovvero facendo in modo che tenga in considerazione un ulteriore esperimento, che sia un
successo. Andiamo cioè ad intersecare la probabilità di avere r-1 successi in x-1 esperimenti, con la
probabilità di avere un ulteriore successo (semplicemente p). Da questo ragionamento otteniamo

( )
p X ( x )= x−1 p ( 1− p )
r−1
r −1 [ ( x−1) − ( r−1) ]
( )
∗p= x−1 p ( 1− p )
r−1
r (x−r )

( )
F X ( x ) =∑ k−1 p r (1−p )[ k−r ]
k=r r −1

Quella appena calcolata viene definita distribuzione binomiale negativa, che fornisce la probabilità
di avere r successi in x esperimenti con l’ultimo esperimento che è un successo.
C’è una differenza concettuale sottile ma importante tra le due distribuzioni. Con la binomiale si
fissa il numero n di esperimenti, e calcolo la probabilità di avere un certo numero x di successi.
Quindi la variabile x si riferisce al numero di successi, e per questo nel coefficiente binomiale sta al
denominatore.
Con la binomiale negativa si fissa il numero di successi, e si calcola la probabilità di avere quei
successi in x esperimenti, in modo che l’ultimo esperimento sia un successo. Naturalmente per
avere r successi il numero minimo di esperimenti sarà r. La variabile x in questo caso si riferisce al
numero di esperimenti, e per questo, nel coefficiente binomiale, è al denominatore.
Distribuzione Geometrica
Ricollegandoci al caso della binomiale negativa, supponiamo di essere interessati ad ottenere la
probabilità di avere 1(=r) successo in x esperimenti. Tale situazione è ricollegabile ad una
frequente casistica in idrologia, possiamo infatti immaginare il successo come l’occorrenza di un
evento di piena che supera una certa soglia di portata, ed il numero di esperimenti come il numero
di anni.
( x−1 ) !
( )
P X ( x )= x−1 p ( 1− p ) x−1=
0 0 ! ( x−1 ) !
p ( 1− p ) x−1= p (1−p )x−1r =1

Andiamo a calcolare il valore atteso di tale distribuzione



E [ x ] =∑ x p ( 1− p )
x−1
=?
x=1

Procedendo per termini, sappiamo, dall’analisi matematica, che la serie


∞ ∞

∑ (1− p ) = 1−p p per cui ∑ −( 1− p )x=1− 1p


x

x=1 x=1

Se derivo la funzione −( 1− p )x rispetto a p, ottengo l’argomento della serie del valore atteso meno
il prodotto per p.
d
dp
[ −( 1− p ) x ] =−(−1 ) x ( 1− p ) x−1 =x ( 1− p ) x−1

[ ]
∞ ∞
d d 1 1
∑ −( 1− p ) x=∑ x ( 1−p )x−1= dp
dp x=1
1− = 2
p p
x=1

Moltiplicando a destra e sinistra per p infine ottengo



1
E [ x ] =∑ p x ( 1− p )
x−1
=
x=1 p

Passiamo ora al calcolo della varianza

VAR [ x ] =E [ x 2 ] −( E [ x ] )
2

Possiamo riscriverla come



E [ x ( x−1 ) ] =E [ x ] −E [x ]=∑ x ( x−1 ) p ( 1− p )
2 x−1

x=1

Partendo dalla stessa funzione utilizzata per il valore atteso, posso, se la derivo una seconda volta,
ottenere la seguente forma
2
d ( d
2
[ 1− p )x ]= dp [−x (1− p )x−1 ]=x ( x−1 )( 1−p )x−2=x ( x−1 )( 1− p )−1 ( 1− p )x−1
dp
Dalla quale notiamo come sia possibile ottenere l’espressione per la varianza
( 1−p )∗d 2 ∞
p 2
[ ( 1−p )
x
] = ∑ x ( x−1 ) p ( 1−p )
x−1

dp x=1

E quindi

[ ]
2
( 1− p )∗d 1 2
E [ x ]−( E [ x ] ) = p
2 2
−1 = p ( 1− p ) 3
dp
2
p p
2−2 p 2−2 p 1 2− p
E [ x 2 ]−E [ x ] = −da cui → E [ x 2 ]= + = 2
p
2
p
2
p p
2− p 1 2− p−1
VAR [ x ] = 2
− 2= 2
p p p
1− p
VAR [ x ] =
p2
Per approfondire quanto visto in un caso concreto idrologico, andiamo a considerare la variabile
Y :massimo annuale di portata al colmo. Per ogni anno abbiamo dei campioni di portata, e per
ciascun anno consideriamo il massimo.
10
Se andiamo a definire un valore di soglia
9
y , in base al grafico rappresentato dei
¿
y* 8
7 massimi annuali di portata, il tempo
6 necessario per osservare un valore
5
maggiore della soglia limite sarebbe un
Q

4 ~
3 periodo temporale T pari, in questo
~
2 caso, a sette anni. Se ora consideriamo T
1 come una variabile discreta (anni),
0
1 2 3 4 5 6 7 8 9 possiamo definire
Anni
~
Pr [ T =n ] =?
~
Cerchiamo innanzi tutto di esprimere l’evento T =n con riferimento alla precedente variabile Y:

{~
T =n }={Y 1 ≤ y¿ ∩ Y 2 ≤ y ¿ ∩Y 3 ≤ y ¿ ∩ …∩Y n−1 ≤ y ¿ ∩Y n > y ¿ }

Si tratta di tutti eventi indipendenti, per cui


~
Pr [ T =n ] =Pr [ Y 1 ≤ y ]∗ Pr [ Y 2 ≤ y ]∗…∗Pr [ Y n−1 ≤ y ]∗ Pr [ Y n > y ]
¿ ¿ ¿ ¿

Possiamo vedere l’evento “superamento” con un successo di probabilità “p”, mentre l’evento
“non superamento” come un fallimento di probabilità “(1-p)”. Quindi
~
Pr [ T =n ] =( 1− p ) p
n−1

~
Ma questa è la distribuzione geometrica, per cui la variabile T è distribuita secondo una
distribuzione geometrica. Il tempo di ritorno T è invece la media di una distribuzione geometrica
~
di T , infatti:
1 ~
T = =E[ T ]
p
È il tempo medio che intercorre tra due eventi di superamento successivi di una certa soglia.
~ 1 1 1 1
T R =E [ T ] = = = =
p Pr [ Y > y ] 1−Pr [ Y ≤ y ] 1−FY ( y ¿ )
¿ ¿

Nella pratica si opera al rovescio, ovvero

1. Si fissa un Tempo di ritorno T R


2. Si calcola la corrispondente probabilità di superamento p
¿
3. Si calcola il valore di F y ( y )
¿ ¿ −1
4. Si calcola il quantile y corrispondente y =FY ( 1− p)

Il tempo di ritorno è il reciproco della probabilità di superamento


IDROLOGIA STATISTICA 7: Distribuzioni di V.C. Continue
Le distribuzioni continue sono applicabili quando la variabile casuale che devono andare a
rappresentare può assumere qualsiasi valore tra due limiti definiti.

Distribuzione Uniforme
È la tipologia più semplice di distribuzione, in cui la pdf è, come suggerito dal nome, costante
sull’intervallo di definizione. Viene di fatto anche chiamata distribuzione rettangolare perché
assume valore 0 in qualsiasi punto non appartenga all’intervallo di definizione. Questo significa
che tutti i valori assumibili dalla variabile casuale tra il limite inferiore a ed il limite superiore b
hanno la medesima probabilità di occorrenza.
x
1 1 x−a
X ∈ [ a ,b ] f X ( x )= F X ( x ) =∫ dx=
b−a a b−a b−a
Possiamo poi dunque andare a calcolare il
valore atteso e la varianza, che varranno per la
distribuzione uniforme:
b b
x
E [ x ] =∫ x f X ( x ) dx=∫ dx=¿
a a b−a

[ ]
2 b
1 x 1 1
¿ = [ b2−a2 ]
x b−a 2 a 2 b−a
a b
1 (a+ b)( a−b) 1
¿ = ( a+b )
2 (a−b) 2
1
1
E [ x ] = ( a+b )
2
E la varianza potrà essere calcolata come

a b x

[ ] [ ]
b 2 3 b
1 1 x 1
VAR [ x ] =E [ x ] −( E [ x ] ) =∫ x f x ( x ) dx− ( a+ b ) =
2 2 2 2
− ( a+ b ) =¿
a
2 b−a 3 a 4
b3−a3 1 2 ( b2 +ab+ a2 ) ( b−a ) 1 2
¿ − ( a+b ) = − ( a+b )
(
3 b−a ) 4 (
3 b−a ) 4
4 ( b2 +ab +a2 ) −3 ( a2 +2 ab+b 2 )
2 2
1 1 b −2 ab+ a
¿ ( b 2+ ab+a 2) − ( a2 +2 ab+ b2 )= =¿¿
3 4 12 12

( b−a )2
VAR [ x ] =
12
La distribuzione uniforme è estremamente importante per la simulazione Montecarlo, ma anche
perché ci permette di enunciare il

Teorema di Trasformazione dell’Integrale di Probabilità


Supponiamo che la variabile casuale X sia distribuita secondo una F X (x ) nota, e di avere una
funzione Y =g (X ) con g(∙)≡ F X (∙); allora, indipendentemente dalla forma di F X ( x ), la
distribuzione di Y sarà uniforme in { 0 ; 1 }.

λ 1

x x

X F X ( x ) →Y =g ( x ) con g ( ∙ ) ≡ F X ( ∙ ) → alloraY U ( 0,1 )

Per la dimostrazione del seguente teorema sarà sufficiente dimostrare che F Y ( y )= y

Scriviamo

F Y ( y )=Pr [ Y ≤ y ] =Pr [ F X ( x ) ≤ y ]=Pr [ F−1


X ( F X ( x ) ) ≤ F X ( y ) ] =Pr [ X ≤ F X ( y ) ] =F X ( F X ( y ) )= y → F Y ( y )= y
−1 −1 −1

Facendo ciò supponiamo che la F X ( x ) sia monotona crescente, per cui applicando l’inversa il segno
all’interno delle parentesi non varia.

Distribuzione Esponenziale
Per la distribuzione esponenziale avremo:

X ∈ [ 0 ;+ ∞ ) f X ( x )=λ e− λ x F X ( x ) =1−λ e− λx

Si tratta di una distribuzione strettamente legata alla Poisson, cui abbiamo visto assumere la
seguente forma:
y −ν
ν e
( )
pY y =
y!
Supponendo che questa variabile rappresenti il numero di occorrenze di un fenomeno su una
certa finestra temporale, E [ Y ] =ν rappresenterà il numero medio di occorrenze in tale finestra. Se
andiamo ad indicare con λ il tasso medio di occorrenze, avremo
ν
λ=
t
Se poi consideriamo il caso di assenza di occorrenze

ν 0 e−ν −ν −λt
y=0→ PY ( 0 )= =e =e
0!
Utilizzando tale risultato ed andando a considerare una nuova variabile casuale, ovvero il tempo
T : “tempo fra due occorrenze successive”, troviamo che la cdf di questa nuova variabile sarà

Pr [ T >t ] =e =e → Pr [ T ≤ t ] =1−e
−ν − λt − λt

Con il simbolo maggiore Pr [ T >t ] si va ad intendere che nella finestra temporale T non vi saranno
occorrenze. La distribuzione esponenziale quindi descrive il tempo che intercorre tra due
occorrenze successive di un processo poissoniano, cioè descritto da una distribuzione Poissoniana.
Può essere utile notare che la distribuzione esponenziale è applicabile ad altre grandezze fisiche
oltre a quella temporale, ed inoltre tale distribuzione è il corrispettivo per variabili continue di
quelle che la distribuzione geometrica era per variabili discrete.
La pdf della distribuzione esponenziale è ottenibile differenziando la cdf:
− λx
f X ( x )=λ e

Andiamo a calcolare le statistiche fondamentali


∞ ∞ ∞ ∞ ∞
E [ x ] =∫ x f X ( x ) dx=∫ x ( λ e
− λx
) dx=∫ x d (−e− λx )¿ ∫ d [ x∗(−e−λx ) ]−∫ −e−λx dx
0 0 0 0 0

Da cui

[ ]
∞ ∞
∞ −1 −λx 1
E [ x ] =[−x e− λx ]0 +∫ e− λx dx= e =
0 λ 0 λ

1
E [ x ]=
λ
2 1 1
VAR [ x ] =E [ x ] −( E [ x ] ) =
2 2
− =
λ2 λ2 λ2
1
VAR [ x ] =
λ2
Calcoliamone anche la mediana, ovvero il quantile x 0.5
0.69
=0.5−λ x 0.5 =ln ( 0.5 ) x 0.5=
− λx − λx
0.5=1−e e
λ
Ed il coefficiente di variazione
σ x 1/ λ
CV = = =1
μ x 1/ λ

Così come nel caso della distribuzione geometrica, la distribuzione esponenziale modella un
comportamento, derivante dalla distribuzione di Poisson, che è indipendente dalle presenti o
passate occorrenze.
Si dice che questa distribuzione gode della proprietà di Assenza di Memoria, ovvero:
consideriamo la variabile casuale X e 3 valori che essa può assumere, x 1 , x 2 e x1 + x 2. Vogliamo
calcolare la probabilità che si verifichi l’evento X > x 1 + x 2, posto che si sia verificato X > x 1

Si dice che la variabile casuale gode di assenza di memoria se

Pr [ X > ( x 1+ x2 ) ∨X > x 1 ]=Pr [ X > x 2 ]

Pr [ X> ( x 1+ x 2 ) ∩ X > x 1 ]
Pr [ X > ( x 1+ x2 ) ∨X > x 1 ]=
Pr [ X > x 1 ]

Noi sappiamo che

Pr [ X ≤ ( x 1 + x 2) ]=1−e → Pr [ X > ( x 1 + x 2 ) ]=e


−λ ( x1 +x 2) − λ ( x 1+ x 2 )
Pr [ X ≤ x 1 ] =1−e− λ x → Pr [ X > x 1 ] =e− λ x
1 1

Quindi possiamo scrivere

exp {−λ ( x 1+ x 2 ) } exp {− λ x1 } exp {− λ x2 }


Pr [ X > x1 + x 2∨X > x1 ]= = =Pr [ X > x 2 ]
exp {−λ x 1 } exp {−λ x 1 }

Abbiamo visto come la probabilità condizionata si traduca sostanzialmente in un


ridimensionamento dello spazio campionario. La proprietà di assenza di memoria consente ad una
determinata distribuzione che goda di tale peculiarità, di non risentire di tale ridimensionamento.

Distribuzione Esponenziale Shiftata


X ∈ [ ε ; +∞ ) f X ( x )=λ exp (−λ ( x −ε ) ) F X ( x ) =1−λ exp ( λ ( x −ε ) )
∞ ∞
E [ x ] =∫ x λ exp {− λ ( x −ε ) } dx=∫ ( y + ε ) λ exp {−λy } dy
ε 0

∞ ∞ ∞
1 1 − λy ∞ 1
¿ ∫ y λ exp {−λy } dy+∫ ε λ exp {−λy } dy= +ε ∫ λ exp {− λy } dy ¿ + ε [−e ] 0 = +ε
0 0 λ 0
λ λ

1
E [ x ] = +ε
λ

( )
2
1
VAR [ X ] =E [ x ]−( E [ x ]) =E [ x ] −
2 2 2
+ ε =¿
λ
∞ ∞

( ) ( )
2 2
1 1
¿ ∫ x λ exp {− λ ( x−ε ) } dx− +ε =∫ ( y + ε ) λ exp {− λy } dy − +ε =¿
2 2

ε λ 0 λ
∞ ∞ ∞

( )
2
1
¿ ∫ y λ exp {−λy } dy+∫ ε λ exp {−λy } dy+ 2 ε ∫ y λ exp {−λy } dy−
2 2
+ ε =¿
0 0 0 λ

( )
2
2 2 2ε 1 2 2 2ε 1 2 2ε 1
→ VAR [ x ]= 2
+ε + − + ε = 2 + ε + − 2 −ε − = 2
λ λ λ λ λ λ λ λ
1
VAR [ x ] = 2
λ
Distribuzione Gamma
Abbiamo visto come nel caso di un certo numero di esperimenti discreti e indipendenti la
distribuzione binomiale negativa sia un’estensione della distribuzione geometrica, che riguarda
invece un singolo successo. Allo stesso modo, trattando variabili casuali, si può essere interessati
alla distribuzione del tempo di ottenimento dell’r-esimo successo di un processo Poissoniano. Si
definisce così la distribuzione di Erlang, la cui pdf può essere ottenuta moltiplicando il tasso di
occorrenze per la probabilità che l’(r-1)-esima occorrenza si abbia in corrispondenza del tempo t.
Si tratta di una distribuzione a due parametri, λ e r , dove il secondo è un numero intero. In
particolare se r è pari ad 1 si ottiene la distribuzione esponenziale.
r−1 − λx x
λ(λ x) e r r
X ∈ [ 0 ; ∞ ) f X ( x )= F X ( x ) =∫ f X ( x ) dx nonintegrabile analiticamente
E [ x ] = VAR [ x ] = 2
( r−1 ) ! 0 λ λ
Il denominatore ( r −1 ) ! è il prodotto dei primi r-1 numeri naturali. Può essere riscritto nella forma
di Γ ( r), per poterlo applicare a valori di r che non siano numeri naturali

λ ( λ x )r−1 e− λx
f X ( x )=
Γ (r)

La funzione gamma è definita come



Γ ( r )=∫ ξ
r −1 −ξ
e dξ
0

Il parametro r prende il nome di parametro di forma, perché è


correlato alla forma della pdf.

 Se r è intero e ≥ 1 si può risolvere, e porta ad (r −1)!


 Se r è positivo ma non intero non si riesce a risolvere
analiticamente, ma l’integrale converge ad un valore finito
 Se r non è positivo e non è intero l’integrale diverge
Quando r vale 1, la distribuzione è esponenziale, e come r cresce
l’asimmetria della curva diminuisce. λ è il parametro di scala.

Distribuzione Normale/Gaussiana
La distribuzione normale è nata inizialmente per lo studio degli errori sperimentali, dovuti ad
inevitabili differenze tra osservazioni del medesimo esperimento ripetuto più volte. Quando si ha
una sequenza di osservazioni si può notare come tendano a raggrupparsi attorno ad un valore
centrale, con piccole variazioni più frequenti di grandi errori. Anche questa è una distribuzione a
due parametri, μ e σ , che coincidono rispettivamente con media e deviazione standard, e
rappresentano i parametri di posizione e scala della distribuzione.

{ [ ]}
2
1 −1 x−μ x
X ∈ (−∞ ,+ ∞ ) f X ( x )= exp
√2 π σ x 2 σx

 È simmetrica rispetto a μ x ≡ x 0.5 ≡ ~ x → σ x =0


 Inoltre γ 2 x , il coefficiente di Kurtosis, vale 3, ed è il riferimento rispetto al quale vengono
definiti i gradi di appiattimento delle distribuzioni
 Ricordiamo che
Pr [ μ x −σ x ≤ X ≤ μx +σ x ]=0.63
Pr [ μ x −2 σ x ≤ X ≤ μ x +2 σ x ] =0.955
Pr [ μ x −3 σ x ≤ X ≤ μ x +3 σ x ] =0.997
Il grosso della distribuzione si trova in
quest’ultimo intervallo appena definito
[μ x −3 σ x ;μ x +3 σ x ]

Il parametro μ posiziona la curva, mentre la varianza σ 2

governa la dispersione della curva. La cdf della


distribuzione normale è ottenibile solo numericamente,
nella pratica viene utilizzata la variabile normale
standard per poterla valutare.

Distribuzione Normale Standard


X−μ x
Z= N ( 0; 1 ) μ x =E [ x ]=0σ x =√ VAR [x ]=1
σx

È una distribuzione derivata, per cui possiamo usare, per ricavarne la distribuzione, la teoria delle
distribuzioni derivate

f Z ( z ) =f X ( z ) | |
dx ( z )
dz
→ x ( z )=z σ + μ

z=g ( x ) → x ( z )=g ( z )
−1
| |
dx ( z )
dz

{ [ ]}
2
1 −1 zσ + μ−μ
f z= exp σ
√2 π σ x 2 σ

f Z (z )=
1
√2 π
exp
−1 2
2
z { }
Cerchiamo di capire come sia fatta F Z (z)

F Z ( z )=Pr [ Z ≤ z ] =Pr
[ X−μ
σ ]
≤ z =Pr [ X−μ ≤ zσ ]=Pr [ X ≤ zσ + μ ] =Pr [ X ≤ x ]=F X ( x )
Dunque la funzione di distribuzione di probabilità cumulata è la medesima, il che, vista la più
semplice forma della normale standard rispetto alla originale, ci permette di ottenere più
facilmente soluzioni. Infatti possiamo costruire una tabella di valori noti
1. Fissare x
2. Calcolare z
z

3. Risolvere analiticamente F Z ( z )= ∫ f Z ( z ) dz
−∞

4. Eguagliare e ottenere F X ( x ) (che altrimenti non sarebbe risolvibile analiticamente)

Risulta molto utile anche la simmetria rispetto all’origine di questa distribuzione, infatti

F (−z )=1−F ( z ) f Z ( z ) =f Z (−z)

Sarà sufficiente considerare metà del dominio, da 0 a + ∞ , nel costruire la tabella; se poi fisso uno z
e calcolo il suo F ( z ) posso tranquillamente calcolare anche F (−z ) . Per altro, come detto prima, le
normali sono contenute per lo più nell’intervallo [μ x −3 σ x ; μ x +3 σ x ], che nel caso di una normale
standard è [−3 ;+3], quindi, alla luce di quanto detto, possiamo costruire tabelle di valori noti
unicamente per Z ∈[0 ; 3]. Una volta costruita la tabella dei valori noti si può semplicemente
F X ( x ) =a → entro nella tabella : F Z ( z )=F X ( x )=a → ricavo z a → ricavo x a=z a σ x + μ x

Teorema Centrale del Limite


1. Abbiamo una variabile casuale X distribuita come una normale di parametri μ x e σ x ed una
variabile casuale Y che è una combinazione lineare di X:
X N ( μ x , σ x )Y =g ( X )=a X + b
Allora anche la variabile casuale Y sarà una normale, con i seguenti parametri
Y N ( μ y ,σ y ) → x

μ =a μ x +b
σ y =a σ x

1.1 Una trasformazione lineare Y =a+bX di una N ( μ , σ 2 ) variabile casuale X porta ad ottenere
una variabile casuale Y distribuita normalmente come N ( a+bμ , b2 σ 2 )

2. Consideriamo N variabili aleatorie X i , tutte indipendenti ed identicamente distribuite, con


media μ e deviazione standard σ . Si definisce poi una nuova variabile aleatoria, ovvero la
media aritmetica delle precedenti
N
1
X = ∑ Xi
N i=1
Allora se N tende all’infinito, questa variabile casuale sarà distribuita secondo una normale

( )
2
σ
X N μ,
N
Se le varie X i sono tutte normali, il teorema è valido anche se N non tende all’infinito.

2.2 la media campionaria di un campione di numerosità n della stessa popolazione tende ad avere
σ2
una distribuzione normale N ( μ , ) al tendere ad infinito della numerosità del campione.
N
Distribuzione Log-Normale
Come abbiamo appena visto, la sovrapposizione di un grande numero di piccoli effetti casuali
tende a rendere la distribuzione aggregata una distribuzione normale. Allo stesso modo se un
fenomeno è generato dall’effetto moltiplicativo di un grande numero di fattori incorrelati, la
distribuzione tende ad essere una distribuzione Lognormale, ovvero il logaritmo della variabile
tende ad essere distribuito normalmente. La distribuzione Log-Normale è la distribuzione di quella
variabile il cui logaritmo segue una distribuzione normale.
Y N ( μ y ,σ y ) → Y =ln (X ) N ( μ y , σ y ) → X ln (μ ln x , σ ln x )

Dove
1

μln x =ln ( μ y ) − ln (1+C V 2y )σ ln x = ln ( 1+C V 2y )
2
Si può scrivere anche
−1
X =g ( Y )=exp(Y )→Y =ln ( X)=g ( X )

|
f X ( x )=f Y ( g−1 ( X ) )
dx |
d g−1 ( X )
Teoria delle distribuzioni Derivate

Solitamente:

X :distribuzione nota f X ( x )Y =g ( X ) → X=g−1 ( Y )

Per conoscere f Y ( y ) possiamo scrivere:

| |
−1
d g ( y)
f Y ( y )=f X ( g ( y ) )
−1
dy

Ora siamo nel caso

X =exp ( Y )=g ( Y )Y =ln ( X )=g−1 ( X )

| | { [ ] } x|
2
−1 ln ( x ) −μ y
|
−1
d g ( X) 1 1
f X ( x )=f Y ( g ( X ) )
−1
= exp
dx √2 π σ y 2 σy

{ [ ]}
2
1 1 −1 ln ( x )−μ y
f X ( x )= exp
√2 π σ y x 2 σy

IDROLOGIA STATISTICA 8: Proprietà degli Stimatori


Una parte importante dell’inferenza statistica è costituita dalla stima dei parametri. Diversi tipi di
stimatori possono essere utilizzati per questo scopo, ognuno dei quali ha proprietà che possono
renderli più o meno adatti di altri ad eseguire la stima. Vediamo quali sono queste proprietà
Indistorsione / Correttezza
Dato un campione di osservazioni, il nostro obiettivo è fornire la stima del valore di un parametro
θ . Le osservazioni sono variabili casuali, X 1 , … , X n, per cui la stima del parametro ottenuta a
partire da esse, sarà a sua volta una variabile casuale. In molti casi questa stima può differire molto
dal valore reale del parametro a prescindere dal metodo di stima. Il nostro obiettivo è quello di
trovare uno stimatore che produca, mediamente, risultati soddisfacenti, ovvero, lo stimatore
fornirà statistiche distribuite secondo una certa legge, la distribuzione campionaria. Queste leggi
devono avere determinate proprietà che portano lo stimatore ad essere considerato accettabile
per il nostro proposito.
Se il valore medio della distribuzione è il parametro, allora lo stimatore può essere considerato
indistorto.

Parametroθ
Stimatore θ^ }
→ se E [ θ^ ]=θ : θ^ è uno stimatore corretto /indistorto

Se invece E [ θ^ ] ≠θ → BIAS=E [ θ^ ]−θ

Esempio: media aritmetica ≡ stimatore della media


n
1
^
θ=X= ∑X
n i=1 i

Immaginiamo che il campione di dati {x 1 , x 2 , x 3 , … , x n } sia il risultato dell’estrazione di un singolo


valore da ciascuna di n variabili casuali identicamente distribuite.

[ ] [ ]
n n n n
1 1 1
E [ θ^ ]= E ∑ x i = E
n i=1 n
∑ xi = ∑ E [ x i ]= 1n ∑ μ= nμ
n i=1 n

i=1 i=1

Quindi lo stimatore media aritmetica è uno stimatore indistorto del parametro valore atteso.

Esempio: Varianza
n
1
^ = ∑ ( X i− E
^ [ x i ] )2
2
θ=S
n i=1
[ ] [∑ {( ]
n n
1 1
E [ θ^ ]= E ∑ {( x i−μ ) + ( μ−x ) } = E x i−μ )2 + ( μ−x )2 +2 ( x i−μ ) ( μ−x ) } =¿
2

n i=1 n i=1

[∑ ( ]
n n
1
¿ E x i−μ ) + n ( μ−x ) +∑ 2 ( xi −μ ) ( μ−x ) = ¿
2 2
n i=1 i=1

[∑ ( )]
n n
1
¿ E x i−μ )2+ n ( μ−x )2 +2 ( μ−x ) ∑ ( x i−μ = ¿
n i=1 i=1

[∑ (∑ x −∑ μ)]=¿
n
1 2 2
¿ E
n
( x i−μ ) + n ( μ−x ) +2 ( μ−x ) i
i=1 i i

[∑ ]
n
1 2 2
¿ E
n
( x i−μ ) + n ( μ−x ) +2 ( μ−x ) n ( x−μ ) =¿
i=1

[ ] [∑ ( ]
n n
1
¿ E
n
∑ ( x i−μ ) + n ( μ−x ) −2 n ( μ−x ) = 1n E
2 2 2
x i−μ )2 −n ( μ−x )2 =¿
i=1 i=1

{[ ] } { ( )}= 1n {∑ σ −σ }= 1n {n σ −σ }
n 2
1
¿ E
n
∑ ( x i−μ ) −nE [ ( μ−x ) ] =¿¿ 1n
2 2
∑ E [ ( x i−μ ) ] −n σn 2 2 2 2

i=1 i i

n−1 2 2
E [ θ^ ]= σ ≠ σ → S2 non è uno stimatore corretto
n
Se al contrario consideriamo lo stimatore
n
1
∑ X i− ^
2
S2 =
n−1 i=1
( E [ X i ])

Otteniamo uno stimatore corretto

Consistenza
Indichiamo con θ^ n lo stimatore del parametro θ , applicato ad un campione di numerosità n. Lo
stimatore viene detto consistente se è valida

lim Pr ⁡[|θ^ n−θ|<ε ]=1


n→∞

Con ε piccolo a piacere

Cioè, se aumentiamo a dismisura la numerosità del campione, la differenza tra θ^ n e θ è sempre


^
minore di un certo ε ; in pratica lim θn=θ. n→∞

Uno stimatore consistente del parametro θ converge ad esso per una numerosità che tende a ∞ .

Minima Varianza di Stima


Nella pratica raramente abbiamo più di un campione, ma se avessimo un numero di campioni con
grande variabilità, potremmo trovare che una singola statistica che dia una stima di un parametro
θ sia diversa dal vero valore del parametro stesso, anche se lo stimatore è indistorto. Dobbiamo
dunque trovare tra gli stimatori indistorti, quello che ha la più piccola varianza, che verrà detto
Stimatore con la minima varianza.
Abbiamo m campioni do numerosità identica n. Quindi possiamo calcolare m stimatori:
θ^ 1 , θ^ 2 , θ^ 3 , … , θ^ m → E [ θ^ ] =θ

Supponendo sia uno stimatore indistorto, ne definiamo la varianza:

VAR [ θ^ ] =E [ ( θ−θ
^ ) ] =E {( θ−E
2
^ [
[ θ^ ] ) + ( E [ θ^ ]−θ )}
2
]
Quindi sviluppando il quadrato

E [ {( θ−E
^
2 2
[ θ^ ]) + ( E [ θ^ ]−θ ) +2 ( θ−E
^ [θ^ ] )( E [ θ^ ] −θ )} ]
Il doppio prodotto si annulla ed il secondo termine risulta invece essere costante, per cui il suo
valore atteso sarà anch’esso costante

[ ]
[ θ^ ]) + { E [ θ^ ]−θ } =E [ ( θ−θ )]
2 2 2
E ( θ−E
^ ^

VAR [θ^ ] BIAS EFFICIENZA

IDROLOGIA STATISTICA 9: Intervalli di confidenza e Test d’Ipotesi


Intervalli di Confidenza
Nei capitoli precedenti abbiamo discusso e applicato metodi per stimare i valori di uno o più
parametri di una certa popolazione. Abbiamo anche visto come gli stimatori puntuali possono
condurre ad una stima errata. Nella realtà, la probabilità che una stima sia esattamente uguale al
parametro che ne è oggetto sono nulle. Lo step successivo nell’inferenza statistica sono dunque gli
intervalli di stima. Determineremo due valori, diciamo a e b , che rappresenteranno gli estremi di
un intervallo in cui ci si aspetta sia incluso un parametro θ per un certo livello di probabilità, per
una specifica percentuali di casi di esperimenti ripetuti sotto le medesime condizioni. L’intervallo
compreso tra i due limiti a e b viene definito intervallo di confidenza.
α =livello di significatività ( solitamente 1 % o 5 % )1−α=livello diconfidenza ( 99 % o 95 % )
Pr [ L ≤ x ≤U ] =1−α → [ L; U ] : Intervallo diconfidenza

La costruzione di un intervallo di confidenza avviene tramite l’utilizzo di uno stimatore puntuale, e


dipende dal livello di confidenza associato. Per esempio possiamo costruire l’intervallo di
confidenza della variabile “valore atteso”, partendo dallo stimatore puntuale Media Aritmetica x .
Il teorema centrale del limite afferma che, a prescindere dalla distribuzione della variabile X, la
variabile casuale media aritmetica è distribuita secondo una normale

x N μ, ( σ
√n )
Possiamo definire una normale standard
x−μ
Z= N (0 ; 1)
σ /√n
E poi possiamo fissare α e (1−α ): Vogliamo individuare un’area pari ad (1−α ), che sarà
individuata rimuovendo 2 “spicchi”, ciascuno di ampiezza α /2. Grazie alla simmetria della normale
standard possiamo prendere 2 quantili: z α e z α e quindi scrivere 1−
2 2

[
Pr z α ≤ z ≤ z
2
1−
α
2 ] =1−α → Pr z α ≤
[ 2
x−μ
σ / √n ]
≤ z α =1−
1−
2
α
2

Quindi, tenendo anche conto che z 1− α =−z α


2 2

[
Pr z α
2
σ
√n
≤ x−μ ≤ z α
σ
1− √ n
2
=1−α Pr z α
σ
]
2 √n
−x ≤−μ ≤ z α
σ
1− √ n
2
[
−x =1−α
]
[
Pr −z α
2
σ
√n
+ x ≥ μ ≥ x−z α
σ
1− √ n
2
=1−α
]
Questo è l’intervallo di confidenza di μ.

Test d’Ipotesi
I test d’ipotesi vengono spesso declinati nella forma di test di adattamento, per capire quanto
bene una certa distribuzione, con certi parametri, simuli il comportamento di un campione di dati.
I passaggi che accomunano tutti i test, sono:

1. Dichiarazione dell’ipotesi nulla: H 0, ovvero la formulazione di un’ipotesi che si vuole


verificare
2. Formulazione di un’ipotesi negativa: H 1, alternativa alla precedente
3. Definizione di una Statistica Test: T → è una variabile aleatoria definita per testare H 0 vs
H1
4. Definizione di una distribuzione di probabilità per T
5. Definizione di una regione critica, rispetto alla quale rifiuterò H 0 per accettare H 1. Per
questo step è necessario andare a definire un livello di significatività.
6. Calcolo dell’effettivo valore della statistica test a partire dal campione di dati, e confronto
con la regione critica

Test di Pearson o Test χ 2


Vediamo innanzitutto l’applicazione a variabili casuali discrete, per una generica variabile casuale
X, definita a partire da un campione di dati di numerosità n. Poi scegliamo un valore x i, e
indichiamo con ni , il numero di volte in cui si ha che X =x i.

Ragionando in questi termini si può immaginare che ni sia un numero estratto da una variabile N i
binomiale, il che equivale a considerare il nostro campione di dati di numerosità n come risultato
di n esperimenti Bernoulliani. Il successo dell’esperimento sarà X =x i, ed il numero di volte in cui
sarà raggiunto ni . L’insuccesso, al contrario, sarà X ≠ xi ed il numero sarà pari a n−ni . La
distribuzione di probabilità della binomiale assume la forma

()
p X ( x i )= n p ( 1− p )
n n−n
i i

ni

Il valore atteso è E [ x ] =n p , dove p è la probabilità elementare di successo, ed allora nel nostro


caso avremo:
E [ N i ]=n Pr [ X=x i ]

Ed analogamente VAR [ X ] =n p (1− p), nel nostro caso sarà

VAR [ N i ] =n Pr [ X= xi ] ( 1−Pr [ X=x i ] )

Se la numerosità del campione è molto elevata, allora anche il suo valore medio sarà elevato, e
secondo la proprietà riproduttiva una binomiale di valore medio elevato può essere vista come la
somma di tante variabili casuali binomiali, con valori medi più piccoli, e grazie al teorema centrale
del limite, una somma di variabili casuali tende ad una normale, al crescere delle variabili casuali
coinvolte. Pertanto anche in questo caso, possiamo immaginare che la binomiale tenda ad una
normale standard, che definiamo come:
N i −n Pi
con Pi=Pr ⁡[ X=x i ]
√ n P ( 1−P )
i i

E andiamo ad utilizzare tale variabile come statistica test, in particolare avremo:


2
( N i−n Pi )
l
χ =∑
2

i=1 n Pi ( 1−P i )

Dove l è il numero di valori osservati (non ripetuti), che va a determinare ciò che viene detto
numero di gradi di libertà, e si indica:
2
( N i−n Pi )
l
χ l−1 =∑
2

i=1 n Pi ( 1−Pi )

Il motivo per cui i gradi di libertà sono l−1 e non l è che deve essere necessariamente rispettata la
condizione
l

∑ N i=n
i=1

Per cui arrivati al penultimo termine della sommatoria, l’ultimo è necessariamente obbligato ad
assumere un determinato valore per rispettare tale uguaglianza. A questo punto abbiamo la
nostra statistica test, per cui ci concentriamo sul test.

1. H 0: il campione di dati è distribuito secondo una certa F X (x ) da cui dipenderà il valore di


Pi
2. H 1: il campione di dati non è distribuito secondo una certa F X (x )
3. Supponendo che la F X ( x ) sia a parametri noti, avremo appunto una distribuzione χ 2 ad
(l−1) gradi di libertà. (se i parametri non fossero noti avremmo (l−1−m) gradi di libertà
2
l
( N i−n Pi )
T = χ =∑
2 2
X l−1
i=1 n Pi ( 1−Pi )

4. Definiamo infine la regione critica: X 2 =T > χ 2l−1 in pratica facendo ricorso alla distribuzione
2
χ calcoliamo il quantile con livello di probabilità (1−α ), poi calcoliamo la statistica test e
decidiamo se accettare o meno l’ipotesi.
Riassumendo:

 Abbiamo un campione di numerosità n: {x 1 , x 2 , … , x n }


 Per questo campione riusciamo ad individuare l valori non ripetuti, a ciascuno dei quali è
associato un numero di occorrenze N i, tale che
l

∑ N i=n
i=1

 Poi formuliamo:

{ H 0 : X F X ( x ) a m parametrinoti
H 0 : X F X ( x ) a m parametrinoti
 Quindi calcoliamo Pi=F X ( x i ) per ciascuno degli l valori non ripetuti, e la statistica test:
2
l
( N i−n Pi )
T = χ =∑
2

i=1 n Pi ( 1−Pi )

 Poi, supponendo che la nostra statistica test sia distribuita con una χ 2 a (l−1) gradi di
libertà, fissiamo un livello di probabilità (1−α ) e ricaviamo il corrispondente quantile
2 2 −1
χ 1−α = X l−1 (1−α )
 Infine verifichiamo
Se T = χ 2 > χ 21−α → Accettiamo H 1
Se T = χ 2 ≤ χ 21−α → Accettiamo H 0

Se la variabile casuale è continua si suddivide l’intervallo di variabilità in un certo numero di classi,


calcolabili anche con la formula di Sturges, a partire dal campione di dati. Dopodiché in ciascuna
classe, avremo un numero ni di osservazioni.

Tutte queste classi sono equiprobabili, se calcolate per esempio con la formula di Sturges, quindi
per ogni i-esima classe, la Pi sarà sempre identica, e la chiameremo W , per cui la statistica test
varrà:
nc 2
( ni−nW )
T = χ =∑
2

i=1 nW ( 1−W )

Test di Kolmogorov – Smirnov


Questo test si applica invece solamente a variabili casuali continue. La statistica test associata è
una sorta di “massimo discostamento” tra la distribuzione di frequenza cumulata teorica ed
empirica.

Dn=max|F X ( x i ) −Fn ( x i )|
n

Sarà necessario definire la distribuzione di frequenza cumulata empirica, che andremo a costruire
come una funzione a gradini, dopo aver ordinato il campione in modo crescente.

F n ( x )=0 per x< x ( 1) F n ( x )=k /n per x (k ) ≤ x ≤ x (k+1 ) F n ( x )=1 per x ≥ x (n )

Uno dei vantaggi di questo test è che non fa uso di distribuzioni. Per valori di n molto elevati,
Smirnov fornisce la distribuzione limite di D n √ n definita come:

{ } [ ]
∞ 2 2
√2π −( 2 k−1 ) π
lim Pr [ Dn √ n ≤ z ]=
n→∞ z
∑ exp 8z
2
k=1

Della quale possono essere calcolati i valori critici per probabilità


1.3581
α =0.95 → d 1−α =
√n
1.6276
α =0.99 → d 1−α =
√n
Questo test viene definito un test non
parametrico, in quanto si assume che la
F X (x ) sia a parametri noti. In realtà questo è
raramente vero, vanno prima stimati,
cercando di far accostare il più possibile la
F X (x ) ai dati.

Test di Anderson – Darling


Anche questo test si applica per variabili casuali continue. La statistica test è definita in modo tale
che si dice del test stesso che è “un test sulle code della distribuzione F X (x ) ipotizzata”, dove
solitamente si collocano gli outliers. Questo è possibile se si divide la differenza tra la cdf empirica
e teorica da testare per un coefficiente dato dal prodotto de
.
1
A =∫ [ F X ( x )−F n ( x ) ]
2 2
f X ( x ) dx
R F X ( x ) [ 1−F X ( x ) ]

All’interno di questa statistica test compaiono:


Coefficiente
prodotto dai due
pesi
 F X (x ) Funzione di distribuzione di probabilità ipotizzata
 f X( x ) Funzione di densità di probabilità ipotizzata
 F n (x) Frequenze relative cumulate
 1/ F X ( x) Peso1: Amplifica l’importanza della coda sinistra
 1/ F X ( x) Peso2: Amplifica l’importanza della coda destra
Naturalmente l’integrale definito non sempre (soprattutto quando si parla di distribuzione dei
valori estremi) è risolvibile, per cui si ricorre ad un’approssimazione:
n ( 2 i−1 ) { ln [ F X ( x i ) ] + ln [ 1−F X ( x n−i +1) ] }
A ≅−n−∑
2

i=1 n

Dove x i sono le osservazioni ordinate in senso crescente.

Anche questo viene considerato un test non parametrico. Noti i parametri di F X (x ) i valori noti
assumono la forma
2 2
a 1−α =2.492a 1−α =3.857

IDROLOGIA STATISTICA 10: Teoria dei Valori Estremi


Abbiamo la nostra generica variabile casuale X ed un campione di dati osservati {x 1 , x 2 , x 3 , … , x n }
di numerosità n. Dapprima riordiniamo il campione in senso crescente, ottenendo

{ x (1 ) , x (2) , x( 3) , … , x (n ) }
Poi possiamo ipotizzare che ciascun valore, anzi che estrazione di una medesima variabile casuale
X, sia una singola estrazione di una differente variabile casuale, ognuna delle quali è indipendente
ed identicamente distribuita come la variabile casuale X di partenza.
{
x(1) → X 1
x(2) → X 2
x(3) → X 3

x(n) → X n

Avendo riordinato il campione, avremo di fatto anche un riordinamento delle variabile casuali di
estrazione in senso crescente.
Con questa “costruzione concettuale”, sappiamo che se andassimo ad estrarre una nuova serie di
valori da queste nuove variabili casuali così ordinate, in ciascuna delle estrazioni avremo sempre il
medesimo ordinamento.
In altri termini, se ordiniamo in senso crescente le variabili casuali, ogni volta che estrarremo un
campione, i valori saranno sempre ordinati rispettando l’ordinamento delle variabili di partenza.
X (1) , X(2) , X (3 ) , … , X (n)

Concentrandoci sulla prima ed ultima, sappiamo che

X ( 1)=min { X (1 ) , X ( 2) , X (3) , … , X (n ) } X (n)=max {X (1) , X (2) , X(3) , … , X (n ) }

La teoria dei valori estremi si basa sullo studio di queste due variabili casuali, che non sono né
indipendenti né identicamente distribuite. Vogliamo ora definire la distribuzione di probabilità
dell’ultima statistica, quella di ordine n.
F X ( x )=Pr [ X ( n) ≤ x ]=?
(n )

Partiamo dall’evento:

{ X (n ) ≤ x }={ X 1 ≤ x ∩ X 2 ≤ x ∩… ∩ X n ≤ x }

n
Pr [ X (n ) ≤ x ]=Pr [ X 1 ≤ x ]∗Pr [ X 2 ≤ x ]∗…∗Pr [ X n ≤ x ]=∏ Pr [ X i ≤ x ]
i=1

ma F X ( x ) =F X ( x )−quindi→ F X ( x )=F X ( x )n
(i ) (n )

Il che dimostra come la distribuzione della variabile estrema sia diversa e dipendente dalle
precedenti. Per la statistica di ordine minimo avremo invece:
Indipendenti ed identicamente distribuite secondo
F X ( x )=Pr [ X (1 ) ≤una
(1 )
x ]=1−Pr
F X (x )[ ,X quindi
( 1 ) > x ] =1−Pr [ X 1> x ∩ sono
le intersezioni ∩… ∩ X n > x ] =¿
X 2 > x prodotti
delle singole probabilità n
¿ 1−Pr [ X 1 > x ]∗Pr [ X 2> x ] ∗…∗Pr [ X n > x ]=1−∏ Pr [ X i > x ] =¿
i=1

n
F X ( x )=1−( 1−F X ( x ) )
(1 )
In linea generale possiamo dunque esprimere la statistica di ordine “ j ” come:

()
Se abbiamo esattamente j→ F X ( x )= n [ F X ( x ) ] ( 1−F X ( x ))
j n− j

j ( j)

n
( x ) =∑ ( n ) [ F ( x ) ] ( 1−F ( x ) )
k n−k
 Se abbiamo almeno j→ F X X X
( j)
k
k= j

Quanto detto fino ad ora però è valido se la F X ( x ) e n sono noti, ma nella stragrande maggioranza
dei casi così non è nella realtà, per cui è stata sviluppata la teoria dei valori estremi asintotica.

Teoria Dei Valori Estremi Asintotica


Si parte cercando di calcolare la funzione di distribuzione cumulata di probabilità per n che tende
ad infinito, per cui andremo a calcolare il limite
n
∃ lim F X ( x )= lim ( F X ( x ) ) =?
( n)
n→∞ n→ ∞

 Se F X ( x ) =1: nlim 1n ≡1
→∞

 Se F X ( x ) <1 : nlim ( … )n ≡0
→∞

Perché andiamo a moltiplicare infinite volte per sé stesso un numero minore di 1, per cui il
prodotto si fa sempre più piccolo.
Introduciamo il teorema di Fisher – Tippet: Il teorema si sofferma sul limite di una generica
distribuzione di una variabile casuale normalizzata rispetto a due serie numeriche a n e b n

{[ ]}
n
X−an
lim Pr ≤x
n→∞ bn

Il teorema afferma che, indipendentemente dalla forma della variabile casuale di partenza ( F X (x )
), se n è molto grande la distribuzione del massimo della variabile casuale di partenza assumerà
una delle tre seguenti forme

 EV1: Distribuzione di GUMBEL

F X ( x )=exp −exp
(n ) { [ −x−a
b ]}
Illimitata x ∈ (−∞ ;+∞ )a , b : parametri della distribuzione ,b> 0

 EV2: Distribuzione di FRECHET

{ ( )}
γ
x −a
F X ( x )=exp −
(n )
b
Limitata Inferiormentea , b , γ : parametri della distribuzioneb , γ >0x >a
 EV3: Distribuzione di WEIBULL

{ [ ( )] }
γ
x−a
F X ( x )=exp − −
(n )
b
Limitata Superiormentea , b , γ : parametri della distribuzioneb , γ >0x <a

Se però si conosce la F X (x ) di partenza, ci si può già esprimere sulla F X ( x) : (n)

{
esponenziale
normale → X t . c . F ( x ) → EV 1 :Gumbel
 Se X t . c . F X ( x )= (n ) X
lognormale ( n)

gamma

{
 Se X t . c . F X ( x )=
Pareto → X t . c . F ( x ) → EV 1 :Frechet
Levy (n) X ( n)

{
 Se X t . c . F X ( x )=
Beta → X t . c . F ( x ) → EV 1:Weibull
Uniforme (n) X (n )

Esistono delle condizioni sufficienti per poter sapere quale sarà la F X ( x ) a partire dalla F X ( x ) :
(n )

1 Condizione sufficiente per X (n) → EV 1


a

lim
x→ ω dx {
d 1−F X ( x )
f X(x)
=0
}
È condizione sufficiente per dire che il limite della funzione di distribuzione di probabilità cumulata
elevato all’ennesima potenza per numerosità tendente a infinito assumerà la forma di una
distribuzione EV1 (Gumbel). L’argomento della derivata è il reciproco della funzione di azzardo,
definita come
f X(x)
1−F X ( x )

ω è un generico estremo superiore dell’insieme di definizione.

2 Condizione sufficiente per X (n) → EV 2


a

f X (x)
lim x =m
x→ ω 1−F X ( x )

Con m generica costante positiva, tale limite è condizione sufficiente per dire che il limite della
funzione di distribuzione di probabilità cumulata elevato all’ennesima potenza per numerosità
tendente a infinito assumerà la forma di una distribuzione EV2 (Frechet).

3a Condizione sufficiente per X (n) → EV 3


f X(x)
lim ( ω−x ) =m
x→ ω 1−F X ( x )

Con m generica costante positiva, tale limite è condizione sufficiente per dire che il limite della
funzione di distribuzione di probabilità cumulata elevato all’ennesima potenza per numerosità
tendente a infinito assumerà la forma di una distribuzione EV3 (Weibull).
Andiamo ad analizzare degli esempi
1. Distribuzione Esponenziale
f x ( x )= λ e−λ x λ e− λ x dH
→ H= =λ → =0
F X ( x ) =1−e
−λ x
1−1+e
−λx
dx
2. Distribuzione Pareto

{ }
θ
x0 θ −θ −1
F X ( x )=1− (−x 0 ) (−θ ) x θ θ
x → H= = → lim x =θ

{ }
θ x0
θ
x x→ ω x
f X ( x )=(−x 0 ) (−θ ) x−θ−1 1−1+
x
3. Distribuzione Uniforme in (0;1)
x −a
F X ( x )=x=
b−a
1 1−x
1 → H= → lim =1
f X ( x )=1= 1−x x → ω 1−x
b−a
a=0 ;b=1; ω=b

Principio di Simmetria
Il principio di simmetria permette di declinare la teoria dei valori estremi sempre in termini di
valori massimi e mai di valori minimi.
Abbiamo n variabili indipendenti ed identicamente distribuite { X 1 , X 2 , X 3 , … , X n } e le
corrispondenti statistiche d’ordine { X (1) , X (2 ) , X ( 3) , … , X (n )} . Andiamo poi a considerare altrettante
variabili casuali definite come {Y 1 , Y 2 ,Y 3 , … ,Y n } con Y i=− X i, e le corrispettive statistiche
d’ordine {Y ( 1) ,Y ( 2) ,Y ( 3) , … ,Y ( n) }. Per la questione
dell’ordinamento

Y ( 1 )=−X ( n) Y (n)=− X(1)

La trattazione dei massimi e quella dei minimi


sono identiche, ma cambiate di segno.

Distribuzione GEV : Generalized Extreme Values

{[ ]}
1
k
F X ( x ) =exp − 1− ( x −ε ) k
max
α

Si tratta di una distribuzione a tre parametri, dove:

 α parametro di scala (>0)


 k parametro di forma
 ε parametro di posizione
Questa distribuzione, al variare del parametro k, può assumere le tre forme di distribuzione dei
valori estremi precedentemente analizzate, in particolare

 EV1: Gumbel → se k ≡0 (asintoticamente)


 EV2: Frechet → se k <0
 EV3: Weibull → se k >0
Per l’applicazione di tale distribuzione, deve necessariamente essere

k k α
1− ( x−ε )> 0 ( x−ε ) >1( x−ε )<
α α k

α
Se k è maggiore di zero: x < +ε → Limite Superiore→ EV 3 : Weibull
k
α
Se k è minore di zero: x > +ε → Limite Inferiore → EV 2 : Frechet
k
Le statistiche fondamentali di questa distribuzione sono:

( ) [ Γ ( 1+2 k )−( Γ ( 1+ k ) ) ]
2
α
[1−Γ ( 1+ k ) ]VAR [ X GEV ]=σ 2x = α
2
E [ X GEV ] =μx =ε+
k k
{−Γ ( 1+3 k )+ 3 Γ ( 1+k )∗Γ ( 1+2 k )−2 ( Γ ( 1+k ) )3 }
γ 1 [ X GEV ]=sign ( k ) −1
σ 3x
Ricordando che la funzione Γ ( x ) è definita come

Γ ( x )=∫ t
k−1 −t
e dt →diverge per x <0
0

Ed è divergente quando l’argomento x è minore di zero. Sarà dunque necessario definire delle
condizioni di esistenza per i momenti statistici.

1. Media: E [ X GEV ]=f ( Γ ( 1+k ))


( 1+k )> 0−quindi → k >−1 C . E . per lamedia
2. Varianza: VAR [ X GEV ] =f ( Γ ( 1+2 k ) )
−1
( 1+2 k ) >0−quindi → k > C . E . per la varianza
2
3. Coefficiente di Asimmetria: γ 1 [ X GEV ]=f ( Γ (1+3 k ) )
−1
( 1+3 k ) >0−quindi → k > C . E . per il coefficiente di asimmetria
3
Generalmente per la stima dei parametri della GEV viene utilizzato il metodo degli L-Moments

λ 1=β 100=μ x media aritm.=media campionariaλ 2=2 β 110 −β 100 λ 3=6 β 120 −6 β 110 + β 100

grazie al quale:

λ 3 L3 6 b120 −6 b110 +b100 2 ( 1−3k ) α


−3 → k^ 2 ¿ λ2=L2 →2 b110 −b 100 = ( 1−2 ) Γ ( 1+k ) → α^
−k
1¿ = → =
λ 2 L2 2b 110−b100 1−2 −k k
α
3 ¿ λ1=L1 → b100 =ε + [ 1−Γ ( 1+k ) ] → ε^
k

Piano di Gumbel
Per k=0 la GEV abbiamo detto rappresentare asintoticamente la distribuzione di Gumbel

{[ ]} { [ ]}
1
k −x−ε
k =0 → F X ( x )=exp − 1− ( x−ε ) k
→ F X ( x )=exp −exp
max
α α

Applicando due volte l’operatore logaritmico con segno meno al membro destro e sinistro,
otteniamo:
x F −ε
y F=−ln (−ln F X ( x ) ) = → xF= yF α + ε
α
Questa relazione ci dice che in un piano doppio logaritmico (Piano di Gumbel) la distribuzione di
Gumbel è lineare. Ciò ci permette, avendo un campione di dati, di stimare i valori dei parametri α
ed ε mediante una regressione lineare
i
Campione → x i → Fi = → y F =−ln (−ln ( F i ) )
n+1 i

Ovviamente nel piano di Gumbel solamente la distribuzione di Gumbel assumerà un


comportamento lineare, tuttavia possono essere comunque plottate tutte le forme della GEV, e in
tal modo è possibile mostrare il carattere limitato superiormente e limitato inferiormente delle
EV3 e EV2.

{[ ]}
1
k
FX ( x ) =exp − 1− ( x−ε ) k
GEV
α

y F=−ln {−ln [ F X ( x ) ] }
GEV

xD

α
x F =ε+
k
[ 1−exp (−k y F ) ]

Compound Distributions
Nell’esposizione della teoria
delle distribuzioni dei
valori estremi siamo partiti da
n
F X ( x )=F X ( x )
(n )

Per introdurre la teoria asintotica. Ma se invece consideriamo n come un valore estratto da una
variabile casuale N Poissoniana(ν ) possiamo scrivere, facendo riferimento al teorema della
probabilità totale:

Pr [ A ]=∑ Pr [ A|Bi ]∗Pr [Bi ]→ F X ( x )=∑ F X ( x ) P N (n)
n
(n)
n=0
Dove:

F X ( x )n Probabilità di X (n) posto che si verifichi un certo n Pr [ A|Bi ]

( ν n e−ν ) Probabilità data da una Poisson che si verifichi un certo n


P N ( n )=
n!
1
Quindi:
n n −ν F
[ ν F X ( x ) ] (e− ν e−ν F e ν F ) [ν FX ( x )]
n n −ν

( F X ( x )) ν e ∞ ∞
e
F X ( x )= ∑ =∑ ∑
−ν ( 1− F )
=e
(n )
n=0 n! n=0 n! n=0 n!
Non è altro che la P N (n) di
Per cui la sommatoria varrà 1, e quindi
una Poisson con parametro
F X ( x )=e
−ν (1−F X ( x ) )
ν ¿=ν F X (x )
(n )

Questa è la prima forma esatta, cioe non asintotica, di una variabile estrema. Si tratta di un
risultato già di per sé interessante, ma lo diventa ancora di più se assumiamo una precisa
distribuzione per la F X ( x ):

 F X (x ) Esponenziale: F X ( x ) =1−exp {−λx }

F X ( x )=exp {−ν [ 1−( 1−exp [− λ x ] ¿ ] }=¿¿ exp {−ν exp (− λ x ) } =e−ν exp (−λ x )=¿
(n )

{ [ ]}=¿
ln ( ν )
x−
¿e
−exp { ln ( ν ) } exp {− λ x }
=e
−exp { ln ( ν )− λ x }
=¿
¿e
{ [
−exp − λ x−
ln ( ν )
λ ]}=e −exp −
1/λ
λ

¿ F n ( x )=exp −exp −
{ [ ( x−ln1 /λ( ν ) / λ )]}

E se imponiamo:
ln ( ν ) 1
=ε =α
λ λ
Otteniamo

{ { [ ]}}
exp −exp −
x −ε
α
=Gumbel

Abbiamo combinato due forme esatte, una distribuzione esponenziale ed una poissoniana,
ed abbiamo ottenuto una Gumbel, ovvero una distribuzione asintotica.

( )
θ
x0
 F X ( x ) Pareto: F X ( x ) =1−
x

{[ ( ( ) )]} { ( ) } { ( ) }
θ θ 1 /θ θ
x x ν x0
F X ( x )=exp − ν 1− 1− 0 =exp −ν 0 =exp − =¿
(n )
x x x
{[ ]}
−θ
x
¿ F X ( x )=exp − 1 /θ
(n )
ν x0
E se imponiamo
ε =0α =ν 1/ θ x 0 γ=θ

{[ ]}
−γ
x
F X ( x )=exp − =Frechet
(n )
α

Queste distribuzioni, ottenute dalla combinazioni di altre distribuzioni, sono dette Distribuzioni
Composte, o “Compound Distributions”.

Potrebbero piacerti anche