Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
Diagramma a Linee:
Il diagramma a linee è adatto alla rappresentazione di
variabili casuali discrete. In ascissa si riportano i valori
osservati della variabile ed in ordinata il numero di
occorrenze (frequenze assolute) per ciascun valore
osservato
Diagramma a Punti
Il diagramma a punti è adatto alla rappresentazione di variabili continue, con campioni di
numerosità inferiore ai 30 elementi per una questione di leggibilità
Istogramma
È adatto alla rappresentazione di variabili casuali continue. Si necessita della suddivisione
dell’intervallo di variabilità del campione in un determinato numero di classi, che può essere
definito mediante la regola di Sturges per esempio
Di n c si terrà la parte intera, ed è in genere buona norma avere almeno 5 osservazioni per ogni
classe.
L’ampiezza di ciascuna classe è definita come
range
ac=
nc
Box Plot
È adatto alla rappresentazione di variabili casuali continue, e consente una rappresentazione del
campione non tanto nella sua completezza, quanto più che altro tramite alcuni suoi indici
fondamentali:
Media:
n
1
x= ∑x
n i =1 i
Volendo utilizzare un unico valore per rappresentare i dati la media aritmetica è il metodo
ideale. La media è anche il centroide dell’area tra il poligono di frequenza e l’asse delle
ascisse, ovvero il baricentro della curva di frequenza. La media potrebbe essere influenzata
dalla presenza di outliers.
Media Armonica:
1
x h= n
1 1
∑
n i=1 xi
È il reciproco della media dei reciproci.
Mediana:
x 0.5 è il valore centrale del campione ordinato in senso crescente, o anche il quantile con
livello di probabilità pari al 50%. Risente poco degli outliers, e per questo vi si riferisce
spesso come ad una misura resistente.
Moda:
~
x è il valore più frequente all’interno del campione. Non risente degli outliers.
Indici di Variazione
Mentre le misure di tendenza centrale si ottengono definendo un valore centrale o
rappresentativo, gli indici di variazione rappresentano il grado di dispersione delle osservazioni. La
dispersione indica anche la precisione dei dati.
√ √
n n
1 ~ 1
S= ∑ (|x i−x|) distorto S= ∑
2 2
Coefficiente di Variazione:
~
S
CV =
x
Altri indici
Coefficiente di Asimmetria:
n
1
∑
3
n i=1
(|x i− x|)
C a= 3
S
Si tratta di un coefficiente adimensionale caratterizzato da un denominatore sempre
positivo, quindi il segno del coefficiente sarà determinato unicamente dal numeratore, ed
in particolare avremo
Ca = 0: Campione simmetrico rispetto alla media
Ca > 0: Campione asimmetrico a destra, le osservazioni a destra della media
pesano di più.
Ca < 0: Campione asimmetrico a sinistra, le osservazioni a sinistra della
media pesano di più.
Coefficiente di Kurtosis:
n
1
∑
4
n i=1
(|x i−x|)
K= 4
S
Anch’esso un coefficiente adimensionale, sempre positivom ed ha un valore di riferimento
pari a 3 (quello della normale), rispetto cui si definisce il grado di appiattimento del
campione, in particolare se K > 3 più appiattito della normale, se K < 3 campione meno
appiattito di una normale.
Si possono poi volendo definire altri coefficienti di qualunque ordine, con la medesima struttura
dei precedenti, ovvero
n
1
∑
k
n i=1
(|xi −x|)
M k=
Sk
Si parla di Momenti, e vengono utilizzati solitamente per andare a stimare i parametri che
caratterizzano le distribuzioni di probabilità. Di solito k non supera il valore k = 5.
√
n
1
σ x =S x = ∑ (| xi −x|)
2
n i=1
n n
1 1
μ y = y= ∑
n i=1
y i = ∑ m x i +c=m x+ c
n i=1
√ √ √
n n n
1 1 1
∑ y i− y|) = ∑ (|( m x i+ c)−(m x+ c)|) = ∑ (m (|x i−x|) ) =mσ x
2 2 2
σ y =S y =
n i=1 (| n i=1 n i=1
Da cui si ottiene
σ x → σ y =m σ x μ x → μ y =m μ x +c
n n n
1
∑ (|x −x|) ( y i− y )= 1n ∑ (|x i−x|) [ ( m x i+ c ) −( m x + c ) ] = 1n ∑ m (|x i−x|) =m σ 2x
2
σ xy=
n i=1 i i =1 i=1
Quindi
m σ 2x
{
σ xy m
ρ xy = = = = +1 se m> 0
σ x σ y σ x |m|σ x |m| −1 se m< 0
I diagrammi di Venn consento una più comprensibile ed intuitiva rappresentazione della teoria
della probabilità, affrontandola con un approccio insiemistico.
L’insieme di tutti gli eventi associati ad un esperimento e delle loro possibili combinazioni viene
definito spazio degli eventi.
Spazio degli Eventi: A, è un insieme di eventi più ampio di quello campionario, e raccoglie
in sé tutti i possibili eventi associati ad un determinato esperimento. È caratterizzato dalle
seguenti proprietà
- Ω∈A
- Se A∈ A allora A c ∈ A
- Se A1 ∈ A e A 2 ∈ A , allora A 1+ A 2 ∈ A
Cui segue
- Se A1 ∈ A e A 2 ∈ A , allora A 1 A2 ∈ A
- Se 0 ∈ A allora A c ∈ A
Il concetto di spazio degli eventi è più complesso rispetto
a quello campionario, perché lo contiene cosi come
contiene l’evento nullo, o tutte le possibili combinazioni
degli eventi dello spazio campionario.
La classica definizione della probabilità si riferisce ai
risultati di un generico esperimento, come può essere il
lancio di una moneta. Se l’esperimento ha un certo
numero di risultati n mutuamente escludentisi e con
medesima possibilità di realizzarsi, e tra questo numero
una certa partizione n A ha lo stesso attributo A, allora la
probabilità di A sarà il rapporto tra n A ed n .
c
A ∩ A =∅ }
A ∪ A c =Ω → Pr [ A ∪ Ac ]=Pr [ A ] + Pr [ A c ] =Pr [ Ω ] =1
Pr [ A c ] =1−Pr [ A ]
Inoltre, sfruttando i diagrammi di Venn, risulta semplice dimostrare come la probabilità di due
eventi A e B è pari alla differenza tra la somma delle proabbilità dei suddetti eventi e la probabilità
della loro intersezione. Nel caso di eventi mutuamente escludentisi, la probabilità dell’intersezione
sarà nulla.
Pr [ B ] =Pr [ ( A ∩ B ) ∪ ( Ac ∩B ) ]=¿¿ Pr [ A ∩ B ] + Pr [ A c ∩B ]
La definizione generale della probabilità unione sarà Pr [ A ∪B ] =Pr [ A ] + Pr [ B ] −Pr [ A ∩B ]
Questa funzione deve rispettare i 3 assiomi della probabilità. L’esempio più elementare è
Bernoulli. X può assumere solamente i valori 0 ed 1: X ∈ { 0; 1 } : si può scrivere :
p X ( x=1 )= p
X
}
p X ( x=0 ) =1− p → p ( x )= p x ( 1− p )1− x
Questa variabile è molto utile per descrivere l’esperimento del lancio di una moneta, oppure il
generico superamento di un valore di soglia di una qualunque variabile, se si fissa ad esempio il
superamento come valore 1 ed il non superamento come valore 0.
2. Funzione di Distribuzione di Probabilità Cumulata: Per una variabile casuale X, la CDF è la
probabilità di non superamento del valore x. Si tratta di una funzione continua e monotona
crescente, limitata tra 0 ed 1. Nel caso discreto è fornita dalla somma dei valori della pmf.
xn
F X ( x) = ∑ p X (x i)
x i =x ( 1 )
Anche questa funzione deve rispettare i 3 assiomi della probabilità. Ciò che andiamo a fare
mediante l’operazione scritta sopra, è cumulare la probabilità per tutti i valori assumibili da una
variabile discreta, minore od uguale di un certo valore x n. Pertanto se la mia variabile discreta può
assumere i seguenti valori:
x 1 , x 2 , x 3 ,… , x n
Allora F X ( x n ) sarà la sommatoria di tutte le funzioni di massa di probabilità calcolate in tutti i valori
minori uguali di x n, perciò
F X ( x n )= p X ( x 1 ) + p X ( x 2 ) + p X ( x 3 ) +…+ p X ( x n )
Naturalmente se x n=x max sullo spazio campionario Ω → F X ( x max ) =1. Ciò che abbiamo appena
descritto, la funzione di distribuzione cumulata, è sostanzialmente parente delle frequenze relative
cumulate, e concettualmente esprime quindi la probabilità di non superamento.
3. Funzione di Sopravvivenza
x max
F X ( x n )=Pr [ X > x n ]= ∑ p X (xi )
x i =x n+ 1
La pdf, come implicato dalla sua definizione, non è adimensionale, e dunque di per sé non
rappresenta una probabilità, ma indica un’intensità di probabilità o un tasso di probabilità. L’area
sottesa alla curva, compresa tra due limiti, fornisce la probabilità che la variabile X giaccia
nell’intervallo definito dai limiti.
È l’analogo delle frequenze relative cumulate, o delle funzioni di distribuzione cumulata, per cui
esprime la probabilità di non superamento.
x
d FX (x )
F X ( x ) =Pr [ X ≤ x ] = ∫ f X ( x ) dx f X ( x )=
−∞ dx
Anche qui abbiamo la complementare della precedente, e che quindi esprime la probabilità di
superamento.
Si tratta di una media pesata fra tutti i valori che la variabile casuale può assumere, i pesi sono le
funzioni di massa di probabilità, la cui somma è al denominatore (vale 1).
Possiamo applicare l’operatore media anche a funzioni di X, ammesso che esista E[x]. E allora
avremo
n +∞
discreta E [ g ( x ) ]=∑ g ( x i ) P X ( x i )continua E [ g ( x ) ] =∫ g ( x ) f X ( x ) dx
i=1 −∞
Per cui, volendo fare un esempio, andando ad ipotizzare una forma semplice per la funzione
+∞ +∞
g ( X )=a X → E [ g ( x ) ] =∫ g ( x ) f X ( x ) dx=∫ a x f X ( x ) dx=a E[ x]
−∞ −∞
Il ricorso alle funzioni della variabile casuale X ci permette di introdurre il concetto di Momenti
Statistici:
g ( x )=( X −μ X ) R → E [ g ( X ) ]=E [ ( X −μ X ) R ]
Momento statistico di ordine R. La media, o il valore atteso, di una funzione o variabile, può essere
calcolato pesando la funzione tramite la sua funzione di massa o densità di probabilità, a seconda
che si tratti di una variabile discreta o continua. Tale procedura viene definita metodo dei
momenti, e costituisce una famiglia di media della variabile casuale che funge da descrittore del
comportamento della variabile casuale stessa.
Al variare del valore di R avremo indici differenti.
2. R=2: E [ ( X−μ X ) ] =σ X
2 2
Varianza
Si può scrivere in questo caso
[ ]
σ x =E [ ( X−μ X ) ]=¿E ( X 2−2 X μ X + μ 2X ) =¿E [ ( X )2 ] + E [−2 μ X X ] + E [ μ 2X ]=¿
2 2
E [ X ]−2 μ X E [ x ] + E [ μ X ] =¿ E [ X 2 ] −2 μ X μ X + μ2X =¿
2 2
σ x =E [ X ] −μ X =E [ X ] −( E [ X ] )
2 2 2 2 2
γ1 X = 3
σX
Ovvero il coefficiente di asimmetria.
E [ ( X−μ X ) ]= E [ ( X−μ X ) ]
3 3
γ1 X = =¿
{√ E [ X ]−( E [ X ]) }
3 3
σ x
2 2
E [ X −3 X μ X + 3 X μ X −μ X ] E [ x ]−3 μ X E [ x ] +3 μ X E [ x ]−μ X
3 2 2 3 3 2 2 3
¿ 3
= 3
=¿
{ √ E [ X ]−( E [ X ] ) }
2 2
{√ E [ X ]−μ }
2
X
2
E [ x ] −3 μ X E [ x ] +3 μ −μ E [ x ] −3 μ X E [ x ] +2 μ X
3 2 3 3 3 2 3
X X
¿ =
{ √ E [ X ]−μ }
3
{ √ E [ X ]−μ }
3
2 2 2 2
X X
Il coefficiente di asimmetria, definito a partire dal momento di terzo ordine rispetto alla
media, è una funzione dei momenti di 1°, 2° e 3° ordine rispetto all’origine.
Generalmente in idrologia le variabili aleatorie tipiche sono asimmetriche a destra, ovvero hanno
un valore positivo del coefficiente di asimmetria. Inoltre, in questa situazione, è valida la seguente
relazione
Moda< Mediana< Media
Quantili: Molti problemi ingegneristici richiedono di trovare la probabilità che un determinato
carico ecceda i livelli di progetto. Pertanto è importante introdurre il concetto di quantile,
associato ad un certo livello di probabilità q, definito come il più piccolo valore della variabile
aleatoria x, che soddisfa la seguente disuguaglianza:
F X ( x q )≥ q
Se la mediana è definita come il quantile 0.5, allora l’affermazione alla pagina precedente può
essere riscritta come
~
x < x 0.5 < x
γ2 x= =¿ =¿
{ √ E [ x ]−( E [ x ] ) }
4 4
{ √ E [ x ]−( E [ x ] ) }
2 2 2 2
¿¿
IDROLOGIA FISICA 5: Tecniche di Stima dei Parametri
In ambito ingegneristico la statistica permette di ottenere informazioni rilevanti da un determinato
campione di dati. Assumendo di conoscere la distribuzione, i valori dei parametri che la
caratterizzano devono essere stimati dai campioni, un sottoinsieme della popolazione della
variabile.
Tutte le distribuzioni di probabilità, tanto per variabile discrete quanto continue, sono
caratterizzate da uno o più parametri, a priori incogniti, che devono essere determinati a partire
da un campione di dati osservati. Per determinare il vettore di parametri incogniti andiamo a
fornire una stima θ^ a partire da uno stimatore θ . Lo stimatore è definito come una vera e propria
variabile aleatoria, è la forma funzionale con cui fornisco una certa stima a partire dal campione di
dati. La stima è il valore numerico specifico, ottenuto dall’applicazione della formula stimatore al
campione di dati.
0 0 dx
+∞
E [ x ] =∫ −x d ( e−λx ) ed integrando per parti
0
}
∞ 100
g ( x )=x → g ( x ) d h ( x ) = d g ( x ) h ( x ) − h ( x ) d g ( x )
∫ ( ) ∫ [ ] ∫ ( ) E [ x ] =∫ d [− ( x e ) ] + ∫ e−λx dx
− λx
h ( x )=e− λx 0 0
∞
− λx ∞
il primo termine è semplicemente l integrale diun differenziale E [ x ] =−[ x e
'
] +∫ e− λx dx
0
0
[ ]
∞ ∞
−1 − λx −1
Il primo terminerisulta nullo sia per x =0 che per x=∞E [ x ] =∫ e−λ x dx= e = [ ∅−1 ] = 1
0 λ 0 λ λ
1 1 −1
Per cui E [ x ] =μ x = → λ= =E [ x ]
λ μx
[ ]
X ∗F X ( x ) ∗( 1−F X ( x )) =E [ g ( x ) ]=∫ g ( x ) f X ( x ) dx
i j k
β ijk=E ⏟
Pesi
Dove il peso j-esimo fa pesare maggiormente la coda destra, mentre quello k-esimo fa pesare
maggiormente la coda sinistra, e con j=k =0 si ottiene un classico momento di ordine i rispetto
alla media. La scelta comunemente presa è di scegliere un valore di i pari ad 1 e di k pari a 0, il che
significa
β 1 j 0=β j=E [ X F X ( x ) ]
j
{
n
1
β110 =b110 → E [ X F x ( x ) ]= ∑ x F (x )
n i=1 i i i
2 parametri incogniti →
β 100 =b100 → μ x =^μx
Metodo degli L-Moments
Questo metodo deriva dal precedente, in quanto si sfruttano dei particolari momenti, denominati
“L-Moments”, che sono delle combinazioni lineari dei momenti pesati in probabilità. Sono funzioni
dei pwms, della posizione, scala ed altre proprietà che caratterizzano una distribuzione, e sono
pertanto utilizzabili per la stima dei parametri.
λ 1=β 100=μ x λ 2=2 β 110 −β 100 λ 3=6 β 120 −6 β 110 + β 100 λ 4=20 β 130 −30 β 120 +12 β110 −β 100
Gli “L-Moments” sono combinazioni lineari delle osservazioni, e pertanto non necessitano di
elevamenti quadratici o cubici a potenza, come invece richiesto dagli stimatori di varianza,
asimmetria e Kurtosis. Pertanto, gli “L-Moments” risultano molto meno variabili che la loro
controparte convenzionale, e sono distribuiti quasi normalmente.
E la massimizzazione di tale funzione avviene risolvendo, per via analitica o numerica, il seguente
sistema
{
dL
=0
d θ1
dL
=0 → dL
dθ =0
d θ2
…
[ ( )]
2
1 −1 x −μ x
X N ( μx , σ x )→ f X ( x ) = exp
√2 π σ x 2 σx
{ [ ( ) ]} ∑ { [ [ ]}
n 2 n 2
1 −1 x−μx 1 x i−μ x
¿ ∑ ln
i=1 √2 π σ x
exp
2 σx
=
i =1
ln (√ 2 π σ x )
−1
] −
2 σx
=¿
( ) ( )
n 2 n 2
1 xi −μ x 1 x i−μ x
¿ n ln [ ( √2 π σ ) ]x
−1
−∑
i=1 2 σx
per cuiln ( L ( x , μ x , σ x ) ) =−n ln [ √ 2 π σ x ]− −∑
2 i=1 σx
[
d ln ( L ( x , μ x , σ x ) ) ] = −1 ( 2 )
( ) ( )
n
−1 x i−μ x
d μx 2 σx
∑ σx
=∅
i=1
[
d ln ( L ( x , μ x , σ x ) ) ] =−n 1 − 1 (−2 ) σ n
d σx σx 2
( x)
−3
∑ ( xi −μx ) =∅
i=1
{ { {
n n
1
2∑( i
n n
σ x i=1
x −μ x )=0 ∑ ( xi −μ x )=0 ∑ x i−∑ μ x=0
n
= i=1
n
= i=1 i=1
−n 1 1 n
+ 3 ∑ ( x i−μ x ) =0
2
−n+ 2 ∑ ( xi −μx )2=0
σ x σ x i=1 σ x i=1 ∑ ( x i−μ x ) 2=n σ 2x
i=1
{
n
1
μ x = ∑ xi =^μ x
n i=1
n
1
σ x=
2
∑
n i=1
(
2 2
x i−μ x ) =σ^ x
Quindi applicando il metodo della massima verosimiglianza o il metodo dei momenti alla
distribuzione normale otteniamo il medesimo risultato.
Teorema delle Distribuzioni Derivate
Viene utilizzato per ricavare la funzione densità di probabilità di una variabile aleatoria che è
funzione di un’altra variabile aleatoria di cui conosciamo la funzione densità di probabilità.
X : variabile aleatoria di distribuzione nota
F Y ( y )=Pr [ X ≤ g ( y ) ]=F X ( g ( y ) ) → F Y ( y ) =F X ( g ( y ) )
−1 −1 −1
F Y ( y )=Pr [ X ≥ g ( y ) ] → F Y ( y )=1−F X ( g ( y ) )
−1 −1
Questo è valido sia per variabili casuali continue che discrete, se però la variabile è continua ci
interesserà anche conoscere
d FY ( y )
f Y ( y )= →¿
dy
Visto che la derivata dell’inversa di g rispetto ad y sarà positiva nel primo caso e negativa nel
secondo.
IDROLOGIA STATISTICA 6: Distribuzioni di Probabilità di V.C.
Discrete
Una distribuzione discreta viene utilizzata per modellare una variabile casuale che può assumere
un insieme finito di valori nello spazio campionario. In questi casi solitamente si è interessati ad un
esperimento consistente in una singola prova, il cui risultato deve appartenere a due categorie,
solitamente successo e insuccesso.
Distribuzione di Bernoulli
È una distribuzione utile a modellare una variabile casuale che può assumere solo due valori, 0 ed
1, che devono corrispondere ad eventi mutuamente escludentisi ed equiprobabili. Generalmente il
valore 1 è associato all’evento “Successo” ed il valore 0 è associato all’evento “Fallimento”. Le
funzioni caratteristiche di questa distribuzione sono:
{
x 1−x
p X ( x )= p ( 1− p ) se x={0 ; 1 }
∅ se x ≠ {0 ; 1 }
x=0
Distribuzione Uniforme
È una distribuzione utile a modellare un esperimento in cui la variabile può assumere N valori,
mutuamente escludentesi ed equiprobabili, indicati con x i , i=1 … N
{
1
se x =xi
densità o massa di probabilità p X ( x )= N i=1 , … , N
∅ se x ≠ x i
{
i
se x=x i
Distribuzione Cumulata F X ( x )= ∑ p X (x i )= N
i: X ≤ x
i
∅ se x ≠ x i
( )
N 2
1 N +1 2 1 N ( N + 1 )( 1+2 N ) ( N +1 ) N 2−1
σ x =E [ x ]−( E [ x ] ) =∑ x i
2 2 2 2 2
− = − → σ x=
i=1 N 2 N 6 4 12
Distribuzione Binomiale
Si tratta di una distribuzione utile a descrivere la combinazione di n esperimenti di tipo
Bernoulliano, cioè ciascuno dei quali, preso singolarmente, può essere descritto con una Bernoulli.
Vogliamo ad esempio considerare la variabile “ X =n ° di successi∈n esperimenti bernoulliani”.
Consideriamo la probabilità di avere 1 successo in 4 lanci di moneta. I possibili scenari sono
{ {
1 ° :T C C C Pr [ x=testa ∩ x=croce ∩ x=croce ∩ x=croce ]
2 ° :C T C C La probabilità sarà per ciascuno Pr [ x=croce ∩ x =testa ∩ x=croce ∩ x=croce ]
3 ° :C C T C Pr [ x=croce ∩ x =croce ∩ x=testa ∩ x=croce ]
4 ° :C C C T Pr [ x=croce ∩ x =croce ∩ x=croce ∩ x=testa ]
Ma gli scenari sono da sommarsi, quindi in definitiva la probabilità di avere un successo in quattro
esperimenti è pari a:
3
P=4 p ( 1− p ) ≅ 31.25 %
()
p x ( x )= n p (1−p ) =
x
x n−x n!
x ! ( n−x ) !
x
p ( 1− p )
n− x
Il coefficiente binomiale ( nx ) indica il fatto il numero di modi, o scenari, in cui il mio risultato può
essere ottenuto.
Calcoliamo il valore atteso e la varianza
n n
x=0
()
μ x =E [ x ]=∑ x n p x ( 1− p ) =∑
x
n− x x n!
x=0 x ! ( n−x ) !
n− x
p x ( 1− p ) =¿
n ( x−1) n−x n
x n ( n−1 ) ! p p ( 1− p ) ( n−1 ) ! p x−1 ( 1− p )n− x
¿∑ =n p ∑
x=0 x ! ( n−x ) ! x=0 ( x −1 ) ! ( n−x ) !
Effettuando una sostituzione in cui y=x −1
n−1
( n−1 ) ! p y ( 1− p )n−1− y
μ x =n p ∑ =np
y=0 y ! ( n−1− y ) !
Binomiale→
()
p x ( x )= n p (1−p )
x
x n−x
x
F ( x )=∑ ( n) p ( 1− p )
k n−k
X
k=0 k
Per ottenere una Poisson andremo a calcolare il limite per n che tende ad infinito
( )( )
x n−x
n→∞ ()
lim px ( x )=lim n p x ( 1− p ) =
n →∞ x
n−x n! ν
x ! ( n−x ) ! n
1−
ν
n
x
Con ν=np ≅n
( )( ) ( )
x x n −x x n
n ν ν ν ν ν
¿ lim x
1− 1− =lim 1−
n→∞ x ! n n n n →∞ x ! n
z2 z3 z4
−ln ( 1−z ) =z+ + + +…
2 3 4
ν
Sostituendo a z otteniamo
n
( ) () ()
2 3
ν ν 1 ν 1 ν
−ln 1− = + + +…
n n 2 n 3 n
( )
−n ln 1−
ν
n
=ν +
1 ν 2 1 ν3 1 ν 4
+ 2+
2 n 3 n 4 n3
…n ln 1−
ν
n
=−ν −
ν2
− ( )
ν3
−
ν4
2 n 3 n2 4 n3
( )
n 2 3 4
ν ν ν ν
ln 1− =−ν − − 2 − 3
n 2n 3n 4n
Ma quindi
lim 1−
n→∞
( ) ν n
n
=exp (−ν )
lim
n→∞
( )
νx
x!
ν n νx
1− = exp (−ν )
n x!
E dunque
x
ν x −ν ν k −ν
p x ( x )= e F X ( x ) =∑ e
x! k=0 k !
E [ x ] =VAR [ x ]
Se media e varianza campionarie di un campione di dati coincidono si può ipotizzare un comportamento
Poissoniano per la variabile.
ν x −ν
e
¿ Pr [ X=x ] x !
Pr [ X =x| X ≥ 1 ¿ = ∀ x ≥ 1=
Pr [ X ≥ 1 ] Pr [ X ≥ 1 ] 1−e
−ν
Infatti
x
ν −ν
Pr [ X ≥1]=1−Pr [ x=0 ] =1− e =1−e−ν
x!
Quindi possiamo scrivere
x −ν
ν e 1
Pr [ X =x| X ≥ 1 ¿ ¿=
x ! 1−e−ν
ν x e− ν 1
Pr [ X =x| X ≥ m ¿ ¿=
x ! 1−F X (m)
( )
X = x −1 p (1− p )
r −1
r−1 [ ( x−1) −( r −1 ) ]
Con questa distribuzione proviamo a valutare la probabilità di avere in un generico ordine r-1
successi in x-1 esperimenti
Se aggiungiamo qualcosa a tale distribuzione possiamo passare dalla descrizione di X’ a quella di X,
ovvero facendo in modo che tenga in considerazione un ulteriore esperimento, che sia un
successo. Andiamo cioè ad intersecare la probabilità di avere r-1 successi in x-1 esperimenti, con la
probabilità di avere un ulteriore successo (semplicemente p). Da questo ragionamento otteniamo
( )
p X ( x )= x−1 p ( 1− p )
r−1
r −1 [ ( x−1) − ( r−1) ]
( )
∗p= x−1 p ( 1− p )
r−1
r (x−r )
( )
F X ( x ) =∑ k−1 p r (1−p )[ k−r ]
k=r r −1
Quella appena calcolata viene definita distribuzione binomiale negativa, che fornisce la probabilità
di avere r successi in x esperimenti con l’ultimo esperimento che è un successo.
C’è una differenza concettuale sottile ma importante tra le due distribuzioni. Con la binomiale si
fissa il numero n di esperimenti, e calcolo la probabilità di avere un certo numero x di successi.
Quindi la variabile x si riferisce al numero di successi, e per questo nel coefficiente binomiale sta al
denominatore.
Con la binomiale negativa si fissa il numero di successi, e si calcola la probabilità di avere quei
successi in x esperimenti, in modo che l’ultimo esperimento sia un successo. Naturalmente per
avere r successi il numero minimo di esperimenti sarà r. La variabile x in questo caso si riferisce al
numero di esperimenti, e per questo, nel coefficiente binomiale, è al denominatore.
Distribuzione Geometrica
Ricollegandoci al caso della binomiale negativa, supponiamo di essere interessati ad ottenere la
probabilità di avere 1(=r) successo in x esperimenti. Tale situazione è ricollegabile ad una
frequente casistica in idrologia, possiamo infatti immaginare il successo come l’occorrenza di un
evento di piena che supera una certa soglia di portata, ed il numero di esperimenti come il numero
di anni.
( x−1 ) !
( )
P X ( x )= x−1 p ( 1− p ) x−1=
0 0 ! ( x−1 ) !
p ( 1− p ) x−1= p (1−p )x−1r =1
x=1 x=1
Se derivo la funzione −( 1− p )x rispetto a p, ottengo l’argomento della serie del valore atteso meno
il prodotto per p.
d
dp
[ −( 1− p ) x ] =−(−1 ) x ( 1− p ) x−1 =x ( 1− p ) x−1
[ ]
∞ ∞
d d 1 1
∑ −( 1− p ) x=∑ x ( 1−p )x−1= dp
dp x=1
1− = 2
p p
x=1
VAR [ x ] =E [ x 2 ] −( E [ x ] )
2
x=1
Partendo dalla stessa funzione utilizzata per il valore atteso, posso, se la derivo una seconda volta,
ottenere la seguente forma
2
d ( d
2
[ 1− p )x ]= dp [−x (1− p )x−1 ]=x ( x−1 )( 1−p )x−2=x ( x−1 )( 1− p )−1 ( 1− p )x−1
dp
Dalla quale notiamo come sia possibile ottenere l’espressione per la varianza
( 1−p )∗d 2 ∞
p 2
[ ( 1−p )
x
] = ∑ x ( x−1 ) p ( 1−p )
x−1
dp x=1
E quindi
[ ]
2
( 1− p )∗d 1 2
E [ x ]−( E [ x ] ) = p
2 2
−1 = p ( 1− p ) 3
dp
2
p p
2−2 p 2−2 p 1 2− p
E [ x 2 ]−E [ x ] = −da cui → E [ x 2 ]= + = 2
p
2
p
2
p p
2− p 1 2− p−1
VAR [ x ] = 2
− 2= 2
p p p
1− p
VAR [ x ] =
p2
Per approfondire quanto visto in un caso concreto idrologico, andiamo a considerare la variabile
Y :massimo annuale di portata al colmo. Per ogni anno abbiamo dei campioni di portata, e per
ciascun anno consideriamo il massimo.
10
Se andiamo a definire un valore di soglia
9
y , in base al grafico rappresentato dei
¿
y* 8
7 massimi annuali di portata, il tempo
6 necessario per osservare un valore
5
maggiore della soglia limite sarebbe un
Q
4 ~
3 periodo temporale T pari, in questo
~
2 caso, a sette anni. Se ora consideriamo T
1 come una variabile discreta (anni),
0
1 2 3 4 5 6 7 8 9 possiamo definire
Anni
~
Pr [ T =n ] =?
~
Cerchiamo innanzi tutto di esprimere l’evento T =n con riferimento alla precedente variabile Y:
{~
T =n }={Y 1 ≤ y¿ ∩ Y 2 ≤ y ¿ ∩Y 3 ≤ y ¿ ∩ …∩Y n−1 ≤ y ¿ ∩Y n > y ¿ }
Possiamo vedere l’evento “superamento” con un successo di probabilità “p”, mentre l’evento
“non superamento” come un fallimento di probabilità “(1-p)”. Quindi
~
Pr [ T =n ] =( 1− p ) p
n−1
~
Ma questa è la distribuzione geometrica, per cui la variabile T è distribuita secondo una
distribuzione geometrica. Il tempo di ritorno T è invece la media di una distribuzione geometrica
~
di T , infatti:
1 ~
T = =E[ T ]
p
È il tempo medio che intercorre tra due eventi di superamento successivi di una certa soglia.
~ 1 1 1 1
T R =E [ T ] = = = =
p Pr [ Y > y ] 1−Pr [ Y ≤ y ] 1−FY ( y ¿ )
¿ ¿
Distribuzione Uniforme
È la tipologia più semplice di distribuzione, in cui la pdf è, come suggerito dal nome, costante
sull’intervallo di definizione. Viene di fatto anche chiamata distribuzione rettangolare perché
assume valore 0 in qualsiasi punto non appartenga all’intervallo di definizione. Questo significa
che tutti i valori assumibili dalla variabile casuale tra il limite inferiore a ed il limite superiore b
hanno la medesima probabilità di occorrenza.
x
1 1 x−a
X ∈ [ a ,b ] f X ( x )= F X ( x ) =∫ dx=
b−a a b−a b−a
Possiamo poi dunque andare a calcolare il
valore atteso e la varianza, che varranno per la
distribuzione uniforme:
b b
x
E [ x ] =∫ x f X ( x ) dx=∫ dx=¿
a a b−a
[ ]
2 b
1 x 1 1
¿ = [ b2−a2 ]
x b−a 2 a 2 b−a
a b
1 (a+ b)( a−b) 1
¿ = ( a+b )
2 (a−b) 2
1
1
E [ x ] = ( a+b )
2
E la varianza potrà essere calcolata come
a b x
[ ] [ ]
b 2 3 b
1 1 x 1
VAR [ x ] =E [ x ] −( E [ x ] ) =∫ x f x ( x ) dx− ( a+ b ) =
2 2 2 2
− ( a+ b ) =¿
a
2 b−a 3 a 4
b3−a3 1 2 ( b2 +ab+ a2 ) ( b−a ) 1 2
¿ − ( a+b ) = − ( a+b )
(
3 b−a ) 4 (
3 b−a ) 4
4 ( b2 +ab +a2 ) −3 ( a2 +2 ab+b 2 )
2 2
1 1 b −2 ab+ a
¿ ( b 2+ ab+a 2) − ( a2 +2 ab+ b2 )= =¿¿
3 4 12 12
( b−a )2
VAR [ x ] =
12
La distribuzione uniforme è estremamente importante per la simulazione Montecarlo, ma anche
perché ci permette di enunciare il
λ 1
x x
Scriviamo
Facendo ciò supponiamo che la F X ( x ) sia monotona crescente, per cui applicando l’inversa il segno
all’interno delle parentesi non varia.
Distribuzione Esponenziale
Per la distribuzione esponenziale avremo:
X ∈ [ 0 ;+ ∞ ) f X ( x )=λ e− λ x F X ( x ) =1−λ e− λx
Si tratta di una distribuzione strettamente legata alla Poisson, cui abbiamo visto assumere la
seguente forma:
y −ν
ν e
( )
pY y =
y!
Supponendo che questa variabile rappresenti il numero di occorrenze di un fenomeno su una
certa finestra temporale, E [ Y ] =ν rappresenterà il numero medio di occorrenze in tale finestra. Se
andiamo ad indicare con λ il tasso medio di occorrenze, avremo
ν
λ=
t
Se poi consideriamo il caso di assenza di occorrenze
ν 0 e−ν −ν −λt
y=0→ PY ( 0 )= =e =e
0!
Utilizzando tale risultato ed andando a considerare una nuova variabile casuale, ovvero il tempo
T : “tempo fra due occorrenze successive”, troviamo che la cdf di questa nuova variabile sarà
Pr [ T >t ] =e =e → Pr [ T ≤ t ] =1−e
−ν − λt − λt
Con il simbolo maggiore Pr [ T >t ] si va ad intendere che nella finestra temporale T non vi saranno
occorrenze. La distribuzione esponenziale quindi descrive il tempo che intercorre tra due
occorrenze successive di un processo poissoniano, cioè descritto da una distribuzione Poissoniana.
Può essere utile notare che la distribuzione esponenziale è applicabile ad altre grandezze fisiche
oltre a quella temporale, ed inoltre tale distribuzione è il corrispettivo per variabili continue di
quelle che la distribuzione geometrica era per variabili discrete.
La pdf della distribuzione esponenziale è ottenibile differenziando la cdf:
− λx
f X ( x )=λ e
Da cui
[ ]
∞ ∞
∞ −1 −λx 1
E [ x ] =[−x e− λx ]0 +∫ e− λx dx= e =
0 λ 0 λ
1
E [ x ]=
λ
2 1 1
VAR [ x ] =E [ x ] −( E [ x ] ) =
2 2
− =
λ2 λ2 λ2
1
VAR [ x ] =
λ2
Calcoliamone anche la mediana, ovvero il quantile x 0.5
0.69
=0.5−λ x 0.5 =ln ( 0.5 ) x 0.5=
− λx − λx
0.5=1−e e
λ
Ed il coefficiente di variazione
σ x 1/ λ
CV = = =1
μ x 1/ λ
Così come nel caso della distribuzione geometrica, la distribuzione esponenziale modella un
comportamento, derivante dalla distribuzione di Poisson, che è indipendente dalle presenti o
passate occorrenze.
Si dice che questa distribuzione gode della proprietà di Assenza di Memoria, ovvero:
consideriamo la variabile casuale X e 3 valori che essa può assumere, x 1 , x 2 e x1 + x 2. Vogliamo
calcolare la probabilità che si verifichi l’evento X > x 1 + x 2, posto che si sia verificato X > x 1
Pr [ X> ( x 1+ x 2 ) ∩ X > x 1 ]
Pr [ X > ( x 1+ x2 ) ∨X > x 1 ]=
Pr [ X > x 1 ]
∞ ∞ ∞
1 1 − λy ∞ 1
¿ ∫ y λ exp {−λy } dy+∫ ε λ exp {−λy } dy= +ε ∫ λ exp {− λy } dy ¿ + ε [−e ] 0 = +ε
0 0 λ 0
λ λ
1
E [ x ] = +ε
λ
( )
2
1
VAR [ X ] =E [ x ]−( E [ x ]) =E [ x ] −
2 2 2
+ ε =¿
λ
∞ ∞
( ) ( )
2 2
1 1
¿ ∫ x λ exp {− λ ( x−ε ) } dx− +ε =∫ ( y + ε ) λ exp {− λy } dy − +ε =¿
2 2
ε λ 0 λ
∞ ∞ ∞
( )
2
1
¿ ∫ y λ exp {−λy } dy+∫ ε λ exp {−λy } dy+ 2 ε ∫ y λ exp {−λy } dy−
2 2
+ ε =¿
0 0 0 λ
( )
2
2 2 2ε 1 2 2 2ε 1 2 2ε 1
→ VAR [ x ]= 2
+ε + − + ε = 2 + ε + − 2 −ε − = 2
λ λ λ λ λ λ λ λ
1
VAR [ x ] = 2
λ
Distribuzione Gamma
Abbiamo visto come nel caso di un certo numero di esperimenti discreti e indipendenti la
distribuzione binomiale negativa sia un’estensione della distribuzione geometrica, che riguarda
invece un singolo successo. Allo stesso modo, trattando variabili casuali, si può essere interessati
alla distribuzione del tempo di ottenimento dell’r-esimo successo di un processo Poissoniano. Si
definisce così la distribuzione di Erlang, la cui pdf può essere ottenuta moltiplicando il tasso di
occorrenze per la probabilità che l’(r-1)-esima occorrenza si abbia in corrispondenza del tempo t.
Si tratta di una distribuzione a due parametri, λ e r , dove il secondo è un numero intero. In
particolare se r è pari ad 1 si ottiene la distribuzione esponenziale.
r−1 − λx x
λ(λ x) e r r
X ∈ [ 0 ; ∞ ) f X ( x )= F X ( x ) =∫ f X ( x ) dx nonintegrabile analiticamente
E [ x ] = VAR [ x ] = 2
( r−1 ) ! 0 λ λ
Il denominatore ( r −1 ) ! è il prodotto dei primi r-1 numeri naturali. Può essere riscritto nella forma
di Γ ( r), per poterlo applicare a valori di r che non siano numeri naturali
λ ( λ x )r−1 e− λx
f X ( x )=
Γ (r)
Distribuzione Normale/Gaussiana
La distribuzione normale è nata inizialmente per lo studio degli errori sperimentali, dovuti ad
inevitabili differenze tra osservazioni del medesimo esperimento ripetuto più volte. Quando si ha
una sequenza di osservazioni si può notare come tendano a raggrupparsi attorno ad un valore
centrale, con piccole variazioni più frequenti di grandi errori. Anche questa è una distribuzione a
due parametri, μ e σ , che coincidono rispettivamente con media e deviazione standard, e
rappresentano i parametri di posizione e scala della distribuzione.
{ [ ]}
2
1 −1 x−μ x
X ∈ (−∞ ,+ ∞ ) f X ( x )= exp
√2 π σ x 2 σx
È una distribuzione derivata, per cui possiamo usare, per ricavarne la distribuzione, la teoria delle
distribuzioni derivate
f Z ( z ) =f X ( z ) | |
dx ( z )
dz
→ x ( z )=z σ + μ
z=g ( x ) → x ( z )=g ( z )
−1
| |
dx ( z )
dz
=σ
{ [ ]}
2
1 −1 zσ + μ−μ
f z= exp σ
√2 π σ x 2 σ
f Z (z )=
1
√2 π
exp
−1 2
2
z { }
Cerchiamo di capire come sia fatta F Z (z)
F Z ( z )=Pr [ Z ≤ z ] =Pr
[ X−μ
σ ]
≤ z =Pr [ X−μ ≤ zσ ]=Pr [ X ≤ zσ + μ ] =Pr [ X ≤ x ]=F X ( x )
Dunque la funzione di distribuzione di probabilità cumulata è la medesima, il che, vista la più
semplice forma della normale standard rispetto alla originale, ci permette di ottenere più
facilmente soluzioni. Infatti possiamo costruire una tabella di valori noti
1. Fissare x
2. Calcolare z
z
3. Risolvere analiticamente F Z ( z )= ∫ f Z ( z ) dz
−∞
Risulta molto utile anche la simmetria rispetto all’origine di questa distribuzione, infatti
Sarà sufficiente considerare metà del dominio, da 0 a + ∞ , nel costruire la tabella; se poi fisso uno z
e calcolo il suo F ( z ) posso tranquillamente calcolare anche F (−z ) . Per altro, come detto prima, le
normali sono contenute per lo più nell’intervallo [μ x −3 σ x ; μ x +3 σ x ], che nel caso di una normale
standard è [−3 ;+3], quindi, alla luce di quanto detto, possiamo costruire tabelle di valori noti
unicamente per Z ∈[0 ; 3]. Una volta costruita la tabella dei valori noti si può semplicemente
F X ( x ) =a → entro nella tabella : F Z ( z )=F X ( x )=a → ricavo z a → ricavo x a=z a σ x + μ x
1.1 Una trasformazione lineare Y =a+bX di una N ( μ , σ 2 ) variabile casuale X porta ad ottenere
una variabile casuale Y distribuita normalmente come N ( a+bμ , b2 σ 2 )
( )
2
σ
X N μ,
N
Se le varie X i sono tutte normali, il teorema è valido anche se N non tende all’infinito.
2.2 la media campionaria di un campione di numerosità n della stessa popolazione tende ad avere
σ2
una distribuzione normale N ( μ , ) al tendere ad infinito della numerosità del campione.
N
Distribuzione Log-Normale
Come abbiamo appena visto, la sovrapposizione di un grande numero di piccoli effetti casuali
tende a rendere la distribuzione aggregata una distribuzione normale. Allo stesso modo se un
fenomeno è generato dall’effetto moltiplicativo di un grande numero di fattori incorrelati, la
distribuzione tende ad essere una distribuzione Lognormale, ovvero il logaritmo della variabile
tende ad essere distribuito normalmente. La distribuzione Log-Normale è la distribuzione di quella
variabile il cui logaritmo segue una distribuzione normale.
Y N ( μ y ,σ y ) → Y =ln (X ) N ( μ y , σ y ) → X ln (μ ln x , σ ln x )
Dove
1
√
μln x =ln ( μ y ) − ln (1+C V 2y )σ ln x = ln ( 1+C V 2y )
2
Si può scrivere anche
−1
X =g ( Y )=exp(Y )→Y =ln ( X)=g ( X )
|
f X ( x )=f Y ( g−1 ( X ) )
dx |
d g−1 ( X )
Teoria delle distribuzioni Derivate
Solitamente:
| |
−1
d g ( y)
f Y ( y )=f X ( g ( y ) )
−1
dy
| | { [ ] } x|
2
−1 ln ( x ) −μ y
|
−1
d g ( X) 1 1
f X ( x )=f Y ( g ( X ) )
−1
= exp
dx √2 π σ y 2 σy
{ [ ]}
2
1 1 −1 ln ( x )−μ y
f X ( x )= exp
√2 π σ y x 2 σy
Parametroθ
Stimatore θ^ }
→ se E [ θ^ ]=θ : θ^ è uno stimatore corretto /indistorto
[ ] [ ]
n n n n
1 1 1
E [ θ^ ]= E ∑ x i = E
n i=1 n
∑ xi = ∑ E [ x i ]= 1n ∑ μ= nμ
n i=1 n
=μ
i=1 i=1
Quindi lo stimatore media aritmetica è uno stimatore indistorto del parametro valore atteso.
Esempio: Varianza
n
1
^ = ∑ ( X i− E
^ [ x i ] )2
2
θ=S
n i=1
[ ] [∑ {( ]
n n
1 1
E [ θ^ ]= E ∑ {( x i−μ ) + ( μ−x ) } = E x i−μ )2 + ( μ−x )2 +2 ( x i−μ ) ( μ−x ) } =¿
2
n i=1 n i=1
[∑ ( ]
n n
1
¿ E x i−μ ) + n ( μ−x ) +∑ 2 ( xi −μ ) ( μ−x ) = ¿
2 2
n i=1 i=1
[∑ ( )]
n n
1
¿ E x i−μ )2+ n ( μ−x )2 +2 ( μ−x ) ∑ ( x i−μ = ¿
n i=1 i=1
[∑ (∑ x −∑ μ)]=¿
n
1 2 2
¿ E
n
( x i−μ ) + n ( μ−x ) +2 ( μ−x ) i
i=1 i i
[∑ ]
n
1 2 2
¿ E
n
( x i−μ ) + n ( μ−x ) +2 ( μ−x ) n ( x−μ ) =¿
i=1
[ ] [∑ ( ]
n n
1
¿ E
n
∑ ( x i−μ ) + n ( μ−x ) −2 n ( μ−x ) = 1n E
2 2 2
x i−μ )2 −n ( μ−x )2 =¿
i=1 i=1
{[ ] } { ( )}= 1n {∑ σ −σ }= 1n {n σ −σ }
n 2
1
¿ E
n
∑ ( x i−μ ) −nE [ ( μ−x ) ] =¿¿ 1n
2 2
∑ E [ ( x i−μ ) ] −n σn 2 2 2 2
i=1 i i
n−1 2 2
E [ θ^ ]= σ ≠ σ → S2 non è uno stimatore corretto
n
Se al contrario consideriamo lo stimatore
n
1
∑ X i− ^
2
S2 =
n−1 i=1
( E [ X i ])
Consistenza
Indichiamo con θ^ n lo stimatore del parametro θ , applicato ad un campione di numerosità n. Lo
stimatore viene detto consistente se è valida
Uno stimatore consistente del parametro θ converge ad esso per una numerosità che tende a ∞ .
VAR [ θ^ ] =E [ ( θ−θ
^ ) ] =E {( θ−E
2
^ [
[ θ^ ] ) + ( E [ θ^ ]−θ )}
2
]
Quindi sviluppando il quadrato
E [ {( θ−E
^
2 2
[ θ^ ]) + ( E [ θ^ ]−θ ) +2 ( θ−E
^ [θ^ ] )( E [ θ^ ] −θ )} ]
Il doppio prodotto si annulla ed il secondo termine risulta invece essere costante, per cui il suo
valore atteso sarà anch’esso costante
[ ]
[ θ^ ]) + { E [ θ^ ]−θ } =E [ ( θ−θ )]
2 2 2
E ( θ−E
^ ^
x N μ, ( σ
√n )
Possiamo definire una normale standard
x−μ
Z= N (0 ; 1)
σ /√n
E poi possiamo fissare α e (1−α ): Vogliamo individuare un’area pari ad (1−α ), che sarà
individuata rimuovendo 2 “spicchi”, ciascuno di ampiezza α /2. Grazie alla simmetria della normale
standard possiamo prendere 2 quantili: z α e z α e quindi scrivere 1−
2 2
[
Pr z α ≤ z ≤ z
2
1−
α
2 ] =1−α → Pr z α ≤
[ 2
x−μ
σ / √n ]
≤ z α =1−
1−
2
α
2
[
Pr z α
2
σ
√n
≤ x−μ ≤ z α
σ
1− √ n
2
=1−α Pr z α
σ
]
2 √n
−x ≤−μ ≤ z α
σ
1− √ n
2
[
−x =1−α
]
[
Pr −z α
2
σ
√n
+ x ≥ μ ≥ x−z α
σ
1− √ n
2
=1−α
]
Questo è l’intervallo di confidenza di μ.
Test d’Ipotesi
I test d’ipotesi vengono spesso declinati nella forma di test di adattamento, per capire quanto
bene una certa distribuzione, con certi parametri, simuli il comportamento di un campione di dati.
I passaggi che accomunano tutti i test, sono:
Ragionando in questi termini si può immaginare che ni sia un numero estratto da una variabile N i
binomiale, il che equivale a considerare il nostro campione di dati di numerosità n come risultato
di n esperimenti Bernoulliani. Il successo dell’esperimento sarà X =x i, ed il numero di volte in cui
sarà raggiunto ni . L’insuccesso, al contrario, sarà X ≠ xi ed il numero sarà pari a n−ni . La
distribuzione di probabilità della binomiale assume la forma
()
p X ( x i )= n p ( 1− p )
n n−n
i i
ni
Se la numerosità del campione è molto elevata, allora anche il suo valore medio sarà elevato, e
secondo la proprietà riproduttiva una binomiale di valore medio elevato può essere vista come la
somma di tante variabili casuali binomiali, con valori medi più piccoli, e grazie al teorema centrale
del limite, una somma di variabili casuali tende ad una normale, al crescere delle variabili casuali
coinvolte. Pertanto anche in questo caso, possiamo immaginare che la binomiale tenda ad una
normale standard, che definiamo come:
N i −n Pi
con Pi=Pr [ X=x i ]
√ n P ( 1−P )
i i
i=1 n Pi ( 1−P i )
Dove l è il numero di valori osservati (non ripetuti), che va a determinare ciò che viene detto
numero di gradi di libertà, e si indica:
2
( N i−n Pi )
l
χ l−1 =∑
2
i=1 n Pi ( 1−Pi )
Il motivo per cui i gradi di libertà sono l−1 e non l è che deve essere necessariamente rispettata la
condizione
l
∑ N i=n
i=1
Per cui arrivati al penultimo termine della sommatoria, l’ultimo è necessariamente obbligato ad
assumere un determinato valore per rispettare tale uguaglianza. A questo punto abbiamo la
nostra statistica test, per cui ci concentriamo sul test.
4. Definiamo infine la regione critica: X 2 =T > χ 2l−1 in pratica facendo ricorso alla distribuzione
2
χ calcoliamo il quantile con livello di probabilità (1−α ), poi calcoliamo la statistica test e
decidiamo se accettare o meno l’ipotesi.
Riassumendo:
∑ N i=n
i=1
Poi formuliamo:
{ H 0 : X F X ( x ) a m parametrinoti
H 0 : X F X ( x ) a m parametrinoti
Quindi calcoliamo Pi=F X ( x i ) per ciascuno degli l valori non ripetuti, e la statistica test:
2
l
( N i−n Pi )
T = χ =∑
2
i=1 n Pi ( 1−Pi )
Poi, supponendo che la nostra statistica test sia distribuita con una χ 2 a (l−1) gradi di
libertà, fissiamo un livello di probabilità (1−α ) e ricaviamo il corrispondente quantile
2 2 −1
χ 1−α = X l−1 (1−α )
Infine verifichiamo
Se T = χ 2 > χ 21−α → Accettiamo H 1
Se T = χ 2 ≤ χ 21−α → Accettiamo H 0
Tutte queste classi sono equiprobabili, se calcolate per esempio con la formula di Sturges, quindi
per ogni i-esima classe, la Pi sarà sempre identica, e la chiameremo W , per cui la statistica test
varrà:
nc 2
( ni−nW )
T = χ =∑
2
i=1 nW ( 1−W )
Dn=max|F X ( x i ) −Fn ( x i )|
n
Sarà necessario definire la distribuzione di frequenza cumulata empirica, che andremo a costruire
come una funzione a gradini, dopo aver ordinato il campione in modo crescente.
Uno dei vantaggi di questo test è che non fa uso di distribuzioni. Per valori di n molto elevati,
Smirnov fornisce la distribuzione limite di D n √ n definita come:
{ } [ ]
∞ 2 2
√2π −( 2 k−1 ) π
lim Pr [ Dn √ n ≤ z ]=
n→∞ z
∑ exp 8z
2
k=1
i=1 n
Anche questo viene considerato un test non parametrico. Noti i parametri di F X (x ) i valori noti
assumono la forma
2 2
a 1−α =2.492a 1−α =3.857
{ x (1 ) , x (2) , x( 3) , … , x (n ) }
Poi possiamo ipotizzare che ciascun valore, anzi che estrazione di una medesima variabile casuale
X, sia una singola estrazione di una differente variabile casuale, ognuna delle quali è indipendente
ed identicamente distribuita come la variabile casuale X di partenza.
{
x(1) → X 1
x(2) → X 2
x(3) → X 3
…
x(n) → X n
Avendo riordinato il campione, avremo di fatto anche un riordinamento delle variabile casuali di
estrazione in senso crescente.
Con questa “costruzione concettuale”, sappiamo che se andassimo ad estrarre una nuova serie di
valori da queste nuove variabili casuali così ordinate, in ciascuna delle estrazioni avremo sempre il
medesimo ordinamento.
In altri termini, se ordiniamo in senso crescente le variabili casuali, ogni volta che estrarremo un
campione, i valori saranno sempre ordinati rispettando l’ordinamento delle variabili di partenza.
X (1) , X(2) , X (3 ) , … , X (n)
La teoria dei valori estremi si basa sullo studio di queste due variabili casuali, che non sono né
indipendenti né identicamente distribuite. Vogliamo ora definire la distribuzione di probabilità
dell’ultima statistica, quella di ordine n.
F X ( x )=Pr [ X ( n) ≤ x ]=?
(n )
Partiamo dall’evento:
{ X (n ) ≤ x }={ X 1 ≤ x ∩ X 2 ≤ x ∩… ∩ X n ≤ x }
n
Pr [ X (n ) ≤ x ]=Pr [ X 1 ≤ x ]∗Pr [ X 2 ≤ x ]∗…∗Pr [ X n ≤ x ]=∏ Pr [ X i ≤ x ]
i=1
ma F X ( x ) =F X ( x )−quindi→ F X ( x )=F X ( x )n
(i ) (n )
Il che dimostra come la distribuzione della variabile estrema sia diversa e dipendente dalle
precedenti. Per la statistica di ordine minimo avremo invece:
Indipendenti ed identicamente distribuite secondo
F X ( x )=Pr [ X (1 ) ≤una
(1 )
x ]=1−Pr
F X (x )[ ,X quindi
( 1 ) > x ] =1−Pr [ X 1> x ∩ sono
le intersezioni ∩… ∩ X n > x ] =¿
X 2 > x prodotti
delle singole probabilità n
¿ 1−Pr [ X 1 > x ]∗Pr [ X 2> x ] ∗…∗Pr [ X n > x ]=1−∏ Pr [ X i > x ] =¿
i=1
n
F X ( x )=1−( 1−F X ( x ) )
(1 )
In linea generale possiamo dunque esprimere la statistica di ordine “ j ” come:
()
Se abbiamo esattamente j→ F X ( x )= n [ F X ( x ) ] ( 1−F X ( x ))
j n− j
j ( j)
n
( x ) =∑ ( n ) [ F ( x ) ] ( 1−F ( x ) )
k n−k
Se abbiamo almeno j→ F X X X
( j)
k
k= j
Quanto detto fino ad ora però è valido se la F X ( x ) e n sono noti, ma nella stragrande maggioranza
dei casi così non è nella realtà, per cui è stata sviluppata la teoria dei valori estremi asintotica.
Se F X ( x ) =1: nlim 1n ≡1
→∞
Se F X ( x ) <1 : nlim ( … )n ≡0
→∞
Perché andiamo a moltiplicare infinite volte per sé stesso un numero minore di 1, per cui il
prodotto si fa sempre più piccolo.
Introduciamo il teorema di Fisher – Tippet: Il teorema si sofferma sul limite di una generica
distribuzione di una variabile casuale normalizzata rispetto a due serie numeriche a n e b n
{[ ]}
n
X−an
lim Pr ≤x
n→∞ bn
Il teorema afferma che, indipendentemente dalla forma della variabile casuale di partenza ( F X (x )
), se n è molto grande la distribuzione del massimo della variabile casuale di partenza assumerà
una delle tre seguenti forme
F X ( x )=exp −exp
(n ) { [ −x−a
b ]}
Illimitata x ∈ (−∞ ;+∞ )a , b : parametri della distribuzione ,b> 0
{ ( )}
γ
x −a
F X ( x )=exp −
(n )
b
Limitata Inferiormentea , b , γ : parametri della distribuzioneb , γ >0x >a
EV3: Distribuzione di WEIBULL
{ [ ( )] }
γ
x−a
F X ( x )=exp − −
(n )
b
Limitata Superiormentea , b , γ : parametri della distribuzioneb , γ >0x <a
{
esponenziale
normale → X t . c . F ( x ) → EV 1 :Gumbel
Se X t . c . F X ( x )= (n ) X
lognormale ( n)
gamma
{
Se X t . c . F X ( x )=
Pareto → X t . c . F ( x ) → EV 1 :Frechet
Levy (n) X ( n)
{
Se X t . c . F X ( x )=
Beta → X t . c . F ( x ) → EV 1:Weibull
Uniforme (n) X (n )
Esistono delle condizioni sufficienti per poter sapere quale sarà la F X ( x ) a partire dalla F X ( x ) :
(n )
lim
x→ ω dx {
d 1−F X ( x )
f X(x)
=0
}
È condizione sufficiente per dire che il limite della funzione di distribuzione di probabilità cumulata
elevato all’ennesima potenza per numerosità tendente a infinito assumerà la forma di una
distribuzione EV1 (Gumbel). L’argomento della derivata è il reciproco della funzione di azzardo,
definita come
f X(x)
1−F X ( x )
f X (x)
lim x =m
x→ ω 1−F X ( x )
Con m generica costante positiva, tale limite è condizione sufficiente per dire che il limite della
funzione di distribuzione di probabilità cumulata elevato all’ennesima potenza per numerosità
tendente a infinito assumerà la forma di una distribuzione EV2 (Frechet).
Con m generica costante positiva, tale limite è condizione sufficiente per dire che il limite della
funzione di distribuzione di probabilità cumulata elevato all’ennesima potenza per numerosità
tendente a infinito assumerà la forma di una distribuzione EV3 (Weibull).
Andiamo ad analizzare degli esempi
1. Distribuzione Esponenziale
f x ( x )= λ e−λ x λ e− λ x dH
→ H= =λ → =0
F X ( x ) =1−e
−λ x
1−1+e
−λx
dx
2. Distribuzione Pareto
{ }
θ
x0 θ −θ −1
F X ( x )=1− (−x 0 ) (−θ ) x θ θ
x → H= = → lim x =θ
{ }
θ x0
θ
x x→ ω x
f X ( x )=(−x 0 ) (−θ ) x−θ−1 1−1+
x
3. Distribuzione Uniforme in (0;1)
x −a
F X ( x )=x=
b−a
1 1−x
1 → H= → lim =1
f X ( x )=1= 1−x x → ω 1−x
b−a
a=0 ;b=1; ω=b
Principio di Simmetria
Il principio di simmetria permette di declinare la teoria dei valori estremi sempre in termini di
valori massimi e mai di valori minimi.
Abbiamo n variabili indipendenti ed identicamente distribuite { X 1 , X 2 , X 3 , … , X n } e le
corrispondenti statistiche d’ordine { X (1) , X (2 ) , X ( 3) , … , X (n )} . Andiamo poi a considerare altrettante
variabili casuali definite come {Y 1 , Y 2 ,Y 3 , … ,Y n } con Y i=− X i, e le corrispettive statistiche
d’ordine {Y ( 1) ,Y ( 2) ,Y ( 3) , … ,Y ( n) }. Per la questione
dell’ordinamento
{[ ]}
1
k
F X ( x ) =exp − 1− ( x −ε ) k
max
α
k k α
1− ( x−ε )> 0 ( x−ε ) >1( x−ε )<
α α k
α
Se k è maggiore di zero: x < +ε → Limite Superiore→ EV 3 : Weibull
k
α
Se k è minore di zero: x > +ε → Limite Inferiore → EV 2 : Frechet
k
Le statistiche fondamentali di questa distribuzione sono:
( ) [ Γ ( 1+2 k )−( Γ ( 1+ k ) ) ]
2
α
[1−Γ ( 1+ k ) ]VAR [ X GEV ]=σ 2x = α
2
E [ X GEV ] =μx =ε+
k k
{−Γ ( 1+3 k )+ 3 Γ ( 1+k )∗Γ ( 1+2 k )−2 ( Γ ( 1+k ) )3 }
γ 1 [ X GEV ]=sign ( k ) −1
σ 3x
Ricordando che la funzione Γ ( x ) è definita come
∞
Γ ( x )=∫ t
k−1 −t
e dt →diverge per x <0
0
Ed è divergente quando l’argomento x è minore di zero. Sarà dunque necessario definire delle
condizioni di esistenza per i momenti statistici.
λ 1=β 100=μ x media aritm.=media campionariaλ 2=2 β 110 −β 100 λ 3=6 β 120 −6 β 110 + β 100
grazie al quale:
Piano di Gumbel
Per k=0 la GEV abbiamo detto rappresentare asintoticamente la distribuzione di Gumbel
{[ ]} { [ ]}
1
k −x−ε
k =0 → F X ( x )=exp − 1− ( x−ε ) k
→ F X ( x )=exp −exp
max
α α
Applicando due volte l’operatore logaritmico con segno meno al membro destro e sinistro,
otteniamo:
x F −ε
y F=−ln (−ln F X ( x ) ) = → xF= yF α + ε
α
Questa relazione ci dice che in un piano doppio logaritmico (Piano di Gumbel) la distribuzione di
Gumbel è lineare. Ciò ci permette, avendo un campione di dati, di stimare i valori dei parametri α
ed ε mediante una regressione lineare
i
Campione → x i → Fi = → y F =−ln (−ln ( F i ) )
n+1 i
{[ ]}
1
k
FX ( x ) =exp − 1− ( x−ε ) k
GEV
α
y F=−ln {−ln [ F X ( x ) ] }
GEV
xD
α
x F =ε+
k
[ 1−exp (−k y F ) ]
Compound Distributions
Nell’esposizione della teoria
delle distribuzioni dei
valori estremi siamo partiti da
n
F X ( x )=F X ( x )
(n )
Per introdurre la teoria asintotica. Ma se invece consideriamo n come un valore estratto da una
variabile casuale N Poissoniana(ν ) possiamo scrivere, facendo riferimento al teorema della
probabilità totale:
∞
Pr [ A ]=∑ Pr [ A|Bi ]∗Pr [Bi ]→ F X ( x )=∑ F X ( x ) P N (n)
n
(n)
n=0
Dove:
Questa è la prima forma esatta, cioe non asintotica, di una variabile estrema. Si tratta di un
risultato già di per sé interessante, ma lo diventa ancora di più se assumiamo una precisa
distribuzione per la F X ( x ):
F X ( x )=exp {−ν [ 1−( 1−exp [− λ x ] ¿ ] }=¿¿ exp {−ν exp (− λ x ) } =e−ν exp (−λ x )=¿
(n )
{ [ ]}=¿
ln ( ν )
x−
¿e
−exp { ln ( ν ) } exp {− λ x }
=e
−exp { ln ( ν )− λ x }
=¿
¿e
{ [
−exp − λ x−
ln ( ν )
λ ]}=e −exp −
1/λ
λ
¿ F n ( x )=exp −exp −
{ [ ( x−ln1 /λ( ν ) / λ )]}
E se imponiamo:
ln ( ν ) 1
=ε =α
λ λ
Otteniamo
{ { [ ]}}
exp −exp −
x −ε
α
=Gumbel
Abbiamo combinato due forme esatte, una distribuzione esponenziale ed una poissoniana,
ed abbiamo ottenuto una Gumbel, ovvero una distribuzione asintotica.
( )
θ
x0
F X ( x ) Pareto: F X ( x ) =1−
x
{[ ( ( ) )]} { ( ) } { ( ) }
θ θ 1 /θ θ
x x ν x0
F X ( x )=exp − ν 1− 1− 0 =exp −ν 0 =exp − =¿
(n )
x x x
{[ ]}
−θ
x
¿ F X ( x )=exp − 1 /θ
(n )
ν x0
E se imponiamo
ε =0α =ν 1/ θ x 0 γ=θ
{[ ]}
−γ
x
F X ( x )=exp − =Frechet
(n )
α
Queste distribuzioni, ottenute dalla combinazioni di altre distribuzioni, sono dette Distribuzioni
Composte, o “Compound Distributions”.