Sei sulla pagina 1di 19

Statistica dei valori estremi

Valori massimi e statistica descrittiva


Scopo delle misure del lume cellulare in diverse
specie e in diverse posizioni è stimare il valore
massimo presente nella popolazione, questo
parametro sembra essere ben correlato alle
caratteristiche idrauliche del legno.
La statistica descrittiva affronta il problema dei
valori estremi individuandoli come scostamento
dalla media della popolazione in unità di
deviazione standard.
Valori massimi e statistica descrittiva
Questi metodi sono nati
dalla necessità di
confrontare le medie di
Media

68%
due popolazioni, non di
individuarne il valore
massimo. Perciò si
99%
adattano bene per valori
prossimi alla media e
male agli estremi. Perciò
-2 -1 +1 +2 non verranno usate nelle
successive analisi.
Modelli asintotici (MAX)
Questi utilizzano di una serie di valori solo i massimi rilevati in
unità di campionamento omogenee, ad esempio la portata massima
del torrente nell’anno o la cellula più grande per immagine.
Questi valori sono ordinati in modo decrescente e ad ognuno viene
affidata una probabilità di venir superato così determinata.

Probabilità di Probabilità di non


Area Posizione superamento superamento
1648.485 1 0.04 0.96 n
1562.136 2 0.07 0.93 p( x) =
1555.368 3 0.11 0.89
N +1
… … … …
1108.887 26 0.96 0.04

Dove n è il numero progressivo e N il numero totale di campioni. La


probabilità di non supermento è pari ad uno meno la probabilità di
superamento
Modelli asintotici (MAX)
Possiamo fare un grafico che metta in relazione il valore osservato e
la probabilità di non superamento prima determinata.

1800
1600
1400
1200
1000
800
600
400
200
0
0 0.2 0.4 0.6 0.8 1

Ora dobbiamo trovare una funzione che ponga in relazione un valore


di area con la sua probabilità di non superamento. Inizialmente ne
sono state proposte tre.
Teorica classica dei valori estremi
Gumbel o curva del valore massimo di tipo I (MLE EV0)
Adatta a serie dove a priori non si immagina un limite superiore, ad
esempio una serie idrologica.
Valore

x −b

p ( x) = e −e
a

0 1
Probabilità di non
superamento
Teorica classica dei valori estremi
Fréchet o curva del valore massimo di tipo II (MLE EVI)
Adatta a serie dove a priori si suppone l’esistenza di un limite
inferiore.
Valore

−α
 x −b 
− 
p( x) = e  a 

Probabilità di non
superamento
Teorica classica dei valori estremi
Weibull o curva del valore massimo di tipo III (MLE EVII)
Adatta a serie dove esista un limite superiore, ed è il caso delle aree
dei lumi cellulari che non crescono all’infinito.
Valore

  x −b α 
−  −  
  a  
p ( x) = e

Probabilità di non
superamento
Teorica classica dei valori estremi
Le espressioni servono solo a far vedere che la forma delle curve di
distribuzione variano in base a due o tre parametri e sono molto
versatili quanto a forma:

Valore

Probabilità di non
superamento
La stima dei parametri viene fatta con un’interpolazione manuale o,
con l’avvento del computer, in base al metodo del maximum
likelihood. È una versione più raffinata del metodo dei minimi
quadrati che ottimizza i parametri per approssimazioni successive.
Generalized extreme value
Però disporre di tre curve di distribuzione da scegliere in base a
delle considerazioni fatte a priori è una delle principali pecche del
metodo. Perciò negli anni ’50 è stata elaborata un’unica curva di
distribuzione che comprende, nella sua generalità, tutte le altre. È
stata chiamata GEV (o MLE EV), acronimo di Generalized extreme
value.  − 
1
 ξ 
 x−µ 
− 1+ξ   
  σ  
 
 
p ( x) = e
In pratica questa funzione è pari a quella di Gumbel se ξ è pari a 0,
a Fréchet se ξ vale 1 e Weibull se ξ vale –1.
Ciò che conta è che la serie non ha alcun limite per ξ nullo, è
limitata superiormente per ξ negativo ed inferiormente per ξ
positivo.
Generalized extreme value
Perciò è stata scelta quest’ultima funzione e va ad interpolare in
questo modo la serie dei dati.
Probabilità
2000 0.003 1.2
1800 Densità di probabilità
0.0025 1
1600 Probabilità
1400 0.002 0.8
1200
1000 0.0015 0.6
800
600 0.001 0.4
400
0.0005 0.2
200
0 0 0
0 0.2 0.4 0.6 0.8 1 1100 1200 1300 1400 1500 1600

Quella così ottenuta è la probabilità di superamento entro il


campione. In questo caso possiamo dire che ripetendo un analogo
campionamento c’è una probabilità del 95% di non trovare una
cellula più grande di 1542.62 µm², o altrimenti c’è una probabilità
pari a 5% di superare questo stesso valore.
Generalized extreme value
Nota l’entità del campionamento, cioè la superficie campionata
rispetto a quella totale utile dell’anello, possiamo fare una stima del
valore di non superamento per l’intera popolazione.
C
P( x) = p( x) c

Dove c è il numero di campioni rilevati e C il numero totale di


campioni presenti nella popolazione. Nel nostro caso se stimiamo di
aver campionato il 10% della popolazione possiamo stimare che
solo il 5% delle cellule abbiano un’area 1561.19 µm². Il valore è
analogo al precedente perché la serie di valori estremi è limitata
superiormente; altrimenti le differenze possono divenire ingenti. La
presenza di un limite superiore è una delle prime cose da valutare in
queste analisi statistiche.
Modelli basati sulla soglia (POT)
Però con questa tecnica utilizza una sola misura per unità
campionaria, disponendo anche di altri dati questo metodo spreca
molti informazioni. Nel nostro caso questo può essere l’apice di un
fusto dal momento che non si possono ricavare più di tante
immagini. Perciò sono stati elaborati modelli statistici basati sulle
soglie. In pratica si individua una soglia al di sopra della quale i
valori sono definiti estremi. In pratica si utilizzano tutti i valori di
area rilevati e si cerca una soglia al di sopra della quale questi valori
possono essere considerati estremi.
Modelli basati sulla soglia (POT)
Il problema è definire è la soglia. Per individuarla è stato pensato un
sistema per tentativi. Si individuano soglie via via crescenti e per i
valori che la superano si calcola la media degli scarti rispetto la
soglia. Alla fine si costruisce un grafico con in ordinata il valore
della soglia ed in ascissa la media degli scarti dalla soglia stessa
0 50 100150200

1100 1200 1300 1400 1500 1600

Si sceglie come soglia il valore al di sopra del quale la media degli


scarti varia in modo lineare e che consenta di avere almeno 10 o 15
valori, in questo caso scegliamo 1.166 µm²
Modelli basati sulla soglia (POT)
Fissata la soglia si calcola la probabilità di superamento come fatto
in precedenza. Poi si interpolano i valori e le probabilità associate
dei punti che superano tale soglia tramite una funzione detta
Generalized Pareto Family (GPD o GP).
Probabilità di Probabilità di non
Area Posizione superamento superamento
1648.485 1 0.02 0.98
1562.136 2 0.04 0.96
… … … …
1165.98 34 0.74 0.26
1800 1162.269 35 0.76 0.24
1600 … … … …
1400 1101.573 45 0.98 0.02
1200
1000
800
600 −
1
400  ξ x ξ
200 H ( x ) = 1 − 1 + 
0  σ 
0 0.2 0.4 0.6 0.8 1
Modelli basati sulla soglia (POT)
L’interpolazione viene fatta tramite il metodo del metodo del
maximum likelihood e questo è il risultato, limitato ai valori estremi.
2500 0.008 1.2
Densità di probabilità
0.007
2000 Probabilità 1
0.006
0.8
1500 0.005
0.004 0.6
1000
0.003
0.4
500 0.002
0.2
0.001
0
0 0
0.8 0.85 0.9 0.95 1 1350 1400 1450 1500 1550 1600

In questo caso ad una probabilità di non superamento del 5% entro


il campione è associata un’area pari a 1531.67 µm²
Modelli basati sulla soglia (POT)
Tramite la stessa funzione di prima possiamo stimare la probabilità
di non superamento nell’intera popolazione. L’area associata ad una
probabilità di non superamento del 95%, posto un campionamento
del 10%, risulta pari a 1583.12 µm².
Confronto tra i due metodi
I due metodi danno risultati analoghi, però quello basato sulla soglia
richiede una certa accortezza nella definizione di quest’ultima.

Metodo Probabilità Valore stimato


Generalized Extreme value 0.95 1561.19 µm²

Generalized Pareto Family 0.95 1583.12 µm²

In ogni caso è essenziale che le serie risultino limitate, e questo


richiede una valutazione delle cellule più grandi. Quest’operazione
è più facile da fare utilizzando il GEV; il metodo basato sulle soglie
va usato come verifica o qualora non si possa disporre di un numero
sufficiente di immagini.
Conclusioni
I metodi finora esposti dimostrano ciò che si osserva già dal dato
grezzo. Perciò vale la pena di usarli se già ad occhio si osserva
qualcosa.
I calcoli vengono fatti tutti o da un software di statistica (SPLUS) o
da un programmino (XTREMES). Le uniche cose necessarie sono:
•Elenco ordinato dei valori e delle immagini a cui si riferiscono
•Una stima della frazione campionata sul totale
•Fissare un valore di probabilità di non superamento uguale per tutte
le popolazioni in modo da poter fare dei confronti omogenei.
Noto questo il programma restituisce l’area associata a questa
probabilità.