Sei sulla pagina 1di 14

Dottorato in Ecologia Forestale

Università degli Studi di Padova

Supervisore: Tommaso Anfodillo


Dottorando: Claudio Fior

Statistica dei valori estremi


Area massima del lume cellulare
Scopo delle misure del lume cellulare in diverse
specie e in diverse posizioni è stimare il valore
massimo presente nella popolazione, questo
parametro sembra essere ben correlato alle
caratteristiche idrauliche del legno.
Il problema sono le misure sono fatte su un
campione della popolazione e quindi è necessario
associare ad ogni valore massimo proposto una
probabilità di superamento, ossia che con ulteriori
rilievi si possa trovare un elemento di conduzione
più ampio.
Area massima del lume cellulare
Non è pensabile utilizzare comuni modelli statistici, come
la distribuzione normale o log-normale, per due ragioni:
•Le serie di misure sono troncate, le cellule più piccole di
una sezione sono, nelle conifere, sezioni terminali delle
trachiedi e perciò non vengono considerate nelle analisi.
•La distribuzione di frequenza delle misure è la più
disparata nei vari campioni.
Perciò si sono considerati i valori massimi rilevati in 15-20
campioni della popolazione.
Valori massimi e probabilità di superamento
Così ad ognuno dei 20 valori massimi è stata associata una
probabilità di superamento. Per fare ciò si sono ordinati in
modo decrescente i valori, la probabilità di ciascuno è:
n
p ( x) =
N +1
Dove n è il numero progressivo e N il numero totale di
campioni.
Valori massimi e probabilità di superamento
x n p(x)
1031.3811 1 0.038461538 Area massima del lume e probabilità di supermaneto

1151.4614 2 0.076923077 4000


3500
…..
3000
2469.6162 17 0.653846154
2500
2509.3519 18 0.692307692 2000

x
2611.6385 19 0.730769231 1500

2631.943 20 0.769230769 1000


500
2665.893 21 0.807692308
0
2836.298 22 0.846153846 0 0.2 0.4 0.6 0.8 1
p(x)
3336.2689 23 0.884615385
3353.9534 24 0.923076923
3632.649 25 0.961538462

Il problema è trovare una funzione che interpoli valori e probabilità


associate in modo da poter fare delle previsioni ed estrapolazioni.
Curva di distribuzione normale
La curva di distribuzione normale è una delle soluzioni possibili
però presenta forti limiti. Non sapendo nulla dell’ipotetica
distribuzione dei massimi è abbastanza improbabile che sia
simmetrica come quella normale.

Perciò verso l’inizio del secolo scorso sono state elaborate tre
curve di distribuzione molto flessibili e duttili, in grado di
adattarsi alle più disparate distribuzioni.
Teorica classica dei valori estremi
Gumbel o curva del valore massimo di tipo I
Adatta a serie dove a priori non si immagina un limite superiore, ad
esempio una serie idrologica.
x −b

p ( x) = e −e
a

Fréchet o curva del valore massimo di tipo II


Adatta a serie dove a priori si suppone l’esistenza di un limite
inferiore.
−α
 x −b 
− 
p( x) = e  a 

Weibull o curva del valore massimo di tipo III


Adatta a serie dove esista un limite superiore, ed è il caso delle aree
dei lumi cellulari che non crescono all’infinito.
  x −b α 
−  −  
  a  
p ( x) = e
Teorica classica dei valori estremi
L’espressione un po’ complessa serve solo a far vedere che la forma
della curva di distribuzione varia in base a due o tre parametri. Ciò
le rendono molto versatile quanto a forma:

La stima dei parametri veniva fatta con un’interpolazione manuale


o, con l’avvento del computer, in base al metodo del maximum
likelihood. È una versione più raffinata del metodo dei minimi
quadrati che ottimizza i parametri per approssimazioni successive.
Generalized extreme value
Però disporre di tre curve di distribuzione da scegliere in base a
delle considerazioni fatte a priori è una delle principali pecche del
metodo. Perciò negli anni ’50 è stata elaborata un’unica curva di
distribuzione che comprende, nella sua generalità, tutte le altre. È
stata chiamata GEV, acronimo di Generalized extreme value.
 −
1 
 ξ 
 x − µ 
− 1+ξ   
  σ  
 
 
p ( x) = e
In pratica questa funzione è pari a quella di Gumbel se ξ è pari a 0,
a Fréchet se ξ vale 1 e Weibull se ξ vale –1.
Ciò che conta è che la serie non ha alcun limite per ξ nullo, è
limitata superiormente per ξ negativo ed inferiormente per ξ
positivo.
Generalized extreme value
Perciò è stata scelta quest’ultima funzione e va ad interpolare in
questo modo la serie dei dati.
Area massima del lume e probabilità di superamento
7000

6000

5000

4000
x

3000

2000

1000

0
0 0.2 0.4 p(x) 0.6 0.8 1

Quella così ottenuta è la probabilità di superamento entro il


campione, la stima della probabilità di superamento nella
popolazione si ottiene C
P( x) = p( x) c
Dove c è il numero di campioni rilevati e C il numero totale di
campioni presenti nella popolazione.
Modelli basati sulla soglia
Però con questa tecnica si una una sola misura delle misure fatte nei
campioni, disponendo anche di altri dati questo metodo spreca molti
informazioni. Perciò sempre nello stesso periodo sono stati elaborati
modelli statistici basati sulle soglie. In pratica si individua una sogli
al di sopra della quale i valori sono definiti estremi. Per questi
valori si è applicata una versione semplificata della formula
precedente, detta Generalized Pareto Family.
1

 ξ x ξ
H ( x ) = 1 − 1 + 
 σ 
In pratica questa funzione associa ad un valore definito estremo la
probabilità di venire superato entro la popolazione dei valori
estremi. La probabilità di superamento nell’intero campione si
ottiene moltiplicando questo valore per la frazione di valori estremi
presente nella popolazione.
Modelli basati sulla soglia
Il problema è definire qual è la soglia al di sopra della quale i valori
considerati sono estremi. Per individuarla è stato pensato un sistema
per tentativi. Si individuano soglie via via crescenti e per i valori
che la superano si calcola la media degli scarti dalla soglia. Alla fine
si costruisce un grafico con in ordinata il valore della soglia ed in
ascissa la media degli scarti dalla soglia stessa

Si sceglie come soglia il valore al di sopra del quale la media degli


scarti varia in modo lineare, in questo caso sopra i 2000 µm²
Confronto tra i due metodi
Alla fine sono stati applicati i due metodi ai dati rilevati e i risultati
ottenuti sono.

Metodo Probabilità Valore stimato


Generalize Extreme value 0.95 3889

Generalized Pareto Family 0.95 4274

I valori stimati sono abbastanza diversi tra di loro, probabilmente


nel nostro caso è più corretto applicare il primo metodo di stima.
Entrambe i metodi richiedono serie di dati indipendenti, nel nostro
caso il valore di area di una cellula non deve dipendere da quello dei
vasi vicini. Il metodo GEV è meno sensibile a serie di dati tra loro
in parte dipendenti e perciò si è optato verso quest’ultimo nelle
successive analisi.
Confronto tra i due metodi

Per l’interpretazione dei risultati è utile guida il libro dal titolo


“An introduction to statistical modelling of extreme values”
Per l’elaborazione è possibile usare un software freeware come:
Xtremes