Inferenza Statistica

Relazione
Corso di Idrologia e Costruzioni Idrauliche

A.A. 2017/2018
Il nostro lavoro si è concentrato principalmente sul problema dell’inferenza

statistica.
Di questo modello di studio abbiamo analizzato gli strumenti, le procedure e

poi abbiamo applicato queste conoscenze studiando un caso reale.
Nella prima parte della presentazione analizziamo gli strumenti e i metodi di
studio, nella seconda parte analizziamo un problema reale.
In particolare abbiamo preso in considerazione i valori delle portate medie

annue, misurate attraverso una stazione idrometrica posta sul fiume Agri
(stazione di Grumento Nova).
Spesso lo studio di un qualsiasi fenomeno risulta complicato, perciò facciamo

riferimento a dei modelli matematici che ci consentono di analizzare il
fenomeno e di approssimarlo al meglio.
I modelli matematici si dividono principalmente in: modelli deterministici e

modelli stocastici.
I modelli deterministici prendono in considerazione dei valori di input fissi,

cioè delle variabili deterministiche (dove le variabili si possono relazionare tra
di loro attraverso delle funzioni).
I modelli stocastici prendono valori di input di probabilità, cioè variabili casuali

che variano in modo disordinato e indeterminato nel tempo.
L’approccio deterministico in campo idrologico risulta molto complesso, perciò

facciamo riferimento a modelli stocastici.
Le variabili casuali si dividono in: limitate, illimitate, continue, discrete,

autocorrelate, indipendenti e stazionarie.
Limitate o illimitate a seconda che l’insieme dei valori che possono assumere
sia finito o meno. Variabili continue se variano con continuità tra un valore
minimo 0 e un valore massimo.
Variabili autocorrelate o indipendenti se possiamo individuare o meno una

relazione tra le varie di esse, infine stazionarie se presentano particolari
proprietà in una determinata finestra temporale.
Alcune definizioni:
Popolazione di una variabile casuale: insieme dei valori che la variabile può
assumere.
Campione: entità discreta costituita da un numero finito di elementi estratti a

caso dalla popolazione della variabile casuale.
Probabilità: rapporto tra il numero m di casi favorevoli e il numero totale n dei

casi ugualmente possibili riferiti alla popolazione.
Frequenza: rapporto tra il numero dei casi favorevoli e il numero totale dei
casi possibili riferiti al campione.
Per le variabili discrete possiamo utilizzare semplicemente il concetto di

probabilità e introdurre:
Funzioni di probabilità p(x): associa a ogni valore della variabile casuale x la

probabilità corrispondente, rispettando il fatto che la somma di tutte le
probabilità dei vari eventi sia pari ad uno.
Per le variabili continue il discorso è più complesso, poiché non possiamo

associare dei valori finiti e non nulli delle probabilità e rispettare il fatto che la
loro somma sia pari ad uno.
Per questo motivo parliamo di funzione di probabilità di una variabile casuale

o funzione di non superamento o ancora di ripartizione.
Queste funzioni non si riferiscono alla probabilità di una determinato valore

ma alla probabilità che la variabile assuma un valore compreso in un
assegnato intervallo.
La funzione di probabilità di non superamento da per ogni x la probabilità che

la variabile casuale assuma un valore non superiore a x.
Parlando di variabili continue possiamo dare la definizione di densità di

probabilità : misura la probabilità che la variabile assuma un valore compreso
in un intervallo infinitesimo (x;x+dx).
dP(x)=p(x)dx
Risolvendo l’integrale e considerando gli estremi pari a meno e a più infinito,

riusciamo a calcolare l’area sottesa dal grafico che risulta essere pari ad uno,
poiché la somma delle probabilità delle variabili deve essere pari ad uno.
Poi abbiamo dato la definizione di momento, media, varianza, scarto

quadratico medio, coefficiente di variazione, mediana e moda e coefficiente di
asimmetria.
La media è un momento del primo ordine, mentre la varianza è del secondo

ordine(per le formule si rimanda alla presentazione).
Per le variabili discrete nelle formule è presente la sommatoria, mentre nelle

variabili continue è presente il simbolo di integrale.
Scarto quadratico medio: Radice della varianza, misura la dispersione dei

valori intorno alla media, è la grandezza più usata insieme alla media e ci
consente di caratterizzare la popolazione.
Coefficiente di variazione: Cv=𝜎(x)/𝜇(x) rapporto tra lo scarto quadratico

medio e la media, fornisce una misura del grado di dispersione della
popolazione della variabile casuale considerata a istituire confronti tra variabili
casuali diverse.
Mediana : valore di x la cui probabilità corrisponde a 0.5.
Moda: valore di x cui corrisponde un massimo della funzione p(x).
Coefficiente di asimmetria: si intende il grado di asimmetria del grafico che

rappresenta la funzione di densità di probabilità.
Principali distribuzioni di probabilità
• Distribuzioni normale
• Distribuzioni log-normale
• Distribuzioni di Gumbel
• Distribuzioni TCEV
Distribuzione normale
Una distribuzione di variabile continua di generale interesse è la distribuzione

normale, detta anche distribuzione di Gauss (Gauss ha dimostrato che
secondo questa legge si possono ritenere distribuiti gli errori accidentali di
misura di una qualsivoglia grandezza).
La funzione di densità di probabilità è rappresentata da una curva simmetrica

rispetto alla media, dato che nella formula la differenza x-u(x) compare al
quadrato. Quindi la mediana coincide con la media. Inoltre la funzione p(x)
presenta un massimo per x uguale a u(x); la distribuzione normale è dunque
unimodale e anche la moda coincide con la media.
Distribuzione normale in forma canonica
Nell'espressione analitica della distribuzione normale compaiono la media u(x)

e lo scarto quadratico medio σ(x), parametri dai quali risulta utile svincolarsi,
per esempio per rendere possibile la tabulazione dei valori della probabilità P
che corrispondono a valori preassegnati della variabile casuale x.
Per ottenere ciò basta introdurre la variabile adimensionale u=(x – u(x))/σ(x),
decrescente della variabile originaria x, che prende il nome di variabile ridotta

o standardizzata.
Distribuzioni di probabilità per valori estremi
Per l’interpretazione statistica di certe grandezze (portate di

piena,precipitazioni intense, ecc.) per le quali sono disponibili i valori massimi
in un fissato intervallo temporale (anno, mese, giorno, ecc.)è necessario
ricorrere a leggi di distribuzioni specifiche per i massimi valori.
Se si considera un campione x1, x2,…, xN di dimensione N e P(x) la

distribuzione di probabilità del valore massimo di tale campione si ricava:
xmax=max[x1, x2,…, xN].
Le distribuzioni di probabilità del massimo valore sono distribuzioni
asintotiche.
Esistono due tipi di distribuzione di probabilità per valori estremi studiati nel
corso di idrologia:
• La distribuzione asintotica del massimo valore del 1 tipo o distribuzione

di Gumbel
• La distribuzione del valore estremo a due componenti TCEV. Massimi che

derivano da due insiemi diversi: insieme di variabili ordinari e variabili
straordinari.
INFERENZA STATISTICA
• 1 FASE- IPOTESI DI LAVORO
Scelta di distribuzione di probabilità: (Gumbel, TCEV...)
• 2 FASE – PRECISAZIONE DELLE IPOTESI
Stima dei parametri: (metodi dei momenti...)

• 3 FASE – VERIFICA DELL'IPOTESI
Test di buon adattamento:( kolmorov e Smirnov …)
• 4 FASE – FASCE FIDUCIARIE
Rappresentano una valutazione della fiducia nella stima
I metodi per verificare la bontà o meno di una distribuzione di probabilità a

descrivere la popolazione sono:
• CARTE PROBABILISTICHE
• COEFFICIENTE DI CORRELAZIONE
• CURVA DI REGRESSIONE
Metodi dei momenti
Il metodo consiste nell'attribuire a ciascun momento della popolazione il

valore del corrispondente momento del campione estratto da quella
popolazione. Esistono tre fattori di correzione per ogni ordine del momento.
Tempo di ritorno
Fornisce una misura su grado di rarità dell'evento.
Tempo di ritorno per pieni e massimi:
Tempo di ritorno per magre e minimi:
DISCUSSIONE SUL PROGETTO DI INFERENZA STATISTICA
Noi abbiamo preso in esame una stazione idrometrica situata lungo il corso
del fiumi Agri, precisamente, nel comune di Grumento Nova (Pz) . Ci siamo
posti il problema dell’ iterazione e quindi studiando alcuni dati relativi a
medie annue dovevamo estrapolare la nostra curva di probabilità.
In questo caso la popolazione costituisce tutti i possibile valori che la nostra
variabile ( portata media annua) può assumere. Dalla popolazione abbiamo
estratto un sottoinsieme costituito da un’entità discreta di elementi (nel
nostro caso il campione ha una dimensione pari a 17).
In maniera particolare, il nostro campione è costituito dalle portate medie
annue relative agli anni 1961-1977.
Questi nostri dati costituiscono delle variabile continui allora non ha senso
parlare di frequenza (poiché è riferita al campione) dato che ogni valore
assumerà la frequenza pari ad , allora per variabili continue si parla di
frequenza di non superamento.
Per frequenza di non superamento si intende il numero di elementi inferiori
ad un certo valore soglia rapportata con la dimensione del campione (N).
Per ottenere la nostra frequenza di non superamento il primo passo è quello
di disporre gli elementi del nostro campione in ordine crescente e assegnare
ad ogni elemento del ordine la sua relativa posizione.
La frequenza di non superamento è quindi calcolata con la seguente
formula: dove i indica la posizione i-
esima nell’ordine crescente; quindi se
vogliamo calcolare la frequenza del valore
in posizione 10 , la nostra frequenza di
non superamento sarà pari a:1.
Facendo così ci siamo calcolati la
frequenza di non superamento di tutti i valore del nostro campione ed
abbiamo riportato su grafito i risultati ottenuti. Così facendo abbiamo
riscontrato un errore poiché per il valore in pozione 17 la nostra frequenza
di non superamento risulta pari ad 1. Dai teoremi della statica assumere
frequenza pari ad una significa avere una frequenza certa; ma ciò ci induce
ad un errore.Una volta determinata la frequenza di non superamento che
meglio si adatta al nostro caso di studio si pone il problema di passare dal
campione alla popolazione. A tale scopo si seguono le 4 fasi dell’inferenza
statistica partendo dall’ipotesi di lavoro che prevede la scelta di una
distribuzione di probabilità che meglio possa rappresentare la variabile
studiata. Nel caso applicativo è stata scelta la distribuzione di probabilità
normale. Fatto ciò la seconda fase dell’inferenza prevede il calcolo dei
parametri che caratterizzano la distribuzione di probabilità ovvero media,
varianza e scarto quadratico medio. Questi possono essere calcolati per il
campione e successivamente possono essere rapportati alla popolazione
come valori presunti tramite opportuni fattori correttivi:
Media 1
Varianza
Momento del terzo ordine
A questo punto è necessario verificare che la distribuzione di probabilità

scelta descriva bene l’andamento della nostra variabile e questo può essere
fatto utilizzando una carta probabilistica della distribuzione normale la quale
ha la caratteristica di linearizzare la funzione probabilità. Quest’ultima
quindi è rappresentata, all’interno della carta probabilistica, da una retta
che può essere individuata e tracciata facilmente conoscendo il valore di
probabilità corrispondente a tre valori caratteristici della variabile. I tre punti
noti si materializzano in corrispondenza del valore medio μ e in
corrispondenza dei due punti di flesso della funzione (μ±σ). Ora ricorrendo
alla variabile standardizzata z è possibile entrare nella carta probabilistica
inserendo i valori della variabile originaria x e la corrispondente variabile
standardizzata z e verificare che i punti generati dall’intersezione di questi
due valori sia il più vicino possibile alla retta. Verificato che i punti ricadano
all’interno delle fasce fiduciarie si può concludere che la distribuzione di
probabilità scelta ben si adatta al caso di studio e procedere nella
costruzione dei grafici che rappresentano la funzione probabilità e la
funzione densità di probabilità mettendo in evidenza i parametri che la
caratterizzano.

Inferenza Statistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Inferenza Statistica

Caricato da

Copyright:

Formati disponibili

Relazione

Corso di Idrologia e Costruzioni Idrauliche

Il nostro lavoro si è concentrato principalmente sul problema dell’inferenza

Di questo modello di studio abbiamo analizzato gli strumenti, le procedure e

In particolare abbiamo preso in considerazione i valori delle portate medie

Spesso lo studio di un qualsiasi fenomeno risulta complicato, perciò facciamo

I modelli matematici si dividono principalmente in: modelli deterministici e

I modelli deterministici prendono in considerazione dei valori di input fissi,

I modelli stocastici prendono valori di input di probabilità, cioè variabili casuali

L’approccio deterministico in campo idrologico risulta molto complesso, perciò

Le variabili casuali si dividono in: limitate, illimitate, continue, discrete,

Variabili autocorrelate o indipendenti se possiamo individuare o meno una

Campione: entità discreta costituita da un numero finito di elementi estratti a

Probabilità: rapporto tra il numero m di casi favorevoli e il numero totale n dei

Per le variabili discrete possiamo utilizzare semplicemente il concetto di

Funzioni di probabilità p(x): associa a ogni valore della variabile casuale x la

Per le variabili continue il discorso è più complesso, poiché non possiamo

Per questo motivo parliamo di funzione di probabilità di una variabile casuale

Queste funzioni non si riferiscono alla probabilità di una determinato valore

La funzione di probabilità di non superamento da per ogni x la probabilità che

Parlando di variabili continue possiamo dare la definizione di densità di

Risolvendo l’integrale e considerando gli estremi pari a meno e a più infinito,

Poi abbiamo dato la definizione di momento, media, varianza, scarto

La media è un momento del primo ordine, mentre la varianza è del secondo

Per le variabili discrete nelle formule è presente la sommatoria, mentre nelle

Scarto quadratico medio: Radice della varianza, misura la dispersione dei

Coefficiente di variazione: Cv=𝜎(x)/𝜇(x) rapporto tra lo scarto quadratico

Mediana : valore di x la cui probabilità corrisponde a 0.5.

Moda: valore di x cui corrisponde un massimo della funzione p(x).

Coefficiente di asimmetria: si intende il grado di asimmetria del grafico che

Principali distribuzioni di probabilità

Una distribuzione di variabile continua di generale interesse è la distribuzione

La funzione di densità di probabilità è rappresentata da una curva simmetrica

Distribuzione normale in forma canonica

Nell'espressione analitica della distribuzione normale compaiono la media u(x)

Per ottenere ciò basta introdurre la variabile adimensionale u=(x – u(x))/σ(x),

decrescente della variabile originaria x, che prende il nome di variabile ridotta

Distribuzioni di probabilità per valori estremi

Per l’interpretazione statistica di certe grandezze (portate di

Se si considera un campione x1, x2,…, xN di dimensione N e P(x) la

• La distribuzione asintotica del massimo valore del 1 tipo o distribuzione

• La distribuzione del valore estremo a due componenti TCEV. Massimi che

• 1 FASE- IPOTESI DI LAVORO

Scelta di distribuzione di probabilità: (Gumbel, TCEV...)

• 2 FASE – PRECISAZIONE DELLE IPOTESI

Stima dei parametri: (metodi dei momenti...)

I metodi per verificare la bontà o meno di una distribuzione di probabilità a

Il metodo consiste nell'attribuire a ciascun momento della popolazione il

Fornisce una misura su grado di rarità dell'evento.

Tempo di ritorno per pieni e massimi:

Tempo di ritorno per magre e minimi:

DISCUSSIONE SUL PROGETTO DI INFERENZA STATISTICA

Momento del terzo ordine

A questo punto è necessario verificare che la distribuzione di probabilità

Potrebbero piacerti anche