Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Metodo di Newton
Consideriamo un sistema non-lineare di N equazioni in N
incognite
F(m) 0
Metodo di Newton
Se F continua insieme alle sue derivate, possibile
costruire unapprossimazione in serie di Taylor di F intorno
ad una soluzione di prova x0, arrestata al primo ordine:
F x0 x F x0 F x0 x
dove
F x0 J F x0
F1 x 0
x1
0
FN x
x
1
F1 x 0
xN
FN x 0
xN
Metodo di Newton
Se x= x*- x0, allora possibile ottenere unequazione per
la differenza (approssimata!) tra la soluzione iniziale x0 e la
soluzione incognita x* data da
F x* 0 F x0 F x0 x
F x0 x F x0
Metodo di Newton
Algoritmo 13.1 - Metodo di Newton
Dato un sistema di equazioni F(x)=0 e una soluzione
iniziale x0, bisogna ripetere i passi successivi per calcolare
una successione di soluzioni x1, x2, arrestandosi quando
la successione converge a una soluzione di F(x)=0:
1.
Gauss
per
F xk x F xk
2.
3.
5
Metodo di Newton
Le propriet teoriche del metodo di Newton sono
riassunte nel seguente
Teorema 13.1
Se la soluzione iniziale x0 sufficientemente vicina alla
soluzione incognita x*, la funzione F(x) continua insieme
alle sue derivate in un intorno di x* e J[F(x*)] nonsingolare, allora la successione generata con il metodo di
Newton converge a x*. La velocit di convergenza di
tipo quadratico nel senso che esiste una costante c tale che,
per grandi valori di k risulta
x k 1 x k
6
c xk x*
2
Metodi Diretti e Inversi
Metodo di Newton
In termini pratici la convergenza quadratica vuol dire che
man mano che ci avviciniamo alla soluzione x*, il numero di
cifre decimali esatte presenti nella soluzione raddoppia ad
ogni iterazione.
Sfortunatamente, se le ipotesi del teorema 13.1 precedente
non sono soddisfatte il metodo di Newton pu convergere
molto lentamente o addirittura non convergere affatto.
Metodo di Newton
possibile apportare una semplice modifica al metodo di
Newton che spesso risulta utile nei problemi di convergenza.
Nel metodo di Newton smorzato si utilizzano le equazioni
del metodo di Newton per calcolare, a ciascuna iterazione, la
direzione verso la quale muoversi.
In altri termini, invece di considerare lintervallo completo xk+x
per definire la nuova soluzione di prova, cerchiamo lungo la linea
che congiunge xk con xk+x il punto che minimizza la quantit
F xk a x
Metodo di Newton
Supponiamo adesso di voler trovare il punto in cui
minima la funzione a valori scalari f(x).
Se assumiamo che f(x) sia continua con le sue derivate
prima e seconda, possiamo scriverne lapprossimazione in
serie di Taylor
f x x f x f x
0 T
1
xT H f x0 x
2
Metodo di Newton
dove
f x 0
x1
f x 0
0
f x
x
N
il gradiente e
lHessiano.
10
H f x0
2 f x0
x
1
2
0
f
x
x x
N 1
2 f x0
x1 xN
2
f x0
xN2
Metodo di Newton
Condizione necessaria affinch il punto x* sia un minimo
per f(x) che
*
f x 0
f x0 x f x0 H f x0 x
H f x0 x f x0
Metodo di Newton
Algoritmo 13.2 - Metodo di Newton per
minimizzare la funzione f(x)
Data la funzione f(x) continua insieme alle sue derivate
prima e seconda e una soluzione iniziale x0, bisogna
ripetere i passi successivi per calcolare una successione di
soluzioni x1, x2, arrestandosi quando la successione
converge a una soluzione tale che f(x)=0:
1. determinare x risolvendo lequazione
H f xk x f xk
2.
3.
12
Metodo di Newton
Le propriet teoriche del metodo di Newton per
minimizzare f(x) sono riassunte nel seguente
Teorema 13.2
Se la funzione f(x) continua insieme alle sue derivate
prima e seconda in un intorno di un punto di minimo locale
x*, esiste una costante l tale che
H f x H f y 2 l x y 2
per ogni vettore y in un intorno di x*, la matrice H[f(x*)]
definita positiva e x0 sufficientemente vicino a x*, allora il
metodo converger quadraticamente a x*.
13
Metodo di Newton
Quando converge, il metodo di Newton per minimizzare la
funzione f(x) davvero efficiente.
Come nel caso del metodo di Newton per i sistemi di
equazioni, anche in questo caso le propriet di convergenza
dellalgoritmo possono essere migliorate utilizzando una
ricerca lineare.
14
15
s
i 1
i
17
G (m) i d i
f (m)
, con i 1, 2,, N
i
si
f1 (m)
F(m)
f N (m)
f (m) f i (m)
i 1
18
f (m) f i (m)
i 1
19
m
mM
1
J (m)
f N (m) f N (m)
m1
mM
20
H f (m) H f i (m) H i m
i 1
i 1
21
m j
f i (m)
2 f i (m)
m
k
f i (m) f i (m)
2 f i (m)
2
f i (m)
m j mk
m j mk
22
H f (m) H i m
i 1
essendo
N
23
J(m ) J(m )
k
singolare.
26
J(m ) J(m ) lI lI
k
1
m f (m)
29
30
32
G a 2 I m GT d
Aspetti statistici
Ricordiamo dal Modulo 3 che se un vettore d ha una
distribuzione normale multivariata e A una matrice di
dimensioni appropriate, allora anche Ad possiede una
distribuzione normale multivariata con matrice di covarianza ad
essa associata data da
CovAd A Cov(d) AT
Abbiamo applicato questa formula al problema ai minimi quadrati
per Gm=d che abbiamo risolto con le equazioni normali. La
relazione risultante per Cov(m) era
Cov m L2 G G
T
G Cov(d) G G G
Cov m L2 s G G
34
Aspetti statistici
Nei problemi di regressione non-lineare, non avendo a
disposizione una relazione lineare che lega i dati ai
parametri del modello, non possiamo assumere che i
parametri abbiano una distribuzione normale multi-variata e
quindi non possiamo usare le formule precedenti.
In ogni caso siamo interessati a capire quanto (piccole)
perturbazioni nei dati si ripercuotano in (piccole?)
perturbazioni nel modello.
35
Aspetti statistici
Consideriamo allora unapprossimazione linearizzata della
funzione di misfit F(m)
F(m* m) F(m* ) J(m* ) m
36
Aspetti statistici
Ricordiamo anche che abbiamo incorporato la deviazione
standard sui dati si direttamente nella definizione di f(m).
La matrice di covarianza dei dati allora data dalla matrice
identit e quindi possiamo scrivere
Cov(m ) J(m )
*
J(m )
T
37
Aspetti statistici
La matrice di covarianza e gli intervalli di confidenza nel
caso non-lineare dipendono criticamente da quanto
accurata lapprossimazione linearizzata
F J(m* ) m
Aspetti statistici
Come nel caso della regressione lineare, possiamo eseguire
un test c2 di bont del fit.
Ladeguatezza di questo test dipende anche da quanto bene
il modello non-lineare approssimato dalla linearizzazione
in termini del Jacobiano per punti prossimi ai valori ottimali
dei parametri.
Nella pratica, tale approssimazione risulta in generale
appropriata a meno che i dati non siano estremamente
rumorosi.
39
Aspetti statistici
Come nel caso della regressione lineare, possibile
applicare le tecniche di regressione non-lineare quando gli
errori di misura sono indipendenti e normalmente
distribuiti e le deviazioni standard, pur essendo incognite,
sono assunte uguali fra loro.
40
Aspetti statistici
Se definiamo gli elementi del vettore dei residui come
ri G(m* ) i -di
con i 1, 2,, N
2
r
i
i 1
N M
Cov(m ) s J(m )
*
41
J(m )
T
Aspetti statistici
Una volta che abbiamo a disposizione m* e Cov(m*),
possiamo costruire gli intervalli di confidenza esattamente
allo stesso modo visto nel Modulo 6.
Proprio come nel caso della regressione lineare, anche
importante esaminare i residui alla ricerca di pattern
sistematici o di deviazioni dalla normalit.
Se non abbiamo stimato la deviazione standard s per le
misure, allora importante valutare il valore del c2 per
avere unidea relativamente alla bont del fit.
42
Aspetti statistici
Esempio 13.1
Un metodo classico utilizzato in idrologia per determinare i
principali parametri idrogeologici di un acquifero (conducibilit
idraulica, coefficiente di immagazzinamento, permeabilit, )
lo slug test.
Tale prova consiste nel produrre una variazione istantanea del
livello in un pozzo e nel misurare il tempo necessario al
ripristino delle condizioni iniziali. La variazione istantanea di
livello viene ottenuta mediante lintroduzione (o lestrazione) nel
pozzo di un volume noto dacqua o di un corpo solido di forma
generalmente cilindrica.
Si tratta quindi di una prova in pozzo, eseguita in regime
transitorio, che consente di ottenere informazioni sui parametri
idrogeologici dellacquifero che si trova nelle vicinanze del pozzo.
43
Aspetti statistici
Supponiamo che un volume noto Q di acqua (slug) sia
iniettato in un certo pozzo e immaginiamo di osservare
leffetto risultante in un pozzo di osservazione distante d dal
pozzo iniziale. Immaginiamo, ad esempio, di misurare
lelevazione h del livello dellacqua in funzione del tempo t.
Tipicamente, il livello nel pozzo di osservazione aumenta
allinizio rapidamente per poi decrescere pi lentamente.
A partire dalle misure di h, ci proponiamo di determinare il
coefficiente di immagazzinamento S, e la permeabilit T
dellacquifero.
44
Aspetti statistici
Il modello matematico per lo slug test dato da
Q
d 2 S / 4Tt
h
e
4 T t
10
20
30
40
50
h (m)
0.49
0.30
0.20
0.16
0.12
0.72
Aspetti statistici
Costruiamo linput necessario
46
Aspetti statistici
Risolviamo il problema ai minimi quadrati con lalgortimo
LM. A tale scopo disponibile lo script MATLAB lm.
numero di
iterazioni
parametri
stimati
fun uno script nel quale si
calcola la differenza tra i dati
predetti e quelli misurati,
normalizzati per la deviazione
standard (misfit)
parametri
iniziali
47
tolleranza
di arresto
numero massimo
di iterazioni
consentite
Aspetti statistici
Le stime dei parametri trovate in 22 iterazioni sono
S=0.0021
T=0.5853 m2/hr
Il valore del c2 osservato 2.04
con un corrispondente valore-p del 73%.
Ricordiamo che il numero di gradi di libert N-M=4.
Aspetti statistici
49
Aspetti statistici
S = 0.00207 0.00012
T = 0.585 0.029 m2/hr
50
Aspetti statistici
Disegniamo un grafico a isolinee per i valori di c2 al variare
di S e T.
Notiamo che, a differenza del caso lineare, le isolinee non
sono delle ellissi, in conseguenza della non-linearit.
2000
100
1000
10
51
500
Aspetti statistici
In ogni caso, se facciamo uno zoom
nellintorno alla soluzione ottimale, troviamo
che le isolinee che rappresentano i valori di c2
sono approssimativamente ellittiche.
Questa osservazione indica che lapprossimazione lineare di
G(m) intorno ai valori ottimali dei parametri una buona
approssimazione per piccole perturbazioni.
52
Aspetti statistici
Infine, in figura rappresentata lellisse di confidenza al 95%
confrontata con gli intervalli di confidenza per i parametri.
53
m j
s i m j
54
55
56
m j
h
m j
h
h e
dove e lerrore nellaccuratezza del calcolo di [G(m)]i.
Per esempio, se la valutazione della funzione accurata allo
0.0001, allora una scelta appropriata per h sarebbe di circa 0.01.
Pu essere tuttavia difficoltoso valutare la reale accuratezza con
la quale viene calcolata la funzione, specie nel caso in cui G una
black box routine.
Unutile tecnica di stima consiste nel disegnare i valori della
funzione al variare di uno dei parametri di interesse in un piccolo
intervallo.Tali grafici dovrebbero essere smooth alla scala di h.
59
61
f m k 1 f m k
f mk
62
sia
e 1 f mk
m k m k 1 e 1 m k
2
f m k f m k 1 e 1 f m k
63
64
65
Cov(m ) J(m )
*
J(m )
T
70
72
74
75
76
77
m1
78
m2
m3
m4
c2
79
80
81
82
83
Cov(m ) J(m )
*
J(m )
T
87
0
.
96
0
.
99
0.67 0.96
1
0.93
0
.
89
0
.
99
0
.
93
1
Definizioni varie
Matrice definita positiva
89
se e solo se x 0
Definizioni varie
Le matrice definita positive hanno un comportamento analogo ai
numeri reali positivi godendo delle seguenti propriet:
ogni matrice definita positiva invertibile e la sua inversa
anchessa definita positiva;
se A una matrice definita positiva e a un numero reale,
allora la matrice aA definita positiva;
se A e B sono matrici definite positive allora anche A+B
definita positiva; se poi le matrici commutano (ossia se
AB=BA) allora anche la matrice AB definita positiva;
ogni matrice A definita positiva possiede una radice quadrata
ossia una matrice Q tale che A=QTQ; una matrice definita
positiva pu avere un gran numero di radici quadrate ma ne ha
una sola che risulta definita positiva.
90
Definizioni varie
Matrice semi-definita positiva
tale che
f (x) 0
Definizioni varie
Fattorizzazione di Cholesky
Sia A una matrice simmetrica di dimensione n per n definita
positiva. In tal caso A pu essere scritta in maniera univoca
come
A RTR
Definizioni varie
Valore-p del test c2
definito come la probabilit teorica di ottenere un valore
di c2 grande quanto quello osservato:
fc
( x) dx
2
c obs
essendo
f c 2 ( x)
2 2 2
93