Sei sulla pagina 1di 354

O . C A L I G A R I S - P.

O L I V A

A N A L I S I M AT E M AT I C A 2
1. Funzioni Di Due Variabili

I modelli matematici spesso devono tenere conto di molti parametri e


per questa ragione non è sufficiente considerare funzioni di una sola
variabile reale; spesso anzi il numero di parametri in gioco è molto alto
e quindi bisogna ricorrere all’uso di funzioni di molte variabili reali.
Dal punto di vista concettuale non c’è grande differenza tra lo stu-
dio di una funzione di 2, 3 o 100 variabili reali, ma la differenza tra
lo studio di una funzione di 1 variabile reale ed una funzione di 2
variabili reali è grande e va considerata attentamente.
Sviluppiamo pertanto lo studio di una funzione di 2 variabili reali
per introdurre gli strumenti necessari al trattamento delle funzioni di
più variabili reali a valori reali.

Definizione 1.1 Diciamo che è data una funzione di due variabili reali se
sono assegnati un sottoinsieme D ⊂ R2 ed una corrispondenza f che ad ogni
elemento P = ( x, y) ∈ D associa uno ed un solo elemento z ∈ R. Figura 1.1: .
Diciamo che D è il dominio della funzione e denotiamo con

z = f ( x, y) = f ( P)

il corrispondente di P = ( x, y) secondo la legge assegnata f ; scriviamo anche

P = ( x, y) 7→ z = f ( x, y) = f ( P)

Chiamiamo rango di f l’insieme


Figura 1.2: .
R( f ) = {z ∈ R : ∃( x, y) ∈ D, z = f ( x, y)}

Chiamiamo grafico di f l’insieme

G ( f ) = {( x, y, z) ∈ R3 : ( x, y) ∈ D, z = f ( x, y)}

Osservazione. Il grafico di una funzione di 2 variabili è pertanto un


sottoinsieme di R3 che descrive qualcosa che è immediato identificare
Figura 1.3: .
come una superficie nello spazio. 2
Restrizione e composizione di funzioni sono definite come nel ca-
so reale e parimenti simile è la definizione di iniettività, surgettività,
bigettività.
4 o.caligaris - p.oliva

Per avere un’idea del comportamento della funzione sarebbe como-


do poter disporre del suo grafico, che nel caso di funzioni di 2 variabili
si rappresenta in uno spazio a 3 dimensioni R3 ; dobbiamo però tenere
presente che:

1. Non è possibile rappresentare il grafico di funzioni che dipendano


da 3 o più variabili

2. La rappresentazione in R3 di una funzione di due variabili passa


attraverso tecniche di prospettiva.

3. La proprietà che risulta di maggiore interesse per tracciare il grafico


qualitativo di una funzione di 1 variabile è la crescenza o la decre-
scenza, che per le funzioni di 2 o più variabili non può più essere
considerata dal momento che il dominio R2 (o Rn ) non ammette un
ordine completo.

Figura 1.4: .

Non sarà pertanto semplice disegnare il grafico qualitativo di una


funzione di 2 variabili e per farci un’idea del suo andamento dovremo
ricorrere a rappresentazioni nel piano.
Un modo efficace di rappresentare una superficie è disegnare nel
piano ( x, y) le curve di livello della funzione.

Definizione 1.2 Se f : R2 → R chiamiamo curve od insiemi di livello di f


di altezza c gli insiemi

Lc = {( x, y) ∈ R2 : f ( x, y) = c}

Le curve di livello di f consentono, in pratica, di rappresentare una


mappa della superficie in esame. Esse definiscono i punti in cui la

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 5

superficie assume quota costante uguale a c e, se le quote c sono scel-


te ad intervalli regolari, permettono di individuare le zone in cui la
superficie è più ripida (le curve di livello sono più ravvicinate).
Le superfici prese in considerazione nella figura ?? hanno le curve
di livello mostrate nella figura ??
Per farci un’idea del grafico possiamo anche considerare l’andamen-
to delle funzioni di x che si ottengono considerando fissati i valori di
y; chiamiamo questi grafici sezioni lungo l’asse x, si veda figura ??, e
delle funzioni di y che si ottengono considerando fissati i valori di x;
chiamiamo questi grafici sezioni lungo l’asse y, si veda figura ??.

Come per le funzioni di una variabile è importante studiare la conti-


nuità e la derivabilità di una funzione di 2 o più variabili. Ovviamente
per poter considerare la continuità è necessario conoscere la definizio-
ne di limite e ancora prima la definizione di intorno e la struttura dello
spazio R2 in cui stiamo lavorando.

1.1 La struttura di R2 .

Indichiamo con R2 lo spazio vettoriale costituito dalla coppie ordinate


di numeri reali; in altre parole

P ∈ R2 ⇔ P = ( x, y) x, y ∈ R

In R2 si definiscono le operazioni di somma e di prodotto per uno


scalare mediante le

P1 + P2 = ( x1 + x2 , y1 + y2 )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


6 o.caligaris - p.oliva

e, se α ∈ R,
αP = (αx, αy)
L’insieme dei vettori

e1 = (1, 0) , e2 = (0, 1)

costituisce una base di R2 ; si avrà pertanto che, se P ∈ R2 ,

P = xe1 + ye2 = x (1, 0) + y(0, 1) = ( x, y)

Definizione 1.3 Si definisce norma in R2 una funzione che si indica con

k · k : R2 → R

che verifica le seguenti proprietà:

• k Pk ≥ 0 ∀ P ∈ R2

• k Pk = 0 ⇔ P = 0

• kαPk = |α|k Pk ∀ α ∈ R , ∀ P ∈ R2

• k P + Qk ≤ k Pk + k Qk ∀ P, Q ∈ R2

Si definisce prodotto scalare in R2 una funzione

h·, ·i : R2 × R2 −→ R

tale che

• h P, Pi ≥ 0 ∀ P ∈ R2

• h P, Qi = h Q, Pi ∀ P, Q ∈ R2

• h P, Pi = 0 ⇔ P=0

• hαP + βQ, Ri = αh P, Ri + βh Q, Ri ∀ P, Q, R ∈ R2 , ∀α, β ∈ R.

Un esempio notevole di norma in R2 è


q
k P k = x 2 + y2

La norma di P indica la distanza di P dall’origine O = (0, 0); se P =


( x, y), P0 = ( x0 , y0 ) ∈ R2
k P − P0 k
indica la distanza tra i punti P e P0 .
Un esempio notevole di prodotto scalare in R2 è definito da

h P1 , P2 i = x1 x2 + y1 y2

Se ρ > 0 chiamiamo intorno del punto P0 = ( x0 , y0 ), l’insieme

S( P0 , ρ) = { P ∈ R2 : k P − P0 k < ρ}

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 7

S( P0 , ρ) è la sfera di centro P0 e raggio ρ.


Definiamo inoltre intorno di ∞ il complementare di ogni sfera centrata
nell’origine.
S(∞, ρ) = { P ∈ R2 : k Pk > ρ}
Diciamo che due vettori P, Q ∈ R2 sono ortogonali se h P, Qi = 0 .
Diciamo che sono paralleli se esiste λ ∈ R tale che P = λQ .

Altri esempi di norme in R2 sono i seguenti

k Pkk = (| x |k + |y|k )1/k k≥1

k Pk∞ = max{| x |, |y|}


Norme euclidea e prodotto scalare sono legati dalla seguente
Disuguaglianza di Schwarz
Per P, Q ∈ R2 si ha

|h P, Qi| ≤ k Pkk Qk

La disuguaglianza di Schwarz può essere dedotta osservando che,


per ogni t ∈ R

0 ≤ k P + tQk2 = h P + tQ, P + tQi = t2 k Qk2 + 2th P, Qi + k Pk2

Ciò implica infatti che

h P, Qi2 − k Pk2 k Qk2 ≤ 0

Dalla dalla disuguaglianza di Schwarz possiamo anche ricavare la


disuguaglianza triangolare; infatti

k P + Qk2 = k Pk2 + k Qk2 + 2h P, Qi ≤ k Pk2 + k Qk2 + 2k Pkk Qk.

Osserviamo infine che

|h P, Qi| = k Pkk Qk

se e solo se esiste t ∈ R tale che P + tQ = 0, ovvero P e Q sono


paralleli.
Da quanto detto si può dedurre che

k Pk = sup{h P, Qi : k Qk ≤ 1} = max{|h P, Qi| : k Qk ≤ 1}

1.2 Limiti e continuità per le funzioni di 2 variabili.

Definizione 1.4 Sia f : A → R, A ⊂ R2 e sia P0 un punto tale che ogni


intorno di P0 abbia intersezione non vuota con A (chiamiamoP0 punto di
accumulazione per A); diciamo che

lim f ( P) = `
P→ P0

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


8 o.caligaris - p.oliva

se ∀ε > 0 esiste δ(ε) > 0 tale che per P ∈ S( P0 , δ(ε)) ∩ A , P 6= P0 si ha

f ( x ) ∈ I (`, ε)

È possibile verificare che

1. ogni funzione che ammette limite finito è localmente limitata;

2. il limite di una funzione, se esiste, è unico;

3. vale il teorema della permanenza del segno;

4. il limite di una somma è uguale alla somma dei limiti, se questi


esistono finiti;

5. il limite del prodotto di due funzioni è uguale al prodotto dei limiti,


se questi esistono finiti;

6. il limite del reciproco di una funzione è uguale al reciproco del


limite della funzione stessa, se non è nullo

7. valgono i risultati sul confronto dei limiti, in analogia a quanto già


visto per le funzioni di una variabile

8. il limite di una funzione può essere caratterizzato per successioni

9. il limite di una funzione composta si calcola seguendo quanto fatto


per le funzioni di una variabile

Definizione 1.5 Diciamo che f è una funzione continua in P0 se


∀ε > 0 esiste δ(ε) > 0 tale che se x ∈ A, k P − P0 k < δ(ε) si ha

k f ( P) − f ( P0 )k < ε

Nel caso in cui P0 ∈ A, sia un punto di accumulazione per A la condizione


sopra espressa è equivalente alla

lim f ( P) = f ( P0 )
P→ P0

Ovviamente f si dice continua in A se è continua in ogni punto di A

Come nel caso delle funzioni reali di una variabile reale si prova
che:

1. la somma di funzioni continue è continua;

2. il prodotto di una funzione a valori vettoriali per una funzione a


valori scalari, entrambe continue, è continuo;

3. il reciproco di una funzione continua è continuo dove ha senso


definirlo;

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 9

4. il prodotto scalare di due funzioni a valori vettoriali continue, è


continuo;

5. vale la caratterizzazione della continuità per successioni

6. la composta di funzioni continue è una funzione continua.

La conoscenza della continuità delle funzioni elementari e le regole


precedentemente enunciate permettono di stabilire in modo semplice
la continuità in un gran numero di casi: ad esempio, poichè ( x, y) 7→
x2 e ( x, y) 7→ y2 sono continue possiamo anche affermare che

( x, y) 7→ x2 + y2

è continua, se poi ricordiamo che l’esponenziale è continua avremo


anche che
2 2
( x, y) 7→ e x +y
è continua.
Come per le funzioni continue di una variabile si possono provare
importanti teoremi, tra i quali ricordiamo i seguenti risultati.

Teorema 1.1 - di Weierstraß - Se f è una funzione continua su un insieme


A che sia chiuso (contiene i limiti di ogni successione convergente di suoi
punti) e limitato (è contenuto in una sfera ) allora f ammette massimo e
minimo assoluto su A

Teorema 1.2 - degli zeri - Se f è una funzione continua su un insieme A


connesso (cioè, in parole semplici, fatto di un solo pezzo) e se esistono due
punti P+ , P− ∈ A tali che

f ( P+ ) > 0 , f ( P− ) < 0

allora esiste un punto P0 ∈ A tale che

f ( P0 ) = 0

Un semplice ragionamento assicura, utilizzando il teorema degli


zeri, che se una curva di livello di f

Lc = {( x, y) ∈ U : f ( x, y) = c} = {( x, y) ∈ R2 : x ∈ I, y = ϕ( x )}

divide il piano in due parti connesse allora f ( x, y) > 0 in una delle


due parti e f ( x, y) < 0 nell’altra.
Se infatti in una parte connessa ci fossero due punti P+ , P− tali che

f ( P+ ) > 0 , f ( P− ) < 0

esisterebbe in quella parte P0 tale che Figura 1.5: Curve di livello e segno di f

f ( P0 ) = 0

ma in quella parte si può solo avere f ( P) > 0 oppure f ( P) < 0.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


10 o.caligaris - p.oliva

1.3 Derivabilità e differenziabilità per funzioni di 2 variabili.

Come per le funzioni di 1 variabile è necessario considerare il proble-


ma della approssimazione mediante funzioni lineari, cioè il problema
della differenziazione.
È molto naturale porre la seguente definizione

Definizione 1.6 Diciamo che f è derivabile parzialmente se le funzioni

φ( x ) = f ( x, y) ψ(y) = f ( x, y)

sono derivabili.
Chiamiamo φ0 ( x ) = f x ( x, y) derivata parziale rispetto ad x e ψ0 (y) =
f y ( x, y) derivata parziale rispetto ad y; definiamo inoltre gradiente di f e
scriviamo ∇ f ( x, y) il vettore (punto di R2 ) definito da

∇ f ( x, y) = ( f x ( x, y), f y ( x, y))

Di fatto in tal modo si opera derivando rispetto ad x (o ad y) con y


(o x) fissati.
Va osservato che, pur essendo molto naturale, l’uso delle deriva-
te parziali non consente, da solo, di ricavare informazioni utili sulla
funzione in esame.
Si pensi ad esempio che la funzione

1 se xy = 0
f ( x, y) =
0 se xy 6= 0

il cui grafico, si veda la figura ?? è costituito dal piano z = 0 privato


degli assi x ed y e dalle due rette parallele agli assi x ed y poste a quota
z = 1, non è continua in (0, 0) pur avendo derivate parziali nulle in
(0, 0).
Occorre quindi definire cosa si intende per differenziabile e per
questo serve parlare di applicazioni lineari.
Figura 1.6: Il grafico di una funzione
derivabile parzialmente, non continua. Definizione 1.7 Si chiama applicazione lineare in R2 una funzione f :
R2 → R tale che

f (αP + βQ) = α f ( P) + β f ( Q) ∀ P, Q ∈ R2 , ∀α, β ∈ R

L’insieme delle applicazioni lineari su R2 si chiama anche spazio


duale di R2 .
Ogni applicazione lineare in R2 si può identificare con un punto P∗
di R2 mediante la seguente uguaglianza

f ( P) = h P, P∗ i
In altre parole le applicazioni lineari su R2 sono tutte e sole le
funzioni che si possono scrivere nella forma

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 11

f ( P) = h P, P∗ i con P ∗ ∈ R2

È anche utile ricordare che per funzioni lineari possiamo provare


che
Se f è una applicazione lineare su R2 allora

| f ( P)| = |h P, P∗ i| ≤ k Pkk P∗ k

Diciamo che f ∈ C 1 ( A) se f ammette derivate parziali continue in


A.

Definizione 1.8 Diciamo infine che f è differenziabile in P0 se esiste (α, β) ∈


R2 tale che

f ( P) − f ( P0 ) + α( x − x0 ) + β(y − y0 )
lim =0
P→ P0 k P − P0 k
Pertanto una funzione è differenziabile se

f ( P) = f ( P0 ) + α( x − x0 ) + β(y − y0 )) + k P − P0 kω ( P − P0 )

dove ω è una funzione infinitesima per P → P0

f ( P) − ( f ( P0 ) + α( x − x0 ) + β(y − y0 ))
ω ( P − P0 ) =
k P − P0 k
Questa proprietà si esprime dicendo che f ( P) si può approssimare
con una funzione lineare affine

t( P) = f ( P0 ) + α( x − x0 ) + β(y − y0 ))

a meno di un infinitesimo

k P − P0 kω ( P − P0 )

di ordine superiore al primo rispetto alla distanza k P − P0 k.


La funzione t( p) si definisce piano tangente al grafico di f nel
punto P0
Se f è differenziabile in P0 allora f è anche derivabile parzialmente
e si può verificare che risulta

α = f x ( P0 ) β = f y ( P0 )
pertanto Figura 1.7: Derivata Direzionale

Il piano tangente al grafico di una funzione f in P0 è dato da

t( P) = f ( P0 ) + f x ( P0 )( x − x0 ) + f y ( P0 )(y − y0 ))

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


12 o.caligaris - p.oliva

Definizione 1.9 Se Q ∈ R2 , diciamo che f è derivabile in P0 rispetto al


vettore Q o che f ammette derivata in P0 lungo la direzione Q se

f ( P0 + tQ) − f ( P0 )
lim
t →0+ t
esiste finito. In tal caso denotiamo il valore di tale limite con f 0 ( P0 , Q) e lo
chiamiamo derivata direzionaledi f in P0 lungo la direzione Q.

Si può vedere che f è derivabile rispetto alla prima variabile se e


solo se f 0 ( P0 , e1 ) ed f 0 ( P0 , −e1 ) esistono finiti e

f 0 ( P0 , e1 ) = − f 0 ( P0 , −e1 )

Analogamente f è derivabile rispetto alla seconda variabile se e solo


se f 0 ( P0 , e2 ) ed f 0 ( P0 , −e2 ) esistono finiti e

f 0 ( P0 , e2 ) = − f 0 ( P0 , −e2 )

Si dimostra che

Teorema 1.3 Se f è differenziabile in P0 ; allora f è derivabile in P0 lungo


ogni direzione Q e si ha

f 0 ( P0 , Q) = h∇ f ( P0 ), Qi

È utile estendere alle funzioni di più variabili la regola di deriva-


zione delle funzioni composte; ci limitiamo qui a considerare solo due
casi particolari.
Siano

f : R2 → R , g : R → R2
R 3 t 7→ g(t) = ( x (t), y(t)) 7→ f ( g(t)) = f ( x (t), y(t)) ∈ R2

Se f e g sono differenziabili (non solo derivabili!) allora

d
f ( g(t)) = f x ( x (t), y(t)) ẋ (t) + f y ( x (t), y(t))ẏ(t)
dt

Se viceversa consideriamo

f :R→R , g : R2 → R
R2 3 ( x, y) 7→ g( x, y) 7→ f ( g( x, y)) ∈ R

e se f e g sono anche qui differenziabili avremo che


∂f
= f 0 ( g( x, y)) gx ( x, y)
∂x
∂f
= f 0 ( g( x, y)) gy ( x, y)
∂y

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 13

Abbiamo già visto che


se f è differenziabile in P0 ∈ R2 e se Q è una direzione in R2 , allora

f 0 ( P0 , Q) = h∇ f ( P0 ), Qi = k∇ f ( P0 )kk Qk cos α

dove α è l’angolo formato dai vettori ∇ f ( P0 ) e Q nel piano da essi


individuato.
Ne possiamo dedurre che
la derivata direzionale è

• massima quando cos α = 1 e cioè quando α = 0 e Q = ∇ f ( P0 ),

• nulla quando cos α = 0 e cioè quando α = π


2 e Q ⊥ ∇ f ( P0 ),

• minima quando cos α = −1 e cioè quando α = π e Q = −∇ f ( P0 ).

Consideriamo ora una curva di livello di f

Lc = {( x, y) ∈ R2 : f ( x, y) = c}

e supponiamo che sia rappresentabile, almeno localmente, median-


te il grafico di una funzione y = ϕ( x ) In termini un po’ più precisi
supponiamo che

Lc = {( x, y) ∈ U : f ( x, y) = c} = {( x, y) ∈ R2 : x ∈ I, y = ϕ( x )}

o più semplicemente

f ( x, y) = c ⇐⇒ f ( x, ϕ( x )) = c ⇐⇒ y = ϕ( x )

Da f ( x, ϕ( x )) = c, derivando e tenendo presenti le regole di deriva-


zione delle funzioni composte, otteniamo che:

f x ( x, ϕ( x )) + f y ( x, ϕ( x )) ϕ0 ( x ) = 0

da cui
h∇ f ( x, ϕ( x )), (1, ϕ0 ( x ))i = 0
e possiamo ricavare che

∇ f ( x, ϕ( x )) ⊥ (1, ϕ0 ( x ))

D’altro canto la retta tangente τ al grafico di ϕ nel punto P0 =


( x0 , y0 ) è data da
y − y0 = ϕ0 ( x0 )( x − x0 )
Figura 1.8: Curve di Livello e Gradiente.
e si può scrivere nella forma

h( x − x0 , y − y0 ), ( ϕ0 ( x0 ), −1)i = 0

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


14 o.caligaris - p.oliva

dalla quale risulta evidente che

( ϕ 0 ( x0 ) , −1) ⊥ P ∀P ∈ τ

Se ora teniamo conto che, evidentemente,

h( ϕ0 ( x0 ), −1), (1, ϕ0 ( x0 ))i = 0

e quindi
( ϕ0 ( x0 ), −1) ⊥ (1, ϕ0 ( x0 ))

possiamo ricavare che

∇ f ( x, ϕ( x )) ⊥ P ∀P ∈ τ (1.1)

Poichè τ è la retta tangente in P0 al grafico della funzione ϕ che


rappresenta vicino al punto P0 (localmente in P0 ) la curva di livello Lc ,
esprimeremo la 1.1 dicendo che
il gradiente di f , cioè il vettore ∇ f ( x, y), è ortogonale alle curve di
livello di f (Lc = {( x, y) ∈ R2 : f ( x, y) = c})

1.4 Derivate del secondo ordine: forma quadratica Hessiana.

Possiamo anche considerare le derivate seconde rispetto ad x due vol-


te, ad y due volte, ad x e ad y , ad y e ad x; chiamiamo queste
derivate
f xx ( P0 ) f y,y ( P0 ) f x,y ( P0 ) f y,x ( P0 )

Si può dimostrare che, nel caso in cui f x,y ( P0 ), o f y,x ( P0 ) sia continua
allora (teorema di Scharwz)

f x,y ( P0 ) = f y,x ( P0 )

Ciò si esprime dicendo che le derivate seconde miste sono uguali.


Chiamiamo matrice Hessiana la matrice i cui elementi sono le deri-
vate seconde di f . Cioè
!
f xx ( P0 ) f xy ( P0 )
H f ( P0 ) =
f yx ( P0 ) f yy ( P0 )

Nel caso in cui le derivate miste siano uguali, la matrice Hessiana è


simmetrica.
Ad ogni matrice simmetrica, e quindi anche alla matrice Hessiana,
possiamo associare un polinomio di secondo grado in 2 variabili (e.g.
h, k) omogeneo che chiamiamo forma quadratica associata.
!
h
La forma quadratica Hessiana è, posto R =
k

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 15

! !
  f xx ( P0 ) f xy ( P0 ) h
Q( R) = Q(h, k) = h k =
f yx ( P0 ) f yy ( P0 ) k
R T H f ( P0 ) R = f xx ( P0 )h2 + 2 f xy ( P0 )hk + f yy ( P0 )k2

Diciamo che la forma quadratica Q è semidefinita positiva se

Q(h, k) = f xx ( P0 )h2 + 2 f xy ( P0 )hk + f yy ( P0 )k2 ≥ 0

per ogni (h, k) ∈ R2 .


Diciamo che Q è definita positiva se

Q(h, k) = f xx ( P0 )h2 + 2 f xy ( P0 )hk + f yy ( P0 )k2 > 0

per ogni (h, k) ∈ R2 \ {(0, 0}.


Ovviamente per identificare una forma quadratica semidefinita o
definita negativa è sufficiente cambiare il segno delle disuguaglianze.
Semplici considerazioni sul segno di un trinomio di secondo gra-
do permettono di ottenere condizioni per studiare il carattere di una
forma quadratica.
La forma quadratica Q è definita positiva se
!
f xx ( P0 ) f xy ( P0 )
det >0
f yx ( P0 ) f yy ( P0 )
e f xx ( P0 ) > 0, oppure f yy ( P0 ) > 0
Osservazione. Se
!
f xx ( P0 ) f xy ( P0 )
det = f xx ( P0 ) f yy ( P0 ) − ( f xy ( P0 ))2 > 0
f yx ( P0 ) f yy ( P0 )

allora
f xx ( P0 ) f yy ( P0 ) ≥ ( f xy ( P0 ))2 > 0
e quindi f xx ( P0 ) ed f yy ( P0 ) hanno lo stesso segno 2
La forma quadratica Q è semidefinita positiva se
!
f xx ( P0 ) f xy ( P0 )
det ≥0
f yx ( P0 ) f yy ( P0 )
e f xx ( P0 ) ≥ 0, o equivalentemente f yy ( P0 ) ≥ 0
Si può inoltre dimostrare che
Se λ1 , λ2 sono gli autovalori della matrice
!
f xx ( P0 ) f xy ( P0 )
det ≥0
f yx ( P0 ) f yy ( P0 )

allora, per la simmetria della matrice, essi sono reali ed inoltre

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


16 o.caligaris - p.oliva

• se λ1 , λ2 sono entrambi positivi (negativi) la forma quadratica Q è


definita positiva (negativa)

• se λ1 , λ2 sono entrambi positivi (negativi) o nulli la forma quadra-


tica Q è semidefinita positiva (negativa)

• se λ1 , λ2 hanno segni discordi la forma quadratica Q è non definita

Osservazione. Se
!
f xx ( P0 ) f xy ( P0 )
det <0
f yx ( P0 ) f yy ( P0 )

la forma quadratica può assumere sia valori positivi che negativi e


quindi non è definita. 2

1.5 Massimi e minimi per le funzioni di 2 variabili.

Definizione 1.10 Diciamo che P0 è un punto di minimo (massimo) relativo


per f se esiste una sfera S( P0 , ρ), ρ > 0, tale che

f ( P) ≥ f ( P0 ) ( f ( P) ≤ f ( P0 ))

per ogni P ∈ S( P0 , ρ)

Utilizzando tecniche che sfruttano i risultati noti per le funzioni di


una variabile possiamo provare le seguenti condizioni necessarie per
l’esistenza di un punto di minimo o massimo relativo.

Teorema 1.4 Se P0 è un punto di minimo (massimo) relativo per f interno


al suo dominio ed f è differenziabile in P0 . Allora

• ∇ f ( x ) = 0;

se inoltre f ammette derivate seconde continue in P0 ,

• H f ( x ) è semidefinita positiva (negativa).

Osservazione. Se ∇ f ( x ) = 0 e se Hf(x) non è definito, allora P0 non


è né punto di massimo relativo, né punto di minimo relativo per f ; un
punto siffatto viene solitamente indicato con il nome di ’punto sella’.
2

Teorema 1.5 Se f ∈ C 2 ( A); e se P0 è interno al suo dominio e se

• ∇ f ( P0 ) = 0

• H f ( P0 ) è definita positiva (negativa)

allora P0 è punto di minimo (massimo) relativo per f .

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 17

Anche per le funzioni di due variabili si può definire e studiare la


convessità:
Sia f : A → R, e sia A ⊂ R2 convesso, cioè supponiamo che A
contenga ogni segmento di retta i cui estremi siano contenuti in A;
diciamo che f è convessa se

f (λx + (1 − λ)y) ≤ λ f ( x ) + (1 − λ) f (y) ∀ x, y ∈ A, ∀λ ∈ (0, 1)

Inoltre f si dice strettamente convessa se vale la disuguaglianza


stretta.
Osservazione. si può dimostrare che se f è convessa allora i suoi
insiemi di livello Lc sono a loro volta convessi un insieme convesso 2
Inoltre possiamo anche dimostrare che

Teorema 1.6 Sia f : A → R convessa, A aperto; allora

• f è continua in A

• f 0 ( P, Q) esiste ∀ P ∈ A, ∀ Q ∈ R2 .

Come per le funzioni di una variabile la convessità si può caratte-


rizzare utilizzando le derivate come si vede dall’enunciato del teorema
seguente.

Teorema 1.7 Sia f : A → R, A ⊂ R2 convesso, aperto; supponiamo inoltre


f ∈ C 2 ( A), allora sono condizioni equivalenti:

• f è convessa


f (y) ≥ f ( P0 ) + h∇ f ( P0 ), P − P0 i ∀ P, P0 ∈ A

• H f ( P) è semidefinita positiva.

Inoltre
Ciascuna delle seguenti condizioni è sufficiente per la successiva:

• H f ( P) è definita positiva ∀ P ∈ A;

• f ( P) > f ( P0 ) + h∇ f ( P0 ), P − P0 i ∀ P, P0 ∈ A, P 6= P0 ;

• f è strettamente convessa.

Si può inoltre vedere che se f è strettamente convessa e se f ( P) →


+∞ per P → ∞; allora esiste uno ed un solo punto P0 ∈ Rn tale che

f ( P0 ) = min{ f ( P) : P ∈ R2 }

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


18 o.caligaris - p.oliva

1.6 Massimi e minimi vincolati.

Le condizioni fin qui trovate per caratterizzare i punti di massimo e


di minimo relativo sono utilizzabili soltanto nel caso in cui si cerchino
massimi e minimi di f all’interno di un determinato insieme; nel caso
in cui si vogliano cercare massimi e minimi su insiemi che contengano
anche punti non interni, questi ultimi andranno considerati a parte
esattamente come a parte debbono essere considerati gli estremi di un
intervallo se si considerano funzioni di una variabile.
Questo scopo si può raggiungere considerando le restrizioni di f
ai punti non interni; tali restrizioni sono funzioni che dipendono da
una sola variabile e si può cercare di trattarle con i risultati noti per tal
caso.
Ovviamente lo scopo è individuare eventuali massimi o minimi per
mezzo di condizioni necessarie e, se si è certi della loro esistenza, tra
essi scegliere massimi e minimi assoluti.
A questo scopo è utile considerare il problema di trovare massimi
e minimi di una funzione f ( x, y) sull’ insieme dei punti del piano che
soddisfano l’equazione g( x, y) = 0
In questo modo, infatti, è possibile identificare in molti casi l’insie-
me dei punti di frontiera (e quindi non interni) di un insieme.
Più precisamente ci riferiremo a questo problema come al problema
di
Cercare massimi e minimi relativi di f vincolati a g = 0

1.6.1 funzioni definite implicitamente.


Per studiare il problema è necessario conoscere qualche cosa in più
sull’insieme

G = {( x, y) ∈ R2 : g( x, y) = 0}
Più precisamente è necessario rendersi conto che G può essere rap-
presentato localmente mediante il grafico di una funzione ϕ.
Per chiarire il concetto consideriamo un semplice esempio.
Sia
g( x, y) = x2 + y2 − 1
ovviamente g ∈ C 1 ed inoltre

∇( x, y) = (2x, 2y) 6= (0, 0)


per ognuno dei punti tali che

g( x, y) = 0

È ben noto che l’equazione

g( x, y) = x2 + y2 − 1 = 0

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 19

identifica una circonferenza di raggio unitario centrata in (0, 0).


Per illustrare la possibilità di rappresentare la circonferenza local-
mente in un punto P0 mediante una funzione ϕ possiamo considerare
i seguenti casi

• se P0 = (0, 1) possiamo rappresentare la circonferenza mediante la


funzione p
y = 1 − x2

• se P0 = (0, −1) possiamo rappresentare la circonferenza mediante


la funzione p
y = − 1 − x2

• se P0 = (1, 0) possiamo rappresentare la circonferenza mediante la


funzione q
x = 1 − y2

• se P0 = ( √1 , √1 ) possiamo rappresentare la circonferenza sia me-


2 2
diante la funzione p
y = 1 − x2

sia mediante la funzione


q
x= 1 − y2

• se P0 = (− √1 , √1 ) possiamo rappresentare la circonferenza sia


2 2
mediante la funzione p
y = 1 − x2

sia mediante la funzione


q
x=− 1 − y2

In generale non è, tuttavia, possibile trovare esplicitamente la fun-


zione ϕ, come abbiamo fatto nell’esempio appena visto, tuttavia è per
taluni scopi sufficiente sapere che questa funzione esiste.
A questo proposito si può dimostrare che

Teorema 1.8 - delle funzioni implicite di U. Dini - Se g è sufficientemente


regolare (g ∈ C 1 , ∇ g( x, y) 6= (0, 0)) l’insieme

{( x, y) ∈ R2 , : g( x, y) = 0}

può essere rappresentato localmente, (cioè in un intorno di ogni suo punto),


come grafico di una funzione

y = ϕ( x )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


20 o.caligaris - p.oliva

1.6.2 il principio dei moltiplicatori di Lagrange.


Si può trovare una condizione necessaria affinchè un punto P0 sia di
minimo o di massimo per f vincolato a g = 0; possiamo enunciare tale
condizione come segue
Teorema 1.9 - dei moltiplicatori di Lagrange- Se f , g ∈ C 1 , ∇ f ( P0 ) 6=
(0, 0) e P0 = ( x0 , y0 ) è un punto di minimo o di massimo per f vincolato a
g( x, y) = 0, allora
∇ f ( P0 ) k ∇ g( P0 )
o equivalentemente esiste λ ∈ R tale che
∇ f ( P0 ) = λ∇ g( P0 )
Se infatti ∇ f ( P0 ) e ∇ g( P0 ) non fossero paralleli, tenendo conto
del fatto che ∇ f ( P0 ) è ortogonale alla curva definita da f ( x, y) =
f ( x0 , y0 ) mentre ∇ g( P0 ) è ortogonale alla curva definita da g( x, y) = 0
Figura 1.9: Principio dei moltiplicatori di
Lagrange
avremmo una situazione simile a quella illustrata nella figura 1.9.
Dalla figura si vede che ci sarebbero punti soddisfacenti l’equazione
g( x, y) = 0 tali che f ( x, y) > f ( x0 , y0 ) ed anche punti tali che f ( x, y) <
f ( x0 , y0 ).
Ciò escluderebbe che P0 sia un punto di minimo o di massimo di f
vincolato a g = 0
Possiamo dimostrare con maggior precisione il risultato come se-
gue.
Siano f , g : A → R, P0 = ( x0 , y0 ) ∈ A ⊂ R2 , A aperto, f , g ∈ C 1 ( A),
e supponiamo che g( x0 , y0 ) = 0. Supponiamo inoltre che ∇ g( x0 , y0 ) 6=
0, il che significa, a meno di cambiare il nome delle variabili, che si
può supporre gy ( x0 , y0 ) 6= 0; allora si può dimostrare che esiste una
funzione ϕ definita in un intorno di x0 che assume valori in un intorno
di y0 e per la quale si ha
g( x, ϕ( x )) = 0
Pertanto la funzione f ( x, φ( x )) ammette in x0 un punto di minimo
relativo se e solo se P0 = ( x0 , y0 ) è un punto di minimo per f vincolato
a g = 0.
Di conseguenza, se P0 = ( x0 , y0 ) è un minimo relativo per f vinco-
lato a g = 0 si ha
d
f ( x, ϕ( x )) = f x ( x0 , y0 ) + f y ( x0 , y0 ) ϕ0 ( x0 ) = 0
dx
ed anche
g x ( x0 , y0 ) + gy ( x0 , y0 ) ϕ 0 ( x0 ) = 0
e la coppia (1, ϕ0 ( x0 )) è soluzione non banale del sistema algebrico
lineare omogeneo la cui matrice dei coefficienti è data da
!
∇ f ( x0 , y0 )
∇ g ( x0 , y0 )

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 21

Ne segue che esistono α, β ∈ R non entrambi nulli, tali che

α ∇ f ( x0 , y0 ) + β ∇ g ( x0 , y0 ) = 0

e, dal momento che ∇ g( x0 , y0 ) 6= 0, ne viene che deve essere α 6= 0.


Possiamo pertanto affermare, a meno di dividere per α, che esiste λ
tale che
∇ f ( x0 , y0 ) + λ ∇ g ( x0 , y0 ) = 0
Viceversa, posto
h( x ) = f ( x, ϕ( x ))

se h0 ( x0 ) = 0 e h”( x0 ) > 0, ( x0 , y0 ) è un punto di minimo relativo per


f vincolato a g = 0.
Concludiamo osservando un semplice fatto, spesso utile quando si
trattano problemi di programmazione lineare.

Teorema 1.10 Sia f : A −→ R, A ⊂ R2 convesso, chiuso e limitato, f


convessa e continua; allora il massimo di f in A è assunto anche in punti che
sono sulla frontiera di A

Dimostrazione. Sia

f ( P) = max{ f ( Q) : Q ∈ A}

allora, se P è interno ad A, detti Q, R ∈ A gli estremi del segmento


ottenuto intersecando A con una qualunque retta passante per P, si ha

P = λQ + (1 − λ) R

e
f ( P) ≤ λ f ( Q) + (1 − λ) f ( R) ≤ max{ f ( Q), f ( R)}
2
Osservazione. Nel caso in cui A sia poliedrale, cioè se

A = { P ∈ R2 : gi ( P) ≤ 0, gi lineare, i = 1, .., m }

il massimo si può cercare solo tra i vertici della frontiera. 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


2. Penalizzazione e moltiplicatori di
Lagrange.

In questo capitolo consideriamo un caso semplice per illustrare il me-


todo di penalizzazione per i problemi di minimo o massimo vincolati.
mediante il quale otteniamo una formulazione del teorema dei mol-
tiplicatori di Lagrange Il metodo consente di ridurre un problema di
minimo vincolato ad un problema di minimo libero e verrà considerato
nel caso generale più avanti.

Teorema 2.1 Siano f , g, h, k : A −→ R, A ⊂ Rn , f , g, h, k ∈ C 1 ( A) , Sia


x0 ∈ A e sia δ > 0

S( x0 , δ) = { x ∈ Rn : || x − x0 || ≤ δ}

Definiamo

Ω( x0 , δ) = { x ∈ A : g( x ) = 0, h( x ) ≤ 0, k ( x ) ≤ 0} ∩ S( x0 , δ)

Supponiamo inoltre che



h( x ) = 0
0
 k ( x0 ) < 0

e definiamo φ = ( g, h).
Supponiamo che x0 ∈ intA sia un punto di minimo relativo per f sotto i
vincoli g, h, k, supponiamo cioè che esista δ > 0 tale che

x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , d ).

Allora esistono µ, λ, ξ, η ∈ R , non tutti nulli tali che




 µ ∇ f ( x0 ) + λ ∇ g ( x0 ) + η ∇ h ( x0 ) + ξ ∇ k ( x0 ) = 0



µ ≥ 0

 ξ=0



η ≥ 0

Se di più ∇φ( x0 ) ha caratteristica massima, si ha µ 6= 0 e si può supporre


µ = 1.
24 o.caligaris - p.oliva

Dimostrazione. Definiamo

h+ ( x ) = max { h( x ), 0) , k+ ( x ) = max {k( x ), 0)

Φ( x ) = (h+ ( x ))2 + (k+ ( x ))2 + ( g( x ))2

e
Fn ( x ) = f ( x ) + k x − x0 k2 + nΦ( x ).

Sia δ > 0 tale che

x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , δ ).

Fn ammette minimo assoluto su S( x0 , δ); supporremo tale minimo


assunto nel punto xn ∈ S( x0 , δ).
E’ intanto ovvio che, a meno di considerare una estratta, xn → x̂;
proviamo di più che x̂ = x0 .
Posto
m = min{ f ( x ) : x ∈ S( x0 , δ)}

si ha

m + nΦ( xn ) ≤ f ( xn ) + nΦ( xn ) ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )

e
f ( x0 ) − m
0 ≤ Φ( xn ) ≤ .
n
Pertanto

0 = lim Φ( xn ) = Φ( x̂ ) e x̂ ∈ Ω( x0 , δ).

Perciò si ha

f ( xn ) + k xn − x0 k2 ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )

e
f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 ).

Ricordando che x̂ ∈ Ω( x0 , δ) si ha

f ( x0 ) + k x̂ − x0 k2 ≤ f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 )

e
k x̂ − x0 k2 ≤ 0

da cui
x̂ = x0 .

Poichè, se n è sufficientemente grande, xn è interno a S( x0 , δ) il


gradiente di Φ si annulla in xn e si ha che

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 25

∇ f ( xn ) + 2( xn − x0 )+
+ 2nh+ ( xn )∇h( xn ) + 2nk+ ( xn )∇k( xn ) + 2ng( xn )∇ g( xn ) = 0.

Pertanto, posto

Ln = (1, 2nh+ ( xn ), 2nk+ ( xn ), 2ng( xn )))

e
Mn = L n / k L n k ,
si ha
k Mn k = 1.
Indichiamo
Mn = ( µ n , η n , ξ n , λ n )
essendo µn , ηn , ξ n , λn non tutti nulli.
Inoltre, dal momento che xn → x0 e k( x0 ) < 0, si ha

ξ n = 2nk+ ( xn ) = 0

per n sufficientemente grande.


Si può allora affermare che

µn (∇ f ( xn ) + 2( xn − x0 )) + λn ∇ g( xn ) + ηn ∇h( xn ) + ξ n ∇k ( xn ) = 0

con
µn , λn , ηn ≥ 0, ξ n = 0.
Poiché k Mn k = 1 si può supporre, a meno di una estratta,

µ n → µ , λ n → λ , ηn → η , ξ n → ξ e k(µ, λ, η, ξ )k = 1

onde µ, λ, η, ξ non sono tutti nulli, ξ = 0 e η ≥ 0


Passando al limite si ottiene

µ ∇ f ( x0 ) + λ ∇ g ( x0 ) + η ∇ h ( x0 ) + ξ ∇ k ( x0 ) = 0

Infine, poiché ξ = 0 si ha , se fosse µ = 0 il sistema

λ ∇ g ( x0 ) + η ∇ h ( x0 ) = 0

ammetterebbe la soluzione non banale (µ, λ, η ), (k(µ, λ, η, 0)k = 1) e


perciò la caratteristica di ∇φ( x0 ) = (∇ g( x0 ), ∇h( x0 )) non potrebbe
essere massima. 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


3. Integrazione Per Le Funzioni Di
Due Variabili.

3.1 Definizione di integrale doppio.

Se f è una funzione di 2 variabili positiva e se R = [ a, b] × [c, d] è un


rettangolo contenuto nel suo dominio, possiamo considerare il proble-
ma di calcolare il volume V delimitato dal piano ( x, y) dal grafico di f
e dal cilindro generato da R con generatrici parallele all’asse z (si veda
la figura ??).
Il volume può essere definito
Figura 3.1: .
• considerando una partizione di R,

• definendo in corrispondenza le somme superiori e le somme infe-


riori di f relative alla partizione scelta,

• dichiarando una funzione integrabile se, al variare delle partizioni,


l’estremo inferiore delle somme superiori e l’estremo superiore delle
somme inferiori coincidono,

• in tal caso chiamiamo il loro valore comune


ZZ
f ( x, y)dxdy
Figura 3.2: .
R

L’esistenza dell’integrale è assicurata, similmente a quanto accade


per le funzioni di una variabile, dalla continuità della funzione inte-
granda, e si può anche dimostrare che è sufficiente che f sia conti-
nua su R a meno di un insieme si area 0. Possiamo in altre parole
dimostrare il seguente risultato.
Se f è una funzione di due variabili limitata su un insieme chiuso e
limitato D ed è continua a meno di un sottoinsieme di misura 0, allora
f è integrabile su D
(Pur non entrando nei particolari della definizione di area, possiamo
ricordare che è possibile calcolare l’area di insiemi piani significativi
usando la teoria dell’integrazione per le funzioni di una variabile) Figura 3.3: .
28 o.caligaris - p.oliva

Quando una funzione è integrabile possiamo approssimare il suo


integrale su R anche usando le somme di Riemann; tali somme pos-
sono anche essere usate per dare la definizione di integrabilità e si
calcolano come segue:

• Si suddivide il rettangolo R in rettangoli più piccoli R j , ad esempio


ottenuti suddividendo i lati di R in parti uguali di ampiezza δx e δy ,
Figura 3.4: . rispettivamente (figura 3.6);

• si sceglie in maniera arbitraria un punto (ξ j , η j ) in ognuno dei ret-


tangoli R j e si calcola la quota f (ξ j , η j ) (figura ??)

• si sostituisce al volume delimitato su R j dalla funzione f il volume


del parallelepipedo di base R j ed altezza f (ξ j , η j ) (figura ??)

• si calcola la somma di tutti i contributi così ottenuti da ciascuno dei


rettangoli della partizione.

Le somme di Riemann sono così definite da


Figura 3.5:

R( f ) = ∑ f (ξ j , η j )δx δy (3.1)
j

e, quando la partizione è abbastanza fine, cioè suddivide R in rettan-


RR
goli R j abbastanza piccoli, R( f ) approssima il valore di f ( x, y)dxdy
R

Figura 3.6: Singolo elemento di volume


3.2 Formule di riduzione per gli integrali doppi.

Purtroppo non disponiamo, per il calcolo di un integrale doppio, di


uno strumento tanto potente quanto il teorema fondamentale del cal-
colo integrale; questo risultato si può infatti estendere anche al cal-
colo delle funzioni di più variabili, ma si colloca in un contesto più
generale: quello delle forme differenziali e del teorema di Stokes.
Occorre quindi cercare altre vie per il calcolo degli integrali doppi.
Se definiamo

S( x ) = {( x, y, z) ∈ R3 : a ≤ x ≤ b, 0 ≤ z ≤ f ( x, y)}

S( x ) rappresenta una sezione del volume V, si veda figura 3.7.


ed il calcolo integrale per le funzioni di una variabile consente di
calcolare la sua area A( x ) mediante la
Z b
Figura 3.7: S( x ) A( x ) = f ( x, y)dy
a
Possiamo considerare il volume V come la somma (infinita) dei vo-
lumi elementari A( x ) (che sono nulli) per x ∈ [ a, b]; naturalmente la
somma infinita si calcola integrando A( x ) su [ a, b] e quindi

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 29

ZZ Z b Z d 
f ( x, y)dxdy = f ( x, y)dy dx
a c
R

In maniera del tutto simile possiamo calcolare


ZZ Z d Z b 
f ( x, y)dxdy = f ( x, y)dx dy
c a
R

Il calcolo di un integrale doppio può quindi essere ridotto al calcolo


di due integrali semplici (formule di riduzione).
Il vincolo fin qui posto sul dominio di integrazione, (R è un rettan-
golo) non può tuttavia essere mantenuto e quindi è necessario definire
ZZ
f ( x, y)dxdy
A
Figura 3.8: Dominio normale rispetto
all’asse x
per una classe di sottoinsiemi del piano un po’ più generale.
È naturale considerare per questo scopo la classe dei domini nor-
mali
Diciamo che un insieme D è un dominio normale rispetto all’asse x
se
D = {( x, y) ∈ R2 : a ≤ x ≤ b, α( x ) ≤ y ≤ β( x )}

dove [ a, b] è un intervallo reale e α e β sono funzioni continue su [ a, b].


(Si veda la figura 3.8).
Diciamo che un insieme E è un dominio normale rispetto all’asse y Figura 3.9: Dominio normale rispetto
all’asse y
se
E = {( x, y) ∈ R2 : c ≤ y ≤ d, γ( x ) ≤ x ≤ δ( x )}

dove [c, d] è un intervallo reale e γ e δ sono funzioni continue su [c, d].


(Si veda la figura 3.9).
Per definire, ad esempio,
ZZ
f ( x, y)dxdy
D

possiamo

• definire una funzione



 f ( x, y) se ( x, y) ∈ D
f˜( x, y) =
0 se ( x, y) ∈
/D

• considerare un rettangolo R ⊃ D

• definire ZZ ZZ
f ( x, y)dxdy = f˜( x, y)dxdy
D R

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


30 o.caligaris - p.oliva

Nel compiere questa procedura, possiamo osservare che, poichè si


può dimostrare che il grafico di una funzione continua ha area nulla
e poichè la definizione di f˜ può generare discontinuità solo nei punti
dei grafici di α e di β, se f è continua a meno di insiemi di area nulla
tale risulta anche f˜ e pertanto
Una funzione f continua a meno di un insieme di area nulla è
integrabile su un dominio normale D.
A completamento occorre poi osservare che

ZZ ZZ
f ( x, y)dxdy = f˜( x, y)dxdy
D R
Z b Z d  Z b
Z β( x )

= ˜f ( x, y)dy dx = f ( x, y)dy dx
a c a α( x )

ed in maniera del tutto simile

ZZ ZZ
f ( x, y)dxdy = f˜( x, y)dxdy
E R
Z d Z b  Z d
Z δ( x )

= ˜f ( x, y)dy dx = f ( x, y)dy dx
c a c γ( x )

Infine osserviamo che quanto abbiamo visto è applicabile ad insiemi


che siano unione finita di domini normali. Questo ci permette di con-
siderare la maggior parte degli insiemi che si incontrano nella pratica
del calcolo.

3.3 Cambiamento di variabili negli integrali doppi

3.3.1 Cambiamento di variabili lineari.


Consideriamo ora ora il problema di calcolare l’area di un parallelo-
grammo A che abbia come lati i vettori ( a, b) e (c, d).
Figura 3.10: Volume ed Area
Semplici considerazioni di geometria permettono di stabilire che
!
a b
Area ( A) = ad − bc = det
c d

ed inoltre, se teniamo conto del fatto che il volume del cilindro di


altezza 1 (figura ??) che ha per base il parallelogrammo è uguale ad
Area ( A), possiamo anche affermare che
ZZ ZZ
!
a b
Area ( A) = 1dxdy = det dudv
c d
A B

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 31

dove
B = {(u, v) : 0 ≤ u ≤ 1, 0 ≤ v ≤ 1} = [0, 1] × [0, 1]

ed osservare che il quadrato B = [0, 1] × [0, 1] si trasforma nel paralle-


logramma A mediante le corrispondenze
 ! ! !
 x = au + bv x a b u
cioè = (3.2)
y = cu + dv y c d v

Se supponiamo che !
a b
det 6= 0
c d
(a + c, b + d)
la corrispondenza è biunivoca e può essere invertita; sia c

 ! ! !
u = αx + βy u α β x b
cioè = (3.3)
v = γx + δy v γ δ y c (c, d)

la corrispondenza inversa.
Con riferimento alla definizione di integrale possiamo anche os- d
(a, b)

servare che una partizione del quadrato B in quadrati più piccoli Bj b


corrisponde ad una suddivisione del parallelogrammo A in parallelo-
grammi A j , simili, più piccoli (si veda la figura 3.12). a

Pertanto se f è una funzione definita su A, per calcolare Figura 3.11: Area del Parallelogramma
L’area del parallelogramma generato dai
ZZ
vettori ( a, b) e (c, d) puo essere calcolata
f ( x, y)dxdy mediante
A
 
a b
det = ad − bc
c d
possiamo calcolare le somme di Riemann usando la partizione di A in
Infatti come si vede dalla figura l’area
parallelogrammi, che risulta più naturale di una partizione in rettan- del parallelogramma ( in azzurro) risul-
goli; Le somme di Riemann in questo caso risultano essere ta uguale alla differenza tra le aree dei
! rettangoli di lato a, c (in basso a sinistra)
a b e di lato b, d in alto a destra; inoltre la
R( f ) = ∑ f ( x j , y j )Area ( A j ) = ∑ f ( x j , y j ) det Area ( Bj ) parte di parallelogramma non contenuta
j j c d nel rettangolo di lati a, c ha area uguale
alla somma delle aree dei triangoli trat-
Ma esiste un unico punto (u j , v j ) ∈ B tale che teggiati meno la somma delle aree dei
triangoli giallo e verde e della zona qua-
drettata (che è contenuta . in entrambi i
( x j , y j ) = ( au j + bv j , cu j + dv j ) triangoli tratteggiati)

per cui
!
a b
R( f ) = ∑ f ( au j + bv j , cu j + dv j ) det Area ( Bj )
j c d

Tali somme al raffinarsi della partizione si approssimano a


ZZ
!
a b Figura 3.12: Cambiamento di variabili
f ( au + bv, cu + dv) det dudv lineare
c d
B

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


32 o.caligaris - p.oliva

e quindi possiamo concludere che

ZZ ZZ
!
a b
f ( x, y)dxdy = f ( au + bv, cu + dv) det dudv
c d
A B

3.3.2 Coordinate Polari nel piano.


Possiamo usare in luogo di 3.2 anche altre trasformazioni; ad esempio
possiamo usare la trasformazione in coordinate polari che è definita
da:

 x = ρ cos θ
ρ ≥ 0, θ ∈ [0, 2π ] (3.4)
y = ρ sin θ

La 3.4 trasforma

• le rette ρ = R in circonferenze centrate nell’origine di raggio R

• le rette θ = α in semirette passanti per l’origine inclinate di un


angolo α rispetto al semiasse positivo dell’asse x.

• i settori di corona circolare nel piano ( x, y)


q
A = {( x, y) : r ≤ x2 + y2 ≤ R, α ≤ tan y/x ≤ β} =
{( x, y) : r ≤ ρ ≤ R, α ≤ θ ≤ β}

in rettangoli

B = {(ρ, θ ) : ρ ≤ R, α ≤ θ ≤ β} = [r, R] × [α, β]

nel piano (ρ, θ ). (Si veda la figura 3.13).

Purtroppo, la trasformazione definita dalle 3.4 non è biunivoca nè


invertibile ed inoltre se
Figura 3.13: Cambiamento di variabili in
coordinate polari

B1 = [ R − δr , R] × [α, β]

B2 = [ R, R + δr ] × [α, β]

l’immagine A1 di B1 ed A2 di B2 hanno aree diverse anche se B1 e


B2 hanno aree uguali.
Più precisamente si vede che se l’area di A1 è più piccola di quella
di A2 poichè A1 è più vicino all’origine di A2 .

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 33

Possiamo calcolare che:

Area ( B) = ( R − r )( β − α)
1 2 1
Area ( A) = ( R − r2 )( β − α) = ( R + r )Area ( B)
2 2
Pertanto non possiamo procedere, come nel caso di 3.2 in quan-
to il fattore di conversione per ottenere Area ( A) da Area ( B) non è
costante.
Possiamo tuttavia affermare che
ZZ
Area ( A) = 1dxdy (3.5)
A

e la 3.5 si può ottenere come somma di settori circolari più piccoli A j


delimitati da circonferenze di raggio ρ e ρ + δρ e aventi ampiezza δθ .
Se
Bj = [ρ, ρ + δρ ] × [θ, θ + δθ ]

l’area di ciascuno dei settori A j è data da

1 1
Area ( A j ) = (2ρ + δρ )δρ δθ = (2ρ + δρ )Area ( Bj )
2 2
ed inoltre se δρ è piccolo e trascurabile avremo che

1
Area ( A j ) ≈ 2ρArea ( Bj )
2
Poichè

Area ( A) = ∑ Area ( A j ) ≈ ∑ ρArea ( Bj )


j j

Possiamo affermare che


ZZ
Area ( A) = ρdρdθ
B

Se poi f è una funzione definita su A, possiamo affermare che


ZZ ZZ
f ( x, y)dxdy = f (ρ cos θ, ρ sin θ )ρdρdθ
A A

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


4. Integrazione Di Funzioni Di Tre
Variabili.

4.1 Definizione di integrale triplo.

Le formule di riduzione che abbiamo usato per il calcolo di un inte-


grale doppio consentono di ricondurre il problema al calcolo di due
integrali semplici.
In modo del tutto simile possiamo trovare il modo di calcolare
un integrale triplo, cioè l’integrale di una funzione f di tre variabili
( x, y, z) su un dominio V contenuto in R3
ZZZ
f ( x, y, z)dxdydz
V
Il concetto di area che è naturalmente collegato al concetto di in-
tegrale semplice e quello di volume che è caratteristico dell’integrale
doppio si estende al concetto di ipervolume a quattro dimensioni per
gli integrali tripli.
Inoltre, come nel caso di due variabili in cui abbiamo osservato che
ZZ
Area ( A) = 1dxdy = Volume (C A )
A
se C A è il cilindro di base A e di altezza 1, possiamo dire che
ZZ
Volume (V ) = 1dxdydz = IperVolume (CV )
V
dove CV è il cilindro di base V e di altezza 1.

4.2 Formule di riduzione per gli integrali tripli.

Per gli integrali tripli sono possibili diverse scomposizioni che danno
origine a diverse formule di riduzione che riteniamo utile illustrare
mediante qualche esempio.
Ci occuperemo allo scopo di calcolare
ZZZ
f ( x, y, z)dxdydz
V
36 o.caligaris - p.oliva

dove q
V = {( x, y, z) ∈ R3 : x2 + y2 ≤ z ≤ 2 − x 2 + y2 } (4.1)
La parte di R3 definita dalla 4.1 è quella indicata nella figura ?? ??
Possiamo integrare su V "sommando", cioè integrando rispetto a z,
i valori ottenuti mediante il calcolo dell’integrale doppio sulle sezioni
di V definite da
S(z) = {( x, y) : ( x, y, z) ∈ V }
Avremo pertanto che
 
ZZZ Z 2 ZZ
 
Figura 4.1: . f ( x, y, z)dxdydz =  f ( x, y, z)dxdy dz
0
V S(z)

e gli integrali indicati si calcolano come già sappiamo.


Possiamo anche calcolare l’integrale triplo considerando la proie-
zione D del solido V e calcolando
Z 2− √ x 2 + y2
Z Z Z  ZZ
!
f ( x, y, z)dx, dy dz = f ( x, y, z)dx, dy dz
F ( x,y) x 2 + y2
D D

4.3 Cambiamento di variabili per gli integrali tripli.

Anche per gli integrali tripli è utile considerare qualche cambiamento


di variabile allo scopo di semplificare i calcoli nel caso di solidi con
particolari simmetrie.
I cambiamenti di variabile più comuni sono quello lineare, quel-
lo in coordinate cilindriche e quello in coordinate sferiche, che ora
illustriamo brevemente.

4.3.1 Cambio di variabili lineare.


Figura 4.2: .
Si tratta del cambiamento di variabili definito dalle


 x = a1 r + b1 s + c1 t

y = a1 r + b2 s + c2 t



z = a3 r + b3 s + c3 t
Se A ⊂ R3 e se B è il trasformato di A mediante il cambiamento di
variabili lineari si ha

ZZZ
f ( x, y, z)dxdydz =
A
ZZZ
∂( x, y, z)

f ( a1 r + b1 s + c1 t, a2 r + b2 s + c2 t, a3 r + b3 s + c3 t) drdsdt
Figura 4.3: .
∂(r, s, t)
B

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 37

dove
 
a1 b1 c1
∂( x, y, z)
= det 
 a2 b2

c2 
∂(r, s, t)
a3 b3 s c3

4.3.2 Coordinate cilindriche.


Si tratta del cambiamento di variabili definito dalle


 x = ρ cos θ

y = ρ sin θ ρ≥0 0 ≤ θ ≤ 2π ,z ∈ R



z=z

Se A ⊂ R3 e se B è il trasformato di A mediante il cambiamento di


variabili in coordinate cilindriche si ha
ZZZ ZZZ
f ( x, y, z)dxdydz = f (ρ cos θ, ρ sin θ, z)ρdρdθdz
A B

4.3.3 Coordinate sferiche.


Si tratta del cambiamento di variabili definito dalle



 x = ρ cos θ cos ϕ

y = ρ sin θ cos ϕ ρ≥0 0 ≤ θ ≤ 2π − π/2 ≤ ϕ ≤ π/2



z = ρ sin ϕ

Se A ⊂ R3 e se B è il trasformato di A mediante il cambiamento di


variabili in coordinate sferiche si ha

ZZZ
f ( x, y, z)dxdydz =
A
ZZZ
f (ρ cos θ cos ϕ, ρ sin θ cos ϕ, ρ sin ϕ)ρ cos ϕdρdθdϕ
B

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


5. Integrali Multipli Impropri

Come nel caso degli integrali semplici, possiamo considerare il proble-


ma di calcolare l’integrale di una funzione di due o più variabili che
non siano limitate o su domini di integrazione non limitati.
Qui illustriamo l’argomento con qualche esempio che è significativo
anche per il seguito e che fornisce un utile strumento per affrontare,
se necessario anche gli altri casi.
Consideriamo pertanto una funzione f definita su R2 limitata ed in-
tegrabile su ogni insieme limitato e chiuso di R2 (ad esempio continua)
e sia D ⊂ R2 un sottoinsieme non limitato di R2 .
In tali condizioni non è lecito definire
ZZ
f ( x, y)dxdy
D

in senso proprio, tuttavia possiamo procedere come segue:


Innanzi tutto assicuriamoci di poter lavorare con una funzione sem-
pre positiva; se f ≥ 0 nulla è da fare ma se così non è basta definire

f + ( x, y) = max{ f ( x, y), 0} e f − ( x, y) = min{ f ( x, y), 0}

osservare che
f = f+ + f−

e calcolare
ZZ ZZ ZZ
f ( x, y)dxdy = f + ( x, y)dxdy + f − ( x, y)dxdy
D D+ D−

dove

D+ = {( x, y) ∈ D : f ( x, y) ≥ 0} , D− = {( x, y) ∈ D : f ( x, y) ≤ 0}

e chiedere che entrambi gli integrali a secondo membro esistano e non


diano luogo ad una forma indeterminata.
Supponiamo quindi che f ≥ 0 e consideriamo una successione di
insiemi Dn soddisfacente le seguenti condizioni:

• Dn è chiuso e limitato
40 o.caligaris - p.oliva

• Dn + 1 ⊃ Dn

• per ogni insieme limitato e chiuso K contenuto in D si può trovare


un Dn̄ tale che Dn̄ ⊃ K

È evidente che le condizioni sopra elencate esprimono il concetto


che la successione di domini Dn riempie, invade, l’insieme D ed infatti
una successione che soddisfa tali condizioni si chiama successione di
domini invadenti D.

Definizione 5.1 Se f ≥ 0 e se Dn è una successione di domini invadenti D


allora definiamo
ZZ ZZ
f ( x, y)dxdy = lim f ( x, y)dxdy
D n Dn

Si può dimostrare che, qualora il limite esista, è indipendente dalla


successione di domini invadenti usata.

5.1 Qualche esempio

Consideriamo il problema di calcolare


ZZ
2 + y2 ) /2
e−( x dxdy
R2

Definiamo

Dn = {( x, y) ∈ R2 : x2 + y2 ≤ n2 }

allora Dn è una successione di domini invadenti R2 e quindi

ZZ ZZ
2 + y2 ) /2 2 + y2 ) /2
e−( x dxdy = lim e−( x dxdy =
R2 n Dn
Z 2π Z n
2 ) /2
= lim (
dρ)dθ = ρe−(ρ
n 0 0
Z n
n

−(ρ2 )/2 −(ρ2 )/2 2
= lim 2π ρe dρ = 2π lim −e = 2π lim 1 − e−(n )/2 = 2π
n 0 n n
0

Il risultato appena ricavato ha una conseguenza interessante, infatti,


poichè il valore dell’integrale non dipende dalla successione di domini
invadenti usata, possiamo rifare il calcolo anche usando la successione
definita da
Qn = [−n, n] × [−n, n]

ed otterremo lo stesso risultato.


Avremo

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 41

ZZ ZZ
2 + y2 ) /2 2 + y2 ) /2
2π = e−( x dxdy = lim e−( x dxdy =
R2 n Qn
Z n Z n
2 ) /2 2 ) /2
= lim ( e−( x e−(y dx )dy =
n −n −n
Z n Z n Z n Z +∞
2 ) /2 2 ) /2 2 ) /2 2 ) /2
= lim( e−(y dy)( e−( x dx ) = lim( e−(t dt)2 = ( e−(t dt)2
n −n −n n −n −∞

e possiamo affermare che


Z +∞ √
2 ) /2
e−(t dt = 2π
−∞
e che
Z +∞
1 2 ) /2
√ e−(t dt = 1
2π −∞

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


6. Spazi Euclidei N-Dimensionali.

Per lo studio delle funzioni di più variabili reali occorre aver presenti
alcune proprietà degli spazi euclidei ad n dimensioni.
È inoltre indispensabile conoscere qualche proprietà delle applica-
zioni lineari in Rn e delle forme bilineari e quadratiche.

6.1 Norma e Prodotto scalare

Definizione 6.1 Indichiamo con Rn lo spazio vettoriale costituito dalle n −


ple ordinate di numeri reali; in altre parole

x ∈ Rn ⇔ x = ( x1 , x2 , ...., xn ) con xk ∈ R.

In Rn si definiscono le operazioni di somma e di prodotto per uno


scalare mediante le

x + y = ( x1 + y1 , x2 + y2 , ...., xn + yn ) , x, y ∈ Rn

e
αx = (αx1 , αx2 , ...., αxn ) , α ∈ R , x ∈ Rn .
L’insieme dei vettori

e1 = (1, 0, 0, ...., 0)
e2 = (0, 1, 0, ...., 0)
............
en = (0, 0, 0, ...., 1)

costituisce una base di Rn ; si avrà pertanto che, se x ∈ Rn


n
x= ∑ x i ei .
i =1

Definizione 6.2 Si definisce norma in Rn una funzione che si indica con

k · k : Rn → R

che verifica le seguenti proprietà:


44 o.caligaris - p.oliva

1. k x k ≥ 0 ∀ x ∈ Rn

2. k x k = 0 ⇔ x = 0

3. kαx k = |α|k x k ∀ α ∈ R , ∀ x ∈ Rn

4. k x + yk ≤ k x k + kyk ∀ x, y ∈ Rn .

Definizione 6.3 Si definisce prodotto scalare in Rn una funzione

h·, ·i : Rn × Rn −→ R

tale che

1. h x, x i ≥ 0 ∀ x ∈ Rn

2. h x, yi = hy, x i ∀ x, y ∈ Rn

3. h x, x i = 0 ⇔ x=0

4. hαx + βy, zi = αh x, zi + βhy, zi ∀ x, y, z ∈ Rn , ∀α, β ∈ R.

Come nel caso del valore assoluto per i numeri reali, si ha

|k x k − kyk| ≤ k x − yk

Lemma 6.1 Siano x, y ∈ Rn , allora se 1/p + 1/q = 1 , p, q ≥ 1 ,

| ∑ xi yi | ≤ ∑ | xi ||yi | ≤ (∑ | xi | p )1/p (∑ |yi |q )1/q

(Disuguaglianza di Schwarz-Holder)

(∑ | xi + yi | p )1/p ≤ (∑ | xi | p )1/p + (∑ |yi | p )1/p


(Disuguaglianza di Minkowski).

Dimostrazione. Intanto è ovvio che

| ∑ xi yi | ≤ ∑ | xi ||yi |.

Dal momento che la funzione ξ → ξ p è convessa su R¯+ , si ha


 p p
∑ λi ξ i ∑ λi ξ i
≤ ∀ λi ≥ 0 , ∀ ξ i ≥ 0
∑ λi ∑ λi
e
∑ λi ξ i ≤ (∑ λi )( p−1)/p (∑ λi ξ i )1/p .
p

Ora, posto
p
λi = |yi | p/( p−1) e λi ξ i = | xi | p ,

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 45

si ha
p −1 p
( λi ξ i ) p = λi λi ξ i = | xi | p | yi | p
e
λi ξ i = | xi ||yi |.
Da cui

∑ |xi ||yi | ≤ (∑ | xi | p )1/p (∑ |yi | p/( p−1) )( p−1)/p

e si può concludere la disuguaglianza di Holder tenendo conto che


p/( p − 1) = q . Per quanto riguarda la disuguaglianza di Minkowski

si ha
∑ |xi + yi | p = ∑ |xi + yi ||xi + yi | p−1 ≤

≤ ∑ |xi ||xi + yi | p−1 + ∑ |yi ||xi + yi | p−1 .


Applicando la disuguaglianza di Holder ad entrambi gli addendi
dell’ultimo membro si ha

∑ |xi + yi | p ≤ [(∑ |xi | p )1/p + (∑ |yi | p )1/p ](∑ |xi + yi |( p−1)q )1/q
e tenendo conto che ( p − 1)q = p si ha

(∑ | xi + yi | p )1−1/q ≤ (∑ | xi | p )1/p + (∑ |yi | p )1/p .

Si conclude tenendo conto che 1 − 1/q = 1/p . 2


La disuguaglianza di Holder si riduce alla più nota disuguaglianza
di Schwarz per p = q = 2.
Per p = q = 2 la disuguaglianza di Schwarz può essere riscritta
come
|h x, yi| ≤ k x kkyk
e può essere dedotta osservando che, ∀t ∈ R

0 ≤ k x + tyk2 = h x + ty, x + tyi = t2 kyk2 + 2th x, yi + k x k2

Ciò implica infatti

h x, yi2 − k x k2 kyk2 ≤ 0

La corrispondente disuguaglianza triangolare segue da

k x + yk2 = k x k2 + kyk2 + 2h x, yi ≤ k x k2 + kyk2 + 2k x kkyk

Osserviamo che
|h x, yi| = k x kkyk
se e solo se esiste t ∈ R tale che x + ty = 0, ovvero x e y sono paralleli.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


46 o.caligaris - p.oliva

Pertanto

k x k = sup{h x, yi : kyk ≤ 1} = max{|h x, yi| : kyk ≤ 1}.

Sono esempi di norme in Rn le seguenti


n
k x k p = ( ∑ | xi | p )1/p p≥1
k =1

k x k∞ = max {| xi | : i = 1, .., n }.
Mentre un esempio di prodotto scalare è dato da
n
h x, yi = ( ∑ xi yi
k =1

Ovviamente si ha h x, x i = k x k22 .
In Rn useremo abitualmente la k · k2 che è detta norma euclidea in
quanto k x k2 coincide con la distanza euclidea del vettore x dall’origi-
ne.
Nel seguito faremo riferimento, a meno di espliciti avvisi contrari,
a tale norma e scriveremo k · k in luogo di k · k2 .
Osserviamo altresì che il prodotto scalare sopra definito, pur non
essendo l’unico possibile, sarà l’unico da noi considerato.
Si vede subito che

h P1 , P2 i = | P1 || P2 | cos(θ2 − θ1 )
Infatti, facendo riferimento ad R2 e alla figura 9.1, si ha

h P1 , P2 i =
= x1 x2 + y1 y2 = | P1 || P2 | cos(θ2 ) cos(θ1 ) + | P1 || P2 | sin(θ2 ) sin(θ1 ) =
Figura 6.1: = | P1 || P2 | cos(θ2 − θ1 )

L’osservazione appena fatta giustifica il fatto che

Diciamo che due vettori x, y ∈ Rn sono ortogonali se h x, yi = 0.


Diciamo che sono paralleli se esiste λ ∈ R tale che x = λy. Se
x ed y sono paralleli h x, yi = k x kkyk

Se k · k a e k · kb sono due norme in Rn si dice che sono equivalenti


se esistono due costanti reali H e K tali che

H k x kb ≤ k x k a ≤ K k x kb .

Si può dimostrare che

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 47

Teorema 6.1 In Rn tutte le norme sono equivalenti.

Dimostrazione. Sia k · k a una norma in Rn ; si ha


n n
k x k a = k ∑ x i ei k a ≤ ∑ | xi |kei k a ≤ K k x k1
i =1 i =1

essendo
K = max{kei k a }.
Quindi la funzione k · k a è continua e, dal momento che

{ x ∈ Rn : k x k 1 = 1}

è compatto è lecito considerare

H = min{k x k a : k x k1 = 1};

si ha H > 0 e
kxka x
= ≥ H.
k x k1 k x k1 a
Pertanto, per ogni x ∈ Rn si ha

H k x k1 ≤ k x k a ≤ K k x k1

e tutte le norme in Rn sono equivalenti. 2


È anche interessante osservare che

Lemma 6.2 La funzione p −→ k x k p è decrescente ∀ x ∈ Rn e si ha

k x k∞ = lim k x k p = inf{k x k p : p ≥ 1 } ;
p

inoltre

(24.1) k x k∞ ≤ k x k p ≤ k x k1 ≤ nk x k∞ ≤ nk x kq ≤ nk x k1 ∀ p, q ≥ 1

e pertanto le norme k · k p sono tutte equivalenti.

Dimostrazione. Per provare che p −→ k x k p è decrescente sarà suffi-


ciente provare che
d
k x k p ≤ 0.
dp
Si ha
k x k p = (∑ | xi | p )1/p
e pertanto
 
d 1 1 ∑ | xi | p ln | xi |
kxk p = kxk p − ln ∑ | xi | p + =
dp p 2 p ∑ | xi | p
kxk p 
= p ∑ | xi | p ln | xi | − ∑ |xi | p ln ∑ |xi | p .
p2 ∑ | x i | p

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


48 o.caligaris - p.oliva

Ora
∑ |xi | p ln |xi | p − ∑ |xi | p ln ∑ |xi | p ≤ 0

in quanto ln | xi | p ≤ ln ∑ | xi | p .
Inoltre si ha
p
k x k∞ ≤ k x k p ≤ (nk x k∞ )1/p = n1/p k x k∞

e d’altra parte
lim n1/p = lim e(ln n)/p = 1.
p p

La (24.1) è immediata conseguenza di quanto visto. 2


Le notazioni vettoriali introdotte consentono di esprimere facilmen-
te condizioni che individuano rette piani e sfere.
Possiamo individuare i punti di una retta che passa per il punto
( x0 , y0 , z0 ) ed è parallela alla direzione ( a, b, c) semplicemente som-
mando ( x, y, z) con il vettore t( a, b, c) al variare di t ∈ R.
Otterremo in tal caso che

( x, y, z) = ( x0 , y0 , z0 ) + t( a, b, c)

che scritta componente per componente




 x = x0 + ta

y = y0 + tb



z = z0 + tc

fornisce le equazioni parametriche della retta.


Se t ∈ R+ avremo una delle due semirette in cui ( x0 , y0 , z0 ) divide
la retta intera, mentre se t ∈ [ a, b] ci limitiamo ad un segmento della
retta stessa.
Un piano passante per l’origine può essere individuato dai vettori
perpendicolari ad un vettore assegnato; l’equazione del piano si potrà
quindi scrivere come

h( x, y, z), ( a, b, c)i = 0

mentre il piano parallelo che passa per ( x0 , y0 , z0 ) è dato da

h( x − x0 , y − y0 , z − z0 ), ( a, b, c)i = 0

come abbiamo già visto una sfera può essere individuata come l’in-
sieme dei punti che hanno distanza dal centro ( x0 , y0 , z0 ) minore del
raggio R;
Una sfera sarà pertanto individuata dalla condizione

k( x − x0 , y − y0 , z − z0 )k ≤ R

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 49

6.2 Applicazioni Lineari

Definizione 6.4 Si chiama applicazione lineare una funzione

f : Rn → Rm

tale che

f (αx + βy) = α f ( x ) + β f (y) ∀ x, y ∈ Rn , ∀α, β ∈ R

L(Rn , Rm ) è l’insieme delle applicazioni lineari su Rn a valori in Rm . L(Rn , R)


si chiama anche spazio duale di Rn .

Gli elementi di L(Rn , Rm ) possono essere messi in corrispondenza


biunivoca con le matrici aventi m righe ed n colonne, Mm×n .
Più precisamente L(Rn , Rm ) ed Mm×n sono isomorfi in quanto
ogni applicazione lineare f può essere scritta nella forma

f ( x ) = Ax con A ∈ Mm×n .
e d’altro canto f ( x ) = Ax è lineare.
In particolare

Le applicazioni lineari da Rn in R sono tutte e sole quelle della


forma
f ( x ) = h x ∗ , x i con x ∗ ∈ Rn .

Definizione 6.5 Se f ∈ L(Rn , Rm ) definiamo norma di f , e la indichiamo


con k f k0 , la seguente

k f k0 = sup{k f ( x )k : k x k ≤ 1}.

In virtù del teorema 24.7 possiamo identificare f con la matrice A per

la quale risulta f ( x ) = Ax .
Pertanto possiamo anche definire

k Ak0 = sup{k Ax k : k x k ≤ 1}.

D’altro canto A ∈ Mm×n e può essere identificato come un elemen-


to di Rm×n . Si può pertanto definire

k Ak p = (∑ | aij | p )1/p p≥1


ij

e
k Ak∞ = max {| aij | : i = 1, .., m , j = 1, .., n }
esattamente come negli spazi euclidei.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


50 o.caligaris - p.oliva

Osserviamo subito che

k A k0 ≤ k A k2 = k A k

la disuguaglianza essendo stretta ad esempio se A = I .


Infatti, se denotiamo con Ai le righe della matrice A,

k Ax k2 = ∑ h Ai , x i2 ≤ ∑ k Ai k2 k x k2 = k Ak2 k x k2 .
i i

Teorema 6.2 Se A ∈ Mm×n si ha

k Ax k ≤ k Ak0 k x k ≤ k Akk x k.

Dimostrazione. Dalla definizione 24.9 si ottiene

k Ax/k x kk ≤ k Ak0

e la tesi. 2
Possiamo altresì provare che:

Teorema 6.3 Sia A ∈ Mm×n , allora

k Ak0 = sup{|h Ax, yi| : k x k ≤ 1 , kyk ≤ 1 }

ed inoltre, se A ∈ Mn×n = Mn è simmetrica

k Ak0 = sup{|h Ax, x i| : k x k ≤ 1 }.

Dimostrazione. La prima relazione segue dall’osservazione che pre-


cede la definizione 24.4.
Per quel che riguarda la seconda uguaglianza è ovvio che

k Ak0 ≥ sup{|h Ax, x i| : k x k ≤ 1, } = ν

ed inoltre, poiché

h A( x + y), x + yi − h A( x − y), x − yi = 4h Ax, yi

1
|h Ax, yi| ≤ (|h A( x + y), x + yi| + |h A( x − y), x − yi|) ≤
4
ν ν
≤ (k x + yk2 + k x − yk2 ) = (k x k2 + kyk2 )
4 2

onde
sup{|h Ax, yi| : k x k ≤ 1, kyk ≤ 1} ≤ ν.

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 51

Osserviamo inoltre che, se A è simmetrica, esiste una matrice P or-


togonale ed unitaria, (la cui inversa coincide pertanto con la trasposta)
tale che
A = P−1 EP
con E matrice diagonale avente come elementi della diagonale princi-
pale gli autovalori λi di A.
Allora

sup{h Ax, x i : k x k ≤ 1} = sup{h P−1 EPx, x i : k x k ≤ 1} =


= sup{h EPx, Px i : k x k ≤ 1} =
= sup{h Ey, yi : kyk ≤ 1} =
n
= sup{ ∑ λi y2i : kyk ≤ 1} =
i =1
= sup{Λkyk2 : kyk ≤ 1} = Λ

non appena si sia definito

Λ = max {λi : i = 1, 2, ..n} = λi0

e si sia tenuto conto del fatto che, in corrispondenza di y = ei0 , si ha


h Ey, yi = λi0 = Λ .

6.3 Forme Bilineari e Quadratiche

Definizione 6.6 Si chiama forma bilineare in Rn una funzione

f : Rn × Rn → R

tale che f (·, y) e f ( x, ·) siano funzioni lineari su Rn .

Le funzioni bilineari su Rn sono tutte e sole quelle definite da

f ( x, y) = h x, Ayi = h Bx, yi con A, B ∈ Mn

dove B è la matrice trasposta di A. (si ottiene da A scambiando le


righe con le colonne. Solitamente si denota B = A∗ ).

Definizione 6.7 Se f è una forma bilineare in Rn ; la funzione

g : Rn −→ R

definita da
g( x ) = f ( x, x )
si chiama forma quadratica in Rn .
Si può sempre trovare una matrice A ∈ Mn , non unica, tale che

g( x ) = h x, Ax i

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


52 o.caligaris - p.oliva

possiamo inoltre sempre scegliere A in modo che sia una matrice simmetri-
ca; in tal caso A si dice matrice associata alla forma quadratica e risulta
univocamente determinata.
Se g è una forma quadratica; g si dice semidefinita positiva (negativa) se

g( x ) ≥ 0 ( ≤ 0 ) ∀ x ∈ Rn

g si dice definita positiva (negativa) se

g( x ) > 0 ( < 0 ) ∀ x ∈ Rn { 0} .

Si possono provare i seguenti:

Teorema 6.4 Sia g una forma quadratica e sia A la matrice ad essa associata;
allora

• g è definita positiva se e solo se, detto Ak il minore principale di ordine k


di A , si ha
det Ak > 0 ∀k ;

• g è definita negativa se solo se

(−1)k det Ak > 0 ∀k.

Teorema 6.5 Sia g una forma quadratica e sia A la matrice ad essa associata;
allora

• g è definita positiva (negativa) se e solo se, detti λk i suoi autovalori, si ha

λk > 0 (< 0) ∀k ;

• g è semidefinita positiva (negativa) se e solo se

λk ≥ 0 (≤ 0) ∀k.

Il prodotto scalare in Rn

f ( x, y) = h x, yi

è il più semplice esempio di funzione bilineare; la forma quadratica

g( x ) = f ( x, x ) = h x, x i = k x k

si riduce alla norma euclidea in Rn La matrice di rappresentazione


della forma bilineare associata al prodotto scalare è la matrice identica.

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 53

6.4 Topologia di Rn

Definizione 6.8 Chiamiamo successione in Rn una applicazione

x : N −→ Rn

che ad ogni k ∈ N associa xk ∈ Rn .


Come nel caso reale chiamiamo estratta della successione xk una suc-
cessione xk h dove k h è una successione a valori nei naturali strettamente
crescente.
Diciamo che lim xk = x se lim k xk − x k = 0.

Chiaramente la definizione data è funzione della norma scelta ma


dà luogo agli stessi risultati qualora si considerino norme equivalenti.
Osserviamo che, dal momento che in Rn tutte le norme sono equi-
valenti, in effetti la definizione di convergenza di una successione non
dipende dalla norma scelta. (Si veda la definizione 24.4)
Si può provare facilmente che

Teorema 6.6 Sia xk una successione in Rn


• se xk è convergente allora ogni sua estratta è ancora convergente allo stesso
limite;

• se xk è convergente allora k xk k è limitata.

E’ anche immediato provare che

Teorema 6.7 Sia xk una successione in Rn tale che k xk k ≤ M , allora esiste


una successione xk h , estratta da xk , convergente.

Dimostrazione. Si ha |( xk )i | ≤ k xk k ≤ M, ∀i, e pertanto esiste una


estratta xk1 tale che ( xk1 )1 → x1 ; con una successiva estrazione si ha
( xk2 )2 → x2 e iterando il procedimento si può concludere osservando
che k xkn − x k1 →0. 2

Teorema 6.8 - criterio di convergenza di Cauchy - Sia xk una successione in


Rn , allora xk è convergente se e solo se

∀ε > 0 ∃k ε ∈ N : h, k > k ε ⇒ k xh − xk k < ε.


Dimostrazione. La necessità è ovvia conseguenza della disugua-
glianza triangolare della norma; per quel che riguarda la sufficienza
basta osservare che, se vale la condizione di Cauchy, xk è una suc-
cessione limitata e pertanto esiste una estratta xk h → x. Ora per k, h
sufficientemente grandi

k xk − x k ≤ k xk − xk h k + k xk h − x k < ε.
2
Diamo ora alcune definizioni che useremo sistematicamente nello
studio delle funzioni di più variabili.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


54 o.caligaris - p.oliva

Definizione 6.9 Sia x0 ∈ Rn , r > 0 , chiamiamo sfera aperta di centro x0 e


raggio r, l’insieme

S ( x 0 , r ) = { x ∈ Rn : k x − x0 k < r } .

Sia A ⊂ Rn , x0 ∈ A si dice interno ad A se esiste r > 0 tale che


S( x0 , r ) ⊂ A ; l’insieme dei punti di A che sono interni si indica con intA e
costituisce l’interno di A.
A ⊂ Rn si dice aperto se tutti i suoi punti sono interni, cioè se A = int A
.
A ⊂ Rn si dice chiuso se il suo complementare è aperto.
Diciamo che x0 è punto di frontiera per A ⊂ Rn se

∀ δ > 0 S ( x 0 , δ ) ∩ A 6 = ∅ e S ( x 0 , δ ) ∩ A c 6 = ∅.

Indicheremo con ∂A l’insieme dei punti di frontiera di A .


Definiamo chiusura di A l’insieme

cl A = { x ∈ Rn : ∃ xk ∈ A, xk → x }.

Valgono i seguenti fatti:

Se A ⊂ Rn allora cl A = ∂A ∪ A

Infatti è intanto ovvio che A ⊂ cl A, mentre se x ∈ ∂A si ha che


∀ε > 0 ∃ xε ∈ S( x, ε), xε ∈ A, e perciò si può trovare xn ∈ A tale che
k xn − x k < 1/n da cui x ∈ cl A .
Sia viceversa x ∈ clA , x 6∈ A ; allora esiste una successione xn ∈ A
, xn → x e quindi ∀ε > 0 x ∈ S( x, ε) ed xn̂ ∈ S( x, ε) se n̂ è scelto in
maniera opportuna.
Ma x 6∈ A mentre xn̂ ∈ A per cui x ∈ ∂A.

Sia A ⊂ Rn , f : cl A −→ R continua , allora

inf{ f ( x ) : x ∈ A} = inf{ f ( x ) : x ∈ cl A}

Sia infatti
λ = inf{ f ( x ) : x ∈ A}
si ha
f (x) ≥ λ ∀x ∈ A
∀ε > 0 ∃ xε ∈ A tale che f ( xε ) ≤ λ + ε.
Per la continuità di f si ha anche che

f ( x ) ≥ λ ∀ x ∈ cl A

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 55

e pertanto
λ = inf{ f ( x ) : x ∈ cl A}.

Sia A ⊂ Rn allora ∂A = cl A ∩ cl Ac

Sia x ∈ ∂A , ∀ε > 0 ∃ xε0 , x”ε ∈ S( x, ε) , xε0 ∈ A, x”ε ∈ Ac e pertanto si


possono trovare xn0 ∈ A, x”n ∈ Ac , xn0 , x”n → x.
Sia viceversa x ∈ cl A ∩ cl Ac , allora

x = lim xn0 = lim x”n , xn0 ∈ A , x”n ∈ Ac

e ∀ε > 0 ∃n1 , n2 tali che xn0 1 , x”n2 ∈ S( x, ε) e x ∈ ∂A.

Teorema 6.9 Sia A ⊂ Rn , allora A è aperto se e solo se ∀ x ∈ A, ∀ xk ,


xk → x, si ha xk ∈ A definitivamente; A è chiuso se e solo se ∀ xk ∈ A,
xk → x, si ha x ∈ A .

Dimostrazione. Sia A aperto e sia r > 0 tale che S( x, r ) ⊂ A ; allora


definitivamente k xk − x k < r e xk ∈ S( x, r ) ⊂ A.
Supponiamo viceversa che A non sia aperto, allora esiste x ∈ A tale
che ∀r > 0 ∃ xr ∈ S( x, r ) \ A; pertanto si può trovare una successione
xk ∈ S( x, 1/k ) \ A e si ha xk → x e ciò è assurdo.
Sia A chiuso e sia xk ∈ A, xk → x; se x ∈ Ac che è aperto, allora
xk ∈ Ac definitivamente e ciò non è possibile.
Supponiamo che A non sia chiuso, allora Ac non è aperto ed esiste
x ∈ Ac , xk → x, con xk 6∈ Ac . Pertanto esiste una successione xk → x,
xk ∈ A e x 6∈ A , assurdo. 2
Osserviamo che cl A è un insieme chiuso; infatti, se xk ∈ cl A,
xk → x, per ogni k esiste xkh ∈ A, xkh → xk ed è possibile trovare
h(k)
una successione h(k) tale che xk →x.
Ne segue che
A = cl A ⇔ A è chiuso.

Definizione 6.10 Un insieme A ⊂ Rn si dice

• limitato, se esiste r > 0 tale che A ⊂ S(0, r );

• convesso, se ∀ x, y ∈ A, ∀λ ∈ [0, 1], λx + (1 − λ)y ∈ A;

• compatto, se ∀ xk ∈ A, esiste un’estratta xk h → x ∈ A;

• connesso, se non esistono due insiemi aperti, A1 ,A2 tali che A1 ∩ A 6= ∅


, A2 ∩ A 6 = ∅ , A ∩ ( A1 ∩ A2 ) = ∅ , A ⊂ A1 ∪ A2 .

Teorema 6.10 Sia A ⊂ Rn , A è compatto se e solo se A è chiuso e limitato.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


56 o.caligaris - p.oliva

Dimostrazione. Se A è chiuso e limitato, presa una successione xk ∈


A si ha che xk è limitata e per il teorema 24.20 esiste xk h → x; x ∈ A
perché A è chiuso.
Sia viceversa A compatto, allora è chiuso ed inoltre è limitato, in
quanto se così non fosse, esisterebbe una successione xk ∈ A, con
k xk k → +∞, e dal momento che A è compatto esiste xk h → x ; pertanto
k xk h k è limitata e contemporaneamente k xk h k → +∞ , assurdo. 2

Lemma 6.3 In R gli insiemi connessi sono tutti e soli gli intervalli.

Dimostrazione. Supponiamo che I sia un intervallo non connesso,


allora esistono I1 , I2 ⊂ R aperti tali che I1 ∩ I 6= ∅ , I2 ∩ I 6= ∅ ,
I ∩ I1 ∩ I2 = ∅ e I ⊂ I1 ∪ I2 .
Se definiamo f : I −→ R tale che f ( x ) = 1 se x ∈ I ∩ I1 ed f ( x ) =
−1 se x ∈ I ∩ I2 , è immediato provare che f è continua e poiché f non
si annulla mai, I non può essere un intervallo (teor. 7.8).
Supponiamo viceversa che I sia connesso, se I non fosse un inter-
vallo esisterebbero due punti x, y ∈ I ed esisterebbe z ∈ ( x, y) e z 6∈ I e
ciò non è possibile in quanto si potrebbe allora scegliere I1 = (−∞, z)
e I2 = (z, +∞) ed I non sarebbe connesso. 2
Gli insiemi connessi ed aperti di Rn possono essere caratterizzati
facendo uso della nozione di connessione per spezzate poligonali, che
diamo qui di seguito.

Teorema 6.11 Sia A ⊂ Rn , A aperto, allora A è connesso se e solo se vale la


seguente condizione
∀ x, y ∈ A esiste una funzione continua, lineare a tratti (il cui grafico è
costituito da segmenti paralleli agli assi) φ : [ a, b] −→ A tale che φ( a) = x e
φ(b) = y.

Dimostrazione. La condizione è equivalente, per ogni x0 ∈ A alla


∀y ∈ A ∃φ : [ a, b] −→ A lineare a tratti tale che φ( a) = x0 e φ(b) = y
.
Cominciamo a vedere che se A è connesso allora quest’ultima vale.
Definiamo
A1 = {y ∈ A : (24.3) è soddisfatta}
A2 = A \ A1 .
Si ha A1 6= ∅ ( x0 ∈ A1 ), A1 ∩ A2 = ∅ ed inoltre A1 ed A2 sono
aperti. Infatti A1 è aperto in quanto preso y ∈ A1 , si ha y ∈ A ed esiste
r > 0 tale che S(y, r ) ⊂ A. Dal momento che ogni punto di S(y,r) può
essere congiunto con y mediante n segmenti paralleli agli assi e dal
momento che y ∈ A1 si ha S(y, r ) ⊂ A1 ed A1 è aperto.
A2 d’altro canto è aperto in quanto, se y ∈ A2 , y 6∈ A1 e se r > 0 è
tale che S(y, r ) ⊂ A si ha S(y, r ) ⊂ A2 (se cos ì non fosse si potrebbe
collegare y con x0 ).

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 57

Ne concludiamo, dal momento che A è connesso, che A1 = A e la


condizione richiesta.
Se viceversa la condizione è vera e A non è connesso, esistono A1
ed A2 aperti, non vuoti, disgiunti, la cui unione è A, e se x1 ∈ A1 ,
x2 ∈ A2 e φ : [ a, b] −→ A è lineare a tratti con φ( a) = x1 , φ(b) = x2 ,
si può definire

Ti = {t ∈ [ a, b] : φ(t) ∈ Ai } , i = 1, 2;

Ti è aperto, T1 ∩ T2 = ∅ , T1 ∪ T2 = [ a, b] e pertanto l’intervallo [a,b]


non sarebbe connesso. 2

Teorema 6.12 Sia A ⊂ Rn , A convesso, allora A è connesso.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


7. Le Funzioni Di PiÙ Variabili.

Questo capitolo è dedicato allo studio delle proprietà di continuità e


differenziabilità delle funzioni

f : Rn → Rm

con n, m ≥ 1,

Definizione 7.1 È data una funzione

f : Rn −→ Rm

se sono assegnati

• un insieme A ⊂ Rn

• una corrispondenza
x ∈ A 7 → f ( x ) ∈ Rm

che ad ogni x ∈ A associa uno ed un solo vettore f ( x ) ∈ Rm .

Si dice che A è il dominio di f e si scrive D ( f ) = A e, nel caso che


tale dominio non sia esplicitamente indicato, si suppone la corrispon-
denza f definita per tutti gli x ∈ Rn per cui è possibile considerare
f ( x ).
Si definisce rango di f

R( f ) = {y ∈ Rm : ∃ x ∈ A, y = f ( x )}

e grafico di f .

G ( f ) = {( x, y) ∈ Rn × Rm : y = f ( x )}

Restrizione e composizione di funzioni sono definite come nel ca-


so reale e parimenti simile è la definizione di iniettività, surgettività,
bigettività.
60 o.caligaris - p.oliva

7.1 Limiti

Lo studio dei limiti di una funzione di più può essere condotto sem-
plicemente ripercorrendo i risultati ottenuti nel caso di una funzione
reale di una variabile reale, avendo cura di puntualizzare solo qualche
particolare sui valori infiniti.

Quando n = 1, si estende R mediante due punti all’infinito


che vengono denominati +∞ e −∞, in quanto è ben chiaro che
due punti di R possono sempre essere confrontati nella relazione
d’ordine (R è totalmente ordinato). Se n > 1 cade la possibilità
di ordinare totalmente Rn e pertanto si preferisce estendere Rn ,
n > 1, con un solo punto all’infinito che viene denominato sem-
plicemente ∞. Ricordiamo che, anche se meno utile, questa possibilità
esiste anche in R

Definizione 7.2 Se n = 1 e x0 ∈ R ∪ {±∞}, definiamo, per ρ > 0



(ρ, +∞) se x = +∞


I ( x0 , ρ ) = ( x0 − ρ, x0 + ρ) se x ∈ R



(−∞, −ρ) se x = −∞

Definiamo inoltre I 0 ( x0 , ρ) = I ( x0 , ρ) \ { x0 }.
Se n > 1, x0 ∈ Rn ∪ {∞}, definiamo per ρ > 0


 { x ∈ Rn : k x k < ρ } = S ( x , ρ ) x0 ∈ Rn
0 0 0
I ( x0 , ρ ) =
 { x0 ∈ Rn : k x 0 k > ρ } x0 = ∞

anche qui poniamo I 0 ( x0 , ρ) = I ( x0 , ρ) \ { x0 }

Definizione 7.3 Sia A ⊂ Rn , si dice che x0 ∈ Rn ∪ {∞} è un punto di


accumulazione per A se ∀r > 0 I 0 ( x0 , r ) ∩ A 6= ∅.
Indichiamo con D( A) l’insieme dei punti di accumulazione di A.

Sia A ⊂ Rn , x0 ∈ Rn ∪ {∞}; x0 ∈ D( A) se e solo se ∃ xk ∈ A,


x k 6 = x0 , x k → x0 .

Definizione 7.4 Sia f : A → Rn , A ⊂ Rn e sia x0 ∈ D( A); diciamo che

lim f ( x ) = `
x → x0

se

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 61

∀ε > 0 ∃δ(ε) > 0 tale che se x ∈ I 0 ( x0 , δ(ε)) ∩ A si ha f ( x ) ∈ I (`, ε)

Si può facilmente provare che:

• ogni funzione che ammette limite finito è localmente limitata;

• il limite di una funzione, se esiste, è unico;

• se m = 1 vale il teorema della permanenza del segno;

• il limite di una somma è uguale alla somma dei limiti, ove


questi esistono finiti;

• il limite del prodotto di una funzione a valori reali per una


funzione a valori vettoriali è uguale al prodotto dei limiti, ove
questi esistono finiti;

• se m = 1 il limite del reciproco di una funzione è uguale al


reciproco del limite della funzione stessa, ammesso che non sia
nullo.

• se m = 1 valgono i risultati sul confronto dei limiti del tipo


considerato per le funzioni reali di una variabile;

• il limite di una funzione può essere caratterizzato per


successioni come per le funzioni di una variabile.

Ricordiamo anche l’enunciato che permette di calcolare il limite di


una funzione composta

Sia f : A −→ Rm , A ⊂ Rn , x0 ∈ D( A) e sia g : B −→ A,
B ⊂ R p , y0 ∈ D( B), g( B) ⊂ A; supponiamo che

lim f ( x ) = e lim g(y) = x0


x → x0 y → y0

Allora, se una delle due seguenti condizioni è verificata

• x0 6∈ dom f

• f ( x0 ) = `

si ha
lim f ( g(y)) = `.
y → y0

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


62 o.caligaris - p.oliva

7.2 Continuità

Definizione 7.5 Sia f : A −→ Rm , x0 ∈ A ⊂ Rn , diciamo che f è una


funzione continua in x0 se ∀ε > 0 ∃δ(ε) > 0 tale che
se x ∈ A, k x − x0 k < δ(ε) si ha k f ( x ) − f ( x0 )k < ε.
Nel caso in cui x0 ∈ A ∩ D( A), la condizione sopra espressa è equivalente
alla
lim f ( x ) = f ( x0 )
x → x0
f si dice continua in A se è continua in ogni punto di A.

Come nel caso delle funzioni reali di una variabile reale si prova
che:

• la somma di funzioni continue è continua;

• il prodotto di una funzione a valori vettoriali per una funzione


a valori scalari, entrambe continue, è continua;

• se m = 1, il reciproco di una funzione continua è continuo dove


ha senso definirlo;

• vale la caratterizzazione della continuità per successioni data,


nel caso reale;

• la composta di funzioni continue è una funzione continua.

• se limx→ x0 f ( x ) = λ e limx→ x0 g( x ) = µ, con λ, µ ∈ Rm si ha

lim h f ( x ), g( x )i = hλ, µi
x → x0

• In particolare la funzione h·, ·i : Rm × Rm → R è continua

Valgono per le funzioni continue i soliti teoremi

Teorema 7.1 -degli zeri - Sia f : A −→ R, A ⊂ Rn , A aperto e connesso


e supponiamo che f sia una funzione continua; allora se esistono x1 , x2 ∈ A
tali che f ( x1 ) f ( x2 ) < 0 esiste anche x0 ∈ A tale che f ( x0 ) = 0.

Dimostrazione. Poichè A è connesso è possibile congiungere x1


ed x2 con una linea spezzata costituita di segmenti paralleli agli assi
coordinati.
Siano x j gli estremi di ciascuno dei segmenti, nel caso in cui f ( x j ) =
Figura 7.1: Il teorema degli zeri
0 per qualche j, il teorema è dimostrato, in caso contrario esisteranno
xk , xk+1 tali che f ( xk ) f ( xk+1 ) < 0.
Allora la funzione [0, 1] 3 t 7→ ϕ(t) = f ( xk + t( xk+1 − xk ) ∈ R è
continua e si può applicare a ϕ il teorema degli zeri. 2

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 63

Teorema 7.2 - Weierstraß- Sia f : A −→ R una funzione continua e


supponiamo che A sia un insieme compatto; allora esistono x1 , x2 ∈ A tali
che
f ( x1 ) = min{ f ( x ) : x ∈ A}
f ( x2 ) = max{ f ( x ) : x ∈ A}

Dimostrazione. Sia, ad esempio λ = inf{ f ( x ) : x ∈ A}; allora esiste


una successione xk ∈ A tale che f ( xk ) → λ e, dal momento che A è
compatto, è possibile trovare una successione xk h → x1 ∈ A. Si ha
pertanto f ( xk h ) → λ e, per la continuità di f , f ( xk h ) → f ( x1 ). Ne
segue che λ = f ( x1 ) e la tesi. 2

Teorema 7.3 - Weiertsraß generalizzato - Sia f : Rn −→ R una funzio-


ne continua e supponiamo che esista x̂ ∈ Rn tale che

lim f ( x ) = ` > f ( x̂ )
x →∞

allora esiste x1 ∈ Rn tale che

f ( x1 ) = min{ f ( x ) : x ∈ Rn }

Dimostrazione. Sia

λ = inf{ f ( x ) : x ∈ Rn }

si ha
` > f ( x̂ ) ≥ λ
.
Sia poi δ > 0 tale che se k x k > δ si abbia f ( x ) ≥ ` − ε, con ε > 0.
Sia ancora xk ∈ Rn tale che f ( xk ) → λ.
Allora, per ε piccolo e per k abbastanza grande, si ha

f ( xk ) < λ + ε < ` − ε

e quindi k xk k ≤ δ.
Si può pertanto estrarre da xk una successione xk h tale che xk h → x1
e si può concludere utilizzando le stesse argomentazioni del teorema
precedente. 2

Definizione 7.6 Sia f : A −→ Rm , A ⊂ Rn ; f si dice uniformemente


continua in A se
∀ε > 0 ∃δ(ε) > 0 tale che se x, y ∈ A e k x − yk < δ(ε), si ha

k f ( x ) − f (y)k < ε.

Teorema 7.4 - Heine-Cantor - Sia f : A −→ Rm , A ⊂ Rn ; se f è una


funzione continua su A ed A è un insieme compatto allora f è uniformemente
continua su A.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


64 o.caligaris - p.oliva

Dimostrazione. Se f non fosse uniformemente continua in A ∃ε 0 > 0


ed ∃ xk , yk ∈ A tali che k xk − yk k < 1/k e k f ( xk ) − f (yk )k > ε 0 .
Dal momento che A è compatto, ∃ xk h estratta da xk , xk h → x ∈ A e
si ha
kyk h − x k ≤ kyk h − xk h k + k xk h − x k → 0
per cui yk h → x.
Ne viene che k f ( xk h ) − f (yk h )k → 0 e ciò è assurdo. 2

Corollario 7.1 Sia f : Rn → Rm , lineare; allora

• f è uniformemente continua su Rn ;

• f trasforma insiemi limitati di Rn in insiemi limitati di Rm .

7.3 Differenziabilità e Derivabilità

Definizione 7.7 - Sia f : A −→ Rm , A ⊂ Rn , A aperto, x0 ∈ A; diciamo


che f è differenziabile in x0 se esiste una applicazione lineare

L : Rn −→ Rm

tale che
k f ( x0 + h) − f ( x0 ) − L(h)k
lim =0
h →0 khk
L’applicazione lineare L si chiama differenziale di f in x0 e si indica
solitamente con d f ( x0 ).
La matrice che la rappresenta si chiama matrice jacobiana di f in x0 e verrà
indicata con ∇ f ( x0 ). Si ha perciò

L(h) = d f ( x0 )(h) = ∇ f ( x0 )h

Quando m = 1, ∇ f ( x0 ) si riduce ad un vettore di Rn e si indica


col nome di gradiente di f in x0 ; faremo uso del nome gradiente
anche se m > 1.

Osserviamo infine che ∇ f : A −→ Rm×n = Mm×n

Sia f : A −→ Rm , posto

k f ( x0 + h) − f ( x0 ) − d f ( x0 )(h)k
ω (h) =
khk
per la definizione di differenziabilità si ha

lim ω (h) = 0
h →0

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 65

per cui

f ( x0 + h) − f ( x0 ) − d f ( x0 )(h) = khkω (h)


Se viceversa vale l’uguaglianza precedente si può verificare che f è
differenziabile.
Naturalmente

k f ( x0 + h) − f ( x0 )k ≤ [ω (h) + kd f ( x0 )k] khk

e si ha
lim f ( x0 + h) = f ( x0 )
h →0
per cui

Ogni funzione differenziabile è continua.

Definizione 7.8 Sia f : A −→ R, A ⊂ Rn , A aperto, x0 ∈ A; diciamo che


f è parzialmente derivabile in x0 rispetto alla variabile xi se

f ( x0 + tei ) − f ( x0 )
lim
t →0 t
esiste finito.
In tal caso denotiamo il valore di tale limite con il simbolo
∂f
( x0 ) oppure con f xi ( x0 )
∂xi
e lo chiamiamo derivata parziale di f rispetto ad xi calcolata in x0 .
(Osserviamo che tei = (0, 0, .., t, .., 0, 0) ).
Se y ∈ Rn , diciamo che f è derivabile in x0 rispetto al vettore y se

f ( x0 + ty) − f ( x0 )
lim
t →0+ t
esiste finito.
In tal caso denotiamo il valore di tale limite con f 0 ( x0 , y).
E’ facile vedere che f è derivabile rispetto alla i-esima variabile se e solo se
f ( x0 , ei ) ed f 0 ( x0 , −ei ) esistono e
0

f 0 ( x o , ei ) = − f 0 ( x0 , − ei )

In tal caso si ha

f 0 ( x0 , ei ) = − f 0 ( x0 , − ei ) = f xi ( x0 ).

Teorema 7.5 Sia f : A −→ R, x0 ∈ A ⊂ Rn , A aperto e supponiamo che


f sia differenziabile in x0 ; allora f è derivabile in x0 lungo ogni direzione e si
ha
f 0 ( x0 , y) = d f ( x0 )(y) = h∇ f ( x0 ), yi

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


66 o.caligaris - p.oliva

Se ne deduce in particolare, scegliendo y = ei ed y = −ei che f è derivabile


in x0 rispetto ad xi e che

(∇ f ( x0 ))i = f xi ( x0 ).

Dimostrazione. Dal momento che f è differenziabile,

| f ( x0 + h) − f ( x0 ) − h∇ f ( x0 ), hi|
= ω (h)
khk
con limh→0 ω (h) = 0.
Per h = ty con t > 0 si ha

| f ( x0 + ty) − f ( x0 ) − h∇ f ( x0 ), tyi| = tkykω (ty)

e
f ( x0 + ty) − f ( x0 )
− h∇ f ( x0 ), yi = kykω (ty)
t
Quindi
f 0 ( x0 , y) = h∇ f ( x0 ), yi = d f ( x0 )(y).
Osserviamo che, se f è differenziabile in x0 , allora si ha

f 0 ( x0 , y ) = − f 0 ( x0 , − y )

e pertanto

f ( x0 + ty) − f ( x0 ) f ( x0 + ty) − f ( x0 )
lim = lim
t →0+ t t →0− t
2

Teorema 7.6 Sia f : A −→ Rm , x0 ∈ A ⊂ Rn , A aperto e sia f =


( f 1 , f 2 , ....., f m ) con f j : A −→ R, j = 1, 2, ..., m.
Allora f è differenziabile in x0 se e solo se f j è differenziabile in x0 per ogni
j = 1, 2, ..., m.
Inoltre si ha
 
∇ f 1 ( x0 ) ∇ f 2 ( x0 )
 · 
 
 
∇ f ( x0 ) =  · 
 
 · 
∇ f m ( x0 )

Dimostrazione. Sia f differenziabile in x0 ed indichiamo con

D1 , D2 , ..., Dm

le righe della matrice ∇ f ( x0 ), ovviamente risulterà D j ∈ Rn ed avremo


inoltre
∇ f ( x0 )h = (h D1 , hi, h D2 , hi, ..., h Dm , hi)

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 67

Si avrà allora
| f j ( x0 + h) − f j ( x0 ) − h D j , hi|
lim =0
h →0 khk
e pertanto f j è differenziabile in x0 e D j = ∇ f j ( x0 ).
Se viceversa si ha
| f j ( x0 + h) − f j ( x0 ) − h∇ f j ( x0 ), hi|
lim = 0,
h →0 khk
allora anche
k f ( x0 + h) − f ( x0 ) − Dhk
lim =0
h →0 khk
non appena si definisca
 
∇ f 1 ( x0 )
 
 ∇ f 2 ( x0 ) 
 
 · 
D= 


 · 
 
 · 
∇ f m ( x0 )
2
Dimostrazione.. Sia f differenziabile in x0 ed indichiamo con

D1 , D2 , ..., Dm

le righe della matrice ∇ f ( x0 ), ovviamente risulterà D j ∈ Rn ed avremo


inoltre
∇ f ( x0 )h = (h D1 , hi, h D2 , hi, ..., h Dm , hi)
Si avrà allora
| f j ( x0 + h) − f j ( x0 ) − h D j , hi|
lim =0
h →0 khk
e pertanto f j è differenziabile in x0 e D j = ∇ f j ( x0 ).
Se viceversa si ha
| f j ( x0 + h) − f j ( x0 ) − h∇ f j ( x0 ), hi|
lim = 0,
h →0 khk
allora anche
k f ( x0 + h) − f ( x0 ) − Dhk
lim =0
h →0 khk
non appena si definisca
 
∇ f 1 ( x0 )
 
∇ f 2 ( x0 )C 
 
 · 
D= 


 · 
 
 · 
∇ f m ( x0 )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


68 o.caligaris - p.oliva

Osserviamo che si è con ciò dimostrato che


 
f 1x1 ( x0 ) f 1x2 ( x0 ) ... f 1xn ( x0 )
 f (x ) f (x ) ... f 2xn ( x0 ) 
 
∇ f ( x0 ) =  2x1 0 2x2 0

 ... ... ... ... 
f mx1 ( x0 ) f mx2 ( x0 ) ... f mxn ( x0 )
2

Definizione 7.9 Sia f : A −→ R p , A ⊂ Rn × Rm , A aperto, e sia


( x0 , y0 ) ∈ A (con x0 ∈ Rn , y0 ∈ Rm ).
Definiamo
φx (y) = f ( x, y) per ogni f issato x,
e
ψy ( x ) = f ( x, y) per ogni f issato y.
Chiamiamo differenziale parziale di f rispetto ad y in ( x0 , y0 )

dy f ( x0 , y0 ) = dφx0 (y0 )

e differenziale parziale di f rispetto ad x in ( x0 , y0 )

d x f ( x0 , y0 ) = dψy0 ( x0 )

Si ha dy f ( x0 , y0 ) ∈ L(Rm , R p ), mentre d x f ( x0 , y0 ) ∈ L(Rn , R p ) ed indi-


chiamo con ∇y f ( x0 , y0 ) e ∇ x f ( x0 , y0 ) le matrici ad essi associate.

Osserviamo infine che, se f = ( f 1 , .., f p ), si ha


!
f 1y1 ( x0 , y0 ) ··· f 1ym ( x0 , y0 )
∇ y f ( x0 , y0 ) =
f py1 ( x0 , y0 ) ··· f pym ( x0 , y0 )
!
f 1x1 ( x0 , y0 ) ··· f 1xn ( x0 , y0 )
∇ x f ( x0 , y0 ) =
f px1 ( x0 , y0 ) ··· f pxn ( x0 , y0 )
e pertanto

∇ f ( x0 , y0 ) = (∇ x f ( x0 , y0 ), ∇y f ( x0 , y0 ))

Osserviamo infine che ∇y f ( x0 , y0 ) può essere bigettivo solo se m =


p.

Definizione 7.10 Sia f : A −→ R p , A ⊂ Rn × Rm , A aperto, e sia


( x0 , y0 ) ∈ A (con x0 ∈ Rn , y0 ∈ Rm ).
Definiamo
φx (y) = f ( x, y) per ogni f issato x,
e
ψy ( x ) = f ( x, y) per ogni f issato y.

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 69

Chiamiamo differenziale parziale di f rispetto ad y in ( x0 , y0 )

dy f ( x0 , y0 ) = dφx0 (y0 )

e differenziale parziale di f rispetto ad x in ( x0 , y0 )

d x f ( x0 , y0 ) = dψy0 ( x0 )

Si ha dy f ( x0 , y0 ) ∈ L(Rm , R p ), mentre d x f ( x0 , y0 ) ∈ L(Rn , R p ) ed indi-


chiamo con ∇y f ( x0 , y0 ) e ∇ x f ( x0 , y0 ) le matrici ad essi associate.

Osserviamo infine che, se f = ( f 1 , .., f p ), si ha


!
f 1y1 ( x0 , y0 ) ··· f 1ym ( x0 , y0 )
∇ y f ( x0 , y0 ) =
f py1 ( x0 , y0 ) ··· f pym ( x0 , y0 )
!
f 1x1 ( x0 , y0 ) ··· f 1xn ( x0 , y0 )
∇ x f ( x0 , y0 ) =
f px1 ( x0 , y0 ) ··· f pxn ( x0 , y0 )
e pertanto

∇ f ( x0 , y0 ) = (∇ x f ( x0 , y0 ), ∇y f ( x0 , y0 ))

Osserviamo infine che ∇y f ( x0 , y0 ) può essere bigettivo solo se m =


p.

Corollario 7.2 Sia f : A −→ Rn , A ⊂ Rn , A aperto, e supponiamo che


f sia invertibile nel suo rango: supponiamo cioè che esista una funzione g :
R( f ) −→ A tale che

f ( g(y)) = y ∀y ∈ R( f )

g( f ( x )) = x ∀x ∈ A
allora, se f e g sono differenziabili, si ha

∇ f ( g(y))∇ g(y) = I ∀y ∈ R( f )

∇ g( f ( x ))∇ f ( x ) = I ∀x ∈ A
essendo I la matrice identica.

**********************************************************************************************************

Teorema 7.7 -Derivazione delle Funzioni Composte - Sia f : A −→


Rm , A ⊂ Rn , e sia g : B −→ A, B ⊂ R p .
Possiamo allora considerare f ( g(·)) : B → Rm .

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


70 o.caligaris - p.oliva

Siano x0 ∈ A, y0 ∈ B tali che g(y0 ) = x0 , f e g siano differenziabili in


x0 ed y0 , rispettivamente.
Allora f ( g(·)) è differenziabile in y0 e si ha

∇ f ( g(y0 )) = ∇ f ( x0 ) · ∇ g(y0 ) = ∇ f ( g(y0 )) · ∇ g(y0 ),

essendo il prodotto tra matrici inteso righe per colonne.

Dimostrazione. Si ha

f ( x0 + h) − f ( x0 ) − ∇ f ( x0 )h = khkω1 (h) con lim ω1 (h) = 0


h →0

ed anche

g(y0 + k ) − g(y0 ) − ∇ g(y0 )k = kkkω2 (k) con lim ω2 (k) = 0


k →0

Pertanto posto
h ( k ) = g ( y0 + k ) − g ( y0 )

si ha
lim h(k) = 0
k →0

e quindi

f ( g(y0 + k)) − f ( g(y0 )) − ∇ f ( x0 )∇ g(y0 )k


=
kkk
∇ f ( x0 )[ g(y0 + k) − g(y0 ) − ∇ g(y0 )k] + kh(k)kω1 (h(k))
= =
kkk
kh(k)kω1 (h(k))
= ∇ f ( x 0 ) ω2 ( k ) + −→ 0
kkk

dal momento che

kh(k)k ≤ kkk(ω2 (k) + cost)

2
Esplicitiamo in caso semplice il teorema di derivazione delle fun-
zioni composte con lo scopo di illustrarne l’uso.
Sia
f : R2 → R , g : R2 7→ R2

( x, y) 7→ f ( x, y) , (t, s) 7→ ( x (t, s), y(t, s))


e consideriamo la funzione

φ(t, s) = f ( x (t, s), y(t, s)) = f ( g(t, s))

Utilizzando il teorema possiamo affermare che

(φt (t, s), φs (t, s)) = ∇φ(t, s) = ∇ f ( g(t, s)) · ∇ g(t, s)

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 71

Ma
!
 xt (t, s) xs (t, s)
∇ f ( x, y) = f x ( x, y), f y ( x, y) , , ∇ g(t, s) =
yt (t, s) ys (t, s)

per cui

(φt (t, s), φs (t, s)) =


!
 xt (t, s) xs (t, s)
f x ( x, y), f y ( x, y) =
yt (t, s) ys (t, s)

f x ( x, y) xt + f y ( x, y)yt , f x ( x, y) xs + f y ( x, y)ys

Se f : A −→ Rm , A ⊂ Rn , A aperto, è differenziabile in A e se
definiamo
φ(t) = f ( x + th)
si ha che φ è derivabile per i valori di t tali che x + th ∈ A (cioè
almeno in un intorno (−δ, δ) di 0) e si ha

φ0 (t) = ∇ f ( x + th)h

Nel caso in cui f assuma valori reali si ha

φ0 (t) = h∇ f ( x + th), hi

Il teorema di Lagrange applicato alla funzione ϕ appena introdotta


permette di affermare che

Se f assume valori reali ed è differenziabile in A; allora, allora

f ( x + h) − f ( x ) = h∇ f ( x + τh), hi τ ∈ (0, 1)

di conseguenza

| f ( x + h) − f ( x )| ≤ khk sup k∇ f ( x + th)k


t∈(0,1)

Quando la funzione f assume valori in Rm , m > 1, il precedente


risultato può non essere vero.
Sia infatti f : R −→ R2 definita da f (t) = (cos t, sin t); si ha

(0, 0) = f (2π ) − f (0) 6= 2π (−sin t, cos t) = 2π ∇ f (t) ∀t ∈ (0, 2π )

Tenendo conto che se f assume valori in Rm allora f = ( f 1 , .., f m ),


con f j a valori reali, si può concludere che

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


72 o.caligaris - p.oliva

Se f : A −→ Rm , A ⊂ Rn , è differenziabile in A; allora,

k f ( x + h) − f ( x )k ≤ khk sup k∇ f ( x + th)k0 .


t∈(0,1)

infatti poichè esiste ph ∈ Rm , di norma 1, tale che

k f ( x + h) − f ( x )k = h ph , f ( x + h) − f ( x )i =
= h ph , ∇ f ( x + τh)hi ≤
≤ khk sup k∇ f ( x + th)k0
t∈(0,1)

(7.1)

Poichè la definizione non è di immediata verifica, è utile avere con-


dizioni sufficienti che assicurino la differenziabilità di una funzione.

Se f : A −→ R, A ⊂ Rn , A aperto, ammette derivate parziali


prime continue in A (indicheremo questo dicendo che f ∈ C 1 ); allora
f è differenziabile in A.

Infatti: se ad esempio consideriamo il caso n = 2, indichiamo con


( x, y) un punto di A e supponiamo che le derivate parziali prime f x
ed f y siano continue in A; avremo

f ( x + h, y + k) − f ( x, y) − f x ( x, y)h − f y ( x, y)k
=
( h2 + k 2 )
f ( x + h, y + k) − f ( x + h, y) + f ( x + h, y)
= √ −
h2 + k 2
− f ( x, y) − f x ( x, y)h − f y ( x, y)k
√ =
h2 + k 2
per il teorema di Lagrange applicato alle funzioni f ( x + h, ·) e f (·, y)

( f x (ξ, y) − f x ( x, y))h + ( f y ( x + h, η ) − f y ( x, y))k


=
( h2 + k 2 )
con | x − ξ | < h e |y − η | < k.
Pertanto, osservando che

h k

h2 + k 2 ≤ 1 e h2 + k 2 ≤ 1

per la continuità di f x ed f y l’ultimo membro tende a 0 quando (h, k ) →


(0, 0).
Possiamo affermare in maniera simile che

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 73

Teorema 7.8 Sia f : A −→ Rm , A ⊂ Rn , A aperto, e supponiamo che


f j , j = 1, .., m, ammetta derivate parziali prime continue in A; allora f è
differenziabile in A.

Dimostrazione. si ha
n i i −1
f ( x + h) − f ( x ) = ∑ [ f (x + ∑ h j e j ) − f (x + ∑ h j e j )] =
i =1 j =1 j =1
n i −1
= ∑ f xi ( x + ∑ h j e j + ξ i ei ) h i
i =1 j =1

con |ξ i | < hi . 2
Se f : A −→ R, A ⊂ R , A aperto, e chiamiamo derivata parziale
n

seconda di f rispetto alle variabili xi ed x j , calcolata in x, e scriviamo


f xi x j ( x ) la derivata rispetto a x j della Funzione f xi , calcolata in x.
Nel caso in cui n = 2 e le variabili in A si indichino con ( x, y)
possiamo calcolare 4 derivate parziali seconde:

f xx , f xy , f yx , f yy

Si può dimostrare che

Teorema 7.9 -Schwartz - Sia f : A −→ R, A ⊂ Rn , A aperto, e


supponiamo che f sia parzialmente derivabile due volte in A e che almeno
una tra f xy e f yx sia continua; allora

f xy ( x, y) = f yx ( x, y)

Infatti se ad esempio supponiamo che f xy sia continua, posto

f ( x + h, y + k) − f ( x + h, y) − f ( x, y + k) + f ( x, y)
ω (h, k) =
hk
si ha
f xy ( x ) = lim lim ω (h, k)
k →0 h →0
e
f yx ( x ) = lim lim ω (h, k)
h →0 k →0
Pertanto se proviamo, che

lim ω (h, k )
(h,k)→(0,0)

esiste finito, avremo che

lim ω (h, k ) = lim lim ω (h, k) = lim lim ω (h, k)


h,k )→(0,0) k →0 h →0 h →0 k →0

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


74 o.caligaris - p.oliva

e l’uguaglianza delle due derivate seconde


Applicando il teorema di Lagrange alla funzione

h 7→ f ( x + h, y + k ) − f ( x + h, y)

si ha
f x ( x + ξ, y + k) − f x ( x + ξ, y)
ω (h, k ) = , −h < ξ < h
k
ed applicando ancora Lagrange alla funzione

k −→ f x ( x + ξ, y + k)

si ottiene
ω (h, k ) = f xy ( x + ξ, y + η ), −k < η < k
Ora
lim (ξ, η ) = (0, 0)
(h,k)→(0,0)

e pertanto, per la continuità di f xy

lim ω (h, k) = f xy ( x, y).


(h,k)→(0,0)

In generale possiamo enunciare il seguente teorema

Teorema 7.10 Sia f : A −→ Rm , A ⊂ Rn , A aperto, e supponiamo che f


sia parzialmente derivabile due volte in A; allora

f xi x j ( x ) = f x j xi ( x )

per tutti gli x ∈ A ove almeno una tra f xi x j e f x j xi è continua.

Le derivate parziali di ordine superiore si definiscono in maniera


del tutto simile.
Le derivate parziali seconde caratterizzano il gradiente della fun-
zione ∇ f infatti, se f : A −→ R, A ⊂ Rn , A aperto, è differenziabile
in A, possiamo considerare la funzione

∇ f : A −→ Rn

Se ∇ f è a sua volta differenziabile (ricordiamo che basta che le


derivate parziali prime di ∇ f siano continue), possiamo considerare
∇(∇ f )( x ) e si vede che

   
∇ f x1 ( x ) f x1 x1 ( x ) · · · f x1 x n ( x )
   
∇(∇ f )( x ) =  · · ·  =  · · · ··· ··· 
∇ f xn ( x ) f x n x1 ( x ) · · · f xn xn ( x )

La matrice ∇(∇ f )( x ) si indica solitamente con H f ( x ) e si chiama


matrice Hessiana di f in x.

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 75

La funzione quadratica g(h) = hh, H f ( x )hi viene di solito indicata


con il nome di forma quadratica hessiana di f in x.
Qualora f ammetta derivate parziali seconde continue in A ( f ∈
C 2 ( A)), per il teorema di Schwarz, la matrice H f ( x ) è simmetrica.
Per fissare le idee ricordiamo che nel caso di una funzione di due
variabili a valori reali

! !
∇ f x ( x, y) f xx ( x, y) f xy ( x, y)
H f ( x, y) = ∇(∇ f )( x, y) = =
∇ f y ( x, y) f yx ( x, y) f yy ( x, y)

7.4 Formula di Taylor

Consideriamo una funzione f : A −→ R, A ⊂ Rn , A aperto,


x0 ∈ A, e sia h ∈ S(0, r ) dove r > 0 è scelto in modo che x0 +
S(0, r ) ⊂ A.
Definiamo φ : (−1, 1) −→ R mediante la

ϕ(t) = f ( x0 + th)

se supponiamo f ∈ C k (cioè se è derivabile k volte in A), avremo che


ϕ è derivabile k volte in (−1, 1) e si ha

ϕ0 (t) = d f ( x0 + th)h = hh, ∇ f ( x0 + th)i


n
d
ϕ00 (t) =
dt ∑ hi f xi ( x0 + th) =
i =1
n
= ∑ hi h∇ f xi ( x0 + th), hi = hh, H f ( x0 + th)hi
i =1

Possiamo pertanto ottenere una formula di Taylor anche per funzioni


di più variabili, sviluppando la funzione ϕ. Ci limitiamo al secondo
ordine in quanto è l’unico di cui abbiamo necessità ed in ogni caso è
l’ultimo che possa essere enunciato senza eccessive difficoltà formali.

Teorema 7.11 Se f : A −→ R, A ⊂ Rn , A aperto, x ∈ A e se f ∈ C 2 ( A),


(e quindi è differenziabile due volte).
Allora per h abbastanza piccolo si ha

f ( x + h) = f ( x ) + hh, ∇ f ( x )i + hh, H f ( x + ξh)hi/2, ξ ∈ (0, 1)

(formula di Taylor con il resto di Lagrange)

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


76 o.caligaris - p.oliva

f ( x + h) = f ( x ) + hh, ∇ f ( x )i + hh, H f ( x )hi/2 + khk2 ω (h)

con limh→0 ω (h) = 0 e ω (0) = 0


(formula di Taylor con resto di Peano).

Dimostrazione.
Applicando a ϕ la formula di McLaurin otteniamo

φ(1) = φ(0) + φ0 (0) + φ00 (ξ )/2 0 < ξ < 1

da cui tenuto conto che

φ0 (t) = hh, ∇ f ( x + th)i

φ00 (t) = hh, H f ( x + th)hi

si ricava la prima affermazione


Inoltre

f ( x + h) = f ( x ) + h∇ f ( x ), hi + hh, H f ( x )hi/2 + k hk2 ω (h)

non appena si definisca

hh, ( H f ( x + ξ h h) − H f ( x ))hi
ω (h) =
2k h k2

dove limh→0 ω (h) = 0 in quanto H f è continuo e

|ω (h)| ≤ k H f ( x + ξ h h) − H f ( x )k/2, kξ h hk ≤ khk.

7.5 Massimi e Minimi Relativi

Definizione 7.11 Diciamo che x è un punto di minimo (massimo) relativo


per f se esiste una sfera S( x, r ), r > 0, tale che

f (y) ≥ f ( x ) ( f (y) ≤ f ( x ) ) ∀y ∈ S( x, r ) ∩ A

Teorema 7.12 Se x è un punto di minimo (massimo) relativo per f interno


al suo dominio, allora

• se f è differenziabile in x si ha ∇ f ( x ) = 0;

• se f ammette derivate seconde continue in x, H f ( x ) è semidefinita positiva


(negativa).

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 77

Dimostrazione. Basta osservare che ϕ(t) = f ( x + th) ammette un


punto di minimo relativo in 0 e che ∀h ∈ S(0, r )

0 = φ0 (0) = h∇ f ( x ), hi

ed anche
0 ≤ φ”(0) = hh, H f ( x )hi

La prima condizione assicura che ∇ f ( x ) = 0, mentre la seconda è,


per definizione, la semidefinitezza di H f ( x ). 2
Se ∇ f ( x ) = 0 e H f ( x ) è una forma quadratica non definita, allora x
non è né punto di massimo relativo, né punto di minimo relativo per
f ; un punto siffatto viene solitamente indicato con il nome di ’punto
sella’.

Teorema 7.13 Se f ∈ C 2 ( A),

• ∇ f (x) = 0

• H f ( x ) è definita positiva (negativa)

allora x è punto di minimo (massimo) relativo per f .

Dimostrazione. Si ha

f ( x + h) − f ( x ) = hh, H f ( x )hi/2 + khk2 ω (h)

con limh→0 ω (h) = 0 = ω (0).


Se ne deduce che
 
f ( x + h) − f ( x ) 1 h h
= , H f (x) + ω (h) ≥
k h k2 2 khk khk
 
1 M
≥ min hu, H f ( x )ui : kuk = 1 + ω (h) = + ω (h)
2 2

dove

M = min{hu, H f ( x )ui : kuk = 1} = hu0 , H f ( x )u0 i > 0

in quanto ku0 k = 1
(Il minimo esiste per il teorema di Weierstraßed M > 0 perché Hf(x)
è definita positiva e u0 6= 0.)
Pertanto, per il teorema della permanenza del segno, si può sceglie-
re ρ > 0 in modo che, se h ∈ S(0, ρ), si abbia

f ( x + h) − f ( x )
>0
k h k2

e la tesi. 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


78 o.caligaris - p.oliva

7.6 Convessità

Definizione 7.12 Sia f : A −→ R, A ⊂ Rn convesso; diciamo che f è


convessa se

f (λx + (1 − λ)y) ≤ λ f ( x ) + (1 − λ) f (y) ∀ x, y ∈ A, ∀λ ∈ (0, 1)

Inoltre f si dice strettamente convessa se vale la disuguaglianza stretta.

possiamo dimostrare che

• Se f è convessa su un aperto A, f 0 ( x, y) esiste ∀ x ∈ A, ∀y ∈ Rn .

• se f ∈ C 2 ( A), allora sono fatti equivalenti:

– f è convessa

f (y) ≥ f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A

– H f ( x ) è semidefinita positiva.

• le seguenti condizioni sono ciascuna sufficiente per la


successiva:

– H f ( x ) è definita positiva ∀ x ∈ A;
– f (y) > f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A, y 6= x ;
– f è strettamente convessa.

7.7 Convessità

Osservazione. Si può provare, come per le funzioni di una variabile,


che f è convessa in A se e solo se
k k
f ( ∑ λi xi ) ≤ ∑ λi f ( xi )
i =1 i =1

∀ xi ∈ A, λi ∈ (0, 1), ∑ik=1 λi = 1 2

Teorema 7.14 Sia f : A −→ R, A ⊂ Rn convesso, allora L−


α è un insieme
convesso per ogni α ∈ R.

Dimostrazione. Se f ( x ) ≤ α e f (y) ≤ α, allora

f (λx + (1 − λ)y) ≤ λ f ( x ) + (1 − λ) f (y) ≤ α.

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 79

Osserviamo che la convessità di L− α non è sufficiente per la conves-


sità di f , come f ( x ) = lnx dimostra.
Osserviamo anche che, posto

{v1 , v2 , .., v2n } = {e1 , .., en , −e1 , .., −en }


si ha

B( x, r ) = {y ∈ Rn : ky − x k1 ≤ r } =
2n 2n
= { y ∈ Rn : y = ∑ λi (x + rvi ), ∑ λi = 1, λi ≥ 0}
i =1 i =1

Sia infatti ky − x k1 ≤ r, allora


n
y−x = ∑ ( y − x ) i ei
i =1

e
n 2n
y = x + ∑ |(y − x )i |sgn[(y − x )i ]ei = ∑ λi (x + rvi )
i =1 i =1

Qualora a = ∑2n i =1 λi < 1 è sufficiente sommare be1 + b (− e1 ) essen-


do b = (1 − a)/2.
Viceversa k ∑2n 2n
i =1 λi rvi k ≤ ∑i =1 rλi = r.

Teorema 7.15 Sia f : A −→ R, A ⊂ Rn convesso e aperto, e sia f


convessa; allora
f è continua in A
f 0 ( x, y) esiste ∀ x ∈ A, ∀y ∈ Rn .

Dimostrazione. Sia x ∈ A e proviamo che f è continua in x.


Dal momento che A è aperto, A ⊃ B( x, r ) con r > 0, e se y ∈
B( x, r ), y = x + th, k hk1 = r, t ∈ (0, 1]

2n 2n
f (y) = f ( ∑ λi ( x + rvi )) ≤ ∑ λi f (x + rvi ) = m
i =1 i =1

Per il lemma 13.3 si ha

f ( x + th) − f ( x )
f ( x ) − m ≤ f ( x ) − f ( x − h) ≤ ≤ f ( x + h) − f ( x ) ≤ m − f ( x )
t
e
| f ( x + th) − f ( x )| ≤ t|m − f ( x )|
Pertanto
k y − x k1
| f (y) − f ( x )| ≤ |m − f ( x )|
r
Ne segue la continuità di f in x.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


80 o.caligaris - p.oliva

Per quanto riguarda il secondo punto è sufficiente osservare che, se


t ∈ (−1, 1), si può definire ∀y ∈ Rn

φ(t) = f ( x + ty)

e si può applicare il teorema 13.4 a φ. 2

Teorema 7.16 Sia f : A −→ R, A ⊂ Rn convesso, aperto; supponiamo


inoltre f ∈ C 2 ( A), allora f è convessa se e solo se

f (y) ≥ f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A

se e solo se H f ( x ) è semidefinita positiva.

Dimostrazione. f è convessa se e solo se φvz : [0, 1] −→ R definita da

φvz (t) = f (v + t(z − v))

è convessa ∀z, v ∈ A, e questo, per il teorema 13.10, è vero se e solo se

0
φvz (t) ≥ φvz (s) + φvz (s)(t − s) ∀t, s ∈ [0, 1], ∀z, v ∈ A

cioè se e solo se

f (v + t(z − v)) ≥ f (v + s(z − v)) + h∇ f (v + s(z − v)), z − vi(t − s)

∀t, s ∈ [0, 1], ∀z, v ∈ A


se e solo se

f (y) ≥ f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A

Inoltre φvz è convessa se e solo se φ”vz (t) ≥ 0 ∀t ∈ (0, 1), corollario


13.9, e pertanto se e solo se

hh, H f ( x )hi ≥ 0 ∀h ∈ Rn , ∀ x ∈ A.

Teorema 7.17 Sia f : A −→ R, A ⊂ Rn aperto e convesso, f ∈ C 2 ( A);


allora le seguenti condizioni sono ciascuna sufficiente per la successiva:

• H f ( x ) è definita positiva ∀ x ∈ A;

• f (y) > f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A, y 6= x ;

• f è strettamente convessa.

Dimostrazione. 1) ⇒ 2). Si ha

f (y) − f ( x ) − h∇ f ( x ), y − x i = hy − x, H f (ξ )(y − x )i > 0, ξ ∈ A, x 6= y

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 81

2) ⇒ 3). Si ha

f (y) > f (λx + (1 − λ)y) + h∇ f (λx + (1 − λ)y), λ(y − x )i

f ( x ) > f (λx + (1 − λ)y) + h∇ f (λx + (1 − λ)y), −(1 − λ)(y − x )i

moltiplicando la prima per (1 − λ), la seconda per λ e sommando, si


ha
λ f ( x ) + (1 − λ) f (y) > f (λx + (1 − λ)y).
2

Teorema 7.18 Sia f : Rn −→ R, strettamente convessa e supponiamo che


f ( x ) → +∞ se x → ∞ ; allora esiste uno ed un solo punto x ∈ Rn tale che

f ( x ) = min{ f (y) : y ∈ Rn }.

Dimostrazione. L’esistenza di x discende dai teoremi 25.39 e 25.13;


se esistesse z con le stesse caratteristiche di x, si avrebbe

f ( x ) = λ f ( x ) + (1 − λ) f (z) > f (λx + (1 − λ)z) ∀λ ∈ (0, 1)

e ciò è assurdo. 2

Corollario 7.3 Sia f : Rn −→ R, f ∈ C 2 (Rn ), e supponiamo che

hh, H f ( x )hi ≥ mkhk2 ∀h ∈ Rn , m > 0

Allora f è strettamente convessa e limx→∞ f ( x ) = +∞.

Dimostrazione. H f è evidentemente definita positiva ed inoltre

f ( x ) = f (0) + h∇ f (0), x i + h x, H f (ξ ) x i/2 ≥

≥ f (0) − k∇ f (0)kk x k + mk x k2 /2.


2

Teorema 7.19 Sia f : Rn −→ R, f ∈ C 2 (Rn ) e supponiamo che esistano


m, M > 0 tali che

mk hk2 ≤ hh, H f ( x )hi ≤ M khk2 ∀h, x ∈ Rn

Allora f ammette un unico punto x di minimo assoluto e, definita la succes-


sione xk mediante le
2
x 0 ∈ Rn , x k +1 = x k − α ∇ f ( x k ) , 0 < α < ,
M
si ha
k x k − x k ≤ c k k x0 − x k
ove
c = max{|1 − αm|, |1 − αM |} < 1.
Ne segue che xk → x.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


82 o.caligaris - p.oliva

Dimostrazione. L’esistenza e l’unicità di x seguono dal corollario


25.43, e si ha ∇ f ( x ) = 0; pertanto

k xk+1 − x k2 = h xk+1 − x, xk+1 − x i =


= h xk − x − α(∇ f ( xk ) − ∇ f ( x )), xk+1 − x i =
= h( I − αH f (ξ ))( xk − x ), xk+1 − x i

con ξ opportuno, non appena si applichi il teorema di Lagrange alla


funzione
g ( s ) = h s − α ∇ f ( s ) , x k +1 − x i
e si ricordi che

∇ g(s)( xk − x ) = h( I − αH f (s))( xk − x ), xk+1 − x i

Quindi

k xk+1 − x k2 ≤ k( I − αH f (ξ ))( xk − x )kk xk+1 − x k

k xk+1 − x k ≤ k( I − αH f (ξ ))( xk − x )k ≤ k I − αH f (ξ )k0 k xk − x k

Dalle condizioni imposte su H f si ottiene allora che

h h
(1 − αM) ≤ h( I − αH f (ξ )) , i ≤ (1 − αm)
khk khk
Ne viene
k I − αH f (ξ )k0 ≤ c
e
k x k +1 − x k ≤ c k x k − x k
da cui si può concludere. 2
Osserviamo che il precedente teorema assicura che xk → x e ne
valuta la velocità di convergenza che è maggiore quanto più è piccolo
c.
A tale proposito si può vedere che

M−m
min0<α<2/M max{|1 − αm|, |1 − αM |} =
M+m
e si ottiene per α = 2/( M + m).

Teorema 7.20 Sia f : R2 −→ R, f ∈ C 1 (R2 ), strettamente convessa, e


supponiamo che
lim f ( x, y) = +∞
( x,y)→∞

allora, se definiamo una successione ( xk , yk ) mediante le

( x 0 , y 0 ) ∈ R2

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 83

xk+1 tale che f ( xk+1 , yk ) = min{ f ( x, yk ) : x ∈ R }


yk+1 tale che f ( xk+1 , yk+1 ) = min{ f ( xk+1 , y) : y ∈ R },
si ha che ( xk , yk ) converge all’unico punto (x,y) di minimo assoluto per f .

Dimostrazione. L’esistenza di ( xk+1 , yk+1 ) segue dalla continuità di


f e dal fatto che f ( x, y) −→ +∞ per ( x, y) → ∞.
Si ha inoltre

(25.1) f ( x k +1 , y k +1 ) ≤ f ( x k +1 , y k ) ≤ f ( x k , y k )

e
f x ( x k +1 , y k ) = f y ( x k , y k ) = 0
Si ha pertanto che f ( xk , yk ) è una successione decrescente e ne
segue:

f ( x k , y k ) ≤ f ( x0 , y0 )
f ( xk , yk ) → λ
f ( x k +1 , y k ) → λ

Dal momento che f → +∞ si deduce che ( xk , yk ) è limitata e si


può pertanto affermare che ogni sua estratta ha una estratta ( xk0 , yk0 )
soddisfacente le seguenti condizioni

xk0 → x, xk0 +1 → ξ, yk0 → y.

Per la (25.1) e per la continuità di f e delle sue derivate parziali si


ha
f (ξ, y) = lim f ( xk0 +1 , yk0 ) = lim f ( xk0 , yk0 ) = f ( x, y)
f x (ξ, y) = 0 = f y ( x, y)
Pertanto, per la stretta convessità di f, ξ è l’unico punto di minimo
di f (,̇y) e ne segue ξ = x.
Quindi ∇ f ( x, y) = 0; dal momento che f è strettamente convessa,
( x, y) è l’unico punto di minimo di f , e per il teorema 6.10 l’intera
successione ( xk , yk ) converge ad ( x, y). 2
Vogliamo ora tentare di dare una stima della velocità di convergenza
dei metodi di minimizzazione numerica che abbiamo presentato.

Definizione 7.13 Sia f : A → R e sia a ⊂ Rn un aperto, sia M f ⊂ A un


insieme, definito mediante la funzione f , che si vuole raggiungere.
Diciamo che F : A → P ( A) (l’insieme delle parti di A) è una funzione
di discesa verso M f se

(1) x∈
/ Mf , y ∈ F ( x ) ⇒ f (y) < f ( x )

Diciamo inoltre che F è una funzione di discesa chiusa se

(2) ( xk , yk ) → (ξ, η ) , yk ∈ F ( xk ), ξ 6∈ M f ⇒ η ∈ F (ξ ),

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


84 o.caligaris - p.oliva

Teorema 7.21 Sia f : A → R e sia a ⊂ Rn f : A → R un aperto e sia


f continua in A. sia F una funzione di discesa verso M f e consideriamo la
successione xk definita da

(3) x0 ∈ A x k +1 ∈ F ( x k )

Supponiamo inoltre che xk ∈ K ⊂ A, ove K è un sottoinsieme compatto;


allora una delle seguenti condizioni è verificata:

1. xk ∈ M f per qualche k ∈ N

2. per ogni sottosuccessione xk h of xk , xk h → ξ, si ha ξ ∈ M f .

Dimostrazione. Dimostriamo che se 1) è falsa allora 2) è verificata.


Poichè xk ∈ K, che è compatto, possiamo supporre che

( xk h , xk h +1 ) → (ξ, η )

inoltre, poichè xk 6∈ M f , f ( xk ) è strettamente decrescente e si ha

λ = inf{ f ( xk )} = lim f ( xk )

ne deduciamo che, per la continuità di f ,

λ = lim f ( xk h ) = lim f ( xk h +1 ) = f (ξ ) = f (η )

Ciò dimostra che ξ ∈ M f . Infatti se non fosse così dovremmo avere,


poichè xk h +1 ∈ F ( xk h ) ed F è una funzione di discesa chiusa,

η ∈ F (ξ ) e f (η ) < f (ξ )

il che non è possibile. 2

Corollario 7.4 Sia f : A → R e sia a ⊂ Rn un aperto, sia f una funzione


continua e supponiamo che esista L ∈ R tale che

{ x ∈ A : f ( x ) ≤ L} = S L

sia un insieme limitato.


Allora S L è compatto e se xk è una successione definita come in (3) da
x0 ∈ S L , si ha xk ∈ S L .
Quando A = Rn e
lim f ( x ) = +∞
x →∞
allora esiste almeno un L ∈ R tale che { x ∈ A : f ( x ) ≤ L} = S L is un
insieme limitato.

Teorema 7.22 sia f : A → R e sia a ⊂ Rn un aperto , sia f ∈ C1 ( A) e


supponiamo che esista L ∈ R tale che { x ∈ A : f ( x ) ≤ L} = S L sia un
insieme limitato. Definiamo

M f = { x ∈ A : ∇ f ( x ) = 0}

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 85

e una funzione di discesa verso M − f F mediante la

∇ f (x)
F ( x ) = x + α0
k∇ f ( x )k

essendo α0 scelto in modo che

     
∇ f (x) ∇ f (x)
f x + α0 = min f x + α :α∈R .
k∇ f ( x )k k∇ f ( x )k

allora F è una funzione di discesa chiusa.

Dimostrazione. Osserviamo innanzi tutto che se y ∈ F ( x ) si ha

f (y) = f ( F ( x )) ≤ f ( x )

Inoltre se fosse f (y) = f ( x ), t = 0 sarebbe argomento di minimo per


f ( x + t∇ f ( x )/k∇ f ( x )k) e avremmo
 
d ∇ f (x)
0= f x+α =
dα k∇ f ( x )k α =0
   
∇ f (x) ∇ f (x)
= ∇f x + α ,
k∇ f ( x )k k∇ f ( x )k α=0

perciò ∇ f ( x ) = 0 e x ∈ M f .
Inoltre se ( xk , yk ) → (ξ, η ), yk ∈ F ( xk ) e ξ ∈
/ M f si ha ∇ f ( xk ) →
∇ f ( ξ ), ∇ f ( ξ ) 6 = 0
∇ f ( xk )
yk = xk + αk
k∇ f ( xk )k
e
M ≥ kyk − xk k = |αk |

perciò possiamo supporre che αn → ᾱ a meno di considerare una


sottosuccessione che chiameremo ancora αn .
Per la continuità
∇ f (ξ )
η = ξ + ᾱ
k∇ f (ξ )k
inoltre, poichè
   
∇ f ( xk ) ∇ f ( xk )
f xk + αk ≤ f xk + α ∀α ∈ R
k∇ f ( xk )k k∇ f ( xk )k

si ha
   
∇ f (ξ ) ∇ f (ξ )
f ξ + ᾱ ≤ f ξ+α ∀α ∈ R
k∇ f (ξ )k k∇ f (ξ )k

e η ∈ F ( ξ ). 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


86 o.caligaris - p.oliva

Teorema 7.23 Sia f : A → R e sia a ⊂ Rn un aperto , supponiamo che f


ammetta derivate parziali prime in A e supponiamo che esista L ∈ R tale che
{ x ∈ A : f ( x ) ≤ L} = S L sia un insieme limitato.
Definiamo

M f = { x ∈ A : f xi ( x ) = 0 ∀i = 1 . . . n }

e una funzione di discesa verso M f mediante la


n
F ( x ) = x + ∑ α i ei
i =1

ove αi sono scelti in modo che

f ( x + α1 e1 ) ≤ f ( x + αe1 ) ∀α ∈ R
f ( x + α1 e1 + α2 e2 ) ≤ f ( x + α1 e1 + αe2 ) ∀α ∈ R
......................................................
! !
n −1 n −1
f x+ ∑ α i ei + α n e n ≤ f x+ ∑ αi ei + αen ∀α ∈ R
i =1 i =1

allora F è una funzione di discesa chiusa.

Dimostrazione. Osserviamo innanzi tutto che se y ∈ F ( x ) si ha

f (y) ≤ f ( F ( x )) ≤ f ( x )

e che per f (y) = f ( x ) deve essere

f xi ( x ) = 0 ∀i = 1 . . . n e ∀ x ∈ M f

Inoltre se scegliamo

( xk , yk ) → (ξ, η ) yk ∈ F ( xk ) , ξ∈
/ Mf ;

allora
n
yk = xk + ∑ αik ei
i =1
e, poichè
!
j
f xk + ∑ αik ei ≤ L,
i =1

possiamo supporre che αik → αi , a meno di passare ad una estratta.


Ora, se ricordiamo che
!
j
f xk + ∑ αik ei ≤
i =1
!
j −1
≤ f xk + ∑ αik ei + αe j ∀α ∈ R ∀ j
i =1

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 87

e passiamo al limite, la continuità assicura che


!
j
f ξ + ∑ α i ei ≤
i =1
!
j −1
≤ f ξ+ ∑ αi ei + αe j ∀α ∈ R ∀ j
i =1

e η ∈ F ( ξ ). 2
Cerchiamo ora di valutare la velocità di convergenza del metodo del
gradiente e del metodo di discesa componente per componente.

Lemma 7.1 sia f : A → R e sia a ⊂ Rn un aperto, sia inoltre f ∈ C2 ( A).


Supponiamo che

0 < mk hk2 ≤ h H f ( x )h, hi ≤ M khk2 .

Allora si ha
M−m
m ≤ f xi xi ( x ) ≤ M e | f xi x j ( x )| ≤ .
2
Inoltre, se ∇ f ( a) = 0 si ha

mkhk2 ≤ h∇ f ( a + h), hi ≤ Mk hk2

e
m M
k h k2 ≤ f ( a + h ) − f ( a ) ≤ k h k2 .
2 2
Dimostrazione. Se scegliamo h = ei ed usiamo le ipotesi, possiamo
ottenere
m ≤ f xi xi ( x ) ≤ M,
inoltre poichè H f ( x ) è simmetrica si ha

1
h H f ( x )h, ki = (h H f ( x )(h + k), (h + k)i − h H f ( x )(h − k), (h − k)i) ≤
4
1 
≤ M k h + k k2 − m k h − k k2
4

e se poniamo h = ei , k = e j

1
f xi ( x ) ≤ (2M − 2m) = M − m2.
xj 4

In maniera del tutto simile si ottiene


m−M
f xi x j ( x ) ≥ .
2
Quando ∇ f ( a) = 0, se consideriamo

ϕ(t) = h∇ f ( a + th), hi t ∈ [0, 1]

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


88 o.caligaris - p.oliva

si ha
ϕ (1) − ϕ (0) = ϕ 0 ( τ ) τ ∈ [0, 1]

h∇ f ( a + h), hi = h H f ( a + τk)h, hi τ ∈ [0, 1]

e
mkhk2 ≤ h∇ f ( a + h), hi ≤ M khk2

mentre se consideriamo

ϕ(t) = f ( a + th) t ∈ [0, 1]

si ha
ϕ00 (σ )
ϕ (1) − ϕ (0) − ϕ 0 (0) = σ ∈ [0, 1]
2
h H f ( a + σh)h, hi
f ( a + h) − f ( a) = σ ∈ [0, 1]
2
e
m M
k h k2 ≤ f ( a + h ) − f ( a ) ≤ k h k2
2 2
2

Lemma 7.2 Sia f : A → R, sia a ⊂ Rn un aperto e sia f ∈ C2 ( A). Sia


inoltre a ∈ A e h ∈ Rn .
Definiamo ϕ(t) = f ( a + th) e sia T ∈ R tale che
m
ϕ( T ) = in{ ϕ(t) : t ∈ R a + th ∈ A}
2M2

allora possiamo trovare τ, σ ∈ [− T, T ] tale che

ϕ 0 (0) h∇ f ( a), hi
T=− =− ,
ϕ00 (τ ) h H f ( a + τh)h, hi
e

ϕ00 (σ ) 2
ϕ(0) − ϕ( T ) = f ( a) − f ( a + Th) = T =
2
1 h H f ( a + σh)h, hi
= (h∇ f ( a), hi)2
2 h H f ( a + τh)h, hi2

Dimostrazione. Si ha

ϕ0 (0) = ϕ0 (0) − ϕ0 ( T ) = − ϕ00 (τ ) T τ ∈ [− T, T ]

e
ϕ 0 (0)
T=− τ ∈ [− T, T ]
ϕ00 (τ )
Inoltre

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 89

f ( a) − f ( a + Th) =
ϕ00 (σ ) 2
ϕ (0) − ϕ ( T ) + ϕ 0 ( T ) T = T =
2
 2
ϕ00 (σ ) ϕ0 (0)
2 ϕ00 (τ )
Pertanto possiamo concludere se ricordiamo che

ϕ0 (t) = h∇ f ( a + th), hi

ϕ00 (t) = h H f ( a + th)h, hi


2

Teorema 7.24 Sia f : A → R e sia a ⊂ Rn un aperto, sia f ∈ C2 ( A) e


supponiamo che
mkhk2 ≤ h H f ( x )h, hi ≤ M khk2 .
con 0 < m ≤ M.
Sia xk la successione definita per mezzo del metodo del gradiente (teorema
4). Chiamiamo a l’unico punto di minimo per f su A; si ha
  2k  1
m3 2 2
k xk − ak ≤ 1− 3 [ f ( x0 )) − f ( a)] .
M M
Dimostrazione. Per le ipotesi di crescita ammesse f ha i livelli limita-
ti, inoltre poichè f è continua, i suoi livelli sono chiusi e quindi anche
compatti.
Se ricordiamo che f ( xk ) ≤ L per un opportuno L possiamo dedurre
che xk è contenuta in un compatto.
Inoltre continuità e compattezza garantiscono l’esistenza del mini-
mo a mentre la stretta convessità assicura la sua unicità.
Ora sia ϕk (t) = f ( xk + tdk ) dove
∇ f ( xk )
dk =
k∇ f ( xk )k
si ha xk+1 = xk + α0k dk , e per il lemmi 6 e 7,

ϕk (0) − ϕk (α0k ) ≥
1 m
≥ (h∇ f ( xk ), dk i)2 =
2 M2
1 m
= k∇ f ( xk )k2 ≥
2 M2
1 m3
≥ k x − a k2 ≥
2 M2 k
1 m3 2
≥ [ f ( xk ) − f ( a)].
2 M2 M

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


90 o.caligaris - p.oliva

Pertanto possiamo dedurre che

m3
f ( x k ) − f ( x k +1 ) ≥ ( f ( xk ) − f ( a))
M3
e  
m3
f ( x k +1 ) − f ( a ) ≤ 1− ( f ( xk ) − f ( a))
M3
da cui
 k
m m3
k x − a k2 ≤ f ( x k ) − f ( a ) ≤ 1− [ f ( x0 ) − f ( a)]
2 k M3
e
  2k  1
m3 2 2
k xk − ak ≤ 1− 3 ( f ( x0 ) − f ( a)) .
M m
2
Passiamo infine a studiare la velocità di convergenza del metodo di
discesa componente per componente descritto nel teorema 5.

Lemma 7.3 Sia f : A → R e sia a ⊂ Rn un aperto, sia f ∈ C2 ( A) tale che

mkhk2 ≤ h H f ( x )h, hi ≤ M khk2

with 0 < m ≤ M.
Sia inoltre xk la successione definita nel teorema 5.
Denotiamo con ξ i = ξ ki i valori che consentono di calcolare xk+1 a partire
da xk ; i.e. siano

i
ξ i = ξ ki = xk + ∑ αkh eh i = 1...n
h =1

ovviamente si ha ξ kn = xk+1 ; poniamo anche

f j,i = f x j (ξ i );

allora esistono a j,i ∈ R, 1 ≤ i ≤ j ≤ n tali che

j
f j,j−1 = ∑ a j,i fi,0 .
i =1

Inoltre se definiamo
M−m
ϑ=
2m
si ha
a j,j = 1 e | a j,i | ≤ θ (1 + θ ) j−i−1 se i<j

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 91

Dimostrazione. Se applichiamo il teorema di Lagrange a f x j in [ξ i , ξ i−1 ]


(e ricordiamo che ξ i = ξ i−1 + αik ei ) otteniamo

f x j (ξ i ) = f x j (ξ i−1 ) + f x j ,xi (ηi )αik

ηi = ξ i − 1 + τ ( ξ i − ξ i − 1 ) , τ ∈ [0, 1].
Per i lemmi 6 e 7 si ha

f x i ( ξ i −1 )
αik = −
f xi ,xi (ζ i )
ove
ζ i = ξ i + σ ( ξ i − ξ i −1 ) , σ ∈ [0, 1]
e se poniamo
f x j ,xi (ηi )
ϑ j,i = −
f xi ,x j (ζ i )
si ha
M−m
|ϑ j,i | ≤ =ϑ
2m
e
f j,i = f j,i−1 + ϑ j,i f i,i−1 .
Sommando su i = 1 . . . j − 1 si ottiene

f j,j−1 = f j,j−2 + ϑ j,j−1 f j−1,j−2

f j,j−2 = f j,j−3 + ϑ j,j−2 f j−2,j−3


···············
f j,1 = f j,0 + ϑ j,1 f 1,0
e
j −1
f j,j−1 = f j,0 + ∑ ϑj,i fi,i−1 .
i =1
Ora cerchiamo a j,i ∈ R tale che

j j −1
f j,j−1 = ∑ a j,i fi,0 = a j,j f j,0 + ∑ a j,i fi,0
i =1 i =1

Deve risultare
j −1 i
f j,j−1 = f j,0 + ∑ ϑj,i ∑ ai,h f h,0 =
i =1 h =1
j −1 i
= f j,0 + ∑ ∑ ϑj,i ai,h f h,0 =
i =1 h =1
j −1 j −1
= f j,0 + ∑ ∑ ϑj,i ai,h f h,0
h =1 i = h

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


92 o.caligaris - p.oliva

così che deve essere


j −1
a j,j = 1 e a j,h = ∑ ϑj,i ai,h .
i=h

Infine dimostriamo che

( Pj ) {∀h < j | a j,h | ≤ ϑ(1 + ϑ) j−h−1 }

risulta verificata per j ∈ N j ≥ 2.


Ovviamente si ha

( P2 ) |ϑ2,1 | = | a2,1 | ≤ ϑ(1 + ϑ)2−1−1 = ϑ

D’altro canto, se supponiamo ( Pj ) true e consideriamo

( Pj+1 ) {∀h < j + 1 | a j+1,h | ≤ ϑ(1 + ϑ) j−h }

si ha

j

| a j+1,h | = ∑ ϑ j+i,i ai,h ≤
i = h

j

≤ ∑ ϑ j+i,i ai,h + |ϑ j+1,h ah,h | ≤
i = h +1
j j
≤ ϑ+ ∑ ϑ | ai,h | ≤ ϑ + ∑ ϑ (ϑ (1 + ϑ )i−(h+1) ) =
i = h +1 i = h +1
!
j−(h+1)
= ϑ 1+ϑ ∑ (1 + ϑ ) i
=
i =0
!
1 − (1 + ϑ ) j − h
=ϑ 1 + ϑ( ) =
1 − (1 + ϑ )
!
1 − (1 + ϑ ) j − h
=ϑ 1 + ϑ( ) =
−ϑ
 
= ϑ 1 − 1 + (1 + ϑ ) j − h = ϑ (1 + ϑ ) j − h .

Teorema 7.25 Sia f : A → R e sia a ⊂ Rn un aperto, sia f ∈ C2 ( A) e


supponiamo che
mkhk2 ≤ h H f ( x )h, hi ≤ Mk hk2 .
with 0 < m ≤ M.
Sia xk la successione generata mediante il metodo di discesa componente
per componente come è definito nel teorema 5.
Allora, se a è l’unico punto di minimo per f su A, esiste K ∈ R, H ∈ R,
0 < H < 1 tale che
k xk − ak ≤ KH k

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 93

Dimostrazione. Possiamo provare, esattamente come nel teorema 8,


esistenza e unicità del minimo e compattezza degli insiemi di livello.
Pertanto xk è contenuta in un compatto di Rn .
Con le notazioni del precedente lemma 9possiamo asserire, usando
il lemma 7, che

m 2 m 2
f (ξ 0 ) − f (ξ 1 ) ≥ f (ξ 0 ) = f
2M2 x1 2M2 1,0
m 2 m 2
f (ξ 1 ) − f (ξ 2 ) ≥ f x2 ( ξ 1 ) = f
2M 2 2M2 2,1
···············
m 2 m 2
f ( ξ n −1 ) − f ( ξ n ) ≥ f x n ( ξ n −1 ) = f
2M 2 2M2 n,n−1
e se sommiamo entrambi i membri delle disuguaglianze otteniamo

f ( ξ 0 ) − f ( ξ n ) = f ( x k ) − f ( x k +1 ) ≥
n
m

2M2 ∑ f j,j2 −1 .
j =1

Ma per il lemma 9 possiamo concludere che


!2
n n j −1
F= ∑ 2
f j,j −1 = ∑ f j,0 + ∑ a j,i fi,0 =
j =1 j =1 i =1

= k Mϕk2
non appena si definisca la matrice M e il vettore ϕ per mezzo della

M = ( a ji ) e ϕ = ( f j,0 ) = ∇ f ( xk )

ove a ji = 0 when i > j.


Dal momento che M è triangolare e a j,j = 1, si ha detM = 1 e

Mϕ = 0 ⇔ ϕ = 0 ⇔ ∇ f ( xk ) = 0;

so Mϕ 6= 0.
allora possiamo dedurre che

k Mϕk2 k M∇ f ( xk )k2
= 6= 0
k ϕ k2 k∇ f ( xk )k2

e, poichè | ai,j | ≤ L possiamo asserire che k M−1 k è uniformemente


limitata rispetto a k e

1
k M −1 x k ≤ m kxk
2M2
u

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


94 o.caligaris - p.oliva

Pertanto
m
k Mx k ≥ uk x k
2M2
e
m k M∇ f ( xk )k2 m
2
in = u>0
2M k∇ f ( xk )k2 2M2
Possiamo infine concludere che
m m
f ( x k ) − f ( x k + 1) ≥ 2
k∇ f ( xk )k2 u
2M 2M2
e la stima si ottiene come nel teorema 8. 2

7.8 Funzioni Implicite

Se
f : A −→ R A ⊂ R2
è una funzione reale di due variabili reali possiamo considerare l’in-
sieme definito in R2 da

G = {( x, y) ∈ A : f ( x, y) = 0 }

È naturale, per studiare tale insieme, cercare una funzione φ il cui


grafico coincida localmente con G.
Ciò è equivalente a risolvere rispetto ad y l’equazione f ( x, y) = 0,
ed è il procedimento che si segue quando, per studiare il luogo dei
punti del piano in cui
x 2 + y2 = 1
si ricava, ad esempio,
p p
y = 1 − x2 oppure y=− 1 − x2

Nel caso in cui non sia facile esplicitare una delle due variabili in
funzione della seconda, siamo interessati a sapere se è possibile defi-
nire una delle due variabili in funzione dell’altra e a studiare qualche
proprietà della funzione che evidentemente non è possibile scrivere
esplicitamente in termini di funzioni elementari.

Teorema 7.26 - Dini - Sia A = ( x0 − a, x0 + a) × (y0 − b, y0 + b), f :


A −→ R e supponiamo che le seguenti condizioni siano verificate:

f ∈ C 1 ( A)

f ( x0 , y0 ) = 0
f y ( x0 , y0 ) 6 = 0
Allora esiste δ > 0 ed esiste φ : ( x0 − δ, x0 + δ) −→ (y0 − b, y0 + b) tale
che
φ ( x0 ) = y0

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 95

f ( x, y) = 0 ⇔ y = φ( x ), ∀ x ∈ ( x0 − δ, x0 + δ)
φ è derivabile in ( x0 − δ, x0 + δ) e
f x ( x, φ( x ))
φ0 ( x ) = − .
f y ( x, φ( x ))

Figura 7.2: Il teorema delle funzioni


implicite

Dimostrazione. Sia f y ( x0 , y0 ) > 0 e siano α, β scelti in modo che


0 < α < a, 0 < β < b e f y ( x, y) > M > 0 se | x − x0 | ≤ α e |y −
y0 | ≤ β (ciò è possibile per la continuità di f y e per il teorema della
permanenza del segno).
Ora, evidentemente, f ( x0 , ·) è una funzione strettamente crescente
in [y0 − β, y0 + β] e pertanto

f ( x0 , y0 − β ) < f ( x0 , y0 ) = 0 < f ( x0 , y0 + β )

Ancora per il teorema della permanenza del segno, applicato ad


f (·, y0 − β) e ad f (·, y0 + β), si può scegliere 0 < δ ≤ α, in modo che
se
| x − x0 | < δ
si abbia
f ( x, y0 − β) < 0, f ( x, y0 + β) > 0
Pertanto se | x − x0 | < δ, |y − y0 | < β, si ha

f y ( x, y) > 0, f ( x, y0 − β) < 0, f ( x, y0 + β) > 0

e per ogni x ∈ ( x0 − δ, x0 + δ) si può affermare che esiste uno ed un


solo valore y ∈ (y0 − β, y0 + β) tale che f ( x, y) = 0 (teorema degli zeri
e stretta crescenza di f ( x, ·)).
Possiamo pertanto definire φ : ( x0 − δ, x0 + δ) −→ (y0 − β, y0 + β)
mediante la φ( x ) = y.
Vediamo ora di provare che φ è continua e derivabile in ( x0 − δ, x0 +
δ ).
Siano x, x + h ∈ ( x0 − δ, x0 + δ), allora

f ( x + h, φ( x + h)) − f ( x, φ( x )) = 0

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


96 o.caligaris - p.oliva

e pertanto, se definiamo k (h) = φ( x + h) − φ( x ), avremo

f ( x + h, φ( x ) + k (h)) − f ( x, φ( x )) = 0

Per il teorema di Lagrange si ha

f x ( x + τh, φ( x ) + τk(h))h + f y ( x + τh, φ( x ) + τk(h))k (h) = 0

con 0 < τ < 1, x + τh ∈ ( x0 − δ, x0 + δ) e φ( x ) + τk (h) ∈ (y0 − β, y0 +


β), per cui
f x ( x + τh, φ( x ) + τk(h))
φ( x + h) − φ( x ) = −h
f y ( x + τh, φ( x ) + τk(h))
e dal momento che f x ed f y sono continue e

fy ≥ M > 0 se ( x, y) ∈ [ x0 − α, x0 + α] × [y0 − β, y0 + β]

si ha
lim φ( x + h) − φ( x ) = lim k(h) = 0
h →0 h →0
Inoltre
φ( x + h) − φ( x ) f x ( x + τh, φ( x ) + τk (h))
=−
h f y ( x + τh, φ( x ) + τk(h))
e tenuto conto che (h, k(h)) → 0 per h → 0 si può concludere che φ è
derivabile in x e
f x ( x, φ( x ))
φ0 ( x ) = − .
f y ( x, φ( x ))
2
La dimostrazione fatta è evidentemente valida solo nel caso in cui
A ⊂ R2 ed f assuma valori reali, ma l’enunciato, con le dovute modi-
fiche, sussiste anche se A ⊂ Rn × Rm ed f assume valori in Rm .

Teorema 7.27 - funzioni implicite Sia f : A × B −→ Rm ,

A = { x ∈ Rn : k x − x 0 k < a } , B = { y ∈ Rm : k y − y 0 k < b }

e supponiamo che:

• f ∈ C 1 ( A × B)

• f ( x0 , y0 ) = 0

• ∇y f ( x0 , y0 ) sia invertibile.

Allora esistono ρ, δ > 0 ed esiste una funzione

φ : D −→ E

ove

D = { x ∈ Rn : k x − x 0 k < ρ } edE = {y ∈ Rm : ky − y0 k < δ}

tali che

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 97

• φ ( x0 ) = y0

• f ( x, y) = 0 ⇔ y = φ( x ), ∀ x ∈ D

• φ è differenziabile in D e si ha

∇φ( x ) = −[∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x )) ∀ x ∈ D.

7.9 Funzioni Implicite

Teorema 7.28 Sia A ⊂ Rn , B ⊂ Rm e sia f : A × B −→ B; supponiamo


che A sia aperto e B sia chiuso, supponiamo inoltre che

k f ( x, y1 ) − f ( x, y2 )k ≤ αky1 − y2 k ∀y1 , y2 ∈ B, ∀ x ∈ A, 0 ≤ α < 1

e che f (,̇y) sia continua in A ∀y ∈ B.


Allora, per ogni x ∈ A esiste uno ed un solo φ( x ) ∈ B tale che

f ( x, φ( x )) = φ( x )

e la funzione φ : A −→ B è continua.
Se inoltre f ∈ C 1 ( A × B), allora φ è differenziabile in A e

∇φ( x ) = [ I − ∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x ))

Dimostrazione. Sia x ∈ A, fissato; usando la dimostrazione del


teorema 14.8 si prova che esiste uno ed un solo φ( x ) ∈ Rm tale che

f ( x, φ( x )) = φ( x )

Vediamo che φ è continua in A. Sia h ∈ Rn tale che x + h ∈ A; si ha

kφ( x + h) − φ( x )k = k f ( x + h, φ( x + h)) − f ( x, φ( x ))k ≤


≤ k f ( x + h, φ( x + h)) − f ( x + h, φ( x ))k+
+ k f ( x + h, φ( x )) − f ( x, φ( x ))k ≤
≤ αkφ( x + h) − φ( x )k + k f ( x + h, φ( x )) − f ( x, φ( x ))k

da cui

1
(25.2) kφ( x + h) − φ( x )k ≤ k f ( x + h, φ( x )) − f ( x, φ( x ))k
1−α
e φ è continua.
Se inoltre f è differenziabile, si ha

φ( x + h) − φ( x ) = f ( x + h, φ( x + h)) − f ( x, φ( x )) =
= ∇ x f ( x, φ( x ))h + ∇y f ( x, φ( x ))k(h) + k(h, k(h))kω (h, k(h))

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


98 o.caligaris - p.oliva

ove k(h) = φ( x + h) − φ( x ) e ω (h, k) → 0 per (h, k) → 0.


Pertanto

( I − ∇y f ( x, φ( x )))k(h) = ∇ x f ( x, φ( x ))h + k(h, k(h))kω (h, k(h))

Dal momento che

k[ I − ∇y f ( x, y)]kk = kk − [ f ( x, y + k) − f ( x, y)] + kkkω (k)k ≥


≥ kk + kkkω (k)k − k f ( x, y + k) − f ( x, y)k ≥
≥ kkk − kkkkω (k)k − αkkk ≥
≥ kkk(1 − kω (k)k − α) ≥
≥ βkkk

con β > 0, per ogni k di norma sufficientemente piccola, si ha

k[ I − ∇y f ( x, y)]kk ≥ βkkk ∀k

e
[ I − ∇y f ( x, y)]k = 0 ⇔ k = 0
ne segue
det[ I − ∇y f ( x, y)] 6= 0
e [ I − ∇y f ( x, y)] è invertibile. Quindi

φ( x + h) − φ( x ) = k(h) = ( I − ∇y f ( x, φ( x )))−1 ∇ x f ( x, φ( x ))h+

+k(h, k(h))k( I − ∇y f ( x, φ( x )))−1 ω (h, k(h))


Per la continuità di φ si ha k (h) → 0 quando h → 0 e quindi la tesi
non appena si sia tenuto conto che

k(h, k(h))k khk + kk(h)k


≤ ≤M
khk khk
in quanto, per la (25.2),

1
kφ( x + h) − φ( x )k ≤ sup{k∇ x f ( x + ξh0 , φ( x )) : 0 < ξ < 1}khk.
1−α
2
Proviamo ora la generalizzazione del teorema di Dini al caso di più
variabili:

Teorema 7.29 - funzioni implicite - Sia f : A × B −→ Rm , A = { x ∈


Rn : k x − x0 k < a}, B = {y ∈ Rm : ky − y0 k < b} e supponiamo che:

• f ∈ C 1 ( A × B)

• f ( x0 , y0 ) = 0

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 99

• ∇y f ( x0 , y0 ) sia invertibile.

Allora esistono ρ, δ > 0 ed esiste una funzione φ : D −→ E ove D =


{ x ∈ Rn : k x − x0 k < ρ} ed E = {y ∈ Rm : ky − y0 k < δ} tali che

• φ ( x0 ) = y0

• f ( x, y) = 0 ⇔ y = φ( x ), ∀ x ∈ D

• φ è differenziabile in D e si ha

∇φ( x ) = −[∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x )) ∀ x ∈ D.

Dimostrazione. Osserviamo innanzi tutto che ∇y f ( x0 , y0 ) è inver-


tibile se e solo se det(∇y f ( x0 , y0 )) 6= 0 e pertanto è possibile tro-
vare α, β > 0 in modo che, se k x − x0 k < α e ky − y0 k < β, si ha
det(∇y f ( x, y)) 6= 0 e quindi ∇y f ( x, y) è invertibile.
Poniamo Q0 = ∇y f ( x0 , y0 ) e definiamo F : A × B −→ Rm mediante
la
F ( x, y) = y − Q0−1 f ( x, y)

Si ha

F ( x0 , y0 ) = y0 ed anche ∇y F ( x0 , y0 ) = I − Q0−1 Q0 = 0,

pertanto, se k x − x0 k ≤ γ e ky − y0 k ≤ δ, si ha

k∇y F ( x, y)k ≤ 1/2

Ne segue che, se k x − x0 k ≤ γ e ky − y0 k ≤ δ, si ha (25.3)

k F ( x, y1 ) − F ( x, y2 )k ≤ (1/2)ky1 − y2 k

ed inoltre, fissato ε < δ/2, è possibile trovare ρ > 0 in modo che se


k x − x0 k < ρ si abbia

k F ( x, y0 ) − F ( x0 , y0 )k < ε
Definiamo allora

D = { x ∈ Rn : k x − x 0 k < ρ } E = { y ∈ Rm : k y − y 0 k < δ } ;

avremo che
F : D × E −→ E in quanto

k F ( x, y) − y0 k = k F ( x, y) − F ( x0 , y0 )k ≤

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


100 o.caligaris - p.oliva

≤ k F ( x, y) − F ( x, y0 )k + k F ( x, y0 ) − F ( x0 , y0 )k ≤
≤ (1/2)ky − y0 k + ε ≤ δ/2 + δ/2 = δ.
Dal momento che è già stato provato che F ( x, )˙ è una contrazione su E,
si veda la (25.3), possiamo applicare il teorema 25.47 ed affermare che
esiste una ed una sola funzione φ : D −→ E continua e differenziabile
tale che

F ( x, y) = y ⇔ y = φ( x ), ∀ x ∈ D;
per tale funzione si avrà allora

(25.4) f ( x, y) = 0 ⇔ y = φ( x ), ∀x ∈ D

e per completare la dimostrazione basta trovare l’espressione di ∇φ( x ).


A tale scopo osserviamo che, differenziando la (25.4), si ottiene

∇ x f ( x, φ( x )) + ∇y f ( x, φ( x ))∇φ( x ) = 0
da cui, usando il fatto che ∇y f ( x, y) è invertibile in D

[∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x )) + ∇φ( x ) = 0

e la tesi. 2

Teorema 7.30 - invertibilità locale - Sia f : A −→ Rn , A = { x ∈ Rn :


k x − x0 k < α} e supponiamo che f ∈ C 1 ( A × B); supponiamo inoltre che
∇ f ( x0 ) sia invertibile e poniamo y0 = f ( x0 ).
Allora esistono ρ, δ > 0 tali che, posto D = { x ∈ Rn : k x − x0 k < ρ}
ed E = {y ∈ Rn : ky − y0 k < δ}, esiste una funzione g : E −→ D inversa
di f : D −→ E, g ∈ C 1 ( E),

∇ g(y) = [∇ f ( g(y))]−1 ∀y ∈ E.

Dimostrazione. Consideriamo F : A × Rn −→ Rn definita da

F ( x, y) = f ( x ) − y

Ad F è possibile applicare il teorema 25.48 ed è possibile affermare che


esistono

D 0 = { x ∈ Rn : k x − x0 k < ρ 0 } E 0 = { y ∈ Rn : k y − y 0 k < δ 0 }

ed esiste una funzione g : E0 −→ D 0 tale che

f ( g(y)) = y ∀y ∈ E0

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 101

g risulta inoltre differenziabile in E’ e si ha

∇ g(y) = [∇ f ( g(y))]−1 ∀y ∈ E0

E’ pertanto possibile applicare il teorema 25.48 anche alla funzione


G : D 0 × E0 −→ D 0 definita mediante la

G ( x, y) = g(y) − x

e si può affermare che esistono

D” = { x ∈ Rn : k x − x0 k < ρ”} E” = {y ∈ Rn : ky − y0 k < δ”}

ed esiste una funzione h : D” −→ E” tale che

g(h( x )) = x ∀ x ∈ D”

Siano allora D = D 0 ∩ D” ed E = E0 ∩ E”, si ha

f , h : D −→ E e g : E −→ D

ed inoltre
f ( g(y)) = y ∀y ∈ E
g(h( x )) = x ∀ x ∈ D
per cui
h( x ) = f ( g(h( x ))) = f ( x ) ∀ x ∈ D
e risulta che g : E −→ D è l’inversa di f : D −→ E. Vediamo

ora come si può applicare il teorema di invertibilità locale che abbiamo


appena dimostrato allo studio dei massimi e dei minimi vincolati. 2

7.10 Massimi e Minimi Vincolati - Moltiplicatori di Lagrange

Definizione 7.14 Sia f : A −→ R e sia g : A −→ Rm , A ⊂ Rn ; diciamo


che x0 ∈ A è un punto di massimo (o di minimo) relativo per f vincolato a g
se g( x0 ) = 0 e se esiste δ > 0 tale che

f ( x ) ≤ f ( x0 ) ( f ( x ) ≥ f ( x0 ) ) ∀ x ∈ { x ∈ A : g ( x ) = 0} ∩ S ( x0 , δ ).

A tale proposito possiamo provare il seguente risultato.

Teorema 7.31 - dei moltiplicatori di Lagrange - Siano f : A −→ R e


g : A −→ Rm , A ⊂ Rn , m < n, A aperto, f , g ∈ C 1 ( A); supponiamo
inoltre che f abbia in x0 ∈ A un punto di minimo (o di massimo) relativo
vincolato a g.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


102 o.caligaris - p.oliva

Allora esistono λ ∈ Rm e µ ∈ R non contemporaneamente nulli e tali che


m
µ∇ f ( x0 ) + ∑ λi ∇ gi ( x0 ) = 0.
i =1

Inoltre, se ∇ g( x0 ) ha caratteristica massima (= m), allora µ 6= 0 e si può


supporre µ = 1.

Teorema 7.32 Siano f : A −→ R e g : A −→ Rm , A ⊂ Rn aperto,


m < n, f , g ∈ C 1 ( A), x0 ∈ A; supponiamo che esista δ > 0 tale che

f ( x0 ) ≤ f ( x ), ∀ x ∈ { x ∈ A : gi ( x ) ≤ 0, i = 1, .., m } ∩ S( x0 , δ)

Allora, esistono µ ∈ R, λ ∈ Rm tali che


m
µ ∇ f ( x 0 ) + ∑ λ i ∇ gi ( x 0 ) = 0
i =1

essendo λi = 0 se gi ( x0 ) < 0.
Se inoltre ∇ g( x0 ) ha caratteristica massima, si può supporre µ = 1 e si
ha
λi ≥ 0 se gi ( x0 ) = 0.

Teorema 7.33 - Kuhn-Tucker - Sia A ⊂ Rn aperto, convesso e siano


f , gi : A −→ R, i = 1, 2, ..., m funzioni convesse; supponiamo che f , gi ∈
C 1 ( A) e che x0 ∈ A sia scelto in modo che

gi ( x0 ) = 0 per i = 1, 2, ..., k < m

gi ( x0 ) < 0 per i = k + 1, ..., m


Supponiamo inoltre che x0 sia estremale per la funzione
k
F ( x ) = f ( x ) + ∑ λ i gi ( x )
i =1

essendo λi ≥ 0 per i = 1, 2, ..., k ; allora

f ( x0 ) ≤ f ( x ) ∀ x ∈ A tali che gi ( x ) ≤ 0.

Teorema 7.34 Sia f : A −→ R, A ⊂ Rn convesso, chiuso e limitato, f


convessa e continua; allora il massimo di f in A è assunto anche in punti che
sono sulla frontiera di A.

Dimostrazione. Sia

f ( x ) = max{ f (y) : y ∈ A}

allora, se x è interno ad A, detti y, z ∈ A gli estremi del segmento


ottenuto intersecando A con una qualunque retta passante per x, si ha

x = λy + (1 − λ)z

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 103

e
f ( x ) ≤ λ f (y) + (1 − λ) f (z) ≤ max{ f (y), f (z)}

2
Osservazione.Nel caso in cui A sia poliedrale, cioè se

A = { x ∈ Rn : gi ( x ) ≤ 0, gi lineare, i = 1, .., m }

il massimo si può cercare solo tra i vertici della frontiera.

7.11 Teorema dei Moltiplicatori di Lagrange

Teorema 7.35 - moltiplicatori di Lagrange - Siano f : A −→ R e g : A −→


Rm , A ⊂ Rn , m < n, A aperto, f , g ∈ C 1 ( A); supponiamo inoltre che f
abbia in x0 ∈ A un punto di minimo (o di massimo) relativo vincolato a g.
Allora esistono λ ∈ Rm e µ ∈ R non contemporaneamente nulli e tali che
m
µ∇ f ( x0 ) + ∑ λi ∇ gi ( x0 ) = 0.
i =1

Inoltre, se ∇ g( x0 ) ha caratteristica massima (= m), allora µ 6= 0 e si può


supporre µ = 1.

Dimostrazione. Poiché A è un insieme aperto, possiamo supporre


che A sia un rettangolo.
Definiamo F : A −→ Rm+1 mediante la

F ( x ) = ( f ( x ) − f ( x0 ), g( x ))

∇ F ( x0 ) è una matrice (m + 1) × n; supponiamo che la sua caratteri-


stica sia (m + 1). Allora esiste un suo minore di ordine (m + 1) con
determinante non nullo; supponiamo che esso sia formato dalle prime
(m + 1) colonne, che corrispondono alle prime (m + 1) componenti di
un elemento di Rn e poniamo, per x ∈ Rn , x = ( x 0 , x”) ove x 0 ∈ Rm+1
e x” ∈ Rn−m−1 . Indichiamo di conseguenza x0 con ( x00 , x”0 ) e con
A 0 = { x 0 ∈ Rm +1 : x ∈ A } .
Definiamo G : A0 −→ Rm+1 mediante la

G ( x 0 ) = F ( x 0 , x”0 )

Avremo G ( x00 ) = 0 e, per il teorema di invertibilità locale, esisteranno


ρ, δ > 0 tali che, detti

D = { x ∈ Rm+1 : k x − x00 k < ρ}, E = {(t, y) ∈ R × Rm : k(t, y)k < δ}

G : D −→ E è invertibile.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


104 o.caligaris - p.oliva

Sia G −1 : E −→ D la sua inversa; dal momento che (t, 0) ∈ E se


|t| < δ, si ha xt0 = G −1 (t, 0) ∈ D e

(t, 0) = G ( G −1 (t, 0)) = G ( xt0 ) = F ( xt0 , x”0 ) = F ( xt )

non appena si convenga di definire xt = ( xt0 , x”0 ).


Ma allora, per ogni t con |t| < δ

f ( x t ) = f ( x0 ) + t

g( xt ) = 0
e pertanto, poiché G −1 è continua, xt → x0 per t → 0 e x0 non è né un
minimo, né un massimo relativo per f vincolato a g.
Ne viene che la caratteristica di ∇ F ( x0 ) non può essere massima e,
tenuto conto che, !
∇ f ( x0 )
∇ F ( x0 ) =
∇ g ( x0 )
si ha la tesi.
Inoltre se ∇ g( x0 ) ha caratteristica m non può essere µ = 0 in quanto,
se ciò fosse, si avrebbe
m
∑ λ i ∇ gi ( x 0 ) = 0
i =1

con λi non tutti nulli, e ciò non è possibile. 2


I vincoli del tipo g( x ) = 0, ovvero gi ( x ) = 0 per ogni i = 1, .., m,
sono spesso indicati con il nome di vincoli bilaterali, e trovano una
naturale generalizzazione nel caso dei cosiddetti vincoli unilaterali,
che sono espressi da condizioni del tipo gi ( x ) ≤ 0 per ogni i = 1, .., m.
A questo tipo di vincoli può essere facilmente generalizzato il pre-
cedente teorema, che nel caso del minimo (il caso del massimo può
essere trattato in modo analogo) viene ad assumere la seguente forma:

Teorema 7.36 - Siano f : A −→ R e g : A −→ Rm , A ⊂ Rn aperto,


m < n, f , g ∈ C 1 ( A), x0 ∈ A; supponiamo che esista δ > 0 tale che

f ( x0 ) ≤ f ( x ), ∀ x ∈ { x ∈ A : gi ( x ) ≤ 0, i = 1, .., m } ∩ S( x0 , δ)

Allora, esistono µ ∈ R, λ ∈ Rm tali che


m
µ ∇ f ( x 0 ) + ∑ λ i ∇ gi ( x 0 ) = 0
i =1

essendo λi = 0 se gi ( x0 ) < 0.
Se inoltre ∇ g( x0 ) ha caratteristica massima, si puo’ supporre µ = 1 e si
ha
λi ≥ 0 se gi ( x0 ) = 0.

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 105

Dimostrazione. Dal momento che le gi sono funzioni continue, pos-


siamo affermare che, se gi ( x0 ) < 0, allora gi ( x ) < 0 per tutti gli
x ∈ S( x0 , δi ).
Sia I = {i : gi ( x0 ) < 0 }, si ha allora che

f ( x0 ) ≤ f ( x ) ∀ x ∈ { x ∈ A : gi ( x ) = 0, i 6∈ I } ∩ S( x0 , δ0 )

essendo δ0 = min{δi : i ∈ I }, e ci si può ricondurre al teorema


precedente.
Per quanto riguarda l’ultima affermazione, se fosse µ = 0, si avreb-
be
m
∑ λ i ∇ gi ( x 0 ) = 0
i =1
con λi non tutti nulli, e ciò non è possibile.
Per concludere sia a ∈ Rn e sia

ψi (t) = gi ( x0 + ta) i = 1, .., m

Si ha
ψi (0) = 0 ∀i
e, se α ∈ Rm αi > 0 ∀i, è possibile determinare a in modo che

ψi0 (0) = h∇ gi ( x0 ), ai = αi ∀i

Pertanto esiste δ > 0 tale che

ψi (t) = gi ( x0 + ta) ≤ 0 ∀t ∈ (−δ, 0), ∀i

Sia ora
φ(t) = f ( x0 + ta)
allora
φ (0) = f ( x0 )
e
m m
φ0 (0) = h∇ f ( x0 ), ai = − ∑ λi h∇ gi ( x0 ), ai = − ∑ λi αi
i =1 i =1
Quindi, se esistesse j tale che λ j < 0, scelto α ∈ Rm con

1
αj > −
λj ∑ λi αi
i6= j

si avrebbe
φ 0 (0) > 0
da cui, in un opportuno intorno sinistro di 0,

φ(t) = f ( x0 + ta) < f ( x0 ) = φ(0)

e x0 non sarebbe punto di minimo relativo per f vincolato a g. 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]


106 o.caligaris - p.oliva

Teorema 7.37 - Kuhn-Tucker - Sia A ⊂ Rn aperto, convesso e siano


f , gi : A −→ R, i = 1, 2, ..., m funzioni convesse; supponiamo che
f , gi ∈ C 1 ( A) e che x0 ∈ A sia scelto in modo che

gi ( x0 ) = 0 per i = 1, 2, ..., k < m

gi ( x0 ) < 0 per i = k + 1, ..., m


Supponiamo inoltre che x0 sia estremale per la funzione

k
F ( x ) = f ( x ) + ∑ λ i gi ( x )
i =1

essendo λi ≥ 0 per i = 1, 2, ..., k ; allora

f ( x0 ) ≤ f ( x ) ∀ x ∈ A tali che gi ( x ) ≤ 0.

Dimostrazione. Dal momento che F è convessa in A il punto x0 è di


minimo assoluto per F su A e pertanto si ha

f ( x0 ) = F ( x0 ) ≤ F ( x ) ≤ f ( x )

per ogni x ∈ A tale che gi ( x ) < 0 con i = 1, 2, ..., k. 2

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


8. Penalizzazione e moltiplicatori di
Lagrange.

Diamo in questo capitolo una semplice dimostrazione del teorema dei


moltiplicatori di Lagrange (si vedano i teoremi 25.51, 25.52) che è fon-
data su un metodo che è solitamente indicato come ’metodo di pena-
lizzazione’ e che consente di ridurre un problema di minimo vincolato
ad un problema di minimo libero.

Teorema 8.1 Siano f , gi : A −→ R, A ⊂ Rn , f , gi ∈ C 1 ( A) , i =


1, .., p, p + 1, .., q. Sia x0 ∈ A e sia δ > 0 , definiamo

Ω( x0 , δ) = { x ∈ A : gi ( x ) ≤ 0 , i = 1, .., p} ∩ . . .
· · · ∩ { x ∈ A : gi ( x ) = 0 , i = p + 1, .., q} ∩ cl S( x0 , δ)

Supponiamo inoltre che gli indici i siano ordinati in modo che



g (x ) = 0 i = s + 1, .., p
i 0
 gi ( x 0 ) < 0 i≤s
e definiamo φ = ( gs+1 , .., g p , g p+1 , .., gq ).
Supponiamo che x0 ∈ intA sia un punto di minimo relativo per f sotto i
vincoli gi , supponiamo cioè che esista δ > 0 tale che

x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , d ).

Allora esistono µ, λi ∈ R , non tutti nulli tali che



 q

 µ ∇ f ( x 0 ) + ∑ i = 1 λ i ∇ gi ( x 0 ) = 0


µ ≥ 0

 λi = 0 i≤s



 λi ≥ 0 i = s + 1, .., p.

Se di più ∇φ( x0 ) ha caratteristica massima, si ha µ 6= 0 e si può supporre


µ = 1.

Dimostrazione. Definiamo

gi+ ( x ) = max { gi ( x ), 0),


108 o.caligaris - p.oliva

p q
Φ( x ) = ∑ ( gi+ (x))2 + ∑ ( gi ( x ))2
i =1 i = p +1

e
Fn ( x ) = f ( x ) + k x − x0 k2 + nΦ( x ).

Sia δ > 0 tale che

x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , δ ).

Fn ammette minimo assoluto su cl S( x0 , δ); supporremo tale minimo


assunto nel punto xn ∈ cl S( x0 , δ).
E’ intanto ovvio che, a meno di considerare una estratta, xn → x̂;
proviamo di più che x̂ = x0 .
Posto
m = min{ f ( x ) : x ∈ cl S( x0 , δ)}

si ha

m + nΦ( xn ) ≤ f ( xn ) + nΦ( xn ) ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )

e
f ( x0 ) − m
0 ≤ Φ( xn ) ≤ .
n
Pertanto

0 = lim Φ( xn ) = Φ( x̂ ) e x̂ ∈ Ω( x0 , δ).

Perciò si ha

f ( xn ) + k xn − x0 k2 ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )

e
f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 ).

Ricordando che x̂ ∈ Ω( x0 , δ) si ha

f ( x0 ) + k x̂ − x0 k2 ≤ f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 )

e
k x̂ − x0 k2 ≤ 0
da cui
x̂ = x0 .

Usando il teorema 25.34 e tenendo conto che, se n è sufficientemente


grande, xn ∈ S( x0 , δ) si ha che

p q
∇ f ( xn ) + 2( xn − x0 ) + ∑ 2ngi+ ( xn )∇ gi ( xn ) + ∑ 2ngi ( xn )∇ gi ( xn ) = 0.
i =1 i = p +1

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 109

Pertanto, posto

Ln = (1, 2ng1+ ( xn ), .., 2ng+


p ( xn ) , 2ng p+1 ( xn ) , .., 2ngq ( xn ))

e
Mn = L n / k L n k ,
si ha
k Mn k = 1.
Indichiamo

Mn = (µn , λ1,n , .., λs,n , λs+1,n , .., λ p,n , λ p+1,n , .., λq,n )

essendo µn e λi,n non tutti nulli; inoltre, dal momento che xn → x0 e


gi ( x0 ) < 0 per i ≤ s, si ha

λi,n = 2ngi+ ( xn ) = 0

per n sufficientemente grande e i ≤ s.


Si può allora affermare che
q
µn (∇ f ( xn ) + 2( xn − x0 )) + ∑ λi,n ∇ gi ( xn ) = 0
i =1

con
µn , λi,n ≥ 0 per i = s + 1, .., p , λi,n = 0 per i ≤ s.

Poiché k Mn k = 1 si può supporre, a meno di una estratta,

µn → µ , λi,n → λi , k(µ, λ1 , .., λq )k = 1

onde µ e λi non sono tutti nulli, e λi = 0 per i ≤ s .


Passando al limite si ottiene
q
µ∇ f ( x0 ) + ∑ λi ∇ gi ( x0 ) = 0.
i =1

Infine, poiché λi = 0 per i ≤ s, se fosse µ = 0 si avrebbe che il


sistema
q
∑ λ i ∇ gi ( x 0 ) = 0
i = s +1

ammette la soluzione non banale (λs+1 , .., λq ) e perciò la caratteristica


di ∇φ( x0 ) = (∇ gs+1 ( x0 ), .., ∇ gq ( x0 )) non potrebbe essere massima. 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


9. Integrazione Delle Funzioni Di
Piu’ Variabili.

La teoria dell’integrazione per le funzioni reali di più varia-


bili deve tenere conto che si può integrare su sottoinsiemi di
dimensione non necessariamente uguale al numero delle variabili.

Ad esempio se f dipende da 3 variabili reali avremo bisogno di defi-


nire cosa si intende per integrale di f su un sottoinsieme di R3 , che
possiamo intuitivamente definire come un solido (dimensione=3), una
superficie (dimensione=2) o una linea (dimensione=1).
Ricordiamo esplicitamente che il concetto di dimensione non è sem-
plice nè univocamente individuato: possiamo parlare di dimensio-
ne vettoriale, di dimensione topologica, di dimensione frattale; qui
abbiamo fatto semplicemente ricorso ad un concetto intuitivo che si
potrebbe precisare, ed in parte si preciserà, parlando di dimensione
topologica.
Per semplificare le notazioni e per facilitare la comprensione descri-
veremo il caso delle funzioni di 3 variabili, essendo facile estendere i
concetti al caso delle funzioni con più variabili, a prezzo di una certa
complicazione delle notazioni.

9.1 Integrali Multipli

Cominciamo con il dare la definizione di integrale di una funzione


limitata su una classe particolare di sottoinsiemi di R3 gli intervalli;
successivamente estenderemo la definizione ad una più generale classe
di insiemi.

9.1.1 Definizione di Integrale


Definizione 9.1 Siano I1 , I2 , I3 intervalli chiusi e limitati, Ii = [ ai , bi ], della
retta reale.
112 o.caligaris - p.oliva

Diciamo che
R = I1 × I2 × I3

è un intervallo chiuso e limitato in R3 .

Nel seguito intenderemo riferirci sempre ad un intervallo chiuso


e limitato, anche se queste due proprietà non saranno esplicitamente
menzionate.
L’interno di R risulta essere

int R = ( a1 , b1 ) × ( a2 , b2 ) × ( a3 , b3 )

Definizione 9.2 Sia R un intervallo in R3 ; chiamiamo partizione di R il


prodotto cartesiano P = P1 × P2 × P3 dove Pi è una partizione dell’intervallo
Ii
Denoteremo con P ( R) l’insieme di tutte le partizioni dell’intervallo R.
Se P ∈ P ( R), i punti di P dividono R in un numero N di intervalli chiusi
la cui unione è R. Tali intervalli saranno indicati con

{ Rk : k = 1, 2, ..., N }

Definizione 9.3 Sia R un intervallo in R3 e siano P, Q ∈ P ( R); diciamo


che P è una partizione più fine di Q e scriviamo P < Q se P ⊃ Q.
In altre parole P è più fine di Q se e solo se ognuno degli intervalli in cui
P suddivide R è contenuto in uno degli intervalli in cui Q suddivide R.

Definizione 9.4 Sia R un intervallo in R3 , definiamo misura di R il numero

mis R = (b1 − a1 )(b2 − a2 )(b3 − a3 )

Definizione 9.5 Sia R un intervallo e sia P ∈ P ( R); siano Rk , k =


1, 2, .., N, gli intervalli in cui la partizione P suddivide R.
Sia f : R −→ R una funzione limitata e supponiamo che

m ≤ f (x) ≤ M ∀x ∈ R

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 113

Definiamo
mk = inf{ f ( x ) : x ∈ Rk }

Mk = sup{ f ( x ) : x ∈ Rk }

definiamo inoltre
N
L( f , P) = ∑ mk mis Rk
k =1

N
U ( f , P) = ∑ Mk mis Rk
k =1

N
R( f , P, Ξ) = ∑ f (ξ k ) mis Rk , ξ k ∈ Rk
k =1

essendo Ξ una funzione di scelta che assegna ad ogni intervallo Rk un punto


ξk.
L( f , P) ed U ( f , P) si dicono rispettivamente somme inferiori e somme
superiori di f rispetto alla partizione P. R( f , P, Ξ) si dice somma di Riemann
di f rispetto alla partizione P e dipende, come è espressamente indicato, anche
dalla scelta dei punti ξ k in Rk .

Esattamente come nel caso di una funzione reale di una variabile


reale si può provare che

Teorema 9.1 Siano R un intervallo di R3 , f : R −→ R limitata, allora, se


P, Q ∈ P ( R) e se P < Q

m mis R ≤ L( f , Q) ≤ L( f , P) ≤ R( f , P, Ξ) ≤ U ( f , P) ≤ U ( f , Q) ≤ M mis R

e per ogni P, Q ∈ P ( R)

m mis R ≤ L( f , Q) ≤ U ( f , P) ≤ M mis R

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


114 o.caligaris - p.oliva

Definizione 9.6 Sia R un intervallo in R3 e sia f : R −→ R una funzione


limitata, definiamo

Z –
f ( x )dx = inf{U ( f , P) : P ∈ P ( R)}
R
Z
f ( x )dx = sup{ L( f , P) : P ∈ P ( R)}
R

essi si dicono rispettivamente, integrale superiore ed integrale inferiore della
funzione f sull’ intervallo R.

E’ immediato provare che

Z Z –
m mis R ≤ f ( x )dx ≤ f ( x )dx ≤ M mis R
R R

Si è definito l’integrale superiore e l’integrale inferiore usando par-


tizioni del rettangolo di base R in rettangoli chiusi. Vediamo che si
giunge allo stesso valore se si considerano questi ultimi rettangoli
aperti.

Definizione 9.7 Sia R ⊂ Rn un rettangolo, sia P ∈ P ( R), sia f : R −→ R


una funzione limitata e siano Rk , k = 1, .., N, i rettangoli in cui P divide R.
Definiamo
m0k = inf{ f ( x ) : x ∈ int Rk }

Mk0 = sup{ f ( x ) : x ∈ int Rk }

N N
L0 ( f , P) = ∑ m0k misRk , U 0 ( f , P) = ∑ Mk0 mis Rk
k =1 k =1
Z 0
f ( x )dx = sup{ L0 ( f , P) : P ∈ P ( R)}
−R

Z −0
f ( x )dx = inf{U 0 ( f , P) : P ∈ P ( R) }.
R

Osserviamo che m0k ≥ mk , Mk0 ≤ Mk e che pertanto si ha

L( f , P) ≤ L0 ( f , P) ≤ U 0 ( f , P) ≤ U ( f , P)

da cui
Z Z 0 Z −0 Z −
f ( x )dx ≤ f ( x )dx ≤ f ( x )dx ≤ f ( x )dx
−R −R R R

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 115

Si può però provare che

Lemma 9.1 Sia R ⊂ Rn un rettangolo e sia f : R −→ Rn una funzione


limitata; si ha
Z 0 Z Z −0 Z −
f ( x )dx = f ( x )dx , f ( x )dx = f ( x )dx
−R −R R R

Dimostrazione. Ci limitiamo a provare la prima delle due uguaglian-


ze. Sia

P ∈ P ( R) , P = ×in=1 Pi , Pi = { xij : j = 0, 1, ..., Ni }

e consideriamo la partizione Pε = P ∪ { xij ± ε}.


Siano Rk , k = 1, .., N i rettangoli in cui P divide R e siano Sk , k =
1, .., N 0 , N 0 > N, i rettangoli in cui Pε divide R; conveniamo inoltre di
indicare con Sk , k = 1, .., N, i rettangoli ottenuti restringendo i lati dei
rettangoli Rk , che indicheremo con ik , della quantità 2ε.
Ovviamente, se k = 1, .., N, si ha Sk ⊂ int Rk ,

mεk = inf{ f ( x ) : x ∈ Sk } ≥ inf{ f ( x ) : x ∈ int Rk } = m0k

mis Sk = mis Rk − ω1k (ε)

non appena si definisca

k
ω1k (ε) = ∏ − ∏(ik −2ε)
i

Si ha ovviamente
lim ω1k (ε) = 0
ε →0

Ora

N0
L( f , Pε ) = ∑ mεk mis Sk =
k =1
N N0
= ∑ mεk misSk + ∑ mεk mis Sk ≥
k =1 k = N +1
N
≥ ∑ m0k (mis Rk − ω1k (ε)) + m ω2 (ε)
k =1

se definiamo ancora
N k N
ω2 ( ε ) = ∑ (∏ − ∏(ik −2ε)) = ∑ ω1k (ε)
k =1 i k =1

per cui si ha
lim ω2 (ε) = 0
ε →0

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


116 o.caligaris - p.oliva

Ma allora
L( f , Pε ) ≥ L0 ( f , P) − ω (ε), lim ω (ε) = 0
ε →0
e ne viene Z Z 0
f ( x )dx ≥ f ( x )dx
−R −R
l’uguaglianza segue tenendo conto delle precedenti considerazioni. 2

9.1.2 Condizioni di Integrabilità - Proprietà degli Integrali


Definizione 9.8 Sia R un intervallo in R3 e sia f : R −→ R una funzione
limitata; diciamo che:

• f è integrabile se
Z Z –
f ( x )dx = f ( x )dx
R R

ed il valore comune ai due integrali superiore ed inferiore si chiama sem-
plicemente integrale di f su R e si denota
Z
f ( x )dx
R

• f soddisfa la condizione di integrabilità se ∀ε > 0 ∃ Pε ∈ P ( R) tale che


0 ≤ U ( f , Pε ) − L( f , Pε ) < ε;

• f è integrabile secondo Cauchy-Riemann se ∃ I ∈ R tale che ∀ε > 0 ∃ Pε ∈


P ( R) tale che se P ∈ P ( R), P < Pε si ha | R( f , P, Ξ) − I | < ε ∀Ξ ; il
valore I si chiama anche questa volta integrale di f su R.

Osserviamo che se la condizione di integrabilità è soddisfatta


se e solo se
comunque si scelga P ∈ P ( R), P < Pε si ha

0 ≤ U ( f , P) − L( f , P) ≤ U ( f , Pε ) − L( f , Pε ) < ε.

Come per una sola variabile, si enuncia e si prova che

Teorema 9.2 Sia R un intervallo in R3 e sia f : R −→ R una funzione


limitata; sono fatti equivalenti:

• f è integrabile

• f soddisfa la condizione di integrabilità

• f è integrabile secondo Cauchy-Riemann.

Teorema 9.3 Sia R un intervallo in R3 e siano f , g : R −→ R funzioni


limitate ed integrabili su R; allora

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 117

• ∀α, β > 0, α f + βg è integrabile su R e


Z Z Z
[α f ( x ) + βg( x )]dx = α f ( x )dx + β g( x )dx
R R R

• f g è integrabile su R;

• se S e T sono intervalli in R3 tali che R = S ∪ T e mis(S ∩ T ) = 0,


Z Z Z
f ( x )dx = f ( x )dx + f ( x )dx
R S T

• se f ≥ 0 Z
f ( x )dx ≥ 0
R

• se f ≥ g Z Z
f ( x )dx ≥ g( x )dx
R R

• se f è continua, f ≥ 0,
Z
f ( x )dx = 0 ⇒ f ≡ 0
R

• | f | è integrabile su R e
Z Z

f ( x )dx ≤ | f ( x )|dx
R R

se S e T sono intervalli, S ⊂ T ⊂ R e se f ≥ 0,
Z Z
f ( x )dx ≤ f ( x )dx
S T

Teorema 9.4 Se f : R −→ R, R ⊂ R3 intervallo, è continua, allora f


è integrabile.

9.1.3 Formule di Riduzione


L’integrale che abbiamo definito non può tuttavia essere calcolato, co-
me per il caso delle funzioni di una variabile reale, facendo uso del
concetto di primitiva in R3 ; il concetto di primitiva ed il teorema
fondamentale del calcolo integrale trovano la loro naturale estensio-
ne nell’ambito delle forme differenziali e del teorema di Stokes, di cui
parleremo più avanti.
Il calcolo di integrali multipli si può però ricondurre al calcolo di
più integrali semplici mediante quelle che si chiamano formule di
riduzione.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


118 o.caligaris - p.oliva

Se A ⊂ R3 , la funzione

χ A : R3 −→ R

definita da 
1 x∈A
χ A (x) =
0 x 6∈ A

si chiama funzione caratteristica di A.

Teorema 9.5 Sia R un intervallo in R3 e sia f : R −→ R integrabile.


Allora si ha
Z Z b Z b2 Z b3
1
f ( x )dx = f ( x1 , x2 , x3 )dx3 dx2 dx1
R a1 a2 a3

ogniqualvolta esiste il secondo membro.

Dimostrazione. Se P ∈ P ( R), Rk = ×[ aki , bki ], allora si ha

m k χ R k ( x ) ≤ f ( x ) ≤ Mk χ R k ( x ) ∀ x ∈ Rk

integrando n volte su [ aki , bki ] e sommando su k si ottiene


Z b Z bn
1
∑ mk mis Rk ≤ a1
...
an
f ( x1 , .., xn )dxn ..dx1 ≤ ∑ Mk mis Rk
Poiché f è integrabile, soddisfa il criterio di integrabilità, e si ha la tesi.
2
E’ necessario estendere la nozione di integrabilità su insiemi che
siano più generali di un intervallo in R3 .
A questo scopo occorre precisare la classe dei sottoinsiemi di R3 sui
quali è possibile integrare una funzione.

9.1.4 Misura di sottoinsiemi di R3


Definizione 9.9 Sia A ⊂ R3 un insieme limitato e sia R un intervallo che
contiene A. Definiamo
Figura 9.1:
Z Z –
− +
mis ( A) = χ A ( x )dx , mis ( A) = χ A ( x )dx
R R

mis− ( A) e mis+ ( A) si dicono, rispettivamente misura interna e misura
esterna di A.
Diciamo che A è un sottoinsieme misurabile di R3 se mis− ( A) = mis+ ( A);
in tal caso definiamo mis( A), misura di A, il loro comune valore.

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 119

E’ immediato verificare che la precedente definizione non di-


pende dalla scelta dell’ intervallo R tra tutti quelli che contengono
A.
Si può inoltre verificare che

mis− ( A) = sup L(χ A , P) mis+ ( A) = inf U (χ A , P)


P∈P ( R) P∈P ( R)

In altre parole

• mis− ( A) è l’estremo superiore delle somme delle misure degli


intervalli chiusi che sono contenute in A

• mis+ ( A) è l’estremo inferiore delle somme delle misure degli


intervalli chiusi che contengono punti di A

Infine si può vedere con qualche attenzione che l’estremo su-


periore e l’estremo inferiore non cambiano se si considerano
intervalli aperti in luogo degli intervalli chiusi.

È intuitivamente evidente, si veda la figura ??, anche se non imme-


diato da dimostrare che

Teorema 9.6 Sia A ⊂ R3 un sottoinsieme limitato, allora

mis+ (∂A) = mis+ ( A) − mis− ( A).

Dimostrazione. Sia R un rettangolo, A ⊂ R e sia P ∈ P ( R). Si ha

U 0 (χ∂A , P) = U 0 (χ A , P) − L0 (χ A , P)

Infatti se Rk è un rettangolo che contiene al suo interno un punto x ∈


∂A, allora Rk contiene anche punti di A e di Ac , perché contiene S( x, δ)
con δ opportuno. Se viceversa esistono x, y ∈ intRk , x ∈ A, y ∈ Ac ,
allora µx + (1 − µ)y ∈ ∂A se µ = sup{λ ∈ [0, 1] : λx + (1 − λ)y ∈ A}.
Pertanto si ha

mis+ (∂A) ≥ mis+ ( A) − mis− ( A)

Sia ora ε > 0 e sia Pε ∈ P ( R) scelta in modo che

U 0 (χ A , Pε ) ≤ mis+ ( A) + ε

L0 (χ A , Pε ) ≥ mis− ( A) − ε
Allora

mis+ ( A) − mis− ( A) + 2ε ≥ U 0 (χ A , Pε ) − L0 (χ A , Pε ) =
= U 0 (χ∂A , Pε ) ≥ mis+ (∂A)

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


120 o.caligaris - p.oliva

e
mis+ ( A) − mis− ( A) ≥ mis+ (∂A).

Osservato che si ha

0 ≤ mis− (∂A) ≤ mis+ (∂A) = mis+ ( A) − mis− ( A)

2
si può facilmente vedere che

Teorema 9.7 Sia A ⊂ Rn , limitato, allora A è misurabile se e solo se ∂A è


misurabile ed ha misura nulla.

Osserviamo anche che

mis A = 0 ⇔ ∀ε > 0 ∃ Pε ∈ P ( R) : U 0 (χ A , Pε ) < ε

Inoltre, tenuto conto che, se mis A = mis B = 0 allora mis A ∪ B =


0, dal precedente teorema e dal fatto che

∂( A ∪ B) ⊂ ∂A ∪ ∂B ∂( A ∩ B) ⊂ ∂A ∪ ∂B ∂( A \ B) ⊂ ∂A ∪ ∂B

si ottiene che, se A e B sono misurabili, allora A ∪ B, A ∩ B,


A \ B sono misurabili.
Infine, tenendo conto che

χ A∪ B = χ A + χ B − χ A∩ B

si ottiene

mis A ∪ B = mis A + mis B − mis A ∩ B

Abbiamo con ciò che, se A, B ⊂ R3 sono misurabili e disgiunti,


e se x ∈ R3 , si ha

• mis A ≥ 0

• mis A ∪ B = mis A + mis B

• mis( x + A) = mis A

• mis(×in=1 [0, 1]) = 1

Si potrebbe anche vedere che tali proprietà sono, da sole, in


grado di caratterizzare la misura sui sottoinsiemi di R3

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 121

Teorema 9.8 Sia R ⊂ Rn un rettangolo e sia f : R −→ R limitata; sup-


poniamo inoltre f continua in R \ D, misD = 0, allora f è integrabile in
R.

Dimostrazione. Sia | f ( x )| ≤ M ∀ x ∈ R e sia Pε ∈ P ( R) tale che

U 0 (χ D , Pε ) < ε/(4M)
S
Se S = RkD essendo l’unione estesa a tutti i rettangoli aperti che
contengono punti di D si ha che R \ S è chiuso, f è continua su R \ S
e, per il teorema di Heine-Cantor, è possibile, a meno di raffinare la
partizione, far sì che

Mk0 − m0k < ε/(2 mis R)

Ma allora

U 0 ( f , Pε ) − L0 ( f , Pε ) < ∑( Mk0 − m0k ) mis Rk + 2M mis S ≤


ε ε
≤ mis R + 2M = ε
2 mis R 4M
2

Teorema 9.9 Sia f : A −→ Rm continua, A ⊂ Rn chiuso e limitato, allora

mis( gph f ) = 0.

Dimostrazione. Dal momento che f è continua su A, che è chiuso


e limitato, f è limitata essa stessa e si ha che gph f ⊂ R ove R è un
opportuno rettangolo di Rn+m .
Dal momento che f è uniformemente continua su A, si ha che ∀ε >
0 ∃δ(ε) > 0 tale che se | xi − yi | < δ(ε) si ha

| f j ( x ) − f j (y)| < ε , ∀i = 1, .., n , ∀ j = 1, .., m

Siano
Pε = ×in=1 Pi , Qε = ×m
j =1 Q j

dove Pi = { xik } è una partizione scelta in modo che ∆( Pi ) < δ(ε) e


Q j = {mijk , Mijk }, ove

mijk = min{ f j ( x ) : x ∈ [ xik , xi,k+1 ]}

Mijk = max { f j ( x ) : x ∈ [ xik , xi,k+1 ]}


Allora
mis+ ( gph f ) ≤ ε mis R
e
mis+ ( gph f ) = 0.
2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


122 o.caligaris - p.oliva

Corollario 9.1 - Siano g,f: A −→ R, A ⊂ Rn chiuso e limitato; allora, se


f e g sono continue

{( x, y) ∈ Rn+1 : g( x ) ≤ y ≤ f ( x )}
è misurabile.

Teorema 9.10 Sia f : A −→ R, A ⊂ Rn chiuso, limitato e misurabile; f


continua in A \ D, mis D = 0. Allora f è integrabile su A.

Dimostrazione. Sia R un rettangolo tale che A ⊂ R; allora χ A ()˙ f ()˙ è


continua su R \ ( D ∪ ∂A) e mis D = mis ∂A = 0. 2

Teorema 9.11 Sia A un dominio normale in Rn+1 e sia f : A −→ R una


funzione continua in A \ D con mis D = 0. Allora f è integrabile su A e si
ha
Z Z
f ( x )dx = χ A ( x ) f ( x )dx =
A R
Z b Z b2 Z b
1 n +1
= ... χ A ( x1 , x2 , ..., xn , y) f ( x1 , x2 , ..., xn , y)dydxn ...dx1 =
a1 a2 a n +1
Z Z h( x )
= f ( x1 , x2 , ..., xn , y)dydxn ... dx1
D g( x )

9.1.5 Integrazione su Domini Normali


Definiamo ora l’integrale di una funzione limitata su un insieme mi-
surabile.

Definizione 9.10 Sia f : R −→ R, A ⊂ R ⊂ R3 , A limitato e misurabile,


R intervallo in R3 ; si definisce
Z Z
f ( x )dx = χ A ( x ) f ( x )dx.
A R
E’ banale verificare che la definizione non dipende dalla scelta dell’intervallo
R che contiene A.

Possiamo dare il seguente criterio di integrabilità.

Teorema 9.12 Sia f : A −→ R, A ⊂ R3 chiuso, limitato e misurabile; f


continua in A \ D, mis D = 0. Allora f è integrabile su A.

Definizione 9.11 Diciamo che A ⊂ Rn+1 è un dominio normale in Rn+1


se esistono un insieme D ⊂ Rn chiuso e limitato, e due funzioni continue
g, h : D −→ R tali che

A = {( x, y) ∈ Rn × R : x ∈ D , g( x ) ≤ y ≤ h( x )}

oppure se

A = {( x, y) ∈ Rn × R : a ≤ y ≤ b , x ∈ Dy }

dove Dy è un insieme misurabile in Rn .

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 123

e si può verificare che

Ogni dominio normale in Rn+1 è un insieme misurabile.

Pertanto è lecito integrare funzioni continue, a meno di insiemi di


misura nulla, su domini normali e si ha il seguente

Teorema 9.13 Sia A un dominio normale in R3 e sia f : A −→ R una


funzione continua in A \ D con mis D = 0.
Allora f è integrabile su A e si ha

Z Z
f ( x )dx = χ A ( x ) f ( x )dx =
A R
Z b Z b2 Z b3
1
= χ A ( x1 , x2 , x3 , y) f ( x1 , x2 , x3 , y)dydx3 dx2 dx1 =
a1 a2 a3
Z Z h( x ,x2 ,x3 )
1
= f ( x1 , x2 , ..., xn , y)dydx3 dx2 dx1 (9.1)
D g( x1 ,x2 ,x3 )

oppure
Z Z
f ( x )dx = χ A ( x ) f ( x )dx =
A R
Z b Z b2 Z b3
1
= χ A ( x1 , x2 , x3 , y) f ( x1 , x2 , x3 , y)dydx3 dx2 dx1 =
a1 a2 a3
Z bZ
= f ( x1 , x2 , ..., xn , y)dx3 dx2 dx1 dy (9.2)
a Dy

9.1.6 Trasformazione di coordinate in R3


È spesso utile, per tenere conto delle caratteristiche di un insieme,
considerare un cambiamento di variabili in R3 .
Per cambiamento di variabili intendiamo una applicazione

V : R3 → R3

definita da

R3 3 (t, s, r ) 7→ V (t, s, r ) = ( x (t, s, r ), y(t, s, r ), z(t, s, r )) ∈ R3

che risulti di classe C 1 sia invertibile e sia tale che


 
xt yt zt
∂( x, y, z)  
= det  xs ys zs  6= 0
∂(t, s, r )
xr yr zr
Sono esempi di trasformazioni di coordinate

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


124 o.caligaris - p.oliva

• Il cambiamento di variabili lineari




 x = a1 u + b1 v + c1 w

y = a2 u + b2 v + c2 w , u, v, w ∈ R , z ∈ R



z = a3 u + b3 v + c3 w

cioè     
x a1 b1 c1 u
    
 y  =  a2 b2 c2   v 
z a3 b3 c3 w

• Le coordinate cilindriche definite da



x = ρ cos θ

y = ρ sin θ , ρ ∈ [0, +∞) , θ ∈ [0, 2π ] , z ∈ R



z =z

• Le coordinate sferiche definite da


 = ρ cos θ cos φ
x

y = ρ sin θ cos φ , ρ ∈ [0, +∞) , θ ∈ [0, 2π ] , φ ∈ [−π/2, π/2]



z = ρ sin φ

Si verifica in tali casi che

• Per il cambiamento lineare


 
a1 b1 c1
∂( x, y, z)  
= det  a2 b2 c2 
∂(u, v, w)
a3 b3 c3

• Per le coordinate cilindriche

∂( x, y, z)

∂(ρ, θ, z)

• Per le coordinate sferiche


∂( x, y, z)
= ρ cos φ
∂(ρ, θ, φ)

Teorema 9.14 - Cambiamento di variabili per integrali multipli - Sia

φ : B −→ R3

dove B ⊂ R3 aperto e φ ∈ C 1 ( B).

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 125

Supponiamo che A sia un insieme misurabile con cl A ⊂ B, tale che φ è


una funzione invertibile e ∇φ è una matrice invertibile su int A;
allora se f è limitata su φ( A) e continua su intφ( A), si ha
Z Z
f ( x )dx = f (φ( x ))|det(∇φ( x ))|dx.
φ( A) A

Teorema 9.15 cambiamento di variabile per integrali multipli - Sia φ : B −→


Rn , B ⊂ Rn aperto, φ ∈ C 1 ( B) e supponiamo che A sia un insieme misura-
bile, cl A ⊂ B, tale che φ è invertibile e ∇φ è una matrice invertibile su intA;
allora se f è limitata su φ( A) e continua su intφ( A), si ha
Z Z
f ( x )dx = f (φ( x ))|det(∇φ( x ))|dx.
φ( A) A

Diamo una dimostrazione del teorema di cambiamento di variabile


negli integrali multipli nel caso di due variabili ed osserviamo che si
potrebbe estendere al caso generale con poche modifiche.

Lemma 9.2 Sia φ : B → R2 , B ⊂ R2 aperto, φ ∈ C1 ( B), e sia A limitato e


misurabile, con cl A ⊂ B, e det∇φ 6= 0 su int A. Allora

• φ( A) è misurabile e

∀e > 0 ∃ Pe : mis (∪i∈ I Qi ) , mis φ (∪i∈ I Qi ) < e

ove con Qi , i ∈ I, si sono indicati i quadrati che ricoprono la frontiera di


A;
inoltre indicato con Jφ( x ) = |det ∇φ( x )|,

• ∀e > 0 ∃δe > 0 tale che se Q ⊂ A è un quadrato di lato l < δe / 2,

| mis φ( Q) − Jφ(u) mis Q| < e mis Q ∀u ∈ Q.

Dimostrazione. Osserviamo innanzi tutto che le ipotesi poste su φ


assicurano che essa è localmente invertibile e pertanto trasforma punti
interni di A in punti interni di φ( A). Si ha

∂φ( A) ⊂ φ(∂A) ;

infatti

∂φ( A) ⊂ cl φ( A) ⊂ cl φ(cl A) = φ((int A) ∪ ∂A) .

Ora, se y ∈ ∂φ( A) si ha y ∈ φ((int A) ∪ ∂A), ovvero y = φ( x ) con


x ∈ (int A) ∪ ∂A ; ma non può essere x ∈ int A perché si avrebbe
y ∈ int φ( A), da cui x ∈ ∂A .
Sia ora δ = dist(cl A, Bc ) > 0, allora, se A ⊂ R rettangolo e P è una

partizione di R tale che l 2 < δ (l lato dei quadrati della partizione),
si ha, per ogni quadrato Q della partizione

Q ∩ A 6= ∅ ⇒ Q ⊂ B.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


126 o.caligaris - p.oliva

Poiché A è misurabile è possibile supporre che

mis (∪i∈ I Qi ) < e

(si ricordi che con Qi , i ∈ I, si sono indicati i quadrati che ricoprono


la frontiera di A) e, se M = max{k∇φ( x )k : x ∈ ∪ Q tali che Q ∩ A 6=
∅ }, si ha
√ √
x, y ∈ Q ⇒ | x − y| < l 2 ⇒ |φ( x ) − φ(y)| < Ml 2 .

Ne segue
mis+ φ( Q) ≤ 2πl 2 M2 = 2πM2 mis Q
e

mis+ φ (∪i∈ I Qi ) ≤ ∑ mis+ φ(Qi ) ≤ ∑ 2πM2 mis Qi < 2πM2 e .


i∈ I i∈ I

In particolare, mis+ ∂φ( A) ≤ mis+ φ(∂A) ≤ 2πM2 e , da cui risulta


mis+ ∂φ( A) = 0 e φ( A) è misurabile.

Passiamo ora a provare la seconda affermazione. Si ha

∀e > 0 ∃δe > 0 : |u − v| < δe ⇒ |∇φ(u) − ∇φ(v)| < e e


| Jφ(u) − Jφ(v)| < e.

Sia ora Q tale che l 2 < δ (si ometterà nel seguito l’indice e), sia u0
il centro di Q e sia φ0 (u) = φ(u0 ) + h∇φ(u0 ), (u − u0 )i .
Per ogni u ∈ Q si ha

|φ(u) − φ0 (u)| = |[φ(u) − h∇φ(u0 ), ui] − [φ(u0 ) − h∇φ(u0 ), u0 i]| ≤



≤ sup k∇φ(c) − ∇φ(u0 )k ku − u0 k ≤ el 2

Ne segue che

(1) φ( Q) ⊂ φ0 ( Q) + S(0, el 2) = φ0 ( Q) ∪ E0

Inoltre, da

(2) ∂φ( Q) ⊂ φ(∂Q) ⊂ φ0 (∂Q) + S(0, el 2)

segue

(3) φ0 ( Q) \ E1 ⊂ φ( Q)

infatti, se φ0 ( Q) \ E1 = ∅ è ovvio; in caso contrario si ha φ0 (u0 ) =


φ(u0 ) ⊂ φ0 ( Q) \ E1 , e se per assurdo esistesse x ∈ φ0 ( Q) \ E1 , x ∈
/
φ( Q), il segmento di estremi φ(u0 ) e x, tutto contenuto in φ0 ( Q) \ E1
dovrebbe contenere punti di ∂φ( Q), il che contraddice la (2).
Allora, da (1) e (3)

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 127

mis φ0 ( Q) − mis E0 ≤ mis φ0 ( Q) − mis E1 ≤ mis φ( Q)


≤ mis φ0 ( Q) + mis E0

| mis φ( Q) − mis φ0 ( Q)| ≤ mis E0 .

Ma poiché i lati del parallelogramma φ0 ( Q) hanno lunghezza mi-


nore di Ml, si ha

mis E0 ≤ Mlel 2 + 2πe2 l 2 ≤ cost. el 2 = cost. e mis Q.

Sia ora u ∈ Q, essendo mis φ0 ( Q) = Jφ(u0 ) mis Q, si ha

| mis φ( Q) − Jφ(u) mis Q| ≤ | mis φ( Q) − mis φ0 ( Q)|+


+ | Jφ(u0 ) mis Q − Jφ(u) mis Q| ≤
≤ cost.e mis Q + e mis Q.

Teorema 9.16 Sia φ : B → R2 , B ⊂ R2 aperto, φ ∈ C1 ( B), e sia A limitato


e misurabile, con cl A ⊂ B, e det∇φ 6= 0 su int A, e sia φ invertibile su
int A ed f : φ( A) → R è continua e limitata, allora
Z Z
f ( x ) dx = f (φ(u)) |det ∇φ(u)| du.
φ( A) A

Dimostrazione. Per il lemma 1

∀e > 0 ∃ Pe : mis (∪i∈ I Qi ) , mis φ (∪i∈ I Qi ) < e.

Supponiamo inoltre vera la tesi del lemma 2; posto poi

F (u) = f (φ(u))|det∇φ(u)|

poiché F è integrabile su A, si può supporre


Z

R( F, Pe , Ξ) − F (u)du < e .
A

Si ha quindi, avendo indicato con Qi , i ∈ I 0 , i quadrati contenuti in


A

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


128 o.caligaris - p.oliva

Z Z


φ( A) f ( x )dx − A F (u)du =
Z Z

= f ( x )dx + f ( x )dx −
φ(∪ I 0 Qi ) φ(∪ I Qi )
Z

− R( F, Pe , Ξ) + R( F, Pe , Ξ) − F (u)du ≤
A
Z Z

≤ f ( x )dx − R( F, Pe , Ξ) + | f ( x )|dx +
φ(∪ I 0 Qi ) φ(∪ I Qi )
Z

+ R( F, Pe , Ξ) − F (u)du ≤
A
Z



≤ ∑ f ( x )dx − R( F, Pe , Ξ) + e sup | f ( x )| + e ≤
i ∈ I 0 φ ( Qi )



≤ ∑ f ( xi ) mis φ( Qi ) − ∑ F (ui ) mis Qi +
i ∈ I 0 i∈ I 0




+ ∑ F (ui ) mis Qi + e cost. ≤
i ∈ I
(dove xi = φ(ui ) )
≤ ∑ | f (xi )| | mis φ(Qi ) − Jφ(ui ) mis Qi |+
i∈ I 0
+ sup | F (u)| mis(∪ I Qi ) + e cost. ≤
≤ sup | f ( x )| ∑e mis Qi + e cost. + e cost. ≤
i∈ I 0
≤ cost. e mis A + e cost. ≤ e cost.

9.1.7 Integrali Impropri in R3


Illustriamo ora per sommi capi il problema di definire l’integrale di
una funzione non limitata su un insieme limitato o non limitato.

Definizione 9.12 Sia f : A −→ R+ , A ⊂ R3 , f limitata ed integrabile in


ogni compatto misurabile K ⊂ A. Definiamo
Z Z 
f ( x )dx = sup f ( x )dx : K ⊂ A , K compatto e misurabile
A K

La definizione si può facilmente estendere a funzioni di segno qualunque,


non appena si ricordi che f = f + + f − .
R
Per il calcolo di A f ( x )dx è opportuno dare la seguente definizione.

Definizione 9.13 Sia A ⊂ R3 diciamo che Ki è una successione di domini


invadenti A se

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 129

• Ki sono insiemi compatti, misurabili, Ki ⊂ A

• Ki +1 ⊃ Ki

• ∀K ⊂ A, K compatto, misurabile, ∃i tale che Ki ⊃ K.

Teorema 9.17 Sia A ⊂ R3 misurabile e sia f : A −→ R+ una funzione


integrabile in ogni insieme K ⊂ A, compatto e misurabile.
Allora se Ki è una successione di domini invadenti A, si ha
Z Z
f ( x )dx = lim f ( x )dx
A i Ki

Dimostrazione. Si ha
Z Z
f ( x )dx ≤ f ( x )dx
Ki A
R
e Ki f ( x )dx è una successione crescente per cui
Z Z  Z
lim f ( x )dx = sup f ( x )dx ≤ f ( x )dx
i Ki Ki A

D’altra parte, dal momento che, ∀K ⊂ A esiste Ki ⊃ K, si ha


Z  Z  Z
sup f ( x )dx ≥ sup f ( x )dx : K ⊂ A = f ( x )dx
Ki K A

Teorema 9.18 Sia f : A −→ R, A ⊂ R2 misurabile, chiuso e limitato; sia


x0 ∈ A, sia f continua in A \ { x0 } e

lim f ( x ) = +∞
x → x0

Allora se
H
f (x) ≤ , H≥0, α<2
k x − x0 k α
f è integrabile in senso improprio su A.
Se invece
H
f (x) ≥ , H>0, α≥2
k x − x0 k α
e se A contiene un cono di vertice x0 e ampiezza positiva, allora
Z
f ( x )dx = +∞.
A

Dimostrazione. Sia Ak = cl( A \ S( x0 , 1/k )), Ak è una successione di


domini invadenti A; sia h ∈ N, si ha, se k > h
Z Z Z
f ( x )dx = f ( x )dx − f ( x )dx
Ak Ah Ah \ Ak

inoltre Z Z 2π Z 1/h
H
f ( x )dx ≤ dθ ρdρ
Ah \ Ak 0 1/k ρα

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


130 o.caligaris - p.oliva

non appena si sia convenuto di indicare con ρ e θ le coordinate polari


nel piano, centrate in x0 .
Per quel che riguarda il secondo enunciato, detti θ0 e θ1 gli angoli
che le semirette delimitanti il settore formano con l’asse x, si ha
Z Z θ Z 1/h
1 H
f ( x )dx ≥ dθ ρdρ
Ah \ Ak θ0 1/k ρα
2
In maniera analoga si può provare il seguente

Teorema 9.19 Sia f : A −→ R, A ⊂ R3 non limitato; sia f continua.


Se
H
| f ( x )| ≤ , H≥0, α>2
k x kα
allora f è integrabile in senso improprio su A.
Se invece
H
f (x) ≥ , H>0, α≤2
k x kα
e se A contiene un cono di ampiezza positiva, allora
Z
f ( x )dx = +∞.
A

9.2 Integrali dipendenti da un parametro.

Passiamo infine a illustrare brevemente il comportamento di un inte-


grale rispetto a parametri contenuti nella funzione da integrare.
Questo tipo di problematiche si incontra, ad esempio, quando si stu-
diano le trasformazioni integrali (Fourier, Laplace) o nella definizione
di funzioni notevoli (come,ad esempio, la funzione Γ).

Teorema 9.20 Sia f : A × I −→ R, A ⊂ Rn chiuso e limitato, I = [ a, b].


Supponiamo f ∈ C 0 ( A × I ), allora F : A × I × I −→ R definita da
Z z
F ( x, y, z) = f ( x, t)dt
y

è continua in A × I × I; inoltre Fy ed Fz esistono e sono continue in A × I × I.


Se ∇ x f ∈ C 0 ( A × I × I ), allora F è differenziabile rispetto ad x,
Z z
∇ x F ( x, y, z) = ∇ x f ( x, t)dt
y

e quindi risulta ∇ x F è continuo in A × I × I e F ∈ C 1 ( A × I × I ) .

Dimostrazione. Per quel che riguarda la prima parte dell’enunciato


è sufficiente ricordare che f è uniformemente continua e limitata su

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


analisi matematica 2 131

A × I; si ha pertanto
Z z0 Z z
0 0 0
0

| F ( x , y , z ) − F ( x, y, z)| = f ( x , t)dt − f ( x, t)dt =
y 0 y
Z z Z y Z z0

= [ f ( x 0 , t) − f ( x, t)]dt + f ( x 0 , t)dt + f ( x 0 , t)dt ≤
y y0 z

≤ ε|b − a| + M(|y − y0 | + |z − z0 |)

Il resto del primo punto è conseguenza del teorema fondamentale


del calcolo integrale.
Per quanto riguarda il secondo enunciato si ha
Z z
1
F ( x + h, y, z) − F ( x, y, z) − h ∇ x f ( x, t)dt, hi ≤
khk y
Z z
| f ( x + h, t ) − f ( x, t) − h∇ x f ( x, t), hi|
≤ dt
y khk
Z z
|h∇ x f (ξ, t) − ∇ x f ( x, t), hi|
= dt ≤
y khk
Z z

≤ k∇ x f (ξ, t) − ∇ x f ( x, t)kdt

y

con kξ − x k < k hk. Come per il punto precedente si può conclude-


re, ricordando che ∇ x f è continuo, e quindi è uniformemente continuo
in A × I. 2
Il teorema 26.33 può essere esteso anche nel caso in cui l’integrale
sia inteso in senso improprio. Tratteremo qui soltanto il caso in cui
l’intervallo di integrazione è illimitato, in quanto esso è facilmente
estendibile all’altro caso.

Teorema 9.21 Sia f : A × I −→ R, A ⊂ Rn chiuso e limitato, I =


[ a, +∞), una funzione continua. Consideriamo
Z +∞
F(x) = f ( x, t)dt
a

Se esiste φ : I −→ R tale che


Z +∞
| f ( x, t)| ≤ φ(t) ∀ x ∈ A ; φ(t)dt < +∞
a

allora F è definita e continua in A.


Se inoltre ∇ x f esiste, è continuo in A × I, e se esiste ψ : I −→ R tale che
Z +∞
k∇ x f ( x, t)k ≤ ψ(t) ∀ x ∈ A ; ψ(t)dt < +∞
a

allora F ∈ C 1 ( A) e
Z +∞
∇ F(x) = ∇ x f ( x, t)dt .
a

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-9.tex]


132 o.caligaris - p.oliva

Dimostrazione. Sia δ > a scelto in modo che


Z +∞
φ(t)dt < ε/4
δ

(Ciò è possibile in quanto φ ammette integrale improprio convergente


su [ a, +∞)).
Si ha
Z δ

| F ( x 0 ) − F ( x )| ≤ ( f ( x 0 , t) − f ( x, t))dt +
a
Z +∞
+2 φ(t)dt
δ

ed applicando il teorema precedente, se | x − x 0 | < δ(ε), si ottiene

| F ( x 0 ) − F ( x )| ≤ ε/2 + 2ε/4

Per quel che riguarda la seconda parte si ha in analogia a quanto fatto


sopra e a quanto fatto nel teorema precedente
Z +∞
1
F ( x + h) − F ( x ) − h ∇ x f ( x, t)dt, hi ≤
khk a
Z δ Z +∞
≤ k∇ x f (ξ, t) − ∇ x f ( x, t)kdt + 2 ψ(t)dt
a δ

essendo kξ − x k ≤ khk e si può concludere con gli stessi argomenti.


2

AnTot.TEX— [ Content/Analisi-9.tex] 12 dicembre 2018—16:09:13


O . C A L I G A R I S - P. O L I V A

P R O B A B I L I TÀ
10. Elementi di Probabilità e Statisti-
ca.

La nascita del calcolo delle probabilità si fa risalire alla seconda me-


tà del ’600 e più precisamente al carteggio intervenuto tra Blaise Pa-
scal e Pierre de Fermat a proposito delle questioni poste da Antoine
Gombaud Chevalier de Mere.

Il Cavaliere de Mere giocava d’azzardo seguendo la moda del-


l’epoca e si dice avesse subito gravi perdite scommettendo sul-
l’uscita di almeno una coppia di 6 in 24 lanci di due dadi dopo
aver avuto notevoli successi scommettendo sull’uscita di almeno
un 6 su 4 lanci di un solo dado. Con le notazioni di oggi posssia-
mo infatti calcolare che la probabilità di ottenere una coppia di 6
nel lancio di due dadi è 1/36 e quindi la probabilità di ottenere
almeno una coppia di 6 in 24 lanci è
 24
35
1− ≈ 0.4823
36
24
essendo 35 36 la probabilità di non ottenere una coppia di 6 in
nessuno dei 24 lanci
D’altro canto la probabilità di ottenere un 6 nel lancio di un
solo dado è 1/6 e quindi la probabilità di ottenere almeno un 6 in
4 lanci è  4
5
1− ≈ 0.5177
6

La questione posta dal cavaliere de Mere era sul tappeto già in


precedenza e riguardava la seguente situazione:
Due giocatori A e B scommettono sul successo in almeno 3 tra 5 prove
ripetute. Dopo la terza prova A ha ottenuto 2 successi e B ne ha ottenuto 1.
A questo punto si interrompe il gioco. Il problema consiste nel determinare
una suddivisione equa della posta
La soluzione di Fermat si basa sul fatto che nel prosieguo del gioco
136 o.caligaris - p.oliva

uno solo dei quattro possibili eventi, quello in cui B vinca entrambe le
2 rimanenti partite, è favorevole a B mentre gli altri 3 casi sono tutti
favorevoli ad A. Pertanto la posta deve essere divisa nella proporzione
di 3/4 ad A ed 1/4 a B.
Pascal invece osserva che se il gioco fosse proseguito, poichè nella
quarta partita sia A che B hanno eguale possibilità di vittoria, A ha
diritto alla metà della posta ed inoltre poichè, se vincesse B, nell’ultima
partita le possibilità sarebbero ancora uguali A ha diritto anche alla
metà della metà rimanente e quindi in tutto 3/4 della posta vanno ad
A.
Pascal fu anche in grado di ottenere una generalizzazione della sua
soluzione estendendo il suo ragionamento per induzione e provando,
ad esempio che, nel caso in cui ad A manchino 2 successi e a B ne
manchino 3, la posta deve essere divisa in parti proporzionali ai nu-
meri che si ottengono sommando i primi 3 e gli ultimi 2 termini che
compaiono nella riga del triangolo aritmetico di Pascal (o Tartaglia)
che contiene 5 termini. Il problema era stato affrontato già molte vol-
te nei secoli precedenti ma la soluzione che ora consideriamo corretta
fu trovata per la prima volta da Pascal e Fermat e fu formalizzata da
Christian Huygens nel suo libro De ratiociniis in ludo aleae nel 1657
Nel secolo seguente molti autori pubblicarono libri sull’argomento
dando inizio al calcolo delle probabilità. Ricordiamo Ars conjectandi
di Giacomo Bernoulli del 1713, Essay d’analyse sur les jeux de hasard di
Pierre Rémond de Montmort pubblicato nel 1708 e nel 1711, Doctrine
s
A
1  AA of chances di Abraham De Moivre pubblicato nel 1718, nel 1738 e nel
2

s
A  1756, Doctrine of annuity and reversions di Thomas Simpson del 1742,
H
HH Annuities on lives di Abraham De Moivre pubblicato nel 1725, nel 1743,
1 1 HHBs
2 2 nel 1750 e nel 1752.
AB
Prima ancora possiamo ricordare i contributi precursori della teoria
s delle probabilità dovuti a Cardano contenuti nel Liber de ludo aleae,
@
probabilmente scritti nel 1560 ma, pubblicati postumi dopo l’uscita
s BA
@ A
@12 1
2
 del lavoro di Huygens.
@ B  
@sH
HH
1
2 HHBs 10.0.1 La divisione della posta
BB
Consideriamo il problema della divisione della posta che abbiamo
prima introdotto, quando ai due giocatori, che chiameremo A e B
mancano rispettivamente 1 e 2 partite.
Abbiamo già visto che la posta deve essere divisa, in questo caso,
in parti proporzionali a 3 e 1; in altre parole al primo giocatore spetta
3 3 1 1
3+1 = 4 , mentre al secondo spetta 3+1 = 4 della posta. Possiamo
ricavare lo stesso risultato usando un semplice grafo ad albero che
elenca tutte i possibili esiti di 2 partite, tante quante ne servono per
concludere il gioco.

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 137

I casi favorevoli ad A sono quindi quelli in cui A compare almeno


una volta e sono 3, mentre l’unico caso favorevole a B è quello in cui B
compare due volte. È evidente l’analogia con i monomi che compaiono
Ar 1 4
nello sviluppo di AA p1 = 4 = 16
1
2
( A + B)2 = A2 + 2AB + B2
Ar
e possiamo anche notare che la somma di tutti i coefficienti (1 + 2 + 1) @ Ar 1 2
è 4, che la somma dei primi due è 3 mentre il terzo è 1 e congetturare 1  ABA p2 = 8 = 16
 @1
2 2
r
@
che ci sia una relazione con la suddivisione equa della posta. 1  @B 
2 HH
1 r
A 1
Per capire qualcosa in più consideriamo allora il caso in cui ad A  ABBA p4 = 16
1H
r 
2 HB
2

2 Xr ABBB q = 1
X X 1 B
manchino 2 partite e a B ne manchino 3. In tal caso la situazione può  X
r 2 16
essere descritta enumerando i casi possibili ed indicando la probabilitàA
Ar
di accadimento pi o qi di ognuno, come segue. A 1
1  BAA p3 = 8 = 16
2
2
Pertanto la probabilità di vittoria di A è r
A1 A 
A2 HH Ar
1 1
1 11 1 1H
2 HBr X2 BABA p5 = 16
p = ∑ pi =
A 2
(4 + 2 + 1 + 2 + 1 + 1) =
2 Xr BABB q = 1
A X 1X B
16 16 AABr 3 16
mentre B vince con probabilità 1
Ar 1
2 BBAA p6 = 16
@
Ar X
2 Xr BBAB q = 1
@1
1 5 1 
X B
q = ∑ qi =
2 1X
(1 + 1 + 2 + 1) = @ B 2
16 16 @r 4 16
HH
2 HBr
1H
Ovviamente p + q = 1 e la posta va divisa in parti proporzionali a BBB q1 = 18 = 16
2

11 e 5
Completiamo il grafo ad albero elencando tutti i casi possibili, ognu-
1
no di essi ha uguale probabilità pi = 16 ; identifichiamo poi le possibili
uscite con monomi in A e B e contiamone il numero.
Osserviamo che A4 compare 1 volta, A3 B 4 volte, A2 B2 6 volte, AB3 1
Ar 4
r
A 2 AAAA ( A )
4 volte e B4 1 volta ed è immediato notare l’analogia con lo sviluppo 1 
X X1XXBr
2 2 AAAB ( A3 B)
della quarta potenza del binomio rH
A
1
Ar 3
2 AABA ( A B)
H1H
( a + b)4 = a4 + 4a3 b + 6a2 b2 + 4ab3 + b4
1
2 2 HBr X
2 Xr AABB ( A2 B2 )
X 1X B
Ar
I casi favorevoli ad A sono quelli in cui a compare almeno alla po-
1 r
A
@ ABAA ( A3 B)
tenza 2 e possiamo contarli sommando i relativi coefficienti 1 + 4 + 6; Ar  2

2 Xr ABAB ( A2 B2 )
 @1 1  X X B
2 1X
in maniera analoga otteniamo che i casi favorevoli a B son quelli in cui 1  @ B 2
2 @ rH
Ar
b compare almeno alla terza potenza e anche qui possiamo ottenerne  H1H 1
2 ABBA ( A B )
2 2
 rXX
2 HB

2 Xr ABBB ( AB3 )
il numero sommando i relativi coefficienti 4 + 1.  1X B

Otteniamo quindi lo stesso risultato già visto ed inoltre risulta chia-r Ar


1 3
2 BAAA ( A B)
A
ro come estendere la regola della suddivisione al caso in cui ad A A Ar
2 Xr BAAB ( A2 B2 )
1 
XX1X B
manchino k vittorie e a B ne manchino h. La suddivisione dovrà es- A 1 2

2
A r
sere proporzionale alla somma dei primi k e degli ultimi h coefficienti A 1 r
H A
H1H BABA ( A2 B2 )
dello sviluppo di ( a + b) k + h − 1 .
A 1
2 2 HBr  2

2 Xr BABB ( AB3 )
A X X 1X B
ABr
1 r
A
@ BBAA ( A2 B2 )
10.1 Qualche richiamo di calcolo combinatorio. Ar  2

2 Xr BBAB ( AB3 )
@1 1 
XX1X B
2
@ B 2
@ rH
1 r
Per studiare un po’ di probabilità discreta è utile conoscere qualche A
H1H BBBA ( AB3 )
elemento di calcolo combinatorio. 2 HBr  2

2 Xr BBBB ( B4 )
XX1 B
X

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


138 o.caligaris - p.oliva

Il calcolo combinatorio si occupa di stabilire il numero delle possibi-


li uscite di semplici esperimenti; si fonda essenzialmente sul principio
seguente:

Se un esperimento ha n1 possibili esiti, un secondo esperimento


ha n2 possibili esiti, un terzo esperimento ha n3 possibili esiti, al-
lora il numero dei possibili esiti della sequenza dei tre esperimenti
è
n1 n2 n3

Le più comuni conseguenze di questo principio portano a un certo


numero di definizioni che descriviamo brevemente.

10.1.1 Disposizioni di n elementi a k a k.


Parliamo di disposizioni (o anche, se k = n, di permutazioni) di
n elementi a k a k quando consideriamo i gruppi che si ottengono
scegliendo k elementi tra gli n dati.
Riteniamo due gruppi distinti se differiscono per un elemento o per
l’ordine con cui gli elementi sono scelti.

Indichiamo con
n Dk

il numero delle disposizioni di n elementi a k a k.

Poichè per il primo elemento di ciascun gruppo abbiamo n scelte,


per il secondo ne abbiamo (n − 1) per il terzo ne abbiamo (n − 2) e
così via, possiamo calcolare che

n!
n Dk = n(n − 1)(n − 2)(n − 3)....(n − (k − 1)) =
(n − k)!

Inoltre

Il numero delle disposizioni di n elementi ad n ad n, cioè delle


permutazioni, risulta
Pn =n Dn = n!

Parliamo di permutazioni con elementi ripetuti quando conside-


riamo le permutazioni di n elementi che si presentano in k sottogrup-

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 139

pi di elementi indistinguibili, ciascuno composto da n1 , n2 , n3 ,...,nk


elementi con n1 + n2 + n3 + · · · + nk = n

Le permutazioni con elementi ripetuti risultano in numero di

n!
n1 !n2 !n3 ! · · · nk !

Nella formula precedente il denominatore è giustificato dal fatto


che, per l’i −esimo gruppo, ci sono ni ! modi di scegliere in sequenza
cli ni elementi.
Qualora si possa scegliere da n elementi per coprire k posti sen-
za il vincolo di non considerare un elemento giá scelto parliamo di
disposizioni con ripetizione.

Si calcola facilmente che le disposizioni con ripetizione sono in


numero di
nk

10.1.2 Combinazioni di n elementi a k a k.


Individuare una combinazione di n elementi a k a k significa assegnare
k elementi ad n ≥ k posizioni senza tener conto dell’ordine con cui gli
elementi figurano.

Indichiamo con
n Ck

il numero delle combinazioni di n elementi a k a k.

Possiamo visualizzare mediante k segni Z gli elementi cui bisogna


assegnare una posizione e con n circoletti le posizioni disponibili
Ad esempio nella figura sono riportate 22 posizioni e 9 elementi.
Z Z Z Z Z Z Z Z Z
Naturalmente non è importante in quale delle 9 posizioni occupate
da Z si colloca il primo elemento, in quale si colloca il secondo, in
quale il terzo e così via; quindi ci sono molti modi per disporre sulle 9
posizioni occupate i 9 elementi che indichiamo con
¶ · ¸ ¹ º » ¼ ½ ¾
La seguente figura descrive una possibile scelta
¶ · ¸ ¹ º » ¼ ½
¾
in cui il primo elemento è collocato sulla prima posizione scelta il
secondo sulla seconda e così fino al nono.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


140 o.caligaris - p.oliva

Altre possibili disposizioni sono


¸ · ¶ ¾ º
½ ¼ » ¹
oppure
¾ · ½ ¹ º
» ¶ ¸ º
Quindi per stimare il numero di possibilità di disporre k segni Z
in n posizioni occorre
• contare in quanti modi si possono scegliere k posizioni su n dispo-
nibili; sia Nk il loro numero.

• contare in quanti modi si possono disporre i k segni Z (elementi)


sulle k posizioni scelte; sia Kk il loro numero.

• Calcolare NKk in quanto ogni possibilità di disporre k segni Z in n


k

posizioni è ottenuta Kk volte, se non si tiene conto dell’ordinamento.


Avremo, in tutto,
n!
Nk = n(n − 1)(n − 2)(n − 3) · ·(n − (k − 1)) =
(n − k)!
modi possibili
e

Kk = k(k − 1)(k − 2)(k − 3) · ·1 = k!


Concludendo, il numero di modi in cui si possono disporre k ele-
menti su n lanci è
 
n(n − 1)(n − 2)(n − 3) · ·(n − (k − 1)) n! n
= =
k! (n − k)!k! k
Poniamo

 
n n!
n Ck = =
k k!(n − k)!

Il numero n Ck si chiama coefficiente binomiale.


Ricordiamo che i coefficienti binomiali possono essere ricavati dal
triangolo di Tartaglia e che trovano una importante applicazione nella
formula del binomio di Newton che illustriamo brevemente di seguito.
Lemma 10.1 (Triangolo di Tartaglia)
     
n n n+1
+ =
k k−1 k
Dimostrazione.
   
n n n! n!
+ = + =
k k−1 k!(n − k )! (k − 1)!(n − (k − 1))!
 
n![(n + 1 − k) + k] ( n + 1) ! n+1
= = =
k!(n + 1 − k )! k!(n + 1 − k)! k

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 141

2
Possiamo allora costruire una tabella con le righe indicizzate da n e
HH k
le colonne indicizzate da k ponendo 1 nei posti corrispondenti a k = 0 e 0 1 2 3 4 5 6
n HH
k = n e calcoliamo ogni elemento sommando i due elementi della riga 1 1 1
precedente, che occupano la stessa colonna e quella immediatamente 2 1 2 1
3 1 3 3 1
a sinistra della posizione occupata dall’elemento considerato. 4 1 4 6 4 1
In virtù dell’uguaglianza precedente la tabella contiene nella k −esima 5 1 5 10 10 5 1
colonna della n−esima riga il coefficiente binomiale (nk) e prende il no- 6 1 6 15 20 15 6 1
Tabella 10.1: Il triangolo di Tartaglia per
me di triangolo di Tartaglia, o di Pascal; per il modo semplice e iterati- n≤6
vo con cui è costruita, risulta molto comoda per calcolare i coefficienti
binomiali.
(10) (11)
Valgono inoltre, per i coefficienti binomiali, le seguenti proprietà
(20) (21) (22)
che risultano molto utili in alcuni calcoli che riguardano le distribu- (30) (31) (32) (33)
zioni di probabilità discrete. ... ... ... ... ...
(n0 ) ... (k−n 1) (nk) ... (nn)
Lemma 10.2 Si ha ... ... ... (n+k 1) ... ...
    ... ... ... ... ... ...
n n−1
k =n
k k−1
Dimostrazione. Basta eseguire il calcolo algebrico. 2

Lemma 10.3 - Identità di Vandermonde - Si ha


  k   
m+n m n
= ∑
k h =0
h k−h

Dimostrazione. Osserviamo che

• (m+ n
k ) è il numero dei modi con cui si possono scegliere k elementi
tra m + n

• (mh) è il numero dei modi con cui si possono scegliere h elementi tra
m

• (k−n h) è il numero dei modi con cui si possono scegliere k − h ele-


menti tra n

Poichè si possono scegliere k elementi tra m + n prendendone h tra i


primi m e k − h tra gli altri n, possiamo contare in quanti modi questo
si può fare semplicemente tenendo conto che, per h fissato ci sono
(mh)(k−n h) possibili scelte.
Sommando su h si trovano tutte e si ottiene la formula. 2

Teorema 10.1 (Binomio di Newton)


n  
n
( a + b)n = ∑ k an−k bk
k =0

Dimostrazione. E’ immediato verificare che la formula vale per n =


1.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


142 o.caligaris - p.oliva

Proviamo ora che, se la formula è valida per n, allora è valida anche


per n + 1. Si ha

( a + b ) n +1 = ( a + b ) n ( a + b ) =
!
n   n   n  
n n−k k n n−k k n n−k k
= ∑ a b ( a + b) = a ∑ a b +b ∑ a b =
k =0
k k =0
k k =0
k
n   n  
n n +1− k k n n − k k +1
= ∑ a b +∑ a b =
k =0
k k =0
k
n    
n n +1− k k n −1 n n − k k +1
= a n +1 + ∑ a b +∑ a b + bn+1 = (10.1)
k =1
k k =0
k

n   n  
n n +1− k k n
= a n +1 + ∑ k a b + ∑ k − 1 a n +1− k b k + b n +1 =
k =1 k =1
n    
n n
= a n +1 + ∑ + a n +1− k b k + b n +1 =
k =1
k k − 1
n   n +1  
n + 1 n +1− k k n + 1 n +1− k k
= a n +1 + ∑ a b + b n +1 = ∑ a b
k =1
k k =0
k
2

10.1.3 Campioni ordinati


Il calcolo combinatorio è utile per stimare il numero di possibili cam-
pioni estratti da una popolazione.
Per aiutarci assimiliamo la popolazione ad un un’urna piena di
palline e l’estrazione degli elementi del campione all’estrazione delle
palline dall’urna.
Possiamo operare un campionamento con ripetizione estraendo una
pallina, osservandola e rimettendola nell’urna dopo aver annotato l’in-
formazione relativa.
In tal caso, se operiamo k estrazioni, avremo
k volte
z }| {
nnn...n = nk

possibili uscite in quanto per ogni elemento estratto avremo sempre n


possibili scelte.
Nel caso in cui si operi invece un campionamento senza ripetizione,
estraendo, osservando e non rimettendo la pallina nell’urna, per la
prima estrazione avremo n possibilità, per la seconda n − 1, per la
terza n − 3 e così via.
Pertanto avremo
n!
n Dk =
(n − k)!
possibili uscite.

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 143

10.2 Spazi di probabilità

10.2.1 Il Lancio di una moneta


Per introdurre i formalismi necessari per parlare di probabilità comin-
ciamo ad illustrare qualche semplice esempio di quello che chiamere-
mo spazio di probabilità discreto Consideriamo il più semplice tra i
giochi d’azzardo, e cioè il lancio di una moneta. Possiamo schema-
tizzare il gioco introducendo gli eventi possibili per un singolo lancio,
che sono:

• L’uscita di Testa T

• L’uscita di Croce C

È naturale definire la loro probabilità di accadimento ponendo

1 1
P (T ) = , P (C ) =
2 2
e possiamo motivare la nostra scelta con il fatto che le uscite possibili
sono due una sola delle quali è considerata per l’evento T o l’evento C
Naturalmente la definizione presuppone che T e C si presentino con
ugual frequenza, cioè che la moneta sia non truccata; inoltre va detto
che consideriamo una astrazione del gioco in quanto non possiamo
escludere che una moneta reale, dopo essere stata lanciata si fermi in
una posizione che non corrisponda a nessuna delle due cui attribuiamo
il significato di T o C ed inoltre, nella realtà, non è possibile essere certi
che la moneta non presenti una faccia più frequentemente di un’altra
per causa della sua conformazione.
Accanto agli eventi elementari possiamo introdurre anche l’evento

U = {T, C}

che rappresenta l’evento certo e l’evento ∅ che assume invece il ruolo


di evento impossibile. Chiaramente

P (U ) = P ( T ) + P (C ) = 1 , P (∅) = 0

Osserviamo che abbiamo quindi definito

• Un insieme U che contiene tutte le possibili uscite del gioco

• una famiglia di insiemi F costituita da tutti gli eventi che possiamo


considerare
F = {U , T , C , ∅}

• una funzione P che associa ad ogni evento un numero positivo con


la condizione che P (U ) = 1

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


144 o.caligaris - p.oliva

10.2.2 Il lancio di un dado


Un caso del tutto simile è quello in cui si considera un dado con le
facce numerate da 1 a 6; identifichiamo con xk l’evento è stato ottenuto
il punteggio k (cioè la faccia superiore del dado mostra k) per k = 1..6.
Evidentemente possiamo attribuire ad ogni evento xk una probabi-
lità tenendo conto che ciascun evento è individuato da uno dei 6 casi
possibili. Astraendo anche qui possiamo scrivere che:

Evento x1 x2 x3 x4 x5 x5
Probabilità 1/6 1/6 1/6 1/6 1/6 1/6

In altre parole

1
P( xk ) =
= pk
6
Chiaramente possiamo anche qui individuare un insieme che con-
tenga tutti gli eventi

U = { x1 , x2 . x2 . x2 . x2 . x2 . x6 }

per il quale si ha
6 6
1
P (U ) = ∑ P ( xk ) = ∑ 6
=1
k =1 k =1

e che rappresenta l’evento certo e un insieme ∅ che rappresenta l’e-


vento impossibile per il quale ovviamente si ha

P (∅) = 0

In questo caso possiamo anche considerare molti altri eventi come,


ad esempio l’evento E p che è individuato dall’uscita di un pari:

E p = { x2 , x4 , x6 }

per cui si ha
3 3
1 1
P (Ep ) = ∑ P (x2k ) = ∑ 6
=
2
k =1 k =1
oppure
E1 = { x2 , x5 }
per cui
1 1 1
P ( E1 ) = P ( x2 ) + P ( x5 ) =
+ =
6 6 3
In generale possiamo considerare tanti eventi quanti sono i sottoin-
siemi che si possono formare utilizzando gli elementi di U .
Nella famiglia F di tali sottoininsiemi, quella che di solito si chia-
ma famiglia delle parti di U , possiamo definire una funzione P che

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 145

assegna ad ogni E ∈ F un numero P ( E) che si ottiene semplicemente


sommando 16 per tante volte quanti sono gli elementi di E.
Anche in questo caso quindi avremo ottenuto una terna

(U , F , P )

che individua quello che possiamo chiamare uno spazio di probabilità.

10.2.3 Il lancio di due dadi


Consideriamo ora il caso del lancio di due dadi.
Se le facce sono numerate, come al solito, da 1 a 6 possiamo identi-
ficare l’esito del lancio con la coppia di numeri (i, j) (punteggio) che si
leggono sulla faccia superiore del primo e del secondo dado.
In tal modo possiamo identificare ciascuna delle 36 possibili uscite
(eventi) con il punto del piano cartesiano di coordinate (i, j); indiche-
remo tale evento con il simbolo Ai,j , (si veda la figura 10.1).
Poichè nel caso di dadi non truccati ogni evento è equiprobabile
possiamo affermare che la probabilità di Ai,j è data da

1
P ( Ai,j ) =
36
Figura 10.1: Lo spazio U degli eventi nel
Ovviamente possiamo combinare gli eventi elementari per costruire caso del lancio di due dadi

altri eventi; ad esempio possiamo considerare un nuovo evento

B = A1,4 ∪ A5,6 = { A1,4 , A5,6 }

e, dal momento che B contiene 2 eventi elementari sui 36 possibili,


possiamo ragionevolmente definire

2 1 1
P ( B) = = +
36 36 36
Anche in questo caso abbiamo quindi costruito una terna

(U , F , P )

che costituisce lo spazio di probabilità che rappresenta il lancio di due


dadi.

10.2.4 Lancio di una moneta reiterato fino al successo


Gli esempi finora considerati riguardano casi in cui il numero di eventi
possibili è finito. Possiamo anche costruire esempi in cu si considerino
una quantità numerabile di eventi possibili.
Supponiamo do lanciare una moneta per cui

P ( T ) = p , P (C ) = 1 − p = q

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


146 o.caligaris - p.oliva

e consideriamo gli eventi En individuati dalla condizione che "è uscita


testa esattamente all’ n−esimo lancio.
Avremo che
P ( Ek ) = (1 − p)k−1 p

in quanto è sempre uscita C per k − 1 lanci ed è uscito T esattamente


p
al k-esimo lancio
r Possiamo usare il grafo ad albero in Figura 10.2 per illustrare la
@ situazione.
@q
p  Dal momento che
@r
@ 
+∞ +∞
HH
Hrp 1
∑ p (1 − p ) k −1 = p ∑ (1 − p ) k = p 1 − (1 − p )
qH
Figura 10.2: p =1
q Xr
XXX 
X

XqXX 1 0

lo spazio costituito da tutti i possibili eventi Ek costituisce uno spazio


di probabilità discreto, non finito, numerabile.

10.3 Insiemi e probabilità

Per identificare uno spazio di probabilità discreto possiamo


considerare un insieme U , finito o numerabile, che chiameremo
spazio dei campioni, i cui elementi a, b, c ∈ S sono identificabili
con gli eventi elementari e i cui sottoinsiemi A, B, C ⊂ S sono gli
eventi.
L’insieme U sarà quindi identificabile con l’evento certo mentre
il vuoto ∅ sarà l’evento impossibile Possiamo considerare in U la
famiglia F di tutti i sottoinsiemi di U ed inoltre gli eventi saranno
identificati mediante l’insieme A ∈ F sarà identificabile con il
fatto che A accade, e il suo complementare Ac con il fatto che A
non ha luogo.
A ∪ B indicherà che almeno uno tra A e B accade, mentre A ∩ B
che entrambi A e B accadono.
A ⊂ B starà ad indicare che se A accade allora necessariamente
accade anche B.
A ∩ B = ∅ significherà che A e B non possono accadere si-
multaneamente e diremo in tal caso che A e B sono mutuamente
esclusivi.
Su F possiamo definire una misura di probabilità semplice-
mente assegnando una funzione che ad ogni sottoinsieme A di U
assegni un valore P ( A) con le seguenti proprietà:

• Per ogni A ⊂ U
P ( A) ≥ 0

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 147


P (U ) = 1

• Per ogni famiglia di sottoinsiemi mutuamente esclusivi Ak , k =


1..n !
n
[ n
P Ak = ∑ P ( Ak )
k =0 k =0

Seguono subito da questi postulati alcuni fatti che possono essere


molto utili:

• P (∅) = 0 infatti

P ( A) = P ( A ∪ ∅) = P ( A) + P (∅)

• P ( Ac ) = 1 − P ( A) per ogni A ⊂ S

• Se A ⊂ B allora
P ( A) ≤ P ( B)
infatti
P ( B) = P ( A) + P ( B ∩ Ac ) ≥ P ( A)
Ne segue che 0 ≤ P ( A) ≤ P (S) = 1 per ogni A ∈ F

• Se A ⊂ B allora

P ( B \ A) = P ( B) − P ( A)

infatti
P ( B) = P ( A) + P ( B ∩ Ac ) = P ( B \ A)

• P ( A) = P ( A ∩ B) + P ( A ∩ Bc )

• P ( A ∪ B) = P ( A) + P ( B) − P ( A ∩ B) infatti

A ∪ B = A ∪ ( B \ ( B ∩ A))

con B e B \ ( B ∩ A) disgiunti, quindi

P ( A ∪ B) = P ( A) + P ( B \ ( B ∩ A)) = P ( A) + P ( B) − P ( B ∩ A)

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


148 o.caligaris - p.oliva

L’ultima uguaglianza si può generalizzare come

P ( A ∪ B ∪ C ) = P ( A) + P ( B ∪ C ) − P ( A ∩ ( B ∪ C )) =
= P ( A) + P ( B) + P (C ) − P ( B ∩ C ) − P (( A ∩ B) ∪ ( A ∩ C )) =
= P ( A) + P ( B) + P (C ) − P ( B ∩ C ) − (P ( A ∩ B) + P ( A ∩ C ) − P ( A ∩ B ∩ C )) =
= P ( A) + P ( B) + P (C ) − P ( B ∩ C ) − P ( A ∩ B) − P ( A ∩ C ) + P ( A ∩ B ∩ C )
ed anche al caso di più di tre insiemi.

S
Si ha inoltre che se { Bi , i = 1..n} con Bi ∩ Bj = ∅ , e A ⊂ Bi ,
allora

P ( A) = P ( A ∩ B1 ) + P ( A ∩ B2 ) + .... + P ( A ∩ Bn ) (10.2)

In particolare possiamo affermare che

A = ( A ∩ B) ∪ ( A ∩ Bc )

e quindi
P ( A) = P ( A ∩ B) + P ( A ∩ Bc )

10.3.1 Probabilità condizionata


Definizione 10.1 Se A, B ∈ F definiamo probabilità di A condizionata a B
e la denotiamo con P ( A| B) il valore
P ( A ∩ B)
P ( A| B) =
P ( B)
P ( A| B) è la probabilità che A accada nel caso in cui sia accaduto B
Naturalmente si ha
P ( A ∩ B) = P ( A| B)P ( B)
Nel caso in cui
P ( A| B) = P( A)
diciamo che A e B sono eventi indipendenti, (la probabilità di accadi-
mento di A non è cambiata dal fatto che B è accaduto).
In tal caso si ha
P ( A ∩ B) = P ( A)P ( B)
Vale il seguente
Teorema 10.2 Sia Bi per i = 1..n una famiglia di eventi in S tali che Bi ∩
S
Bj = ∅ , e S = Bi , cioè supponiamo che gli insiemi Bi siano mutuamente
esclusivi ed esaustivi, allora

P ( A) = P ( A| B1 )P ( B1 ) + P ( A| B2 )P ( B2 )) + ....P ( A| Bn )P ( Bn ) (10.3)

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 149

La verifica del teorema segue immediatamente dalla definizione di


probabilità condizionata e dalla 10.2.
Si può dimostrare che

Teorema 10.3 Se Ai ∩ A j = ∅ , ed A ⊂ ∪i Ai , allora

P ( A) = P ( A1 )P ( A| A1 ) + P ( A2 )P ( A| A2 ) + ....P ( A N )P ( A| A N )

infatti

P ( A) = P ( A ∩ A1 ) + P ( A ∩ A2 ) + .... + P ( A ∩ A N ) =
= P ( A1 )P ( A| A1 ) + P ( A2 )P ( A| A2 ) + .... + P ( A N )P ( A| A N )

Da questa semplice considerazione segue facilmente il teorema di


Bayes

Teorema 10.4 - di Bayes - Se A1 , A2 , ..., A N ∈ F sono eventi tali che Ai ∩


S
A j = ∅ e A ⊂ iN=1 Ai allora

P ( Ak )P ( A| Ak )
P ( Ak | B) =
∑iN=1 P ( Ai )P ( A| Ai )

La dimostrazione del teorema è molto semplice ed è sufficiente


vederla nel caso in cui N = 2 per comprenderne il meccanismo.
Consideriamo

• A1 ∪ A2 ⊃ A

• A1 ∩ A2 = ∅

si ha

P ( A1,2 ∩ A) P ( A ∩ A1,2 )
P ( A1,2 | A) = e P ( A| A1,2 ) =
P ( A) P ( A1,2 )

ed inoltre

P ( A) = P ( A ∩ ( A1 ∪ A2 )) = P ( A ∩ A1 ) + P ( A ∩ A2 )

da cui

P ( A1 | A)P ( A) = P ( A ∩ A1 ) = P ( A| A1 )P ( A1 )

Ne segue che

P ( A| A1,2 ) P ( A| A1,2 )P ( A1,2 )


P ( A1,2 | A) = =
P ( A) P ( A| A1 )P ( A1 ) + P ( A| A2 )P ( A2 )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


150 o.caligaris - p.oliva

10.3.2 Ancora sul lancio di due dadi


Giocando a dadi è d’uso sommare i punti usciti sull’uno e sull’altro dei
due dadi; se chiamiamo ξ il punteggio così ottenuto possiamo allora
scrivere che
ξ ( Di,j ) = i + j
In questo modo definiamo una funzione ξ su ogni insieme elementare
e quindi risulta che
ξ:U →R
poichè l’uscita di Di,j è casuale, anche ξ ( Di,j ) lo sarà. Se teniamo conto
che il punteggio di 3 si può ottenere soltanto in corrispondenza di uno
dei due eventi
D1,2 e D2,1
scopriamo che la probabilità che ξ assuma il valore 3 è 2/36 in quanto
il valore 3 compare esattamente 2 volte sui 36 casi possibili, in altre
parole
2
P ( ξ = 3) =
36
È facile immaginare come calcolare la probabilità che ξ assuma uno
dei valori (interi da 2 a 12).
Nella figura seguente sono riportate le possibili uscite del lancio di
due dadi, cioè è rappresentato lo spazio U ; Le linee diagonali aiutano a
contare quante volte compare ognuno dei valori assunti dalla variabile
ξ (i, j) = i + j ed è immediato costruire una tabella in cui siano riassunti
i valori che ξ può assumere ed il numero di volte, cioè la frequenza,
con cui compaiono.

i+j 2 3 4 5 6 7 8 9 10 11 12
freq. 1 2 3 4 5 6 5 4 3 2 1
In base alla tabella è immediato ottenere, tenendo anche conto che
ognuna delle coppie (i, j) è equiprobabile, che si ha

1
P (ξ = 2) = P (ξ = 12) =
36
2
P ( ξ = 3) = P ( ξ = 11) =
36
3
P ( ξ = 4) = P ( ξ = 10) =
36
4
P ( ξ = 5) = P ( ξ = 9) =
36
5
P ( ξ = 6) = P ( ξ = 8) =
36
6
P ( ξ = 7) =
36

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 151

e ovviamente
12
∑ P (ξ = k) = 1.
k =2

I risultati possono essere riportati su un istogramma, su un grafico


cioè in cui in corrispondenza di ciascun intero k tra 2 e 12 è riportato
un rettangolo la cui base [k − 0.5, k + 0.5] ha lunghezza 1 e la cui altezza
è pari a P (ξ = k ).
Questo accorgimento consente di valutare la probabilità che ξ = k
semplicemente considerando l’area del rettangolo corrispondente; la
somma delle aree di tutti i rettangoli sarà ovviamente 1.
Aiutandoci con l’istogramma possiamo facilmente calcolare ad esem-
pio che

6 1
P ( ξ = 7) = =
36 6

1 5
P ( ξ 6 = 7) = 1 − P ( ξ = 7) = 1 − =
6 6

P (4 ≤ ξ ≤ 8) = P ( ξ = 4) + P ( ξ = 5) + P ( ξ = 6) + P ( ξ = 7) + P ( ξ = 8) =
3+4+5+6+5 23
=
36 36
Abbiamo così introdotto un esempio di variabile aleatoria cioè di
funzione definita su U e usando l’istogramma che abbiamo costruito
possiamo anche definire il concetto di funzione densità di probabilità
(la indicheremo PDF) di una variabile aleatoria. Sarà infatti sufficiente
considerare la funzione costante a tratti definita uguale a P (ξ = k ) su
[k − 0.5, k + 0.5].
Per capire meglio come si ottiene la funzione densità di probabi-
lità di ξ consideriamo il suo grafico che rappresentiamo assumendo
ξ (i, j) = i + j costante sul quadrato [i − 0.5, i + 0.5] × [ j − 0.5, j + 0.5]
Ad esempio si vede che P (ξ = 7) è la probabilità calcolata in U
della controimmagine di 7 secondo ξ cioè (ξ −1 (7) o, dal momento che
ξ assume valori discreti (ξ −1 ((6.5, 7.5)).

10.3.3 Spazi di probabilità e variabili aleatorie discrete


Per assegnare uno spazio di probabilità discreto, finito o numerabi-
le, basta quindi assegnare una famiglia di eventi elementari distinti e
disgiunti
A = { Ai : i ∈ I}
dove I è un insieme finito o numerabile di indici ed una funzione

P :F →R

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


152 o.caligaris - p.oliva

dove F è la collezione di tutti i sottoinsiemi (le parti) di A, che associa


ad ogni A ∈ F un valore reale P ( A), che chiamiamo probabilità che
l’evento accada, soddisfacente le seguenti proprietà:

• P ( A) ≥ 0
S
• se U = i ∈I Ai , si ha P (U ) = 1

Se A ∈ F allora
[
A= Ai
i ∈J
e
P ( A) = ∑ P ( Ai )
i ∈J
la somma essendo finita o numerabile.
Poniamo, per semplicità

P ( Ai ) = pi

ed osserviamo che è sufficiente assegnare P ( Ai ) per definire P su F .


Ci riferiremo quindi allo spazio di probabilità discreto costituito da

(U , F , P )

dove U è un insieme discreto F è la famiglia delle parti di U e P è una


misura di probabilità su F .
Diciamo che è assegnata una variabile aleatoria ξ su U , se è data
una funzione
ξ:U →R
ed indichiamo per brevità

ξ i = ξ ( Ai )

Definizione 10.2 Definiamo

• la media µ di ξ come
µ = E(ξ ) = ∑ ξ i pi
i

• la varianza σ2 di ξ come

σ2 = Var(ξ ) = E((ξ − µ)2 ) = ∑ ( ξ i − µ )2 p i


i

• lo scarto quadratico medio o deviazione standard di ξ



σ = σ2

• il momento k-esimo µk di ξ come

µk = ∑ ( ξ i − µ )k pi
i

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 153

• il momento k-esimo rispetto all’origine µ0k di ξ come

µ0k = ∑ ξ ik pi
i

• la funzione di distribuzione ϕ di ξ come

ϕ ( ξ i ) = pi

per cui la funzione di distribuzione cumulativa Φ è definita da:

Φ( x ) = P (ξ ≤ x ) = ∑ P (ξ ( Ai )) = ∑ pi = ∑ ϕ(ξ i )
ξi ≤x ξi ≤x i

Si può dimostrare che, se ξ e η sono variabili aleatorie discrete su


uno spazio di probabilità (U , F , P ) e se α, β ∈ R, allora

• E(αξ + βη ) = αE(ξ ) + βE(η )

• se ξ e η sono variabili aleatorie indipendenti

E(ξη ) = E(ξ ) E(η )

• Var(αξ ) = α2 Var(ξ )

• se ξ e η sono variabili aleatorie indipendenti

Var(ξ ± η ) = Var(ξ ) + Var(η )

e che la varianza si può calcolare come

σ2 = Var(ξ ) = E((ξ − µ)2 ) = E(ξ 2 − 2µξ + µ2 ) =


= E(ξ 2 ) − 2µE(ξ ) + µ2 = E(ξ 2 ) − 2µ2 + µ2 =
= E(ξ 2 ) − µ2 = E(ξ 2 ) − ( E(ξ ))2

Inoltre se ξ è una variabile aleatoria discreta la cui densità di pro-


babilità è ϕ, e se f : R → R è una funzione tale che, posto

ηi = f ( ξ i )

si definisca una corrispondenza biunivoca; η risulta essere una varia-


bile aleatoria la cui densità di probabilità è

ψ(k) = P (η = k) = P ( f (ξ ) = k) = P (ξ = f −1 (k )) = ϕ( f −1 (k))

Quindi

E( f (ξ )) = E(η ) = ∑ kψ(k) = ∑ f (ξ i ) ϕ( f −1 ( f (ξ i )))) = ∑ f (ξ i ) ϕ(ξ i )


k i i

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


154 o.caligaris - p.oliva

Definiamo funzione generatrice dei momenti di ξ la

Mξ (t) = E(etξ ) = ∑ eξ i t ϕ(ξ i )


i

Si può verificare che la funzione Mξ è sviluppabile in serie di McLau-


rin ed il suo sviluppo è dato da

+∞
tk
Mξ ( t ) = ∑ µ0k k!
k =0
per cui
dk
µ0k = Mξ ( t )
dtk

10.4 Variabili aleatorie continue

Talvolta non è possibile considerare uno spazio di probabilità discreto,


finito o numerabile.
Ciò accade, ad esempio, quando si considera il problema di sceglie-
re un numero a caso compreso tra 0 ed 1.
Infatti la probabilità di estrarre, ad esempio, il valore 0.3 non si può
calcolare considerando il rapporto tra casi favorevoli, uno solo, e casi
possibili, infiniti non numerabili.
Anche la definizione di media e varianza presentano qualche pro-
blema in quanto occorre definire come si intende procedere per calco-
lare la somma di un numero infinito, non numerabile, di addendi.
Per chiarire la questione possiamo osservare che, se è difficile defi-
nire la probabilità che la variabile aleatoria ξ il cui valore è il numero
scelto a caso in [0, 1] assuma il valore x, è invece naturale definire la
probabilità che ξ ∈ [ x, x + h].
In tal caso infatti possiamo identificare i casi favorevoli con un seg-
mento di lunghezza h e la totalità dei casi con l’intero intervallo [0, 1]
che risulta ovviamente di lunghezza 1.
Pertanto
h
P ( x ≤ ξ ≤ x + h) =
1
Ricordando il significato di somma dell’integrale, possiamo definire
la funzione distribuzione di probabilità della variabile aleatoria ξ come
la funzione continua ϕ tale che
Z ξ +h
P ( x ≤ ξ ≤ x + h) = h = ϕ(t)dt
ξ

per ogni x ∈ [0, 1] e per ogni h abbastanza piccolo.


Ne deduciamo che
Z x+h
1
ϕ(t)dt = 1
h x

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 155

e, passando al limite per h → 0, poichè abbiamo supposto ϕ continua,

ϕ( x ) = 1

Da quanto abbiamo detto appare ragionevole che, nel caso di una


variabile aleatoria continua ξ, non è significativo definire

P (ξ = x )

mentre è naturale definire


Z x
1
P ( x0 ≤ ξ ≤ x1 ) = ϕ(t)dt
x0

dove ϕ è la funzione di distribuzione di probabilità di ξ.


Pertanto supporremo nota una variabile aleatoria continua ξ se è
nota la sua funzione di distribuzione di probabilità ϕ.
Una funzione ϕ : R → R, continua, è la funzione di distribuzione
di probabilità di una variabile aleatoria se


ϕ(t) ≥ 0 per ognit ∈ R

• Z +∞
ϕ(t)dt = 1
−∞

In tal caso si ha

Z x Z x
1
P (ξ ≤ x ) = ϕ(t)dt , P ( x0 ≤ ξ ≤ x1 ) = ϕ(t)dt
−∞ x0

La funzione
Z x
F ( x ) = P (ξ ≤ x ) = ϕ(t)dt
−∞
si chiama distribuzione cumulativa di probabilità della variabile alea-
toria ξ di densità di probabilità ϕ.
Osserviamo che ad ogni variabile aleatoria discreta (finita) si può
associare una variabile aleatoria continua la cui densità è una funzione
costante a tratti, nulla al di fuori di un insieme limitato nel caso in cui
la variabile sia discreta e finita.
Come nel caso delle variabili aleatorie discrete possiamo porre la
seguente

Definizione 10.3 Se ξ è una variabile aleatoria continua che ha densità di


probabilità ϕ,

• la media µ di ξ è definita da
Z +∞
µ = E(ξ ) = xϕ( x )dx
−∞

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


156 o.caligaris - p.oliva

• la varianza σ2 di ξ è definita da
Z +∞
σ2 = Var(ξ ) = E((ξ − µ)2 ) = ( x − µ)2 ϕ( x )dx
−∞

• lo scarto quadratico medio di ξ è definito da



σ = σ2

• la moda M di ξ è definita da

M = sup ϕ( x )
x ∈R

• la mediana m di ξ è definita da
Z m Z +∞
P (ξ ≤ m) = ϕ( x )dx = ϕ( x )dx = P (ξ ≥ m)
−∞ m

• il momento di ordine k µk di ξ è definito da


Z +∞
µk = E((ξ − µ)k ) = ( x − µ)k ϕ( x )dx
−∞

• il momento di ordine k, rispetto all’origine µ0k di ξ è definito da


Z +∞
µk = E(ξ k ) = x k ϕ( x )dx
−∞

Se ξ è una variabile aleatoria continua e se f : R → R è una funzio-


ne derivabile ed invertibile possiamo considerare la variabile aleatoria
f (ξ ) e possiamo calcolare che

P ( x0 ≤ f (ξ ) ≤ x1 ) = P ( f −1 ( x0 ) ≤ ξ ≤ ( f −1 ( x1 )) =
Z f −1 ( x ) Z x
1 1 ϕ ( f −1 ( s ))
ϕ(t)dt = ds
f −1 ( x 0 ) x0 f 0 ( f −1 (s))
per cui la sua funzione distribuzione di probabilità risulta definita da
ϕ( f −1 (s))
ψ(t) =
f 0 ( f −1 (s))
In tal modo si ha
Z +∞
ϕ( f −1 (s))
E( f (ξ )) = s ds =
−∞ f 0 ( f −1 (s))
Z +∞ Z +∞
ϕ(t) 0
= f (t) 0 f (t)dt = f (t) ϕ(t)dt = µ
−∞ f (t) −∞

ed inoltre
Z +∞
ϕ( f −1 (s))
σ2 ( f (ξ )) = ( s − µ )2 ds =
−∞ f 0 ( f −1 (s))
Z +∞ Z +∞
ϕ(t)
= ( f (t) − µ)2 0 f 0 (t)dt = ( f (t) − µ)2 ϕ(t)dt
−∞ f (t) −∞

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 157

Definizione 10.4 Se ξ è una variabile aleatoria continua la cui densità di


probabilità è ϕ, definiamo funzione generatrice dei momenti di ξ la
Z +∞
Mξ (t) = E(etξ ) = etx ϕ( x )dx
−∞

Possiamo anche in questo caso provare che

• E(αξ + βη ) = αE(ξ ) + βE(η )

• se ξ e η sono variabili aleatorie indipendenti

E(ξη ) = E(ξ ) E(η )

• Var(αξ ) = α2 Var(ξ )

• se ξ e η sono variabili aleatorie indipendenti

Var(ξ ± η ) = Var(ξ ) + Var(η )

Ed è utile ricordare ancora che

σ2 = E((ξ − µ)2 ) = E(ξ 2 − 2µξ + µ2 ) =


= E(ξ 2 ) − 2µE(ξ ) + µ2 =
= E(ξ 2 ) − 2µ2 + µ2 = E(ξ 2 ) − µ2 = E(ξ 2 ) − ( E(ξ ))2

Si ha inoltre:
 
k
k i k −i
(t − µ) = ∑
k

i =0
i
moltiplicando per ϕ(t) ed integrando,otteniamo

k  
k
µk = ∑ i µ 0 i µ k −i (10.4)
i =0
e se ne ricava che per trovare i momenti rispetto al valor medio µk è
sufficiente conoscere i momenti rispetto all’origine µ0k .
Casi particolari della 10.4 sono

µ2 = σ2 = µ20 − µ2
µ3 = µ30 − 3µ20 µ + 2µ3

(ricordiamo che µ0 = µ00 = 1 e µ1 = µ10 = µ).


La funzione generatrice dei momenti si rivela molto comoda per il
calcolo dei momenti di una variabile aleatoria.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


158 o.caligaris - p.oliva

Infatti si può verificare che Mξ è sviluppabile in serie di McLaurin


ed il suo sviluppo è dato da
Z +∞ +∞ +∞ Z +∞
(st)k tk
Mξ ( t ) =
− ∞ i =0
∑ k!
ϕ(s)ds = ∑ sk ϕ(s)ds
k!
i =0 − ∞
per cui
+∞
tk
Mξ ( t ) = ∑ µ0k k!
i =0

e quindi
dk
µ0k = Mξ ( t )
dtk

10.5 La disuguaglianza di Tchebichev e la legge dei grandi nu-


meri

In questa sezione ci occupiamo di due risultati fondamentali: la disu-


guaglianza di Tchebichev e la legge dei grandi numeri, cominciando a
parlare della prima.
Sia ξ una variabile aleatoria con media µ e varianza σ2 , allora si avrà
che

Z +∞
σ2 = (t − µ)2 ϕ(t)dt =
−∞
Z Z
= (t − µ)2 ϕ(t)dt + (t − µ)2 ϕ(t)dt ≥
{t : |t−µ|≥ε} {t : |t−µ|<ε}
Z Z
≥ (t − µ)2 ϕ(t)dt ≥ ε2 ϕ(t)dt =
{t : |t−µ|≥ε} {t : |t−µ|≥ε}

= ε2 P (|ξ − µ| ≥ ε)

se ne ricava pertanto che

σ2
P (|ξ − µ| ≥ ε) ≤ (10.5)
ε2
La 10.5 è nota come disuguaglianza di Tchebichev e ne possiamo
trarre una interessante conseguenza: per ε = kσ otteniamo che

1
P (|ξ − µ| ≥ kσ) ≤ (10.6)
k2
Pertanto
1
P (|ξ − µ| < kσ) = 1 − P (|ξ − µ| ≥ kσ) ≥ 1 − (10.7)
k2
Se ora consideriamo la seguente tabella

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 159

k 1 2 3 4 5 6
1
1− k2
0 .75 .88 .93 .95 .97

1
Tabella 10.2: Valori approssimati di 1 − k2

Si vede pertanto che se ξ è una variabile aleatoria di media µ e di


varianza σ2 , allora la probabilità che il valore assunto da ξ sia vicino
alla media µ per meno di 2 volte la varianza è del 75% e sale all’88%
se ci accontentiamo di un errore inferiore a 3 volte la varianza.
Va osservato che, nonostante fornisca risultati soddisfacenti, la di-
suguaglianza di Tchebichev non è molto precisa.

10.5.1 La legge dei grandi numeri


Una delle conseguenze della disuguaglianza di Tchebichev prende il
nome di ”Legge dei Grandi Numeri” e si ricava come segue.
Se ξ 1 , ξ 2 , . . . , ξ n sono variabili aleatorie tutte con media µ e varianza
2
σ , la variabile aleatoria
ξ1 + ξ2 + · · · + ξn
Sn =
n
ha media
1
E ( Sn ) = ( E(ξ 1 ) + E(ξ 2 ) + · · · + E(ξ n )) = µ
n
e varianza
1 σ2
Var(Sn ) = 2
(Var(ξ 1 ) + Var(ξ 2 ) + · · · + Var(ξ n )) =
n n
inoltre vale il seguente teorema

Teorema 10.5 Siano ξ 1 , ξ 2 , . . . , ξ n variabili aleatorie tutte con media µ e


varianza σ2 , e consideriamo la variabile aleatoria
ξ1 + ξ2 + · · · + ξn
Sn =
n
Allora
σ2
P (|Sn − µ| ≥ ε) ≤ →0 (10.8)
nε2
per n → +∞

La 10.9 è nota con il nome di ”Legge Debole dei Grandi Numeri”


ed esprime un concetto in base al quale la media di n uscite di una
variabile aleatoria differisce dalla media della variabile aleatoria per
una quantità infinitesima con n.
Va sottolineato che la legge dei grandi numeri fornisce informazioni
di carattere qualitativo e quindi non può essere usata per stime di tipo
quantitativo.
È possibile anche dimostrare, ma la dimostrazione è più complessa,
la ”Legge Forte dei Grandi Numeri” che asserisce che

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


160 o.caligaris - p.oliva

Teorema 10.6 Siano ξ 1 , ξ 2 , . . . , ξ n variabili aleatorie tutte con media µ e


varianza σ2 , e consideriamo la variabile aleatoria

ξ1 + ξ2 + · · · + ξn
Sn =
n

Allora

P (lim Sn = µ) = 1 (10.9)
n

In entrambi i casi il concetto espresso è che la media di Sn converge


alla media µ la differenza risiede nel modo in cui tale convergenza
avviene e nelle proprietà che tale convergenza consente di trasferire
sul limite. Piú precisamente la legge debole dei grandi numeri afferma
che la successione di variabili aleatorie Sn converge a µ in probabilitá,
mentre la legge forte dei grandi numeri garantisce che Sn converge a
µ quasi certamente.
Usando la terminologia derivante dalla teoria della misura, cui la
teoria della probabilità astratta sostanzialmente si sovrappone, la for-
mulazione debole parla di convergenza in misura, mentre la formula-
zione forte parla di convergenza puntuale quasi ovunque.
È noto che, essendo lo spazio di probabilità di misura finita (uguale
ad 1), una successione quasi ovunque convergente è anche convergen-
te in misura, e che da una successione convergente in misura si può
estrarre una sottosuccessione quasi ovunque convergente.

10.6 Somma di variabili aleatorie.

Consideriamo due variabili aleatorie discrete indipendenti ξ, η aventi


PDF rispettivamente f e g, e la variabile aleatoria ζ che restituisce la
somma delle due

ζ = ξ+η

Possiamo trovare la densità di probabilità della variabile ζ osservan-


do che

h(γ) = P (ζ = γ) =
= ∑ P (ξ + η = γ|ξ = α)P (ξ = α) = ∑ P (η = γ − α)P (ξ = α) =
α α

∑ f (γ − α) g(α)
α

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


y
probabilità 161

Nel caso in cui ξ e η siano variabili aleatorie continue indipendenti


avremo, come si vede dalla figura 10.3,
Z +∞  Z z− x  y ≤z−x

P (ζ ≤ z) = g(y)dy f ( x )dx =
−∞ −∞
Z +∞ Z z Z z  Z +∞ 
x
= g(s − x ) f ( x )dsdx = g(s − x ) f ( x )dx ds
−∞ −∞ −∞ −∞

Per modo che la funzione


Z +∞ Figura 10.3:
h(z) = g(z − x ) f ( x )dx
−∞

risulta essere la densità di probabilità della variabile aleatoria ξ + η.


Possiamo allora calcolare che

Z +∞  Z +∞ 
E(ζ ) = E(ξ + η ) = s g(s − x ) f ( x )dx ds = y

−∞ −∞
Z +∞  Z +∞ 
= sg(s − x ) f ( x )ds dx =
−∞ −∞
Z +∞  Z +∞  α>0

= ( x + t) g(t) f ( x )dx dt =
−∞ −∞ A

Z +∞  Z +∞  Z +∞  Z +∞  x
A
= g(t) x f ( x )dx dt + f (x) tg(t)dt dx =
−∞ −∞ −∞ −∞
Z +∞ Z +∞
= E(ξ ) g(t)dt + E(η ) f ( x )dx = E(ξ ) + E(η )
−∞ −∞

10.7 Prodotto di variabili aleatorie


y

Siano ξ e η due variabili aleatorie indipendenti le cui PDF sono f e g,


rispettivamente, e sia
ζ = ξη α<0
A

Avremo che Z
P (ξη ≤ α) = f ( x ) g(y)dxdy x

dove A

2
A = {( x, y) ∈ R : xy ≤ α}

è l’insieme tratteggiato nella figura 10.4;


Pertanto
Figura 10.4:
Z
P (ξη ≤ α) = f ( x ) g(y)dxdy =
A
Z 0 Z +∞ Z +∞ Z α
x
= f ( x ) g(y)dydx + f ( x ) g(y)dydx =
−∞ α
x 0 −∞
s ds
posto y = x da cui dy = x

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


162 o.caligaris - p.oliva

Z 0 Z −∞  s  ds Z +∞ Z α  s  ds
= f (x) g dx + f (x) g dx =
−∞ α x x 0 −∞ x x
Z 0  Z α  s  ds  
Z +∞ Z α  s  ds 
= − f (x) g dx + f (x) g dx =
−∞ −∞ x x 0 −∞ x x
Z α  Z +∞  s  dx 
f (x) g ds
−∞ −∞ x |x|

dal che si deduce che la PDF di ζ è data da


Z +∞  s  dx
ϕ(s) = f (x) g
−∞ x |x|

Possiamo inoltre calcolare media e varianza di ζ come segue.

Z +∞  Z +∞  s  dx 
µζ = s f (x) g ds =
−∞ −∞ x |x|
Z +∞  Z +∞ s s 
= f (x) g ds dx =
−∞ −∞ x |x|
Z +∞  Z +∞ s s  Z 0  Z +∞ s s 
= f (x) g ds dx − f (x) g ds dx =
0 −∞ x x −∞ −∞ x x
posto t = xs da cui dt = ds x
Z +∞  Z +∞  Z 0  Z +∞ 
= f ( x ) g (t) txdt dx + f ( x ) g (t) txdt dx =
0 −∞ −∞ −∞

Z +∞ Z +∞ 
= f ( x ) g (t) txdt dx = µξ µη
−∞ −∞

Per quanto concerne la varianza avremo che


Z +∞ Z +∞  s  dx 
σζ2 = s 2
f (x) g ds − µ2ζ
−∞ −∞ x |x|
e

Z +∞ Z  s  dx 
+∞ Z +∞  Z +∞  s  s2 
2
s f (x) g ds = f (x) g ds dx =
−∞ −∞ x |x| −∞ −∞ x |x|
Z +∞  Z +∞  s  s2  Z 0  Z +∞  s  s2 
= f (x) g ds dx − f (x) g ds dx =
0 −∞ x x −∞ −∞ x x
s ds
posto t = x da cui dt = x
Z +∞  Z +∞  Z 0  Z +∞ 
x 2 t2 x 2 t2
= f ( x ) g (t) xdt dx + f ( x ) g (t) xdt dx =
0 −∞ x −∞ −∞ x
Z +∞  Z +∞ 
= f ( x ) g (t) x2 t2 dt dx =
−∞ −∞
= (σξ2 + µ2ξ )(ση2 + µ2η )

Possiamo allora concludere che

σζ2 + µ2ζ = (σξ2 + µ2ξ )(ση2 + µ2η )

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 163

10.7.1 Un caso particolare


Se ξ è una variabile aleatoria e α ∈ R+ allora
 Z x Z x
x α 1 s
P (αξ ≤ x ) = P ξ ≤ = f (t)dt = f ds
α −∞ −∞ α α
D’altro canto se α ∈ R−
 Z +∞ Z x
x 1 s
P (αξ ≤ x ) = P ξ ≥ = x f (t)dt = − f ds
α α −∞ α α
per cui la PDF di αξ è data da
1 s
g(s) = f
|α| α

10.8 Quoziente di variabili aleatorie

Siano η e ξ due variabili aleatorie positive e indipendenti le cui PDF


sono g ed f , rispettivamente, e sia
η
ζ=
ξ
Avremo che x
  Z
η
P ≤α = P (η ≤ αξ ) = f ( x ) g(y)dxdy
ξ A

dove
y ≤ αx
A = {( x, y) ∈ R2 : y ≤ αx }
Pertanto
  Z Z +∞ Z αx
η
P ≤α = f ( x ) g(y)dxdy = f ( x ) g(y)dydx =
ξ A 0 0 y
posto y = tx da cui dy = xdt
Z +∞ Z α Z α  Z +∞ 
= f ( x ) g(tx ) xdtdx = x f ( x ) g(tx )dx dt
0 0 0 0

dal che si deduce che la PDF di ζ è data da


Z +∞
ϕ(t) = x f ( x ) g(tx )dx
0

10.8.1 Un caso particolare


Se ξ è una variabile aleatoria e n ∈ R+ allora
Z αn Z α
ξ
P ( ≤ α) = P (ξ ≤ αn) = f ( x )dx = n f (nt)dt
n −∞ −∞
ξ
per cui la PDF di n è data da

g(t) = n f (nt)

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


164 o.caligaris - p.oliva

10.9 Distribuzioni di probabilità doppie

Siano (U1 , F1 , P1 ) e (U2 , F2 , P2 ) due spazi di probabilità consideriamo


la variabile aleatoria che indichiamo con (ξ, η ) definita sullo spazio
U1 × U2 mediante la
Z x Z y 
F ( x, y) = P (ξ ≤ x, η ≤ y) = f (t, s)ds dt
−∞ −∞

F è la distribuzione cumulativa di probabilità della variabile (ξ, η )


ed f è la sua funzione distribuzione di probabilità
Se f è continua possiamo affermare che

∂2 F
= f ( x, y)
∂x∂y

Naturalmente devono essere verificate le seguenti condizioni:


f ( x, y) ≥ 0

• Z +∞  Z +∞ 
f (t, s)ds dt = 1
−∞ −∞

Inoltre se
Z x  Z +∞ 
F1 ( x ) = P (ξ ≤ x ) = f (t, s)ds dt
−∞ −∞
Z +∞  Z y  Z y
Z +∞

F2 (y) = P (η ≤ y) = f (t, s)ds dt = f (t, s)dt ds
−∞ −∞ −∞ −∞

F1 ed F2 sono le distribuzioni cumulative delle variabili aleatorie ξ e η,


rispettivamente le cui funzioni di distribuzione sono date da
Z +∞
ϕ(t) = f (t, s)ds
−∞
Z +∞
ψ(s) = f (t, s)dt
−∞

Nel caso in cui le variabili aleatorie ξ e η siano indipendenti, allora


(ξ, η ) ha una distribuzione di probabilità

f (t, s) = ϕ(t)ψ(s)

dove ϕ e ψ sono le funzioni di distribuzione di ξ e η, rispettivamente.


È utile ricordare che la probabilità della variabile aleatoria ξ condi-
zionata alla variabile aleatoria η si può definire mediante la
Z x Z y 
f (t, s)
P (ξ ≤ x |η ≤ y) = ds dt
−∞ −∞ ψ (s )

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 165

f (t,s)
per cui ψ(s) è la sua funzione di distribuzione di probabilità.
Possiamo giustificare la definizione osservando che:

R x R y+k
−∞ y f (t, s)dsdt
P (ξ ≤ x, y ≤ η ≤ y + k) = R +∞ R y+k =
−∞ y f (t, s)dsdt
R x R y+k R x R y+k
−∞ y f (t, s)dsdt −∞ y f (t, s)dsdt
= R y+k R +∞ = R y+k =
y −∞ f (t, s ) dtds y ψ(s)ds
Rx Z x Z x
f (t, y)kdt f (t, y)k f (t, y)
≈ −∞ = dt = dt
ψ(y)k −∞ ψ (y )k −∞ ψ (y )

10.10 Normalizzazione di una variabile aleatoria.

Sia ξ una variabile aleatoria di media µ e di varianza σ2 con distribu-


zione di probabilità ϕ.
e consideriamo la variabile aleatoria

ξ−µ
ξ∗ =
σ

Per le proprietà di media e varianza possiamo affermare che ξ ∗ è


una variabile normalizzata (o standardizzata), intendendo con ciò che
ξ ∗ ha media 0 e varianza 1.
Allo scopo di determinare la funzione di distribuzione di ξ ∗
osserviamo che

P ( a ≤ ξ ∗ ≤ b) =
  Z µ+σb
ξ−µ
=P a≤ ≤ b = P (µ + σa ≤ ξ ≤ µ + σb) = ϕ(s)ds =
σ µ+σa
Z b
= σϕ (µ + σt)) dt
a

Pertanto la variabile aleatoria

ξ−µ
ξ∗ =
σ

ha una PDF definita da

ψ(t) = σϕ (µ + σt))

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


166 o.caligaris - p.oliva

e possiamo allora verificare che


Z +∞ Z +∞ Z +∞
ψ(t)dt = σϕ (µ + σt) dt = ϕ(s)ds = 1
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞  
s−µ
tψ(t)dt = tσϕ (µ + σt) dt = ϕ(s)ds =
−∞ −∞ −∞ σ
 Z +∞ Z +∞ 
1
= sϕ(s)ds − µ ϕ(s)ds = 0
σ −∞ −∞
Z +∞ Z +∞ Z +∞  
s−µ 2
t2 ψ(t)dt = t2 σϕ (µ + σt) dt = ϕ(s)ds =
−∞ −∞ −∞ σ
Z +∞
1
= (s − µ)2 ϕ(s)ds = 1
σ2 −∞

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


11. Qualche Distribuzione di Proba-
bilità

Le funzioni di distribuzione di probabilità sono fondamentali per de-


scrivere il comportamento delle variabili aleatorie che ci interessano.
Ogni variabile aleatoria ha una sua distribuzione e per definirne la
proprietà è utile fare riferimento ad alcune distribuzioni note che sono
in grado di descrivere la maggior parte delle variabili aleatorie con cui
normalmente si lavora.

11.1 La distribuzione uniforme

La più semplice funzione di distribuzione di probabilità è quella di


una variabile aleatoria che restituisce un valore scelto in un intervallo
[ a, b] con il criterio di equiprobabilità.
Abbiamo già visto che in tal caso

h
P ( x ≤ ξ ≤ x + h) =
b−a
e che la sua distribuzione di densità è
Distribuzione Uniforme in [2, 4]
 1

 1
t ∈ [ a, b]
0.9

b− a 0.8
ϕ(t) = 0.7
0 altrove 0.6
0.5
0.4

La funzione generatrice dei momenti si calcola mediante la 0.3


0.2
0.1
Z b
1 etb − eta 0
1 2 3 4 5
Mξ ( t ) = etx dx = Figura 11.1: PDF e CDF di una variabile
b−a a t(b − a) aleatoria Uniforme
Se ne ricava subito che

b+a
µ=
2
( b − a )2
σ2 =
12
168 o.caligaris - p.oliva

1
Distribuzione Triangolare in [2, 5] con moda 3
11.2 La distribuzione triangolare
0.9
0.8
0.7 La distribuzione triangolare è utile per definire una variabile aleatoria
0.6
0.5 che assuma valori compresi tra a e b ed abbia una moda c. La funzione
0.4
0.3
distribuzione di probabilità triangolare si definisce mediante la
0.2
0.1 
0 
 0 t<a
0 1 2 3 4 5 6


Figura 11.2: PDF e CDF di una variabile 
 2( t − a )
aleatoria Triangolare (b− a)(c− a)
a≤t<c
φ(t) =
 2( b − t )
 c<t≤b

 (b− a)(b−c)


0 t>b

Si calcola facilmente che il valor medio è

a+b+c
µ=
3
mentre la varianza è data da
a2 + b2 + c2 − bc − ab − ac
σ2 =
18
e la funzione generatrice dei momenti è

eta (b − c) − etc (b − a) + etb (c − a)


Mξ ( t ) =
t2 (b − a)(c − a)(b − c)

11.3 Alcune importanti distribuzioni discrete

11.3.1 La distribuzione binomiale di Bernoulli


Definizione 11.1 Chiamiamo prova bernoulliana un esperimento che ha due
soli possibili esiti:
Distribuzione Binomiale di Bernoulli per n = 10 e p = 0.2
1
0.9 • Successo, cui associamo il valore 1 con probabilità p
0.8
0.7
0.6 • Insuccesso, cui associamo il valore 0 con probabilità q
0.5
0.4
0.3
essendo ovviamente p + q = 1.
0.2 Chiamiamo variabile aleatoria bernoulliana la variabile aleatoria ξ che re-
0.1
0
0 1 2 3 4 5 6 7 8 9 10
stituisce il numero di successi che si sono verificati su n prove ripetute (lanci)
Figura 11.3: PDF e CDF di una variabile dell’esperimento.
aleatoria Binomiale (di Bernoulli).
Possiamo calcolare la probabilità che la variabile aleatoria ξ assuma
il valore k mediante la
   
n k n−k n k
P (ξ = k) = p q = p (1 − p ) n − k
k k
Per giustificare la formula precedente descriviamo la successione di
n prove ripetute con una stringa di elementi che assumono il valore

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 169

1 oppure 0 a seconda che la corrispondente prova abbia avuto o no


successo.

0 1 1 0 0 1 0 0 1

oppure
0 0 1 0 1 0 0 0 1 0 1

affinchè ci siano k successi la stringa dovrà contenere esattamente


k volte il valore 1 (ed n − k volte il valore 0) e quindi, poichè in ogni
elemento 1 si presenta con probabilità p mentre il valore 0 compare
con probabilità q, una stringa con k successi avrà una probabilità di
comparire uguale a
pk qn−k

d’altro canto, poichè siamo unicamente interessati a contare il numero


di successi, e non l’ordine con cui si verificano, dovremo tener conto
che si possono ottenere, ad esempio, k successi su n prove in tanti modi
diversi

0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

il cui numero è dato dalle combinazioni di n oggetti a k a k e cioè


 
n
k

(Ciascuna combinazione è individuata dalla sequenza dei k numeri,


compresi tra 1 ed n, che indicano la posizione dei successi.)
Possiamo calcolare la media della variabile bernoulliana ξ osservan-
do che la media in ciascuna prova è

1· p+0·q = p

e su n esperimenti, essendo la media lineare, avremo

µ = E(ξ ) = np

La varianza della variabile bernoulliana ξ in ciascuna prova è

(1 − p)2 · p + (0 − p)2 q = q2 p + p2 q = pq( p + q) = pq

e su n esperimenti per le proprietà della varianza avremo

σ2 = E((ξ − µ)2 ) = npq

e

σ= npq

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


170 o.caligaris - p.oliva

Alternativamente possiamo calcolare la media e la varianza di una


variabile aleatoria Bernoulliana ξ usando direttamente la definizione:

n   n  
n k n−k n k n−k
µ = E(ξ ) = ∑ k
k
p q = ∑k
k
p q =
k =0 k =1
n
n(n − 1) · · · (n − (k − 1)) k n−k
= ∑k k!
p q =
k =1
n
(n − 1)(n − 2) · · · (n − (k − 1)) k−1 n−1−(k−1)
= np ∑ p q =
k =1
( k − 1) !
n −1
(n − 1)(n − 2) · · · (n − 1 − (k − 1)) k n−1−k
= np ∑ k!
p q =
k =0
= np( p + q)n−1 = np

 
n
n k n−k
σ2 = E((ξ − µ)2 ) = ∑ (k − np)2
k
p q =
k =0
n   n  
n k n−k n k n−k
= ∑ k2 p q − (np)2 = ∑ k2 p q − (np)2 =
k =0
k k =1
k
n
(n − 1)(n − 2) · · · (n − (k − 1)) k−1 n−1−(k−1)
= np ∑k ( k − 1) !
p q − (np)2 =
k =1
n −1
(n − 1)(n − 2) · · · (n − 1 − (k − 1)) k n−1−k
= np ∑ ( k + 1) k!
p q − (np)2 =
k =0
!
n −1    
n − 1 k n −1− k n −1 n − 1 k n −1− k
= np ∑ k p q +∑ p q − (np)2 =
k =0
k k =0
k
= np((n − 1) p + 1) − (np)2 = np(np + q) − (np)2 = npq
Per calcolare la funzione generatrice dei momenti possiamo proce-
dere come segue
n  
tk n
Mξ ( t ) = E ( e ) = ∑ e

pk qn−k =
k =0
k
n   k
n
= ∑ pet qn−k = ( pet + q)n
k =0
k
la funzione densità di probabilità (Probability Density Function , PDF)
di una variabile aleatoria di Bernoulli ξ è definita da
 
n k n−k
P(ξ = k) = p q
k
mentre la funzione di distribuzione cumulativa (Cumulative Distribu-
tion Function, CDF) è
ν ν  
n k n−k
F (ν) = ∑ P(ξ = k) = ∑ p q
k =0 k =0
k

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 171

Ad esempio si ha

0
F (0) = ∑ P ( ξ = k ) = P ( ξ = 0) = q n
k =0

ed anche
n   n
n k n−k
F (n) = ∑ P(ξ = k) = ∑ = ( p + q)n = 1
Distribuzione Binomiale Negativa di Pascal per r = 2 e p = 0.2
p q 1

k =0 k =0
k 0.9
0.8
0.7
0.6
11.3.2 La distribuzione binomiale negativa di Pascal 0.5
0.4
0.3
Consideriamo un esperimento bernoulliano, consideriamo cioè una se- 0.2

rie di prove ripetute con due soli possibili esiti: successo con probabi- 0.1
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
lità p ed insuccesso con probabilità q. Figura 11.4: PDF e CDF di una variabile
Consideriamo la variabile aleatoria che restituisce il minimo numero aleatoria Binomiale Negativa (di Pascal).
ξ di tentativi necessari per ottenere r successi.
Possiamo allora vedere che la probabilità P (ξ = k) che si ottengano
r successi al tentativo k si può calcolare considerando che

• al tentativo k si è verificato un successo (che ha probabilità p)

• nelle precedenti k − 1 prove si sono verificati r − 1 successi e k − 1 −


−1 r −1 k −r
(r − 1) insuccessi ( con probabilità (kr− 1) p q )

Pertanto
   
k − 1 r −1 k −r k − 1 r k −r
P (ξ = k) = p p q = pq
r−1 r−1
definisce la funzione densità di probabilità della distribuzione di Pa-
scal.
Talvolta si considera, in luogo di ξ, la variabile η che restituisce il
numero di fallimenti che precedono il successo r-esimo. In tal caso si
ha h = k − r e
 
h+r−1 r h
P (η = y) = pq
r−1
Possiamo calcolare che

r rq pet
µξ = , σξ2 = , Mξ ( t ) =
p p2 (1 − qet )r
e

r (1 − p ) r (1 − p )
µη = , ση2 =
p p2
A titolo di esempio vediamo come è possibile calcolare la media µξ
e la varianza σξ ;

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


172 o.caligaris - p.oliva

+∞  
k − 1 r −1 k −r + ∞ r k ( k − 1 ) . . . ( k − r + 1 ) k −r
µξ = ∑ kp r−1
p q =∑p
(r − 1) !
q =
k =r k =r
+∞
pr
=
(r − 1) ! ∑ k ( k − 1) . . . ( k − r + 1) q k −r =
k =r
+∞ +∞
pr dr pr dr
(r − 1)! ∑ dqr ∑ qk =
= qk =
k =r
(r − 1)! dqr k =r
pr dr +∞ pr dr 1 pr 1
=
(r − 1)! dqr ∑ qk = (r − 1)! dqr 1 − q
= r!
( r − 1 ) ! (1 − q ) r +1
=
k =0
pr r! r
= r + 1
=
(r − 1) ! p p
mentre
+∞ 
k − 1 r −1 k −r + ∞ r k ( k − 1 ) . . . ( k − r + 1 ) k −r
∑ k p r − 1 p q = ∑ kp
2
(r − 1) !
q =
k =r k =r
+∞ +∞
pr pr dr
=
(r − 1) ! ∑ kk(k − 1) . . . (k − r + 1)qk−r = (r − 1) ! ∑ k dqr qk =
k =r k =r
+∞
pr dr pr dr +∞
= ∑ kqk = (r − 1)! dqr ∑ kqk =
(r − 1)! dqr
k =r k =0
 
pr dr q pr 1 1
= = − =
(r − 1)! dqr (1 − q)2 (r − 1) ! (1 − q )2 (1 − q )
 
pr (r + 1) ! r!
= − r +1 =
(r − 1) ! p r +2 p
pr (r + q ) r (r + q )
= r! =
( r − 1 ) ! p r +2 p2

da cui
+∞  
k − 1 r −1 k −r r (r + q ) r2 rq
σξ = ∑ k2 p r−1
p q − µ2ξ =
p 2
− 2 = 2
p p
k =r

11.3.3 La distribuzione geometrica


Consideriamo una prova con probabilità di successo p ; ripetiamola
indefinitamente sotto l’ipotesi che

• p rimane costante:

• l’esito della prova non dipende dalle prove precedentemente effet-


tuate.

Ad esempio possiamo considerare un tiratore che ha la capacità di


colpire il bersaglio con probabilità p ad ogni tiro o una lampada che
può guastarsi con probabilità p ad ogni accensione.

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 173

Sia ξ la variabile aleatoria che restituisce il numero del primo tenta-


tivo in cui la prova ha successo. Avremo che

P ( ξ = k ) = (1 − p ) k −1 p
p

in quanto la prova ha avuto esito negativo (la probabilità di insuccesso


r
è 1 − p) per k − 1 volte ed ha avuto successo la k-esima volta. @
Pertanto la distribuzione di probabilità della variabile aleatoria ξ è @q
p
definita da @r
@ 
H
HqH p
Hr

k −1
XXqXXrp
ϕ ( k ) = P ( ξ = k ) = (1 − p ) p XXX
q X

e si verifica subito che


+∞ +∞
1
∑ p (1 − p ) k −1 = p ∑ (1 − p ) k = p 1 − (1 − p ) =1
1 0

Inoltre

+∞ +∞
µ= ∑ kp(1 − p)k−1 = p ∑ k(1 − p)k−1 =
1 1
+∞ +∞  
d d 1 1
= p ∑ − (1 − p ) k = − p ∑ (1 − p ) = − p − p2
k
=
1
dp dp 1
p

mentre

+∞ +∞ +∞
∑ k2 p(1 − p)k−1 = ∑ (k2 + k) p(1 − p)k−1 − ∑ kp(1 − p)k−1 =
Distribuzione Geometrica per p = .2
1
0.9
1 1 1
0.8
+∞
d2 d2 + ∞ 0.7
=p∑ (1 − p ) k +1
−µ = p ∑ (1 − p ) k +1
−µ = 0.6

1 dp2 dp2 1
0.5

  0.4

d2 1 2 0.3
=p 2 −2− p −µ = 2 −µ 0.2
dp p p 0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

per cui Figura 11.5: PDF e CDF di una variabile


aleatoria Geometrica
+∞
2 1− p
σ2 = ∑ k 2 p (1 − p ) k −1 − µ 2 = p2
− µ − µ2 =
p2
1

Per quanto riguarda la funzione generatrice dei momenti

+∞ +∞
p
Mξ (t) = E(etξ ) = ∑ etk p(1 − p)k−1 = 1 − p ∑ (et (1 − p))k =
k =1 k =1
 
p e t (1 − p ) pet
= =
1− p 1 − e t (1 − p ) 1 − e t (1 − p )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


174 o.caligaris - p.oliva

11.3.4 La distribuzione di Poisson


Consideriamo un centralino telefonico che in media riceve λ chiamate
all’ora e supponiamo di voler determinare la probabilità che riceva k
chiamate in un’ora.
Suddividiamo l’ora in n parti uguali ciascuna della durata di n1 ;
durante ciascuno degli n periodi di durata n1 la probabilità che si riceva
una chiamata è λ/n, pertanto la probabilità che si ricevano k chiamate
si può ottenere considerando la probabilità che una variabile aleatoria
binomiale relativa ad n prove ripetute con probabilità di successo λn
assuma valore k Sia quindi ξ la variabile aleatoria che restituisce il
numero di successi ottenuti.
Avremo che
   k  
n λ λ n−k
ϕ(k) = P (ξ = k) = 1− =
k n n
   k    
n 1 λ n λ −k
= λk 1− 1− =
k n n n

Se ora consideriamo di far tendere n a +∞ avremo


 n
λ
1− → e−λ
n
 −k
λ
1− →1
n

   k
n 1 n! 1 1 n!
= = =
k n k!(n − k)! n k k! (n − k)!nk

1 nn e−n 2πn
p =
k! (n − k )n−k e−(n−k) 2π (n − k )
r r
1 1 n nn 1 1 nn n
= n
= n
=
k! e k n − k (n − k) k! e (n − k)
k n−k
Distribuzione di Poisson per λ = 2   r
1
1 1 k −n n 1
0.9 1− →
0.8 k! ek n n−k k!
0.7
0.6
0.5
non appena si tenga conto che
0.4
  r
0.3 k −n n
0.2 1− → ek e →1
0.1 n n−k
0
0 1 2 3 4 5 6 7 8 9 10

Figura 11.6: PDF e CDF di una variabile Pertanto la funzione distribuzione di probabilità della variabile alea-
aleatoria di Poisson. toria considerata è data da

1 k −λ
ϕ(k) = λ e
k!

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 175

In generale chiamiamo variabile aleatoria di Poisson la variabile che


restituisce il numero di eventi accaduti nell’unità di tempo, noto il fatto
che il numero medio di eventi che accadono nell’unità di tempo è λ.
Per calcolare media, varianza ed i momenti della distribuzione di
Poisson è utile calcolare la funzione generatrice dei momenti.
+∞ +∞
λk (λet )k −λ
∑ etk k! e−λ = ∑
t
Mξ ( t ) = e = e − λ e λ ( e −1)
k =0 k =0
k!

e le sue derivate
d t
Mξ (t) = eλ(e −1) λet
dt
d2 t t
Mξ (t) = eλ(e −1) λ2 et + eλ(e −1) λet
dt2
Calcolando in t = 0 si ottiene
d
M (0) = λ = µ10 = µ
dt ξ
d2
Mξ (0) = λ2 + λ = µ20
dt2
da cui

µ = µ10 = λ
σ2 = µ20 − µ2 = λ2 + λ − λ2 = λ

11.3.5 Somma di variabili poissoniane


Sui può verificare che la somma di due variabili aleatorie di Poisson di
media λ e µ è ancora una variabile di Poisson di media λ + µ, infatti
se
1 1
ϕ (k ) = λk e−λ e ψ (k ) = µk e−µ
k! k!
possiamo calcolare la densità di probabilità della variabile somma me-
diante la

n n
1 h −λ 1
θ (k) = ∑ ϕ(h)ψ(k − h) = ∑ h!
λ e
(k − h)!
µk−h e−µ =
h =0 h =0
n
1 k!
= e−(λ+µ)
k!h! ∑
( k − h ) !
λh µk−h =
h =0
n  
1 k h k−h 1
= e−(λ+µ) ∑ λ µ = e−(λ+µ) (λ + µ)k
k! h=0 h k!

11.3.6 La distribuzione multinomiale


Consideriamo un esperimento che possa avere k possibili esiti, che
indichiamo con
A1 , A2 , ......, Ak

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


176 o.caligaris - p.oliva

con probabilità

p1 , p2 , ......, pk , p1 + p2 + ...... + pk = 1

e supponiamo di replicarlo per n volte; consideriamo la variabile alea-


toria ξ che restituisce la n−pla di valori

n1 , n2 , ......, nk , n1 + n2 + ...... + nk = n

dove ni è il numero di volte in cui si è verificato l’evento Ai .


La funzione distribuzione di probabilità di ξ è data da

ϕ(n1 , n2 , ......, nk ) = P (ξ 1 = n1 , ξ 2 = n2 , ......, ξ k = nk ) =


n! n n
= p 1 pn2 ......pk k
n1 !n2 !......nk ! 1 2

Infatti su n tentativi si sono verificati n1 successi con probabilità p1 ,


sui restanti n − n1 tentativi si sono verificati n2 successi con probabilià
p2 e così via fino at ottenere nk successi su (n − ni − n2 − · · · nk−1
tentativi per cui

ϕ(n1 , n2 , ......, nk ) = P (ξ 1 = n1 , ξ 2 = n2 , ......, ξ k = nk ) =


n! n ( n − n1 ) !
= p 1 p n2 · · ·
n1 ! ( n − n1 ) ! 1 n2 ! ( n − n1 − n2 ) ! 2
( n − n 1 − n 2 − n k −1 ) ! n
··· p k =
( n k ) ! ( n − n1 − n2 − · · · n k ) ! k
(dal momento che n − n1 − n2 − · · · nk = 0)
n! n n
= p 1 pn2 ......pk k
n1 !n2 !......nk ! 1 2

11.3.7
Sia ξ = (ξ 1 , ξ 2 , . . . ξ k ) una variabile aleatoria distribuita multinomial-
mente relativa al caso in cui gli eventi A1 , A2 , . . . , Ak hanno probabilità
di accadimento p1 , p2 , . . . pk e sia η = η1 + η2 +, · · · , ηk una variabile
aleatoria le cui componenti η j sono variabili indipendenti con densità
di Poisson di media λk = npk Allora

P ( ξ 1 = n1 , ξ 2 = n2 , . . . , ξ k = n k ) =
= P ( η1 = n 1 , η2 = n 2 , . . . , η n = n k | η1 + η2 + · · · + η k = n )

Infatti, dal momento che le η j son indipendenti si ha che e che

p1 + p2 + · · · p k = 1

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 177

P ( η1 = n 1 , η2 = n 2 , . . . , η k = n k ) =
    
(np1 )n1 e−np1 (np2 )n2 e−np2 (npk )nk e−npk
··· =
n1 ! n2 ! nk !
n
!
(n)n1 +n2 +···nk p1n1 p2n2 · · · pk k
= e − n ( p1 + p2 + p k ) =
n1 ! n2 ! · · · n k !
n
!
(n)n1 +n2 +···nk p1n1 p2n2 · · · pk k
= e−n =
n1 ! n2 ! · · · n k !

D’altra parte

P ( η1 = n 1 , η2 = n 2 , . . . , η k = n k | η1 + η2 + · · · + η k = n ) =
 n n n

(n)n p1 1 p2 2 ··· pk k
n1 ! n2 ! ··· nk ! e−n
= nn e−n
=
n!
n! n n
= p 1 p n2 · · · p k k =
n1 ! n2 ! · · · n k ! 1 2
= P ( ξ 1 = n1 , ξ 2 = n2 , . . . , ξ k = n k )
Distribuzione Ipergeometrica per N = 100, n = 10 e p = 0.2
11.3.8 La distribuzione ipergeometrica 1
0.9
0.8
Consideriamo un’urna contenente b palline nere e w palline bianche 0.7
0.6
e supponiamo di estrarre per n volte una pallina rimettendola. dopo 0.5
0.4
ogni estrazione, nell’urna. 0.3

Consideriamo la variabile aleatoria ξ che restituisce il numero di 0.2


0.1
volte in cui si è estratta una pallina nera; allora la densità di probabilità 0
0 1 2 3 4 5 6 7 8 9 10

di ξ si può calcolare mediante la Figura 11.7: PDF e CDF di una variabile


aleatoria Ipergeometrica.
  k  n−k   k n−k
n b w n b w
ϕ(k) = P (ξ = k) = =
k b+w b+w k b+w
non appena si ricordi la distribuzione binomiale e si tenga presente
che
b w
p= , q=
b+w b+w
Qualora l’esperimento si ripeta senza rimettere la pallina estratta
nell’urna, (campionamento senza ripetizione), si può vedere che la
densità di probabilità della nuova variabile aleatoria ξ che conta il
numero delle palline nere estratte è

(bk)(nw
−k )
ϕ(k) = P (ξ = k) =
(b+nw)

Infatti il denominatore conta quante n − ple di palline si possono


formare avendo a disposizione b + w palline, mentre a numeratore c’è

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


178 o.caligaris - p.oliva

il numero delle n−ple che contengono esattamente k palline nere che


si possono ottenere conbinando una k − pla di palline nere, in numero
di (bk), con una (n − k) − pla di palline bianche, in numero di (nw
− k ).
Si calcola anche che

nb nbw(b + w − n)
µ= , σ2 =
b+w ( b + w )2 ( b + w − 1)

Infatti
Ricordiamo l’identità di Vandermon-
de:
  k   
m+n m n
= ∑ n n (bk)(nw
−k )
k h =0
h k−h µ= ∑ kP (ξ = k) = ∑ k
(b+nw)
=
k =0 k =0
infatti:      
• (m+ n 1 n
b−1 w 1 n −1 b − 1 w
k ) numero dei modi con cui si = b+w ∑ b = b+w ∑ b =
possono scegliere k elementi tra m +
( n ) k =1 k − 1 n − k ( n ) k =0 k n−k−1
n  
• (mh) numero dei modi con cui si
1 b+w−1 n!(b + w − n)! ( b + w − 1) !
= b b+w =b =
possono scegliere h elementi tra m ( ) n − 1 (b + w)! ( n − 1) ! ( b + w − n ) !
n
• (k−n h) numero dei modi con cui si bn
possono scegliere k − h elementi tra =
n
b+w
k elementi tra m + n si scelgono prenden- Inoltre
done h tra i primi m e k − h tra gli altri n.
quindi per h fissato ci sono (mh)(k−n h) pos-
sibili scelte. Sommando su h si trovano
tutte e si ottiene la formula. n n (bk)(nw
−k )
∑ k2 P ( ξ = k ) = ∑ k2
(b+nw)
=
k =0 k =0
n   
1 b−1 w
= ∑ k−1 n−k =
(b+nw) k=1
kb
  
1 n −1 b−1 w
= b + w ∑ ( k + 1) b =
( n ) k =0 k n−k−1
n −1    n −1   !
b b−1 w b−1 w
= b+w
( n ) k =1
∑k k n−k−1
+∑
k n−k−1
=
k =0
n −1     !
b b−2 w b+w−1
= b+w
( n ) k =1
∑ ( b − 1) k − 1 n − k − 1 + n − 1 =

n −2     !
b b−2 w b+w−1
= b+w
( n ) k =0
∑ ( b − 1) k n−k−2
+
n−1
=
    
b b+w−2 b+w−1
= b + w ( b − 1) + =
( n ) n−2 n−1
 
b ( b + w − 2) ! ( b + w − 1) !
= b + w ( b − 1) + =
( n ) ( n − 2) ! ( b + w − n ) ! ( n − 1) ! ( b + w − n ) !
 
bn!(b + w − n)! (b − 1)(n − 1)(b + w − 2)! + (b + w − 1)!
= =
(b + w)! ( n − 1) ! ( b + w − n ) !

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 179

n
bn ((b − 1)(n − 1) + (b + w − 1))
∑ k2 P ( ξ = k ) = (b + w)! ((b + w − 2)!)
=
k =0
bn (nb − n − b + 1 + b + w − 1) bn (nb − n + w)
= =
(b + w)(b + w − 1) (b + w)(b + w − 1)

da cui

bn (nb − n + w) b2 n2
σ2 = − =
(b + w)(b + w − 1) (b + w)2
nb(nb − n + w)(b + w) − b2 n2 (b + w − 1)
= =
( b + w )2 ( b + w − 1)
nb(nb2 − nb + bw + nbw − nw + w2 − nb2 − nbw + nb)
= =
( b + w )2 ( b + w − 1)
nbw(b + w − n)
=
( b + w )2 ( b + w − 1)

Possiamo anche osservare che si ha

(bk)(nw
−k ) b! w! n!(b + w − n)!
= =
(b+nw) k!(b − k)! (n − k)!(w − (n − k))! (b + w)!
 
n b! w! (b + w − n)!
= =
k (b − k)! (w + k − n)! (b + w)!
 
n b(b − 1) · · · (b − k + 1))w(w − 1) · · · (w + k − n + 1)
= =
k (b + w)(b + w − 1) · · · (b + w − n + 1)
 
n b b−1 ( b − k + 1)
= ··· ·
k b+wb+w−1 b+w−k+1
w w−1 w−n+k+1
···
b+w−k b+w−k−1 b+w−n+1

Ora se b + w = N, b+b w = p e w
b+w = q si ha, dividendo numeratori
e denominatori per (b + w),

 
(bk)(nw
−k )n p p− 1
N p− k −1
N q q− 1
N q− n − k −1
N
= ··· k −1
··· −1
b+w
( n ) k 1 1− 1
N 1− N 1− k
N 1− k +1
N 1 − nN

 
(bk)(nw
−k ) n k n−k
lim = p q
N →+∞ (b+nw) k

Osserviamo anche che, con queste notazioni, la media e la varianza


si esprimono come

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


180 o.caligaris - p.oliva

µ = np
N−n
σ2 = npq
N−1
Distribuzione Ipergeometrica per N = 50, n = 24, p = 0.7
1 Pertanto la media della distribuzione ipergeometrica è uguale alla
0.9
0.8
media della distribuzione binomiale; per quanto concerne la varianza,
0.7
0.6
possiamo vedere che il rapporto tra la varianza della ipergeometrica e
0.5 la varianza della binomiale è dato da
0.4
0.3
N−n
N → +∞
0.2
→1 per
0.1
0
N−1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 11.8: Confronto tra distribuzione È pertanto evidente che per N grande la distribuzione ipergeome-
Ipergeometrica e Binomiale. trica si riduce a quella binomiale.
Distribuzione Ipergeometrica e Binomiale per N = 1000, n = 24, p = 0.7 In figura è riportata la PDF di una variabile aleatoria Binomiale e di
1
0.9 una variabile aleatoria Ipergeometrica nel caso in cui p = 0.7, q = 0.3
0.8
0.7 N = 7200, n = 24.
0.6
0.5
0.4
0.3 11.4 La distribuzione esponenziale
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Consideriamo ancora un centralino telefonico che in media riceve λ
Figura 11.9: Confronto tra distribuzione
chiamate all’ora; abbiamo già visto che la variabile aleatoria che resti-
Ipergeometrica e Binomiale.
Distribuzione Esponenziale per λ = 1
tuisce il numero il numero di chiamate in un’ora ha una distribuzione
1
0.9 di Poisson di media e varianza λ.
0.8
0.7
Consideriamo ora la variabile aleatoria che restituisce il tempo che
0.6 intercorre tra una chiamata e l’altra. A questo scopo conveniamo che
0.5
0.4
0.3
0.2
Pn (h) è la probabilità che si ricevano n chiamate in un intervallo
0.1
0
0 1 2 3 4 5 di tempo di h ore.
Figura 11.10: PDF e CDF di una variabile
aleatoria Esponenziale.
dal momento che λh è la media di chiamate in un intervallo di h
ore, usando la distribuzione di Poisson possiamo affermare che

P0 (h) = e−λh
Consideriamo ora la variabile aleatoria T che restituisce il tempo in
cui avviene la prima chiamata a partire da 0.
Avremo che la probabilità che T > t, si calcola imponendo che in
[0, t] non si siano ricevute chiamate e quindi

P ( T > t) = P0 (t) = e−λt

Ne viene che
Z +∞
P ( T > t) = e−λt = ϕ(t)dt
t

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 181

e possiamo trovare la PDF ϕ della distribuzione esponenziale sempli-


cemente derivando rispetto a t

ϕ(t) = λe−λt

Si verifica subito che media e varianza sono date da:


Z +∞ +∞ Z
+∞ e−λt +∞ 1
µ= λte−λt dt = −te−λt + e−λt dt = − =
0 0 0 λ 0 λ
mentre
Z +∞ +∞ Z +∞

λt2 e−λt dt = −t2 e−λt + 2te−λt dt =
0 0 0
 Z +∞ −λt   −λt 
te−λt +∞ e e +∞ 2
=2 − − dt = 2 − 2 = 2
λ 0 0 λ λ 0 λ

per cui
2 2 1 1
σ= 2
− µ2 = 2 − 2 = 2
λ λ λ λ

11.5 La distribuzione γ.

La distribuzione γ è definita, per α, β > 0 da



 tα−1 e−t/β t>0
βα Γ(α)
ϕ(t) =
0 altrimenti

La presenza dei due parametri α e β consente di adattare la distribu-


zione ai dati che si desidera rappresentare. In particolare il parametro
α descrive la forma della distribuzione mentre β è semplicemente un
fattore di scala.
Media, varianza e generatrice dei momenti sono date da

µ = αβ
σ2 = αβ2
1
Mγ (t) = (1 − βt)−α per t <
β
Distribuzione γ per α = 4 e beta = 2
1
Infatti 0.9
0.8
Z +∞ Z +∞ 0.7
1 1
µ= α tα e−t/β dt = α (sβ)α e−s βds = 0.6

β Γ(α) 0 β Γ(α) 0
0.5
0.4

β α +1 Γ ( α + 1 ) 0.3

= = αβ 0.2
βα Γ(α) 0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

mentre Figura 11.11: PDF e CDF di una variabile


aleatoria γ.
12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]
182 o.caligaris - p.oliva

Z +∞ Z +∞
1 1
tα+1 e−t/β dt = (sβ)α+1 e−s βds =
βα Γ(α) 0 βα Γ(α) 0
β α +2 Γ ( α + 2 )
= = αβ2 (α + 1)
βα Γ(α)
e
σ2 = β2 α2 + αβ2 − β2 α2 = αβ2
Inoltre
Z +∞
1
Mγ ( t ) = etx x α−1 e− x/β dt =
β Γ(α)
α
0
  α −1
Z +∞
1 1 1
= α   e−s ds =
β Γ(α) 0 1
−t
1
β −t
β
βα Γ(α) 1
=  α =  α
βα Γ(α) β1 − t 1
β − t

Ovviamente il precedente integrale converge solo per t < β1 .


La moda infine è (α − 1) β per α > 1, come si deduce immediata-
mente calcolando il punto di massimo della funzione tα−1 e−t/β la cui
derivata
 
1 1
(α − 1)tα−2 e−t/β − tα−1 e−t/β = tα−2 e−t/β (α − 1) − =0
β β
per
t = ( α − 1) β
nel caso in cui α > 1
Nel caso in cui α = k ∈ N e β = 1 la distribuzione γ definisce una
variabile aleatoria che è somma di k variabili aleatorie esponenziali
di media λ = β1 . Infatti se consideriamo due variabili aleatorie con
densità esponenziale di media λ la loro somma avrà una densità di
probabilità definita dalla convoluzione

Z +∞ Z t
ψ(t) = λe−λs λe−λ(t−s) ds = λe−λs λe−λ(t−s) ds =
−∞ 0
Z t
λ2 e−λt ds = tλ2 e−λt
0

Inoltre se sommiamo due variabili aleatorie con densità nulla prima


di 0 e uguale a
tk−1 λk e−λt
e λe−λt
( k − 1) !
altrove, otterremo una nuova variabile aleatoria la cui PDF si ottiene
per convoluzione nella forma

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 183

Z +∞
1
sk−1 λk e−λs λe−λ(t−s) ds =
−∞ ( k − 1) !
Z t
1
= λk+1 e−λt sk−1 ds =
( k − 1) ! 0
1 k+1 k −λt
λ t e
k! Distribuzione β α = 2 e beta = 3

11.6 La distribuzione β.
1
0.9
0.8
0.7
La distribuzione β è definita da 0.6
0.5
0.4
0.3
0.2
 α −1 0.1
0
 t (1 − t ) β −1 0<t<1
0 1

B(α,β) Figura 11.12: PDF e CDF di una variabile


ϕ(t) = = (11.1)
0 altrimenti
aleatoria β.

 Γ ( α + β ) t α −1 (1 − t ) β −1 0 < t < 1
= Γ(α)Γ( β) (11.2)
0 altrimenti

Anche in questo caso si tratta di una distribuzione che, in virtù dei


due parametri da cui dipende, ben si presta a descrivere una variabile
aleatoria di cui si conoscano le caratteristiche.
I momenti della distribuzione β rispetto all’origine si calcolano fa-
cilmente non appena si ricordi che

Γ(α)Γ( β)
B(α, β) =
Γ(α + β)

Si ha infatti
Z +∞
Γ(α + β)
µk = tα−1+k (1 − t) β−1 dt =
Γ(α)Γ( β) 0
k −1
Γ(α + β) Γ(α + k)Γ( β) α+n
= =∏
Γ(α)Γ( β) Γ(α + β + k) n =0
α+β+n

µ1 = µ fornisce la media e µ2 − µ21 = σ2 fornisce la varianza che sono


quindi date da:

α
µ=
α+β
αβ
σ2 =
(α + β)(α + β + 1)

La funzione generatrice dei momenti si può poi ricavare ricordando


che i momenti sono i coefficienti del suo sviluppo di McLaurin.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


184 o.caligaris - p.oliva

!
+∞ k −1
α+n tk
Mβ (t) = 1 + ∑ ∏ α+β+n k!
k =1 n =0

Cercando il punto di massimo di tα−1 (1 − t) β−1 si vede poi che la


moda è
α−1
α+β−2
.
La distribuzione β, per α = n + 1, β = m + 1 ∈ N diventa

 (n+m+)! tn (1 − t)m 0<t<1
n! m!
ϕ(t) =
0 altrimenti
e rappresenta la probabilità di aver ottenuto in una serie di n + m
prove bernoulliane ripetute, n successi ed m insuccessi, posto che sia t
la probabilità di successo della prova bernoulliana stessa.
Possiamo dedurre da questa osservazione che il valore di t per cui
questa probabilità è massima è t = n+n m ; infatti

(tn (1 − t)m )0 = ntn−1 (1 − t)m + mtn (1 − t)m−1 =


  n
= (mt + (1 − t)n) tn−1 (1 − t)m−1 = 0 ⇐⇒ t =
n+m
Possiamo quindi dire che in presenza di una sequenza di esiti ber-
noulliani con n successi ed m insuccessi è ragionevole supporre uguale
a n+n m la probabilità di successo del singolo evento.

11.7 La distribuzione Normale di Gauss

La legge di distribuzione di probabilità normale è nota come distri-


buzione Gaussiana anche se Gauss si riferisce ad essa in una sua
pubblicazione solo nel 1809.
In precedenza, nel 1733, De Moivre aveva pubblicato una derivazio-
ne della legge normale come limite di una distribuzione binomiale ed
1
Distribuzione Normale di Gauss anche Laplace la conosceva già almeno dal 1774.
0.9
0.8
Gauss invece arrivò a considerare la distribuzione normale studian-
0.7 do il problema di stimare un parametro noto un certo numero di
0.6
0.5 sue osservazioni. Per questo scopo applicò quello che si chiama oggi
0.4
0.3
principio di massima verosimiglianza.
0.2
0.1
Una derivazione della legge normale molto interessante è dovuta
0
4 3 2 1 0 1 2 3 4 ad Herschel , 1850, che la dedusse studiando la distribuzione a due di-
Figura 11.13: PDF e CDF di una variabile mensioni degli errori di misurazione della posizione di una stella. In
aleatoria Normale (di Gauss).
seguito, nel 1860 James Clerk Maxwell estese le argomentazioni di Her-
schel al caso tridimensionale, studiando la distribuzione di probabilità
della velocità delle molecole in un gas.

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 185

Infine nel 1941 un ingegnere elettrico, Vernon D.Landon, studiando


il rumore associato al voltaggio in circuito elettrico osservò che era
distribuito con densita’ invarianti rispetto all’intensità del disturbo e
provò che questa caratteristica identifica la distribuzione normale.
La varietà e la diversità dei problemi che conducono alla distri-
buzione normale giustificano quindi pienamente il ruolo centrale che
questa distribuzione occupa.

11.7.1 La derivazione della distribuzione Normale di De Moivre


Sia ξ n la variabile aleatoria binomiale definita dalla somma di n varia-
bili Bernoulliane ξ relative ad una prova con probabilità di successo p
e probabilità di insuccesso q = 1 − p.

ξ n = ξ + ξ + ξ + .... + ξ

e sia ζ n la corrispondente variabile aleatoria normalizzata.


Si può dimostrare che se n → +∞ la distribuzione di probabilità di
ζ n tende ad una distribuzione normale .
Si dimostra in tal modo un caso particolare del teorema del limite
centrale che verrà trattato più avanti

11.7.2 La derivazione della distribuzione normale di Herschel-Maxwell


Una stella si individua mediante la sua longitudine, misurata con un
errore ξ, e la sua declinazione, misurata con un errore η; Herschel
(1850) postulò che ξ e η sono variabili aleatorie indipendenti ed hanno
la stessa PDF f . Allora la distribuzione di probabilità della variabile
aleatoria (ξ, η ) è della forma

φ( x, y) = f ( x ) f (y)

Inoltre postulò che φ, espressa usando le coordinate polari (ρ, θ ),


fosse indipendente da θ, per cui

φ( x, y) = f ( x ) f (y) = g( x2 + y2 )

Ne dedusse infine che φ doveva allora essere quella che ora chia-
miamo densità di probabilità gaussiana.
Maxwell (1860) usò argomentazioni sostanzialmente identiche nel-
lo studio della cinetica dei gas estendendo l’idea di Herschel al caso
tridimensionale.
Infatti, ponendo x = 0 e f (0) = α si ricava f ( x )α = g( x2 ) da cui
g ( x 2 ) g ( y2 )
= g ( x 2 + y2 )
α α
dividendo per α2
g ( x 2 ) g ( y2 ) g ( x 2 + y2 )
2 2
=
α α α2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


e di conseguenza
x 1
f = f (x)
m m
per ogni
186 o.caligaris - p.oliva
n intero, e per ogni m naturale.
Se ne deduce che
n  n
f x = f (x)
m m
da cui e      
f (qx ) = q f ( x ) g( x2 ) g ( y2 ) g ( x 2 + y2 )
ln + ln = ln
per ogni q razionale. La continuità α2 α2 α2
garantisce poi che  
g(z)
Pertanto la funzione z 7→ ln α2 è lineare e quindi
f (αx ) = α f ( x )
   
per ogni x reale e l’omogeneità di f che g(z) g( x2 )
essendo già additiva risulta lineare. ln = kz e ln = kx2
α2 α2
Ne deduciamo che
2
g( x2 ) = h2 ekx
e le costanti h e k possono essere determinate in modo da aversi una
distribuzione di probabilità. Innanzi tutto si vede che deve essere h > 0
e k < 0, imponendo poi che la distribuzione abbia media µ e varianza
σ otteniamo
1 ( x − µ )2

g( x ) = √ e 2σ2
σ 2π

11.7.3 La derivazione della distribuzione normale di Gauss


Gauss considerò il problema di stimare un parametro θ note n + 1 sue
osservazioni x0 , x1 , . . . , xn ed usò allo scopo il principio di massima
verosimiglianza.
Se indichiamo con f ( xi , θ ) la probabilità di ottenere la misura xi
condizionata al fatto che il parametro cercato è θ, la probabilità di avere
ottenuto le osservazioni xi , che supponiamo indipendenti, è data da

P(θ ) = ∏ f ( xi , θ )
Cerchiamo di determinare f in modo che P(θ ) sia massima in corri-
spondenza del valor medio θ̂ delle osservazioni. L’argomento di mas-
simo non cambia se consideriamo ln( P(θ )) in luogo di P(θ ) e quindi θ
deve soddisfare la condizione
n

∑ ∂θ ln( f (xi , θ )) = 0
0

Se poniamo
ln( f ( xi , θ )) = g(θ − xi ) = g(u)
se supponiamo cioe’ che f ( xi , θ ) dipenda solo dall’errore commesso
nel considerare θ invece di xi , dovrà risultare
n
∑ g 0 ( θ − xi ) = 0 (11.3)
0

Se vogliamo che il massimo sia assunto per


n
1
θ = θ̂ = ∑ x
n+1 0 i
(11.4)

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 187

dovrà aversi
n
∑ g0 (θ̂ − xi ) = 0 (11.5)
0
Le equazioni 11.5, 11.4 sono, in generale, incompatibili, anzi pos-
siamo subito osservare che qualora la distribuzione degli errori di mi-
surazione sia uniforme si avrebbe f ( xi , θ ) costante per cui tale risul-
terebbe anche P(θ ) e la 11.5 perderebbe di significato attribuendo a
qualunque valore di θ la stessa affidabilità.
Ora, se consideriamo il caso in cui una sola delle osservazioni dif-
ferisce dalla media, cioè se poniamo

x0 = (n + 1)u, x1 = x2 = · · · = x n = 0

per modo che

θ̂ = u, θ̂ − x0 = −nu, θ̂ − xi = u − 0, i = 1, · · · n

sostituendo in 11.5 otteniamo

g0 (−nu) + ng0 (u) = 0 (11.6)

Per n = 1 la 11.6 fornisce

g0 (−u) = − g0 (u)

e ne viene che g0 deve essere antisimmetrica inoltre la 11.6, garantisce


che la g0 , supposta continua, è lineare.
La linearità permette di concludere che
1 2
g0 (u) = au, g(u) = au + b
2
Infine usando la definizione di g e tenendo conto che la distribu-
zione di probabilità deve essere normalizzata, otteniamo che a < 0 ed
anche r
α − 1 α ( x − θ )2
f ( x, θ ) = e 2 (11.7)

Nel caso in cui la 11.7 valga la funzione che definisce la verosimi-
glianza diventa
n r 
α − 1 α ( x i − θ )2
ln( P(θ )) = ∑ ln e 2 =
0

r  n
α 1
= (n + 1) ln + ∑ − α ( x i − θ )2
2π 0
2
Ne segue che
n n
(ln( P(θ )))0 = ∑ α( xi − θ ) = ∑ αxi − (n + 1)θ
0 0

Che evidentemente assume massimo proprio per θ = θ̂ ed inoltre il


punto di massimo è unico (si tratta di un paraboloide concavo). Resta
libero il parametro α che definisce diverse forme della distribuzione.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


188 o.caligaris - p.oliva

11.7.4 La derivazione della distribuzione Normale di Landon


Landon studiò la distribuzione di probabilità della variabile aleatoria
ξ che rappresenta il rumore da cui è affetto il voltaggio osservato in
un circuito elettrico. Egli osservò che tale distribuzione sembrava non
cambiare forma al variare della deviazione standard σ del rumore.
Sia quindi p( x, σ) la probabilità che il rumore valga x nel caso in cui
la sua deviazione standard sia σ.
Supponiamo che alla variabile aleatoria ξ si sommi una quantità
aleatoria ∆ξ indipendente da ξ la cui distribuzione si chiami q. Avremo
che
Z +∞
f (x) = p( x − e, σ2 )q(e)de
−∞
è la distribuzione di probabilità della variabile aleatoria ξ + ∆ξ
Usando lo sviluppo di Taylor di ordine 2 di p( x, σ ) otteniamo

f (x) =
Z +∞  
2 ∂p( x, σ2 ) 2
2 ∂ p ( x, σ )
= q(e) p( x, σ ) − e +e + R de
−∞ ∂x 2∂x2

∂p( x, σ2 ) 1 ∂p( x, σ2 )
f (x) = p( x, σ2 ) − µ(q) + Var (q) + R
∂x 2 ∂x2
Pertanto supponendo che la media µ(q) sia nulla e trascurando i
momenti di ordine superiore al secondo, si ha

1 ∂2 p( x, σ2 )
f ( x ) = p( x, σ2 ) + Var (q) +R
2 ∂x2
D’altro canto, poichè si suppone che la forma della distribuzione di
probabilità del rumore non cambi con la varianza e dal momento che
Var (ξ + ∆ξ ) = σ2 + Var (∆ξ ), deve essere

∂p( x, σ2 )
f ( x ) = p( x, σ2 + Var (q)) = p( x, σ2 ) + Var (q) +R
∂σ
Ove si sia usato lo sviluppo di Taylor di p( x, ·).
Possiamo quindi dedurre confrontando i due sviluppi che

∂p( x, σ2 ) 1 ∂2 p( x, σ2 )
=
∂σ 2 ∂x2
che è una equazione di diffusione che , con condizioni iniziali p( x, 0) =
δ( x ) fornisce come soluzione

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 189

p( x, σ2 ) = N ( x, 0, σ )

11.8 Combinazione lineare di variabili gaussiane

Siano ξ 1 e ξ 2 variabili aleatorie gaussiane di media 0 e varianza 1 e


consideriamo ξ = αξ 1 + βξ 2 con α2 + β2 = 1, allora ξ è una variabile
aleatoria normale standard.
Avremo che la PDF di ξ 1 e di ξ 2 è data da
1 u2
√ e− 2

e si può affermare che αξ 1 e βξ 2 hanno rispettivamente, le seguenti
PDF:
2 2
1 −u 1 −u
√ e 2α2 , √ e 2β2
2π |α| 2π | β|
Ne viene che la PDF φ della somma ξ sarà data da
Z +∞ 2 ( v − u )2
1 1 − u 2 − 2β2
φ(v) = √ √ 2α e e du
2π |α| 2π | β| −∞

e si calcola

Z +∞ 2 2 2
1 − u 2 − v 2 − u 2 + uv2
φ(v) = e
2α 2β 2β β du =
2π |αβ| −∞
2 Z +∞ 2 2
1 −v − u 2 − u 2 + uv2
= e 2β2 2α e
2β β du =
2π |αβ| −∞
2 Z +∞ 2
1 −v − u2 2 + uv2
= e 2β2 2α β eβ du =
2π |αβ| −∞
 2
2 Z +∞ − √ u − √ v |αβ | v2 α2 β2
1 −v 2|αβ| 2β2
+
2β4
= e 2β2 e du =
2π |αβ| −∞
 2
2 2 Z +∞ − √ u − √ v |αβ |
1 − v + v α2 β2 2|αβ| 2β2
= e 2β2 2β4 e du
2π |αβ| −∞

Ora, tenendo conto che


1 1 1
− + 4 α2 β2 = −
2β2 2β 2
e calcolato l’integrale ponendo
u v
t= √ −√ |αβ|
2|αβ| 2β2
si conclude
1 v2 √ 1 v2
φ(v) = e− 2 2π |αβ| = √ e− 2
2π |αβ| 2π

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


190 o.caligaris - p.oliva

e ξ è a sua volta normale e standard.


Chiaramente qualora α2 + β2 6= 1 possiamo considerare che
q !
2 2
α β
αξ 1 + βξ 2 = α + β p ξ1 + p ξ2
α2 + β2 α2 + β2

inoltre, se η1 e η2 sono gaussiane di media µi e varianza σi2 possiamo


scrivere che

αη1 + βη2 = αµ1 + ασ1 ξ 1 + βµ2 + βσ2 ξ 2 =


= αµ1 + βµ2 + (ασ1 ξ 1 + βσ2 ξ 2 ) =
 
q
ασ1 βσ2
αµ1 + βµ2 + α2 σ12 + β2 σ22  q ξ1 + q ξ2  =
2 2 2 2
α σ1 + β σ2 2 2 2 2
α σ1 + β σ2
q
αµ1 + βµ2 + α2 σ12 + β2 σ22 ξ

essendo ξ una gaussiana normale standard.


Ne segue che αη1 + βη2 ha una distribuzione gaussiana di media
αµ1 + βµ2 e varianza α2 σ12 + β2 σ22
in quanto
 
q ασ1 βσ2
ξ1 + q ξ2 
α2 σ12 + β2 σ22 α2 σ12 + β2 σ22
è una gaussiana standard.

11.9 Le distribuzioni legate ai test statistici.

11.9.1 La distribuzione χ2
Si tratta della distribuzione di probabilità di una variabile aleatoria
χ2 che restituisce la somma dei quadrati di ν variabili aleatorie ξ i in-
dipendenti, aventi distribuzione gaussiano con media 0 e varianza 1
(distribuzioni normali standardizzate).

χ2 = ξ 12 + ξ 22 + ... + ξ ν2

Per ricavare la PDF della distribuzione χ2 a ν gradi di libertà è


opportuno procedere come segue.

11.9.2 χ2 ad 1 grado di libertà


Se ξ è una variabile aleatoria gaussiana standard e se η = ξ 2 , la PDF
ϕ di η è data da 
− 2s
 √1 e√ s≥0
ϕ(t) = 2π s
0 s<0

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 191

Infatti si ha

√ √
P (η ≤ α) = P (ξ 2 ≤ α) = P (− α ≤ ξ ≤ α) =
Z √ Z √α
1 α
−t
2 2 t2
= √ √ e 2 dt = √ e− 2 dt =
2π − α 2π 0
posto s = t2 , per cui ds = 2tdt
Z α −s Z α −s
2 e 2 1 e 2
= √ √ ds = √ √ ds
2π 0 2 s 2π 0 s

11.9.3 χ2 a 2 gradi di libertà


Se η1 , η2 sono variabili aleatorie ηi = ξ i2 con ξ i gaussiana standard e
se η = η1 + η2 , la PDF ϕ di η è data da

 1 e− 2s s ≥ 0
ϕ(t) = 2
0 s<0

Infatti, se chiamiamo ϕi la PDF di ηi , si ha

Z +∞
ϕ(s) = ϕ1 (t) ϕ2 (s − t)dt =
−∞
Z s Z s − t − s−t
1 e 2e 2
= ϕ1 (t) ϕ2 (s − t)dt = √√ dt =
0 2π 0 t s−t
Z
1 −s s 1
= e 2 √√ dt
2π 0 t s−t
p
Posto t(s − t) = ut si ha
s 2us
t ( s − t ) = u2 t2 , s − t = u2 t , s = (1 − u2 ) t , t = 2
, dt = − du
1+u (1 + u2 )2
per cui

Z Z
1 2us
p dt = − du =
t(s − t) ut(1 + u2 )2
Z Z
2us 1
= − s du = −2 du =
u 1+ u2 (1 + u 2 )2 1 + u2
r
s−t
= −2 arctan(u) = −2 arctan
t
Per cui
Z s r
1 s − t s π
√√ dt = −2 arctan =2 =π
0 t s−t t 0 2
e
1 −s 1 s
ϕ(s) = e 2 π = e− 2
2π 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


192 o.caligaris - p.oliva

11.9.4 χ2 a ν gradi di libertà


Possiamo ora provare che la variabile aleatoria

η = η1 + η2 + · + ην = ξ 12 + ξ 22 + · + ξ ν2

dove ξ i sono variabili aleatorie gaussiane normalizzate, ha una PDF


definita da
1 u
 u 2 −1 e − 2
ν
ϕν (u) = ν
22 Γ 2ν

Le verifiche fatte precedentemente consentono di affermare che la


precedente affermazione è vera per ν = 1 e per ν = 2. Pertanto
per verificare la medesima è sempre vera sarà sufficiente provare che,
supposta vera per ν è vera anche per ν + 2.
Si ha

Z u
1 u−t 1 t
(u − t) 2 −1 e− 2 e− 2 dt =
ν
ϕ ν +2 ( u ) = ϕ ν ( u ) ∗ ϕ 2 ( u ) = νΓ ν
2 ( ) 0 2 2 2
Z u Z u
1 − u2 1 u
(u − t) 2 du = ν +1 ν  e− 2
ν −1
(u − t) 2 −1 du =
ν
= ν +1 ν  e
22 Γ 2 0 22 Γ 2 0
" ν
#u ν
1 − u2 (u − t) 2 1 − u2 ( u ) 2
= ν +1 ν  e − = ν  e =
22 Γ 2 2 2 +1 Γ ν2
ν ν
2 0 2
1 u
 u 2 e− 2
ν
= ν +1
2 2 Γ ν
2 +1

Media, varianza e generatrice dei momenti della variabile aleatoria


χ2 sono date da

µ=ν
σ2 = 2ν
Mχ2 (t) = (1 − 2t)−ν/2

11.9.5 La distribuzione T di Student.


È la distribuzione di una variabile aleatoria T che restituisce il rapporto

ξ
T= q
η
ν

dove ξ è una variabile aleatoria con densità di probabilità gaussia-


na normale (media 0 e varianza 1) ed η è una variabile aleatoria con
distribuzione χ2 a ν gradi di libertà
Per ricavare la PDF di student cominciamo con l’osservare che:

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 193

11.9.6
Se ξ è una variabile aleatoria con densità χ2 a ν gradi di libertà, la sua
PDF sarà data da
1 u
 u 2 −1 e − 2
ν
ϕν (u) = ν
2 2 Γ ν2
Sia η la variabile aleatoria definita da
r
ξ
η=
ν
Avremo che
r ! Z να2
ξ 1 u
u 2 −1 e− 2 du =
ν
P (η ≤ α) = P ≤α = P (ξ ≤ να2 ) = ν 
ν 2 Γ
2 ν
2
0
q
u
Posto t = ν da cui u = νt2 e du = 2νtdt
Z α
1 νt2
t ν −2 ν 2 −1 e −
ν
= ν  2 2νtdt =
2 Γ
2 ν
2
0
Z α
1 νt2
t ν −1 ν 2 e −
ν
= ν −1  2 dt
2 2 Γ ν
2
0

e possiamo concludere che la PDF di η è data da



 νt2
t ν −1 ν 2 e − 2 t ≥ 0
ν
 ν 1
−1
ϕ(t) = 2 Γ( 2 )
2 ν

0 t<0

11.9.7
Sia ora η1 una variabile aleatoria gaussiana standard, la cui PDF è
ovviamente data da
1 u2
g(u) = √ e− 2

q
e sia η2 = νξ dove ξ è una variabile aleatoria con densità χ2 a ν gradi
di libertà; per quanto detto in precedenza la PDF di η2 è nulla prima
di 0 ed è data da
1 νt2
 t ν −1 ν 2 e −
ν
g(t) = ν −1
2
2 2 Γ ν
2

per t ≥ 0.
La variabile aleatoria T di student è definita mediante la
η1
T=
η2

e possiamo ricavarne la PDF ϕ ricordando che si tratta del quoziente


di due variabili aleatorie di cui conosciamo la densità di probabilità.
Avremo:

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


194 o.caligaris - p.oliva

Z +∞
1 νx2 1 t2 x 2
 x ν −1 ν 2 e − √ e− 2 dx =
ν
ϕ(t) = x 2
2 −1
ν
0 2 Γ ν
2 2π
ν Z +∞
ν2 x 2 ( ν + t2 )
= √  x ν e− 2 dx =
2 −1
ν
2π2 Γ ν
2
0
q √
x2 2 2s √ 2
posto 2 (ν + t ) = s si ha x = ν + t2
e dx = √
ν + t2 2 s
ν Z +∞ ν ν √
ν2 22 s2 −s √ 2 1
= √ ν −1  ν e √ ds =
2π2 2 Γ ν2 0 ( ν + t2 ) 2 ν + t2 2 s
ν ν 1 Z +∞
ν2 22−2 1 1
s 2 − 2 e−s ds =
ν
= √ 
2 −1
ν ν +1
2π2 Γ ν
2 ( ν + t2 ) 2 0
ν Z +∞
ν 2 1 ν +1 −1
= √  ν +1
s 2 e−s ds =
πΓ ν t2 ν + 1
0
2 (ν) 2 (1 + ν)
2
 
Γ ν +1
2
= √ 
ν t2 ν + 1
νπΓ 2 (1 + ν)
2

Pertanto la funzione di distribuzione della variabile aleatoria T a ν


gradi di libertà è data da
 
Γ ν+ 1  − ν+2 1
2 t2
ϕ(t) = √ 1+
νπΓ(ν/2) ν
La media e la varianza di T risultano essere

µ=0
2 ν
σ =
ν−2

11.9.8 La distribuzione F di Fisher.


È la distribuzione di una variabile aleatoria F che restituisce il rapporto
η/µ
F=
ξ/ν
dove η ed ξ sono variabili aleatorie con distribuzione χ2 a µ e ν gradi
di libertà, rispettivamente.
Per ricavare la PDF di F ricordiamo che la PDF g di η/µ è data da
µ µ µu
g(u) = µ µ
(µu) 2 −1 e− 2
22 Γ 2
mentre la PDF f di ξ/ν è data da
ν
 (νu) 2 −1 e− 2
ν νu
f (u) = ν
22 Γ 2ν

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 195

η/µ
Possiamo quindi ricavare la PDF ϕ di F = ξ/ν usando quanto
conosciamo sul rapporto di due variabili aleatorie. Avremo

Z +∞
ν µ µ µ µtx
 ν 2 −1 x 2 −1 e − µ 2 −1 (tx ) 2 −1 e−
ν ν νx
ϕ(t) = x ν
2
µ µ
2 dx =
0 2 Γ
2 ν
2 2 Γ 2
2
ν µ Z +∞
ν2 µ2 µ µ µtx
x 2 e − 2 t 2 −1 x 2 −1 e −
ν νx
= ν  µ µ
2 dx =
2 2 Γ 2ν 2 2 Γ 2
0
Z +∞ ν+µ
µ x
= t 2 −1 Cν,µ x 2 −1 e− 2 (ν+tµ) dx =
0
posto 2x (ν + tµ) = s si ha dx = ν+2tµ ds
Z +∞   ν + µ −1
µ 2s 2 2
= t 2 −1 Cν,µ e−s ds =
0 ν + tµ ν + tµ
µ ν+µ Z +∞
t 2 −1 Cν,µ 2 2 ν+µ
= e−s ds = s 2 −1
ν+µ
(ν + tµ) 0 2
  ν+µ
ν µ ν+µ
ν2 µ2 Γ 2 2 2 µ
t 2 −1
= ν µ  µ ν+µ =
2 2 2 2 Γ 2ν Γ 2 (ν + tµ) 2
 
ν µ ν+µ
ν2 µ2 Γ 2 µ ν+µ
 2 −1 ( ν + tµ ) − 2
= µ t
Γ 2 Γ 2
ν

Pertanto la funzione di distribuzione della variabile aleatoria F è


data da

 
ν1 +ν2

 Γ ν /2
ν 1 ν2ν2 /2 tν2 /2−1 (ν2 + ν1 t)−(ν1 +ν2 )/2
2
Γ(ν1 /2)Γ(ν2 /2) 1
t>0
ϕ(t) =

0 altrimenti

la media e varianza risultano essere

ν2
µ=
ν2 − 2
2ν22 (ν1 + ν2 − 2)
σ2 =
ν1 (ν2 − 4)(ν2 − 2)2

11.10 Variabili casuali con distribuzione assegnata.

Qualora sia necessario utilizzare dati generati casualmente con fun-


zione distribuzione di probabilità fissata, possiamo procedere come
segue.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


196 o.caligaris - p.oliva

Sia φ la distribuzione che si vuole considerare e sia


Z x
F(x) = φ(t)dt
−∞

la funzione di distribuzione cumulativa; allora si ha


Z b
P ( a ≤ ξ ≤ b) = φ(t)dt = F (b) − F ( a)
a

e quindi
P ( F −1 ( a) ≤ ξ ≤ F −1 (b)) = b − a
e
P ( a ≤ F (ξ ) ≤ b) = b − a
Pertanto F (ξ ) ha una distribuzione uniforme e quindi poichè

ξ = F −1 ( F (ξ ))

possiamo generare valori distribuiti con densità di probabilità φ, con-


siderando valori generati con densità uniforme ed applicando a tali
valori F −1 .
Tale procedimento non è tuttavia applicabile, ad esempio, per de-
terminare valori distribuiti con densità gaussiana in quanto non è
possibile determinare esplicitamente F −1 nel caso in cui
Z x
1 2 /2
F(x) = √ e−t dt
2π −∞

In tal caso, che peraltro è di rilevante importanza possiamo osser-


vare che se ξ e η sono variabili aleatorie indipendenti con distribu-
zione gaussiana normale, allora (ξ, η ) è una variabile aleatoria la cui
funzione distribuzione di probabilità è
1 −(t2 +s2 )/2
e

Pertanto
ZZ ZZ
1 2 + s2 ) /2 1 2 ) /2
P ((ξ, η ) ∈ A) = e−(t dtds = ρe−(ρ dρdθ
2π 2π
A B

dove B ed A sono l’uno il trasformato dell’altro rispetto al cambio di


variabili in coordinate polari.
Ne viene che possiamo identificare due nuove variabili ( R, Θ) la cui
densità di probabilità è data da
1 −(ρ2 )/2 1 2
ρe = ( )(ρe−(ρ )/2 ) = f (θ ) g(ρ)
2π 2π
dove
1
f (θ ) =

2 ) /2
g(ρ) = ρe−(ρ

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 197

Quindi per quanto visto in precedenza, per generare valori casuali


di Θ e di R possiamo utilizzare valori uniformemente distribuiti θ ed
r e applicare a tali valori le funzioni F −1 e G −1 , rispettivamente, dove
Z t Z t
t 2 /2
F (t) = f (s)ds = , G (t) = g(s)ds = 1 − e−t
0 2π 0

Si ha allora
q
−1 −1
F (s) = 2πs , G (s) = −2 ln(1 − s)

e le variabili
q q
ξ = −2 ln(1 − t) cos (2πs) , η= −2 ln(1 − t) sin (2πs)

dove s e t sono distribuite uniformemente, risultano distribuite con


densità gaussiana di media 0 e di varianza 1.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


12. IL TEOREMA DEL LIMITE CEN-
TRALE

Il teorema del limite centrale è un risultato di grande importanza in


quanto sancisce il fatto che la sovrapposizione di un gran numero di
variabili aleatorie aventi media e varianza comune conduce ad una
variabile con distribuzione normale (gaussiana).
Più precisamente possiamo dire che
Siano
ξ 1 , ξ 2 , ....., ξ n
variabili aleatorie indipendenti aventi la stessa distribuzione di proba-
bilità con media µ e varianza σ2 .
Siano
η1 , η2 , ....., ηn
le corrispondenti variabili normalizzate
ξk − µ
ηk =
σ
e consideriamo la variabile aleatoria ζ definita da
η1 + η2 + ... + ηn
ζn = √
n
(Poichè E(ηi ) = 0 avremo che E(ζ n ) = nE(η1 + η2 + ... + ηn ) = 0 e
inoltre, poichè Var(ηi ) = 1 avremo che Var(η1 + η2 + ... + ηn ) = n e
quindi Var(ζ n ) = 1)
Si ha
ξ + ξ 2 + ... + ξ n − nµ
ζn = 1 √

e si può dimostrare che
Z β
1 2 /2
lim P (α ≤ ζ n ≤ β) = √ e− x dx
n→+∞ 2π α

o equivalentemente che
Z b−nµ

1 nσ 2 /2
lim P ( a ≤ ξ 1 + ξ 2 + ... + ξ n ≤ b) = √ a−nµ
e− x dx
n→+∞ 2π √

200 o.caligaris - p.oliva

12.1 Un caso particolare del Teorema del Limite Centrale: il


teorema di DeMoivre-Laplace

Sia ξ n la variabile aleatoria binomiale definita dalla somma di n varia-


bili Bernoulliane indipendenti ξ relative ad una prova con probabilità
di successo p e probabilità di insuccesso q = 1 − p.

ξ n = ξ + ξ + ξ + .... + ξ

La media di ξ è µ = p, la sua varianza è σ = pq per cui la media di

ξ n è np la sua varianza è npq mentre la sua densità di probabilità è
definita, per k − 21 ≤ x ≤ k + 21 da

 
1 1 n k n−k
Bn ( x ) = P (ξ n = k ) = P (k − ≤ ξn ≤ k + ) = p q
2 2 k
e, utilizzando la Formula di Stirling,


nn e−n 2πn
Bn (h) ≈≈ √ p p h q(n−h)
hh e−h 2πh(n − h)(n−h) e−(n−h) 2π (n − h)
Sia
ξ n − np
ζn = √
npq
la variabile aleatoria ottenuta normalizzando ξ n e sia Gn ( x ) la sua PDF.
Avremo che

Z k+ √1
2 npq 1 1
Gn ( x )dx = P (k − √ ≤ ζn ≤ k + √ )=
k − 2√1npq 2 npq 2 npq
√ 1 √ 1
= P (k npq − ≤ ξ n − np ≤ k npq + ) =
2 2
√ 1 √ 1
= P (np + k npq − ≤ ξ n ≤ np + k npq + ) =
2 2

= Bn (np + k npq)

da cui

1 √
√ Gn (k) ≈ Bn (np + k npq)
npq
e
√ √
Gn (k) ≈ npqBn (np + k npq)
Possiamo ora mostrare che
√ √ 1 k2
npqBn (np + k npq) → √ e− 2

Avremo

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 201


nn e−n 2πn
Bn (h) =≈ √ p p h q(n−h) =
hh e−h 2πh(n − h)(n−h) e−(n−h) 2π (n − h)
r
1 n nn
= √ p h q(n−h)
2π h (n − h ) h h (n − h )n−h


e definendo δ = k pq,

√ √ √ √
h = np + k npq = np + δ n da cui n − h = n − np − k npq = nq + δ n

si ha

√ √
npqBn (np + δ n) ≈
 r 
√ 1 n
= αn β n = npq √ √ √
2π (np + δ n)(nq − δ n)
!
nn √ √
(np+δ n) (nq−δ n)
√ √ √ √ p q
(np + δ n)(np+δ n) (nq − δ n)(nq−δ n))

Osserviamo subito che


r
√ 1 n 1
αn = npq √ √ √ → √
2π (np + δ n)(nq − δ n) 2π

e che

nn √ √
n) (nq−δ n)
βn = √ √ √ √ p(np+δ q =
(np + δ n)(np+δ n) ( nq − δ n )(nq−δ n)
√ √
nnp+δ n+nq−δ n √ √
= √ (np+δ√n) √ (nq−δ√n) p−(np+δ n) q(nq−δ n) =
(np + δ n) (nq − δ n)
√ √
npnp+δ n nqnq−δ n
√ √ √ √
(np + δ n)(np+δ n) (nq − δ n)(nq−δ n)

Si ha

 −np−δ√n  −nq+δ√n
δ δ
βn = 1+ √ 1− √ =
p n q n
√   √  
(−np−δ n) ln 1+ p√
δ +(−nq+δ n) ln 1− q√δ n
=e n

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


202 o.caligaris - p.oliva

Ma
   
√ δ √ δ
(−np − δ n) ln 1 + √ + (−nq + δ n) ln 1 − √ ≈
p n q n
   
√ δ δ2 √ δ δ2
≈ (−np − δ n) √ − 2 + (−nq + δ n) − √ − 2 ≈
p n 2p n q n 2q n
npδ npδ2 δ2 δ3 nqδ nqδ2 δ2 δ3
− √ + 2 − + 2√ + √ + 2 − + 2√ =
p n 2p n p 2p n q n 2q n q 2q n
δ 2 δ 2 δ 3 δ 2 δ 2 δ 3
=+ − + 2√ + − + 2√ →
2p p 2p n 2q q 2q n
 2 2 
δ δ
→− + =
2p 2q
h2 pq h2 pq h2
=− − =−
2p 2q 2
Pertanto

− k2
βn → e 2

ed infine

√ √ √ √ 1 k2
npqBn (np + k npq) = npqBn (np + δ n) → √ e− 2
2 π
Quindi possiamo affermare che

P ( a ≤ ξ n ≤ b) = P ( a ≤ ξ + ξ + ξ + .... + ξ ≤ b) ≈
Z b−np

1 npq 2 /2 b − np a − np
≈ √ a−np
e− x dx = G ( √ ) − G( √ )
2π √
npq
npq npq

dove x Z
1 2
G(x) = √ e− x /2 dx
2π −∞
è la funzione di distribuzione cumulativa Gaussiana standardizzata.

12.2 Un altro caso particolare del Teorema del Limite Centrale

Sia ξ n la variabile aleatoria definita dalla somma di n variabili Poisso-


niane ξ di media λ.

ξ n = ξ + ξ + ξ + .... + ξ

La media di ξ è µ = λ, la sua varianza è σ = λ per cui la media di

ξ n è nλ la sua varianza è nλ mentre la sua densità di probabilità è
definita da
(nλ)k −nλ
Hn (k) = P (ξ n = k) = e
k!

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 203

Possiamo normalizzare la variabile aleatoria ξ n mediante la

ξ n − nλ


la cui funzione densità di probabilità è data da
√ √
nλHn (nλ + k nλ)

Possiamo mostrare che


√ √ 1 k2
nλHn (nλ + k nλ) → √ e− 2

Avremo infatti che

√ √
nλHn (nλ + k nλ) =

√ (nλ)nλ+k nλ e−nλ
= nλ √ √ √ q √ =
(nλ + k nλ)nλ+k nλ e−nλ−k nλ 2π (nλ + k nλ)
v
u
1 u 1 1 1
= √ t k   √ √ =
2π 1 + √ nλ + k nλ e − k nλ
nλ 1 + √k

Si verifica subito che


v
u
1 u 1 1
√ t → √
2π 1 + √k 2π

mentre
1 1
 nλ+k√nλ √ = e − en
√k
e−k nλ
1+

dove  
√ k √
en = (nλ + k nλ) ln 1 + √ − k nλ

Usando lo sviluppo di Taylor del logaritmo avremo allora

√   √
k k2
en ≈ (nλ + k nλ) √ − − k nλ =
nλ 2nλ
√ k2 k2 k3 √ k2
= k nλ − + k2 − − √ − k nλ →
2 2 2 nλ 2

Se ne deduce che
x2
en → e − 2

e si può concludere.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


204 o.caligaris - p.oliva

12.2.1 Approssimazione della Distribuzione Binomiale mediante la


Distribuzione Normale
Il teorema di De Moivre-Laplace, qualora il numero di prove n sia
grande, permette di approssimare una distribuzione binomiale me-
diante la distribuzione normale standardizzata.
Nella pratica l’approssimazione si usa se np, nq ≥ 5 essendo p la
probabilità di successo e q = 1 − p.
Ad esempio si può calcolare la probabilità che su 10 lanci di una
moneta non truccata si abbiano un numero di teste ξ compreso tra 3 e
6, tenendo conto che

!
3 − 21 − 5 6+ 1 −5
P (3 ≤ ξ ≤ 6) = P √ ≤ z n ≤ √2 =
2.5 2.5
= P (−1.58 ≤ zn ≤ 0.95)

Se G è la CDF Gaussiana standardizzata avremo:

P (−1.58 ≤ zn ≤ 0.95) = G (0.95) − G (1.58) = 0.8289 − 0.0571 = 0.7718

Possiamo confrontare il risultato con quello ottenuto direttamente


mediante i valori della distribuzione cumulativa binomiale B10 relativa
a 10 lanci; in questo modo si ottiene

B10 (6) − B10 (2) = 0.8281 − 0.0547 = 0.7734

ed osservare che l’errore di approssimazione commesso è dell’ordine


di 0.0016
Seguono le istruzioni Matlab per calcolare

G (0.95) − G (1.58)) = normcdf(0.95,0,1)-normcdf(-1.58,0,1)

B10 (6) − B10 (2) = cdf(’bino’,6,10,1/2)-cdf(’bino’,3,10,1/2)

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


13. I Test Statistici

13.1 Le distribuzioni legate ai test statistici.

13.1.1 La distribuzione χ2

La variabile aleatoria χ2 a ν gradi di libertà restituisce la somma dei


quadrati di ν variabili aleatorie ξ i indipendenti, aventi distribuzione
gaussiano con media 0 e varianza 1 (distribuzioni normali standardiz-
Distribuzione χ2 ad 1 grado di libertà.
zate).

χ2 = ξ 12 + ξ 22 + ... + ξ ν2
1
0.8

Per ricavare la PDF della distribuzione χ2 a ν gradi di libertà è 0.6


0.4
opportuno procedere come segue. 0.2
0
0 1 2 3

Figura 13.1: .

13.1.2 χ2 ad 1 grado di libertà

Se ξ è una variabile aleatoria gaussiana standard e se η = ξ 2 , la PDF


ϕ di η è data da

−s
 √1 e√ 2
s≥0
ϕ(t) = 2π s
0 s<0

Infatti si ha

√ √
P (η ≤ α) = P (ξ 2 ≤ α) = P (− α ≤ ξ ≤ α) =
Z √ Z √α
1 α
−t
2 2 t2
= √ √ e 2 dt = √ e− 2 dt =
2π − α 2π 0
2
posto s = t , per cui ds = 2tdt
Z α −s Z α −s
2 e 2 1 e 2
= √ √ ds = √ √ ds
2π 0 2 s 2π 0 s
206 o.caligaris - p.oliva

13.1.3 χ2 a 2 gradi di libertà


Se η1 , η2 sono variabili aleatorie ηi = ξ i2 con ξ i gaussiana standard e
se η = η1 + η2 , la PDF ϕ di η è data da

 1 e− 2s s ≥ 0
ϕ(t) = 2
0 s<0

Infatti, se chiamiamo ϕi la PDF di ηi , si ha

Z +∞
ϕ(s) = ϕ1 (t) ϕ2 (s − t)dt =
−∞
Z s Z s − t − s−t
Distribuzione χ2 a 2 gradi di libertà
1 e 2e 2
1 = ϕ1 (t) ϕ2 (s − t)dt = √√ dt =
0.9 0 2π 0 t s−t
0.8 Z
1 −s s 1
0.7
= e 2 √√ dt
0.6
0.5
2π 0 t s−t
0.4 p
0.3 Posto t(s − t) = ut si ha
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 t ( s − t ) = u2 t2 , s − t = u2 t , s = (1 + u2 ) t
Figura 13.2: .
s 2us
t= , dt = − du
1 + u2 (1 + u2 )2
per cui

Z Z
1 2us
p dt = − du =
t(s − t) ut(1 + u2 )2
Z Z
2us 1
= − du = −2 du =
u 1+su2 (1 + u2 )2 1 + u2
r
s−t
= −2 arctan(u) = −2 arctan
t
Ne viene
Z s r
1 s − t s π
√√ dt = −2 arctan =2 =π
0 t s−t t 0 2

e si può dedurre che


1 −s 1 s
ϕ(s) = e 2 π = e− 2
2π 2
è la distribuzione di η.

13.1.4 χ2 a ν gradi di libertà


Possiamo ora provare che la variabile aleatoria

η = η1 + η2 + · + ην = ξ 12 + ξ 22 + · + ξ ν2

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 207

Distribuzione χ2 a 6 gradi di libertà


dove ξ i sono variabili aleatorie gaussiane normalizzate, ha una PDF 1
0.9
definita da 0.8
1 u
 u 2 −1 e − 2
ν 0.7
ϕν (u) = ν 0.6
22 Γ 2ν
0.5
0.4
Le verifiche fatte precedentemente consentono di affermare che la 0.3
0.2
precedente affermazione è vera per ν = 1 e per ν = 2. Pertanto 0.1
0
per verificare la medesima è sempre vera sarà sufficiente provare che, 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Figura 13.3: .
supposta vera per ν è vera anche per ν + 2.
Si ha

Z u
1 1 −t
u−t
 ( u − t ) 2 −1 e −
ν
ϕ ν +2 ( u ) = ϕ ν ( u ) ∗ ϕ 2 ( u ) = ν e 2 dt =
2
0 2 Γ
2 ν
2
2
Z u
" ν
#u
1 u 1 u (u − t) 2
 e− 2 (u − t) 2 −1 du =  e− 2
ν
= ν +1 ν − =
Γ Γ
ν
2 2 ν 0 2 2 +1 ν
2
2 2 0
ν
1 − u2 (u) 2 1 u
 u e− 2
ν
= ν e = ν +1
2
Γ Γ
ν
2 2 +1 ν
2 2 2 ν
+1
2 2

Media, varianza della variabile aleatoria χ2 sono date da

µ=ν
σ2 = 2ν

Infatti
Z +∞ Z +∞
1 u 1 u
 uu 2 −1 e− 2 du = u 2 e− 2 du =
ν ν
µ= ν ν 
0 2 Γ 2 ν
2 2 Γ 2 ν
2
0
Z +∞ ν +1 
1 ν −t 2 2 Γ ν
2 +1
ν  (2t) e 2dt
2
ν  =
22 Γ ν
2
0 22 Γ ν
2
ν 
2 2 +1 ν2 Γ ν
2
ν  =ν
22 Γ ν
2
mentre

Z +∞ Z +∞
1 u 1 u
 u2 u 2 −1 e− 2 du = u 2 +1 e− 2 du =
ν ν
ν ν 
0 2 Γ 2 ν
2 2 Γ
2 ν
2
0
Z +∞ ν +2 
1 ν +1 −t 2 ν
2 +2
2 Γ
ν  (2t) 2 e 2dt ν  =
22 Γ ν
2
0 2 2 Γ ν2
ν 
2 2 +2 ( ν2 + 1) ν2 Γ 2ν ν ν
ν  = 4( + 1)
2 2 Γ ν2 2 2
e
ν ν
σ2 = 4( + 1) − ν2 = 2ν
2 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


208 o.caligaris - p.oliva

Inoltre la generatrice dei momenti della variabile aleatoria χ2 è

Mχ2 (t) = (1 − 2t)−ν/2

13.1.5 La distribuzione T di Student.


È la distribuzione di una variabile aleatoria T che restituisce il rapporto
ξ
T= q
η
ν

dove ξ è una variabile aleatoria con densità di probabilità gaussia-


na normale (media 0 e varianza 1) ed η è una variabile aleatoria con
distribuzione χ2 a ν gradi di libertà
Per ricavare la PDF di student cominciamo con l’osservare che:

13.1.6
Se ξ è una variabile aleatoria con densità χ2 a ν gradi di libertà, la sua
PDF sarà data da
1 u
 u 2 −1 e − 2
ν
ϕν (u) = ν
22 Γ 2ν

Sia η la variabile aleatoria definita da


r
ξ
η=
ν
Avremo che
r !
ξ
P (η ≤ α) = P ≤α = P (ξ ≤ να2 ) =
ν
Z να2
1 u
u 2 −1 e− 2 du =
ν
= ν 
2 Γ
2 ν
2
0
q
u 2
posto t = ν da cui u = νt e du = 2νtdt
Z α Z α
1 ν−2 ν2 −1 − νt2
2 1 νt2
t ν −1 ν 2 e −
ν
= ν  t ν e 2νtdt = ν −1  2 dt
2 Γ
2 ν
2
0 2 2 Γ ν
2
0

e possiamo concludere che la PDF di η è data da



 νt2
t ν −1 ν 2 e − 2 t ≥ 0
ν
 ν 1
− 1
ϕ(t) = 2 2 Γ( 2 )
ν

0 t<0

13.1.7
Sia ora η1 una variabile aleatoria gaussiana standard, la cui PDF è
ovviamente data da
1 u2
g1 ( u ) = √ e − 2

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 209

q
e sia η2 = νξ dove ξ è una variabile aleatoria con densità χ2 a ν gradi
di libertà; per quanto detto in precedenza la PDF di η2 è nulla prima
di 0 ed è data da
1 νt2
 t ν −1 ν 2 e −
ν
g2 ( t ) = 2
2 −1
ν
2 Γ ν
2

per t ≥ 0.
La variabile aleatoria T di student è definita mediante la
η1
T=
η2

e possiamo ricavarne la PDF ϕ ricordando che si tratta del quoziente


di due variabili aleatorie di cui conosciamo la densità di probabilità.
Avremo:
Z +∞
1 νx2 1 t2 x 2
 x ν −1 ν 2 e − √ e− 2 dx =
ν
ϕ(t) = x ν −1
2
0 2 2 Γ ν
2 2π
ν Z +∞
ν2 x 2 ( ν + t2 )
= √ ν −1  x ν e− 2 dx =
2π2 2 Γ ν
2
0
q √
x2 2 2s √ 2ds
posto 2 (ν + t ) = s si ha x = ν + t2
e dx = √
ν + t2 2 s
ν Z +∞ ν ν √
ν2 22 s2 −s √ 2 1
= √ ν −1  ν e √ ds =
2π2 2 Γ 2ν 0 ( ν + t2 ) 2 ν + t2 2 s
ν ν 1 Z +∞
ν2 22−2 1 1
s 2 − 2 e−s ds =
ν
= √ ν −1  ν +1
2π2 2 Γ ν
2 ( ν + t2 ) 2 0
ν Z +∞
ν 2 1 ν +1 −1
= √  ν +1 ν +1
s 2 e−s ds =
πΓ ν t2 0
2 (ν) 2 (1 + ν ) 2 Distribuzione di Student a 5 gradi di libertà
  1

Γ ν +1 0.9
2 0.8
= √  0.7
ν t2 ν + 1
νπΓ 2 (1 + ν)
2 0.6
0.5
0.4
0.3
Pertanto la funzione di distribuzione della variabile aleatoria T a ν 0.2
0.1
gradi di libertà è data da: 0
4 3 2 1 0 1 2 3 4

  Figura 13.4: .
Γ ν+ 1  − ν+2 1
2 t2
ϕ(t) = √  1+
νπΓ 2ν ν

La media e la varianza di T risultano essere

µ=0

σ =
ν−2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


210 o.caligaris - p.oliva

Infatti  
Z +∞ Γ ν +1  − ν+2 1
2 t2
µ= √  t 1 + dt = 0
−∞ νπΓ 2ν ν
per la simmetria dell’integranda;
Inoltre
 
Z + ∞ Γ ν +1  − ν+2 1
2 2 2 t2
σ = √ t 1 + dt =
−∞ νπΓ ν2 ν
 
Γ ν+ 1 Z +∞    − ν−2 1
2 νt 2 d t2
= √  − 1+ dt =
νπΓ 2ν −∞ 2 ν − 1 dt ν
integrando per parti
   
Γ ν+ 1   − ν−2 1 +∞ Z +∞  2 − 2
ν −1
2 νt t 2 ν t
= √  − 1+ + 1+ dt =
νπΓ ν2 ν−1 ν − 1 −∞
ν ν
−∞
 
Γ 2 ν +1 Z +∞
 − ν−2 1
ν t2 ν − 2
= √  1+ dt =
νπΓ ν2 ν − 1 −∞ ν−2 ν
q
posto s = t ν− ν
2
 
Γ ν+ 1 Z +∞  − ν−2 1 r
2 ν s2 ν
= √ 
ν ν−1 1+ ds =
νπΓ 2 −∞ ν−2 ν−2
 
r p 
Γ ν+ 2
1
ν ν (ν − 2)πΓ ν−2 2
= √    =
νπΓ ν2 ν − 1 ν − 2 Γ ν− 1
2
 

Γ 2 ν +1
ν Γ ν− 2 1
2 − 2
ν
2 ν
=    = =
Γ 2 ν ν − 1 Γ ν − 1 ν
2 − 1 ν − 2
2

13.1.8 La distribuzione F di Fisher.


È la distribuzione di una variabile aleatoria F che restituisce il rapporto
η/µ
F=
ξ/ν

dove η ed ξ sono variabili aleatorie con distribuzione χ2 a µ e ν gradi


di libertà, rispettivamente.
Per ricavare la PDF di F ricordiamo che la PDF g di η/µ è data da
µ µ µu
g(u) = µ µ
(µu) 2 −1 e− 2
2 Γ
2
2

mentre la PDF f di ξ/ν è data da


ν
 (νu) 2 −1 e−
ν νu
f (u) = ν
2
2 Γ
2 ν
2

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 211

η/µ
Possiamo quindi ricavare la PDF ϕ di F = ξ/ν usando quanto
conosciamo sul rapporto di due variabili aleatorie.
Avremo

Z +∞
ν µ µ µ µtx
 ν 2 −1 x 2 −1 e − µ 2 −1 (tx ) 2 −1 e−
ν ν νx
ϕ(t) = x ν
2
µ µ
2 dx =
0 2 Γ
2 ν
2 2 Γ 2
2
ν µ Z +∞
ν2 µ2 µ µ µtx
x 2 e − 2 t 2 −1 x 2 −1 e −
ν νx
= ν  µ µ
2 dx =
2 2 Γ 2ν 2 2 Γ 2
0
Z +∞ ν+µ
µ x
= t 2 −1 Cν,µ x 2 −1 e− 2 (ν+tµ) dx =
0
posto 2x (ν + tµ) = s si ha dx = ν+2tµ ds
Z +∞   ν + µ −1
µ
− 2s 2 2
1
= t 2 Cν,µ e−s ds =
0 ν + tµ ν + tµ
µ ν+µ Z +∞
t 2 −1 Cν,µ 2 2 ν+µ
= s 2 −1 e−s ds =
ν+µ
(ν + tµ) 2 0
  ν+µ
ν µ ν+µ
ν2 µ2 Γ 2 2 2 µ
t 2 −1
= ν µ  µ ν+µ =
2 2 2 2 Γ 2ν Γ 2 (ν + tµ) 2 Distribuzione di Fisher a 10 e 5 gradi di libertà
  1
ν µ ν+µ
ν2 µ2 Γ 2 µ ν+µ
0.9
0.8
 2 −1 ( ν + tµ ) − 2
= µ t 0.7
Γ 2 Γ 2
ν
0.6
0.5
0.4
Pertanto la funzione di distribuzione della variabile aleatoria F è 0.3
0.2
data da 0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

 ν µ Figura 13.5: .
 ν+µ
 ν 2 µ 2 Γ( 2 ) t µ2 −1 (ν + tµ)− ν+2 µ t>0
Γ( 2 )Γ( 2 )
ν µ
ϕ(t) =

0 altrimenti

la media e varianza risultano essere

ν2
µ=
ν2 − 2
2ν 2 ( ν + ν − 2)
2 1 2
σ2 =
ν1 (ν2 − 4)(ν2 − 2)2

Infatti posto

 
ν µ ν+µ
ν2 µ2 Γ 2
C (µ, ν) =  µ
Γ 2ν Γ 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


212 o.caligaris - p.oliva

Z +∞ Z +∞ Z +∞  
µ ν+µ µ µ
tk+1 ϕ(t)dt = C (µ, ν) t 2 +k (ν + tµ)− 2 dt = C (µ, ν) t 2 +k ν 1 + t
0 0 0 ν
Z +∞   − ν+µ
ν+µ
− 2
µ µ + 2k + 2 ν − 2k − 2 µ 2
= C (µ, ν)ν t 2 +k 1+t dt =
0 ν − 2k − 2 µ + 2k + 2 ν
ν−2k −2 µ
posto s = µ+2k +2 ν t
Z +∞ 
µ   ν+µ
ν+µ ν µ + 2k + 2 2 +k+1
µ µ + 2k + 2 − 2
= C (µ, ν)ν− 2 s 2 +k 1+s dt =
0 µ ν − 2k − 2 ν − 2k − 2
 µ Z   ν+µ
ν+µ
− 2 ν µ + 2k + 2 2 +k+1 +∞ µ +k µ + 2k + 2 − 2
= C (µ, ν)ν s 2 1+s dt =
µ ν − 2k − 2 0 ν − 2k − 2
 µ
ν+µ
− 2 ν µ + 2k + 2 2 +k+1 C (µ, ν)
=ν =
µ ν − 2k − 2 C (µ + 2k + 2, ν − 2k − 2)
µ ν+µ µ µ
ν 2 µ 2 ν−
ν
2 ν 2 +k+1 (µ + 2k + 2) 2 +k+1
= µ µ µ
µ 2 +k+1 (ν − 2k − 2) 2 +k+1 (ν − 2k − 2) 2 −k−1 (µ + 2k + 2) 2 +k+1
ν

   
ν+µ  
Γ 2 Γ ν2 − k − 1 Γ 2 + k + 1
µ
νk+1 Γ 2ν − k − 1 Γ 2 + k + 1
µ
   = k +1  µ
µ ν+µ Γ 2ν Γ 2
Γ ν2 Γ 2 Γ 2 µ

Siamo così in grado di calcolare i momenti rispetto all’origine di


ogni ordine
Per k = 0 otteniamo il momento di ordine 1, Cioè la media,
Z +∞  µ µ
ν Γ ν2 − 1 2 Γ 2 ν
tϕ(t)dt =   µ =
0 µ 2 −1 Γ 2 −1 Γ 2
ν ν ν−2

mentre per k = 1 possiamo calcolare la varianza come segue

Z +∞ µ µ  µ
2 ν2 Γ 2 − 2 2  2 + 1 Γ  2
ν
t ϕ(t)dt = 2 µ =
2 −1 2 −2 Γ 2 −2 Γ 2
µ ν ν ν
0

ν2 µ ( µ + 2)
=
µ2 (ν − 2)(ν − 4)

 2
ν2 µ ( µ + 2) ν 2ν2 (µ + ν − 2)
σ2 = − =
µ2 (ν − 2)(ν − 4) ν−2 µ(ν − 2)(ν − 4)

13.1.9 La Distribuzione T 2
Il quadrato T 2 di una variabile aleatoria di Student a ν gradi di libertà
è una variabile aleatoria di Fisher con (1, ν) gradi di libertà, infatti T è
una variabile aleatoria che restituisce il rapporto

ξ
T= q
η
ν

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 213

dove ξ è una gaussiana normale ed η ha distribuzione χ2 a ν gradi di


libertà, per cui
!
ξ 2
P ( T 2 ≤ α) = P η ≤ α
ν

Osservando che ξ 2 , in quanto quadrato di una gaussiana normale,


ha una distribuzione χ2 a un grado di libertà, possiamo concludere
che T 2 è una distribuzione di Fisher a (1, ν) gradi di libertà.

13.1.10 Test Statistici.

Definiamo
H0 l’affermazione che vogliamo sottoporre a test
e
Ha o H1 una affermazione alternativa.
Va subito detto che Ha non è necessariamente la negazione di H0
ed anzi, in corrispondenza di una stessa ipotesi H0 si possono pro-
grammare diversi test semplicemente scegliendo differenti ipotesi al-
ternative Ha ciascuna delle quali in grado di mettere in luce differenti
aspetti significativi.
Un esempio classico in grado di illustrare la situazione è il mecca-
nismo di giudizio in un sistema giuridico nel quale:
Un individuo è considerato non colpevole fino a che non è provata
la sua colpevolezza oltre ogni ragionevole dubbio.
Implicitamente una tale affermazione ritiene molto più grave giudi-
care colpevole un non colpevole piuttosto che giudicare non colpevole
un colpevole.
Nei termini prima espressi avremo
H0 non colpevole
e
Ha colpevole oltre ogni ragionevole dubbio.
Rigettare H0 , nel caso in cui H0 sia vera, significa giudicare colpe-
vole un non colpevole ed è considerato più grave di di accettare Ha nel
caso in cui Ha sia falsa, cioè nel caso in cui si giudichi non colpevole
oltre ogni ragionevole dubbio un colpevole.
Diciamo che si commette un errore di I specie se si rigetta H0 nel
caso in cui H0 è vera. (Si condanna un innocente).
Diciamo che si commette un errore di I I specie se si rigetta Ha nel
caso in cui Ha è vera. (Si assolve un colpevole, ma non oltre ogni
ragionevole dubbio).
Definiamo inoltre
P( errore di I specie) = α livello di significatività del test.
P( errore di I I specie) = β potenza del test.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


214 o.caligaris - p.oliva

13.1.11
Riprendendiamo il semplice ma significativo esempio che abbiamo già
in precedenza considerato:
progettare un test per stabilire se una moneta è truccata;
con lo scopo di sottolineare la corrispondenza tra definizioni teori-
che e scelte pratiche.
Cominciamo con lo stabilire un chiaro quadro di riferimento.
Indichiamo con p la probabilità che esca Testa e con q la probabilità
che esca Croce. e lanciamo la moneta n = 100 volte; chiamiamo T il nu-
mero di teste uscito e stabiliamo di adottare un livello di significatività
α = 0.05.
Se la moneta non è truccata T è una variabile aleatoria che ha una
distribuzione binomiale (bernoulliana) di media µ e scarto quadratico
σ dati da

µ = np = 50 , σ = npq = 5

e può essere approssimata con una variabile aleatoria normale stan-


dardizzata z definita dalla
nt − µ
z=
σ

13.1.12
Consideriamo l’ipotesi da testare
H0 la moneta non è truccata cioè p = q = 12 .
a fronte della’ipotesi alternativa
Ha la moneta è truccata cioè p 6= 12 , q 6= 21 .
In questo caso giudicheremo la moneta truccata se T è troppo gran-
de p > 0.5 oppure se T è troppo piccolo p < 0.5 ed avremo un livello
di significatività α = 0.05 se

P(z < −z a oppure z > z a ) = 0.05

Dovrà quindi essere

0.05 = P(z > z a ) + P(z < −z a ) = 2P(z > z a ) = 2(1 − P(z < z a )) = 2(1 − F (z a ))

da cui

F (z a ) = 1 − 0.025 = 0.975 , z a = F −1 (0.975) = 1.96

Rigetteremo cioè H0 se z < −z a = −1.96 oppure se z > z a = 1.96


cioè se
T−µ T−µ
< −1.96 oppure > 1.96
σ σ
T < µ − 1.96σ ≈ 40 oppure T > µ + 1.96σ ≈ 60
Figura 13.6: .

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 215

Riassumendo possiamo affermare che decidendo di accettare l’ipo-


tesi H0 che la moneta non sia truccata a fronte dell’ipotesi alternativa
Ha che p 6= 0.5 nel caso che il numero di teste uscite sia compreso tra
40 e 60, la probabilità di commettere un errore di prima specie e cioè
di rigettare l’ipotesi la moneta non è truccata, quando realmente non
è truccata, è 0.05

13.1.13
Consideriamo l’ipotesi da testare
H0 - la moneta non è truccata cioè p = q = 12 .
a fronte della’ipotesi alternativa
Ha - la moneta è truccata cioè p > 12 .
In questo caso giudicheremo la moneta truccata se T è troppo gran-
de ed se stabiliamo un livello di significatività di α = 0.05 possiamo
calcolare
P(z > z a ) = 0.05 = 1 − F (z a )

da cui
z a = F −1 (0.95) = 2.571

Rigetteremo cioè H0 se se z > z a = 2.571 da cui

T−µ
> 2.571
σ

T > µ + 2.571σ ≈ 63

Riassumendo possiamo affermare che decidendo di accettare l’ipo-


tesi H0 che la moneta non sia truccata a fronte dell’ipotesi alternativa
Ha che p > 0.5 nel caso che il numero di teste uscite sia maggiore di Figura 13.7: .
63, la probabilità di commettere un errore di prima specie e cioè di
rigettare l’ipotesi la moneta non è truccata, quando realmente non è
truccata, è 0.05

13.1.14
Con riferimento ai due esempi precedenti osserviamo che se ottenia-
mo un numero di teste T = 62, a parità di livello di significatività, nel
primo caso rigettiamo l’ipotesi che la moneta sia truccata mentre nel
secondo caso la accettiamo; ciò in conseguenza alla diversa formula-
zione dell’ipotesi Ha che deve essere scelta in modo da esprimere le
esigenze del problema.
Se ad esempio il test è condotto allo scopo si stabilire se è equo
giocare a Testa o Croce con quella moneta e si ha intenzione di puntare
su Testa è chiaro che il secondo test meglio si adatta alla situazione.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


216 o.caligaris - p.oliva

13.2 Il Test χ2

13.2.1 Il Test χ2 CASO 2 eventi


Si consideri un esperimento in cui sono possibili 2 uscite

A1 , A2

di cui si ipotizzano le probabilità

p1 , p2

Si supponga di eseguire n volte l’esperimento e di ottenere delle


frequenze di accadimento

x1 , x2

relative alla variabile aleatoria ξ = (ξ 1 , ξ 2 he ha una distribuzione


binomiale
Uno stimatore delle differenza tra frequenze osservate e frequenze
ipotizzate si può definire come

( x1 − np1 )2 ( x2 − np2 )2
χ2 = + (13.1)
np1 np2
Chiaramente x1 ed x2 non sono indipendenti e si ha

( x1 − np1 )2 ( x2 − np2 )2 ( x − np1 )2 ( x2 − np2 )2


χ2 = + = 1 p2 + p1 =
np2 np2 np1 np2
( x − np1 )2 p2 + ((n − x1 ) − n(1 − p1 ))2 p1
= 1 =
np1 p2
( x − np1 )2 p2 + (− x1 + p1 ))2 p1 ( x − np1 )2 ( p2 + p1 )
= 1 = 1 =
np1 p2 np1 p2
 
x − np1 2
= √1
np1 p2

Dal momento che


x1 −np1

np1 p2 tende ad una distribuzione normnale standard per il teorema
 
x −np 2
del limite centrale, si ha che √1np p12 si può approssimare mediante
1
una ditribuzione con densità χ2 ad un grado di libertà.

13.2.2 Il Test χ2 in generale


Si consideri un esperimento in cui sono possibili k uscite

Aj j = 1..k

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 217

di cui si ipotizzano le probabilità

pj j = 1..k

Si supponga di eseguire n volte l’esperimento e di ottenere delle


frequenze di accadimento

xj j = 1..k

relative alla variabile aleatoria ξ = (ξ 1 , ξ 2 , . . . , ξ k ) che ha una distri-


buzione multinomiale
Uno stimatore delle differenza tra frequenze osservate e frequenze
ipotizzate si può definire come

k ( x j − np j )2
χ2 = ∑ np j
(13.2)
j =1

tenendo conto che n j = np j è il valor medio di ξ j


Consideriamo ora la variabile aleatoria η che ha k componenti indi-
pendenti con distribuzione di Poisson di media λ j = np j condizionate
da
η1 + η2 + · · · + η k = n

Abbiamo visto in precedenza che η ha la stessa distribuzione di ξ e


quindi possiamo utilizzare il luogo della 13.2 la
 2
k ( y j − λ j )2 k yj − λj
χ2 = ∑ = ∑ q  (13.3)
j =1
λj j =1 λj

Se ora facciamo n → +∞, per il teorema del limite centrale, possia-


mo affermare che
yj − λj
q → ζj
λj

dove ζ j ha distribuzione normale standard, pertanto avremo che

k
χ2 = ∑ ζ 2j = ζ 12 + ζ 22 + · · · + ζ k2
j =1

è la somma di k variabili aleatorie normali standard condizionate da

0 = η1 + η2 + · · · + η k − n =
 
√ √ η1 − np1 √ η2 − np2 √ η − npk
n p1 √ + p2 √ + · · · + pk k√ =
np1 np2 npk
 
√ √ η1 − λ 1 √ η2 − λ 2 √ ηk − λ k
n p1 √ + p2 √ + · · · + pk √
λ1 λ2 λk

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


218 o.caligaris - p.oliva

da cui
 
√ η −λ √ η2 − λ 2 √ η −λ
0= p1 1√ 1 + p2 √ + · · · + pk k√ k
λ1 λ2 λk

ed, al limite,
√ √ √
0= p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k
Sia ϕ la PDF della variabile aleatoria ottenuta; avremo che

√ √ √
ϕ( x ) = P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x | p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k = 0) =
√ √ √
lim P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x || p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) =
e →0

Dal momento che ζ j è una variabile normale standard, la sua PDF è

1 u2
g j (u) = √ e− 2

per cui

√ √ √
P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x || p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) =
1
R − u21 +u22 +···+u2k
√ k Ve 2 du1 du2 . . . , duk

√ √ √
P (| p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e)

essendo V la parte della sfera n-dimensionale compresa tra i piani


√ √ √
p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k = ±e

Poichè l’integranda dipende solo dalla distanza dall’origine e | p1 ζ 1 +
√ √
p2 ζ 2 + · · · + pk ζ k | < e rappresenta la parte di spazio delimitata da
due piani paralleli ed equidistanti da un piano per l’origine, il calcolo
non dipende da come è inclinato il piano e possiamo quindi sostituire
la condizione data con la

| pk ζ k | < e

Ne segue che
Z u2 + u2 +···+u2
1 1 2 k
√ k
e− 2 du1 du2 . . . , duk ≈
2π V
Z u2 + u2 +···+u2
1 1 2 k −1 1
≈ √ k
2e e− 2 du1 du2 . . . , duk−1 = √ 2eχ2k−1 ( x )
2π Vk−1 2π

essendo Vk−1 la sfera (n − 1)-dimensionale di raggio x e, conseguen-


temente, χ2k−1 la CDF di una variabile aleatoria di tipo χ2 a k − 1 gradi
di libertà

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 219

√ √ √
D’altro canto p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k è una variabile aleatoria
normale standard in quanto combinazione lineare di variabili aleatorie
normali standard per cui la sua PDF è

1 u2
g(u) = √ e− 2

e quindi
Z +e
√ √ √ 1 u2 1
P (| p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) = √ e− 2 = approx √ 2e
2π −e 2π

Ne segue che

√ √ √
P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x || p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) =
√1 2eχ2 ( x )
2π k −1
= χ2k−1 ( x )
√1 2e

(supponendo che le frequenze teoriche possano essere stimate senza


dover stimare statisticamente i parametri della popolazione).
Poichè i dati sono discreti e la variabile χ2 è continua può essere
opportuno apportare una correzione allo stimatore usando

k(| x j − np j | − .5)2
χ̄2 = ∑ np j
j =1

χ̄2 si chiama correzione di Yates.


Gli stimatori introdotti possono essere usati in test che tendano a
stabilire se le frequenze teoriche p j siano in accordo con i risultati
ottenuti x j .

13.2.3 Test sulle Medie

13.2.4
Siano ξ 1 , ξ 2 , .., ξ n variabili aleatorie costituenti un campione di gran-
dezza n. ( Con ciò si intende che ξ k è una variabile aleatoria che si
ottiene estraendo un elemento dalla popolazione).
Definiamo una nuova variabile aleatoria ξ̄, che chiamiamo media
campionaria, mediante la

ξ 1 + ξ 2 + .. + ξ n
ξ̄ =
n

La distribuzione di probabilità di ξ̄ è detta distribuzione campiona-


ria della media.

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


220 o.caligaris - p.oliva

Si può verificare che, se la popolazione ha media µ e varianza σ2


allora la media e la varianza di ξ̄ sono date da
 
σ2 σ2
µξ̄ = µ , σξ̄2 = , σξ̄ = √
n n
Si può inoltre dimostrare che la variabile aleatoria
ξ̄ − µ

σ/ n
ha, per n grande, una distribuzione normale standard.
ξ̄ −µ
√ si usa come stimatore della media.
σ/ n

13.2.5 Test sulle Varianze

13.2.6
Siano ξ 1 , ξ 2 , .., ξ n variabili aleatorie costituenti un campione di gran-
dezza n. ( Con ciò si intende che ξ k è una variabile aleatoria che si
ottiene estraendo un elemento dalla popolazione).
Definiamo una nuova variabile aleatoria s2 , che chiamiamo varianza
campionaria, mediante la

(ξ 1 − ξ̄ )2 + (ξ 2 − ξ̄ )2 + .. + (ξ n − ξ̄ )2
s2 =
n
La distribuzione di probabilità di s2 è detta distribuzione campio-
naria della varianza.
Si può verificare che, se la popolazione ha media µ e varianza σ2
allora la media di s2 è data da
n−1 2
µ s2 = σ
n
Inoltre se la popolazione è distribuita normalmente, la variabile
aleatoria definita da
ns2
σ2
ha una distribuzione di tipo χ2 con n − 1 gradi di libertà.
ns2
σ2
si usa come stimatore della varianza.

13.3 Stima di parametri

13.3.1 Popolazioni
Diciamo che è assegnata una popolazione se è assegnato un insieme U
ed una variabile aleatoria ξ definita su U .
Se ad esempio siamo interessati a stimare il diametro di sfere di
acciaio per cuscinetti, possiamo considerare la popolazione i cui ele-
menti sono le sfere prodotte e la variabile aleatoria ξ che associa ad

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 221

ogni sfera sk il suo diametro ξ (k) = dk . La variabile ξ che restituisce il


diametro di ciascuna sfera descrive la popolazione che stiamo esami-
nando. ξ potrebbe ad esempio avere una funzione di distribuzione, ad
esempio gaussiana di media µ e varianza σ2 .

13.3.2 Campioni
Data una popolazione definita dalla variabile aleatoria ξ sullo spazio
U diciamo che è assegnato un campione di taglia n se sono assegnate n
variabili aleatorie x1 , x2 , ...., xn sullo spazio U Indichiamo con x la n-pla
delle variabili aleatorie x1 , x2 , ...., xn che costituiscono il campione.
Ad esempio possiamo considerare xk come la variabile aleatoria che
restituisce il diametro di una k-esima sferetta scelta in U .

13.3.3 Stimatore
Diciamo che è assegnato uno stimatore, o riassunto campionario, se è
assegnata una funzione φ = φ( x1 , x2 , ...., xn ) .
Possiamo ad esempio considerare uno stimatore del diametro del-
le sferette considerando la media dei diametri delle n sferette che
abbiamo estratto per costruire il campione.
In tal caso
1
φ( x1 , x2 , ...., xn ) = ( x + x2 + .... + xn )
n 1
Uno stimatore è a sua volta una variabile aleatoria.

13.4 Risultati sulle distribuzioni campionarie

Si consideri una popolazione individuata da una variabile aleatoria


ξ su un insieme U di media µ e varianza σ ed un campione x =
( x1 , x2 , ...., xn ) di taglia n.
Sia
µ = E(ξ )

la media della popolazione e

1
x̄n = ( x + x2 + .... + xn )
n 1
la media campionaria

13.4.1 La media campionaria


Sia µ x̄n la media della variabile aleatoria x̄n , cioè il valor medio della
media campionaria; si ha

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


222 o.caligaris - p.oliva


µ x̄n = E( x̄n ) = µ

infatti

1 nµ
E( x̄n ) = ( E( x1 ) + E( x2 ) + · · · E( xn )) = =µ
n n

σ2
σx̄2n = E(( x̄n − µ x̄n )2 ) = E(( x̄n − µ)2 ) =
n
infatti, tenendo conto che le variabili xi sono indipendenti,

E(( x̄n − µ x̄n )2 ) = E(( x̄n − µ)2 ) =


E(( x1 − µ)2 ) + E(( x2 − µ)2 ) + · · · E(( xn − µ)2 ) nσ2 σ2
= = =
n2 n2 n

13.4.2 Distribuzione della media campionaria


x̄n è distribuito normalmente con media µ e varianza σ2 /n. Infatti,
poichè ξ è distribuita normalmente con media µ e varianza σ2 allora
anche ciascuna delle xi segue la stessa distribuzione e, dal momento
che la somma di distribuzioni gaussiane è ancora gaussiana, anche x̄n
ha una PDF Gaussiana la cui media e varianza sono, in accordo con il
2
punto precedente, µ e σn , rispettivamente.
Inoltre, per il teorema del limite centrale, si ottiene che

x̄n − µ
√σ
n

è asintoticamente (n ≥ 30) distribuito normalmente con media 1 e


varianza 0.

13.4.3 La varianza campionaria


Chiamiamo varianza campionaria la variabile aleatoria definita da

( x1 − x̄n )2 + ( x2 − x̄n )2 + ..... + ( xn − x̄n )2


Sn2 =
n
Si ha che
n−1 2
E(Sn2 ) =
σ
n
infatti possiamo facilmente calcolare che

( xi − x̄n )2 = ( xi − µ + µ − x̄n )2 =
= ( xi − µ)2 − 2( xi − µ)( x̄n − µ) + ( x̄n − µ)2

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 223

perciò

n n n
∑ (xi − x̄n )2 = ∑ (xi − µ)2 − 2(x̄n − µ) ∑ (xi − µ) + n(x̄n − µ)2 =
i =1 i =1 i =1
n n
= ∑ (xi − µ)2 − 2n(x̄n − µ)2 + n(x̄n − µ)2 = ∑ (xi − µ)2 − n(x̄n − µ)2
i =1 i =1
(13.4)
e ne segue

E(Sn2 ) =
! ! !
n n
1 1
= E
n ∑ (xi − x̄n ) 2
=
n
E ∑ ( xi − µ ) 2
− nE( x̄n − µ) ) 2
=
i =1 i =1
 
1 2 σ2 n−1 2
= nσ − n = σ
n n n
Definiamo inoltre

( x1 − x̄n )2 + ( x2 − x̄n )2 + ..... + ( xn − x̄n )2


Ŝn2 =
n−1
2
Ŝn è una definizione alternativa di varianza campionaria per la
quale si ha
n
nSn2 = (n − 1)Ŝn2 = ∑ (xi − x̄n )2
i =1

13.4.4 Indipendenza di media e varianza campionaria


Possiamo dimostrare che, nel caso in cui le variabili aleatorie xi siano
Gaussiane di media µ e varianza σ2 , la media campionaria x̄n e la
varianza campionaria Ŝn2 sono tra loro indipendenti.
Infatti, supponiamo, senza perdere di generalità , che µ = 0 e σ = 1,
avremo che

!
n
1
Ŝn2 = ( x1 − x̄n )2 + ∑ ( xi − x̄n )2 =
n−1 i =2
essendo ∑in=1 ( xi − x̄n ) = 0
 !2 
n n
1 
n−1 ∑ (xi − x̄n ) + ∑ ( xi − x̄n )2  =
i =2 i =2

Ora sia ϕ(t) = ϕ(t1 , t2 , . . . , tn ) la PDF congiunta delle variabili alea-


torie indipendenti gaussiane ( x1 , x2 , . . . , xn )
1 1 n 2
ϕ(t) = n e − 2 ∑ i =1 t i
(2π ) 2

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


224 o.caligaris - p.oliva

1
e, posto t̄ = n ∑ ti , consideriamo la trasformazione di coordinate defi-
nita da:


 s1 = t̄



s = t − t̄
2 2

 ···



s = t − t̄
n n

1
La trasformazione è lineare ed il suo Jacobiano è n inoltre si ha
ti = si + s1 per i = 2, . . . , n e

n n n n
t1 = ∑ ti − ∑ ti = nt̄ − ∑ ti = t̄ − ∑ ti + (n − 1)t̄ =
i =1 i =2 i =2 i =2
n n n
= t̄ − ∑ (ti − t̄) = t̄ − ∑ si = s1 − ∑ si
i =2 i =2 i =2

per cui possiamo esprimere ϕ in funzione di s mediante la

n 1 n 2+
∑in=2 (si +s1 )2 )
ϕ(s) = n e − 2 ( ( s 1 − ∑ i =2 s i )
(2π ) 2

e dal momento che

!2
n n
s1 − ∑ s i + ∑ ( s i + s1 )2 =
i =2 i =2
!2
n n n n n
= s21 + ∑ si − 2s1 ∑ si + ∑ s2i + ∑ s21 + 2s1 ∑ si =
i =2 i =2 i =2 i =2 i =2
!2
n n
= ns21 + ∑ si + ∑ s2i
i =2 i =2

si ha
 2

n 1 2 − 12 (∑in=2 si ) +∑in=2 s2i
ϕ(s) = n e− 2 ns1 e
(2π ) 2

Quindi, se (y1 , y2 , . . . , yn ) è la variabile aleatoria ottenuta da ( x1 , x2 , . . . , xn )


mediante la trasformazione lineare indicata, si ha che y1 è indipenden-
te da y2 , . . . , yn e x̄ è indipendente da Ŝ2
È un risultato notevole che la variabile aleatoria definita da Ŝn2 ha
una distribuzione di tipo χ2n−1 , cioè ha una distribuzione di tipo χ2 ad
(n − 1) gradi di libertà. Infatti, dal momento che

xn+1 + n x̄n 1
x̄n+1 = = x̄n + (x − x̄n )
n+1 n + 1 n +1

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 225

si ha
n +1 n +1  2
1
nŜn2 +1= ∑ ( xi − x̄n+1 ) = ∑ ( xi − x̄n ) −
2
(x − x̄n ) =
i =1 i =1
n + 1 n +1
n +1  
( xn+1 − x̄n )( xi − x̄n ) ( xn+1 − x̄n )2
= ∑ ( xi − x̄n ) − 2
2
+ =
i =1
n+1 ( n + 1)2
n
1 n+1
= ∑ (xi − x̄n )2 + (xn+1 − x̄n )2 − 2 n + 1 (xn+1 − x̄n )2 + (n + 1)2 (xn+1 − x̄n )2 =
i =1
n
= (n − 1)Ŝn2 + (x − x̄n )2
n + 1 n +1
Ora
1
Ŝ22 = ( x − x2 )2
2 1
ha una distribuzione χ21 in quanto quadrato di una gaussiana;
inoltre la formula precedente consente di verificare che Ŝn2 +1 ha
una distribuzione χ2n se Ŝn2 ha una distribuzione χ2n−1 ricordando che
n 2
n+1 ( xn+1 − x̄n ) è gaussiana.
Pertanto per il principio di induzione Ŝn2 ha una distribuzione di
tipo χ2n−1 per ogni n ∈ N
Possiamo quindi affermare che la variabile aleatoria
n  2
xi − x̄
ξ2 = ∑ σ
i =1

ha una distribuzione di tipo χ2 ad n − 1 gradi di libertà.

13.4.5 T-Test
Abbiamo quindi verificato che

x̄ − µ
√σ
n

è una variabile aleatoria gaussiana standard (media 0 e varianza 1).

n  2
xi − x̄ n 2 n−1 2
∑ σ
=
σ2
S =
σ2

i =1

è una variabile aleatoria con distribuzione di tipo χ2 ad n − 1 gradi di


libertà.
Quindi
v
u   s s
u n x − x̄ 2
t ∑ i =1 i σ nS2 Ŝ2
= =
n−1 σ ( n − 1) σ
è la radice di una variabile aleatoria di tipo χ2 ad n − 1 gradi di libertà
divisa per i suoi gradi di libertà

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


226 o.caligaris - p.oliva

e pertanto
x̄ −µ
√σ
n √ x̄ − µ √ x̄ − µ
q = n = n−1
Ŝ2 Ŝ S
σ2

ha una distribuzione di Student ad n − 1 gradi di libertà.

13.4.6 F-Test

13.4.7
Se ξ 1 , ξ 2 sono due popolazioni normalmente distribuite con varianza
σ12 , σ22 e se X1 , X2 sono due campioni di taglia n1 ed n2 rispettivamente
estratti dalle due popolazioni, le variabili aleatorie

ni 2 n −1
S = i 2 Ŝi2
σi2 i σi

hanno distribuzioni di tipo χ2 ad ni − 1 gradi di libertà. Poichè


n1 1 2
(n1 −1)σ12 1
S2 Ŝ
σ12 1
n2 =
S2
( n2 −1) σ 2 2
1 2

2 σ22 2

possiamo affermare che


1 2 1 2
σ Ŝ
σ22 1 Ŝ12 2
ha una distribuzione di probabilità di Fisher con n1 − 1, n2 − 1 gradi
di libertà.

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


14. REGRESSIONE LINEARE: LA
RETTA DEI MINIMI QUADRATI

Siano assegnate n coppie di dati (punti di R2 )

( x1 , y1 ) , ( x2 , y2 ) , . . . , ( x n , y n )

e si consideri il problema di determinare l’equazione di una retta

y = ax + b

in corrispondenza della quale risulti minima la quantità


n
e( a, b) = ∑ (yi − axi − b)2
i =1

e( a, b) è una funzione convessa della variabili ( a, b) che tende a +∞


per ( a, b) → ∞ e pertanto ammette uno ed un solo punto di minimo
assoluto che si può trovare annullando ∇e.
Per risolvere il problema dovremo pertanto risolvere il sistema de-
finito dalle equazioni

 ∂e = ∑n −2(y − ax − b) x = 0
∂a i =1 i i i
 ∂e = ∑n −2(yi − axi − b) = 0
∂b i =1

Ne viene che

∑n n 2 n
i =1 x i y i − a ∑ i =1 x i − b ∑ i =1 x i = 0
 ∑ n yi − a ∑ n xi − b ∑ n 1 = 0
i =1 i =1 i =1

ovvero

∑n n 2 n
i =1 x i y i = a ∑ i =1 x i + b ∑ i =1 xi
(14.1)
∑n yi = a ∑n xi + nb
i =1 i =1
228 o.caligaris - p.oliva

Dalla seconda delle 14.1 si può vedere che


n n
nb = ∑ yi − a ∑ xi
i =1 i =1

ed anche

∑in=1 yi ∑n x
b= − a i=1 i = ȳ − a x̄
n n

dove
∑in=1 xi ∑ n yi
, x̄ = ȳ = i=1
n n
indicano la media dei valori xi ed yi , rispettivamente.
Dalla prima delle 14.1 si può invece ottenere che

n n n
∑ xi yi = a ∑ xi2 + b ∑ xi =
i =1 i =1 i =1
 
n n
∑in=1 yi ∑n x
=a∑ xi2 + ∑ xi − a i =1 i
i =1 i =1
n n
e
!
2
n
∑ n xi ∑ n yi ( ∑ n
x ) n
∑ x i y i − i =1 n i =1 = a ∑ xi2 − i=n1
i

i =1 i =1
 !2 
n n n n n
n ∑ xi yi − ∑ xi ∑ yi = a n ∑ xi2 − ∑ xi 
i =1 i =1 i =1 i =1 i =1

ed infine

n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi


a=
n ∑in=1 xi2 − (∑in=1 xi )2

Inoltre
!
n n
n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi
nb = ∑ yi − ∑ xi n ∑in=1 xi2 − (∑in=1 xi )2
=
i =1 i =1
 !2
n n n n
1 n ∑ x2
=
n (∑in=1 xi )2 − (∑in=1 xi )2
i ∑ yi − ∑ xi ∑ yi
i =1 i =1 i =1 i =1
!2 
n n n n
− n ∑ xi ∑ xi yi + ∑ xi ∑ yi 
i =1 i =1 i =1 i =1

e se ne conclude che

n ∑in=1 xi2 ∑in=1 yi − n ∑in=1 xi ∑in=1 xi yi


b=
n ∑in=1 xi2 − (∑in=1 xi )2

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 229

Ora, tenendo conto che

n n n n n
∑ (xi − x̄)(yi − ȳ) = ∑ xi yi − ∑ x̄yi − ∑ xi ȳ + ∑ x̄ȳ =
i =1 i =1 i =1 i =1 i =1
n
= ∑ xi yi − nx̄ȳ − n x̄ȳ + n x̄ȳ =
i =1
n n
∑in=1 xi ∑in=1 yi
= ∑ xi yi − n x̄ȳ = ∑ xi yi − n
i =1 i =1

e che

n n n n
∑ (xi − x̄)2 = ∑ xi2 − 2 ∑ x̄xi + ∑ x̄2 =
i =1 i =1 i =1 i =1
n n
= ∑ xi2 − 2n x̄2 + n x̄2 = ∑ xi2 − nx̄2
i =1 i =1

si ricava che

∑in=1 ( xi − x̄ )(yi − ȳ)


=
∑in=1 ( xi − x̄ )2
1 n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi
= =
n ∑in=1 xi2 − n x̄2
n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi
=  n  =a
∑ i =1 x i 2
n ∑in=1 xi2 − n2 n

Pertanto possiamo esprimere a e b mediante le seguenti formule

 n






∑ (xi − x̄)(yi − ȳ)
 a= i =1
n
(14.2)



∑ (xi − x̄) 2

 i =1

ȳ = a x̄ + b

La prima delle due uguaglianze premette di concludere che a è inva-


riante rispetto alla traslazione degli assi: cioè usando x − x0 ed y − y0
in luogo di x ed y il valore di a non cambia.
La stessa trasformazione cambia invece il valore di b, come si vede
dalla seconda uguaglianza. Dalla medesima si vede anche che la retta
di regressione passa per il punto di coordinate ( x̄, ȳ) che è il baricentro
dei dati.
Possiamo anche osservare che, a meno di operare una traslazio-
ne dei dati riportando l’origine degli assi nel baricentro ( x̄, ȳ),si può

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


230 o.caligaris - p.oliva

supporre che
 n






∑ xi yi
 a= i =1
n
(14.3)



∑ xi 2

 i =1

b = 0

Ora, siano

• s2x la varianza dei dati xi

∑in=1 ( xi − x̄ )2
s2x =
n

• s2y la varianza dei dati yi

∑in=1 (yi − ȳ)2


s2y =
n

• s xy la covarianza dei dati ( xi , yi )

∑in=1 ( xi − x̄ )(yi − ȳ)


s xy =
n

Possiamo scrivere la retta di regressione nella forma


s xy
y − ȳ = ( x − x̄ )
s2x
e se invertiamo il ruolo di x e di y l’equazione diventa
s xy
x − x̄ = (y − ȳ)
s2y

Possiamo misurare la correlazione tra i dati utilizzando il coefficien-


te definito da
s xy
r= (14.4)
s x sy

mediante il quale le equazioni delle due rette prima introdotte diven-


tano

y − ȳ x − x̄
=r
sy sx
e
y − ȳ x − x̄
r =
sy sx
Chiaramente le due rette coincidono soltanto nel caso in cui

r2 = 1 cioè r = ±1

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 231

e il fatto che questo accada è indice della correlazione dei dati cioè del
fatto che i dati si trovano su una retta.
È ragionevole quindi stimare la maggiore o minore correlazione tra
i dati confrontando r2 con 1: più r2 è vicino ad 1 e più i dati sono da
considerarsi linearmente correlati.
Possiamo inoltre misurare la dispersione dei dati attorno alla retta
di regressione mediante la
s
∑in=1 (yi − yis )2
Sy,x =
n
dove
yis = axi + b
Pertanto
2 ∑in=1 (yi − axi − b)2
Sy,x =
n
e
∑in=1 (yi − axi − b)2 n
= ∑ (y2i + a2 xi2 + b2 − 2axi yi − 2byi + 2abxi ) =
n i =1
n n n n n
= ∑ y2i + a2 ∑ xi2 + nb2 − 2a ∑ xi yi − 2b ∑ yi + 2ab ∑ xi ) =
i =1 i =1 i =1 i =1 i =1

e per le 14.1
" !#
n n n
1
= ∑ y2i +a2 a ∑ xi yi − b ∑ xi + nb2 −
i =1 i =1 i =1
" !#
n n n
1
− 2a ∑ xi yi − 2b ∑ yi + 2ab ∑ yi − nb =
i =1 i =1
a i =1
n n n
= ∑ y2i + a ∑ xi yi − ab ∑ xi + nb2 −
i =1 i =1 i =1
n n n
− 2a ∑ xi yi − 2b ∑ yi + 2b ∑ yi − 2nb2 =
i =1 i =1 i =1
n n n
= ∑ y2i − a ∑ xi yi − ab ∑ xi − nb2 =
i =1 i =1 i =1
!
n n n
= ∑ y2i − a ∑ xi yi − b a ∑ xi + nb =
i =1 i =1 i =1

e ancora per le 14.1


n n n
= ∑ y2i − a ∑ xi yi − b ∑ yi
i =1 i =1 i =1

Quindi
2 ∑in=1 y2i − a ∑in=1 xi yi − b ∑in=1 yi
Sy,x =
n

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


232 o.caligaris - p.oliva

Si può d’altro canto verificare che

n n n n n
∑ y2i − a ∑ xi yi − b ∑ yi = ∑ (yi − ȳ)2 − a ∑ (xi − x̄)(yi − ȳ)
i =1 i =1 i =1 i =1 i =1

infatti
n n
∑ (yi − ȳ)2 − a ∑ (xi − x̄)(yi − ȳ) =
i =1 i =1
n n n n
= ∑ y2i − 2ȳ ∑ yi + nȳ2 − a ∑ xi yi + a ∑ xi ȳ+
i =1 i =1 i =1 i =1
n n
+ a ∑ x̄yi − a ∑ x̄ ȳ =
i =1 i =1
n n
= ∑ y2i − 2nȳ2 + nȳ2 − a ∑ xi yi + anx̄ȳ + anx̄ȳ − anx̄ȳ =
i =1 i =1
n n
= ∑ y2i − nȳ2 − a ∑ xi yi + anx̄ȳ =
i =1 i =1
n n
= ∑ y2i − a ∑ xi yi + nȳ(ȳ − a x̄) =
i =1 i =1
n n
= ∑ y2i − a ∑ xi yi + nȳb =
i =1 i =1
n n n
= ∑ y2i − a ∑ xi yi + b ∑ yi
i =1 i =1 i =1

Le precedenti considerazioni permettono quindi di affermare che

∑in=1 y2i − a ∑in=1 xi yi − b ∑in=1 yi


2
Sy,x = =
n
∑n (y − ȳ)2 − a ∑in=1 ( xi − x̄ )(yi − ȳ)
= i =1 i = s2y − as xy
n
s xy
e dal momento che a = s2x
! !
s xy s2xy
= s2y 1−a 2 = s2y 1− =
sy s2x s2y
 
s2y 1 − r2

Ne viene quindi che


2
Sy,x
= (1 − r 2 )
s2y

∑in=1 (yi − yis )2


r2 = 1 −
∑in=1 (yi − ȳ)2

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 233

D’altro canto
n n
∑ (yi − ȳ)2 = ∑ (yi − yis + yis − ȳ)2 =
i =1 i =1
n n n
= ∑ (yi − yis )2 + ∑ (yis − ȳ)2 + 2 ∑ (yi − yis )(yis − ȳ)
i =1 i =1 i =1

Poichè valgono le equazioni normali 14.1 che definiscono a e b

n n
∑ (yi − yis )(yis − ȳ) = ∑ (yi − axi − b)(axi + b − ȳ) =
i =1 i =1
n n
= (b − ȳ) ∑ (yi − axi − b) + a ∑ xi (yi − axi − b)
i =1 i =1
! " #
n n n n n
= (b − ȳ) ∑ yi − a ∑ xi − nb +a ∑ xi yi − a ∑ xi2 − b ∑ xi =0
i =1 i =1 i =1 i =1 i =1

avremo

∑in=1 (yi − yis )2 ∑in=1 (yi − ȳ)2 − ∑in=1 (yi − yis )2


r2 = 1 − = =
∑in=1 (yi − ȳ)2 ∑in=1 (yi − ȳ)2
∑in=1 (yis − ȳ)2 Variazione spiegata
= n =
∑ i =1 i
( y − ȳ ) 2 Variazione totale

Possiamo anche calcolare, dalla 14.4, che

n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi


r = r   =
n 2 n 2 n 2 n 2
n ∑ i =1 x i − ( ∑ i =1 x i ) n ∑ i =1 y i − ( ∑ i =1 y i )
xy − x̄ ȳ
= r  =
x2 − x̄2 )(y2 − ȳ2

∑in=1 xi yi
= q
(∑in=1 xi 2 )(∑in=1 yi 2 )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


15. ANALISI DEI COMPONENTI
PRINCIPALI.

15.1 Forme quadratiche ed autovalori.

Sia A una matrice n × n e consideriamo la funzione

f (u) = h Au, ui , u ∈ Rn

f si chiama forma quadratica su Rn e si può vedere che è sempre


possibile supporre che la matrice A che la individua sia simmetrica.
Infatti, ad esempio per n = 2, se
!
a d1
A1 =
d2 c
!
x
ed u = avremo che
y

f (u) = h A1 u, ui = ax2 + d1 xy + d2 yx + cy2 = ax2 + (d1 + d2 ) xy + cy2 =


= ax2 + 2bxy + cy2 = h Au, ui

per b = (d1 + d2 )/2, da cui


!
a b
A=
b c

D’altro canto, se A è una matrice simmetrica possiamo verificare


che
h Au, vi = hu, Avi
ed inoltre

f (u + h) = h A(u + h), (u + h)i = h Au, ui + 2h Au, hi − h Ah, hi

per cui

f (u + h) − f (u) = 2h Au, hi + h Ah, hi = 2h Au, ui + khkω (h)


236 o.caligaris - p.oliva

con ω funzione infinitesima per h → 0 (si ricordi che |h Ah, hi| ≤


k Ahkkhk ed Ah → 0 se h → 0).
Dalla definizione di differenziale si ottiene allora che f è differen-
ziabile e che
∇ f (u) = 2Au
Come caso particolare, se A = I (la matrice identica) si ha

g(u) = hu, ui = kuk2 , ∇ g(u) = 2u

Consideriamo ora il problema di trovare

max f (u) = max h Au, ui


g(u)−1=0 k u k2 =1

Per il teorema di Weierstraß, dal momento che f è continua e che


kuk2 = 1 definisce la superficie della sfera di centro l’origine e raggio
1, che è chiusa e limitata, possiamo affermare che il massimo esiste.
Sia u1 il punto in cui tale massimo è assunto

h Au1 , u1 i = max h Au, ui


kuk2 =−1

k u1 k2 = 1

D’altro canto, il teorema dei moltiplicatori di Lagrange consente di


affermare che esiste λ1 tale che

∇ f ( u1 ) = λ1 ∇ g ( u1 )

per cui deve essere


Au1 = λ1 u1
Dal momento che la precedente equazione è soddisfatta

• λ1 è un autovalore di A

• u1 è un autovettore di A corrispondente all’autovalore λ1

Possiamo inoltre osservare che

max h Au, ui = h Au1 , u1 i = hλ1 u1 , u1 i = λ1 ku1 k2 = λ1


k u k2 =1

per cui λ1 è il valore massimo assunto da h Au, ui sulla sfera kuk2 =


1
Consideriamo ora lo spazio vettoriale V1 generato da u1

V1 = {λu1 : λ ∈ R}

e lo spazio V1⊥ ortogonale a V1

V1⊥ = {v ∈ Rn : hv, u1 i = 0 } = {v ∈ Rn : h(v) = 0 }

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 237

con h(v) = hv, u1 i.


Consideriamo ora il problema di trovare

max f (u) = max h Au, ui


g(u)−1=0 k u k2 =1
h(u)=0 hu,u1 i=0

possiamo anche qui applicare il metodo dei moltiplicatori di Lagrange


ed affermare che che esistono u2 ∈ V1⊥ e λ2 , µ2 tali che

∇ f ( u2 ) = λ2 ∇ g ( u2 ) + µ2 ∇ h ( u2 )

ma ∇h(u) = u1 in quanto h è lineare, e otteniamo

2Au2 = 2λ2 u2 + µ2 u1

da cui
2( A − λ2 ) u2 = µ2 u1

Moltiplicando per u1t otteniamo

0 = 2( A − λ2 )u2 u1t = µ2 ku1 k = µ1

da cui µ1 = 0 e
( A − λ2 ) u2 = 0

Ne deduciamo che λ2 è autovalore di A e u2 è l’autovettore corrispon-


dente e che λ1 ≥ λ2 in quanto {v : g(u) − 1 = 0, h(u) = 0} ⊂ {v :
g ( u ) − 1 = 0}.
Possiamo iterare i procedimento
Consideriamo ora lo spazio V2 generato da u1 , u2

V2 = {λu1 + µ2 : λ, µ ∈ R}

e lo spazio V1⊥ ortogonale a V1

V2⊥ = {v ∈ Rn : l (v) = 0 }
!
u1
con h(v) = Lv, L = .
u2
Consideriamo il problema di trovare

max f (u) = max h Au, ui


g(u)−1=0 k u k2 =1
A(u)=0 Au=0

possiamo ancora applicare il metodo dei moltiplicatori di Lagrange ed


affermare che che esistono u3 ∈ V2⊥ e λ3 , (µ3 , η3 ) tali che

∇ f (u3 ) = λ3 ∇ g(u3 ) + (µ3 , η3 )∇l (u3 )

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


238 o.caligaris - p.oliva

!
u1
ma ∇l (u) = in quanto l è lineare, e otteniamo
u2
!
u1
2Au3 = 2λ3 u3 + (µ3 , η3 )
u2

da cui
2 ( A − λ 3 ) u 3 = µ 3 u 1 + η3 u 2

Moltiplicando per (µ3 u1 + η3 u2 )t otteniamo

0 = 2 ( A − λ 3 ) u 3 ( µ 3 u 1 + η3 u 2 ) t = k µ 3 u 1 + η3 u 2 k 2

da cui µ3 u1 + η3 u2 = 0 e

( A − λ3 ) u3 = 0

Ne deduciamo che λ3 è autovalore di A e u3 è l’autovettore corrispon-


dente e che λ1 ≥ λ2 ≥ λ3 in quanto

{v : g(u) − 1 = 0, l (u) = 0} ⊂ {v : g(u) − 1 = 0, h(u) = 0} ⊂ {v : g(u) − 1 = 0}

Chiaramente si può ripetere quanto fatto fino a trovare:

• n autovalori λ1 , λ2 , ...., λn decrescenti in valore

• n autovettori u1 , u2 , ...., un , uno per ogni autovalore, che risultano


ortogonali tra loro e di norma unitaria.

Gli autovettori u1 , u2 , ...., un formano quindi una base ortonormale


con la caratteristica che lungo il primo asse si trova il punto di massi-
mo della forma quadratica h Au, ui sulla sfera unitaria in R2 , lungo il
secondo asse si trova il massimo della forma quadratica h Au, ui sulla
sfera unitaria in V1⊥ e così via fino all’n−esimo asse.
Infatti, sia
 
u11 u12 . . . u1n
 2 
 u1 u22 . . . u2n   
R=   = u1 u2 . . . u n
. 
. . . . . . . . . . .
u1n u2n . . . u3n

la matrice che ha per colonne i vettori ui ; R è una matrice ortonormale


e rappresenta una rotazione in Rn .

15.2 Analisi delle componenti principali. PCA.

Vediamo ora di formalizzare quanto abbiamo potuto vedere nell’esem-


pio svolto.

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 239

Sia A una matrice n × p che raccoglie n osservazioni relative a p


variabili. Per facilitare la comprensione supporremo p = 3, osservando
esplicitamente che la presenza di più di tre variabili comporta soltanto
un aggravio delle notazioni.
 
x1 x21 x1p
 12 
 x1 x22 x2p 
 
A=
 x1
3 x23 x3p 
 
. . . ... . . .
x1n x2n x np
e consideriamo la matrice di covarianza dei dati che è definita da

C = At A

e risulta definita da
 
σ2 2
σ12 2
σ13
 11
2 2 2 
C = σ21 σ22 σ23 
2
σ31 2
σ32 2
σ33

dove
σij2 = ∑(xik − x̄i )(xkj − x̄ j )
k

essendo chiaramente x̄i la media di xi , σi,i la varianza di xi e σi,j la


covarianza di xi ed x j .
La matrice C risulta una matrice simmetrica ed è noto che esiste una
matrice diagonale  
λ1 0 0
 
D =  0 λ1 0 
0 0 λ3
ed una matrice ortonormale
 
u1 u12 u13  
 12 
R = u1 u22 u23  = u1 u2 u3
u31 u32 u33

tale che
Rt CR = D

La matrice D presenta sulla diagonale principale gli autovalori λi rea-


li e non negativi di C, mentre le colonne di R sono costituite dagli
autovettori ui = (u1i , u2i , u3i ) corrispondenti.
Più esplicitamente si ha
     
u11 u21 u31 σ112 2
σ12 2
σ13 u11 u12 u13 λ1 0 0
 1  2 2   u2 u2 u2  =  0 
u2 u22 u32  σ21 2
σ22 σ23  1 2 3  λ2 0 
u13 u23 u33 σ312 2
σ32 2
σ33 u31 u32 u33 0 0 λ3

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


240 o.caligaris - p.oliva

e quindi svolgendo i calcoli, per l’ortogonalità delle colonne di R (e


delle righe di Rt ), si ha

( AR)t AR =
 
< Cu1 , u1 > 0 0
t  
= R CR =  0 < Cu2 , u2 > 0 =
0 0 < Cu3 , u3 >
 
λ1 0 0
 
=0 λ2 0
0 0 λ3

Pertanto la forma quadratica associata alla matrice di covarianza ( AR)t AR


relativa ai dati contenuti in A ruotati mediante R è data da

ϕ( a, b, c) = λ1 a2 + λ2 b2 + λ3 c2

e si vede che , posto

Λ = max{λ1 , λ2 , λ3 } e λ = min{λ1 , λ2 , λ3 }

si ha

λ ≤ λ1 a2 + λ2 b2 + λ3 c2 ≤ Λ , ∀( a, b, c) ∈ R3 , a2 + b2 + c2 = 1

Ciò assicura che la forma quadratica associata alla matrice di cova-


rianza relativa ai dati ruotati risulta massima in corrispondenza della
direzione individuata dall’autovettore associato al massimo autovalo-
re.
L’uguaglianza

( AR)t AR = Rt A T AR = Rt CR = D

permette anche di concludere


 che, se consideriamo una generica riga
della matrice A a = x y z otteniamo
    
AR = x y z u1 u2 u3 = < a, u1 > < a, u2 > < a, u3 >

per cui
   
< a, u1 >2 0 0 λ1 0 0
t    
( AR) AR =  0 < a, u2 >2 0 =0 λ2 0
0 0 < a, u2 >2 0 0 λ3

Ne segue che, se λi è trascurabile

< a, ui >= 0

Ciò permette di determinare una relazione lineare tra le variabili


che sono riportate nelle colonne di A

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 241

15.3 L’applicazione all’analisi delle componenti principali.

Torniamo ora ai nostri dati Pk = (u1k , u2k , ...., unk ) ∈ Rn e cerchiamo di


individuare una combinazione lineare delle componenti

Qk = α1 u1k + α2 u2k + ..... + αn unk

in modo che la varianza di Qk sia massima ( massima significatività


della variabile).
Definiamo

vi = Var(uik )
j
cij = Cov(uik , uk )

la varianza delle singole componenti e la covarianza delle componenti


a due a due e sia R la matrice di covarianza dei dati definita mediante
la  
v1 c12 c13 · · · c1n
 
 c21 v2 c23 · · · c2n 
R=  ..


· · · · · · · · · . · · ·
cn1 cn2 cn3 ··· vn
Possiamo allora verificare che

Var( Qk ) = h Ra, ai

dove
a = (α1 , α2 , ....., αn )

Var( Qk ) è quindi una forma quadratica cui possiamo applicare il


metodo visto nella precedente sezione e mediante tale metodo possia-
mo individuare in ordine decrescente di significatività le componenti
dei dati.

15.3.1 Un esempio
Per illustrare gli effetti del metodo consideriamo i punti del grafico
di sin(t) nell’intervallo [0, 2π ]; suddividiamo l’intervallo in 199 parti
uguali, in modo da individuare 200 punti in [0, 2π ] e calcoliamo i valori
assunti da sin(t) in tali punti.
Le seguenti istruzioni di Matlab producono come risultato un vet-
tore t che contiene i 200 punti in [0, 2π ], ed i vettori x ed y che conten-
gono i valori assunti da sin(6t) nei punti pari e dispari rispettivamente
clear all;
step=2*pi/199;
t=0:step:2*pi;
xx=0:2*step: 2*pi;

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


242 o.caligaris - p.oliva

yy=step:2*step: 2*pi;
x=sin(6*xx);
y=sin(6*yy);
Possiamo esaminare nel piano la distribuzione dei punti di coordi-
nate ( x (k), y(k)) con k = 1, .., 100 mediante le seguenti istruzioni
figure(1)
plot(x,y,’+’);
axis([-2 2 -2 2]);
che producono la seguente figura 15.1
Le istruzioni
R=cov(x,y);
[V,D]=eig(R)
Figura 15.1: . calcolano la matrice di covarianza R e le matrici V e D , dove V è
la matrice le cui colonne sono gli autovettori di R e D è una matrice
diagonale con gli autovalori sulla diagonale principale; in altre parole
V è la matrice tale che

VR = RD cioè tale che V −1 RV = D

La matrice V pertanto è la matrice di passaggio dal sistema di coordi-


nate originale a quello individuato dagli autovalori di R.
Poichè ci interessa tener conto della componente relativa al massimo
autovalore, di assicuriamo anche che l’autovalore più grande sia in
posizione (1, 1) mediante le istruzioni
if D(1,1)>D(2,2)
vv=V(:,1);
V(:,1)=V(:,2);
V(:,2)=vv;
end
La matrice V, quindi, può essere usata per effettuare un cambio di
base che metta in evidenza le componenti principali.
Le seguenti istruzioni
tr=[x(:),y(:)]*V;
tr1=tr(:,1);
Figura 15.2: . tr2=tr(:,2);
figure(2)
plot(tr1,tr2,’r+’)
axis([-2 2 -2 2]);
Calcolano i trasformati tr1, tr2 dei punti ( x, y) e li mostrano rispetto
ad una coppia di assi ortogonali coincidenti con gli autovettori di R (si
veda la figura 15.2).
Le successive istruzioni:
rtr=[tr1(:),tr2(:)]*inv(V);
rtr1=rtr(:,1);
rtr2=rtr(:,2);

AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13


probabilità 243

figure(3)
plot(rtr1,rtr2,’g+’)
axis([-2 2 -2 2]);
mostrano come applicando la trasformazione inversa i dati possano
essere recuperati (si veda la figura 15.3).
Ora, possiamo osservare che la variazione della seconda componen-
te dei dati trasformati è trascurabile rispetto alla prima, per cui, se la
trascuriamo e applichiamo la trasformazione inversa ai dati privati di
tale componente, otteniamo nuovi punti che differiscono di poco da Figura 15.3: .

quelli originali; possiamo operare usando le seguenti istruzioni:


nu=zeros(size(tr2));
ntr=[nu(:),tr2(:)]*inv(V);
ntr1=ntr(:,1);
ntr2=ntr(:,2);
figure(4)
plot(ntr1,ntr2,’rx’,rtr1,rtr2,’g+’)
axis([-2 2 -2 2]);
che forniscono anche una immagine dei nuovi punti come indicato
in figura 15.3 ed un confronto con i punti originali 15.4.
È interessante ora osservare come dai punti originali e da quel-
li privati della componente meno significativa si possa ricostruire la
funzione sin(6t)
Le seguenti istruzioni Figura 15.4: .

z=zeros(1,200);
zt=zeros(1,200);
for k=0:99
zt(2*k+1)=x(k+1);
end
for k=1:100
zt(2*k)=y(k);
end
for k=0:99
z(2*k+1)=ntr2(k+1);
end
for k=1:100
z(2*k)=ntr1(k);
end
figure(5)
plot(t,z)
figure(6)
plot(t,zt)
producono i due grafici riportati in figura ??, il primo dei qua-
li riporta la funzione sin(t) ricostruita congiungendo con segmenti
di retta i 200 punti originali, mentre la seconda riporta il grafico di

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]


244 o.caligaris - p.oliva

sin(6t) ricostruito a partire dai punti ottenuti applicando la trasforma-


zione inversa ai punti prima trasformati e poi privati della seconda
componente.
Come si vede è evidente che la componente trascurata non ha peg-
giorato di molto il grafico, mentre la quantità di dati necessari a ri-
costruire l’immagine si è dimezzata. Questo indica come può essere
sviluppato un procedimento che consenta di immagazzinare dati (i
punti del grafico della funzione) utilizzando al meglio le informazioni
Figura 15.5: .
che contengono.

Figura 15.6: .

AnTot.TEX— [ Content/Prob/Prob-2.tex] 12 dicembre 2018—16:09:13


16. QUALCHE ARGOMENTO DI
PROBABILITÀ E STATISTICA.

16.1 Il Lancio di un Dado

Consideriamo un dado a forma di esaedro (cubo) con le facce nume-


rate da 1 a 6; identifichiamo con xk l’evento
è stato ottenuto il punteggio k
(la faccia superiore del dado mostra k) , k = 1..6.
Evidentemente possiamo costruire una tabella in cui ad ogni evento
si fa corrispondere la sua probabilità.

Evento Probabilità
x1 1/6
x2 1/6
x3 1/6
x4 1/6
x5 1/6
x6 1/6

In altre parole

1
P( xk ) = = pk
6
Calcoliamo il valor medio µ e la varianza σ2 della variabile aleatoria
che restituisce il valore del punto ottenuto.
Avremo

6  
1 1 7∗6 1 7
µ= ∑ 6k = 6 2
=
6
(1 + 2 + 3 + 4 + 5 + 6) = = 3.5
2
k =1

 2 !
6 6
1 7 1 7 6 6
49
σ2 = ∑ k− = ∑ k2 − 2 2 ∑ k + ∑ 4 =
k =1
6 2 6 k =1 k =1 k =1
91 49 49 364 − 294 35
= −2 + = =
6 4 4 24 12
246 o.caligaris - p.oliva

In generale possiamo osservare che

6
µ= ∑ xk pk
k =1
e

6 6
σ2 = ∑ ( x k − µ )2 p k = ∑ (xk2 − 2µxk + µ2 ) pk =
k =1 k =1
6 6 6 6
= ∑ xk2 pk − 2µ ∑ xk pk + µ2 ∑ pk = ∑ xk2 pk − 2µ2 + µ2 =
k =1 k =1 k =1 k =1
6
= ∑ xk2 pk − µ2
k =1

Per cui

6  2
1 7 6 ∗ 7 ∗ 13 49 91 49 35
σ2 = ∑ k2 6 − 2
=
6

4
=
6

4
=
12
k =1

16.2 Lancio di due Dadi

Supponiamo di lanciare due dadi le cui facce sono numerate come d’u-
so da 1 a 6 e cominciamo con l’individuare lo spazio di tutti i possibili
eventi.
Possiamo allo scopo usare la seguente tabella.

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Gli eventi possibili sono 36 ciascuno dei quali ha la stessa probabi-


lità di uscita, per cui, se indichiamo con

Di,j = (i, j)

AnTot.TEX— [ Content/Prob/Prob-2.tex] 12 dicembre 2018—16:09:13


probabilità 247

l’evento che si verifica quando sul primo dado esce i e sul secondo
dado j, avremo

1
P( Di,j ) =
36

L’insieme Ω di tutti gli eventi possibili definisce lo spazio di proba-


bilità in cui operiamo.
Gli elementi di Ω sono gli eventi elementari Di,j e tutti gli eventi che
si ottengono come unione di eventi elementari; ad esempio

E1 = { D2,5 , D6,6 }

(l’evento che accade se sul primo dado esce 2 e sul secondo dado esce
5 oppure se sul primo dado esce 6 e sul secondo esce ancora 6)

E2 = { D1,2 , D2,1 , D3,6 }

E3 = { D1,1 , D2,2 , D3,4 }

Possiamo anche definire sullo spazio Ω la variabile aleatoria ξ che


ad ogni elemento di Di,j ∈ Ω assegna la somma dei punti ottenuti.

ξ ( Di,j ) = i + j

Come è evidente dalla figura seguente ξ assume i seguenti valori:

2 1 volta
3 2 volta Figura 16.1:
4 3 volta
5 4 volta
6 5 volta
7 6 volta
8 5 volta
9 4 volta
10 3 volta
11 2 volta
12 1 volta

e quindi possiamo costruire la funzione densità di probabilità di ξ

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-2.tex]


248 o.caligaris - p.oliva

1
P(ξ = 2) = P(ξ = 12) =
36
2
P ( ξ = 3) = P ( ξ = 11) =
36
3
P ( ξ = 4) = P ( ξ = 10) =
36
4
P ( ξ = 5) = P ( ξ = 9) =
36
5
P ( ξ = 6) = P ( ξ = 8) =
36
6
P ( ξ = 7) =
36

e riportate i risultati su un istogramma.


Ad esempio possiamo calcolare

Figura 16.2:
6 1
P ( ξ = 7) = =
36 6

1 5
P ( ξ 6 = 7) = 1 − P ( ξ = 7) = 1 − =
6 6

P (4 ≤ ξ ≤ 8) = P ( ξ = 4) + P ( ξ = 5) + P ( ξ = 6) + P ( ξ = 7) + P ( ξ = 8) =
3+4+5+6+5 23
=
36 36

La media µ della variabile aleatoria ξ si può calcolare sommando


la media del punteggio del primo dado con quella del punteggio del
Figura 16.3: secondo dado:

7 7
µ = media del primo dado + media del secondo dado = + =7
2 2

oppure direttamente

2 + 12 + 2(3 + 11) + 3(4 + 10) + 4(5 + 9) + 5(6 + 8) + 6 ∗ 7


µ= =
36
1+2+3+4+5+3 18
= 14 = 14 = 7
36 36

La moda è 7 e la mediana è ancora 7.


La varianza è

AnTot.TEX— [ Content/Prob/Prob-2.tex] 12 dicembre 2018—16:09:13


probabilità 249

σ2 =
1 1 1 1 1 1
= (2 − 7)2 + (3 − 7)2 + (4 − 7)2 + (5 − 7)2 + (6 − 7)2 + (7 − 7)2 +
36 36 36 36 36 36
1 1 1 1 1
+ (8 − 7)2 + (9 − 7)2 + (10 − 7)2 + (11 − 7)2 + (12 − 7)2 =
36 36 36 36 36
1 210 35
= (25 + 2 ∗ 16 + 3 ∗ 9 + 4 ∗ 4 + 5 + 5 + 4 ∗ 4 + 3 ∗ 9 + 2 ∗ 16 + 25) = =
36 36 6

Alternativamente

12
σ2 = ∑ ξ i2 pi − µ2 =
i =2
1
= (4 + 2 ∗ 9 + 3 ∗ 16 + 4 ∗ 25 + 5 ∗ 36 + 6 ∗ 49 + 5 ∗ 64 + 4 ∗ 81 + 3 + 100 + 2 ∗ 121 + 144) − 49 =
36