Lezioni Di Analisi Matematematica 2

O . C A L I G A R I S - P.
O L I V A
A N A L I S I M AT E M AT I C A 2
1. Funzioni Di Due Variabili
I modelli matematici spesso devono tenere conto di molti parametri e

per questa ragione non è sufficiente considerare funzioni di una sola
variabile reale; spesso anzi il numero di parametri in gioco è molto alto
e quindi bisogna ricorrere all’uso di funzioni di molte variabili reali.
Dal punto di vista concettuale non c’è grande differenza tra lo stu-
dio di una funzione di 2, 3 o 100 variabili reali, ma la differenza tra
lo studio di una funzione di 1 variabile reale ed una funzione di 2
variabili reali è grande e va considerata attentamente.
Sviluppiamo pertanto lo studio di una funzione di 2 variabili reali
per introdurre gli strumenti necessari al trattamento delle funzioni di
più variabili reali a valori reali.
Definizione 1.1 Diciamo che è data una funzione di due variabili reali se
sono assegnati un sottoinsieme D ⊂ R2 ed una corrispondenza f che ad ogni
elemento P = ( x, y) ∈ D associa uno ed un solo elemento z ∈ R. Figura 1.1: .
Diciamo che D è il dominio della funzione e denotiamo con
z = f ( x, y) = f ( P)
il corrispondente di P = ( x, y) secondo la legge assegnata f ; scriviamo anche
P = ( x, y) 7→ z = f ( x, y) = f ( P)
Chiamiamo rango di f l’insieme

Figura 1.2: .
R( f ) = {z ∈ R : ∃( x, y) ∈ D, z = f ( x, y)}
Chiamiamo grafico di f l’insieme
G ( f ) = {( x, y, z) ∈ R3 : ( x, y) ∈ D, z = f ( x, y)}
Osservazione. Il grafico di una funzione di 2 variabili è pertanto un

sottoinsieme di R3 che descrive qualcosa che è immediato identificare
Figura 1.3: .
come una superficie nello spazio. 2
Restrizione e composizione di funzioni sono definite come nel ca-
so reale e parimenti simile è la definizione di iniettività, surgettività,
bigettività.
4 o.caligaris - p.oliva
Per avere un’idea del comportamento della funzione sarebbe como-

do poter disporre del suo grafico, che nel caso di funzioni di 2 variabili
si rappresenta in uno spazio a 3 dimensioni R3 ; dobbiamo però tenere
presente che:
1. Non è possibile rappresentare il grafico di funzioni che dipendano

da 3 o più variabili
2. La rappresentazione in R3 di una funzione di due variabili passa

attraverso tecniche di prospettiva.
3. La proprietà che risulta di maggiore interesse per tracciare il grafico

qualitativo di una funzione di 1 variabile è la crescenza o la decre-
scenza, che per le funzioni di 2 o più variabili non può più essere
considerata dal momento che il dominio R2 (o Rn ) non ammette un
ordine completo.
Figura 1.4: .
Non sarà pertanto semplice disegnare il grafico qualitativo di una

funzione di 2 variabili e per farci un’idea del suo andamento dovremo
ricorrere a rappresentazioni nel piano.
Un modo efficace di rappresentare una superficie è disegnare nel
piano ( x, y) le curve di livello della funzione.
Definizione 1.2 Se f : R2 → R chiamiamo curve od insiemi di livello di f

di altezza c gli insiemi
Lc = {( x, y) ∈ R2 : f ( x, y) = c}
Le curve di livello di f consentono, in pratica, di rappresentare una

mappa della superficie in esame. Esse definiscono i punti in cui la
AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13

analisi matematica 2 5
superficie assume quota costante uguale a c e, se le quote c sono scel-

te ad intervalli regolari, permettono di individuare le zone in cui la
superficie è più ripida (le curve di livello sono più ravvicinate).
Le superfici prese in considerazione nella figura ?? hanno le curve
di livello mostrate nella figura ??
Per farci un’idea del grafico possiamo anche considerare l’andamen-
to delle funzioni di x che si ottengono considerando fissati i valori di
y; chiamiamo questi grafici sezioni lungo l’asse x, si veda figura ??, e
delle funzioni di y che si ottengono considerando fissati i valori di x;
chiamiamo questi grafici sezioni lungo l’asse y, si veda figura ??.
Come per le funzioni di una variabile è importante studiare la conti-

nuità e la derivabilità di una funzione di 2 o più variabili. Ovviamente
per poter considerare la continuità è necessario conoscere la definizio-
ne di limite e ancora prima la definizione di intorno e la struttura dello
spazio R2 in cui stiamo lavorando.
1.1 La struttura di R2 .
Indichiamo con R2 lo spazio vettoriale costituito dalla coppie ordinate

di numeri reali; in altre parole
P ∈ R2 ⇔ P = ( x, y) x, y ∈ R
In R2 si definiscono le operazioni di somma e di prodotto per uno

scalare mediante le
P1 + P2 = ( x1 + x2 , y1 + y2 )
12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]

e, se α ∈ R,
αP = (αx, αy)
L’insieme dei vettori
e1 = (1, 0) , e2 = (0, 1)
costituisce una base di R2 ; si avrà pertanto che, se P ∈ R2 ,
P = xe1 + ye2 = x (1, 0) + y(0, 1) = ( x, y)
Definizione 1.3 Si definisce norma in R2 una funzione che si indica con
k · k : R2 → R
che verifica le seguenti proprietà:
• k Pk ≥ 0 ∀ P ∈ R2
• k Pk = 0 ⇔ P = 0
• kαPk = |α|k Pk ∀ α ∈ R , ∀ P ∈ R2
• k P + Qk ≤ k Pk + k Qk ∀ P, Q ∈ R2
Si definisce prodotto scalare in R2 una funzione
h·, ·i : R2 × R2 −→ R
tale che
• h P, Pi ≥ 0 ∀ P ∈ R2
• h P, Qi = h Q, Pi ∀ P, Q ∈ R2
• h P, Pi = 0 ⇔ P=0
• hαP + βQ, Ri = αh P, Ri + βh Q, Ri ∀ P, Q, R ∈ R2 , ∀α, β ∈ R.
Un esempio notevole di norma in R2 è

q
k P k = x 2 + y2
La norma di P indica la distanza di P dall’origine O = (0, 0); se P =

( x, y), P0 = ( x0 , y0 ) ∈ R2
k P − P0 k
indica la distanza tra i punti P e P0 .
Un esempio notevole di prodotto scalare in R2 è definito da
h P1 , P2 i = x1 x2 + y1 y2
Se ρ > 0 chiamiamo intorno del punto P0 = ( x0 , y0 ), l’insieme
S( P0 , ρ) = { P ∈ R2 : k P − P0 k < ρ}

S( P0 , ρ) è la sfera di centro P0 e raggio ρ.

Definiamo inoltre intorno di ∞ il complementare di ogni sfera centrata
nell’origine.
S(∞, ρ) = { P ∈ R2 : k Pk > ρ}
Diciamo che due vettori P, Q ∈ R2 sono ortogonali se h P, Qi = 0 .
Diciamo che sono paralleli se esiste λ ∈ R tale che P = λQ .
Altri esempi di norme in R2 sono i seguenti
k Pkk = (| x |k + |y|k )1/k k≥1
k Pk∞ = max{| x |, |y|}

Norme euclidea e prodotto scalare sono legati dalla seguente
Disuguaglianza di Schwarz
Per P, Q ∈ R2 si ha
|h P, Qi| ≤ k Pkk Qk
La disuguaglianza di Schwarz può essere dedotta osservando che,

per ogni t ∈ R
0 ≤ k P + tQk2 = h P + tQ, P + tQi = t2 k Qk2 + 2th P, Qi + k Pk2
Ciò implica infatti che
h P, Qi2 − k Pk2 k Qk2 ≤ 0
Dalla dalla disuguaglianza di Schwarz possiamo anche ricavare la

disuguaglianza triangolare; infatti
k P + Qk2 = k Pk2 + k Qk2 + 2h P, Qi ≤ k Pk2 + k Qk2 + 2k Pkk Qk.
Osserviamo infine che
|h P, Qi| = k Pkk Qk
se e solo se esiste t ∈ R tale che P + tQ = 0, ovvero P e Q sono

paralleli.
Da quanto detto si può dedurre che
k Pk = sup{h P, Qi : k Qk ≤ 1} = max{|h P, Qi| : k Qk ≤ 1}
1.2 Limiti e continuità per le funzioni di 2 variabili.
Definizione 1.4 Sia f : A → R, A ⊂ R2 e sia P0 un punto tale che ogni

intorno di P0 abbia intersezione non vuota con A (chiamiamoP0 punto di
accumulazione per A); diciamo che
lim f ( P) = `
P→ P0

se ∀ε > 0 esiste δ(ε) > 0 tale che per P ∈ S( P0 , δ(ε)) ∩ A , P 6= P0 si ha
f ( x ) ∈ I (`, ε)
È possibile verificare che
1. ogni funzione che ammette limite finito è localmente limitata;
2. il limite di una funzione, se esiste, è unico;
3. vale il teorema della permanenza del segno;
4. il limite di una somma è uguale alla somma dei limiti, se questi

esistono finiti;
5. il limite del prodotto di due funzioni è uguale al prodotto dei limiti,

se questi esistono finiti;
6. il limite del reciproco di una funzione è uguale al reciproco del

limite della funzione stessa, se non è nullo
7. valgono i risultati sul confronto dei limiti, in analogia a quanto già

visto per le funzioni di una variabile
8. il limite di una funzione può essere caratterizzato per successioni
9. il limite di una funzione composta si calcola seguendo quanto fatto

per le funzioni di una variabile
Definizione 1.5 Diciamo che f è una funzione continua in P0 se

∀ε > 0 esiste δ(ε) > 0 tale che se x ∈ A, k P − P0 k < δ(ε) si ha
k f ( P) − f ( P0 )k < ε
Nel caso in cui P0 ∈ A, sia un punto di accumulazione per A la condizione

sopra espressa è equivalente alla
lim f ( P) = f ( P0 )
P→ P0
Ovviamente f si dice continua in A se è continua in ogni punto di A
Come nel caso delle funzioni reali di una variabile reale si prova
che:
1. la somma di funzioni continue è continua;
2. il prodotto di una funzione a valori vettoriali per una funzione a

valori scalari, entrambe continue, è continuo;
3. il reciproco di una funzione continua è continuo dove ha senso

definirlo;

4. il prodotto scalare di due funzioni a valori vettoriali continue, è

continuo;
5. vale la caratterizzazione della continuità per successioni
6. la composta di funzioni continue è una funzione continua.
La conoscenza della continuità delle funzioni elementari e le regole

precedentemente enunciate permettono di stabilire in modo semplice
la continuità in un gran numero di casi: ad esempio, poichè ( x, y) 7→
x2 e ( x, y) 7→ y2 sono continue possiamo anche affermare che
( x, y) 7→ x2 + y2
è continua, se poi ricordiamo che l’esponenziale è continua avremo

anche che
2 2
( x, y) 7→ e x +y
è continua.
Come per le funzioni continue di una variabile si possono provare
importanti teoremi, tra i quali ricordiamo i seguenti risultati.
Teorema 1.1 - di Weierstraß - Se f è una funzione continua su un insieme

A che sia chiuso (contiene i limiti di ogni successione convergente di suoi
punti) e limitato (è contenuto in una sfera ) allora f ammette massimo e
minimo assoluto su A
Teorema 1.2 - degli zeri - Se f è una funzione continua su un insieme A

connesso (cioè, in parole semplici, fatto di un solo pezzo) e se esistono due
punti P+ , P− ∈ A tali che
f ( P+ ) > 0 , f ( P− ) < 0
allora esiste un punto P0 ∈ A tale che
f ( P0 ) = 0
Un semplice ragionamento assicura, utilizzando il teorema degli

zeri, che se una curva di livello di f
Lc = {( x, y) ∈ U : f ( x, y) = c} = {( x, y) ∈ R2 : x ∈ I, y = ϕ( x )}
divide il piano in due parti connesse allora f ( x, y) > 0 in una delle

due parti e f ( x, y) < 0 nell’altra.
Se infatti in una parte connessa ci fossero due punti P+ , P− tali che
f ( P+ ) > 0 , f ( P− ) < 0
esisterebbe in quella parte P0 tale che Figura 1.5: Curve di livello e segno di f
f ( P0 ) = 0
ma in quella parte si può solo avere f ( P) > 0 oppure f ( P) < 0.

1.3 Derivabilità e differenziabilità per funzioni di 2 variabili.
Come per le funzioni di 1 variabile è necessario considerare il proble-

ma della approssimazione mediante funzioni lineari, cioè il problema
della differenziazione.
È molto naturale porre la seguente definizione
Definizione 1.6 Diciamo che f è derivabile parzialmente se le funzioni
φ( x ) = f ( x, y) ψ(y) = f ( x, y)
sono derivabili.
Chiamiamo φ0 ( x ) = f x ( x, y) derivata parziale rispetto ad x e ψ0 (y) =
f y ( x, y) derivata parziale rispetto ad y; definiamo inoltre gradiente di f e
scriviamo ∇ f ( x, y) il vettore (punto di R2 ) definito da
∇ f ( x, y) = ( f x ( x, y), f y ( x, y))
Di fatto in tal modo si opera derivando rispetto ad x (o ad y) con y

(o x) fissati.
Va osservato che, pur essendo molto naturale, l’uso delle deriva-
te parziali non consente, da solo, di ricavare informazioni utili sulla
funzione in esame.
Si pensi ad esempio che la funzione

1 se xy = 0
f ( x, y) =
0 se xy 6= 0
il cui grafico, si veda la figura ?? è costituito dal piano z = 0 privato

degli assi x ed y e dalle due rette parallele agli assi x ed y poste a quota
z = 1, non è continua in (0, 0) pur avendo derivate parziali nulle in
(0, 0).
Occorre quindi definire cosa si intende per differenziabile e per
questo serve parlare di applicazioni lineari.
Figura 1.6: Il grafico di una funzione
derivabile parzialmente, non continua. Definizione 1.7 Si chiama applicazione lineare in R2 una funzione f :
R2 → R tale che
f (αP + βQ) = α f ( P) + β f ( Q) ∀ P, Q ∈ R2 , ∀α, β ∈ R
L’insieme delle applicazioni lineari su R2 si chiama anche spazio

duale di R2 .
Ogni applicazione lineare in R2 si può identificare con un punto P∗
di R2 mediante la seguente uguaglianza
f ( P) = h P, P∗ i
In altre parole le applicazioni lineari su R2 sono tutte e sole le
funzioni che si possono scrivere nella forma

f ( P) = h P, P∗ i con P ∗ ∈ R2
È anche utile ricordare che per funzioni lineari possiamo provare

che
Se f è una applicazione lineare su R2 allora
| f ( P)| = |h P, P∗ i| ≤ k Pkk P∗ k
Diciamo che f ∈ C 1 ( A) se f ammette derivate parziali continue in

A.
Definizione 1.8 Diciamo infine che f è differenziabile in P0 se esiste (α, β) ∈

R2 tale che

f ( P) − f ( P0 ) + α( x − x0 ) + β(y − y0 )
lim =0
P→ P0 k P − P0 k
Pertanto una funzione è differenziabile se
f ( P) = f ( P0 ) + α( x − x0 ) + β(y − y0 )) + k P − P0 kω ( P − P0 )
dove ω è una funzione infinitesima per P → P0
f ( P) − ( f ( P0 ) + α( x − x0 ) + β(y − y0 ))
ω ( P − P0 ) =
k P − P0 k
Questa proprietà si esprime dicendo che f ( P) si può approssimare
con una funzione lineare affine
t( P) = f ( P0 ) + α( x − x0 ) + β(y − y0 ))
a meno di un infinitesimo
k P − P0 kω ( P − P0 )
di ordine superiore al primo rispetto alla distanza k P − P0 k.

La funzione t( p) si definisce piano tangente al grafico di f nel
punto P0
Se f è differenziabile in P0 allora f è anche derivabile parzialmente
e si può verificare che risulta
α = f x ( P0 ) β = f y ( P0 )
pertanto Figura 1.7: Derivata Direzionale
Il piano tangente al grafico di una funzione f in P0 è dato da
t( P) = f ( P0 ) + f x ( P0 )( x − x0 ) + f y ( P0 )(y − y0 ))

Definizione 1.9 Se Q ∈ R2 , diciamo che f è derivabile in P0 rispetto al

vettore Q o che f ammette derivata in P0 lungo la direzione Q se
f ( P0 + tQ) − f ( P0 )
lim
t →0+ t
esiste finito. In tal caso denotiamo il valore di tale limite con f 0 ( P0 , Q) e lo
chiamiamo derivata direzionaledi f in P0 lungo la direzione Q.
Si può vedere che f è derivabile rispetto alla prima variabile se e

solo se f 0 ( P0 , e1 ) ed f 0 ( P0 , −e1 ) esistono finiti e
f 0 ( P0 , e1 ) = − f 0 ( P0 , −e1 )
Analogamente f è derivabile rispetto alla seconda variabile se e solo

se f 0 ( P0 , e2 ) ed f 0 ( P0 , −e2 ) esistono finiti e
f 0 ( P0 , e2 ) = − f 0 ( P0 , −e2 )
Si dimostra che
Teorema 1.3 Se f è differenziabile in P0 ; allora f è derivabile in P0 lungo

ogni direzione Q e si ha
f 0 ( P0 , Q) = h∇ f ( P0 ), Qi
È utile estendere alle funzioni di più variabili la regola di deriva-

zione delle funzioni composte; ci limitiamo qui a considerare solo due
casi particolari.
Siano
f : R2 → R , g : R → R2
R 3 t 7→ g(t) = ( x (t), y(t)) 7→ f ( g(t)) = f ( x (t), y(t)) ∈ R2
Se f e g sono differenziabili (non solo derivabili!) allora
d
f ( g(t)) = f x ( x (t), y(t)) ẋ (t) + f y ( x (t), y(t))ẏ(t)
dt
Se viceversa consideriamo
f :R→R , g : R2 → R
R2 3 ( x, y) 7→ g( x, y) 7→ f ( g( x, y)) ∈ R
e se f e g sono anche qui differenziabili avremo che

∂f
= f 0 ( g( x, y)) gx ( x, y)
∂x
∂f
= f 0 ( g( x, y)) gy ( x, y)
∂y

Abbiamo già visto che

se f è differenziabile in P0 ∈ R2 e se Q è una direzione in R2 , allora
f 0 ( P0 , Q) = h∇ f ( P0 ), Qi = k∇ f ( P0 )kk Qk cos α
dove α è l’angolo formato dai vettori ∇ f ( P0 ) e Q nel piano da essi

individuato.
Ne possiamo dedurre che
la derivata direzionale è
• massima quando cos α = 1 e cioè quando α = 0 e Q = ∇ f ( P0 ),
• nulla quando cos α = 0 e cioè quando α = π

2 e Q ⊥ ∇ f ( P0 ),
• minima quando cos α = −1 e cioè quando α = π e Q = −∇ f ( P0 ).
Consideriamo ora una curva di livello di f
Lc = {( x, y) ∈ R2 : f ( x, y) = c}
e supponiamo che sia rappresentabile, almeno localmente, median-

te il grafico di una funzione y = ϕ( x ) In termini un po’ più precisi
supponiamo che
Lc = {( x, y) ∈ U : f ( x, y) = c} = {( x, y) ∈ R2 : x ∈ I, y = ϕ( x )}
o più semplicemente
f ( x, y) = c ⇐⇒ f ( x, ϕ( x )) = c ⇐⇒ y = ϕ( x )
Da f ( x, ϕ( x )) = c, derivando e tenendo presenti le regole di deriva-

zione delle funzioni composte, otteniamo che:
f x ( x, ϕ( x )) + f y ( x, ϕ( x )) ϕ0 ( x ) = 0
da cui
h∇ f ( x, ϕ( x )), (1, ϕ0 ( x ))i = 0
e possiamo ricavare che
∇ f ( x, ϕ( x )) ⊥ (1, ϕ0 ( x ))
D’altro canto la retta tangente τ al grafico di ϕ nel punto P0 =

( x0 , y0 ) è data da
y − y0 = ϕ0 ( x0 )( x − x0 )
Figura 1.8: Curve di Livello e Gradiente.
e si può scrivere nella forma
h( x − x0 , y − y0 ), ( ϕ0 ( x0 ), −1)i = 0

dalla quale risulta evidente che
( ϕ 0 ( x0 ) , −1) ⊥ P ∀P ∈ τ
Se ora teniamo conto che, evidentemente,
h( ϕ0 ( x0 ), −1), (1, ϕ0 ( x0 ))i = 0
e quindi
( ϕ0 ( x0 ), −1) ⊥ (1, ϕ0 ( x0 ))
possiamo ricavare che
∇ f ( x, ϕ( x )) ⊥ P ∀P ∈ τ (1.1)
Poichè τ è la retta tangente in P0 al grafico della funzione ϕ che

rappresenta vicino al punto P0 (localmente in P0 ) la curva di livello Lc ,
esprimeremo la 1.1 dicendo che
il gradiente di f , cioè il vettore ∇ f ( x, y), è ortogonale alle curve di
livello di f (Lc = {( x, y) ∈ R2 : f ( x, y) = c})
1.4 Derivate del secondo ordine: forma quadratica Hessiana.
Possiamo anche considerare le derivate seconde rispetto ad x due vol-

te, ad y due volte, ad x e ad y , ad y e ad x; chiamiamo queste
derivate
f xx ( P0 ) f y,y ( P0 ) f x,y ( P0 ) f y,x ( P0 )
Si può dimostrare che, nel caso in cui f x,y ( P0 ), o f y,x ( P0 ) sia continua
allora (teorema di Scharwz)
f x,y ( P0 ) = f y,x ( P0 )
Ciò si esprime dicendo che le derivate seconde miste sono uguali.

Chiamiamo matrice Hessiana la matrice i cui elementi sono le deri-
vate seconde di f . Cioè
!
f xx ( P0 ) f xy ( P0 )
H f ( P0 ) =
f yx ( P0 ) f yy ( P0 )
Nel caso in cui le derivate miste siano uguali, la matrice Hessiana è

simmetrica.
Ad ogni matrice simmetrica, e quindi anche alla matrice Hessiana,
possiamo associare un polinomio di secondo grado in 2 variabili (e.g.
h, k) omogeneo che chiamiamo forma quadratica associata.
!
h
La forma quadratica Hessiana è, posto R =
k

! !
f xx ( P0 ) f xy ( P0 ) h
Q( R) = Q(h, k) = h k =
f yx ( P0 ) f yy ( P0 ) k
R T H f ( P0 ) R = f xx ( P0 )h2 + 2 f xy ( P0 )hk + f yy ( P0 )k2
Diciamo che la forma quadratica Q è semidefinita positiva se
Q(h, k) = f xx ( P0 )h2 + 2 f xy ( P0 )hk + f yy ( P0 )k2 ≥ 0
per ogni (h, k) ∈ R2 .

Diciamo che Q è definita positiva se
Q(h, k) = f xx ( P0 )h2 + 2 f xy ( P0 )hk + f yy ( P0 )k2 > 0
per ogni (h, k) ∈ R2 \ {(0, 0}.

Ovviamente per identificare una forma quadratica semidefinita o
definita negativa è sufficiente cambiare il segno delle disuguaglianze.
Semplici considerazioni sul segno di un trinomio di secondo gra-
do permettono di ottenere condizioni per studiare il carattere di una
forma quadratica.
La forma quadratica Q è definita positiva se
!
f xx ( P0 ) f xy ( P0 )
det >0
f yx ( P0 ) f yy ( P0 )
e f xx ( P0 ) > 0, oppure f yy ( P0 ) > 0
Osservazione. Se
!
f xx ( P0 ) f xy ( P0 )
det = f xx ( P0 ) f yy ( P0 ) − ( f xy ( P0 ))2 > 0
f yx ( P0 ) f yy ( P0 )
allora
f xx ( P0 ) f yy ( P0 ) ≥ ( f xy ( P0 ))2 > 0
e quindi f xx ( P0 ) ed f yy ( P0 ) hanno lo stesso segno 2
La forma quadratica Q è semidefinita positiva se
!
f xx ( P0 ) f xy ( P0 )
det ≥0
f yx ( P0 ) f yy ( P0 )
e f xx ( P0 ) ≥ 0, o equivalentemente f yy ( P0 ) ≥ 0
Si può inoltre dimostrare che
Se λ1 , λ2 sono gli autovalori della matrice
!
f xx ( P0 ) f xy ( P0 )
det ≥0
f yx ( P0 ) f yy ( P0 )
allora, per la simmetria della matrice, essi sono reali ed inoltre

• se λ1 , λ2 sono entrambi positivi (negativi) la forma quadratica Q è

definita positiva (negativa)
• se λ1 , λ2 sono entrambi positivi (negativi) o nulli la forma quadra-

tica Q è semidefinita positiva (negativa)
• se λ1 , λ2 hanno segni discordi la forma quadratica Q è non definita
Osservazione. Se
!
f xx ( P0 ) f xy ( P0 )
det <0
f yx ( P0 ) f yy ( P0 )
la forma quadratica può assumere sia valori positivi che negativi e

quindi non è definita. 2
1.5 Massimi e minimi per le funzioni di 2 variabili.
Definizione 1.10 Diciamo che P0 è un punto di minimo (massimo) relativo

per f se esiste una sfera S( P0 , ρ), ρ > 0, tale che
f ( P) ≥ f ( P0 ) ( f ( P) ≤ f ( P0 ))
per ogni P ∈ S( P0 , ρ)
Utilizzando tecniche che sfruttano i risultati noti per le funzioni di

una variabile possiamo provare le seguenti condizioni necessarie per
l’esistenza di un punto di minimo o massimo relativo.
Teorema 1.4 Se P0 è un punto di minimo (massimo) relativo per f interno

al suo dominio ed f è differenziabile in P0 . Allora
• ∇ f ( x ) = 0;
se inoltre f ammette derivate seconde continue in P0 ,
• H f ( x ) è semidefinita positiva (negativa).
Osservazione. Se ∇ f ( x ) = 0 e se Hf(x) non è definito, allora P0 non

è né punto di massimo relativo, né punto di minimo relativo per f ; un
punto siffatto viene solitamente indicato con il nome di ’punto sella’.
2
Teorema 1.5 Se f ∈ C 2 ( A); e se P0 è interno al suo dominio e se
• ∇ f ( P0 ) = 0
• H f ( P0 ) è definita positiva (negativa)
allora P0 è punto di minimo (massimo) relativo per f .

Anche per le funzioni di due variabili si può definire e studiare la

convessità:
Sia f : A → R, e sia A ⊂ R2 convesso, cioè supponiamo che A
contenga ogni segmento di retta i cui estremi siano contenuti in A;
diciamo che f è convessa se
f (λx + (1 − λ)y) ≤ λ f ( x ) + (1 − λ) f (y) ∀ x, y ∈ A, ∀λ ∈ (0, 1)
Inoltre f si dice strettamente convessa se vale la disuguaglianza

stretta.
Osservazione. si può dimostrare che se f è convessa allora i suoi
insiemi di livello Lc sono a loro volta convessi un insieme convesso 2
Inoltre possiamo anche dimostrare che
Teorema 1.6 Sia f : A → R convessa, A aperto; allora
• f è continua in A
• f 0 ( P, Q) esiste ∀ P ∈ A, ∀ Q ∈ R2 .
Come per le funzioni di una variabile la convessità si può caratte-

rizzare utilizzando le derivate come si vede dall’enunciato del teorema
seguente.
Teorema 1.7 Sia f : A → R, A ⊂ R2 convesso, aperto; supponiamo inoltre

f ∈ C 2 ( A), allora sono condizioni equivalenti:
• f è convessa
•
f (y) ≥ f ( P0 ) + h∇ f ( P0 ), P − P0 i ∀ P, P0 ∈ A
• H f ( P) è semidefinita positiva.
Inoltre
Ciascuna delle seguenti condizioni è sufficiente per la successiva:
• H f ( P) è definita positiva ∀ P ∈ A;
• f ( P) > f ( P0 ) + h∇ f ( P0 ), P − P0 i ∀ P, P0 ∈ A, P 6= P0 ;
• f è strettamente convessa.
Si può inoltre vedere che se f è strettamente convessa e se f ( P) →

+∞ per P → ∞; allora esiste uno ed un solo punto P0 ∈ Rn tale che
f ( P0 ) = min{ f ( P) : P ∈ R2 }

1.6 Massimi e minimi vincolati.
Le condizioni fin qui trovate per caratterizzare i punti di massimo e

di minimo relativo sono utilizzabili soltanto nel caso in cui si cerchino
massimi e minimi di f all’interno di un determinato insieme; nel caso
in cui si vogliano cercare massimi e minimi su insiemi che contengano
anche punti non interni, questi ultimi andranno considerati a parte
esattamente come a parte debbono essere considerati gli estremi di un
intervallo se si considerano funzioni di una variabile.
Questo scopo si può raggiungere considerando le restrizioni di f
ai punti non interni; tali restrizioni sono funzioni che dipendono da
una sola variabile e si può cercare di trattarle con i risultati noti per tal
caso.
Ovviamente lo scopo è individuare eventuali massimi o minimi per
mezzo di condizioni necessarie e, se si è certi della loro esistenza, tra
essi scegliere massimi e minimi assoluti.
A questo scopo è utile considerare il problema di trovare massimi
e minimi di una funzione f ( x, y) sull’ insieme dei punti del piano che
soddisfano l’equazione g( x, y) = 0
In questo modo, infatti, è possibile identificare in molti casi l’insie-
me dei punti di frontiera (e quindi non interni) di un insieme.
Più precisamente ci riferiremo a questo problema come al problema
di
Cercare massimi e minimi relativi di f vincolati a g = 0
1.6.1 funzioni definite implicitamente.

Per studiare il problema è necessario conoscere qualche cosa in più
sull’insieme
G = {( x, y) ∈ R2 : g( x, y) = 0}
Più precisamente è necessario rendersi conto che G può essere rap-
presentato localmente mediante il grafico di una funzione ϕ.
Per chiarire il concetto consideriamo un semplice esempio.
Sia
g( x, y) = x2 + y2 − 1
ovviamente g ∈ C 1 ed inoltre
∇( x, y) = (2x, 2y) 6= (0, 0)

per ognuno dei punti tali che
g( x, y) = 0
È ben noto che l’equazione
g( x, y) = x2 + y2 − 1 = 0

identifica una circonferenza di raggio unitario centrata in (0, 0).

Per illustrare la possibilità di rappresentare la circonferenza local-
mente in un punto P0 mediante una funzione ϕ possiamo considerare
i seguenti casi
• se P0 = (0, 1) possiamo rappresentare la circonferenza mediante la

funzione p
y = 1 − x2
• se P0 = (0, −1) possiamo rappresentare la circonferenza mediante

la funzione p
y = − 1 − x2
• se P0 = (1, 0) possiamo rappresentare la circonferenza mediante la

funzione q
x = 1 − y2
• se P0 = ( √1 , √1 ) possiamo rappresentare la circonferenza sia me-

2 2
diante la funzione p
y = 1 − x2
sia mediante la funzione

q
x= 1 − y2
• se P0 = (− √1 , √1 ) possiamo rappresentare la circonferenza sia

2 2
mediante la funzione p
y = 1 − x2
sia mediante la funzione

q
x=− 1 − y2
In generale non è, tuttavia, possibile trovare esplicitamente la fun-

zione ϕ, come abbiamo fatto nell’esempio appena visto, tuttavia è per
taluni scopi sufficiente sapere che questa funzione esiste.
A questo proposito si può dimostrare che
Teorema 1.8 - delle funzioni implicite di U. Dini - Se g è sufficientemente

regolare (g ∈ C 1 , ∇ g( x, y) 6= (0, 0)) l’insieme
{( x, y) ∈ R2 , : g( x, y) = 0}
può essere rappresentato localmente, (cioè in un intorno di ogni suo punto),

come grafico di una funzione
y = ϕ( x )

1.6.2 il principio dei moltiplicatori di Lagrange.

Si può trovare una condizione necessaria affinchè un punto P0 sia di
minimo o di massimo per f vincolato a g = 0; possiamo enunciare tale
condizione come segue
Teorema 1.9 - dei moltiplicatori di Lagrange- Se f , g ∈ C 1 , ∇ f ( P0 ) 6=
(0, 0) e P0 = ( x0 , y0 ) è un punto di minimo o di massimo per f vincolato a
g( x, y) = 0, allora
∇ f ( P0 ) k ∇ g( P0 )
o equivalentemente esiste λ ∈ R tale che
∇ f ( P0 ) = λ∇ g( P0 )
Se infatti ∇ f ( P0 ) e ∇ g( P0 ) non fossero paralleli, tenendo conto
del fatto che ∇ f ( P0 ) è ortogonale alla curva definita da f ( x, y) =
f ( x0 , y0 ) mentre ∇ g( P0 ) è ortogonale alla curva definita da g( x, y) = 0
Figura 1.9: Principio dei moltiplicatori di
Lagrange
avremmo una situazione simile a quella illustrata nella figura 1.9.
Dalla figura si vede che ci sarebbero punti soddisfacenti l’equazione
g( x, y) = 0 tali che f ( x, y) > f ( x0 , y0 ) ed anche punti tali che f ( x, y) <
f ( x0 , y0 ).
Ciò escluderebbe che P0 sia un punto di minimo o di massimo di f
vincolato a g = 0
Possiamo dimostrare con maggior precisione il risultato come se-
gue.
Siano f , g : A → R, P0 = ( x0 , y0 ) ∈ A ⊂ R2 , A aperto, f , g ∈ C 1 ( A),
e supponiamo che g( x0 , y0 ) = 0. Supponiamo inoltre che ∇ g( x0 , y0 ) 6=
0, il che significa, a meno di cambiare il nome delle variabili, che si
può supporre gy ( x0 , y0 ) 6= 0; allora si può dimostrare che esiste una
funzione ϕ definita in un intorno di x0 che assume valori in un intorno
di y0 e per la quale si ha
g( x, ϕ( x )) = 0
Pertanto la funzione f ( x, φ( x )) ammette in x0 un punto di minimo
relativo se e solo se P0 = ( x0 , y0 ) è un punto di minimo per f vincolato
a g = 0.
Di conseguenza, se P0 = ( x0 , y0 ) è un minimo relativo per f vinco-
lato a g = 0 si ha
d
f ( x, ϕ( x )) = f x ( x0 , y0 ) + f y ( x0 , y0 ) ϕ0 ( x0 ) = 0
dx
ed anche
g x ( x0 , y0 ) + gy ( x0 , y0 ) ϕ 0 ( x0 ) = 0
e la coppia (1, ϕ0 ( x0 )) è soluzione non banale del sistema algebrico
lineare omogeneo la cui matrice dei coefficienti è data da
!
∇ f ( x0 , y0 )
∇ g ( x0 , y0 )

Ne segue che esistono α, β ∈ R non entrambi nulli, tali che
α ∇ f ( x0 , y0 ) + β ∇ g ( x0 , y0 ) = 0
e, dal momento che ∇ g( x0 , y0 ) 6= 0, ne viene che deve essere α 6= 0.

Possiamo pertanto affermare, a meno di dividere per α, che esiste λ
tale che
∇ f ( x0 , y0 ) + λ ∇ g ( x0 , y0 ) = 0
Viceversa, posto
h( x ) = f ( x, ϕ( x ))
se h0 ( x0 ) = 0 e h”( x0 ) > 0, ( x0 , y0 ) è un punto di minimo relativo per

f vincolato a g = 0.
Concludiamo osservando un semplice fatto, spesso utile quando si
trattano problemi di programmazione lineare.
Teorema 1.10 Sia f : A −→ R, A ⊂ R2 convesso, chiuso e limitato, f

convessa e continua; allora il massimo di f in A è assunto anche in punti che
sono sulla frontiera di A
Dimostrazione. Sia
f ( P) = max{ f ( Q) : Q ∈ A}
allora, se P è interno ad A, detti Q, R ∈ A gli estremi del segmento

ottenuto intersecando A con una qualunque retta passante per P, si ha
P = λQ + (1 − λ) R
e
f ( P) ≤ λ f ( Q) + (1 − λ) f ( R) ≤ max{ f ( Q), f ( R)}
2
Osservazione. Nel caso in cui A sia poliedrale, cioè se
A = { P ∈ R2 : gi ( P) ≤ 0, gi lineare, i = 1, .., m }
il massimo si può cercare solo tra i vertici della frontiera. 2

2. Penalizzazione e moltiplicatori di
Lagrange.
In questo capitolo consideriamo un caso semplice per illustrare il me-

todo di penalizzazione per i problemi di minimo o massimo vincolati.
mediante il quale otteniamo una formulazione del teorema dei mol-
tiplicatori di Lagrange Il metodo consente di ridurre un problema di
minimo vincolato ad un problema di minimo libero e verrà considerato
nel caso generale più avanti.
Teorema 2.1 Siano f , g, h, k : A −→ R, A ⊂ Rn , f , g, h, k ∈ C 1 ( A) , Sia

x0 ∈ A e sia δ > 0
S( x0 , δ) = { x ∈ Rn : || x − x0 || ≤ δ}
Definiamo
Ω( x0 , δ) = { x ∈ A : g( x ) = 0, h( x ) ≤ 0, k ( x ) ≤ 0} ∩ S( x0 , δ)
Supponiamo inoltre che


h( x ) = 0
0
 k ( x0 ) < 0
e definiamo φ = ( g, h).
Supponiamo che x0 ∈ intA sia un punto di minimo relativo per f sotto i
vincoli g, h, k, supponiamo cioè che esista δ > 0 tale che
x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , d ).
Allora esistono µ, λ, ξ, η ∈ R , non tutti nulli tali che



 µ ∇ f ( x0 ) + λ ∇ g ( x0 ) + η ∇ h ( x0 ) + ξ ∇ k ( x0 ) = 0



µ ≥ 0

 ξ=0



η ≥ 0
Se di più ∇φ( x0 ) ha caratteristica massima, si ha µ 6= 0 e si può supporre

µ = 1.
Dimostrazione. Definiamo
h+ ( x ) = max { h( x ), 0) , k+ ( x ) = max {k( x ), 0)
Φ( x ) = (h+ ( x ))2 + (k+ ( x ))2 + ( g( x ))2
e
Fn ( x ) = f ( x ) + k x − x0 k2 + nΦ( x ).
Sia δ > 0 tale che
x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , δ ).
Fn ammette minimo assoluto su S( x0 , δ); supporremo tale minimo

assunto nel punto xn ∈ S( x0 , δ).
E’ intanto ovvio che, a meno di considerare una estratta, xn → x̂;
proviamo di più che x̂ = x0 .
Posto
m = min{ f ( x ) : x ∈ S( x0 , δ)}
si ha
m + nΦ( xn ) ≤ f ( xn ) + nΦ( xn ) ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )
e
f ( x0 ) − m
0 ≤ Φ( xn ) ≤ .
n
Pertanto
0 = lim Φ( xn ) = Φ( x̂ ) e x̂ ∈ Ω( x0 , δ).
Perciò si ha
f ( xn ) + k xn − x0 k2 ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )
e
f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 ).
Ricordando che x̂ ∈ Ω( x0 , δ) si ha
f ( x0 ) + k x̂ − x0 k2 ≤ f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 )
e
k x̂ − x0 k2 ≤ 0
da cui
x̂ = x0 .
Poichè, se n è sufficientemente grande, xn è interno a S( x0 , δ) il

gradiente di Φ si annulla in xn e si ha che

∇ f ( xn ) + 2( xn − x0 )+
+ 2nh+ ( xn )∇h( xn ) + 2nk+ ( xn )∇k( xn ) + 2ng( xn )∇ g( xn ) = 0.
Pertanto, posto
Ln = (1, 2nh+ ( xn ), 2nk+ ( xn ), 2ng( xn )))
e
Mn = L n / k L n k ,
si ha
k Mn k = 1.
Indichiamo
Mn = ( µ n , η n , ξ n , λ n )
essendo µn , ηn , ξ n , λn non tutti nulli.
Inoltre, dal momento che xn → x0 e k( x0 ) < 0, si ha
ξ n = 2nk+ ( xn ) = 0
per n sufficientemente grande.

Si può allora affermare che
µn (∇ f ( xn ) + 2( xn − x0 )) + λn ∇ g( xn ) + ηn ∇h( xn ) + ξ n ∇k ( xn ) = 0
con
µn , λn , ηn ≥ 0, ξ n = 0.
Poiché k Mn k = 1 si può supporre, a meno di una estratta,
µ n → µ , λ n → λ , ηn → η , ξ n → ξ e k(µ, λ, η, ξ )k = 1
onde µ, λ, η, ξ non sono tutti nulli, ξ = 0 e η ≥ 0

Passando al limite si ottiene
µ ∇ f ( x0 ) + λ ∇ g ( x0 ) + η ∇ h ( x0 ) + ξ ∇ k ( x0 ) = 0
Infine, poiché ξ = 0 si ha , se fosse µ = 0 il sistema
λ ∇ g ( x0 ) + η ∇ h ( x0 ) = 0
ammetterebbe la soluzione non banale (µ, λ, η ), (k(µ, λ, η, 0)k = 1) e

perciò la caratteristica di ∇φ( x0 ) = (∇ g( x0 ), ∇h( x0 )) non potrebbe
essere massima. 2

3. Integrazione Per Le Funzioni Di
Due Variabili.
3.1 Definizione di integrale doppio.
Se f è una funzione di 2 variabili positiva e se R = [ a, b] × [c, d] è un

rettangolo contenuto nel suo dominio, possiamo considerare il proble-
ma di calcolare il volume V delimitato dal piano ( x, y) dal grafico di f
e dal cilindro generato da R con generatrici parallele all’asse z (si veda
la figura ??).
Il volume può essere definito
Figura 3.1: .
• considerando una partizione di R,
• definendo in corrispondenza le somme superiori e le somme infe-

riori di f relative alla partizione scelta,
• dichiarando una funzione integrabile se, al variare delle partizioni,

l’estremo inferiore delle somme superiori e l’estremo superiore delle
somme inferiori coincidono,
• in tal caso chiamiamo il loro valore comune

ZZ
f ( x, y)dxdy
Figura 3.2: .
R
L’esistenza dell’integrale è assicurata, similmente a quanto accade

per le funzioni di una variabile, dalla continuità della funzione inte-
granda, e si può anche dimostrare che è sufficiente che f sia conti-
nua su R a meno di un insieme si area 0. Possiamo in altre parole
dimostrare il seguente risultato.
Se f è una funzione di due variabili limitata su un insieme chiuso e
limitato D ed è continua a meno di un sottoinsieme di misura 0, allora
f è integrabile su D
(Pur non entrando nei particolari della definizione di area, possiamo
ricordare che è possibile calcolare l’area di insiemi piani significativi
usando la teoria dell’integrazione per le funzioni di una variabile) Figura 3.3: .
Quando una funzione è integrabile possiamo approssimare il suo

integrale su R anche usando le somme di Riemann; tali somme pos-
sono anche essere usate per dare la definizione di integrabilità e si
calcolano come segue:
• Si suddivide il rettangolo R in rettangoli più piccoli R j , ad esempio

ottenuti suddividendo i lati di R in parti uguali di ampiezza δx e δy ,
Figura 3.4: . rispettivamente (figura 3.6);
• si sceglie in maniera arbitraria un punto (ξ j , η j ) in ognuno dei ret-

tangoli R j e si calcola la quota f (ξ j , η j ) (figura ??)
• si sostituisce al volume delimitato su R j dalla funzione f il volume

del parallelepipedo di base R j ed altezza f (ξ j , η j ) (figura ??)
• si calcola la somma di tutti i contributi così ottenuti da ciascuno dei

rettangoli della partizione.
Le somme di Riemann sono così definite da

Figura 3.5:
R( f ) = ∑ f (ξ j , η j )δx δy (3.1)
j
e, quando la partizione è abbastanza fine, cioè suddivide R in rettan-

RR
goli R j abbastanza piccoli, R( f ) approssima il valore di f ( x, y)dxdy
R
Figura 3.6: Singolo elemento di volume

3.2 Formule di riduzione per gli integrali doppi.
Purtroppo non disponiamo, per il calcolo di un integrale doppio, di

uno strumento tanto potente quanto il teorema fondamentale del cal-
colo integrale; questo risultato si può infatti estendere anche al cal-
colo delle funzioni di più variabili, ma si colloca in un contesto più
generale: quello delle forme differenziali e del teorema di Stokes.
Occorre quindi cercare altre vie per il calcolo degli integrali doppi.
Se definiamo
S( x ) = {( x, y, z) ∈ R3 : a ≤ x ≤ b, 0 ≤ z ≤ f ( x, y)}
S( x ) rappresenta una sezione del volume V, si veda figura 3.7.

ed il calcolo integrale per le funzioni di una variabile consente di
calcolare la sua area A( x ) mediante la
Z b
Figura 3.7: S( x ) A( x ) = f ( x, y)dy
a
Possiamo considerare il volume V come la somma (infinita) dei vo-
lumi elementari A( x ) (che sono nulli) per x ∈ [ a, b]; naturalmente la
somma infinita si calcola integrando A( x ) su [ a, b] e quindi

ZZ Z b Z d
f ( x, y)dxdy = f ( x, y)dy dx
a c
R
In maniera del tutto simile possiamo calcolare

ZZ Z d Z b
f ( x, y)dxdy = f ( x, y)dx dy
c a
R
Il calcolo di un integrale doppio può quindi essere ridotto al calcolo

di due integrali semplici (formule di riduzione).
Il vincolo fin qui posto sul dominio di integrazione, (R è un rettan-
golo) non può tuttavia essere mantenuto e quindi è necessario definire
ZZ
f ( x, y)dxdy
A
Figura 3.8: Dominio normale rispetto
all’asse x
per una classe di sottoinsiemi del piano un po’ più generale.
È naturale considerare per questo scopo la classe dei domini nor-
mali
Diciamo che un insieme D è un dominio normale rispetto all’asse x
se
D = {( x, y) ∈ R2 : a ≤ x ≤ b, α( x ) ≤ y ≤ β( x )}
dove [ a, b] è un intervallo reale e α e β sono funzioni continue su [ a, b].

(Si veda la figura 3.8).
Diciamo che un insieme E è un dominio normale rispetto all’asse y Figura 3.9: Dominio normale rispetto
all’asse y
se
E = {( x, y) ∈ R2 : c ≤ y ≤ d, γ( x ) ≤ x ≤ δ( x )}
dove [c, d] è un intervallo reale e γ e δ sono funzioni continue su [c, d].

(Si veda la figura 3.9).
Per definire, ad esempio,
ZZ
f ( x, y)dxdy
D
possiamo
• definire una funzione


 f ( x, y) se ( x, y) ∈ D
f˜( x, y) =
0 se ( x, y) ∈
/D
• considerare un rettangolo R ⊃ D
• definire ZZ ZZ
f ( x, y)dxdy = f˜( x, y)dxdy
D R

Nel compiere questa procedura, possiamo osservare che, poichè si

può dimostrare che il grafico di una funzione continua ha area nulla
e poichè la definizione di f˜ può generare discontinuità solo nei punti
dei grafici di α e di β, se f è continua a meno di insiemi di area nulla
tale risulta anche f˜ e pertanto
Una funzione f continua a meno di un insieme di area nulla è
integrabile su un dominio normale D.
A completamento occorre poi osservare che
ZZ ZZ
D R
Z b Z d Z b
Z β( x )

= ˜f ( x, y)dy dx = f ( x, y)dy dx
a c a α( x )
ed in maniera del tutto simile
ZZ ZZ
E R
Z d Z b Z d
Z δ( x )

= ˜f ( x, y)dy dx = f ( x, y)dy dx
c a c γ( x )
Infine osserviamo che quanto abbiamo visto è applicabile ad insiemi

che siano unione finita di domini normali. Questo ci permette di con-
siderare la maggior parte degli insiemi che si incontrano nella pratica
del calcolo.
3.3 Cambiamento di variabili negli integrali doppi
3.3.1 Cambiamento di variabili lineari.

Consideriamo ora ora il problema di calcolare l’area di un parallelo-
grammo A che abbia come lati i vettori ( a, b) e (c, d).
Figura 3.10: Volume ed Area
Semplici considerazioni di geometria permettono di stabilire che
!
a b
Area ( A) = ad − bc = det
c d
ed inoltre, se teniamo conto del fatto che il volume del cilindro di

altezza 1 (figura ??) che ha per base il parallelogrammo è uguale ad
Area ( A), possiamo anche affermare che
ZZ ZZ
!
a b
Area ( A) = 1dxdy = det dudv
c d
A B

dove
B = {(u, v) : 0 ≤ u ≤ 1, 0 ≤ v ≤ 1} = [0, 1] × [0, 1]
ed osservare che il quadrato B = [0, 1] × [0, 1] si trasforma nel paralle-

logramma A mediante le corrispondenze
 ! ! !
 x = au + bv x a b u
cioè = (3.2)
y = cu + dv y c d v
Se supponiamo che !
a b
det 6= 0
c d
(a + c, b + d)
la corrispondenza è biunivoca e può essere invertita; sia c
 ! ! !
u = αx + βy u α β x b
cioè = (3.3)
v = γx + δy v γ δ y c (c, d)
la corrispondenza inversa.
Con riferimento alla definizione di integrale possiamo anche os- d
(a, b)
servare che una partizione del quadrato B in quadrati più piccoli Bj b

corrisponde ad una suddivisione del parallelogrammo A in parallelo-
grammi A j , simili, più piccoli (si veda la figura 3.12). a
Pertanto se f è una funzione definita su A, per calcolare Figura 3.11: Area del Parallelogramma
L’area del parallelogramma generato dai
ZZ
vettori ( a, b) e (c, d) puo essere calcolata
f ( x, y)dxdy mediante
A

a b
det = ad − bc
c d
possiamo calcolare le somme di Riemann usando la partizione di A in
Infatti come si vede dalla figura l’area
parallelogrammi, che risulta più naturale di una partizione in rettan- del parallelogramma ( in azzurro) risul-
goli; Le somme di Riemann in questo caso risultano essere ta uguale alla differenza tra le aree dei
! rettangoli di lato a, c (in basso a sinistra)
a b e di lato b, d in alto a destra; inoltre la
R( f ) = ∑ f ( x j , y j )Area ( A j ) = ∑ f ( x j , y j ) det Area ( Bj ) parte di parallelogramma non contenuta
j j c d nel rettangolo di lati a, c ha area uguale
alla somma delle aree dei triangoli trat-
Ma esiste un unico punto (u j , v j ) ∈ B tale che teggiati meno la somma delle aree dei
triangoli giallo e verde e della zona qua-
drettata (che è contenuta . in entrambi i
( x j , y j ) = ( au j + bv j , cu j + dv j ) triangoli tratteggiati)
per cui
!
a b
R( f ) = ∑ f ( au j + bv j , cu j + dv j ) det Area ( Bj )
j c d
Tali somme al raffinarsi della partizione si approssimano a

ZZ
!
a b Figura 3.12: Cambiamento di variabili
f ( au + bv, cu + dv) det dudv lineare
c d
B

e quindi possiamo concludere che
ZZ ZZ
!
a b
f ( x, y)dxdy = f ( au + bv, cu + dv) det dudv
c d
A B
3.3.2 Coordinate Polari nel piano.

Possiamo usare in luogo di 3.2 anche altre trasformazioni; ad esempio
possiamo usare la trasformazione in coordinate polari che è definita
da:

 x = ρ cos θ
ρ ≥ 0, θ ∈ [0, 2π ] (3.4)
y = ρ sin θ
La 3.4 trasforma
• le rette ρ = R in circonferenze centrate nell’origine di raggio R
• le rette θ = α in semirette passanti per l’origine inclinate di un

angolo α rispetto al semiasse positivo dell’asse x.
• i settori di corona circolare nel piano ( x, y)

q
A = {( x, y) : r ≤ x2 + y2 ≤ R, α ≤ tan y/x ≤ β} =
{( x, y) : r ≤ ρ ≤ R, α ≤ θ ≤ β}
in rettangoli
B = {(ρ, θ ) : ρ ≤ R, α ≤ θ ≤ β} = [r, R] × [α, β]
nel piano (ρ, θ ). (Si veda la figura 3.13).
Purtroppo, la trasformazione definita dalle 3.4 non è biunivoca nè

invertibile ed inoltre se
Figura 3.13: Cambiamento di variabili in
coordinate polari
B1 = [ R − δr , R] × [α, β]
B2 = [ R, R + δr ] × [α, β]
l’immagine A1 di B1 ed A2 di B2 hanno aree diverse anche se B1 e

B2 hanno aree uguali.
Più precisamente si vede che se l’area di A1 è più piccola di quella
di A2 poichè A1 è più vicino all’origine di A2 .

Possiamo calcolare che:
Area ( B) = ( R − r )( β − α)
1 2 1
Area ( A) = ( R − r2 )( β − α) = ( R + r )Area ( B)
2 2
Pertanto non possiamo procedere, come nel caso di 3.2 in quan-
to il fattore di conversione per ottenere Area ( A) da Area ( B) non è
costante.
Possiamo tuttavia affermare che
ZZ
Area ( A) = 1dxdy (3.5)
A
e la 3.5 si può ottenere come somma di settori circolari più piccoli A j

delimitati da circonferenze di raggio ρ e ρ + δρ e aventi ampiezza δθ .
Se
Bj = [ρ, ρ + δρ ] × [θ, θ + δθ ]
l’area di ciascuno dei settori A j è data da
1 1
Area ( A j ) = (2ρ + δρ )δρ δθ = (2ρ + δρ )Area ( Bj )
2 2
ed inoltre se δρ è piccolo e trascurabile avremo che
1
Area ( A j ) ≈ 2ρArea ( Bj )
2
Poichè
Area ( A) = ∑ Area ( A j ) ≈ ∑ ρArea ( Bj )

j j
Possiamo affermare che

ZZ
Area ( A) = ρdρdθ
B
Se poi f è una funzione definita su A, possiamo affermare che

ZZ ZZ
f ( x, y)dxdy = f (ρ cos θ, ρ sin θ )ρdρdθ
A A

4. Integrazione Di Funzioni Di Tre
Variabili.
4.1 Definizione di integrale triplo.
Le formule di riduzione che abbiamo usato per il calcolo di un inte-

grale doppio consentono di ricondurre il problema al calcolo di due
integrali semplici.
In modo del tutto simile possiamo trovare il modo di calcolare
un integrale triplo, cioè l’integrale di una funzione f di tre variabili
( x, y, z) su un dominio V contenuto in R3
ZZZ
f ( x, y, z)dxdydz
V
Il concetto di area che è naturalmente collegato al concetto di in-
tegrale semplice e quello di volume che è caratteristico dell’integrale
doppio si estende al concetto di ipervolume a quattro dimensioni per
gli integrali tripli.
Inoltre, come nel caso di due variabili in cui abbiamo osservato che
ZZ
Area ( A) = 1dxdy = Volume (C A )
A
se C A è il cilindro di base A e di altezza 1, possiamo dire che
ZZ
Volume (V ) = 1dxdydz = IperVolume (CV )
V
dove CV è il cilindro di base V e di altezza 1.
4.2 Formule di riduzione per gli integrali tripli.
Per gli integrali tripli sono possibili diverse scomposizioni che danno
origine a diverse formule di riduzione che riteniamo utile illustrare
mediante qualche esempio.
Ci occuperemo allo scopo di calcolare
ZZZ
f ( x, y, z)dxdydz
V
dove q
V = {( x, y, z) ∈ R3 : x2 + y2 ≤ z ≤ 2 − x 2 + y2 } (4.1)
La parte di R3 definita dalla 4.1 è quella indicata nella figura ?? ??
Possiamo integrare su V "sommando", cioè integrando rispetto a z,
i valori ottenuti mediante il calcolo dell’integrale doppio sulle sezioni
di V definite da
S(z) = {( x, y) : ( x, y, z) ∈ V }
Avremo pertanto che
 
ZZZ Z 2 ZZ
 
Figura 4.1: . f ( x, y, z)dxdydz =  f ( x, y, z)dxdy dz
0
V S(z)
e gli integrali indicati si calcolano come già sappiamo.

Possiamo anche calcolare l’integrale triplo considerando la proie-
zione D del solido V e calcolando
Z 2− √ x 2 + y2
Z Z Z ZZ
!
f ( x, y, z)dx, dy dz = f ( x, y, z)dx, dy dz
F ( x,y) x 2 + y2
D D
4.3 Cambiamento di variabili per gli integrali tripli.
Anche per gli integrali tripli è utile considerare qualche cambiamento

di variabile allo scopo di semplificare i calcoli nel caso di solidi con
particolari simmetrie.
I cambiamenti di variabile più comuni sono quello lineare, quel-
lo in coordinate cilindriche e quello in coordinate sferiche, che ora
illustriamo brevemente.
4.3.1 Cambio di variabili lineare.

Figura 4.2: .
Si tratta del cambiamento di variabili definito dalle


 x = a1 r + b1 s + c1 t

y = a1 r + b2 s + c2 t



z = a3 r + b3 s + c3 t
Se A ⊂ R3 e se B è il trasformato di A mediante il cambiamento di
variabili lineari si ha
ZZZ
f ( x, y, z)dxdydz =
A
ZZZ
∂( x, y, z)

f ( a1 r + b1 s + c1 t, a2 r + b2 s + c2 t, a3 r + b3 s + c3 t) drdsdt
Figura 4.3: .
∂(r, s, t)
B

dove
 
a1 b1 c1
∂( x, y, z)
= det 
 a2 b2

c2 
∂(r, s, t)
a3 b3 s c3
4.3.2 Coordinate cilindriche.



 x = ρ cos θ

y = ρ sin θ ρ≥0 0 ≤ θ ≤ 2π ,z ∈ R



z=z

variabili in coordinate cilindriche si ha
ZZZ ZZZ
f ( x, y, z)dxdydz = f (ρ cos θ, ρ sin θ, z)ρdρdθdz
A B
4.3.3 Coordinate sferiche.



 x = ρ cos θ cos ϕ

y = ρ sin θ cos ϕ ρ≥0 0 ≤ θ ≤ 2π − π/2 ≤ ϕ ≤ π/2



z = ρ sin ϕ

variabili in coordinate sferiche si ha
ZZZ
f ( x, y, z)dxdydz =
A
ZZZ
f (ρ cos θ cos ϕ, ρ sin θ cos ϕ, ρ sin ϕ)ρ cos ϕdρdθdϕ
B

5. Integrali Multipli Impropri
Come nel caso degli integrali semplici, possiamo considerare il proble-

ma di calcolare l’integrale di una funzione di due o più variabili che
non siano limitate o su domini di integrazione non limitati.
Qui illustriamo l’argomento con qualche esempio che è significativo
anche per il seguito e che fornisce un utile strumento per affrontare,
se necessario anche gli altri casi.
Consideriamo pertanto una funzione f definita su R2 limitata ed in-
tegrabile su ogni insieme limitato e chiuso di R2 (ad esempio continua)
e sia D ⊂ R2 un sottoinsieme non limitato di R2 .
In tali condizioni non è lecito definire
ZZ
f ( x, y)dxdy
D
in senso proprio, tuttavia possiamo procedere come segue:

Innanzi tutto assicuriamoci di poter lavorare con una funzione sem-
pre positiva; se f ≥ 0 nulla è da fare ma se così non è basta definire
f + ( x, y) = max{ f ( x, y), 0} e f − ( x, y) = min{ f ( x, y), 0}
osservare che
f = f+ + f−
e calcolare
ZZ ZZ ZZ
f ( x, y)dxdy = f + ( x, y)dxdy + f − ( x, y)dxdy
D D+ D−
dove
D+ = {( x, y) ∈ D : f ( x, y) ≥ 0} , D− = {( x, y) ∈ D : f ( x, y) ≤ 0}
e chiedere che entrambi gli integrali a secondo membro esistano e non

diano luogo ad una forma indeterminata.
Supponiamo quindi che f ≥ 0 e consideriamo una successione di
insiemi Dn soddisfacente le seguenti condizioni:
• Dn è chiuso e limitato
• Dn + 1 ⊃ Dn
• per ogni insieme limitato e chiuso K contenuto in D si può trovare

un Dn̄ tale che Dn̄ ⊃ K
È evidente che le condizioni sopra elencate esprimono il concetto

che la successione di domini Dn riempie, invade, l’insieme D ed infatti
una successione che soddisfa tali condizioni si chiama successione di
domini invadenti D.
Definizione 5.1 Se f ≥ 0 e se Dn è una successione di domini invadenti D

allora definiamo
ZZ ZZ
f ( x, y)dxdy = lim f ( x, y)dxdy
D n Dn
Si può dimostrare che, qualora il limite esista, è indipendente dalla

successione di domini invadenti usata.
5.1 Qualche esempio
Consideriamo il problema di calcolare

ZZ
2 + y2 ) /2
e−( x dxdy
R2
Definiamo
Dn = {( x, y) ∈ R2 : x2 + y2 ≤ n2 }
allora Dn è una successione di domini invadenti R2 e quindi
ZZ ZZ
2 + y2 ) /2 2 + y2 ) /2
e−( x dxdy = lim e−( x dxdy =
R2 n Dn
Z 2π Z n
2 ) /2
= lim (
dρ)dθ = ρe−(ρ
n 0 0
Z n
n

−(ρ2 )/2 −(ρ2 )/2 2
= lim 2π ρe dρ = 2π lim −e = 2π lim 1 − e−(n )/2 = 2π
n 0 n n
0
Il risultato appena ricavato ha una conseguenza interessante, infatti,

poichè il valore dell’integrale non dipende dalla successione di domini
invadenti usata, possiamo rifare il calcolo anche usando la successione
definita da
Qn = [−n, n] × [−n, n]
ed otterremo lo stesso risultato.

Avremo

ZZ ZZ
2 + y2 ) /2 2 + y2 ) /2
2π = e−( x dxdy = lim e−( x dxdy =
R2 n Qn
Z n Z n
2 ) /2 2 ) /2
= lim ( e−( x e−(y dx )dy =
n −n −n
Z n Z n Z n Z +∞
2 ) /2 2 ) /2 2 ) /2 2 ) /2
= lim( e−(y dy)( e−( x dx ) = lim( e−(t dt)2 = ( e−(t dt)2
n −n −n n −n −∞
e possiamo affermare che

Z +∞ √
2 ) /2
e−(t dt = 2π
−∞
e che
Z +∞
1 2 ) /2
√ e−(t dt = 1
2π −∞

6. Spazi Euclidei N-Dimensionali.
Per lo studio delle funzioni di più variabili reali occorre aver presenti
alcune proprietà degli spazi euclidei ad n dimensioni.
È inoltre indispensabile conoscere qualche proprietà delle applica-
zioni lineari in Rn e delle forme bilineari e quadratiche.
6.1 Norma e Prodotto scalare
Definizione 6.1 Indichiamo con Rn lo spazio vettoriale costituito dalle n −

ple ordinate di numeri reali; in altre parole
x ∈ Rn ⇔ x = ( x1 , x2 , ...., xn ) con xk ∈ R.
In Rn si definiscono le operazioni di somma e di prodotto per uno

scalare mediante le
x + y = ( x1 + y1 , x2 + y2 , ...., xn + yn ) , x, y ∈ Rn
e
αx = (αx1 , αx2 , ...., αxn ) , α ∈ R , x ∈ Rn .
L’insieme dei vettori
e1 = (1, 0, 0, ...., 0)
e2 = (0, 1, 0, ...., 0)
............
en = (0, 0, 0, ...., 1)
costituisce una base di Rn ; si avrà pertanto che, se x ∈ Rn

n
x= ∑ x i ei .
i =1
Definizione 6.2 Si definisce norma in Rn una funzione che si indica con
k · k : Rn → R
che verifica le seguenti proprietà:

1. k x k ≥ 0 ∀ x ∈ Rn
2. k x k = 0 ⇔ x = 0
3. kαx k = |α|k x k ∀ α ∈ R , ∀ x ∈ Rn
4. k x + yk ≤ k x k + kyk ∀ x, y ∈ Rn .
Definizione 6.3 Si definisce prodotto scalare in Rn una funzione
h·, ·i : Rn × Rn −→ R
tale che
1. h x, x i ≥ 0 ∀ x ∈ Rn
2. h x, yi = hy, x i ∀ x, y ∈ Rn
3. h x, x i = 0 ⇔ x=0
4. hαx + βy, zi = αh x, zi + βhy, zi ∀ x, y, z ∈ Rn , ∀α, β ∈ R.
Come nel caso del valore assoluto per i numeri reali, si ha
|k x k − kyk| ≤ k x − yk
Lemma 6.1 Siano x, y ∈ Rn , allora se 1/p + 1/q = 1 , p, q ≥ 1 ,
| ∑ xi yi | ≤ ∑ | xi ||yi | ≤ (∑ | xi | p )1/p (∑ |yi |q )1/q
(Disuguaglianza di Schwarz-Holder)
(∑ | xi + yi | p )1/p ≤ (∑ | xi | p )1/p + (∑ |yi | p )1/p

(Disuguaglianza di Minkowski).
Dimostrazione. Intanto è ovvio che
| ∑ xi yi | ≤ ∑ | xi ||yi |.
Dal momento che la funzione ξ → ξ p è convessa su R¯+ , si ha

p p
∑ λi ξ i ∑ λi ξ i
≤ ∀ λi ≥ 0 , ∀ ξ i ≥ 0
∑ λi ∑ λi
e
∑ λi ξ i ≤ (∑ λi )( p−1)/p (∑ λi ξ i )1/p .
p
Ora, posto
p
λi = |yi | p/( p−1) e λi ξ i = | xi | p ,

si ha
p −1 p
( λi ξ i ) p = λi λi ξ i = | xi | p | yi | p
e
λi ξ i = | xi ||yi |.
Da cui
∑ |xi ||yi | ≤ (∑ | xi | p )1/p (∑ |yi | p/( p−1) )( p−1)/p
e si può concludere la disuguaglianza di Holder tenendo conto che

p/( p − 1) = q . Per quanto riguarda la disuguaglianza di Minkowski
si ha
∑ |xi + yi | p = ∑ |xi + yi ||xi + yi | p−1 ≤
≤ ∑ |xi ||xi + yi | p−1 + ∑ |yi ||xi + yi | p−1 .

Applicando la disuguaglianza di Holder ad entrambi gli addendi
dell’ultimo membro si ha
∑ |xi + yi | p ≤ [(∑ |xi | p )1/p + (∑ |yi | p )1/p ](∑ |xi + yi |( p−1)q )1/q
e tenendo conto che ( p − 1)q = p si ha
(∑ | xi + yi | p )1−1/q ≤ (∑ | xi | p )1/p + (∑ |yi | p )1/p .
Si conclude tenendo conto che 1 − 1/q = 1/p . 2

La disuguaglianza di Holder si riduce alla più nota disuguaglianza
di Schwarz per p = q = 2.
Per p = q = 2 la disuguaglianza di Schwarz può essere riscritta
come
|h x, yi| ≤ k x kkyk
e può essere dedotta osservando che, ∀t ∈ R
0 ≤ k x + tyk2 = h x + ty, x + tyi = t2 kyk2 + 2th x, yi + k x k2
Ciò implica infatti
h x, yi2 − k x k2 kyk2 ≤ 0
La corrispondente disuguaglianza triangolare segue da
k x + yk2 = k x k2 + kyk2 + 2h x, yi ≤ k x k2 + kyk2 + 2k x kkyk
Osserviamo che
|h x, yi| = k x kkyk
se e solo se esiste t ∈ R tale che x + ty = 0, ovvero x e y sono paralleli.

Pertanto
k x k = sup{h x, yi : kyk ≤ 1} = max{|h x, yi| : kyk ≤ 1}.
Sono esempi di norme in Rn le seguenti

n
k x k p = ( ∑ | xi | p )1/p p≥1
k =1
k x k∞ = max {| xi | : i = 1, .., n }.
Mentre un esempio di prodotto scalare è dato da
n
h x, yi = ( ∑ xi yi
k =1
Ovviamente si ha h x, x i = k x k22 .
In Rn useremo abitualmente la k · k2 che è detta norma euclidea in
quanto k x k2 coincide con la distanza euclidea del vettore x dall’origi-
ne.
Nel seguito faremo riferimento, a meno di espliciti avvisi contrari,
a tale norma e scriveremo k · k in luogo di k · k2 .
Osserviamo altresì che il prodotto scalare sopra definito, pur non
essendo l’unico possibile, sarà l’unico da noi considerato.
Si vede subito che
h P1 , P2 i = | P1 || P2 | cos(θ2 − θ1 )
Infatti, facendo riferimento ad R2 e alla figura 9.1, si ha
h P1 , P2 i =
= x1 x2 + y1 y2 = | P1 || P2 | cos(θ2 ) cos(θ1 ) + | P1 || P2 | sin(θ2 ) sin(θ1 ) =
Figura 6.1: = | P1 || P2 | cos(θ2 − θ1 )
L’osservazione appena fatta giustifica il fatto che
Diciamo che due vettori x, y ∈ Rn sono ortogonali se h x, yi = 0.

Diciamo che sono paralleli se esiste λ ∈ R tale che x = λy. Se
x ed y sono paralleli h x, yi = k x kkyk
Se k · k a e k · kb sono due norme in Rn si dice che sono equivalenti

se esistono due costanti reali H e K tali che
H k x kb ≤ k x k a ≤ K k x kb .
Si può dimostrare che

Teorema 6.1 In Rn tutte le norme sono equivalenti.
Dimostrazione. Sia k · k a una norma in Rn ; si ha

n n
k x k a = k ∑ x i ei k a ≤ ∑ | xi |kei k a ≤ K k x k1
i =1 i =1
essendo
K = max{kei k a }.
Quindi la funzione k · k a è continua e, dal momento che
{ x ∈ Rn : k x k 1 = 1}
è compatto è lecito considerare
H = min{k x k a : k x k1 = 1};
si ha H > 0 e
kxka x
= ≥ H.
k x k1 k x k1 a
Pertanto, per ogni x ∈ Rn si ha
H k x k1 ≤ k x k a ≤ K k x k1
e tutte le norme in Rn sono equivalenti. 2

È anche interessante osservare che
Lemma 6.2 La funzione p −→ k x k p è decrescente ∀ x ∈ Rn e si ha
k x k∞ = lim k x k p = inf{k x k p : p ≥ 1 } ;
p
inoltre
(24.1) k x k∞ ≤ k x k p ≤ k x k1 ≤ nk x k∞ ≤ nk x kq ≤ nk x k1 ∀ p, q ≥ 1
e pertanto le norme k · k p sono tutte equivalenti.
Dimostrazione. Per provare che p −→ k x k p è decrescente sarà suffi-

ciente provare che
d
k x k p ≤ 0.
dp
Si ha
k x k p = (∑ | xi | p )1/p
e pertanto

d 1 1 ∑ | xi | p ln | xi |
kxk p = kxk p − ln ∑ | xi | p + =
dp p 2 p ∑ | xi | p
kxk p
= p ∑ | xi | p ln | xi | − ∑ |xi | p ln ∑ |xi | p .
p2 ∑ | x i | p

Ora
∑ |xi | p ln |xi | p − ∑ |xi | p ln ∑ |xi | p ≤ 0
in quanto ln | xi | p ≤ ln ∑ | xi | p .
Inoltre si ha
p
k x k∞ ≤ k x k p ≤ (nk x k∞ )1/p = n1/p k x k∞
e d’altra parte
lim n1/p = lim e(ln n)/p = 1.
p p
La (24.1) è immediata conseguenza di quanto visto. 2

Le notazioni vettoriali introdotte consentono di esprimere facilmen-
te condizioni che individuano rette piani e sfere.
Possiamo individuare i punti di una retta che passa per il punto
( x0 , y0 , z0 ) ed è parallela alla direzione ( a, b, c) semplicemente som-
mando ( x, y, z) con il vettore t( a, b, c) al variare di t ∈ R.
Otterremo in tal caso che
( x, y, z) = ( x0 , y0 , z0 ) + t( a, b, c)
che scritta componente per componente



 x = x0 + ta

y = y0 + tb



z = z0 + tc
fornisce le equazioni parametriche della retta.

Se t ∈ R+ avremo una delle due semirette in cui ( x0 , y0 , z0 ) divide
la retta intera, mentre se t ∈ [ a, b] ci limitiamo ad un segmento della
retta stessa.
Un piano passante per l’origine può essere individuato dai vettori
perpendicolari ad un vettore assegnato; l’equazione del piano si potrà
quindi scrivere come
h( x, y, z), ( a, b, c)i = 0
mentre il piano parallelo che passa per ( x0 , y0 , z0 ) è dato da
h( x − x0 , y − y0 , z − z0 ), ( a, b, c)i = 0
come abbiamo già visto una sfera può essere individuata come l’in-
sieme dei punti che hanno distanza dal centro ( x0 , y0 , z0 ) minore del
raggio R;
Una sfera sarà pertanto individuata dalla condizione
k( x − x0 , y − y0 , z − z0 )k ≤ R

6.2 Applicazioni Lineari
Definizione 6.4 Si chiama applicazione lineare una funzione
f : Rn → Rm
tale che
f (αx + βy) = α f ( x ) + β f (y) ∀ x, y ∈ Rn , ∀α, β ∈ R
L(Rn , Rm ) è l’insieme delle applicazioni lineari su Rn a valori in Rm . L(Rn , R)

si chiama anche spazio duale di Rn .
Gli elementi di L(Rn , Rm ) possono essere messi in corrispondenza

biunivoca con le matrici aventi m righe ed n colonne, Mm×n .
Più precisamente L(Rn , Rm ) ed Mm×n sono isomorfi in quanto
ogni applicazione lineare f può essere scritta nella forma
f ( x ) = Ax con A ∈ Mm×n .
e d’altro canto f ( x ) = Ax è lineare.
In particolare
Le applicazioni lineari da Rn in R sono tutte e sole quelle della

forma
f ( x ) = h x ∗ , x i con x ∗ ∈ Rn .
Definizione 6.5 Se f ∈ L(Rn , Rm ) definiamo norma di f , e la indichiamo

con k f k0 , la seguente
k f k0 = sup{k f ( x )k : k x k ≤ 1}.
In virtù del teorema 24.7 possiamo identificare f con la matrice A per
la quale risulta f ( x ) = Ax .
Pertanto possiamo anche definire
k Ak0 = sup{k Ax k : k x k ≤ 1}.
D’altro canto A ∈ Mm×n e può essere identificato come un elemen-

to di Rm×n . Si può pertanto definire
k Ak p = (∑ | aij | p )1/p p≥1

ij
e
k Ak∞ = max {| aij | : i = 1, .., m , j = 1, .., n }
esattamente come negli spazi euclidei.

Osserviamo subito che
k A k0 ≤ k A k2 = k A k
la disuguaglianza essendo stretta ad esempio se A = I .

Infatti, se denotiamo con Ai le righe della matrice A,
k Ax k2 = ∑ h Ai , x i2 ≤ ∑ k Ai k2 k x k2 = k Ak2 k x k2 .
i i
Teorema 6.2 Se A ∈ Mm×n si ha
k Ax k ≤ k Ak0 k x k ≤ k Akk x k.
Dimostrazione. Dalla definizione 24.9 si ottiene
k Ax/k x kk ≤ k Ak0
e la tesi. 2
Possiamo altresì provare che:
Teorema 6.3 Sia A ∈ Mm×n , allora
k Ak0 = sup{|h Ax, yi| : k x k ≤ 1 , kyk ≤ 1 }
ed inoltre, se A ∈ Mn×n = Mn è simmetrica
k Ak0 = sup{|h Ax, x i| : k x k ≤ 1 }.
Dimostrazione. La prima relazione segue dall’osservazione che pre-

cede la definizione 24.4.
Per quel che riguarda la seconda uguaglianza è ovvio che
k Ak0 ≥ sup{|h Ax, x i| : k x k ≤ 1, } = ν
ed inoltre, poiché
h A( x + y), x + yi − h A( x − y), x − yi = 4h Ax, yi
1
|h Ax, yi| ≤ (|h A( x + y), x + yi| + |h A( x − y), x − yi|) ≤
4
ν ν
≤ (k x + yk2 + k x − yk2 ) = (k x k2 + kyk2 )
4 2
onde
sup{|h Ax, yi| : k x k ≤ 1, kyk ≤ 1} ≤ ν.

Osserviamo inoltre che, se A è simmetrica, esiste una matrice P or-

togonale ed unitaria, (la cui inversa coincide pertanto con la trasposta)
tale che
A = P−1 EP
con E matrice diagonale avente come elementi della diagonale princi-
pale gli autovalori λi di A.
Allora
sup{h Ax, x i : k x k ≤ 1} = sup{h P−1 EPx, x i : k x k ≤ 1} =

= sup{h EPx, Px i : k x k ≤ 1} =
= sup{h Ey, yi : kyk ≤ 1} =
n
= sup{ ∑ λi y2i : kyk ≤ 1} =
i =1
= sup{Λkyk2 : kyk ≤ 1} = Λ
non appena si sia definito
Λ = max {λi : i = 1, 2, ..n} = λi0
e si sia tenuto conto del fatto che, in corrispondenza di y = ei0 , si ha

h Ey, yi = λi0 = Λ .
6.3 Forme Bilineari e Quadratiche
Definizione 6.6 Si chiama forma bilineare in Rn una funzione
f : Rn × Rn → R
tale che f (·, y) e f ( x, ·) siano funzioni lineari su Rn .
Le funzioni bilineari su Rn sono tutte e sole quelle definite da
f ( x, y) = h x, Ayi = h Bx, yi con A, B ∈ Mn
dove B è la matrice trasposta di A. (si ottiene da A scambiando le

righe con le colonne. Solitamente si denota B = A∗ ).
Definizione 6.7 Se f è una forma bilineare in Rn ; la funzione
g : Rn −→ R
definita da
g( x ) = f ( x, x )
si chiama forma quadratica in Rn .
Si può sempre trovare una matrice A ∈ Mn , non unica, tale che
g( x ) = h x, Ax i

possiamo inoltre sempre scegliere A in modo che sia una matrice simmetri-
ca; in tal caso A si dice matrice associata alla forma quadratica e risulta
univocamente determinata.
Se g è una forma quadratica; g si dice semidefinita positiva (negativa) se
g( x ) ≥ 0 ( ≤ 0 ) ∀ x ∈ Rn
g si dice definita positiva (negativa) se
g( x ) > 0 ( < 0 ) ∀ x ∈ Rn { 0} .
Si possono provare i seguenti:
Teorema 6.4 Sia g una forma quadratica e sia A la matrice ad essa associata;
allora
• g è definita positiva se e solo se, detto Ak il minore principale di ordine k

di A , si ha
det Ak > 0 ∀k ;
• g è definita negativa se solo se
(−1)k det Ak > 0 ∀k.
Teorema 6.5 Sia g una forma quadratica e sia A la matrice ad essa associata;
allora
• g è definita positiva (negativa) se e solo se, detti λk i suoi autovalori, si ha
λk > 0 (< 0) ∀k ;
• g è semidefinita positiva (negativa) se e solo se
λk ≥ 0 (≤ 0) ∀k.
Il prodotto scalare in Rn
f ( x, y) = h x, yi
è il più semplice esempio di funzione bilineare; la forma quadratica
g( x ) = f ( x, x ) = h x, x i = k x k
si riduce alla norma euclidea in Rn La matrice di rappresentazione

della forma bilineare associata al prodotto scalare è la matrice identica.

6.4 Topologia di Rn
Definizione 6.8 Chiamiamo successione in Rn una applicazione
x : N −→ Rn
che ad ogni k ∈ N associa xk ∈ Rn .

Come nel caso reale chiamiamo estratta della successione xk una suc-
cessione xk h dove k h è una successione a valori nei naturali strettamente
crescente.
Diciamo che lim xk = x se lim k xk − x k = 0.
Chiaramente la definizione data è funzione della norma scelta ma

dà luogo agli stessi risultati qualora si considerino norme equivalenti.
Osserviamo che, dal momento che in Rn tutte le norme sono equi-
valenti, in effetti la definizione di convergenza di una successione non
dipende dalla norma scelta. (Si veda la definizione 24.4)
Si può provare facilmente che
Teorema 6.6 Sia xk una successione in Rn

• se xk è convergente allora ogni sua estratta è ancora convergente allo stesso
limite;
• se xk è convergente allora k xk k è limitata.
E’ anche immediato provare che
Teorema 6.7 Sia xk una successione in Rn tale che k xk k ≤ M , allora esiste

una successione xk h , estratta da xk , convergente.
Dimostrazione. Si ha |( xk )i | ≤ k xk k ≤ M, ∀i, e pertanto esiste una

estratta xk1 tale che ( xk1 )1 → x1 ; con una successiva estrazione si ha
( xk2 )2 → x2 e iterando il procedimento si può concludere osservando
che k xkn − x k1 →0. 2
Teorema 6.8 - criterio di convergenza di Cauchy - Sia xk una successione in

Rn , allora xk è convergente se e solo se
∀ε > 0 ∃k ε ∈ N : h, k > k ε ⇒ k xh − xk k < ε.

Dimostrazione. La necessità è ovvia conseguenza della disugua-
glianza triangolare della norma; per quel che riguarda la sufficienza
basta osservare che, se vale la condizione di Cauchy, xk è una suc-
cessione limitata e pertanto esiste una estratta xk h → x. Ora per k, h
sufficientemente grandi
k xk − x k ≤ k xk − xk h k + k xk h − x k < ε.
2
Diamo ora alcune definizioni che useremo sistematicamente nello
studio delle funzioni di più variabili.

Definizione 6.9 Sia x0 ∈ Rn , r > 0 , chiamiamo sfera aperta di centro x0 e

raggio r, l’insieme
S ( x 0 , r ) = { x ∈ Rn : k x − x0 k < r } .
Sia A ⊂ Rn , x0 ∈ A si dice interno ad A se esiste r > 0 tale che

S( x0 , r ) ⊂ A ; l’insieme dei punti di A che sono interni si indica con intA e
costituisce l’interno di A.
A ⊂ Rn si dice aperto se tutti i suoi punti sono interni, cioè se A = int A
.
A ⊂ Rn si dice chiuso se il suo complementare è aperto.
Diciamo che x0 è punto di frontiera per A ⊂ Rn se
∀ δ > 0 S ( x 0 , δ ) ∩ A 6 = ∅ e S ( x 0 , δ ) ∩ A c 6 = ∅.
Indicheremo con ∂A l’insieme dei punti di frontiera di A .

Definiamo chiusura di A l’insieme
cl A = { x ∈ Rn : ∃ xk ∈ A, xk → x }.
Valgono i seguenti fatti:
Se A ⊂ Rn allora cl A = ∂A ∪ A
Infatti è intanto ovvio che A ⊂ cl A, mentre se x ∈ ∂A si ha che

∀ε > 0 ∃ xε ∈ S( x, ε), xε ∈ A, e perciò si può trovare xn ∈ A tale che
k xn − x k < 1/n da cui x ∈ cl A .
Sia viceversa x ∈ clA , x 6∈ A ; allora esiste una successione xn ∈ A
, xn → x e quindi ∀ε > 0 x ∈ S( x, ε) ed xn̂ ∈ S( x, ε) se n̂ è scelto in
maniera opportuna.
Ma x 6∈ A mentre xn̂ ∈ A per cui x ∈ ∂A.
Sia A ⊂ Rn , f : cl A −→ R continua , allora
inf{ f ( x ) : x ∈ A} = inf{ f ( x ) : x ∈ cl A}
Sia infatti
λ = inf{ f ( x ) : x ∈ A}
si ha
f (x) ≥ λ ∀x ∈ A
∀ε > 0 ∃ xε ∈ A tale che f ( xε ) ≤ λ + ε.
Per la continuità di f si ha anche che
f ( x ) ≥ λ ∀ x ∈ cl A

e pertanto
λ = inf{ f ( x ) : x ∈ cl A}.
Sia A ⊂ Rn allora ∂A = cl A ∩ cl Ac
Sia x ∈ ∂A , ∀ε > 0 ∃ xε0 , x”ε ∈ S( x, ε) , xε0 ∈ A, x”ε ∈ Ac e pertanto si

possono trovare xn0 ∈ A, x”n ∈ Ac , xn0 , x”n → x.
Sia viceversa x ∈ cl A ∩ cl Ac , allora
x = lim xn0 = lim x”n , xn0 ∈ A , x”n ∈ Ac
e ∀ε > 0 ∃n1 , n2 tali che xn0 1 , x”n2 ∈ S( x, ε) e x ∈ ∂A.
Teorema 6.9 Sia A ⊂ Rn , allora A è aperto se e solo se ∀ x ∈ A, ∀ xk ,

xk → x, si ha xk ∈ A definitivamente; A è chiuso se e solo se ∀ xk ∈ A,
xk → x, si ha x ∈ A .
Dimostrazione. Sia A aperto e sia r > 0 tale che S( x, r ) ⊂ A ; allora

definitivamente k xk − x k < r e xk ∈ S( x, r ) ⊂ A.
Supponiamo viceversa che A non sia aperto, allora esiste x ∈ A tale
che ∀r > 0 ∃ xr ∈ S( x, r ) \ A; pertanto si può trovare una successione
xk ∈ S( x, 1/k ) \ A e si ha xk → x e ciò è assurdo.
Sia A chiuso e sia xk ∈ A, xk → x; se x ∈ Ac che è aperto, allora
xk ∈ Ac definitivamente e ciò non è possibile.
Supponiamo che A non sia chiuso, allora Ac non è aperto ed esiste
x ∈ Ac , xk → x, con xk 6∈ Ac . Pertanto esiste una successione xk → x,
xk ∈ A e x 6∈ A , assurdo. 2
Osserviamo che cl A è un insieme chiuso; infatti, se xk ∈ cl A,
xk → x, per ogni k esiste xkh ∈ A, xkh → xk ed è possibile trovare
h(k)
una successione h(k) tale che xk →x.
Ne segue che
A = cl A ⇔ A è chiuso.
Definizione 6.10 Un insieme A ⊂ Rn si dice
• limitato, se esiste r > 0 tale che A ⊂ S(0, r );
• convesso, se ∀ x, y ∈ A, ∀λ ∈ [0, 1], λx + (1 − λ)y ∈ A;
• compatto, se ∀ xk ∈ A, esiste un’estratta xk h → x ∈ A;
• connesso, se non esistono due insiemi aperti, A1 ,A2 tali che A1 ∩ A 6= ∅

, A2 ∩ A 6 = ∅ , A ∩ ( A1 ∩ A2 ) = ∅ , A ⊂ A1 ∪ A2 .
Teorema 6.10 Sia A ⊂ Rn , A è compatto se e solo se A è chiuso e limitato.

Dimostrazione. Se A è chiuso e limitato, presa una successione xk ∈

A si ha che xk è limitata e per il teorema 24.20 esiste xk h → x; x ∈ A
perché A è chiuso.
Sia viceversa A compatto, allora è chiuso ed inoltre è limitato, in
quanto se così non fosse, esisterebbe una successione xk ∈ A, con
k xk k → +∞, e dal momento che A è compatto esiste xk h → x ; pertanto
k xk h k è limitata e contemporaneamente k xk h k → +∞ , assurdo. 2
Lemma 6.3 In R gli insiemi connessi sono tutti e soli gli intervalli.
Dimostrazione. Supponiamo che I sia un intervallo non connesso,

allora esistono I1 , I2 ⊂ R aperti tali che I1 ∩ I 6= ∅ , I2 ∩ I 6= ∅ ,
I ∩ I1 ∩ I2 = ∅ e I ⊂ I1 ∪ I2 .
Se definiamo f : I −→ R tale che f ( x ) = 1 se x ∈ I ∩ I1 ed f ( x ) =
−1 se x ∈ I ∩ I2 , è immediato provare che f è continua e poiché f non
si annulla mai, I non può essere un intervallo (teor. 7.8).
Supponiamo viceversa che I sia connesso, se I non fosse un inter-
vallo esisterebbero due punti x, y ∈ I ed esisterebbe z ∈ ( x, y) e z 6∈ I e
ciò non è possibile in quanto si potrebbe allora scegliere I1 = (−∞, z)
e I2 = (z, +∞) ed I non sarebbe connesso. 2
Gli insiemi connessi ed aperti di Rn possono essere caratterizzati
facendo uso della nozione di connessione per spezzate poligonali, che
diamo qui di seguito.
Teorema 6.11 Sia A ⊂ Rn , A aperto, allora A è connesso se e solo se vale la

seguente condizione
∀ x, y ∈ A esiste una funzione continua, lineare a tratti (il cui grafico è
costituito da segmenti paralleli agli assi) φ : [ a, b] −→ A tale che φ( a) = x e
φ(b) = y.
Dimostrazione. La condizione è equivalente, per ogni x0 ∈ A alla

∀y ∈ A ∃φ : [ a, b] −→ A lineare a tratti tale che φ( a) = x0 e φ(b) = y
.
Cominciamo a vedere che se A è connesso allora quest’ultima vale.
Definiamo
A1 = {y ∈ A : (24.3) è soddisfatta}
A2 = A \ A1 .
Si ha A1 6= ∅ ( x0 ∈ A1 ), A1 ∩ A2 = ∅ ed inoltre A1 ed A2 sono
aperti. Infatti A1 è aperto in quanto preso y ∈ A1 , si ha y ∈ A ed esiste
r > 0 tale che S(y, r ) ⊂ A. Dal momento che ogni punto di S(y,r) può
essere congiunto con y mediante n segmenti paralleli agli assi e dal
momento che y ∈ A1 si ha S(y, r ) ⊂ A1 ed A1 è aperto.
A2 d’altro canto è aperto in quanto, se y ∈ A2 , y 6∈ A1 e se r > 0 è
tale che S(y, r ) ⊂ A si ha S(y, r ) ⊂ A2 (se cos ì non fosse si potrebbe
collegare y con x0 ).

Ne concludiamo, dal momento che A è connesso, che A1 = A e la

condizione richiesta.
Se viceversa la condizione è vera e A non è connesso, esistono A1
ed A2 aperti, non vuoti, disgiunti, la cui unione è A, e se x1 ∈ A1 ,
x2 ∈ A2 e φ : [ a, b] −→ A è lineare a tratti con φ( a) = x1 , φ(b) = x2 ,
si può definire
Ti = {t ∈ [ a, b] : φ(t) ∈ Ai } , i = 1, 2;
Ti è aperto, T1 ∩ T2 = ∅ , T1 ∪ T2 = [ a, b] e pertanto l’intervallo [a,b]

non sarebbe connesso. 2
Teorema 6.12 Sia A ⊂ Rn , A convesso, allora A è connesso.

7. Le Funzioni Di PiÙ Variabili.
Questo capitolo è dedicato allo studio delle proprietà di continuità e

differenziabilità delle funzioni
f : Rn → Rm
con n, m ≥ 1,
Definizione 7.1 È data una funzione
f : Rn −→ Rm
se sono assegnati
• un insieme A ⊂ Rn
• una corrispondenza
x ∈ A 7 → f ( x ) ∈ Rm
che ad ogni x ∈ A associa uno ed un solo vettore f ( x ) ∈ Rm .
Si dice che A è il dominio di f e si scrive D ( f ) = A e, nel caso che

tale dominio non sia esplicitamente indicato, si suppone la corrispon-
denza f definita per tutti gli x ∈ Rn per cui è possibile considerare
f ( x ).
Si definisce rango di f
R( f ) = {y ∈ Rm : ∃ x ∈ A, y = f ( x )}
e grafico di f .
G ( f ) = {( x, y) ∈ Rn × Rm : y = f ( x )}
Restrizione e composizione di funzioni sono definite come nel ca-

so reale e parimenti simile è la definizione di iniettività, surgettività,
bigettività.
7.1 Limiti
Lo studio dei limiti di una funzione di più può essere condotto sem-
plicemente ripercorrendo i risultati ottenuti nel caso di una funzione
reale di una variabile reale, avendo cura di puntualizzare solo qualche
particolare sui valori infiniti.
Quando n = 1, si estende R mediante due punti all’infinito

che vengono denominati +∞ e −∞, in quanto è ben chiaro che
due punti di R possono sempre essere confrontati nella relazione
d’ordine (R è totalmente ordinato). Se n > 1 cade la possibilità
di ordinare totalmente Rn e pertanto si preferisce estendere Rn ,
n > 1, con un solo punto all’infinito che viene denominato sem-
plicemente ∞. Ricordiamo che, anche se meno utile, questa possibilità
esiste anche in R
Definizione 7.2 Se n = 1 e x0 ∈ R ∪ {±∞}, definiamo, per ρ > 0


(ρ, +∞) se x = +∞


I ( x0 , ρ ) = ( x0 − ρ, x0 + ρ) se x ∈ R



(−∞, −ρ) se x = −∞
Definiamo inoltre I 0 ( x0 , ρ) = I ( x0 , ρ) \ { x0 }.
Se n > 1, x0 ∈ Rn ∪ {∞}, definiamo per ρ > 0

 { x ∈ Rn : k x k < ρ } = S ( x , ρ ) x0 ∈ Rn
0 0 0
I ( x0 , ρ ) =
 { x0 ∈ Rn : k x 0 k > ρ } x0 = ∞
anche qui poniamo I 0 ( x0 , ρ) = I ( x0 , ρ) \ { x0 }
Definizione 7.3 Sia A ⊂ Rn , si dice che x0 ∈ Rn ∪ {∞} è un punto di

accumulazione per A se ∀r > 0 I 0 ( x0 , r ) ∩ A 6= ∅.
Indichiamo con D( A) l’insieme dei punti di accumulazione di A.
Sia A ⊂ Rn , x0 ∈ Rn ∪ {∞}; x0 ∈ D( A) se e solo se ∃ xk ∈ A,

x k 6 = x0 , x k → x0 .
Definizione 7.4 Sia f : A → Rn , A ⊂ Rn e sia x0 ∈ D( A); diciamo che
lim f ( x ) = `
x → x0
se

∀ε > 0 ∃δ(ε) > 0 tale che se x ∈ I 0 ( x0 , δ(ε)) ∩ A si ha f ( x ) ∈ I (`, ε)
Si può facilmente provare che:
• ogni funzione che ammette limite finito è localmente limitata;
• il limite di una funzione, se esiste, è unico;
• se m = 1 vale il teorema della permanenza del segno;
• il limite di una somma è uguale alla somma dei limiti, ove

questi esistono finiti;
• il limite del prodotto di una funzione a valori reali per una

funzione a valori vettoriali è uguale al prodotto dei limiti, ove
questi esistono finiti;
• se m = 1 il limite del reciproco di una funzione è uguale al

reciproco del limite della funzione stessa, ammesso che non sia
nullo.
• se m = 1 valgono i risultati sul confronto dei limiti del tipo

considerato per le funzioni reali di una variabile;
• il limite di una funzione può essere caratterizzato per

successioni come per le funzioni di una variabile.
Ricordiamo anche l’enunciato che permette di calcolare il limite di

una funzione composta
Sia f : A −→ Rm , A ⊂ Rn , x0 ∈ D( A) e sia g : B −→ A,
B ⊂ R p , y0 ∈ D( B), g( B) ⊂ A; supponiamo che
lim f ( x ) = e lim g(y) = x0

x → x0 y → y0
Allora, se una delle due seguenti condizioni è verificata
• x0 6∈ dom f
• f ( x0 ) = `
si ha
lim f ( g(y)) = `.
y → y0

7.2 Continuità
Definizione 7.5 Sia f : A −→ Rm , x0 ∈ A ⊂ Rn , diciamo che f è una

funzione continua in x0 se ∀ε > 0 ∃δ(ε) > 0 tale che
se x ∈ A, k x − x0 k < δ(ε) si ha k f ( x ) − f ( x0 )k < ε.
Nel caso in cui x0 ∈ A ∩ D( A), la condizione sopra espressa è equivalente
alla
lim f ( x ) = f ( x0 )
x → x0
f si dice continua in A se è continua in ogni punto di A.
Come nel caso delle funzioni reali di una variabile reale si prova
che:
• la somma di funzioni continue è continua;
• il prodotto di una funzione a valori vettoriali per una funzione

a valori scalari, entrambe continue, è continua;
• se m = 1, il reciproco di una funzione continua è continuo dove

ha senso definirlo;
• vale la caratterizzazione della continuità per successioni data,

nel caso reale;
• la composta di funzioni continue è una funzione continua.
• se limx→ x0 f ( x ) = λ e limx→ x0 g( x ) = µ, con λ, µ ∈ Rm si ha
lim h f ( x ), g( x )i = hλ, µi
x → x0
• In particolare la funzione h·, ·i : Rm × Rm → R è continua
Valgono per le funzioni continue i soliti teoremi
Teorema 7.1 -degli zeri - Sia f : A −→ R, A ⊂ Rn , A aperto e connesso

e supponiamo che f sia una funzione continua; allora se esistono x1 , x2 ∈ A
tali che f ( x1 ) f ( x2 ) < 0 esiste anche x0 ∈ A tale che f ( x0 ) = 0.
Dimostrazione. Poichè A è connesso è possibile congiungere x1

ed x2 con una linea spezzata costituita di segmenti paralleli agli assi
coordinati.
Siano x j gli estremi di ciascuno dei segmenti, nel caso in cui f ( x j ) =
Figura 7.1: Il teorema degli zeri
0 per qualche j, il teorema è dimostrato, in caso contrario esisteranno
xk , xk+1 tali che f ( xk ) f ( xk+1 ) < 0.
Allora la funzione [0, 1] 3 t 7→ ϕ(t) = f ( xk + t( xk+1 − xk ) ∈ R è
continua e si può applicare a ϕ il teorema degli zeri. 2

Teorema 7.2 - Weierstraß- Sia f : A −→ R una funzione continua e

supponiamo che A sia un insieme compatto; allora esistono x1 , x2 ∈ A tali
che
f ( x1 ) = min{ f ( x ) : x ∈ A}
f ( x2 ) = max{ f ( x ) : x ∈ A}
Dimostrazione. Sia, ad esempio λ = inf{ f ( x ) : x ∈ A}; allora esiste

una successione xk ∈ A tale che f ( xk ) → λ e, dal momento che A è
compatto, è possibile trovare una successione xk h → x1 ∈ A. Si ha
pertanto f ( xk h ) → λ e, per la continuità di f , f ( xk h ) → f ( x1 ). Ne
segue che λ = f ( x1 ) e la tesi. 2
Teorema 7.3 - Weiertsraß generalizzato - Sia f : Rn −→ R una funzio-

ne continua e supponiamo che esista x̂ ∈ Rn tale che
lim f ( x ) = ` > f ( x̂ )
x →∞
allora esiste x1 ∈ Rn tale che
f ( x1 ) = min{ f ( x ) : x ∈ Rn }
Dimostrazione. Sia
λ = inf{ f ( x ) : x ∈ Rn }
si ha
` > f ( x̂ ) ≥ λ
.
Sia poi δ > 0 tale che se k x k > δ si abbia f ( x ) ≥ ` − ε, con ε > 0.
Sia ancora xk ∈ Rn tale che f ( xk ) → λ.
Allora, per ε piccolo e per k abbastanza grande, si ha
f ( xk ) < λ + ε < ` − ε
e quindi k xk k ≤ δ.
Si può pertanto estrarre da xk una successione xk h tale che xk h → x1
e si può concludere utilizzando le stesse argomentazioni del teorema
precedente. 2
Definizione 7.6 Sia f : A −→ Rm , A ⊂ Rn ; f si dice uniformemente

continua in A se
∀ε > 0 ∃δ(ε) > 0 tale che se x, y ∈ A e k x − yk < δ(ε), si ha
k f ( x ) − f (y)k < ε.
Teorema 7.4 - Heine-Cantor - Sia f : A −→ Rm , A ⊂ Rn ; se f è una

funzione continua su A ed A è un insieme compatto allora f è uniformemente
continua su A.

Dimostrazione. Se f non fosse uniformemente continua in A ∃ε 0 > 0

ed ∃ xk , yk ∈ A tali che k xk − yk k < 1/k e k f ( xk ) − f (yk )k > ε 0 .
Dal momento che A è compatto, ∃ xk h estratta da xk , xk h → x ∈ A e
si ha
kyk h − x k ≤ kyk h − xk h k + k xk h − x k → 0
per cui yk h → x.
Ne viene che k f ( xk h ) − f (yk h )k → 0 e ciò è assurdo. 2
Corollario 7.1 Sia f : Rn → Rm , lineare; allora
• f è uniformemente continua su Rn ;
• f trasforma insiemi limitati di Rn in insiemi limitati di Rm .
7.3 Differenziabilità e Derivabilità
Definizione 7.7 - Sia f : A −→ Rm , A ⊂ Rn , A aperto, x0 ∈ A; diciamo

che f è differenziabile in x0 se esiste una applicazione lineare
L : Rn −→ Rm
tale che
k f ( x0 + h) − f ( x0 ) − L(h)k
lim =0
h →0 khk
L’applicazione lineare L si chiama differenziale di f in x0 e si indica
solitamente con d f ( x0 ).
La matrice che la rappresenta si chiama matrice jacobiana di f in x0 e verrà
indicata con ∇ f ( x0 ). Si ha perciò
L(h) = d f ( x0 )(h) = ∇ f ( x0 )h
Quando m = 1, ∇ f ( x0 ) si riduce ad un vettore di Rn e si indica

col nome di gradiente di f in x0 ; faremo uso del nome gradiente
anche se m > 1.
Osserviamo infine che ∇ f : A −→ Rm×n = Mm×n
Sia f : A −→ Rm , posto
k f ( x0 + h) − f ( x0 ) − d f ( x0 )(h)k
ω (h) =
khk
per la definizione di differenziabilità si ha
lim ω (h) = 0
h →0

per cui
f ( x0 + h) − f ( x0 ) − d f ( x0 )(h) = khkω (h)

Se viceversa vale l’uguaglianza precedente si può verificare che f è
differenziabile.
Naturalmente
k f ( x0 + h) − f ( x0 )k ≤ [ω (h) + kd f ( x0 )k] khk
e si ha
lim f ( x0 + h) = f ( x0 )
h →0
per cui
Ogni funzione differenziabile è continua.
Definizione 7.8 Sia f : A −→ R, A ⊂ Rn , A aperto, x0 ∈ A; diciamo che

f è parzialmente derivabile in x0 rispetto alla variabile xi se
f ( x0 + tei ) − f ( x0 )
lim
t →0 t
esiste finito.
In tal caso denotiamo il valore di tale limite con il simbolo
∂f
( x0 ) oppure con f xi ( x0 )
∂xi
e lo chiamiamo derivata parziale di f rispetto ad xi calcolata in x0 .
(Osserviamo che tei = (0, 0, .., t, .., 0, 0) ).
Se y ∈ Rn , diciamo che f è derivabile in x0 rispetto al vettore y se
f ( x0 + ty) − f ( x0 )
lim
t →0+ t
esiste finito.
In tal caso denotiamo il valore di tale limite con f 0 ( x0 , y).
E’ facile vedere che f è derivabile rispetto alla i-esima variabile se e solo se
f ( x0 , ei ) ed f 0 ( x0 , −ei ) esistono e
0
f 0 ( x o , ei ) = − f 0 ( x0 , − ei )
In tal caso si ha
f 0 ( x0 , ei ) = − f 0 ( x0 , − ei ) = f xi ( x0 ).
Teorema 7.5 Sia f : A −→ R, x0 ∈ A ⊂ Rn , A aperto e supponiamo che

f sia differenziabile in x0 ; allora f è derivabile in x0 lungo ogni direzione e si
ha
f 0 ( x0 , y) = d f ( x0 )(y) = h∇ f ( x0 ), yi

Se ne deduce in particolare, scegliendo y = ei ed y = −ei che f è derivabile

in x0 rispetto ad xi e che
(∇ f ( x0 ))i = f xi ( x0 ).
Dimostrazione. Dal momento che f è differenziabile,
| f ( x0 + h) − f ( x0 ) − h∇ f ( x0 ), hi|
= ω (h)
khk
con limh→0 ω (h) = 0.
Per h = ty con t > 0 si ha
| f ( x0 + ty) − f ( x0 ) − h∇ f ( x0 ), tyi| = tkykω (ty)
e
f ( x0 + ty) − f ( x0 )
− h∇ f ( x0 ), yi = kykω (ty)
t
Quindi
f 0 ( x0 , y) = h∇ f ( x0 ), yi = d f ( x0 )(y).
Osserviamo che, se f è differenziabile in x0 , allora si ha
f 0 ( x0 , y ) = − f 0 ( x0 , − y )
e pertanto
f ( x0 + ty) − f ( x0 ) f ( x0 + ty) − f ( x0 )
lim = lim
t →0+ t t →0− t
2
Teorema 7.6 Sia f : A −→ Rm , x0 ∈ A ⊂ Rn , A aperto e sia f =

( f 1 , f 2 , ....., f m ) con f j : A −→ R, j = 1, 2, ..., m.
Allora f è differenziabile in x0 se e solo se f j è differenziabile in x0 per ogni
j = 1, 2, ..., m.
Inoltre si ha
 
∇ f 1 ( x0 ) ∇ f 2 ( x0 )
 · 
 
 
∇ f ( x0 ) =  · 
 
 · 
∇ f m ( x0 )
Dimostrazione. Sia f differenziabile in x0 ed indichiamo con
D1 , D2 , ..., Dm
le righe della matrice ∇ f ( x0 ), ovviamente risulterà D j ∈ Rn ed avremo

inoltre
∇ f ( x0 )h = (h D1 , hi, h D2 , hi, ..., h Dm , hi)

Si avrà allora
| f j ( x0 + h) − f j ( x0 ) − h D j , hi|
lim =0
h →0 khk
e pertanto f j è differenziabile in x0 e D j = ∇ f j ( x0 ).
Se viceversa si ha
| f j ( x0 + h) − f j ( x0 ) − h∇ f j ( x0 ), hi|
lim = 0,
h →0 khk
allora anche
k f ( x0 + h) − f ( x0 ) − Dhk
lim =0
h →0 khk
non appena si definisca
 
∇ f 1 ( x0 )
 
 ∇ f 2 ( x0 ) 
 
 · 
D= 


 · 
 
 · 
∇ f m ( x0 )
2
Dimostrazione.. Sia f differenziabile in x0 ed indichiamo con
D1 , D2 , ..., Dm
le righe della matrice ∇ f ( x0 ), ovviamente risulterà D j ∈ Rn ed avremo

inoltre
∇ f ( x0 )h = (h D1 , hi, h D2 , hi, ..., h Dm , hi)
Si avrà allora
| f j ( x0 + h) − f j ( x0 ) − h D j , hi|
lim =0
h →0 khk
e pertanto f j è differenziabile in x0 e D j = ∇ f j ( x0 ).
Se viceversa si ha
| f j ( x0 + h) − f j ( x0 ) − h∇ f j ( x0 ), hi|
lim = 0,
h →0 khk
allora anche
k f ( x0 + h) − f ( x0 ) − Dhk
lim =0
h →0 khk
 
∇ f 1 ( x0 )
 
∇ f 2 ( x0 )C 
 
 · 
D= 


 · 
 
 · 
∇ f m ( x0 )

Osserviamo che si è con ciò dimostrato che

 
f 1x1 ( x0 ) f 1x2 ( x0 ) ... f 1xn ( x0 )
 f (x ) f (x ) ... f 2xn ( x0 ) 
 
∇ f ( x0 ) =  2x1 0 2x2 0

 ... ... ... ... 
f mx1 ( x0 ) f mx2 ( x0 ) ... f mxn ( x0 )
2
Definizione 7.9 Sia f : A −→ R p , A ⊂ Rn × Rm , A aperto, e sia

( x0 , y0 ) ∈ A (con x0 ∈ Rn , y0 ∈ Rm ).
Definiamo
φx (y) = f ( x, y) per ogni f issato x,
e
ψy ( x ) = f ( x, y) per ogni f issato y.
Chiamiamo differenziale parziale di f rispetto ad y in ( x0 , y0 )
dy f ( x0 , y0 ) = dφx0 (y0 )
e differenziale parziale di f rispetto ad x in ( x0 , y0 )
d x f ( x0 , y0 ) = dψy0 ( x0 )
Si ha dy f ( x0 , y0 ) ∈ L(Rm , R p ), mentre d x f ( x0 , y0 ) ∈ L(Rn , R p ) ed indi-

chiamo con ∇y f ( x0 , y0 ) e ∇ x f ( x0 , y0 ) le matrici ad essi associate.
Osserviamo infine che, se f = ( f 1 , .., f p ), si ha

!
f 1y1 ( x0 , y0 ) ··· f 1ym ( x0 , y0 )
∇ y f ( x0 , y0 ) =
f py1 ( x0 , y0 ) ··· f pym ( x0 , y0 )
!
f 1x1 ( x0 , y0 ) ··· f 1xn ( x0 , y0 )
∇ x f ( x0 , y0 ) =
f px1 ( x0 , y0 ) ··· f pxn ( x0 , y0 )
e pertanto
∇ f ( x0 , y0 ) = (∇ x f ( x0 , y0 ), ∇y f ( x0 , y0 ))
Osserviamo infine che ∇y f ( x0 , y0 ) può essere bigettivo solo se m =

p.
Definizione 7.10 Sia f : A −→ R p , A ⊂ Rn × Rm , A aperto, e sia

( x0 , y0 ) ∈ A (con x0 ∈ Rn , y0 ∈ Rm ).
Definiamo
φx (y) = f ( x, y) per ogni f issato x,
e
ψy ( x ) = f ( x, y) per ogni f issato y.

Chiamiamo differenziale parziale di f rispetto ad y in ( x0 , y0 )
dy f ( x0 , y0 ) = dφx0 (y0 )
e differenziale parziale di f rispetto ad x in ( x0 , y0 )
d x f ( x0 , y0 ) = dψy0 ( x0 )
Si ha dy f ( x0 , y0 ) ∈ L(Rm , R p ), mentre d x f ( x0 , y0 ) ∈ L(Rn , R p ) ed indi-

chiamo con ∇y f ( x0 , y0 ) e ∇ x f ( x0 , y0 ) le matrici ad essi associate.
Osserviamo infine che, se f = ( f 1 , .., f p ), si ha

!
f 1y1 ( x0 , y0 ) ··· f 1ym ( x0 , y0 )
∇ y f ( x0 , y0 ) =
f py1 ( x0 , y0 ) ··· f pym ( x0 , y0 )
!
f 1x1 ( x0 , y0 ) ··· f 1xn ( x0 , y0 )
∇ x f ( x0 , y0 ) =
f px1 ( x0 , y0 ) ··· f pxn ( x0 , y0 )
e pertanto
∇ f ( x0 , y0 ) = (∇ x f ( x0 , y0 ), ∇y f ( x0 , y0 ))
Osserviamo infine che ∇y f ( x0 , y0 ) può essere bigettivo solo se m =

p.
Corollario 7.2 Sia f : A −→ Rn , A ⊂ Rn , A aperto, e supponiamo che

f sia invertibile nel suo rango: supponiamo cioè che esista una funzione g :
R( f ) −→ A tale che
f ( g(y)) = y ∀y ∈ R( f )
g( f ( x )) = x ∀x ∈ A
allora, se f e g sono differenziabili, si ha
∇ f ( g(y))∇ g(y) = I ∀y ∈ R( f )
∇ g( f ( x ))∇ f ( x ) = I ∀x ∈ A
essendo I la matrice identica.
**********************************************************************************************************
Teorema 7.7 -Derivazione delle Funzioni Composte - Sia f : A −→

Rm , A ⊂ Rn , e sia g : B −→ A, B ⊂ R p .
Possiamo allora considerare f ( g(·)) : B → Rm .

Siano x0 ∈ A, y0 ∈ B tali che g(y0 ) = x0 , f e g siano differenziabili in

x0 ed y0 , rispettivamente.
Allora f ( g(·)) è differenziabile in y0 e si ha
∇ f ( g(y0 )) = ∇ f ( x0 ) · ∇ g(y0 ) = ∇ f ( g(y0 )) · ∇ g(y0 ),
essendo il prodotto tra matrici inteso righe per colonne.
Dimostrazione. Si ha
f ( x0 + h) − f ( x0 ) − ∇ f ( x0 )h = khkω1 (h) con lim ω1 (h) = 0

h →0
ed anche
g(y0 + k ) − g(y0 ) − ∇ g(y0 )k = kkkω2 (k) con lim ω2 (k) = 0

k →0
Pertanto posto
h ( k ) = g ( y0 + k ) − g ( y0 )
si ha
lim h(k) = 0
k →0
e quindi
f ( g(y0 + k)) − f ( g(y0 )) − ∇ f ( x0 )∇ g(y0 )k

=
kkk
∇ f ( x0 )[ g(y0 + k) − g(y0 ) − ∇ g(y0 )k] + kh(k)kω1 (h(k))
= =
kkk
kh(k)kω1 (h(k))
= ∇ f ( x 0 ) ω2 ( k ) + −→ 0
kkk
dal momento che
kh(k)k ≤ kkk(ω2 (k) + cost)
2
Esplicitiamo in caso semplice il teorema di derivazione delle fun-
zioni composte con lo scopo di illustrarne l’uso.
Sia
f : R2 → R , g : R2 7→ R2
( x, y) 7→ f ( x, y) , (t, s) 7→ ( x (t, s), y(t, s))

e consideriamo la funzione
φ(t, s) = f ( x (t, s), y(t, s)) = f ( g(t, s))
Utilizzando il teorema possiamo affermare che
(φt (t, s), φs (t, s)) = ∇φ(t, s) = ∇ f ( g(t, s)) · ∇ g(t, s)

Ma
!
xt (t, s) xs (t, s)
∇ f ( x, y) = f x ( x, y), f y ( x, y) , , ∇ g(t, s) =
yt (t, s) ys (t, s)
per cui
(φt (t, s), φs (t, s)) =

!
xt (t, s) xs (t, s)
f x ( x, y), f y ( x, y) =
yt (t, s) ys (t, s)

f x ( x, y) xt + f y ( x, y)yt , f x ( x, y) xs + f y ( x, y)ys
Se f : A −→ Rm , A ⊂ Rn , A aperto, è differenziabile in A e se
definiamo
φ(t) = f ( x + th)
si ha che φ è derivabile per i valori di t tali che x + th ∈ A (cioè
almeno in un intorno (−δ, δ) di 0) e si ha
φ0 (t) = ∇ f ( x + th)h
Nel caso in cui f assuma valori reali si ha
φ0 (t) = h∇ f ( x + th), hi
Il teorema di Lagrange applicato alla funzione ϕ appena introdotta

permette di affermare che
Se f assume valori reali ed è differenziabile in A; allora, allora
f ( x + h) − f ( x ) = h∇ f ( x + τh), hi τ ∈ (0, 1)
di conseguenza
| f ( x + h) − f ( x )| ≤ khk sup k∇ f ( x + th)k

t∈(0,1)
Quando la funzione f assume valori in Rm , m > 1, il precedente

risultato può non essere vero.
Sia infatti f : R −→ R2 definita da f (t) = (cos t, sin t); si ha
(0, 0) = f (2π ) − f (0) 6= 2π (−sin t, cos t) = 2π ∇ f (t) ∀t ∈ (0, 2π )
Tenendo conto che se f assume valori in Rm allora f = ( f 1 , .., f m ),

con f j a valori reali, si può concludere che

Se f : A −→ Rm , A ⊂ Rn , è differenziabile in A; allora,
k f ( x + h) − f ( x )k ≤ khk sup k∇ f ( x + th)k0 .

t∈(0,1)
infatti poichè esiste ph ∈ Rm , di norma 1, tale che
k f ( x + h) − f ( x )k = h ph , f ( x + h) − f ( x )i =
= h ph , ∇ f ( x + τh)hi ≤
≤ khk sup k∇ f ( x + th)k0
t∈(0,1)
(7.1)
Poichè la definizione non è di immediata verifica, è utile avere con-

dizioni sufficienti che assicurino la differenziabilità di una funzione.
Se f : A −→ R, A ⊂ Rn , A aperto, ammette derivate parziali

prime continue in A (indicheremo questo dicendo che f ∈ C 1 ); allora
f è differenziabile in A.
Infatti: se ad esempio consideriamo il caso n = 2, indichiamo con

( x, y) un punto di A e supponiamo che le derivate parziali prime f x
ed f y siano continue in A; avremo
f ( x + h, y + k) − f ( x, y) − f x ( x, y)h − f y ( x, y)k
=
( h2 + k 2 )
f ( x + h, y + k) − f ( x + h, y) + f ( x + h, y)
= √ −
h2 + k 2
− f ( x, y) − f x ( x, y)h − f y ( x, y)k
√ =
h2 + k 2
per il teorema di Lagrange applicato alle funzioni f ( x + h, ·) e f (·, y)
( f x (ξ, y) − f x ( x, y))h + ( f y ( x + h, η ) − f y ( x, y))k

=
( h2 + k 2 )
con | x − ξ | < h e |y − η | < k.
Pertanto, osservando che

h k

h2 + k 2 ≤ 1 e h2 + k 2 ≤ 1
per la continuità di f x ed f y l’ultimo membro tende a 0 quando (h, k ) →

(0, 0).
Possiamo affermare in maniera simile che

Teorema 7.8 Sia f : A −→ Rm , A ⊂ Rn , A aperto, e supponiamo che

f j , j = 1, .., m, ammetta derivate parziali prime continue in A; allora f è
differenziabile in A.
Dimostrazione. si ha
n i i −1
f ( x + h) − f ( x ) = ∑ [ f (x + ∑ h j e j ) − f (x + ∑ h j e j )] =
i =1 j =1 j =1
n i −1
= ∑ f xi ( x + ∑ h j e j + ξ i ei ) h i
i =1 j =1
con |ξ i | < hi . 2
Se f : A −→ R, A ⊂ R , A aperto, e chiamiamo derivata parziale
n
seconda di f rispetto alle variabili xi ed x j , calcolata in x, e scriviamo

f xi x j ( x ) la derivata rispetto a x j della Funzione f xi , calcolata in x.
Nel caso in cui n = 2 e le variabili in A si indichino con ( x, y)
possiamo calcolare 4 derivate parziali seconde:
f xx , f xy , f yx , f yy
Teorema 7.9 -Schwartz - Sia f : A −→ R, A ⊂ Rn , A aperto, e

supponiamo che f sia parzialmente derivabile due volte in A e che almeno
una tra f xy e f yx sia continua; allora
f xy ( x, y) = f yx ( x, y)
Infatti se ad esempio supponiamo che f xy sia continua, posto
f ( x + h, y + k) − f ( x + h, y) − f ( x, y + k) + f ( x, y)
ω (h, k) =
hk
si ha
f xy ( x ) = lim lim ω (h, k)
k →0 h →0
e
f yx ( x ) = lim lim ω (h, k)
h →0 k →0
Pertanto se proviamo, che
lim ω (h, k )
(h,k)→(0,0)
esiste finito, avremo che
lim ω (h, k ) = lim lim ω (h, k) = lim lim ω (h, k)

h,k )→(0,0) k →0 h →0 h →0 k →0

e l’uguaglianza delle due derivate seconde

Applicando il teorema di Lagrange alla funzione
h 7→ f ( x + h, y + k ) − f ( x + h, y)
si ha
f x ( x + ξ, y + k) − f x ( x + ξ, y)
ω (h, k ) = , −h < ξ < h
k
ed applicando ancora Lagrange alla funzione
k −→ f x ( x + ξ, y + k)
si ottiene
ω (h, k ) = f xy ( x + ξ, y + η ), −k < η < k
Ora
lim (ξ, η ) = (0, 0)
(h,k)→(0,0)
e pertanto, per la continuità di f xy
lim ω (h, k) = f xy ( x, y).

(h,k)→(0,0)
In generale possiamo enunciare il seguente teorema
Teorema 7.10 Sia f : A −→ Rm , A ⊂ Rn , A aperto, e supponiamo che f

sia parzialmente derivabile due volte in A; allora
f xi x j ( x ) = f x j xi ( x )
per tutti gli x ∈ A ove almeno una tra f xi x j e f x j xi è continua.
Le derivate parziali di ordine superiore si definiscono in maniera

del tutto simile.
Le derivate parziali seconde caratterizzano il gradiente della fun-
zione ∇ f infatti, se f : A −→ R, A ⊂ Rn , A aperto, è differenziabile
in A, possiamo considerare la funzione
∇ f : A −→ Rn
Se ∇ f è a sua volta differenziabile (ricordiamo che basta che le

derivate parziali prime di ∇ f siano continue), possiamo considerare
∇(∇ f )( x ) e si vede che
   
∇ f x1 ( x ) f x1 x1 ( x ) · · · f x1 x n ( x )
   
∇(∇ f )( x ) =  · · ·  =  · · · ··· ··· 
∇ f xn ( x ) f x n x1 ( x ) · · · f xn xn ( x )
La matrice ∇(∇ f )( x ) si indica solitamente con H f ( x ) e si chiama

matrice Hessiana di f in x.

La funzione quadratica g(h) = hh, H f ( x )hi viene di solito indicata

con il nome di forma quadratica hessiana di f in x.
Qualora f ammetta derivate parziali seconde continue in A ( f ∈
C 2 ( A)), per il teorema di Schwarz, la matrice H f ( x ) è simmetrica.
Per fissare le idee ricordiamo che nel caso di una funzione di due
variabili a valori reali
! !
∇ f x ( x, y) f xx ( x, y) f xy ( x, y)
H f ( x, y) = ∇(∇ f )( x, y) = =
∇ f y ( x, y) f yx ( x, y) f yy ( x, y)
7.4 Formula di Taylor
Consideriamo una funzione f : A −→ R, A ⊂ Rn , A aperto,

x0 ∈ A, e sia h ∈ S(0, r ) dove r > 0 è scelto in modo che x0 +
S(0, r ) ⊂ A.
Definiamo φ : (−1, 1) −→ R mediante la
ϕ(t) = f ( x0 + th)
se supponiamo f ∈ C k (cioè se è derivabile k volte in A), avremo che

ϕ è derivabile k volte in (−1, 1) e si ha
ϕ0 (t) = d f ( x0 + th)h = hh, ∇ f ( x0 + th)i

n
d
ϕ00 (t) =
dt ∑ hi f xi ( x0 + th) =
i =1
n
= ∑ hi h∇ f xi ( x0 + th), hi = hh, H f ( x0 + th)hi
i =1
Possiamo pertanto ottenere una formula di Taylor anche per funzioni

di più variabili, sviluppando la funzione ϕ. Ci limitiamo al secondo
ordine in quanto è l’unico di cui abbiamo necessità ed in ogni caso è
l’ultimo che possa essere enunciato senza eccessive difficoltà formali.
Teorema 7.11 Se f : A −→ R, A ⊂ Rn , A aperto, x ∈ A e se f ∈ C 2 ( A),

(e quindi è differenziabile due volte).
Allora per h abbastanza piccolo si ha
f ( x + h) = f ( x ) + hh, ∇ f ( x )i + hh, H f ( x + ξh)hi/2, ξ ∈ (0, 1)
(formula di Taylor con il resto di Lagrange)

f ( x + h) = f ( x ) + hh, ∇ f ( x )i + hh, H f ( x )hi/2 + khk2 ω (h)
con limh→0 ω (h) = 0 e ω (0) = 0

(formula di Taylor con resto di Peano).
Dimostrazione.
Applicando a ϕ la formula di McLaurin otteniamo
φ(1) = φ(0) + φ0 (0) + φ00 (ξ )/2 0 < ξ < 1
da cui tenuto conto che
φ0 (t) = hh, ∇ f ( x + th)i
φ00 (t) = hh, H f ( x + th)hi
si ricava la prima affermazione

Inoltre
f ( x + h) = f ( x ) + h∇ f ( x ), hi + hh, H f ( x )hi/2 + k hk2 ω (h)
hh, ( H f ( x + ξ h h) − H f ( x ))hi
ω (h) =
2k h k2
dove limh→0 ω (h) = 0 in quanto H f è continuo e
|ω (h)| ≤ k H f ( x + ξ h h) − H f ( x )k/2, kξ h hk ≤ khk.
7.5 Massimi e Minimi Relativi
Definizione 7.11 Diciamo che x è un punto di minimo (massimo) relativo

per f se esiste una sfera S( x, r ), r > 0, tale che
f (y) ≥ f ( x ) ( f (y) ≤ f ( x ) ) ∀y ∈ S( x, r ) ∩ A
Teorema 7.12 Se x è un punto di minimo (massimo) relativo per f interno

al suo dominio, allora
• se f è differenziabile in x si ha ∇ f ( x ) = 0;
• se f ammette derivate seconde continue in x, H f ( x ) è semidefinita positiva

(negativa).

Dimostrazione. Basta osservare che ϕ(t) = f ( x + th) ammette un

punto di minimo relativo in 0 e che ∀h ∈ S(0, r )
0 = φ0 (0) = h∇ f ( x ), hi
ed anche
0 ≤ φ”(0) = hh, H f ( x )hi
La prima condizione assicura che ∇ f ( x ) = 0, mentre la seconda è,

per definizione, la semidefinitezza di H f ( x ). 2
Se ∇ f ( x ) = 0 e H f ( x ) è una forma quadratica non definita, allora x
non è né punto di massimo relativo, né punto di minimo relativo per
f ; un punto siffatto viene solitamente indicato con il nome di ’punto
sella’.
Teorema 7.13 Se f ∈ C 2 ( A),
• ∇ f (x) = 0
• H f ( x ) è definita positiva (negativa)
allora x è punto di minimo (massimo) relativo per f .
f ( x + h) − f ( x ) = hh, H f ( x )hi/2 + khk2 ω (h)
con limh→0 ω (h) = 0 = ω (0).

Se ne deduce che

f ( x + h) − f ( x ) 1 h h
= , H f (x) + ω (h) ≥
k h k2 2 khk khk

1 M
≥ min hu, H f ( x )ui : kuk = 1 + ω (h) = + ω (h)
2 2
dove
M = min{hu, H f ( x )ui : kuk = 1} = hu0 , H f ( x )u0 i > 0
in quanto ku0 k = 1
(Il minimo esiste per il teorema di Weierstraßed M > 0 perché Hf(x)
è definita positiva e u0 6= 0.)
Pertanto, per il teorema della permanenza del segno, si può sceglie-
re ρ > 0 in modo che, se h ∈ S(0, ρ), si abbia
f ( x + h) − f ( x )
>0
k h k2
e la tesi. 2

7.6 Convessità
Definizione 7.12 Sia f : A −→ R, A ⊂ Rn convesso; diciamo che f è

convessa se
f (λx + (1 − λ)y) ≤ λ f ( x ) + (1 − λ) f (y) ∀ x, y ∈ A, ∀λ ∈ (0, 1)
Inoltre f si dice strettamente convessa se vale la disuguaglianza stretta.
possiamo dimostrare che
• Se f è convessa su un aperto A, f 0 ( x, y) esiste ∀ x ∈ A, ∀y ∈ Rn .
• se f ∈ C 2 ( A), allora sono fatti equivalenti:
– f è convessa
f (y) ≥ f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A
– H f ( x ) è semidefinita positiva.
• le seguenti condizioni sono ciascuna sufficiente per la

successiva:
– H f ( x ) è definita positiva ∀ x ∈ A;
– f (y) > f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A, y 6= x ;
– f è strettamente convessa.
7.7 Convessità
Osservazione. Si può provare, come per le funzioni di una variabile,

che f è convessa in A se e solo se
k k
f ( ∑ λi xi ) ≤ ∑ λi f ( xi )
i =1 i =1
∀ xi ∈ A, λi ∈ (0, 1), ∑ik=1 λi = 1 2
Teorema 7.14 Sia f : A −→ R, A ⊂ Rn convesso, allora L−

α è un insieme
convesso per ogni α ∈ R.
Dimostrazione. Se f ( x ) ≤ α e f (y) ≤ α, allora
f (λx + (1 − λ)y) ≤ λ f ( x ) + (1 − λ) f (y) ≤ α.

Osserviamo che la convessità di L− α non è sufficiente per la conves-

sità di f , come f ( x ) = lnx dimostra.
Osserviamo anche che, posto
{v1 , v2 , .., v2n } = {e1 , .., en , −e1 , .., −en }

si ha
B( x, r ) = {y ∈ Rn : ky − x k1 ≤ r } =
2n 2n
= { y ∈ Rn : y = ∑ λi (x + rvi ), ∑ λi = 1, λi ≥ 0}
i =1 i =1
Sia infatti ky − x k1 ≤ r, allora

n
y−x = ∑ ( y − x ) i ei
i =1
e
n 2n
y = x + ∑ |(y − x )i |sgn[(y − x )i ]ei = ∑ λi (x + rvi )
i =1 i =1
Qualora a = ∑2n i =1 λi < 1 è sufficiente sommare be1 + b (− e1 ) essen-

do b = (1 − a)/2.
Viceversa k ∑2n 2n
i =1 λi rvi k ≤ ∑i =1 rλi = r.
Teorema 7.15 Sia f : A −→ R, A ⊂ Rn convesso e aperto, e sia f

convessa; allora
f è continua in A
f 0 ( x, y) esiste ∀ x ∈ A, ∀y ∈ Rn .
Dimostrazione. Sia x ∈ A e proviamo che f è continua in x.

Dal momento che A è aperto, A ⊃ B( x, r ) con r > 0, e se y ∈
B( x, r ), y = x + th, k hk1 = r, t ∈ (0, 1]
2n 2n
f (y) = f ( ∑ λi ( x + rvi )) ≤ ∑ λi f (x + rvi ) = m
i =1 i =1
Per il lemma 13.3 si ha
f ( x + th) − f ( x )
f ( x ) − m ≤ f ( x ) − f ( x − h) ≤ ≤ f ( x + h) − f ( x ) ≤ m − f ( x )
t
e
| f ( x + th) − f ( x )| ≤ t|m − f ( x )|
Pertanto
k y − x k1
| f (y) − f ( x )| ≤ |m − f ( x )|
r
Ne segue la continuità di f in x.

Per quanto riguarda il secondo punto è sufficiente osservare che, se

t ∈ (−1, 1), si può definire ∀y ∈ Rn
φ(t) = f ( x + ty)
e si può applicare il teorema 13.4 a φ. 2
Teorema 7.16 Sia f : A −→ R, A ⊂ Rn convesso, aperto; supponiamo

inoltre f ∈ C 2 ( A), allora f è convessa se e solo se
f (y) ≥ f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A
se e solo se H f ( x ) è semidefinita positiva.
Dimostrazione. f è convessa se e solo se φvz : [0, 1] −→ R definita da
φvz (t) = f (v + t(z − v))
è convessa ∀z, v ∈ A, e questo, per il teorema 13.10, è vero se e solo se
0
φvz (t) ≥ φvz (s) + φvz (s)(t − s) ∀t, s ∈ [0, 1], ∀z, v ∈ A
cioè se e solo se
f (v + t(z − v)) ≥ f (v + s(z − v)) + h∇ f (v + s(z − v)), z − vi(t − s)
∀t, s ∈ [0, 1], ∀z, v ∈ A

se e solo se
f (y) ≥ f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A
Inoltre φvz è convessa se e solo se φ”vz (t) ≥ 0 ∀t ∈ (0, 1), corollario

13.9, e pertanto se e solo se
hh, H f ( x )hi ≥ 0 ∀h ∈ Rn , ∀ x ∈ A.
Teorema 7.17 Sia f : A −→ R, A ⊂ Rn aperto e convesso, f ∈ C 2 ( A);

allora le seguenti condizioni sono ciascuna sufficiente per la successiva:
• H f ( x ) è definita positiva ∀ x ∈ A;
• f (y) > f ( x ) + h∇ f ( x ), y − x i ∀ x, y ∈ A, y 6= x ;
• f è strettamente convessa.
Dimostrazione. 1) ⇒ 2). Si ha
f (y) − f ( x ) − h∇ f ( x ), y − x i = hy − x, H f (ξ )(y − x )i > 0, ξ ∈ A, x 6= y

2) ⇒ 3). Si ha
f (y) > f (λx + (1 − λ)y) + h∇ f (λx + (1 − λ)y), λ(y − x )i
f ( x ) > f (λx + (1 − λ)y) + h∇ f (λx + (1 − λ)y), −(1 − λ)(y − x )i
moltiplicando la prima per (1 − λ), la seconda per λ e sommando, si

ha
λ f ( x ) + (1 − λ) f (y) > f (λx + (1 − λ)y).
2
Teorema 7.18 Sia f : Rn −→ R, strettamente convessa e supponiamo che

f ( x ) → +∞ se x → ∞ ; allora esiste uno ed un solo punto x ∈ Rn tale che
f ( x ) = min{ f (y) : y ∈ Rn }.
Dimostrazione. L’esistenza di x discende dai teoremi 25.39 e 25.13;

se esistesse z con le stesse caratteristiche di x, si avrebbe
f ( x ) = λ f ( x ) + (1 − λ) f (z) > f (λx + (1 − λ)z) ∀λ ∈ (0, 1)
e ciò è assurdo. 2
Corollario 7.3 Sia f : Rn −→ R, f ∈ C 2 (Rn ), e supponiamo che
hh, H f ( x )hi ≥ mkhk2 ∀h ∈ Rn , m > 0
Allora f è strettamente convessa e limx→∞ f ( x ) = +∞.
Dimostrazione. H f è evidentemente definita positiva ed inoltre
f ( x ) = f (0) + h∇ f (0), x i + h x, H f (ξ ) x i/2 ≥
≥ f (0) − k∇ f (0)kk x k + mk x k2 /2.

2
Teorema 7.19 Sia f : Rn −→ R, f ∈ C 2 (Rn ) e supponiamo che esistano

m, M > 0 tali che
mk hk2 ≤ hh, H f ( x )hi ≤ M khk2 ∀h, x ∈ Rn
Allora f ammette un unico punto x di minimo assoluto e, definita la succes-

sione xk mediante le
2
x 0 ∈ Rn , x k +1 = x k − α ∇ f ( x k ) , 0 < α < ,
M
si ha
k x k − x k ≤ c k k x0 − x k
ove
c = max{|1 − αm|, |1 − αM |} < 1.
Ne segue che xk → x.

Dimostrazione. L’esistenza e l’unicità di x seguono dal corollario

25.43, e si ha ∇ f ( x ) = 0; pertanto
k xk+1 − x k2 = h xk+1 − x, xk+1 − x i =

= h xk − x − α(∇ f ( xk ) − ∇ f ( x )), xk+1 − x i =
= h( I − αH f (ξ ))( xk − x ), xk+1 − x i
con ξ opportuno, non appena si applichi il teorema di Lagrange alla

funzione
g ( s ) = h s − α ∇ f ( s ) , x k +1 − x i
e si ricordi che
∇ g(s)( xk − x ) = h( I − αH f (s))( xk − x ), xk+1 − x i
Quindi
k xk+1 − x k2 ≤ k( I − αH f (ξ ))( xk − x )kk xk+1 − x k
k xk+1 − x k ≤ k( I − αH f (ξ ))( xk − x )k ≤ k I − αH f (ξ )k0 k xk − x k
Dalle condizioni imposte su H f si ottiene allora che
h h
(1 − αM) ≤ h( I − αH f (ξ )) , i ≤ (1 − αm)
khk khk
Ne viene
k I − αH f (ξ )k0 ≤ c
e
k x k +1 − x k ≤ c k x k − x k
da cui si può concludere. 2
Osserviamo che il precedente teorema assicura che xk → x e ne
valuta la velocità di convergenza che è maggiore quanto più è piccolo
c.
A tale proposito si può vedere che
M−m
min0<α<2/M max{|1 − αm|, |1 − αM |} =
M+m
e si ottiene per α = 2/( M + m).
Teorema 7.20 Sia f : R2 −→ R, f ∈ C 1 (R2 ), strettamente convessa, e

supponiamo che
lim f ( x, y) = +∞
( x,y)→∞
allora, se definiamo una successione ( xk , yk ) mediante le
( x 0 , y 0 ) ∈ R2

xk+1 tale che f ( xk+1 , yk ) = min{ f ( x, yk ) : x ∈ R }

yk+1 tale che f ( xk+1 , yk+1 ) = min{ f ( xk+1 , y) : y ∈ R },
si ha che ( xk , yk ) converge all’unico punto (x,y) di minimo assoluto per f .
Dimostrazione. L’esistenza di ( xk+1 , yk+1 ) segue dalla continuità di

f e dal fatto che f ( x, y) −→ +∞ per ( x, y) → ∞.
Si ha inoltre
(25.1) f ( x k +1 , y k +1 ) ≤ f ( x k +1 , y k ) ≤ f ( x k , y k )
e
f x ( x k +1 , y k ) = f y ( x k , y k ) = 0
Si ha pertanto che f ( xk , yk ) è una successione decrescente e ne
segue:
f ( x k , y k ) ≤ f ( x0 , y0 )
f ( xk , yk ) → λ
f ( x k +1 , y k ) → λ
Dal momento che f → +∞ si deduce che ( xk , yk ) è limitata e si

può pertanto affermare che ogni sua estratta ha una estratta ( xk0 , yk0 )
soddisfacente le seguenti condizioni
xk0 → x, xk0 +1 → ξ, yk0 → y.
Per la (25.1) e per la continuità di f e delle sue derivate parziali si

ha
f (ξ, y) = lim f ( xk0 +1 , yk0 ) = lim f ( xk0 , yk0 ) = f ( x, y)
f x (ξ, y) = 0 = f y ( x, y)
Pertanto, per la stretta convessità di f, ξ è l’unico punto di minimo
di f (,̇y) e ne segue ξ = x.
Quindi ∇ f ( x, y) = 0; dal momento che f è strettamente convessa,
( x, y) è l’unico punto di minimo di f , e per il teorema 6.10 l’intera
successione ( xk , yk ) converge ad ( x, y). 2
Vogliamo ora tentare di dare una stima della velocità di convergenza
dei metodi di minimizzazione numerica che abbiamo presentato.
Definizione 7.13 Sia f : A → R e sia a ⊂ Rn un aperto, sia M f ⊂ A un

insieme, definito mediante la funzione f , che si vuole raggiungere.
Diciamo che F : A → P ( A) (l’insieme delle parti di A) è una funzione
di discesa verso M f se
(1) x∈
/ Mf , y ∈ F ( x ) ⇒ f (y) < f ( x )
Diciamo inoltre che F è una funzione di discesa chiusa se
(2) ( xk , yk ) → (ξ, η ) , yk ∈ F ( xk ), ξ 6∈ M f ⇒ η ∈ F (ξ ),

Teorema 7.21 Sia f : A → R e sia a ⊂ Rn f : A → R un aperto e sia

f continua in A. sia F una funzione di discesa verso M f e consideriamo la
successione xk definita da
(3) x0 ∈ A x k +1 ∈ F ( x k )
Supponiamo inoltre che xk ∈ K ⊂ A, ove K è un sottoinsieme compatto;

allora una delle seguenti condizioni è verificata:
1. xk ∈ M f per qualche k ∈ N
2. per ogni sottosuccessione xk h of xk , xk h → ξ, si ha ξ ∈ M f .
Dimostrazione. Dimostriamo che se 1) è falsa allora 2) è verificata.

Poichè xk ∈ K, che è compatto, possiamo supporre che
( xk h , xk h +1 ) → (ξ, η )
inoltre, poichè xk 6∈ M f , f ( xk ) è strettamente decrescente e si ha
λ = inf{ f ( xk )} = lim f ( xk )
ne deduciamo che, per la continuità di f ,
λ = lim f ( xk h ) = lim f ( xk h +1 ) = f (ξ ) = f (η )
Ciò dimostra che ξ ∈ M f . Infatti se non fosse così dovremmo avere,

poichè xk h +1 ∈ F ( xk h ) ed F è una funzione di discesa chiusa,
η ∈ F (ξ ) e f (η ) < f (ξ )
il che non è possibile. 2
Corollario 7.4 Sia f : A → R e sia a ⊂ Rn un aperto, sia f una funzione

continua e supponiamo che esista L ∈ R tale che
{ x ∈ A : f ( x ) ≤ L} = S L
sia un insieme limitato.

Allora S L è compatto e se xk è una successione definita come in (3) da
x0 ∈ S L , si ha xk ∈ S L .
Quando A = Rn e
lim f ( x ) = +∞
x →∞
allora esiste almeno un L ∈ R tale che { x ∈ A : f ( x ) ≤ L} = S L is un
insieme limitato.
Teorema 7.22 sia f : A → R e sia a ⊂ Rn un aperto , sia f ∈ C1 ( A) e

supponiamo che esista L ∈ R tale che { x ∈ A : f ( x ) ≤ L} = S L sia un
insieme limitato. Definiamo
M f = { x ∈ A : ∇ f ( x ) = 0}

e una funzione di discesa verso M − f F mediante la
∇ f (x)
F ( x ) = x + α0
k∇ f ( x )k
essendo α0 scelto in modo che

∇ f (x) ∇ f (x)
f x + α0 = min f x + α :α∈R .
k∇ f ( x )k k∇ f ( x )k
allora F è una funzione di discesa chiusa.
Dimostrazione. Osserviamo innanzi tutto che se y ∈ F ( x ) si ha
f (y) = f ( F ( x )) ≤ f ( x )
Inoltre se fosse f (y) = f ( x ), t = 0 sarebbe argomento di minimo per

f ( x + t∇ f ( x )/k∇ f ( x )k) e avremmo

d ∇ f (x)
0= f x+α =
dα k∇ f ( x )k α =0

∇ f (x) ∇ f (x)
= ∇f x + α ,
k∇ f ( x )k k∇ f ( x )k α=0
perciò ∇ f ( x ) = 0 e x ∈ M f .
Inoltre se ( xk , yk ) → (ξ, η ), yk ∈ F ( xk ) e ξ ∈
/ M f si ha ∇ f ( xk ) →
∇ f ( ξ ), ∇ f ( ξ ) 6 = 0
∇ f ( xk )
yk = xk + αk
k∇ f ( xk )k
e
M ≥ kyk − xk k = |αk |
perciò possiamo supporre che αn → ᾱ a meno di considerare una

sottosuccessione che chiameremo ancora αn .
Per la continuità
∇ f (ξ )
η = ξ + ᾱ
k∇ f (ξ )k
inoltre, poichè

∇ f ( xk ) ∇ f ( xk )
f xk + αk ≤ f xk + α ∀α ∈ R
k∇ f ( xk )k k∇ f ( xk )k
si ha

∇ f (ξ ) ∇ f (ξ )
f ξ + ᾱ ≤ f ξ+α ∀α ∈ R
k∇ f (ξ )k k∇ f (ξ )k
e η ∈ F ( ξ ). 2

Teorema 7.23 Sia f : A → R e sia a ⊂ Rn un aperto , supponiamo che f

ammetta derivate parziali prime in A e supponiamo che esista L ∈ R tale che
{ x ∈ A : f ( x ) ≤ L} = S L sia un insieme limitato.
Definiamo
M f = { x ∈ A : f xi ( x ) = 0 ∀i = 1 . . . n }
e una funzione di discesa verso M f mediante la

n
F ( x ) = x + ∑ α i ei
i =1
ove αi sono scelti in modo che
f ( x + α1 e1 ) ≤ f ( x + αe1 ) ∀α ∈ R
f ( x + α1 e1 + α2 e2 ) ≤ f ( x + α1 e1 + αe2 ) ∀α ∈ R
......................................................
! !
n −1 n −1
f x+ ∑ α i ei + α n e n ≤ f x+ ∑ αi ei + αen ∀α ∈ R
i =1 i =1
allora F è una funzione di discesa chiusa.
Dimostrazione. Osserviamo innanzi tutto che se y ∈ F ( x ) si ha
f (y) ≤ f ( F ( x )) ≤ f ( x )
e che per f (y) = f ( x ) deve essere
f xi ( x ) = 0 ∀i = 1 . . . n e ∀ x ∈ M f
Inoltre se scegliamo
( xk , yk ) → (ξ, η ) yk ∈ F ( xk ) , ξ∈
/ Mf ;
allora
n
yk = xk + ∑ αik ei
i =1
e, poichè
!
j
f xk + ∑ αik ei ≤ L,
i =1
possiamo supporre che αik → αi , a meno di passare ad una estratta.

Ora, se ricordiamo che
!
j
f xk + ∑ αik ei ≤
i =1
!
j −1
≤ f xk + ∑ αik ei + αe j ∀α ∈ R ∀ j
i =1

e passiamo al limite, la continuità assicura che

!
j
f ξ + ∑ α i ei ≤
i =1
!
j −1
≤ f ξ+ ∑ αi ei + αe j ∀α ∈ R ∀ j
i =1
e η ∈ F ( ξ ). 2
Cerchiamo ora di valutare la velocità di convergenza del metodo del
gradiente e del metodo di discesa componente per componente.
Lemma 7.1 sia f : A → R e sia a ⊂ Rn un aperto, sia inoltre f ∈ C2 ( A).

Supponiamo che
0 < mk hk2 ≤ h H f ( x )h, hi ≤ M khk2 .
Allora si ha
M−m
m ≤ f xi xi ( x ) ≤ M e | f xi x j ( x )| ≤ .
2
Inoltre, se ∇ f ( a) = 0 si ha
mkhk2 ≤ h∇ f ( a + h), hi ≤ Mk hk2
e
m M
k h k2 ≤ f ( a + h ) − f ( a ) ≤ k h k2 .
2 2
Dimostrazione. Se scegliamo h = ei ed usiamo le ipotesi, possiamo
ottenere
m ≤ f xi xi ( x ) ≤ M,
inoltre poichè H f ( x ) è simmetrica si ha
1
h H f ( x )h, ki = (h H f ( x )(h + k), (h + k)i − h H f ( x )(h − k), (h − k)i) ≤
4
1
≤ M k h + k k2 − m k h − k k2
4
e se poniamo h = ei , k = e j
1
f xi ( x ) ≤ (2M − 2m) = M − m2.
xj 4
In maniera del tutto simile si ottiene

m−M
f xi x j ( x ) ≥ .
2
Quando ∇ f ( a) = 0, se consideriamo
ϕ(t) = h∇ f ( a + th), hi t ∈ [0, 1]

si ha
ϕ (1) − ϕ (0) = ϕ 0 ( τ ) τ ∈ [0, 1]
h∇ f ( a + h), hi = h H f ( a + τk)h, hi τ ∈ [0, 1]
e
mkhk2 ≤ h∇ f ( a + h), hi ≤ M khk2
mentre se consideriamo
ϕ(t) = f ( a + th) t ∈ [0, 1]
si ha
ϕ00 (σ )
ϕ (1) − ϕ (0) − ϕ 0 (0) = σ ∈ [0, 1]
2
h H f ( a + σh)h, hi
f ( a + h) − f ( a) = σ ∈ [0, 1]
2
e
m M
k h k2 ≤ f ( a + h ) − f ( a ) ≤ k h k2
2 2
2
Lemma 7.2 Sia f : A → R, sia a ⊂ Rn un aperto e sia f ∈ C2 ( A). Sia

inoltre a ∈ A e h ∈ Rn .
Definiamo ϕ(t) = f ( a + th) e sia T ∈ R tale che
m
ϕ( T ) = in{ ϕ(t) : t ∈ R a + th ∈ A}
2M2
allora possiamo trovare τ, σ ∈ [− T, T ] tale che
ϕ 0 (0) h∇ f ( a), hi
T=− =− ,
ϕ00 (τ ) h H f ( a + τh)h, hi
e
ϕ00 (σ ) 2
ϕ(0) − ϕ( T ) = f ( a) − f ( a + Th) = T =
2
1 h H f ( a + σh)h, hi
= (h∇ f ( a), hi)2
2 h H f ( a + τh)h, hi2
ϕ0 (0) = ϕ0 (0) − ϕ0 ( T ) = − ϕ00 (τ ) T τ ∈ [− T, T ]
e
ϕ 0 (0)
T=− τ ∈ [− T, T ]
ϕ00 (τ )
Inoltre

f ( a) − f ( a + Th) =
ϕ00 (σ ) 2
ϕ (0) − ϕ ( T ) + ϕ 0 ( T ) T = T =
2
2
ϕ00 (σ ) ϕ0 (0)
2 ϕ00 (τ )
Pertanto possiamo concludere se ricordiamo che
ϕ0 (t) = h∇ f ( a + th), hi
ϕ00 (t) = h H f ( a + th)h, hi

2
Teorema 7.24 Sia f : A → R e sia a ⊂ Rn un aperto, sia f ∈ C2 ( A) e

supponiamo che
mkhk2 ≤ h H f ( x )h, hi ≤ M khk2 .
con 0 < m ≤ M.
Sia xk la successione definita per mezzo del metodo del gradiente (teorema
4). Chiamiamo a l’unico punto di minimo per f su A; si ha
2k 1
m3 2 2
k xk − ak ≤ 1− 3 [ f ( x0 )) − f ( a)] .
M M
Dimostrazione. Per le ipotesi di crescita ammesse f ha i livelli limita-
ti, inoltre poichè f è continua, i suoi livelli sono chiusi e quindi anche
compatti.
Se ricordiamo che f ( xk ) ≤ L per un opportuno L possiamo dedurre
che xk è contenuta in un compatto.
Inoltre continuità e compattezza garantiscono l’esistenza del mini-
mo a mentre la stretta convessità assicura la sua unicità.
Ora sia ϕk (t) = f ( xk + tdk ) dove
∇ f ( xk )
dk =
k∇ f ( xk )k
si ha xk+1 = xk + α0k dk , e per il lemmi 6 e 7,
ϕk (0) − ϕk (α0k ) ≥
1 m
≥ (h∇ f ( xk ), dk i)2 =
2 M2
1 m
= k∇ f ( xk )k2 ≥
2 M2
1 m3
≥ k x − a k2 ≥
2 M2 k
1 m3 2
≥ [ f ( xk ) − f ( a)].
2 M2 M

Pertanto possiamo dedurre che
m3
f ( x k ) − f ( x k +1 ) ≥ ( f ( xk ) − f ( a))
M3
e
m3
f ( x k +1 ) − f ( a ) ≤ 1− ( f ( xk ) − f ( a))
M3
da cui
k
m m3
k x − a k2 ≤ f ( x k ) − f ( a ) ≤ 1− [ f ( x0 ) − f ( a)]
2 k M3
e
2k 1
m3 2 2
k xk − ak ≤ 1− 3 ( f ( x0 ) − f ( a)) .
M m
2
Passiamo infine a studiare la velocità di convergenza del metodo di
discesa componente per componente descritto nel teorema 5.
Lemma 7.3 Sia f : A → R e sia a ⊂ Rn un aperto, sia f ∈ C2 ( A) tale che
mkhk2 ≤ h H f ( x )h, hi ≤ M khk2
with 0 < m ≤ M.
Sia inoltre xk la successione definita nel teorema 5.
Denotiamo con ξ i = ξ ki i valori che consentono di calcolare xk+1 a partire
da xk ; i.e. siano
i
ξ i = ξ ki = xk + ∑ αkh eh i = 1...n
h =1
ovviamente si ha ξ kn = xk+1 ; poniamo anche
f j,i = f x j (ξ i );
allora esistono a j,i ∈ R, 1 ≤ i ≤ j ≤ n tali che
j
f j,j−1 = ∑ a j,i fi,0 .
i =1
Inoltre se definiamo
M−m
ϑ=
2m
si ha
a j,j = 1 e | a j,i | ≤ θ (1 + θ ) j−i−1 se i<j

Dimostrazione. Se applichiamo il teorema di Lagrange a f x j in [ξ i , ξ i−1 ]

(e ricordiamo che ξ i = ξ i−1 + αik ei ) otteniamo
f x j (ξ i ) = f x j (ξ i−1 ) + f x j ,xi (ηi )αik
ηi = ξ i − 1 + τ ( ξ i − ξ i − 1 ) , τ ∈ [0, 1].
Per i lemmi 6 e 7 si ha
f x i ( ξ i −1 )
αik = −
f xi ,xi (ζ i )
ove
ζ i = ξ i + σ ( ξ i − ξ i −1 ) , σ ∈ [0, 1]
e se poniamo
f x j ,xi (ηi )
ϑ j,i = −
f xi ,x j (ζ i )
si ha
M−m
|ϑ j,i | ≤ =ϑ
2m
e
f j,i = f j,i−1 + ϑ j,i f i,i−1 .
Sommando su i = 1 . . . j − 1 si ottiene
f j,j−1 = f j,j−2 + ϑ j,j−1 f j−1,j−2
f j,j−2 = f j,j−3 + ϑ j,j−2 f j−2,j−3

···············
f j,1 = f j,0 + ϑ j,1 f 1,0
e
j −1
f j,j−1 = f j,0 + ∑ ϑj,i fi,i−1 .
i =1
Ora cerchiamo a j,i ∈ R tale che
j j −1
f j,j−1 = ∑ a j,i fi,0 = a j,j f j,0 + ∑ a j,i fi,0
i =1 i =1
Deve risultare
j −1 i
f j,j−1 = f j,0 + ∑ ϑj,i ∑ ai,h f h,0 =
i =1 h =1
j −1 i
= f j,0 + ∑ ∑ ϑj,i ai,h f h,0 =
i =1 h =1
j −1 j −1
= f j,0 + ∑ ∑ ϑj,i ai,h f h,0
h =1 i = h

così che deve essere

j −1
a j,j = 1 e a j,h = ∑ ϑj,i ai,h .
i=h
Infine dimostriamo che
( Pj ) {∀h < j | a j,h | ≤ ϑ(1 + ϑ) j−h−1 }
risulta verificata per j ∈ N j ≥ 2.

Ovviamente si ha
( P2 ) |ϑ2,1 | = | a2,1 | ≤ ϑ(1 + ϑ)2−1−1 = ϑ
D’altro canto, se supponiamo ( Pj ) true e consideriamo
( Pj+1 ) {∀h < j + 1 | a j+1,h | ≤ ϑ(1 + ϑ) j−h }
si ha

j

| a j+1,h | = ∑ ϑ j+i,i ai,h ≤
i = h

j

≤ ∑ ϑ j+i,i ai,h + |ϑ j+1,h ah,h | ≤
i = h +1
j j
≤ ϑ+ ∑ ϑ | ai,h | ≤ ϑ + ∑ ϑ (ϑ (1 + ϑ )i−(h+1) ) =
i = h +1 i = h +1
!
j−(h+1)
= ϑ 1+ϑ ∑ (1 + ϑ ) i
=
i =0
!
1 − (1 + ϑ ) j − h
=ϑ 1 + ϑ( ) =
1 − (1 + ϑ )
!
1 − (1 + ϑ ) j − h
=ϑ 1 + ϑ( ) =
−ϑ

= ϑ 1 − 1 + (1 + ϑ ) j − h = ϑ (1 + ϑ ) j − h .
Teorema 7.25 Sia f : A → R e sia a ⊂ Rn un aperto, sia f ∈ C2 ( A) e

supponiamo che
mkhk2 ≤ h H f ( x )h, hi ≤ Mk hk2 .
with 0 < m ≤ M.
Sia xk la successione generata mediante il metodo di discesa componente
per componente come è definito nel teorema 5.
Allora, se a è l’unico punto di minimo per f su A, esiste K ∈ R, H ∈ R,
0 < H < 1 tale che
k xk − ak ≤ KH k

Dimostrazione. Possiamo provare, esattamente come nel teorema 8,

esistenza e unicità del minimo e compattezza degli insiemi di livello.
Pertanto xk è contenuta in un compatto di Rn .
Con le notazioni del precedente lemma 9possiamo asserire, usando
il lemma 7, che
m 2 m 2
f (ξ 0 ) − f (ξ 1 ) ≥ f (ξ 0 ) = f
2M2 x1 2M2 1,0
m 2 m 2
f (ξ 1 ) − f (ξ 2 ) ≥ f x2 ( ξ 1 ) = f
2M 2 2M2 2,1
···············
m 2 m 2
f ( ξ n −1 ) − f ( ξ n ) ≥ f x n ( ξ n −1 ) = f
2M 2 2M2 n,n−1
e se sommiamo entrambi i membri delle disuguaglianze otteniamo
f ( ξ 0 ) − f ( ξ n ) = f ( x k ) − f ( x k +1 ) ≥
n
m
≥
2M2 ∑ f j,j2 −1 .
j =1
Ma per il lemma 9 possiamo concludere che

!2
n n j −1
F= ∑ 2
f j,j −1 = ∑ f j,0 + ∑ a j,i fi,0 =
j =1 j =1 i =1
= k Mϕk2
non appena si definisca la matrice M e il vettore ϕ per mezzo della
M = ( a ji ) e ϕ = ( f j,0 ) = ∇ f ( xk )
ove a ji = 0 when i > j.

Dal momento che M è triangolare e a j,j = 1, si ha detM = 1 e
Mϕ = 0 ⇔ ϕ = 0 ⇔ ∇ f ( xk ) = 0;
so Mϕ 6= 0.
allora possiamo dedurre che
k Mϕk2 k M∇ f ( xk )k2
= 6= 0
k ϕ k2 k∇ f ( xk )k2
e, poichè | ai,j | ≤ L possiamo asserire che k M−1 k è uniformemente

limitata rispetto a k e
1
k M −1 x k ≤ m kxk
2M2
u

Pertanto
m
k Mx k ≥ uk x k
2M2
e
m k M∇ f ( xk )k2 m
2
in = u>0
2M k∇ f ( xk )k2 2M2
Possiamo infine concludere che
m m
f ( x k ) − f ( x k + 1) ≥ 2
k∇ f ( xk )k2 u
2M 2M2
e la stima si ottiene come nel teorema 8. 2
7.8 Funzioni Implicite
Se
f : A −→ R A ⊂ R2
è una funzione reale di due variabili reali possiamo considerare l’in-
sieme definito in R2 da
G = {( x, y) ∈ A : f ( x, y) = 0 }
È naturale, per studiare tale insieme, cercare una funzione φ il cui

grafico coincida localmente con G.
Ciò è equivalente a risolvere rispetto ad y l’equazione f ( x, y) = 0,
ed è il procedimento che si segue quando, per studiare il luogo dei
punti del piano in cui
x 2 + y2 = 1
si ricava, ad esempio,
p p
y = 1 − x2 oppure y=− 1 − x2
Nel caso in cui non sia facile esplicitare una delle due variabili in
funzione della seconda, siamo interessati a sapere se è possibile defi-
nire una delle due variabili in funzione dell’altra e a studiare qualche
proprietà della funzione che evidentemente non è possibile scrivere
esplicitamente in termini di funzioni elementari.
Teorema 7.26 - Dini - Sia A = ( x0 − a, x0 + a) × (y0 − b, y0 + b), f :

A −→ R e supponiamo che le seguenti condizioni siano verificate:
f ∈ C 1 ( A)
f ( x0 , y0 ) = 0
f y ( x0 , y0 ) 6 = 0
Allora esiste δ > 0 ed esiste φ : ( x0 − δ, x0 + δ) −→ (y0 − b, y0 + b) tale
che
φ ( x0 ) = y0

f ( x, y) = 0 ⇔ y = φ( x ), ∀ x ∈ ( x0 − δ, x0 + δ)
φ è derivabile in ( x0 − δ, x0 + δ) e
f x ( x, φ( x ))
φ0 ( x ) = − .
f y ( x, φ( x ))
Figura 7.2: Il teorema delle funzioni

implicite
Dimostrazione. Sia f y ( x0 , y0 ) > 0 e siano α, β scelti in modo che

0 < α < a, 0 < β < b e f y ( x, y) > M > 0 se | x − x0 | ≤ α e |y −
y0 | ≤ β (ciò è possibile per la continuità di f y e per il teorema della
permanenza del segno).
Ora, evidentemente, f ( x0 , ·) è una funzione strettamente crescente
in [y0 − β, y0 + β] e pertanto
f ( x0 , y0 − β ) < f ( x0 , y0 ) = 0 < f ( x0 , y0 + β )
Ancora per il teorema della permanenza del segno, applicato ad

f (·, y0 − β) e ad f (·, y0 + β), si può scegliere 0 < δ ≤ α, in modo che
se
| x − x0 | < δ
si abbia
f ( x, y0 − β) < 0, f ( x, y0 + β) > 0
Pertanto se | x − x0 | < δ, |y − y0 | < β, si ha
f y ( x, y) > 0, f ( x, y0 − β) < 0, f ( x, y0 + β) > 0
e per ogni x ∈ ( x0 − δ, x0 + δ) si può affermare che esiste uno ed un

solo valore y ∈ (y0 − β, y0 + β) tale che f ( x, y) = 0 (teorema degli zeri
e stretta crescenza di f ( x, ·)).
Possiamo pertanto definire φ : ( x0 − δ, x0 + δ) −→ (y0 − β, y0 + β)
mediante la φ( x ) = y.
Vediamo ora di provare che φ è continua e derivabile in ( x0 − δ, x0 +
δ ).
Siano x, x + h ∈ ( x0 − δ, x0 + δ), allora
f ( x + h, φ( x + h)) − f ( x, φ( x )) = 0

e pertanto, se definiamo k (h) = φ( x + h) − φ( x ), avremo
f ( x + h, φ( x ) + k (h)) − f ( x, φ( x )) = 0
Per il teorema di Lagrange si ha
f x ( x + τh, φ( x ) + τk(h))h + f y ( x + τh, φ( x ) + τk(h))k (h) = 0
con 0 < τ < 1, x + τh ∈ ( x0 − δ, x0 + δ) e φ( x ) + τk (h) ∈ (y0 − β, y0 +

β), per cui
f x ( x + τh, φ( x ) + τk(h))
φ( x + h) − φ( x ) = −h
f y ( x + τh, φ( x ) + τk(h))
e dal momento che f x ed f y sono continue e
fy ≥ M > 0 se ( x, y) ∈ [ x0 − α, x0 + α] × [y0 − β, y0 + β]
si ha
lim φ( x + h) − φ( x ) = lim k(h) = 0
h →0 h →0
Inoltre
φ( x + h) − φ( x ) f x ( x + τh, φ( x ) + τk (h))
=−
h f y ( x + τh, φ( x ) + τk(h))
e tenuto conto che (h, k(h)) → 0 per h → 0 si può concludere che φ è
derivabile in x e
f x ( x, φ( x ))
φ0 ( x ) = − .
f y ( x, φ( x ))
2
La dimostrazione fatta è evidentemente valida solo nel caso in cui
A ⊂ R2 ed f assuma valori reali, ma l’enunciato, con le dovute modi-
fiche, sussiste anche se A ⊂ Rn × Rm ed f assume valori in Rm .
Teorema 7.27 - funzioni implicite Sia f : A × B −→ Rm ,
A = { x ∈ Rn : k x − x 0 k < a } , B = { y ∈ Rm : k y − y 0 k < b }
e supponiamo che:
• f ∈ C 1 ( A × B)
• f ( x0 , y0 ) = 0
• ∇y f ( x0 , y0 ) sia invertibile.
Allora esistono ρ, δ > 0 ed esiste una funzione
φ : D −→ E
ove
D = { x ∈ Rn : k x − x 0 k < ρ } edE = {y ∈ Rm : ky − y0 k < δ}
tali che

• φ ( x0 ) = y0
• f ( x, y) = 0 ⇔ y = φ( x ), ∀ x ∈ D
• φ è differenziabile in D e si ha
∇φ( x ) = −[∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x )) ∀ x ∈ D.
7.9 Funzioni Implicite
Teorema 7.28 Sia A ⊂ Rn , B ⊂ Rm e sia f : A × B −→ B; supponiamo

che A sia aperto e B sia chiuso, supponiamo inoltre che
k f ( x, y1 ) − f ( x, y2 )k ≤ αky1 − y2 k ∀y1 , y2 ∈ B, ∀ x ∈ A, 0 ≤ α < 1
e che f (,̇y) sia continua in A ∀y ∈ B.

Allora, per ogni x ∈ A esiste uno ed un solo φ( x ) ∈ B tale che
f ( x, φ( x )) = φ( x )
e la funzione φ : A −→ B è continua.
Se inoltre f ∈ C 1 ( A × B), allora φ è differenziabile in A e
∇φ( x ) = [ I − ∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x ))
Dimostrazione. Sia x ∈ A, fissato; usando la dimostrazione del

teorema 14.8 si prova che esiste uno ed un solo φ( x ) ∈ Rm tale che
f ( x, φ( x )) = φ( x )
Vediamo che φ è continua in A. Sia h ∈ Rn tale che x + h ∈ A; si ha
kφ( x + h) − φ( x )k = k f ( x + h, φ( x + h)) − f ( x, φ( x ))k ≤

≤ k f ( x + h, φ( x + h)) − f ( x + h, φ( x ))k+
+ k f ( x + h, φ( x )) − f ( x, φ( x ))k ≤
≤ αkφ( x + h) − φ( x )k + k f ( x + h, φ( x )) − f ( x, φ( x ))k
da cui
1
(25.2) kφ( x + h) − φ( x )k ≤ k f ( x + h, φ( x )) − f ( x, φ( x ))k
1−α
e φ è continua.
Se inoltre f è differenziabile, si ha
φ( x + h) − φ( x ) = f ( x + h, φ( x + h)) − f ( x, φ( x )) =
= ∇ x f ( x, φ( x ))h + ∇y f ( x, φ( x ))k(h) + k(h, k(h))kω (h, k(h))

ove k(h) = φ( x + h) − φ( x ) e ω (h, k) → 0 per (h, k) → 0.

Pertanto
( I − ∇y f ( x, φ( x )))k(h) = ∇ x f ( x, φ( x ))h + k(h, k(h))kω (h, k(h))
Dal momento che
k[ I − ∇y f ( x, y)]kk = kk − [ f ( x, y + k) − f ( x, y)] + kkkω (k)k ≥

≥ kk + kkkω (k)k − k f ( x, y + k) − f ( x, y)k ≥
≥ kkk − kkkkω (k)k − αkkk ≥
≥ kkk(1 − kω (k)k − α) ≥
≥ βkkk
con β > 0, per ogni k di norma sufficientemente piccola, si ha
k[ I − ∇y f ( x, y)]kk ≥ βkkk ∀k
e
[ I − ∇y f ( x, y)]k = 0 ⇔ k = 0
ne segue
det[ I − ∇y f ( x, y)] 6= 0
e [ I − ∇y f ( x, y)] è invertibile. Quindi
φ( x + h) − φ( x ) = k(h) = ( I − ∇y f ( x, φ( x )))−1 ∇ x f ( x, φ( x ))h+
+k(h, k(h))k( I − ∇y f ( x, φ( x )))−1 ω (h, k(h))

Per la continuità di φ si ha k (h) → 0 quando h → 0 e quindi la tesi
non appena si sia tenuto conto che
k(h, k(h))k khk + kk(h)k

≤ ≤M
khk khk
in quanto, per la (25.2),
1
kφ( x + h) − φ( x )k ≤ sup{k∇ x f ( x + ξh0 , φ( x )) : 0 < ξ < 1}khk.
1−α
2
Proviamo ora la generalizzazione del teorema di Dini al caso di più
variabili:
Teorema 7.29 - funzioni implicite - Sia f : A × B −→ Rm , A = { x ∈

Rn : k x − x0 k < a}, B = {y ∈ Rm : ky − y0 k < b} e supponiamo che:
• f ∈ C 1 ( A × B)
• f ( x0 , y0 ) = 0

• ∇y f ( x0 , y0 ) sia invertibile.
Allora esistono ρ, δ > 0 ed esiste una funzione φ : D −→ E ove D =

{ x ∈ Rn : k x − x0 k < ρ} ed E = {y ∈ Rm : ky − y0 k < δ} tali che
• φ ( x0 ) = y0
• f ( x, y) = 0 ⇔ y = φ( x ), ∀ x ∈ D
• φ è differenziabile in D e si ha
∇φ( x ) = −[∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x )) ∀ x ∈ D.
Dimostrazione. Osserviamo innanzi tutto che ∇y f ( x0 , y0 ) è inver-

tibile se e solo se det(∇y f ( x0 , y0 )) 6= 0 e pertanto è possibile tro-
vare α, β > 0 in modo che, se k x − x0 k < α e ky − y0 k < β, si ha
det(∇y f ( x, y)) 6= 0 e quindi ∇y f ( x, y) è invertibile.
Poniamo Q0 = ∇y f ( x0 , y0 ) e definiamo F : A × B −→ Rm mediante
la
F ( x, y) = y − Q0−1 f ( x, y)
Si ha
F ( x0 , y0 ) = y0 ed anche ∇y F ( x0 , y0 ) = I − Q0−1 Q0 = 0,
pertanto, se k x − x0 k ≤ γ e ky − y0 k ≤ δ, si ha
k∇y F ( x, y)k ≤ 1/2
Ne segue che, se k x − x0 k ≤ γ e ky − y0 k ≤ δ, si ha (25.3)
k F ( x, y1 ) − F ( x, y2 )k ≤ (1/2)ky1 − y2 k
ed inoltre, fissato ε < δ/2, è possibile trovare ρ > 0 in modo che se

k x − x0 k < ρ si abbia
k F ( x, y0 ) − F ( x0 , y0 )k < ε
Definiamo allora
D = { x ∈ Rn : k x − x 0 k < ρ } E = { y ∈ Rm : k y − y 0 k < δ } ;
avremo che
F : D × E −→ E in quanto
k F ( x, y) − y0 k = k F ( x, y) − F ( x0 , y0 )k ≤

≤ k F ( x, y) − F ( x, y0 )k + k F ( x, y0 ) − F ( x0 , y0 )k ≤
≤ (1/2)ky − y0 k + ε ≤ δ/2 + δ/2 = δ.
Dal momento che è già stato provato che F ( x, )˙ è una contrazione su E,
si veda la (25.3), possiamo applicare il teorema 25.47 ed affermare che
esiste una ed una sola funzione φ : D −→ E continua e differenziabile
tale che
F ( x, y) = y ⇔ y = φ( x ), ∀ x ∈ D;
per tale funzione si avrà allora
(25.4) f ( x, y) = 0 ⇔ y = φ( x ), ∀x ∈ D
e per completare la dimostrazione basta trovare l’espressione di ∇φ( x ).

A tale scopo osserviamo che, differenziando la (25.4), si ottiene
∇ x f ( x, φ( x )) + ∇y f ( x, φ( x ))∇φ( x ) = 0
da cui, usando il fatto che ∇y f ( x, y) è invertibile in D
[∇y f ( x, φ( x ))]−1 ∇ x f ( x, φ( x )) + ∇φ( x ) = 0
e la tesi. 2
Teorema 7.30 - invertibilità locale - Sia f : A −→ Rn , A = { x ∈ Rn :

k x − x0 k < α} e supponiamo che f ∈ C 1 ( A × B); supponiamo inoltre che
∇ f ( x0 ) sia invertibile e poniamo y0 = f ( x0 ).
Allora esistono ρ, δ > 0 tali che, posto D = { x ∈ Rn : k x − x0 k < ρ}
ed E = {y ∈ Rn : ky − y0 k < δ}, esiste una funzione g : E −→ D inversa
di f : D −→ E, g ∈ C 1 ( E),
∇ g(y) = [∇ f ( g(y))]−1 ∀y ∈ E.
Dimostrazione. Consideriamo F : A × Rn −→ Rn definita da
F ( x, y) = f ( x ) − y
Ad F è possibile applicare il teorema 25.48 ed è possibile affermare che

esistono
D 0 = { x ∈ Rn : k x − x0 k < ρ 0 } E 0 = { y ∈ Rn : k y − y 0 k < δ 0 }
ed esiste una funzione g : E0 −→ D 0 tale che
f ( g(y)) = y ∀y ∈ E0

g risulta inoltre differenziabile in E’ e si ha
∇ g(y) = [∇ f ( g(y))]−1 ∀y ∈ E0
E’ pertanto possibile applicare il teorema 25.48 anche alla funzione

G : D 0 × E0 −→ D 0 definita mediante la
G ( x, y) = g(y) − x
e si può affermare che esistono
D” = { x ∈ Rn : k x − x0 k < ρ”} E” = {y ∈ Rn : ky − y0 k < δ”}
ed esiste una funzione h : D” −→ E” tale che
g(h( x )) = x ∀ x ∈ D”
Siano allora D = D 0 ∩ D” ed E = E0 ∩ E”, si ha
f , h : D −→ E e g : E −→ D
ed inoltre
f ( g(y)) = y ∀y ∈ E
g(h( x )) = x ∀ x ∈ D
per cui
h( x ) = f ( g(h( x ))) = f ( x ) ∀ x ∈ D
e risulta che g : E −→ D è l’inversa di f : D −→ E. Vediamo
ora come si può applicare il teorema di invertibilità locale che abbiamo

appena dimostrato allo studio dei massimi e dei minimi vincolati. 2
7.10 Massimi e Minimi Vincolati - Moltiplicatori di Lagrange
Definizione 7.14 Sia f : A −→ R e sia g : A −→ Rm , A ⊂ Rn ; diciamo

che x0 ∈ A è un punto di massimo (o di minimo) relativo per f vincolato a g
se g( x0 ) = 0 e se esiste δ > 0 tale che
f ( x ) ≤ f ( x0 ) ( f ( x ) ≥ f ( x0 ) ) ∀ x ∈ { x ∈ A : g ( x ) = 0} ∩ S ( x0 , δ ).
A tale proposito possiamo provare il seguente risultato.
Teorema 7.31 - dei moltiplicatori di Lagrange - Siano f : A −→ R e

g : A −→ Rm , A ⊂ Rn , m < n, A aperto, f , g ∈ C 1 ( A); supponiamo
inoltre che f abbia in x0 ∈ A un punto di minimo (o di massimo) relativo
vincolato a g.

Allora esistono λ ∈ Rm e µ ∈ R non contemporaneamente nulli e tali che

m
µ∇ f ( x0 ) + ∑ λi ∇ gi ( x0 ) = 0.
i =1
Inoltre, se ∇ g( x0 ) ha caratteristica massima (= m), allora µ 6= 0 e si può

supporre µ = 1.
Teorema 7.32 Siano f : A −→ R e g : A −→ Rm , A ⊂ Rn aperto,

m < n, f , g ∈ C 1 ( A), x0 ∈ A; supponiamo che esista δ > 0 tale che
f ( x0 ) ≤ f ( x ), ∀ x ∈ { x ∈ A : gi ( x ) ≤ 0, i = 1, .., m } ∩ S( x0 , δ)
Allora, esistono µ ∈ R, λ ∈ Rm tali che

m
µ ∇ f ( x 0 ) + ∑ λ i ∇ gi ( x 0 ) = 0
i =1
essendo λi = 0 se gi ( x0 ) < 0.
Se inoltre ∇ g( x0 ) ha caratteristica massima, si può supporre µ = 1 e si
ha
λi ≥ 0 se gi ( x0 ) = 0.
Teorema 7.33 - Kuhn-Tucker - Sia A ⊂ Rn aperto, convesso e siano

f , gi : A −→ R, i = 1, 2, ..., m funzioni convesse; supponiamo che f , gi ∈
C 1 ( A) e che x0 ∈ A sia scelto in modo che
gi ( x0 ) = 0 per i = 1, 2, ..., k < m
gi ( x0 ) < 0 per i = k + 1, ..., m

Supponiamo inoltre che x0 sia estremale per la funzione
k
F ( x ) = f ( x ) + ∑ λ i gi ( x )
i =1
essendo λi ≥ 0 per i = 1, 2, ..., k ; allora
f ( x0 ) ≤ f ( x ) ∀ x ∈ A tali che gi ( x ) ≤ 0.
Teorema 7.34 Sia f : A −→ R, A ⊂ Rn convesso, chiuso e limitato, f

convessa e continua; allora il massimo di f in A è assunto anche in punti che
sono sulla frontiera di A.
Dimostrazione. Sia
f ( x ) = max{ f (y) : y ∈ A}
allora, se x è interno ad A, detti y, z ∈ A gli estremi del segmento

ottenuto intersecando A con una qualunque retta passante per x, si ha
x = λy + (1 − λ)z

e
f ( x ) ≤ λ f (y) + (1 − λ) f (z) ≤ max{ f (y), f (z)}
2
Osservazione.Nel caso in cui A sia poliedrale, cioè se
A = { x ∈ Rn : gi ( x ) ≤ 0, gi lineare, i = 1, .., m }
il massimo si può cercare solo tra i vertici della frontiera.
7.11 Teorema dei Moltiplicatori di Lagrange
Teorema 7.35 - moltiplicatori di Lagrange - Siano f : A −→ R e g : A −→

Rm , A ⊂ Rn , m < n, A aperto, f , g ∈ C 1 ( A); supponiamo inoltre che f
abbia in x0 ∈ A un punto di minimo (o di massimo) relativo vincolato a g.
Allora esistono λ ∈ Rm e µ ∈ R non contemporaneamente nulli e tali che
m
µ∇ f ( x0 ) + ∑ λi ∇ gi ( x0 ) = 0.
i =1
Inoltre, se ∇ g( x0 ) ha caratteristica massima (= m), allora µ 6= 0 e si può

supporre µ = 1.
Dimostrazione. Poiché A è un insieme aperto, possiamo supporre

che A sia un rettangolo.
Definiamo F : A −→ Rm+1 mediante la
F ( x ) = ( f ( x ) − f ( x0 ), g( x ))
∇ F ( x0 ) è una matrice (m + 1) × n; supponiamo che la sua caratteri-

stica sia (m + 1). Allora esiste un suo minore di ordine (m + 1) con
determinante non nullo; supponiamo che esso sia formato dalle prime
(m + 1) colonne, che corrispondono alle prime (m + 1) componenti di
un elemento di Rn e poniamo, per x ∈ Rn , x = ( x 0 , x”) ove x 0 ∈ Rm+1
e x” ∈ Rn−m−1 . Indichiamo di conseguenza x0 con ( x00 , x”0 ) e con
A 0 = { x 0 ∈ Rm +1 : x ∈ A } .
Definiamo G : A0 −→ Rm+1 mediante la
G ( x 0 ) = F ( x 0 , x”0 )
Avremo G ( x00 ) = 0 e, per il teorema di invertibilità locale, esisteranno

ρ, δ > 0 tali che, detti
D = { x ∈ Rm+1 : k x − x00 k < ρ}, E = {(t, y) ∈ R × Rm : k(t, y)k < δ}
G : D −→ E è invertibile.

Sia G −1 : E −→ D la sua inversa; dal momento che (t, 0) ∈ E se

|t| < δ, si ha xt0 = G −1 (t, 0) ∈ D e
(t, 0) = G ( G −1 (t, 0)) = G ( xt0 ) = F ( xt0 , x”0 ) = F ( xt )
non appena si convenga di definire xt = ( xt0 , x”0 ).

Ma allora, per ogni t con |t| < δ
f ( x t ) = f ( x0 ) + t
g( xt ) = 0
e pertanto, poiché G −1 è continua, xt → x0 per t → 0 e x0 non è né un
minimo, né un massimo relativo per f vincolato a g.
Ne viene che la caratteristica di ∇ F ( x0 ) non può essere massima e,
tenuto conto che, !
∇ f ( x0 )
∇ F ( x0 ) =
∇ g ( x0 )
si ha la tesi.
Inoltre se ∇ g( x0 ) ha caratteristica m non può essere µ = 0 in quanto,
se ciò fosse, si avrebbe
m
∑ λ i ∇ gi ( x 0 ) = 0
i =1
con λi non tutti nulli, e ciò non è possibile. 2

I vincoli del tipo g( x ) = 0, ovvero gi ( x ) = 0 per ogni i = 1, .., m,
sono spesso indicati con il nome di vincoli bilaterali, e trovano una
naturale generalizzazione nel caso dei cosiddetti vincoli unilaterali,
che sono espressi da condizioni del tipo gi ( x ) ≤ 0 per ogni i = 1, .., m.
A questo tipo di vincoli può essere facilmente generalizzato il pre-
cedente teorema, che nel caso del minimo (il caso del massimo può
essere trattato in modo analogo) viene ad assumere la seguente forma:
Teorema 7.36 - Siano f : A −→ R e g : A −→ Rm , A ⊂ Rn aperto,

m < n, f , g ∈ C 1 ( A), x0 ∈ A; supponiamo che esista δ > 0 tale che
f ( x0 ) ≤ f ( x ), ∀ x ∈ { x ∈ A : gi ( x ) ≤ 0, i = 1, .., m } ∩ S( x0 , δ)
Allora, esistono µ ∈ R, λ ∈ Rm tali che

m
µ ∇ f ( x 0 ) + ∑ λ i ∇ gi ( x 0 ) = 0
i =1
essendo λi = 0 se gi ( x0 ) < 0.
Se inoltre ∇ g( x0 ) ha caratteristica massima, si puo’ supporre µ = 1 e si
ha
λi ≥ 0 se gi ( x0 ) = 0.

Dimostrazione. Dal momento che le gi sono funzioni continue, pos-

siamo affermare che, se gi ( x0 ) < 0, allora gi ( x ) < 0 per tutti gli
x ∈ S( x0 , δi ).
Sia I = {i : gi ( x0 ) < 0 }, si ha allora che
f ( x0 ) ≤ f ( x ) ∀ x ∈ { x ∈ A : gi ( x ) = 0, i 6∈ I } ∩ S( x0 , δ0 )
essendo δ0 = min{δi : i ∈ I }, e ci si può ricondurre al teorema

precedente.
Per quanto riguarda l’ultima affermazione, se fosse µ = 0, si avreb-
be
m
∑ λ i ∇ gi ( x 0 ) = 0
i =1
con λi non tutti nulli, e ciò non è possibile.
Per concludere sia a ∈ Rn e sia
ψi (t) = gi ( x0 + ta) i = 1, .., m
Si ha
ψi (0) = 0 ∀i
e, se α ∈ Rm αi > 0 ∀i, è possibile determinare a in modo che
ψi0 (0) = h∇ gi ( x0 ), ai = αi ∀i
Pertanto esiste δ > 0 tale che
ψi (t) = gi ( x0 + ta) ≤ 0 ∀t ∈ (−δ, 0), ∀i
Sia ora
φ(t) = f ( x0 + ta)
allora
φ (0) = f ( x0 )
e
m m
φ0 (0) = h∇ f ( x0 ), ai = − ∑ λi h∇ gi ( x0 ), ai = − ∑ λi αi
i =1 i =1
Quindi, se esistesse j tale che λ j < 0, scelto α ∈ Rm con
1
αj > −
λj ∑ λi αi
i6= j
si avrebbe
φ 0 (0) > 0
da cui, in un opportuno intorno sinistro di 0,
φ(t) = f ( x0 + ta) < f ( x0 ) = φ(0)
e x0 non sarebbe punto di minimo relativo per f vincolato a g. 2

Teorema 7.37 - Kuhn-Tucker - Sia A ⊂ Rn aperto, convesso e siano

f , gi : A −→ R, i = 1, 2, ..., m funzioni convesse; supponiamo che
f , gi ∈ C 1 ( A) e che x0 ∈ A sia scelto in modo che
gi ( x0 ) = 0 per i = 1, 2, ..., k < m
gi ( x0 ) < 0 per i = k + 1, ..., m

Supponiamo inoltre che x0 sia estremale per la funzione
k
F ( x ) = f ( x ) + ∑ λ i gi ( x )
i =1
essendo λi ≥ 0 per i = 1, 2, ..., k ; allora
f ( x0 ) ≤ f ( x ) ∀ x ∈ A tali che gi ( x ) ≤ 0.
Dimostrazione. Dal momento che F è convessa in A il punto x0 è di

minimo assoluto per F su A e pertanto si ha
f ( x0 ) = F ( x0 ) ≤ F ( x ) ≤ f ( x )
per ogni x ∈ A tale che gi ( x ) < 0 con i = 1, 2, ..., k. 2

8. Penalizzazione e moltiplicatori di
Lagrange.
Diamo in questo capitolo una semplice dimostrazione del teorema dei

moltiplicatori di Lagrange (si vedano i teoremi 25.51, 25.52) che è fon-
data su un metodo che è solitamente indicato come ’metodo di pena-
lizzazione’ e che consente di ridurre un problema di minimo vincolato
ad un problema di minimo libero.
Teorema 8.1 Siano f , gi : A −→ R, A ⊂ Rn , f , gi ∈ C 1 ( A) , i =

1, .., p, p + 1, .., q. Sia x0 ∈ A e sia δ > 0 , definiamo
Ω( x0 , δ) = { x ∈ A : gi ( x ) ≤ 0 , i = 1, .., p} ∩ . . .
· · · ∩ { x ∈ A : gi ( x ) = 0 , i = p + 1, .., q} ∩ cl S( x0 , δ)
Supponiamo inoltre che gli indici i siano ordinati in modo che


g (x ) = 0 i = s + 1, .., p
i 0
 gi ( x 0 ) < 0 i≤s
e definiamo φ = ( gs+1 , .., g p , g p+1 , .., gq ).
Supponiamo che x0 ∈ intA sia un punto di minimo relativo per f sotto i
vincoli gi , supponiamo cioè che esista δ > 0 tale che
x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , d ).
Allora esistono µ, λi ∈ R , non tutti nulli tali che


 q

 µ ∇ f ( x 0 ) + ∑ i = 1 λ i ∇ gi ( x 0 ) = 0


µ ≥ 0

 λi = 0 i≤s



 λi ≥ 0 i = s + 1, .., p.
Se di più ∇φ( x0 ) ha caratteristica massima, si ha µ 6= 0 e si può supporre

µ = 1.
Dimostrazione. Definiamo
gi+ ( x ) = max { gi ( x ), 0),

p q
Φ( x ) = ∑ ( gi+ (x))2 + ∑ ( gi ( x ))2
i =1 i = p +1
e
Fn ( x ) = f ( x ) + k x − x0 k2 + nΦ( x ).
Sia δ > 0 tale che
x0 ∈ Ω ( x0 , δ ) , f ( x0 ) ≤ f ( x ) ∀ x ∈ Ω ( x0 , δ ).
Fn ammette minimo assoluto su cl S( x0 , δ); supporremo tale minimo

assunto nel punto xn ∈ cl S( x0 , δ).
E’ intanto ovvio che, a meno di considerare una estratta, xn → x̂;
proviamo di più che x̂ = x0 .
Posto
m = min{ f ( x ) : x ∈ cl S( x0 , δ)}
si ha
m + nΦ( xn ) ≤ f ( xn ) + nΦ( xn ) ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )
e
f ( x0 ) − m
0 ≤ Φ( xn ) ≤ .
n
Pertanto
0 = lim Φ( xn ) = Φ( x̂ ) e x̂ ∈ Ω( x0 , δ).
Perciò si ha
f ( xn ) + k xn − x0 k2 ≤ Fn ( xn ) ≤ Fn ( x0 ) = f ( x0 )
e
f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 ).
Ricordando che x̂ ∈ Ω( x0 , δ) si ha
f ( x0 ) + k x̂ − x0 k2 ≤ f ( x̂ ) + k x̂ − x0 k2 ≤ f ( x0 )
e
k x̂ − x0 k2 ≤ 0
da cui
x̂ = x0 .
Usando il teorema 25.34 e tenendo conto che, se n è sufficientemente

grande, xn ∈ S( x0 , δ) si ha che
p q
∇ f ( xn ) + 2( xn − x0 ) + ∑ 2ngi+ ( xn )∇ gi ( xn ) + ∑ 2ngi ( xn )∇ gi ( xn ) = 0.
i =1 i = p +1

Pertanto, posto
Ln = (1, 2ng1+ ( xn ), .., 2ng+

p ( xn ) , 2ng p+1 ( xn ) , .., 2ngq ( xn ))
e
Mn = L n / k L n k ,
si ha
k Mn k = 1.
Indichiamo
Mn = (µn , λ1,n , .., λs,n , λs+1,n , .., λ p,n , λ p+1,n , .., λq,n )
essendo µn e λi,n non tutti nulli; inoltre, dal momento che xn → x0 e

gi ( x0 ) < 0 per i ≤ s, si ha
λi,n = 2ngi+ ( xn ) = 0
per n sufficientemente grande e i ≤ s.

Si può allora affermare che
q
µn (∇ f ( xn ) + 2( xn − x0 )) + ∑ λi,n ∇ gi ( xn ) = 0
i =1
con
µn , λi,n ≥ 0 per i = s + 1, .., p , λi,n = 0 per i ≤ s.
Poiché k Mn k = 1 si può supporre, a meno di una estratta,
µn → µ , λi,n → λi , k(µ, λ1 , .., λq )k = 1
onde µ e λi non sono tutti nulli, e λi = 0 per i ≤ s .

Passando al limite si ottiene
q
µ∇ f ( x0 ) + ∑ λi ∇ gi ( x0 ) = 0.
i =1
Infine, poiché λi = 0 per i ≤ s, se fosse µ = 0 si avrebbe che il

sistema
q
∑ λ i ∇ gi ( x 0 ) = 0
i = s +1
ammette la soluzione non banale (λs+1 , .., λq ) e perciò la caratteristica

di ∇φ( x0 ) = (∇ gs+1 ( x0 ), .., ∇ gq ( x0 )) non potrebbe essere massima. 2

9. Integrazione Delle Funzioni Di
Piu’ Variabili.
La teoria dell’integrazione per le funzioni reali di più varia-

bili deve tenere conto che si può integrare su sottoinsiemi di
dimensione non necessariamente uguale al numero delle variabili.
Ad esempio se f dipende da 3 variabili reali avremo bisogno di defi-

nire cosa si intende per integrale di f su un sottoinsieme di R3 , che
possiamo intuitivamente definire come un solido (dimensione=3), una
superficie (dimensione=2) o una linea (dimensione=1).
Ricordiamo esplicitamente che il concetto di dimensione non è sem-
plice nè univocamente individuato: possiamo parlare di dimensio-
ne vettoriale, di dimensione topologica, di dimensione frattale; qui
abbiamo fatto semplicemente ricorso ad un concetto intuitivo che si
potrebbe precisare, ed in parte si preciserà, parlando di dimensione
topologica.
Per semplificare le notazioni e per facilitare la comprensione descri-
veremo il caso delle funzioni di 3 variabili, essendo facile estendere i
concetti al caso delle funzioni con più variabili, a prezzo di una certa
complicazione delle notazioni.
9.1 Integrali Multipli
Cominciamo con il dare la definizione di integrale di una funzione

limitata su una classe particolare di sottoinsiemi di R3 gli intervalli;
successivamente estenderemo la definizione ad una più generale classe
di insiemi.
9.1.1 Definizione di Integrale

Definizione 9.1 Siano I1 , I2 , I3 intervalli chiusi e limitati, Ii = [ ai , bi ], della
retta reale.
Diciamo che
R = I1 × I2 × I3
è un intervallo chiuso e limitato in R3 .
Nel seguito intenderemo riferirci sempre ad un intervallo chiuso

e limitato, anche se queste due proprietà non saranno esplicitamente
menzionate.
L’interno di R risulta essere
int R = ( a1 , b1 ) × ( a2 , b2 ) × ( a3 , b3 )
Definizione 9.2 Sia R un intervallo in R3 ; chiamiamo partizione di R il

prodotto cartesiano P = P1 × P2 × P3 dove Pi è una partizione dell’intervallo
Ii
Denoteremo con P ( R) l’insieme di tutte le partizioni dell’intervallo R.
Se P ∈ P ( R), i punti di P dividono R in un numero N di intervalli chiusi
la cui unione è R. Tali intervalli saranno indicati con
{ Rk : k = 1, 2, ..., N }
Definizione 9.3 Sia R un intervallo in R3 e siano P, Q ∈ P ( R); diciamo

che P è una partizione più fine di Q e scriviamo P < Q se P ⊃ Q.
In altre parole P è più fine di Q se e solo se ognuno degli intervalli in cui
P suddivide R è contenuto in uno degli intervalli in cui Q suddivide R.
Definizione 9.4 Sia R un intervallo in R3 , definiamo misura di R il numero
mis R = (b1 − a1 )(b2 − a2 )(b3 − a3 )
Definizione 9.5 Sia R un intervallo e sia P ∈ P ( R); siano Rk , k =

1, 2, .., N, gli intervalli in cui la partizione P suddivide R.
Sia f : R −→ R una funzione limitata e supponiamo che
m ≤ f (x) ≤ M ∀x ∈ R

Definiamo
mk = inf{ f ( x ) : x ∈ Rk }
Mk = sup{ f ( x ) : x ∈ Rk }
definiamo inoltre
N
L( f , P) = ∑ mk mis Rk
k =1
N
U ( f , P) = ∑ Mk mis Rk
k =1
N
R( f , P, Ξ) = ∑ f (ξ k ) mis Rk , ξ k ∈ Rk
k =1
essendo Ξ una funzione di scelta che assegna ad ogni intervallo Rk un punto

ξk.
L( f , P) ed U ( f , P) si dicono rispettivamente somme inferiori e somme
superiori di f rispetto alla partizione P. R( f , P, Ξ) si dice somma di Riemann
di f rispetto alla partizione P e dipende, come è espressamente indicato, anche
dalla scelta dei punti ξ k in Rk .
Esattamente come nel caso di una funzione reale di una variabile

reale si può provare che
Teorema 9.1 Siano R un intervallo di R3 , f : R −→ R limitata, allora, se

P, Q ∈ P ( R) e se P < Q
m mis R ≤ L( f , Q) ≤ L( f , P) ≤ R( f , P, Ξ) ≤ U ( f , P) ≤ U ( f , Q) ≤ M mis R
e per ogni P, Q ∈ P ( R)
m mis R ≤ L( f , Q) ≤ U ( f , P) ≤ M mis R

Definizione 9.6 Sia R un intervallo in R3 e sia f : R −→ R una funzione

limitata, definiamo
Z –
f ( x )dx = inf{U ( f , P) : P ∈ P ( R)}
R
Z
f ( x )dx = sup{ L( f , P) : P ∈ P ( R)}
R
–
essi si dicono rispettivamente, integrale superiore ed integrale inferiore della
funzione f sull’ intervallo R.
E’ immediato provare che
Z Z –
m mis R ≤ f ( x )dx ≤ f ( x )dx ≤ M mis R
R R
–
Si è definito l’integrale superiore e l’integrale inferiore usando par-

tizioni del rettangolo di base R in rettangoli chiusi. Vediamo che si
giunge allo stesso valore se si considerano questi ultimi rettangoli
aperti.
Definizione 9.7 Sia R ⊂ Rn un rettangolo, sia P ∈ P ( R), sia f : R −→ R

una funzione limitata e siano Rk , k = 1, .., N, i rettangoli in cui P divide R.
Definiamo
m0k = inf{ f ( x ) : x ∈ int Rk }
Mk0 = sup{ f ( x ) : x ∈ int Rk }
N N
L0 ( f , P) = ∑ m0k misRk , U 0 ( f , P) = ∑ Mk0 mis Rk
k =1 k =1
Z 0
f ( x )dx = sup{ L0 ( f , P) : P ∈ P ( R)}
−R
Z −0
f ( x )dx = inf{U 0 ( f , P) : P ∈ P ( R) }.
R
Osserviamo che m0k ≥ mk , Mk0 ≤ Mk e che pertanto si ha
L( f , P) ≤ L0 ( f , P) ≤ U 0 ( f , P) ≤ U ( f , P)
da cui
Z Z 0 Z −0 Z −
f ( x )dx ≤ f ( x )dx ≤ f ( x )dx ≤ f ( x )dx
−R −R R R

Si può però provare che
Lemma 9.1 Sia R ⊂ Rn un rettangolo e sia f : R −→ Rn una funzione

limitata; si ha
Z 0 Z Z −0 Z −
f ( x )dx = f ( x )dx , f ( x )dx = f ( x )dx
−R −R R R
Dimostrazione. Ci limitiamo a provare la prima delle due uguaglian-

ze. Sia
P ∈ P ( R) , P = ×in=1 Pi , Pi = { xij : j = 0, 1, ..., Ni }
e consideriamo la partizione Pε = P ∪ { xij ± ε}.

Siano Rk , k = 1, .., N i rettangoli in cui P divide R e siano Sk , k =
1, .., N 0 , N 0 > N, i rettangoli in cui Pε divide R; conveniamo inoltre di
indicare con Sk , k = 1, .., N, i rettangoli ottenuti restringendo i lati dei
rettangoli Rk , che indicheremo con ik , della quantità 2ε.
Ovviamente, se k = 1, .., N, si ha Sk ⊂ int Rk ,
mεk = inf{ f ( x ) : x ∈ Sk } ≥ inf{ f ( x ) : x ∈ int Rk } = m0k
mis Sk = mis Rk − ω1k (ε)
k
ω1k (ε) = ∏ − ∏(ik −2ε)
i
Si ha ovviamente
lim ω1k (ε) = 0
ε →0
Ora
N0
L( f , Pε ) = ∑ mεk mis Sk =
k =1
N N0
= ∑ mεk misSk + ∑ mεk mis Sk ≥
k =1 k = N +1
N
≥ ∑ m0k (mis Rk − ω1k (ε)) + m ω2 (ε)
k =1
se definiamo ancora
N k N
ω2 ( ε ) = ∑ (∏ − ∏(ik −2ε)) = ∑ ω1k (ε)
k =1 i k =1
per cui si ha
lim ω2 (ε) = 0
ε →0

Ma allora
L( f , Pε ) ≥ L0 ( f , P) − ω (ε), lim ω (ε) = 0
ε →0
e ne viene Z Z 0
f ( x )dx ≥ f ( x )dx
−R −R
l’uguaglianza segue tenendo conto delle precedenti considerazioni. 2
9.1.2 Condizioni di Integrabilità - Proprietà degli Integrali

Definizione 9.8 Sia R un intervallo in R3 e sia f : R −→ R una funzione
limitata; diciamo che:
• f è integrabile se
Z Z –
f ( x )dx = f ( x )dx
R R
–
ed il valore comune ai due integrali superiore ed inferiore si chiama sem-
plicemente integrale di f su R e si denota
Z
f ( x )dx
R
• f soddisfa la condizione di integrabilità se ∀ε > 0 ∃ Pε ∈ P ( R) tale che

0 ≤ U ( f , Pε ) − L( f , Pε ) < ε;
• f è integrabile secondo Cauchy-Riemann se ∃ I ∈ R tale che ∀ε > 0 ∃ Pε ∈

P ( R) tale che se P ∈ P ( R), P < Pε si ha | R( f , P, Ξ) − I | < ε ∀Ξ ; il
valore I si chiama anche questa volta integrale di f su R.
Osserviamo che se la condizione di integrabilità è soddisfatta

se e solo se
comunque si scelga P ∈ P ( R), P < Pε si ha
0 ≤ U ( f , P) − L( f , P) ≤ U ( f , Pε ) − L( f , Pε ) < ε.
Come per una sola variabile, si enuncia e si prova che
Teorema 9.2 Sia R un intervallo in R3 e sia f : R −→ R una funzione

limitata; sono fatti equivalenti:
• f è integrabile
• f soddisfa la condizione di integrabilità
• f è integrabile secondo Cauchy-Riemann.
Teorema 9.3 Sia R un intervallo in R3 e siano f , g : R −→ R funzioni

limitate ed integrabili su R; allora

• ∀α, β > 0, α f + βg è integrabile su R e

Z Z Z
[α f ( x ) + βg( x )]dx = α f ( x )dx + β g( x )dx
R R R
• f g è integrabile su R;
• se S e T sono intervalli in R3 tali che R = S ∪ T e mis(S ∩ T ) = 0,

Z Z Z
f ( x )dx = f ( x )dx + f ( x )dx
R S T
• se f ≥ 0 Z
f ( x )dx ≥ 0
R
• se f ≥ g Z Z
f ( x )dx ≥ g( x )dx
R R
• se f è continua, f ≥ 0,
Z
f ( x )dx = 0 ⇒ f ≡ 0
R
• | f | è integrabile su R e
Z Z

f ( x )dx ≤ | f ( x )|dx
R R
se S e T sono intervalli, S ⊂ T ⊂ R e se f ≥ 0,
Z Z
f ( x )dx ≤ f ( x )dx
S T
Teorema 9.4 Se f : R −→ R, R ⊂ R3 intervallo, è continua, allora f

è integrabile.
9.1.3 Formule di Riduzione

L’integrale che abbiamo definito non può tuttavia essere calcolato, co-
me per il caso delle funzioni di una variabile reale, facendo uso del
concetto di primitiva in R3 ; il concetto di primitiva ed il teorema
fondamentale del calcolo integrale trovano la loro naturale estensio-
ne nell’ambito delle forme differenziali e del teorema di Stokes, di cui
parleremo più avanti.
Il calcolo di integrali multipli si può però ricondurre al calcolo di
più integrali semplici mediante quelle che si chiamano formule di
riduzione.

Se A ⊂ R3 , la funzione
χ A : R3 −→ R
definita da 
1 x∈A
χ A (x) =
0 x 6∈ A
si chiama funzione caratteristica di A.
Teorema 9.5 Sia R un intervallo in R3 e sia f : R −→ R integrabile.

Allora si ha
Z Z b Z b2 Z b3
1
f ( x )dx = f ( x1 , x2 , x3 )dx3 dx2 dx1
R a1 a2 a3
ogniqualvolta esiste il secondo membro.
Dimostrazione. Se P ∈ P ( R), Rk = ×[ aki , bki ], allora si ha
m k χ R k ( x ) ≤ f ( x ) ≤ Mk χ R k ( x ) ∀ x ∈ Rk
integrando n volte su [ aki , bki ] e sommando su k si ottiene

Z b Z bn
1
∑ mk mis Rk ≤ a1
...
an
f ( x1 , .., xn )dxn ..dx1 ≤ ∑ Mk mis Rk
Poiché f è integrabile, soddisfa il criterio di integrabilità, e si ha la tesi.
2
E’ necessario estendere la nozione di integrabilità su insiemi che
siano più generali di un intervallo in R3 .
A questo scopo occorre precisare la classe dei sottoinsiemi di R3 sui
quali è possibile integrare una funzione.
9.1.4 Misura di sottoinsiemi di R3

Definizione 9.9 Sia A ⊂ R3 un insieme limitato e sia R un intervallo che
contiene A. Definiamo
Figura 9.1:
Z Z –
− +
mis ( A) = χ A ( x )dx , mis ( A) = χ A ( x )dx
R R
–
mis− ( A) e mis+ ( A) si dicono, rispettivamente misura interna e misura
esterna di A.
Diciamo che A è un sottoinsieme misurabile di R3 se mis− ( A) = mis+ ( A);
in tal caso definiamo mis( A), misura di A, il loro comune valore.

E’ immediato verificare che la precedente definizione non di-

pende dalla scelta dell’ intervallo R tra tutti quelli che contengono
A.
Si può inoltre verificare che
mis− ( A) = sup L(χ A , P) mis+ ( A) = inf U (χ A , P)

P∈P ( R) P∈P ( R)
In altre parole
• mis− ( A) è l’estremo superiore delle somme delle misure degli

intervalli chiusi che sono contenute in A
• mis+ ( A) è l’estremo inferiore delle somme delle misure degli

intervalli chiusi che contengono punti di A
Infine si può vedere con qualche attenzione che l’estremo su-

periore e l’estremo inferiore non cambiano se si considerano
intervalli aperti in luogo degli intervalli chiusi.
È intuitivamente evidente, si veda la figura ??, anche se non imme-

diato da dimostrare che
Teorema 9.6 Sia A ⊂ R3 un sottoinsieme limitato, allora
mis+ (∂A) = mis+ ( A) − mis− ( A).
Dimostrazione. Sia R un rettangolo, A ⊂ R e sia P ∈ P ( R). Si ha
U 0 (χ∂A , P) = U 0 (χ A , P) − L0 (χ A , P)
Infatti se Rk è un rettangolo che contiene al suo interno un punto x ∈

∂A, allora Rk contiene anche punti di A e di Ac , perché contiene S( x, δ)
con δ opportuno. Se viceversa esistono x, y ∈ intRk , x ∈ A, y ∈ Ac ,
allora µx + (1 − µ)y ∈ ∂A se µ = sup{λ ∈ [0, 1] : λx + (1 − λ)y ∈ A}.
Pertanto si ha
mis+ (∂A) ≥ mis+ ( A) − mis− ( A)
Sia ora ε > 0 e sia Pε ∈ P ( R) scelta in modo che
U 0 (χ A , Pε ) ≤ mis+ ( A) + ε
L0 (χ A , Pε ) ≥ mis− ( A) − ε
Allora
mis+ ( A) − mis− ( A) + 2ε ≥ U 0 (χ A , Pε ) − L0 (χ A , Pε ) =
= U 0 (χ∂A , Pε ) ≥ mis+ (∂A)

e
mis+ ( A) − mis− ( A) ≥ mis+ (∂A).
Osservato che si ha
0 ≤ mis− (∂A) ≤ mis+ (∂A) = mis+ ( A) − mis− ( A)
2
si può facilmente vedere che
Teorema 9.7 Sia A ⊂ Rn , limitato, allora A è misurabile se e solo se ∂A è

misurabile ed ha misura nulla.
Osserviamo anche che
mis A = 0 ⇔ ∀ε > 0 ∃ Pε ∈ P ( R) : U 0 (χ A , Pε ) < ε
Inoltre, tenuto conto che, se mis A = mis B = 0 allora mis A ∪ B =

0, dal precedente teorema e dal fatto che
∂( A ∪ B) ⊂ ∂A ∪ ∂B ∂( A ∩ B) ⊂ ∂A ∪ ∂B ∂( A \ B) ⊂ ∂A ∪ ∂B
si ottiene che, se A e B sono misurabili, allora A ∪ B, A ∩ B,

A \ B sono misurabili.
Infine, tenendo conto che
χ A∪ B = χ A + χ B − χ A∩ B
si ottiene
mis A ∪ B = mis A + mis B − mis A ∩ B
Abbiamo con ciò che, se A, B ⊂ R3 sono misurabili e disgiunti,

e se x ∈ R3 , si ha
• mis A ≥ 0
• mis A ∪ B = mis A + mis B
• mis( x + A) = mis A
• mis(×in=1 [0, 1]) = 1
Si potrebbe anche vedere che tali proprietà sono, da sole, in

grado di caratterizzare la misura sui sottoinsiemi di R3

Teorema 9.8 Sia R ⊂ Rn un rettangolo e sia f : R −→ R limitata; sup-

poniamo inoltre f continua in R \ D, misD = 0, allora f è integrabile in
R.
Dimostrazione. Sia | f ( x )| ≤ M ∀ x ∈ R e sia Pε ∈ P ( R) tale che
U 0 (χ D , Pε ) < ε/(4M)
S
Se S = RkD essendo l’unione estesa a tutti i rettangoli aperti che
contengono punti di D si ha che R \ S è chiuso, f è continua su R \ S
e, per il teorema di Heine-Cantor, è possibile, a meno di raffinare la
partizione, far sì che
Mk0 − m0k < ε/(2 mis R)
Ma allora
U 0 ( f , Pε ) − L0 ( f , Pε ) < ∑( Mk0 − m0k ) mis Rk + 2M mis S ≤

ε ε
≤ mis R + 2M = ε
2 mis R 4M
2
Teorema 9.9 Sia f : A −→ Rm continua, A ⊂ Rn chiuso e limitato, allora
mis( gph f ) = 0.
Dimostrazione. Dal momento che f è continua su A, che è chiuso

e limitato, f è limitata essa stessa e si ha che gph f ⊂ R ove R è un
opportuno rettangolo di Rn+m .
Dal momento che f è uniformemente continua su A, si ha che ∀ε >
0 ∃δ(ε) > 0 tale che se | xi − yi | < δ(ε) si ha
| f j ( x ) − f j (y)| < ε , ∀i = 1, .., n , ∀ j = 1, .., m
Siano
Pε = ×in=1 Pi , Qε = ×m
j =1 Q j
dove Pi = { xik } è una partizione scelta in modo che ∆( Pi ) < δ(ε) e

Q j = {mijk , Mijk }, ove
mijk = min{ f j ( x ) : x ∈ [ xik , xi,k+1 ]}
Mijk = max { f j ( x ) : x ∈ [ xik , xi,k+1 ]}

Allora
mis+ ( gph f ) ≤ ε mis R
e
mis+ ( gph f ) = 0.
2

Corollario 9.1 - Siano g,f: A −→ R, A ⊂ Rn chiuso e limitato; allora, se

f e g sono continue
{( x, y) ∈ Rn+1 : g( x ) ≤ y ≤ f ( x )}
è misurabile.
Teorema 9.10 Sia f : A −→ R, A ⊂ Rn chiuso, limitato e misurabile; f

continua in A \ D, mis D = 0. Allora f è integrabile su A.
Dimostrazione. Sia R un rettangolo tale che A ⊂ R; allora χ A ()˙ f ()˙ è

continua su R \ ( D ∪ ∂A) e mis D = mis ∂A = 0. 2
Teorema 9.11 Sia A un dominio normale in Rn+1 e sia f : A −→ R una

funzione continua in A \ D con mis D = 0. Allora f è integrabile su A e si
ha
Z Z
f ( x )dx = χ A ( x ) f ( x )dx =
A R
Z b Z b2 Z b
1 n +1
= ... χ A ( x1 , x2 , ..., xn , y) f ( x1 , x2 , ..., xn , y)dydxn ...dx1 =
a1 a2 a n +1
Z Z h( x )
= f ( x1 , x2 , ..., xn , y)dydxn ... dx1
D g( x )
9.1.5 Integrazione su Domini Normali

Definiamo ora l’integrale di una funzione limitata su un insieme mi-
surabile.
Definizione 9.10 Sia f : R −→ R, A ⊂ R ⊂ R3 , A limitato e misurabile,

R intervallo in R3 ; si definisce
Z Z
f ( x )dx = χ A ( x ) f ( x )dx.
A R
E’ banale verificare che la definizione non dipende dalla scelta dell’intervallo
R che contiene A.
Possiamo dare il seguente criterio di integrabilità.
Teorema 9.12 Sia f : A −→ R, A ⊂ R3 chiuso, limitato e misurabile; f

continua in A \ D, mis D = 0. Allora f è integrabile su A.
Definizione 9.11 Diciamo che A ⊂ Rn+1 è un dominio normale in Rn+1

se esistono un insieme D ⊂ Rn chiuso e limitato, e due funzioni continue
g, h : D −→ R tali che
A = {( x, y) ∈ Rn × R : x ∈ D , g( x ) ≤ y ≤ h( x )}
oppure se
A = {( x, y) ∈ Rn × R : a ≤ y ≤ b , x ∈ Dy }
dove Dy è un insieme misurabile in Rn .

e si può verificare che
Ogni dominio normale in Rn+1 è un insieme misurabile.
Pertanto è lecito integrare funzioni continue, a meno di insiemi di

misura nulla, su domini normali e si ha il seguente
Teorema 9.13 Sia A un dominio normale in R3 e sia f : A −→ R una

funzione continua in A \ D con mis D = 0.
Allora f è integrabile su A e si ha
Z Z
f ( x )dx = χ A ( x ) f ( x )dx =
A R
Z b Z b2 Z b3
1
= χ A ( x1 , x2 , x3 , y) f ( x1 , x2 , x3 , y)dydx3 dx2 dx1 =
a1 a2 a3
Z Z h( x ,x2 ,x3 )
1
= f ( x1 , x2 , ..., xn , y)dydx3 dx2 dx1 (9.1)
D g( x1 ,x2 ,x3 )
oppure
Z Z
f ( x )dx = χ A ( x ) f ( x )dx =
A R
Z b Z b2 Z b3
1
= χ A ( x1 , x2 , x3 , y) f ( x1 , x2 , x3 , y)dydx3 dx2 dx1 =
a1 a2 a3
Z bZ
= f ( x1 , x2 , ..., xn , y)dx3 dx2 dx1 dy (9.2)
a Dy
9.1.6 Trasformazione di coordinate in R3

È spesso utile, per tenere conto delle caratteristiche di un insieme,
considerare un cambiamento di variabili in R3 .
Per cambiamento di variabili intendiamo una applicazione
V : R3 → R3
definita da
R3 3 (t, s, r ) 7→ V (t, s, r ) = ( x (t, s, r ), y(t, s, r ), z(t, s, r )) ∈ R3
che risulti di classe C 1 sia invertibile e sia tale che

 
xt yt zt
∂( x, y, z)  
= det  xs ys zs  6= 0
∂(t, s, r )
xr yr zr
Sono esempi di trasformazioni di coordinate

• Il cambiamento di variabili lineari



 x = a1 u + b1 v + c1 w

y = a2 u + b2 v + c2 w , u, v, w ∈ R , z ∈ R



z = a3 u + b3 v + c3 w
cioè     
x a1 b1 c1 u
    
 y  =  a2 b2 c2   v 
z a3 b3 c3 w
• Le coordinate cilindriche definite da


x = ρ cos θ

y = ρ sin θ , ρ ∈ [0, +∞) , θ ∈ [0, 2π ] , z ∈ R



z =z
• Le coordinate sferiche definite da

 = ρ cos θ cos φ
x

y = ρ sin θ cos φ , ρ ∈ [0, +∞) , θ ∈ [0, 2π ] , φ ∈ [−π/2, π/2]



z = ρ sin φ
Si verifica in tali casi che
• Per il cambiamento lineare

 
a1 b1 c1
∂( x, y, z)  
= det  a2 b2 c2 
∂(u, v, w)
a3 b3 c3
• Per le coordinate cilindriche
∂( x, y, z)
=ρ
∂(ρ, θ, z)
• Per le coordinate sferiche

∂( x, y, z)
= ρ cos φ
∂(ρ, θ, φ)
Teorema 9.14 - Cambiamento di variabili per integrali multipli - Sia
φ : B −→ R3
dove B ⊂ R3 aperto e φ ∈ C 1 ( B).

Supponiamo che A sia un insieme misurabile con cl A ⊂ B, tale che φ è

una funzione invertibile e ∇φ è una matrice invertibile su int A;
allora se f è limitata su φ( A) e continua su intφ( A), si ha
Z Z
f ( x )dx = f (φ( x ))|det(∇φ( x ))|dx.
φ( A) A
Teorema 9.15 cambiamento di variabile per integrali multipli - Sia φ : B −→

Rn , B ⊂ Rn aperto, φ ∈ C 1 ( B) e supponiamo che A sia un insieme misura-
bile, cl A ⊂ B, tale che φ è invertibile e ∇φ è una matrice invertibile su intA;
allora se f è limitata su φ( A) e continua su intφ( A), si ha
Z Z
f ( x )dx = f (φ( x ))|det(∇φ( x ))|dx.
φ( A) A
Diamo una dimostrazione del teorema di cambiamento di variabile

negli integrali multipli nel caso di due variabili ed osserviamo che si
potrebbe estendere al caso generale con poche modifiche.
Lemma 9.2 Sia φ : B → R2 , B ⊂ R2 aperto, φ ∈ C1 ( B), e sia A limitato e

misurabile, con cl A ⊂ B, e det∇φ 6= 0 su int A. Allora
• φ( A) è misurabile e
∀e > 0 ∃ Pe : mis (∪i∈ I Qi ) , mis φ (∪i∈ I Qi ) < e
ove con Qi , i ∈ I, si sono indicati i quadrati che ricoprono la frontiera di

A;
inoltre indicato con Jφ( x ) = |det ∇φ( x )|,
√
• ∀e > 0 ∃δe > 0 tale che se Q ⊂ A è un quadrato di lato l < δe / 2,
| mis φ( Q) − Jφ(u) mis Q| < e mis Q ∀u ∈ Q.
Dimostrazione. Osserviamo innanzi tutto che le ipotesi poste su φ

assicurano che essa è localmente invertibile e pertanto trasforma punti
interni di A in punti interni di φ( A). Si ha
∂φ( A) ⊂ φ(∂A) ;
infatti
∂φ( A) ⊂ cl φ( A) ⊂ cl φ(cl A) = φ((int A) ∪ ∂A) .
Ora, se y ∈ ∂φ( A) si ha y ∈ φ((int A) ∪ ∂A), ovvero y = φ( x ) con

x ∈ (int A) ∪ ∂A ; ma non può essere x ∈ int A perché si avrebbe
y ∈ int φ( A), da cui x ∈ ∂A .
Sia ora δ = dist(cl A, Bc ) > 0, allora, se A ⊂ R rettangolo e P è una
√
partizione di R tale che l 2 < δ (l lato dei quadrati della partizione),
si ha, per ogni quadrato Q della partizione
Q ∩ A 6= ∅ ⇒ Q ⊂ B.

Poiché A è misurabile è possibile supporre che
mis (∪i∈ I Qi ) < e
(si ricordi che con Qi , i ∈ I, si sono indicati i quadrati che ricoprono

la frontiera di A) e, se M = max{k∇φ( x )k : x ∈ ∪ Q tali che Q ∩ A 6=
∅ }, si ha
√ √
x, y ∈ Q ⇒ | x − y| < l 2 ⇒ |φ( x ) − φ(y)| < Ml 2 .
Ne segue
mis+ φ( Q) ≤ 2πl 2 M2 = 2πM2 mis Q
e
mis+ φ (∪i∈ I Qi ) ≤ ∑ mis+ φ(Qi ) ≤ ∑ 2πM2 mis Qi < 2πM2 e .

i∈ I i∈ I
In particolare, mis+ ∂φ( A) ≤ mis+ φ(∂A) ≤ 2πM2 e , da cui risulta

mis+ ∂φ( A) = 0 e φ( A) è misurabile.
Passiamo ora a provare la seconda affermazione. Si ha
∀e > 0 ∃δe > 0 : |u − v| < δe ⇒ |∇φ(u) − ∇φ(v)| < e e

| Jφ(u) − Jφ(v)| < e.
√
Sia ora Q tale che l 2 < δ (si ometterà nel seguito l’indice e), sia u0
il centro di Q e sia φ0 (u) = φ(u0 ) + h∇φ(u0 ), (u − u0 )i .
Per ogni u ∈ Q si ha
|φ(u) − φ0 (u)| = |[φ(u) − h∇φ(u0 ), ui] − [φ(u0 ) − h∇φ(u0 ), u0 i]| ≤

√
≤ sup k∇φ(c) − ∇φ(u0 )k ku − u0 k ≤ el 2
Ne segue che
√
(1) φ( Q) ⊂ φ0 ( Q) + S(0, el 2) = φ0 ( Q) ∪ E0
Inoltre, da
√
(2) ∂φ( Q) ⊂ φ(∂Q) ⊂ φ0 (∂Q) + S(0, el 2)
segue
(3) φ0 ( Q) \ E1 ⊂ φ( Q)
infatti, se φ0 ( Q) \ E1 = ∅ è ovvio; in caso contrario si ha φ0 (u0 ) =

φ(u0 ) ⊂ φ0 ( Q) \ E1 , e se per assurdo esistesse x ∈ φ0 ( Q) \ E1 , x ∈
/
φ( Q), il segmento di estremi φ(u0 ) e x, tutto contenuto in φ0 ( Q) \ E1
dovrebbe contenere punti di ∂φ( Q), il che contraddice la (2).
Allora, da (1) e (3)

mis φ0 ( Q) − mis E0 ≤ mis φ0 ( Q) − mis E1 ≤ mis φ( Q)

≤ mis φ0 ( Q) + mis E0
| mis φ( Q) − mis φ0 ( Q)| ≤ mis E0 .
Ma poiché i lati del parallelogramma φ0 ( Q) hanno lunghezza mi-

nore di Ml, si ha
√
mis E0 ≤ Mlel 2 + 2πe2 l 2 ≤ cost. el 2 = cost. e mis Q.
Sia ora u ∈ Q, essendo mis φ0 ( Q) = Jφ(u0 ) mis Q, si ha
| mis φ( Q) − Jφ(u) mis Q| ≤ | mis φ( Q) − mis φ0 ( Q)|+

+ | Jφ(u0 ) mis Q − Jφ(u) mis Q| ≤
≤ cost.e mis Q + e mis Q.
Teorema 9.16 Sia φ : B → R2 , B ⊂ R2 aperto, φ ∈ C1 ( B), e sia A limitato

e misurabile, con cl A ⊂ B, e det∇φ 6= 0 su int A, e sia φ invertibile su
int A ed f : φ( A) → R è continua e limitata, allora
Z Z
f ( x ) dx = f (φ(u)) |det ∇φ(u)| du.
φ( A) A
Dimostrazione. Per il lemma 1
∀e > 0 ∃ Pe : mis (∪i∈ I Qi ) , mis φ (∪i∈ I Qi ) < e.
Supponiamo inoltre vera la tesi del lemma 2; posto poi
F (u) = f (φ(u))|det∇φ(u)|
poiché F è integrabile su A, si può supporre

Z

R( F, Pe , Ξ) − F (u)du < e .
A
Si ha quindi, avendo indicato con Qi , i ∈ I 0 , i quadrati contenuti in

A

Z Z

φ( A) f ( x )dx − A F (u)du =
Z Z

= f ( x )dx + f ( x )dx −
φ(∪ I 0 Qi ) φ(∪ I Qi )
Z

− R( F, Pe , Ξ) + R( F, Pe , Ξ) − F (u)du ≤
A
Z Z

≤ f ( x )dx − R( F, Pe , Ξ) + | f ( x )|dx +
φ(∪ I 0 Qi ) φ(∪ I Qi )
Z

+ R( F, Pe , Ξ) − F (u)du ≤
A
Z

≤ ∑ f ( x )dx − R( F, Pe , Ξ) + e sup | f ( x )| + e ≤
i ∈ I 0 φ ( Qi )

≤ ∑ f ( xi ) mis φ( Qi ) − ∑ F (ui ) mis Qi +
i ∈ I 0 i∈ I 0

+ ∑ F (ui ) mis Qi + e cost. ≤
i ∈ I
(dove xi = φ(ui ) )
≤ ∑ | f (xi )| | mis φ(Qi ) − Jφ(ui ) mis Qi |+
i∈ I 0
+ sup | F (u)| mis(∪ I Qi ) + e cost. ≤
≤ sup | f ( x )| ∑e mis Qi + e cost. + e cost. ≤
i∈ I 0
≤ cost. e mis A + e cost. ≤ e cost.
9.1.7 Integrali Impropri in R3

Illustriamo ora per sommi capi il problema di definire l’integrale di
una funzione non limitata su un insieme limitato o non limitato.
Definizione 9.12 Sia f : A −→ R+ , A ⊂ R3 , f limitata ed integrabile in

ogni compatto misurabile K ⊂ A. Definiamo
Z Z
f ( x )dx = sup f ( x )dx : K ⊂ A , K compatto e misurabile
A K
La definizione si può facilmente estendere a funzioni di segno qualunque,

non appena si ricordi che f = f + + f − .
R
Per il calcolo di A f ( x )dx è opportuno dare la seguente definizione.
Definizione 9.13 Sia A ⊂ R3 diciamo che Ki è una successione di domini

invadenti A se

• Ki sono insiemi compatti, misurabili, Ki ⊂ A
• Ki +1 ⊃ Ki
• ∀K ⊂ A, K compatto, misurabile, ∃i tale che Ki ⊃ K.
Teorema 9.17 Sia A ⊂ R3 misurabile e sia f : A −→ R+ una funzione

integrabile in ogni insieme K ⊂ A, compatto e misurabile.
Allora se Ki è una successione di domini invadenti A, si ha
Z Z
f ( x )dx = lim f ( x )dx
A i Ki
Z Z
f ( x )dx ≤ f ( x )dx
Ki A
R
e Ki f ( x )dx è una successione crescente per cui
Z Z Z
lim f ( x )dx = sup f ( x )dx ≤ f ( x )dx
i Ki Ki A
D’altra parte, dal momento che, ∀K ⊂ A esiste Ki ⊃ K, si ha

Z Z Z
sup f ( x )dx ≥ sup f ( x )dx : K ⊂ A = f ( x )dx
Ki K A
Teorema 9.18 Sia f : A −→ R, A ⊂ R2 misurabile, chiuso e limitato; sia

x0 ∈ A, sia f continua in A \ { x0 } e
lim f ( x ) = +∞
x → x0
Allora se
H
f (x) ≤ , H≥0, α<2
k x − x0 k α
f è integrabile in senso improprio su A.
Se invece
H
f (x) ≥ , H>0, α≥2
k x − x0 k α
e se A contiene un cono di vertice x0 e ampiezza positiva, allora
Z
f ( x )dx = +∞.
A
Dimostrazione. Sia Ak = cl( A \ S( x0 , 1/k )), Ak è una successione di

domini invadenti A; sia h ∈ N, si ha, se k > h
Z Z Z
f ( x )dx = f ( x )dx − f ( x )dx
Ak Ah Ah \ Ak
inoltre Z Z 2π Z 1/h
H
f ( x )dx ≤ dθ ρdρ
Ah \ Ak 0 1/k ρα

non appena si sia convenuto di indicare con ρ e θ le coordinate polari

nel piano, centrate in x0 .
Per quel che riguarda il secondo enunciato, detti θ0 e θ1 gli angoli
che le semirette delimitanti il settore formano con l’asse x, si ha
Z Z θ Z 1/h
1 H
f ( x )dx ≥ dθ ρdρ
Ah \ Ak θ0 1/k ρα
2
In maniera analoga si può provare il seguente
Teorema 9.19 Sia f : A −→ R, A ⊂ R3 non limitato; sia f continua.

Se
H
| f ( x )| ≤ , H≥0, α>2
k x kα
allora f è integrabile in senso improprio su A.
Se invece
H
f (x) ≥ , H>0, α≤2
k x kα
e se A contiene un cono di ampiezza positiva, allora
Z
f ( x )dx = +∞.
A
9.2 Integrali dipendenti da un parametro.
Passiamo infine a illustrare brevemente il comportamento di un inte-

grale rispetto a parametri contenuti nella funzione da integrare.
Questo tipo di problematiche si incontra, ad esempio, quando si stu-
diano le trasformazioni integrali (Fourier, Laplace) o nella definizione
di funzioni notevoli (come,ad esempio, la funzione Γ).
Teorema 9.20 Sia f : A × I −→ R, A ⊂ Rn chiuso e limitato, I = [ a, b].

Supponiamo f ∈ C 0 ( A × I ), allora F : A × I × I −→ R definita da
Z z
F ( x, y, z) = f ( x, t)dt
y
è continua in A × I × I; inoltre Fy ed Fz esistono e sono continue in A × I × I.

Se ∇ x f ∈ C 0 ( A × I × I ), allora F è differenziabile rispetto ad x,
Z z
∇ x F ( x, y, z) = ∇ x f ( x, t)dt
y
e quindi risulta ∇ x F è continuo in A × I × I e F ∈ C 1 ( A × I × I ) .
Dimostrazione. Per quel che riguarda la prima parte dell’enunciato

è sufficiente ricordare che f è uniformemente continua e limitata su

A × I; si ha pertanto
Z z0 Z z
0 0 0
0

| F ( x , y , z ) − F ( x, y, z)| = f ( x , t)dt − f ( x, t)dt =
y 0 y
Z z Z y Z z0

= [ f ( x 0 , t) − f ( x, t)]dt + f ( x 0 , t)dt + f ( x 0 , t)dt ≤
y y0 z
≤ ε|b − a| + M(|y − y0 | + |z − z0 |)
Il resto del primo punto è conseguenza del teorema fondamentale

del calcolo integrale.
Per quanto riguarda il secondo enunciato si ha
Z z
1
F ( x + h, y, z) − F ( x, y, z) − h ∇ x f ( x, t)dt, hi ≤
khk y
Z z
| f ( x + h, t ) − f ( x, t) − h∇ x f ( x, t), hi|
≤ dt
y khk
Z z
|h∇ x f (ξ, t) − ∇ x f ( x, t), hi|
= dt ≤
y khk
Z z

≤ k∇ x f (ξ, t) − ∇ x f ( x, t)kdt

y
con kξ − x k < k hk. Come per il punto precedente si può conclude-

re, ricordando che ∇ x f è continuo, e quindi è uniformemente continuo
in A × I. 2
Il teorema 26.33 può essere esteso anche nel caso in cui l’integrale
sia inteso in senso improprio. Tratteremo qui soltanto il caso in cui
l’intervallo di integrazione è illimitato, in quanto esso è facilmente
estendibile all’altro caso.
Teorema 9.21 Sia f : A × I −→ R, A ⊂ Rn chiuso e limitato, I =

[ a, +∞), una funzione continua. Consideriamo
Z +∞
F(x) = f ( x, t)dt
a
Se esiste φ : I −→ R tale che

Z +∞
| f ( x, t)| ≤ φ(t) ∀ x ∈ A ; φ(t)dt < +∞
a
allora F è definita e continua in A.

Se inoltre ∇ x f esiste, è continuo in A × I, e se esiste ψ : I −→ R tale che
Z +∞
k∇ x f ( x, t)k ≤ ψ(t) ∀ x ∈ A ; ψ(t)dt < +∞
a
allora F ∈ C 1 ( A) e
Z +∞
∇ F(x) = ∇ x f ( x, t)dt .
a

Dimostrazione. Sia δ > a scelto in modo che

Z +∞
φ(t)dt < ε/4
δ
(Ciò è possibile in quanto φ ammette integrale improprio convergente

su [ a, +∞)).
Si ha
Z δ

| F ( x 0 ) − F ( x )| ≤ ( f ( x 0 , t) − f ( x, t))dt +
a
Z +∞
+2 φ(t)dt
δ
ed applicando il teorema precedente, se | x − x 0 | < δ(ε), si ottiene
| F ( x 0 ) − F ( x )| ≤ ε/2 + 2ε/4
Per quel che riguarda la seconda parte si ha in analogia a quanto fatto

sopra e a quanto fatto nel teorema precedente
Z +∞
1
F ( x + h) − F ( x ) − h ∇ x f ( x, t)dt, hi ≤
khk a
Z δ Z +∞
≤ k∇ x f (ξ, t) − ∇ x f ( x, t)kdt + 2 ψ(t)dt
a δ
essendo kξ − x k ≤ khk e si può concludere con gli stessi argomenti.

2

O . C A L I G A R I S - P. O L I V A
P R O B A B I L I TÀ
10. Elementi di Probabilità e Statisti-
ca.
La nascita del calcolo delle probabilità si fa risalire alla seconda me-

tà del ’600 e più precisamente al carteggio intervenuto tra Blaise Pa-
scal e Pierre de Fermat a proposito delle questioni poste da Antoine
Gombaud Chevalier de Mere.
Il Cavaliere de Mere giocava d’azzardo seguendo la moda del-

l’epoca e si dice avesse subito gravi perdite scommettendo sul-
l’uscita di almeno una coppia di 6 in 24 lanci di due dadi dopo
aver avuto notevoli successi scommettendo sull’uscita di almeno
un 6 su 4 lanci di un solo dado. Con le notazioni di oggi posssia-
mo infatti calcolare che la probabilità di ottenere una coppia di 6
nel lancio di due dadi è 1/36 e quindi la probabilità di ottenere
almeno una coppia di 6 in 24 lanci è
24
35
1− ≈ 0.4823
36
24
essendo 35 36 la probabilità di non ottenere una coppia di 6 in
nessuno dei 24 lanci
D’altro canto la probabilità di ottenere un 6 nel lancio di un
solo dado è 1/6 e quindi la probabilità di ottenere almeno un 6 in
4 lanci è 4
5
1− ≈ 0.5177
6
La questione posta dal cavaliere de Mere era sul tappeto già in

precedenza e riguardava la seguente situazione:
Due giocatori A e B scommettono sul successo in almeno 3 tra 5 prove
ripetute. Dopo la terza prova A ha ottenuto 2 successi e B ne ha ottenuto 1.
A questo punto si interrompe il gioco. Il problema consiste nel determinare
una suddivisione equa della posta
La soluzione di Fermat si basa sul fatto che nel prosieguo del gioco
uno solo dei quattro possibili eventi, quello in cui B vinca entrambe le
2 rimanenti partite, è favorevole a B mentre gli altri 3 casi sono tutti
favorevoli ad A. Pertanto la posta deve essere divisa nella proporzione
di 3/4 ad A ed 1/4 a B.
Pascal invece osserva che se il gioco fosse proseguito, poichè nella
quarta partita sia A che B hanno eguale possibilità di vittoria, A ha
diritto alla metà della posta ed inoltre poichè, se vincesse B, nell’ultima
partita le possibilità sarebbero ancora uguali A ha diritto anche alla
metà della metà rimanente e quindi in tutto 3/4 della posta vanno ad
A.
Pascal fu anche in grado di ottenere una generalizzazione della sua
soluzione estendendo il suo ragionamento per induzione e provando,
ad esempio che, nel caso in cui ad A manchino 2 successi e a B ne
manchino 3, la posta deve essere divisa in parti proporzionali ai nu-
meri che si ottengono sommando i primi 3 e gli ultimi 2 termini che
compaiono nella riga del triangolo aritmetico di Pascal (o Tartaglia)
che contiene 5 termini. Il problema era stato affrontato già molte vol-
te nei secoli precedenti ma la soluzione che ora consideriamo corretta
fu trovata per la prima volta da Pascal e Fermat e fu formalizzata da
Christian Huygens nel suo libro De ratiociniis in ludo aleae nel 1657
Nel secolo seguente molti autori pubblicarono libri sull’argomento
dando inizio al calcolo delle probabilità. Ricordiamo Ars conjectandi
di Giacomo Bernoulli del 1713, Essay d’analyse sur les jeux de hasard di
Pierre Rémond de Montmort pubblicato nel 1708 e nel 1711, Doctrine
s
A
1 AA of chances di Abraham De Moivre pubblicato nel 1718, nel 1738 e nel
2
s
A 1756, Doctrine of annuity and reversions di Thomas Simpson del 1742,
H
HH Annuities on lives di Abraham De Moivre pubblicato nel 1725, nel 1743,
1 1 HHBs
2 2 nel 1750 e nel 1752.
AB
Prima ancora possiamo ricordare i contributi precursori della teoria
s delle probabilità dovuti a Cardano contenuti nel Liber de ludo aleae,
@
probabilmente scritti nel 1560 ma, pubblicati postumi dopo l’uscita
s BA
@ A
@12 1
2
del lavoro di Huygens.
@ B
@sH
HH
1
2 HHBs 10.0.1 La divisione della posta
BB
Consideriamo il problema della divisione della posta che abbiamo
prima introdotto, quando ai due giocatori, che chiameremo A e B
mancano rispettivamente 1 e 2 partite.
Abbiamo già visto che la posta deve essere divisa, in questo caso,
in parti proporzionali a 3 e 1; in altre parole al primo giocatore spetta
3 3 1 1
3+1 = 4 , mentre al secondo spetta 3+1 = 4 della posta. Possiamo
ricavare lo stesso risultato usando un semplice grafo ad albero che
elenca tutte i possibili esiti di 2 partite, tante quante ne servono per
concludere il gioco.
AnTot.TEX— [ Content/Prob/Prob-1.tex] 12 dicembre 2018—16:09:13

probabilità 137
I casi favorevoli ad A sono quindi quelli in cui A compare almeno

una volta e sono 3, mentre l’unico caso favorevole a B è quello in cui B
compare due volte. È evidente l’analogia con i monomi che compaiono
Ar 1 4
nello sviluppo di AA p1 = 4 = 16
1
2
( A + B)2 = A2 + 2AB + B2
Ar
e possiamo anche notare che la somma di tutti i coefficienti (1 + 2 + 1) @ Ar 1 2
è 4, che la somma dei primi due è 3 mentre il terzo è 1 e congetturare 1 ABA p2 = 8 = 16
@1
2 2
r
@
che ci sia una relazione con la suddivisione equa della posta. 1 @B
2 HH
1 r
A 1
Per capire qualcosa in più consideriamo allora il caso in cui ad A ABBA p4 = 16
1H
r
2 HB
2
2 Xr ABBB q = 1
X X 1 B
manchino 2 partite e a B ne manchino 3. In tal caso la situazione può X
r 2 16
essere descritta enumerando i casi possibili ed indicando la probabilitàA
Ar
di accadimento pi o qi di ognuno, come segue. A 1
1 BAA p3 = 8 = 16
2
2
Pertanto la probabilità di vittoria di A è r
A1 A
A2 HH Ar
1 1
1 11 1 1H
2 HBr X2 BABA p5 = 16
p = ∑ pi =
A 2
(4 + 2 + 1 + 2 + 1 + 1) =
2 Xr BABB q = 1
A X 1X B
16 16 AABr 3 16
mentre B vince con probabilità 1
Ar 1
2 BBAA p6 = 16
@
Ar X
2 Xr BBAB q = 1
@1
1 5 1
X B
q = ∑ qi =
2 1X
(1 + 1 + 2 + 1) = @ B 2
16 16 @r 4 16
HH
2 HBr
1H
Ovviamente p + q = 1 e la posta va divisa in parti proporzionali a BBB q1 = 18 = 16
2
11 e 5
Completiamo il grafo ad albero elencando tutti i casi possibili, ognu-
1
no di essi ha uguale probabilità pi = 16 ; identifichiamo poi le possibili
uscite con monomi in A e B e contiamone il numero.
Osserviamo che A4 compare 1 volta, A3 B 4 volte, A2 B2 6 volte, AB3 1
Ar 4
r
A 2 AAAA ( A )
4 volte e B4 1 volta ed è immediato notare l’analogia con lo sviluppo 1
X X1XXBr
2 2 AAAB ( A3 B)
della quarta potenza del binomio rH
A
1
Ar 3
2 AABA ( A B)
H1H
( a + b)4 = a4 + 4a3 b + 6a2 b2 + 4ab3 + b4
1
2 2 HBr X
2 Xr AABB ( A2 B2 )
X 1X B
Ar
I casi favorevoli ad A sono quelli in cui a compare almeno alla po-
1 r
A
@ ABAA ( A3 B)
tenza 2 e possiamo contarli sommando i relativi coefficienti 1 + 4 + 6; Ar 2
2 Xr ABAB ( A2 B2 )
@1 1 X X B
2 1X
in maniera analoga otteniamo che i casi favorevoli a B son quelli in cui 1 @ B 2
2 @ rH
Ar
b compare almeno alla terza potenza e anche qui possiamo ottenerne H1H 1
2 ABBA ( A B )
2 2
rXX
2 HB
2 Xr ABBB ( AB3 )
il numero sommando i relativi coefficienti 4 + 1. 1X B
Otteniamo quindi lo stesso risultato già visto ed inoltre risulta chia-r Ar

1 3
2 BAAA ( A B)
A
ro come estendere la regola della suddivisione al caso in cui ad A A Ar
2 Xr BAAB ( A2 B2 )
1
XX1X B
manchino k vittorie e a B ne manchino h. La suddivisione dovrà es- A 1 2

2
A r
sere proporzionale alla somma dei primi k e degli ultimi h coefficienti A 1 r
H A
H1H BABA ( A2 B2 )
dello sviluppo di ( a + b) k + h − 1 .
A 1
2 2 HBr 2
2 Xr BABB ( AB3 )
A X X 1X B
ABr
1 r
A
@ BBAA ( A2 B2 )
10.1 Qualche richiamo di calcolo combinatorio. Ar 2
2 Xr BBAB ( AB3 )
@1 1
XX1X B
2
@ B 2
@ rH
1 r
Per studiare un po’ di probabilità discreta è utile conoscere qualche A
H1H BBBA ( AB3 )
elemento di calcolo combinatorio. 2 HBr 2
2 Xr BBBB ( B4 )
XX1 B
X
12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-1.tex]

Il calcolo combinatorio si occupa di stabilire il numero delle possibi-

li uscite di semplici esperimenti; si fonda essenzialmente sul principio
seguente:
Se un esperimento ha n1 possibili esiti, un secondo esperimento

ha n2 possibili esiti, un terzo esperimento ha n3 possibili esiti, al-
lora il numero dei possibili esiti della sequenza dei tre esperimenti
è
n1 n2 n3
Le più comuni conseguenze di questo principio portano a un certo

numero di definizioni che descriviamo brevemente.
10.1.1 Disposizioni di n elementi a k a k.

Parliamo di disposizioni (o anche, se k = n, di permutazioni) di
n elementi a k a k quando consideriamo i gruppi che si ottengono
scegliendo k elementi tra gli n dati.
Riteniamo due gruppi distinti se differiscono per un elemento o per
l’ordine con cui gli elementi sono scelti.
Indichiamo con
n Dk
il numero delle disposizioni di n elementi a k a k.
Poichè per il primo elemento di ciascun gruppo abbiamo n scelte,

per il secondo ne abbiamo (n − 1) per il terzo ne abbiamo (n − 2) e
così via, possiamo calcolare che
n!
n Dk = n(n − 1)(n − 2)(n − 3)....(n − (k − 1)) =
(n − k)!
Inoltre
Il numero delle disposizioni di n elementi ad n ad n, cioè delle

permutazioni, risulta
Pn =n Dn = n!
Parliamo di permutazioni con elementi ripetuti quando conside-

riamo le permutazioni di n elementi che si presentano in k sottogrup-

probabilità 139
pi di elementi indistinguibili, ciascuno composto da n1 , n2 , n3 ,...,nk

elementi con n1 + n2 + n3 + · · · + nk = n
Le permutazioni con elementi ripetuti risultano in numero di
n!
n1 !n2 !n3 ! · · · nk !
Nella formula precedente il denominatore è giustificato dal fatto

che, per l’i −esimo gruppo, ci sono ni ! modi di scegliere in sequenza
cli ni elementi.
Qualora si possa scegliere da n elementi per coprire k posti sen-
za il vincolo di non considerare un elemento giá scelto parliamo di
disposizioni con ripetizione.
Si calcola facilmente che le disposizioni con ripetizione sono in

numero di
nk
10.1.2 Combinazioni di n elementi a k a k.

Individuare una combinazione di n elementi a k a k significa assegnare
k elementi ad n ≥ k posizioni senza tener conto dell’ordine con cui gli
elementi figurano.
Indichiamo con
n Ck
il numero delle combinazioni di n elementi a k a k.
Possiamo visualizzare mediante k segni Z gli elementi cui bisogna

assegnare una posizione e con n circoletti le posizioni disponibili
Ad esempio nella figura sono riportate 22 posizioni e 9 elementi.
Z Z Z Z Z Z Z Z Z
Naturalmente non è importante in quale delle 9 posizioni occupate
da Z si colloca il primo elemento, in quale si colloca il secondo, in
quale il terzo e così via; quindi ci sono molti modi per disporre sulle 9
posizioni occupate i 9 elementi che indichiamo con
¶ · ¸ ¹ º » ¼ ½ ¾
La seguente figura descrive una possibile scelta
¶ · ¸ ¹ º » ¼ ½
¾
in cui il primo elemento è collocato sulla prima posizione scelta il
secondo sulla seconda e così fino al nono.

Altre possibili disposizioni sono

¸ · ¶ ¾ º
½ ¼ » ¹
oppure
¾ · ½ ¹ º
» ¶ ¸ º
Quindi per stimare il numero di possibilità di disporre k segni Z
in n posizioni occorre
• contare in quanti modi si possono scegliere k posizioni su n dispo-
nibili; sia Nk il loro numero.
• contare in quanti modi si possono disporre i k segni Z (elementi)

sulle k posizioni scelte; sia Kk il loro numero.
• Calcolare NKk in quanto ogni possibilità di disporre k segni Z in n

k
posizioni è ottenuta Kk volte, se non si tiene conto dell’ordinamento.

Avremo, in tutto,
n!
Nk = n(n − 1)(n − 2)(n − 3) · ·(n − (k − 1)) =
(n − k)!
modi possibili
e
Kk = k(k − 1)(k − 2)(k − 3) · ·1 = k!

Concludendo, il numero di modi in cui si possono disporre k ele-
menti su n lanci è

n(n − 1)(n − 2)(n − 3) · ·(n − (k − 1)) n! n
= =
k! (n − k)!k! k
Poniamo

n n!
n Ck = =
k k!(n − k)!
Il numero n Ck si chiama coefficiente binomiale.

Ricordiamo che i coefficienti binomiali possono essere ricavati dal
triangolo di Tartaglia e che trovano una importante applicazione nella
formula del binomio di Newton che illustriamo brevemente di seguito.
Lemma 10.1 (Triangolo di Tartaglia)

n n n+1
+ =
k k−1 k
Dimostrazione.

n n n! n!
+ = + =
k k−1 k!(n − k )! (k − 1)!(n − (k − 1))!

n![(n + 1 − k) + k] ( n + 1) ! n+1
= = =
k!(n + 1 − k )! k!(n + 1 − k)! k

probabilità 141
2
Possiamo allora costruire una tabella con le righe indicizzate da n e
HH k
le colonne indicizzate da k ponendo 1 nei posti corrispondenti a k = 0 e 0 1 2 3 4 5 6
n HH
k = n e calcoliamo ogni elemento sommando i due elementi della riga 1 1 1
precedente, che occupano la stessa colonna e quella immediatamente 2 1 2 1
3 1 3 3 1
a sinistra della posizione occupata dall’elemento considerato. 4 1 4 6 4 1
In virtù dell’uguaglianza precedente la tabella contiene nella k −esima 5 1 5 10 10 5 1
colonna della n−esima riga il coefficiente binomiale (nk) e prende il no- 6 1 6 15 20 15 6 1
Tabella 10.1: Il triangolo di Tartaglia per
me di triangolo di Tartaglia, o di Pascal; per il modo semplice e iterati- n≤6
vo con cui è costruita, risulta molto comoda per calcolare i coefficienti
binomiali.
(10) (11)
Valgono inoltre, per i coefficienti binomiali, le seguenti proprietà
(20) (21) (22)
che risultano molto utili in alcuni calcoli che riguardano le distribu- (30) (31) (32) (33)
zioni di probabilità discrete. ... ... ... ... ...
(n0 ) ... (k−n 1) (nk) ... (nn)
Lemma 10.2 Si ha ... ... ... (n+k 1) ... ...
... ... ... ... ... ...
n n−1
k =n
k k−1
Dimostrazione. Basta eseguire il calcolo algebrico. 2
Lemma 10.3 - Identità di Vandermonde - Si ha

k
m+n m n
= ∑
k h =0
h k−h
Dimostrazione. Osserviamo che
• (m+ n
k ) è il numero dei modi con cui si possono scegliere k elementi
tra m + n
• (mh) è il numero dei modi con cui si possono scegliere h elementi tra
m
• (k−n h) è il numero dei modi con cui si possono scegliere k − h ele-

menti tra n
Poichè si possono scegliere k elementi tra m + n prendendone h tra i

primi m e k − h tra gli altri n, possiamo contare in quanti modi questo
si può fare semplicemente tenendo conto che, per h fissato ci sono
(mh)(k−n h) possibili scelte.
Sommando su h si trovano tutte e si ottiene la formula. 2
Teorema 10.1 (Binomio di Newton)

n
n
( a + b)n = ∑ k an−k bk
k =0
Dimostrazione. E’ immediato verificare che la formula vale per n =

1.

Proviamo ora che, se la formula è valida per n, allora è valida anche

per n + 1. Si ha
( a + b ) n +1 = ( a + b ) n ( a + b ) =
!
n n n
n n−k k n n−k k n n−k k
= ∑ a b ( a + b) = a ∑ a b +b ∑ a b =
k =0
k k =0
k k =0
k
n n
n n +1− k k n n − k k +1
= ∑ a b +∑ a b =
k =0
k k =0
k
n
n n +1− k k n −1 n n − k k +1
= a n +1 + ∑ a b +∑ a b + bn+1 = (10.1)
k =1
k k =0
k
n n
n n +1− k k n
= a n +1 + ∑ k a b + ∑ k − 1 a n +1− k b k + b n +1 =
k =1 k =1
n
n n
= a n +1 + ∑ + a n +1− k b k + b n +1 =
k =1
k k − 1
n n +1
n + 1 n +1− k k n + 1 n +1− k k
= a n +1 + ∑ a b + b n +1 = ∑ a b
k =1
k k =0
k
2
10.1.3 Campioni ordinati

Il calcolo combinatorio è utile per stimare il numero di possibili cam-
pioni estratti da una popolazione.
Per aiutarci assimiliamo la popolazione ad un un’urna piena di
palline e l’estrazione degli elementi del campione all’estrazione delle
palline dall’urna.
Possiamo operare un campionamento con ripetizione estraendo una
pallina, osservandola e rimettendola nell’urna dopo aver annotato l’in-
formazione relativa.
In tal caso, se operiamo k estrazioni, avremo
k volte
z }| {
nnn...n = nk
possibili uscite in quanto per ogni elemento estratto avremo sempre n

possibili scelte.
Nel caso in cui si operi invece un campionamento senza ripetizione,
estraendo, osservando e non rimettendo la pallina nell’urna, per la
prima estrazione avremo n possibilità, per la seconda n − 1, per la
terza n − 3 e così via.
Pertanto avremo
n!
n Dk =
(n − k)!
possibili uscite.

probabilità 143
10.2 Spazi di probabilità
10.2.1 Il Lancio di una moneta

Per introdurre i formalismi necessari per parlare di probabilità comin-
ciamo ad illustrare qualche semplice esempio di quello che chiamere-
mo spazio di probabilità discreto Consideriamo il più semplice tra i
giochi d’azzardo, e cioè il lancio di una moneta. Possiamo schema-
tizzare il gioco introducendo gli eventi possibili per un singolo lancio,
che sono:
• L’uscita di Testa T
• L’uscita di Croce C
È naturale definire la loro probabilità di accadimento ponendo
1 1
P (T ) = , P (C ) =
2 2
e possiamo motivare la nostra scelta con il fatto che le uscite possibili
sono due una sola delle quali è considerata per l’evento T o l’evento C
Naturalmente la definizione presuppone che T e C si presentino con
ugual frequenza, cioè che la moneta sia non truccata; inoltre va detto
che consideriamo una astrazione del gioco in quanto non possiamo
escludere che una moneta reale, dopo essere stata lanciata si fermi in
una posizione che non corrisponda a nessuna delle due cui attribuiamo
il significato di T o C ed inoltre, nella realtà, non è possibile essere certi
che la moneta non presenti una faccia più frequentemente di un’altra
per causa della sua conformazione.
Accanto agli eventi elementari possiamo introdurre anche l’evento
U = {T, C}
che rappresenta l’evento certo e l’evento ∅ che assume invece il ruolo

di evento impossibile. Chiaramente
P (U ) = P ( T ) + P (C ) = 1 , P (∅) = 0
Osserviamo che abbiamo quindi definito
• Un insieme U che contiene tutte le possibili uscite del gioco
• una famiglia di insiemi F costituita da tutti gli eventi che possiamo

considerare
F = {U , T , C , ∅}
• una funzione P che associa ad ogni evento un numero positivo con

la condizione che P (U ) = 1

10.2.2 Il lancio di un dado

Un caso del tutto simile è quello in cui si considera un dado con le
facce numerate da 1 a 6; identifichiamo con xk l’evento è stato ottenuto
il punteggio k (cioè la faccia superiore del dado mostra k) per k = 1..6.
Evidentemente possiamo attribuire ad ogni evento xk una probabi-
lità tenendo conto che ciascun evento è individuato da uno dei 6 casi
possibili. Astraendo anche qui possiamo scrivere che:
Evento x1 x2 x3 x4 x5 x5
Probabilità 1/6 1/6 1/6 1/6 1/6 1/6
In altre parole
1
P( xk ) =
= pk
6
Chiaramente possiamo anche qui individuare un insieme che con-
tenga tutti gli eventi
U = { x1 , x2 . x2 . x2 . x2 . x2 . x6 }
per il quale si ha
6 6
1
P (U ) = ∑ P ( xk ) = ∑ 6
=1
k =1 k =1
e che rappresenta l’evento certo e un insieme ∅ che rappresenta l’e-

vento impossibile per il quale ovviamente si ha
P (∅) = 0
In questo caso possiamo anche considerare molti altri eventi come,

ad esempio l’evento E p che è individuato dall’uscita di un pari:
E p = { x2 , x4 , x6 }
per cui si ha
3 3
1 1
P (Ep ) = ∑ P (x2k ) = ∑ 6
=
2
k =1 k =1
oppure
E1 = { x2 , x5 }
per cui
1 1 1
P ( E1 ) = P ( x2 ) + P ( x5 ) =
+ =
6 6 3
In generale possiamo considerare tanti eventi quanti sono i sottoin-
siemi che si possono formare utilizzando gli elementi di U .
Nella famiglia F di tali sottoininsiemi, quella che di solito si chia-
ma famiglia delle parti di U , possiamo definire una funzione P che

probabilità 145
assegna ad ogni E ∈ F un numero P ( E) che si ottiene semplicemente

sommando 16 per tante volte quanti sono gli elementi di E.
Anche in questo caso quindi avremo ottenuto una terna
(U , F , P )
che individua quello che possiamo chiamare uno spazio di probabilità.
10.2.3 Il lancio di due dadi

Consideriamo ora il caso del lancio di due dadi.
Se le facce sono numerate, come al solito, da 1 a 6 possiamo identi-
ficare l’esito del lancio con la coppia di numeri (i, j) (punteggio) che si
leggono sulla faccia superiore del primo e del secondo dado.
In tal modo possiamo identificare ciascuna delle 36 possibili uscite
(eventi) con il punto del piano cartesiano di coordinate (i, j); indiche-
remo tale evento con il simbolo Ai,j , (si veda la figura 10.1).
Poichè nel caso di dadi non truccati ogni evento è equiprobabile
possiamo affermare che la probabilità di Ai,j è data da
1
P ( Ai,j ) =
36
Figura 10.1: Lo spazio U degli eventi nel
Ovviamente possiamo combinare gli eventi elementari per costruire caso del lancio di due dadi
altri eventi; ad esempio possiamo considerare un nuovo evento
B = A1,4 ∪ A5,6 = { A1,4 , A5,6 }
e, dal momento che B contiene 2 eventi elementari sui 36 possibili,

possiamo ragionevolmente definire
2 1 1
P ( B) = = +
36 36 36
Anche in questo caso abbiamo quindi costruito una terna
(U , F , P )
che costituisce lo spazio di probabilità che rappresenta il lancio di due

dadi.
10.2.4 Lancio di una moneta reiterato fino al successo

Gli esempi finora considerati riguardano casi in cui il numero di eventi
possibili è finito. Possiamo anche costruire esempi in cu si considerino
una quantità numerabile di eventi possibili.
Supponiamo do lanciare una moneta per cui
P ( T ) = p , P (C ) = 1 − p = q

e consideriamo gli eventi En individuati dalla condizione che "è uscita

testa esattamente all’ n−esimo lancio.
Avremo che
P ( Ek ) = (1 − p)k−1 p
in quanto è sempre uscita C per k − 1 lanci ed è uscito T esattamente

p
al k-esimo lancio
r Possiamo usare il grafo ad albero in Figura 10.2 per illustrare la
@ situazione.
@q
p Dal momento che
@r
@
+∞ +∞
HH
Hrp 1
∑ p (1 − p ) k −1 = p ∑ (1 − p ) k = p 1 − (1 − p )
qH
Figura 10.2: p =1
q Xr
XXX
X

XqXX 1 0
lo spazio costituito da tutti i possibili eventi Ek costituisce uno spazio

di probabilità discreto, non finito, numerabile.
10.3 Insiemi e probabilità
Per identificare uno spazio di probabilità discreto possiamo

considerare un insieme U , finito o numerabile, che chiameremo
spazio dei campioni, i cui elementi a, b, c ∈ S sono identificabili
con gli eventi elementari e i cui sottoinsiemi A, B, C ⊂ S sono gli
eventi.
L’insieme U sarà quindi identificabile con l’evento certo mentre
il vuoto ∅ sarà l’evento impossibile Possiamo considerare in U la
famiglia F di tutti i sottoinsiemi di U ed inoltre gli eventi saranno
identificati mediante l’insieme A ∈ F sarà identificabile con il
fatto che A accade, e il suo complementare Ac con il fatto che A
non ha luogo.
A ∪ B indicherà che almeno uno tra A e B accade, mentre A ∩ B
che entrambi A e B accadono.
A ⊂ B starà ad indicare che se A accade allora necessariamente
accade anche B.
A ∩ B = ∅ significherà che A e B non possono accadere si-
multaneamente e diremo in tal caso che A e B sono mutuamente
esclusivi.
Su F possiamo definire una misura di probabilità semplice-
mente assegnando una funzione che ad ogni sottoinsieme A di U
assegni un valore P ( A) con le seguenti proprietà:
• Per ogni A ⊂ U
P ( A) ≥ 0

probabilità 147
•
P (U ) = 1
• Per ogni famiglia di sottoinsiemi mutuamente esclusivi Ak , k =

1..n !
n
[ n
P Ak = ∑ P ( Ak )
k =0 k =0
Seguono subito da questi postulati alcuni fatti che possono essere

molto utili:
• P (∅) = 0 infatti
P ( A) = P ( A ∪ ∅) = P ( A) + P (∅)
• P ( Ac ) = 1 − P ( A) per ogni A ⊂ S
• Se A ⊂ B allora
P ( A) ≤ P ( B)
infatti
P ( B) = P ( A) + P ( B ∩ Ac ) ≥ P ( A)
Ne segue che 0 ≤ P ( A) ≤ P (S) = 1 per ogni A ∈ F
• Se A ⊂ B allora
P ( B \ A) = P ( B) − P ( A)
infatti
P ( B) = P ( A) + P ( B ∩ Ac ) = P ( B \ A)
• P ( A) = P ( A ∩ B) + P ( A ∩ Bc )
• P ( A ∪ B) = P ( A) + P ( B) − P ( A ∩ B) infatti
A ∪ B = A ∪ ( B \ ( B ∩ A))
con B e B \ ( B ∩ A) disgiunti, quindi
P ( A ∪ B) = P ( A) + P ( B \ ( B ∩ A)) = P ( A) + P ( B) − P ( B ∩ A)

L’ultima uguaglianza si può generalizzare come
P ( A ∪ B ∪ C ) = P ( A) + P ( B ∪ C ) − P ( A ∩ ( B ∪ C )) =
= P ( A) + P ( B) + P (C ) − P ( B ∩ C ) − P (( A ∩ B) ∪ ( A ∩ C )) =
= P ( A) + P ( B) + P (C ) − P ( B ∩ C ) − (P ( A ∩ B) + P ( A ∩ C ) − P ( A ∩ B ∩ C )) =
= P ( A) + P ( B) + P (C ) − P ( B ∩ C ) − P ( A ∩ B) − P ( A ∩ C ) + P ( A ∩ B ∩ C )
ed anche al caso di più di tre insiemi.
S
Si ha inoltre che se { Bi , i = 1..n} con Bi ∩ Bj = ∅ , e A ⊂ Bi ,
allora
P ( A) = P ( A ∩ B1 ) + P ( A ∩ B2 ) + .... + P ( A ∩ Bn ) (10.2)
In particolare possiamo affermare che
A = ( A ∩ B) ∪ ( A ∩ Bc )
e quindi
P ( A) = P ( A ∩ B) + P ( A ∩ Bc )
10.3.1 Probabilità condizionata

Definizione 10.1 Se A, B ∈ F definiamo probabilità di A condizionata a B
e la denotiamo con P ( A| B) il valore
P ( A ∩ B)
P ( A| B) =
P ( B)
P ( A| B) è la probabilità che A accada nel caso in cui sia accaduto B
Naturalmente si ha
P ( A ∩ B) = P ( A| B)P ( B)
Nel caso in cui
P ( A| B) = P( A)
diciamo che A e B sono eventi indipendenti, (la probabilità di accadi-
mento di A non è cambiata dal fatto che B è accaduto).
In tal caso si ha
P ( A ∩ B) = P ( A)P ( B)
Vale il seguente
Teorema 10.2 Sia Bi per i = 1..n una famiglia di eventi in S tali che Bi ∩
S
Bj = ∅ , e S = Bi , cioè supponiamo che gli insiemi Bi siano mutuamente
esclusivi ed esaustivi, allora
P ( A) = P ( A| B1 )P ( B1 ) + P ( A| B2 )P ( B2 )) + ....P ( A| Bn )P ( Bn ) (10.3)

probabilità 149
La verifica del teorema segue immediatamente dalla definizione di

probabilità condizionata e dalla 10.2.
Teorema 10.3 Se Ai ∩ A j = ∅ , ed A ⊂ ∪i Ai , allora
P ( A) = P ( A1 )P ( A| A1 ) + P ( A2 )P ( A| A2 ) + ....P ( A N )P ( A| A N )
infatti
P ( A) = P ( A ∩ A1 ) + P ( A ∩ A2 ) + .... + P ( A ∩ A N ) =
= P ( A1 )P ( A| A1 ) + P ( A2 )P ( A| A2 ) + .... + P ( A N )P ( A| A N )
Da questa semplice considerazione segue facilmente il teorema di

Bayes
Teorema 10.4 - di Bayes - Se A1 , A2 , ..., A N ∈ F sono eventi tali che Ai ∩

S
A j = ∅ e A ⊂ iN=1 Ai allora
P ( Ak )P ( A| Ak )
P ( Ak | B) =
∑iN=1 P ( Ai )P ( A| Ai )
La dimostrazione del teorema è molto semplice ed è sufficiente

vederla nel caso in cui N = 2 per comprenderne il meccanismo.
Consideriamo
• A1 ∪ A2 ⊃ A
• A1 ∩ A2 = ∅
si ha
P ( A1,2 ∩ A) P ( A ∩ A1,2 )
P ( A1,2 | A) = e P ( A| A1,2 ) =
P ( A) P ( A1,2 )
ed inoltre
P ( A) = P ( A ∩ ( A1 ∪ A2 )) = P ( A ∩ A1 ) + P ( A ∩ A2 )
da cui
P ( A1 | A)P ( A) = P ( A ∩ A1 ) = P ( A| A1 )P ( A1 )
Ne segue che
P ( A| A1,2 ) P ( A| A1,2 )P ( A1,2 )

P ( A1,2 | A) = =
P ( A) P ( A| A1 )P ( A1 ) + P ( A| A2 )P ( A2 )

10.3.2 Ancora sul lancio di due dadi

Giocando a dadi è d’uso sommare i punti usciti sull’uno e sull’altro dei
due dadi; se chiamiamo ξ il punteggio così ottenuto possiamo allora
scrivere che
ξ ( Di,j ) = i + j
In questo modo definiamo una funzione ξ su ogni insieme elementare
e quindi risulta che
ξ:U →R
poichè l’uscita di Di,j è casuale, anche ξ ( Di,j ) lo sarà. Se teniamo conto
che il punteggio di 3 si può ottenere soltanto in corrispondenza di uno
dei due eventi
D1,2 e D2,1
scopriamo che la probabilità che ξ assuma il valore 3 è 2/36 in quanto
il valore 3 compare esattamente 2 volte sui 36 casi possibili, in altre
parole
2
P ( ξ = 3) =
36
È facile immaginare come calcolare la probabilità che ξ assuma uno
dei valori (interi da 2 a 12).
Nella figura seguente sono riportate le possibili uscite del lancio di
due dadi, cioè è rappresentato lo spazio U ; Le linee diagonali aiutano a
contare quante volte compare ognuno dei valori assunti dalla variabile
ξ (i, j) = i + j ed è immediato costruire una tabella in cui siano riassunti
i valori che ξ può assumere ed il numero di volte, cioè la frequenza,
con cui compaiono.
i+j 2 3 4 5 6 7 8 9 10 11 12
freq. 1 2 3 4 5 6 5 4 3 2 1
In base alla tabella è immediato ottenere, tenendo anche conto che
ognuna delle coppie (i, j) è equiprobabile, che si ha
1
P (ξ = 2) = P (ξ = 12) =
36
2
P ( ξ = 3) = P ( ξ = 11) =
36
3
P ( ξ = 4) = P ( ξ = 10) =
36
4
P ( ξ = 5) = P ( ξ = 9) =
36
5
P ( ξ = 6) = P ( ξ = 8) =
36
6
P ( ξ = 7) =
36

probabilità 151
e ovviamente
12
∑ P (ξ = k) = 1.
k =2
I risultati possono essere riportati su un istogramma, su un grafico

cioè in cui in corrispondenza di ciascun intero k tra 2 e 12 è riportato
un rettangolo la cui base [k − 0.5, k + 0.5] ha lunghezza 1 e la cui altezza
è pari a P (ξ = k ).
Questo accorgimento consente di valutare la probabilità che ξ = k
semplicemente considerando l’area del rettangolo corrispondente; la
somma delle aree di tutti i rettangoli sarà ovviamente 1.
Aiutandoci con l’istogramma possiamo facilmente calcolare ad esem-
pio che
6 1
P ( ξ = 7) = =
36 6
1 5
P ( ξ 6 = 7) = 1 − P ( ξ = 7) = 1 − =
6 6
P (4 ≤ ξ ≤ 8) = P ( ξ = 4) + P ( ξ = 5) + P ( ξ = 6) + P ( ξ = 7) + P ( ξ = 8) =
3+4+5+6+5 23
=
36 36
Abbiamo così introdotto un esempio di variabile aleatoria cioè di
funzione definita su U e usando l’istogramma che abbiamo costruito
possiamo anche definire il concetto di funzione densità di probabilità
(la indicheremo PDF) di una variabile aleatoria. Sarà infatti sufficiente
considerare la funzione costante a tratti definita uguale a P (ξ = k ) su
[k − 0.5, k + 0.5].
Per capire meglio come si ottiene la funzione densità di probabi-
lità di ξ consideriamo il suo grafico che rappresentiamo assumendo
ξ (i, j) = i + j costante sul quadrato [i − 0.5, i + 0.5] × [ j − 0.5, j + 0.5]
Ad esempio si vede che P (ξ = 7) è la probabilità calcolata in U
della controimmagine di 7 secondo ξ cioè (ξ −1 (7) o, dal momento che
ξ assume valori discreti (ξ −1 ((6.5, 7.5)).
10.3.3 Spazi di probabilità e variabili aleatorie discrete

Per assegnare uno spazio di probabilità discreto, finito o numerabi-
le, basta quindi assegnare una famiglia di eventi elementari distinti e
disgiunti
A = { Ai : i ∈ I}
dove I è un insieme finito o numerabile di indici ed una funzione
P :F →R

dove F è la collezione di tutti i sottoinsiemi (le parti) di A, che associa

ad ogni A ∈ F un valore reale P ( A), che chiamiamo probabilità che
l’evento accada, soddisfacente le seguenti proprietà:
• P ( A) ≥ 0
S
• se U = i ∈I Ai , si ha P (U ) = 1
Se A ∈ F allora
[
A= Ai
i ∈J
e
P ( A) = ∑ P ( Ai )
i ∈J
la somma essendo finita o numerabile.
Poniamo, per semplicità
P ( Ai ) = pi
ed osserviamo che è sufficiente assegnare P ( Ai ) per definire P su F .

Ci riferiremo quindi allo spazio di probabilità discreto costituito da
(U , F , P )
dove U è un insieme discreto F è la famiglia delle parti di U e P è una

misura di probabilità su F .
Diciamo che è assegnata una variabile aleatoria ξ su U , se è data
una funzione
ξ:U →R
ed indichiamo per brevità
ξ i = ξ ( Ai )
Definizione 10.2 Definiamo
• la media µ di ξ come
µ = E(ξ ) = ∑ ξ i pi
i
• la varianza σ2 di ξ come
σ2 = Var(ξ ) = E((ξ − µ)2 ) = ∑ ( ξ i − µ )2 p i

i
• lo scarto quadratico medio o deviazione standard di ξ

√
σ = σ2
• il momento k-esimo µk di ξ come
µk = ∑ ( ξ i − µ )k pi
i

probabilità 153
• il momento k-esimo rispetto all’origine µ0k di ξ come
µ0k = ∑ ξ ik pi
i
• la funzione di distribuzione ϕ di ξ come
ϕ ( ξ i ) = pi
per cui la funzione di distribuzione cumulativa Φ è definita da:
Φ( x ) = P (ξ ≤ x ) = ∑ P (ξ ( Ai )) = ∑ pi = ∑ ϕ(ξ i )
ξi ≤x ξi ≤x i
Si può dimostrare che, se ξ e η sono variabili aleatorie discrete su

uno spazio di probabilità (U , F , P ) e se α, β ∈ R, allora
• E(αξ + βη ) = αE(ξ ) + βE(η )
• se ξ e η sono variabili aleatorie indipendenti
E(ξη ) = E(ξ ) E(η )
• Var(αξ ) = α2 Var(ξ )
Var(ξ ± η ) = Var(ξ ) + Var(η )
e che la varianza si può calcolare come
σ2 = Var(ξ ) = E((ξ − µ)2 ) = E(ξ 2 − 2µξ + µ2 ) =

= E(ξ 2 ) − 2µE(ξ ) + µ2 = E(ξ 2 ) − 2µ2 + µ2 =
= E(ξ 2 ) − µ2 = E(ξ 2 ) − ( E(ξ ))2
Inoltre se ξ è una variabile aleatoria discreta la cui densità di pro-

babilità è ϕ, e se f : R → R è una funzione tale che, posto
ηi = f ( ξ i )
si definisca una corrispondenza biunivoca; η risulta essere una varia-

bile aleatoria la cui densità di probabilità è
ψ(k) = P (η = k) = P ( f (ξ ) = k) = P (ξ = f −1 (k )) = ϕ( f −1 (k))
Quindi
E( f (ξ )) = E(η ) = ∑ kψ(k) = ∑ f (ξ i ) ϕ( f −1 ( f (ξ i )))) = ∑ f (ξ i ) ϕ(ξ i )

k i i

Definiamo funzione generatrice dei momenti di ξ la
Mξ (t) = E(etξ ) = ∑ eξ i t ϕ(ξ i )

i
Si può verificare che la funzione Mξ è sviluppabile in serie di McLau-

rin ed il suo sviluppo è dato da
+∞
tk
Mξ ( t ) = ∑ µ0k k!
k =0
per cui
dk
µ0k = Mξ ( t )
dtk
10.4 Variabili aleatorie continue
Talvolta non è possibile considerare uno spazio di probabilità discreto,

finito o numerabile.
Ciò accade, ad esempio, quando si considera il problema di sceglie-
re un numero a caso compreso tra 0 ed 1.
Infatti la probabilità di estrarre, ad esempio, il valore 0.3 non si può
calcolare considerando il rapporto tra casi favorevoli, uno solo, e casi
possibili, infiniti non numerabili.
Anche la definizione di media e varianza presentano qualche pro-
blema in quanto occorre definire come si intende procedere per calco-
lare la somma di un numero infinito, non numerabile, di addendi.
Per chiarire la questione possiamo osservare che, se è difficile defi-
nire la probabilità che la variabile aleatoria ξ il cui valore è il numero
scelto a caso in [0, 1] assuma il valore x, è invece naturale definire la
probabilità che ξ ∈ [ x, x + h].
In tal caso infatti possiamo identificare i casi favorevoli con un seg-
mento di lunghezza h e la totalità dei casi con l’intero intervallo [0, 1]
che risulta ovviamente di lunghezza 1.
Pertanto
h
P ( x ≤ ξ ≤ x + h) =
1
Ricordando il significato di somma dell’integrale, possiamo definire
la funzione distribuzione di probabilità della variabile aleatoria ξ come
la funzione continua ϕ tale che
Z ξ +h
P ( x ≤ ξ ≤ x + h) = h = ϕ(t)dt
ξ
per ogni x ∈ [0, 1] e per ogni h abbastanza piccolo.

Ne deduciamo che
Z x+h
1
ϕ(t)dt = 1
h x

probabilità 155
e, passando al limite per h → 0, poichè abbiamo supposto ϕ continua,
ϕ( x ) = 1
Da quanto abbiamo detto appare ragionevole che, nel caso di una

variabile aleatoria continua ξ, non è significativo definire
P (ξ = x )
mentre è naturale definire

Z x
1
P ( x0 ≤ ξ ≤ x1 ) = ϕ(t)dt
x0
dove ϕ è la funzione di distribuzione di probabilità di ξ.

Pertanto supporremo nota una variabile aleatoria continua ξ se è
nota la sua funzione di distribuzione di probabilità ϕ.
Una funzione ϕ : R → R, continua, è la funzione di distribuzione
di probabilità di una variabile aleatoria se
•
ϕ(t) ≥ 0 per ognit ∈ R
• Z +∞
ϕ(t)dt = 1
−∞
In tal caso si ha
Z x Z x
1
P (ξ ≤ x ) = ϕ(t)dt , P ( x0 ≤ ξ ≤ x1 ) = ϕ(t)dt
−∞ x0
La funzione
Z x
F ( x ) = P (ξ ≤ x ) = ϕ(t)dt
−∞
si chiama distribuzione cumulativa di probabilità della variabile alea-
toria ξ di densità di probabilità ϕ.
Osserviamo che ad ogni variabile aleatoria discreta (finita) si può
associare una variabile aleatoria continua la cui densità è una funzione
costante a tratti, nulla al di fuori di un insieme limitato nel caso in cui
la variabile sia discreta e finita.
Come nel caso delle variabili aleatorie discrete possiamo porre la
seguente
Definizione 10.3 Se ξ è una variabile aleatoria continua che ha densità di

probabilità ϕ,
• la media µ di ξ è definita da
Z +∞
µ = E(ξ ) = xϕ( x )dx
−∞

• la varianza σ2 di ξ è definita da
Z +∞
σ2 = Var(ξ ) = E((ξ − µ)2 ) = ( x − µ)2 ϕ( x )dx
−∞
• lo scarto quadratico medio di ξ è definito da

√
σ = σ2
• la moda M di ξ è definita da
M = sup ϕ( x )
x ∈R
• la mediana m di ξ è definita da
Z m Z +∞
P (ξ ≤ m) = ϕ( x )dx = ϕ( x )dx = P (ξ ≥ m)
−∞ m
• il momento di ordine k µk di ξ è definito da

Z +∞
µk = E((ξ − µ)k ) = ( x − µ)k ϕ( x )dx
−∞
• il momento di ordine k, rispetto all’origine µ0k di ξ è definito da

Z +∞
µk = E(ξ k ) = x k ϕ( x )dx
−∞
Se ξ è una variabile aleatoria continua e se f : R → R è una funzio-

ne derivabile ed invertibile possiamo considerare la variabile aleatoria
f (ξ ) e possiamo calcolare che
P ( x0 ≤ f (ξ ) ≤ x1 ) = P ( f −1 ( x0 ) ≤ ξ ≤ ( f −1 ( x1 )) =
Z f −1 ( x ) Z x
1 1 ϕ ( f −1 ( s ))
ϕ(t)dt = ds
f −1 ( x 0 ) x0 f 0 ( f −1 (s))
per cui la sua funzione distribuzione di probabilità risulta definita da
ϕ( f −1 (s))
ψ(t) =
f 0 ( f −1 (s))
In tal modo si ha
Z +∞
ϕ( f −1 (s))
E( f (ξ )) = s ds =
−∞ f 0 ( f −1 (s))
Z +∞ Z +∞
ϕ(t) 0
= f (t) 0 f (t)dt = f (t) ϕ(t)dt = µ
−∞ f (t) −∞
ed inoltre
Z +∞
ϕ( f −1 (s))
σ2 ( f (ξ )) = ( s − µ )2 ds =
−∞ f 0 ( f −1 (s))
Z +∞ Z +∞
ϕ(t)
= ( f (t) − µ)2 0 f 0 (t)dt = ( f (t) − µ)2 ϕ(t)dt
−∞ f (t) −∞

probabilità 157
Definizione 10.4 Se ξ è una variabile aleatoria continua la cui densità di

probabilità è ϕ, definiamo funzione generatrice dei momenti di ξ la
Z +∞
Mξ (t) = E(etξ ) = etx ϕ( x )dx
−∞
Possiamo anche in questo caso provare che
• E(αξ + βη ) = αE(ξ ) + βE(η )
E(ξη ) = E(ξ ) E(η )
• Var(αξ ) = α2 Var(ξ )
Var(ξ ± η ) = Var(ξ ) + Var(η )
Ed è utile ricordare ancora che
σ2 = E((ξ − µ)2 ) = E(ξ 2 − 2µξ + µ2 ) =

= E(ξ 2 ) − 2µE(ξ ) + µ2 =
= E(ξ 2 ) − 2µ2 + µ2 = E(ξ 2 ) − µ2 = E(ξ 2 ) − ( E(ξ ))2
Si ha inoltre:

k
k i k −i
(t − µ) = ∑
k
tµ
i =0
i
moltiplicando per ϕ(t) ed integrando,otteniamo
k
k
µk = ∑ i µ 0 i µ k −i (10.4)
i =0
e se ne ricava che per trovare i momenti rispetto al valor medio µk è
sufficiente conoscere i momenti rispetto all’origine µ0k .
Casi particolari della 10.4 sono
µ2 = σ2 = µ20 − µ2
µ3 = µ30 − 3µ20 µ + 2µ3
(ricordiamo che µ0 = µ00 = 1 e µ1 = µ10 = µ).

La funzione generatrice dei momenti si rivela molto comoda per il
calcolo dei momenti di una variabile aleatoria.

Infatti si può verificare che Mξ è sviluppabile in serie di McLaurin

ed il suo sviluppo è dato da
Z +∞ +∞ +∞ Z +∞
(st)k tk
Mξ ( t ) =
− ∞ i =0
∑ k!
ϕ(s)ds = ∑ sk ϕ(s)ds
k!
i =0 − ∞
per cui
+∞
tk
Mξ ( t ) = ∑ µ0k k!
i =0
e quindi
dk
µ0k = Mξ ( t )
dtk
10.5 La disuguaglianza di Tchebichev e la legge dei grandi nu-

meri
In questa sezione ci occupiamo di due risultati fondamentali: la disu-

guaglianza di Tchebichev e la legge dei grandi numeri, cominciando a
parlare della prima.
Sia ξ una variabile aleatoria con media µ e varianza σ2 , allora si avrà
che
Z +∞
σ2 = (t − µ)2 ϕ(t)dt =
−∞
Z Z
= (t − µ)2 ϕ(t)dt + (t − µ)2 ϕ(t)dt ≥
{t : |t−µ|≥ε} {t : |t−µ|<ε}
Z Z
≥ (t − µ)2 ϕ(t)dt ≥ ε2 ϕ(t)dt =
{t : |t−µ|≥ε} {t : |t−µ|≥ε}
= ε2 P (|ξ − µ| ≥ ε)
se ne ricava pertanto che
σ2
P (|ξ − µ| ≥ ε) ≤ (10.5)
ε2
La 10.5 è nota come disuguaglianza di Tchebichev e ne possiamo
trarre una interessante conseguenza: per ε = kσ otteniamo che
1
P (|ξ − µ| ≥ kσ) ≤ (10.6)
k2
Pertanto
1
P (|ξ − µ| < kσ) = 1 − P (|ξ − µ| ≥ kσ) ≥ 1 − (10.7)
k2
Se ora consideriamo la seguente tabella

probabilità 159
k 1 2 3 4 5 6
1
1− k2
0 .75 .88 .93 .95 .97
1
Tabella 10.2: Valori approssimati di 1 − k2
Si vede pertanto che se ξ è una variabile aleatoria di media µ e di

varianza σ2 , allora la probabilità che il valore assunto da ξ sia vicino
alla media µ per meno di 2 volte la varianza è del 75% e sale all’88%
se ci accontentiamo di un errore inferiore a 3 volte la varianza.
Va osservato che, nonostante fornisca risultati soddisfacenti, la di-
suguaglianza di Tchebichev non è molto precisa.
10.5.1 La legge dei grandi numeri

Una delle conseguenze della disuguaglianza di Tchebichev prende il
nome di ”Legge dei Grandi Numeri” e si ricava come segue.
Se ξ 1 , ξ 2 , . . . , ξ n sono variabili aleatorie tutte con media µ e varianza
2
σ , la variabile aleatoria
ξ1 + ξ2 + · · · + ξn
Sn =
n
ha media
1
E ( Sn ) = ( E(ξ 1 ) + E(ξ 2 ) + · · · + E(ξ n )) = µ
n
e varianza
1 σ2
Var(Sn ) = 2
(Var(ξ 1 ) + Var(ξ 2 ) + · · · + Var(ξ n )) =
n n
inoltre vale il seguente teorema
Teorema 10.5 Siano ξ 1 , ξ 2 , . . . , ξ n variabili aleatorie tutte con media µ e

varianza σ2 , e consideriamo la variabile aleatoria
ξ1 + ξ2 + · · · + ξn
Sn =
n
Allora
σ2
P (|Sn − µ| ≥ ε) ≤ →0 (10.8)
nε2
per n → +∞
La 10.9 è nota con il nome di ”Legge Debole dei Grandi Numeri”

ed esprime un concetto in base al quale la media di n uscite di una
variabile aleatoria differisce dalla media della variabile aleatoria per
una quantità infinitesima con n.
Va sottolineato che la legge dei grandi numeri fornisce informazioni
di carattere qualitativo e quindi non può essere usata per stime di tipo
quantitativo.
È possibile anche dimostrare, ma la dimostrazione è più complessa,
la ”Legge Forte dei Grandi Numeri” che asserisce che

Teorema 10.6 Siano ξ 1 , ξ 2 , . . . , ξ n variabili aleatorie tutte con media µ e

varianza σ2 , e consideriamo la variabile aleatoria
ξ1 + ξ2 + · · · + ξn
Sn =
n
Allora
P (lim Sn = µ) = 1 (10.9)
n
In entrambi i casi il concetto espresso è che la media di Sn converge

alla media µ la differenza risiede nel modo in cui tale convergenza
avviene e nelle proprietà che tale convergenza consente di trasferire
sul limite. Piú precisamente la legge debole dei grandi numeri afferma
che la successione di variabili aleatorie Sn converge a µ in probabilitá,
mentre la legge forte dei grandi numeri garantisce che Sn converge a
µ quasi certamente.
Usando la terminologia derivante dalla teoria della misura, cui la
teoria della probabilità astratta sostanzialmente si sovrappone, la for-
mulazione debole parla di convergenza in misura, mentre la formula-
zione forte parla di convergenza puntuale quasi ovunque.
È noto che, essendo lo spazio di probabilità di misura finita (uguale
ad 1), una successione quasi ovunque convergente è anche convergen-
te in misura, e che da una successione convergente in misura si può
estrarre una sottosuccessione quasi ovunque convergente.
10.6 Somma di variabili aleatorie.
Consideriamo due variabili aleatorie discrete indipendenti ξ, η aventi

PDF rispettivamente f e g, e la variabile aleatoria ζ che restituisce la
somma delle due
ζ = ξ+η
Possiamo trovare la densità di probabilità della variabile ζ osservan-

do che
h(γ) = P (ζ = γ) =
= ∑ P (ξ + η = γ|ξ = α)P (ξ = α) = ∑ P (η = γ − α)P (ξ = α) =
α α
∑ f (γ − α) g(α)
α

y
probabilità 161
Nel caso in cui ξ e η siano variabili aleatorie continue indipendenti

avremo, come si vede dalla figura 10.3,
Z +∞ Z z− x y ≤z−x
P (ζ ≤ z) = g(y)dy f ( x )dx =
−∞ −∞
Z +∞ Z z Z z Z +∞
x
= g(s − x ) f ( x )dsdx = g(s − x ) f ( x )dx ds
−∞ −∞ −∞ −∞
Per modo che la funzione

Z +∞ Figura 10.3:
h(z) = g(z − x ) f ( x )dx
−∞
risulta essere la densità di probabilità della variabile aleatoria ξ + η.

Possiamo allora calcolare che
Z +∞ Z +∞
E(ζ ) = E(ξ + η ) = s g(s − x ) f ( x )dx ds = y
−∞ −∞
Z +∞ Z +∞
= sg(s − x ) f ( x )ds dx =
−∞ −∞
Z +∞ Z +∞ α>0
= ( x + t) g(t) f ( x )dx dt =
−∞ −∞ A
Z +∞ Z +∞ Z +∞ Z +∞ x
A
= g(t) x f ( x )dx dt + f (x) tg(t)dt dx =
−∞ −∞ −∞ −∞
Z +∞ Z +∞
= E(ξ ) g(t)dt + E(η ) f ( x )dx = E(ξ ) + E(η )
−∞ −∞
10.7 Prodotto di variabili aleatorie

y
Siano ξ e η due variabili aleatorie indipendenti le cui PDF sono f e g,

rispettivamente, e sia
ζ = ξη α<0
A
Avremo che Z
P (ξη ≤ α) = f ( x ) g(y)dxdy x
dove A
2
A = {( x, y) ∈ R : xy ≤ α}
è l’insieme tratteggiato nella figura 10.4;

Pertanto
Figura 10.4:
Z
P (ξη ≤ α) = f ( x ) g(y)dxdy =
A
Z 0 Z +∞ Z +∞ Z α
x
= f ( x ) g(y)dydx + f ( x ) g(y)dydx =
−∞ α
x 0 −∞
s ds
posto y = x da cui dy = x

Z 0 Z −∞ s ds Z +∞ Z α s ds
= f (x) g dx + f (x) g dx =
−∞ α x x 0 −∞ x x
Z 0 Z α s ds
Z +∞ Z α s ds
= − f (x) g dx + f (x) g dx =
−∞ −∞ x x 0 −∞ x x
Z α Z +∞ s dx
f (x) g ds
−∞ −∞ x |x|
dal che si deduce che la PDF di ζ è data da

Z +∞ s dx
ϕ(s) = f (x) g
−∞ x |x|
Possiamo inoltre calcolare media e varianza di ζ come segue.
Z +∞ Z +∞ s dx
µζ = s f (x) g ds =
−∞ −∞ x |x|
Z +∞ Z +∞ s s
= f (x) g ds dx =
−∞ −∞ x |x|
Z +∞ Z +∞ s s Z 0 Z +∞ s s
= f (x) g ds dx − f (x) g ds dx =
0 −∞ x x −∞ −∞ x x
posto t = xs da cui dt = ds x
Z +∞ Z +∞ Z 0 Z +∞
= f ( x ) g (t) txdt dx + f ( x ) g (t) txdt dx =
0 −∞ −∞ −∞

Z +∞ Z +∞
= f ( x ) g (t) txdt dx = µξ µη
−∞ −∞
Per quanto concerne la varianza avremo che

Z +∞ Z +∞ s dx
σζ2 = s 2
f (x) g ds − µ2ζ
−∞ −∞ x |x|
e
Z +∞ Z s dx
+∞ Z +∞ Z +∞ s s2
2
s f (x) g ds = f (x) g ds dx =
−∞ −∞ x |x| −∞ −∞ x |x|
Z +∞ Z +∞ s s2 Z 0 Z +∞ s s2
= f (x) g ds dx − f (x) g ds dx =
0 −∞ x x −∞ −∞ x x
s ds
posto t = x da cui dt = x
Z +∞ Z +∞ Z 0 Z +∞
x 2 t2 x 2 t2
= f ( x ) g (t) xdt dx + f ( x ) g (t) xdt dx =
0 −∞ x −∞ −∞ x
Z +∞ Z +∞
= f ( x ) g (t) x2 t2 dt dx =
−∞ −∞
= (σξ2 + µ2ξ )(ση2 + µ2η )
Possiamo allora concludere che
σζ2 + µ2ζ = (σξ2 + µ2ξ )(ση2 + µ2η )

probabilità 163
10.7.1 Un caso particolare

Se ξ è una variabile aleatoria e α ∈ R+ allora
Z x Z x
x α 1 s
P (αξ ≤ x ) = P ξ ≤ = f (t)dt = f ds
α −∞ −∞ α α
D’altro canto se α ∈ R−
Z +∞ Z x
x 1 s
P (αξ ≤ x ) = P ξ ≥ = x f (t)dt = − f ds
α α −∞ α α
per cui la PDF di αξ è data da
1 s
g(s) = f
|α| α
10.8 Quoziente di variabili aleatorie
Siano η e ξ due variabili aleatorie positive e indipendenti le cui PDF

sono g ed f , rispettivamente, e sia
η
ζ=
ξ
Avremo che x
Z
η
P ≤α = P (η ≤ αξ ) = f ( x ) g(y)dxdy
ξ A
dove
y ≤ αx
A = {( x, y) ∈ R2 : y ≤ αx }
Pertanto
Z Z +∞ Z αx
η
P ≤α = f ( x ) g(y)dxdy = f ( x ) g(y)dydx =
ξ A 0 0 y
posto y = tx da cui dy = xdt
Z +∞ Z α Z α Z +∞
= f ( x ) g(tx ) xdtdx = x f ( x ) g(tx )dx dt
0 0 0 0
dal che si deduce che la PDF di ζ è data da

Z +∞
ϕ(t) = x f ( x ) g(tx )dx
0
10.8.1 Un caso particolare

Se ξ è una variabile aleatoria e n ∈ R+ allora
Z αn Z α
ξ
P ( ≤ α) = P (ξ ≤ αn) = f ( x )dx = n f (nt)dt
n −∞ −∞
ξ
per cui la PDF di n è data da
g(t) = n f (nt)

10.9 Distribuzioni di probabilità doppie
Siano (U1 , F1 , P1 ) e (U2 , F2 , P2 ) due spazi di probabilità consideriamo

la variabile aleatoria che indichiamo con (ξ, η ) definita sullo spazio
U1 × U2 mediante la
Z x Z y
F ( x, y) = P (ξ ≤ x, η ≤ y) = f (t, s)ds dt
−∞ −∞
F è la distribuzione cumulativa di probabilità della variabile (ξ, η )

ed f è la sua funzione distribuzione di probabilità
Se f è continua possiamo affermare che
∂2 F
= f ( x, y)
∂x∂y
Naturalmente devono essere verificate le seguenti condizioni:
•
f ( x, y) ≥ 0
• Z +∞ Z +∞
f (t, s)ds dt = 1
−∞ −∞
Inoltre se
Z x Z +∞
F1 ( x ) = P (ξ ≤ x ) = f (t, s)ds dt
−∞ −∞
Z +∞ Z y Z y
Z +∞

F2 (y) = P (η ≤ y) = f (t, s)ds dt = f (t, s)dt ds
−∞ −∞ −∞ −∞
F1 ed F2 sono le distribuzioni cumulative delle variabili aleatorie ξ e η,

rispettivamente le cui funzioni di distribuzione sono date da
Z +∞
ϕ(t) = f (t, s)ds
−∞
Z +∞
ψ(s) = f (t, s)dt
−∞
Nel caso in cui le variabili aleatorie ξ e η siano indipendenti, allora

(ξ, η ) ha una distribuzione di probabilità
f (t, s) = ϕ(t)ψ(s)
dove ϕ e ψ sono le funzioni di distribuzione di ξ e η, rispettivamente.

È utile ricordare che la probabilità della variabile aleatoria ξ condi-
zionata alla variabile aleatoria η si può definire mediante la
Z x Z y
f (t, s)
P (ξ ≤ x |η ≤ y) = ds dt
−∞ −∞ ψ (s )

probabilità 165
f (t,s)
per cui ψ(s) è la sua funzione di distribuzione di probabilità.
Possiamo giustificare la definizione osservando che:
R x R y+k
−∞ y f (t, s)dsdt
P (ξ ≤ x, y ≤ η ≤ y + k) = R +∞ R y+k =
−∞ y f (t, s)dsdt
R x R y+k R x R y+k
−∞ y f (t, s)dsdt −∞ y f (t, s)dsdt
= R y+k R +∞ = R y+k =
y −∞ f (t, s ) dtds y ψ(s)ds
Rx Z x Z x
f (t, y)kdt f (t, y)k f (t, y)
≈ −∞ = dt = dt
ψ(y)k −∞ ψ (y )k −∞ ψ (y )
10.10 Normalizzazione di una variabile aleatoria.
Sia ξ una variabile aleatoria di media µ e di varianza σ2 con distribu-

zione di probabilità ϕ.
e consideriamo la variabile aleatoria
ξ−µ
ξ∗ =
σ
Per le proprietà di media e varianza possiamo affermare che ξ ∗ è

una variabile normalizzata (o standardizzata), intendendo con ciò che
ξ ∗ ha media 0 e varianza 1.
Allo scopo di determinare la funzione di distribuzione di ξ ∗
osserviamo che
P ( a ≤ ξ ∗ ≤ b) =
Z µ+σb
ξ−µ
=P a≤ ≤ b = P (µ + σa ≤ ξ ≤ µ + σb) = ϕ(s)ds =
σ µ+σa
Z b
= σϕ (µ + σt)) dt
a
Pertanto la variabile aleatoria
ξ−µ
ξ∗ =
σ
ha una PDF definita da
ψ(t) = σϕ (µ + σt))

e possiamo allora verificare che

Z +∞ Z +∞ Z +∞
ψ(t)dt = σϕ (µ + σt) dt = ϕ(s)ds = 1
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
s−µ
tψ(t)dt = tσϕ (µ + σt) dt = ϕ(s)ds =
−∞ −∞ −∞ σ
Z +∞ Z +∞
1
= sϕ(s)ds − µ ϕ(s)ds = 0
σ −∞ −∞
Z +∞ Z +∞ Z +∞
s−µ 2
t2 ψ(t)dt = t2 σϕ (µ + σt) dt = ϕ(s)ds =
−∞ −∞ −∞ σ
Z +∞
1
= (s − µ)2 ϕ(s)ds = 1
σ2 −∞

11. Qualche Distribuzione di Proba-
bilità
Le funzioni di distribuzione di probabilità sono fondamentali per de-

scrivere il comportamento delle variabili aleatorie che ci interessano.
Ogni variabile aleatoria ha una sua distribuzione e per definirne la
proprietà è utile fare riferimento ad alcune distribuzioni note che sono
in grado di descrivere la maggior parte delle variabili aleatorie con cui
normalmente si lavora.
11.1 La distribuzione uniforme
La più semplice funzione di distribuzione di probabilità è quella di

una variabile aleatoria che restituisce un valore scelto in un intervallo
[ a, b] con il criterio di equiprobabilità.
Abbiamo già visto che in tal caso
h
P ( x ≤ ξ ≤ x + h) =
b−a
e che la sua distribuzione di densità è
Distribuzione Uniforme in [2, 4]
 1
 1
t ∈ [ a, b]
0.9
b− a 0.8
ϕ(t) = 0.7
0 altrove 0.6
0.5
0.4
La funzione generatrice dei momenti si calcola mediante la 0.3

0.2
0.1
Z b
1 etb − eta 0
1 2 3 4 5
Mξ ( t ) = etx dx = Figura 11.1: PDF e CDF di una variabile
b−a a t(b − a) aleatoria Uniforme
Se ne ricava subito che
b+a
µ=
2
( b − a )2
σ2 =
12
1
Distribuzione Triangolare in [2, 5] con moda 3
11.2 La distribuzione triangolare
0.9
0.8
0.7 La distribuzione triangolare è utile per definire una variabile aleatoria
0.6
0.5 che assuma valori compresi tra a e b ed abbia una moda c. La funzione
0.4
0.3
distribuzione di probabilità triangolare si definisce mediante la
0.2
0.1 
0 
 0 t<a
0 1 2 3 4 5 6


Figura 11.2: PDF e CDF di una variabile 
 2( t − a )
aleatoria Triangolare (b− a)(c− a)
a≤t<c
φ(t) =
 2( b − t )
 c<t≤b

 (b− a)(b−c)


0 t>b
Si calcola facilmente che il valor medio è
a+b+c
µ=
3
mentre la varianza è data da
a2 + b2 + c2 − bc − ab − ac
σ2 =
18
e la funzione generatrice dei momenti è
eta (b − c) − etc (b − a) + etb (c − a)

Mξ ( t ) =
t2 (b − a)(c − a)(b − c)
11.3 Alcune importanti distribuzioni discrete
11.3.1 La distribuzione binomiale di Bernoulli

Definizione 11.1 Chiamiamo prova bernoulliana un esperimento che ha due
soli possibili esiti:
Distribuzione Binomiale di Bernoulli per n = 10 e p = 0.2
1
0.9 • Successo, cui associamo il valore 1 con probabilità p
0.8
0.7
0.6 • Insuccesso, cui associamo il valore 0 con probabilità q
0.5
0.4
0.3
essendo ovviamente p + q = 1.
0.2 Chiamiamo variabile aleatoria bernoulliana la variabile aleatoria ξ che re-
0.1
0
0 1 2 3 4 5 6 7 8 9 10
stituisce il numero di successi che si sono verificati su n prove ripetute (lanci)
Figura 11.3: PDF e CDF di una variabile dell’esperimento.
aleatoria Binomiale (di Bernoulli).
Possiamo calcolare la probabilità che la variabile aleatoria ξ assuma
il valore k mediante la

n k n−k n k
P (ξ = k) = p q = p (1 − p ) n − k
k k
Per giustificare la formula precedente descriviamo la successione di
n prove ripetute con una stringa di elementi che assumono il valore

probabilità 169
1 oppure 0 a seconda che la corrispondente prova abbia avuto o no

successo.
0 1 1 0 0 1 0 0 1
oppure
0 0 1 0 1 0 0 0 1 0 1
affinchè ci siano k successi la stringa dovrà contenere esattamente

k volte il valore 1 (ed n − k volte il valore 0) e quindi, poichè in ogni
elemento 1 si presenta con probabilità p mentre il valore 0 compare
con probabilità q, una stringa con k successi avrà una probabilità di
comparire uguale a
pk qn−k
d’altro canto, poichè siamo unicamente interessati a contare il numero

di successi, e non l’ordine con cui si verificano, dovremo tener conto
che si possono ottenere, ad esempio, k successi su n prove in tanti modi
diversi
0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
il cui numero è dato dalle combinazioni di n oggetti a k a k e cioè

n
k
(Ciascuna combinazione è individuata dalla sequenza dei k numeri,

compresi tra 1 ed n, che indicano la posizione dei successi.)
Possiamo calcolare la media della variabile bernoulliana ξ osservan-
do che la media in ciascuna prova è
1· p+0·q = p
e su n esperimenti, essendo la media lineare, avremo
µ = E(ξ ) = np
La varianza della variabile bernoulliana ξ in ciascuna prova è
(1 − p)2 · p + (0 − p)2 q = q2 p + p2 q = pq( p + q) = pq
e su n esperimenti per le proprietà della varianza avremo
σ2 = E((ξ − µ)2 ) = npq
e
√
σ= npq

Alternativamente possiamo calcolare la media e la varianza di una

variabile aleatoria Bernoulliana ξ usando direttamente la definizione:
n n
n k n−k n k n−k
µ = E(ξ ) = ∑ k
k
p q = ∑k
k
p q =
k =0 k =1
n
n(n − 1) · · · (n − (k − 1)) k n−k
= ∑k k!
p q =
k =1
n
(n − 1)(n − 2) · · · (n − (k − 1)) k−1 n−1−(k−1)
= np ∑ p q =
k =1
( k − 1) !
n −1
(n − 1)(n − 2) · · · (n − 1 − (k − 1)) k n−1−k
= np ∑ k!
p q =
k =0
= np( p + q)n−1 = np

n
n k n−k
σ2 = E((ξ − µ)2 ) = ∑ (k − np)2
k
p q =
k =0
n n
n k n−k n k n−k
= ∑ k2 p q − (np)2 = ∑ k2 p q − (np)2 =
k =0
k k =1
k
n
(n − 1)(n − 2) · · · (n − (k − 1)) k−1 n−1−(k−1)
= np ∑k ( k − 1) !
p q − (np)2 =
k =1
n −1
(n − 1)(n − 2) · · · (n − 1 − (k − 1)) k n−1−k
= np ∑ ( k + 1) k!
p q − (np)2 =
k =0
!
n −1
n − 1 k n −1− k n −1 n − 1 k n −1− k
= np ∑ k p q +∑ p q − (np)2 =
k =0
k k =0
k
= np((n − 1) p + 1) − (np)2 = np(np + q) − (np)2 = npq
Per calcolare la funzione generatrice dei momenti possiamo proce-
dere come segue
n
tk n
Mξ ( t ) = E ( e ) = ∑ e
tξ
pk qn−k =
k =0
k
n k
n
= ∑ pet qn−k = ( pet + q)n
k =0
k
la funzione densità di probabilità (Probability Density Function , PDF)
di una variabile aleatoria di Bernoulli ξ è definita da

n k n−k
P(ξ = k) = p q
k
mentre la funzione di distribuzione cumulativa (Cumulative Distribu-
tion Function, CDF) è
ν ν
n k n−k
F (ν) = ∑ P(ξ = k) = ∑ p q
k =0 k =0
k

probabilità 171
Ad esempio si ha
0
F (0) = ∑ P ( ξ = k ) = P ( ξ = 0) = q n
k =0
ed anche
n n
n k n−k
F (n) = ∑ P(ξ = k) = ∑ = ( p + q)n = 1
Distribuzione Binomiale Negativa di Pascal per r = 2 e p = 0.2
p q 1
k =0 k =0
k 0.9
0.8
0.7
0.6
11.3.2 La distribuzione binomiale negativa di Pascal 0.5
0.4
0.3
Consideriamo un esperimento bernoulliano, consideriamo cioè una se- 0.2
rie di prove ripetute con due soli possibili esiti: successo con probabi- 0.1
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
lità p ed insuccesso con probabilità q. Figura 11.4: PDF e CDF di una variabile
Consideriamo la variabile aleatoria che restituisce il minimo numero aleatoria Binomiale Negativa (di Pascal).
ξ di tentativi necessari per ottenere r successi.
Possiamo allora vedere che la probabilità P (ξ = k) che si ottengano
r successi al tentativo k si può calcolare considerando che
• al tentativo k si è verificato un successo (che ha probabilità p)
• nelle precedenti k − 1 prove si sono verificati r − 1 successi e k − 1 −

−1 r −1 k −r
(r − 1) insuccessi ( con probabilità (kr− 1) p q )
Pertanto

k − 1 r −1 k −r k − 1 r k −r
P (ξ = k) = p p q = pq
r−1 r−1
definisce la funzione densità di probabilità della distribuzione di Pa-
scal.
Talvolta si considera, in luogo di ξ, la variabile η che restituisce il
numero di fallimenti che precedono il successo r-esimo. In tal caso si
ha h = k − r e

h+r−1 r h
P (η = y) = pq
r−1
Possiamo calcolare che
r rq pet
µξ = , σξ2 = , Mξ ( t ) =
p p2 (1 − qet )r
e
r (1 − p ) r (1 − p )
µη = , ση2 =
p p2
A titolo di esempio vediamo come è possibile calcolare la media µξ
e la varianza σξ ;

+∞
k − 1 r −1 k −r + ∞ r k ( k − 1 ) . . . ( k − r + 1 ) k −r
µξ = ∑ kp r−1
p q =∑p
(r − 1) !
q =
k =r k =r
+∞
pr
=
(r − 1) ! ∑ k ( k − 1) . . . ( k − r + 1) q k −r =
k =r
+∞ +∞
pr dr pr dr
(r − 1)! ∑ dqr ∑ qk =
= qk =
k =r
(r − 1)! dqr k =r
pr dr +∞ pr dr 1 pr 1
=
(r − 1)! dqr ∑ qk = (r − 1)! dqr 1 − q
= r!
( r − 1 ) ! (1 − q ) r +1
=
k =0
pr r! r
= r + 1
=
(r − 1) ! p p
mentre
+∞
k − 1 r −1 k −r + ∞ r k ( k − 1 ) . . . ( k − r + 1 ) k −r
∑ k p r − 1 p q = ∑ kp
2
(r − 1) !
q =
k =r k =r
+∞ +∞
pr pr dr
=
(r − 1) ! ∑ kk(k − 1) . . . (k − r + 1)qk−r = (r − 1) ! ∑ k dqr qk =
k =r k =r
+∞
pr dr pr dr +∞
= ∑ kqk = (r − 1)! dqr ∑ kqk =
(r − 1)! dqr
k =r k =0

pr dr q pr 1 1
= = − =
(r − 1)! dqr (1 − q)2 (r − 1) ! (1 − q )2 (1 − q )

pr (r + 1) ! r!
= − r +1 =
(r − 1) ! p r +2 p
pr (r + q ) r (r + q )
= r! =
( r − 1 ) ! p r +2 p2
da cui
+∞
k − 1 r −1 k −r r (r + q ) r2 rq
σξ = ∑ k2 p r−1
p q − µ2ξ =
p 2
− 2 = 2
p p
k =r
11.3.3 La distribuzione geometrica

Consideriamo una prova con probabilità di successo p ; ripetiamola
indefinitamente sotto l’ipotesi che
• p rimane costante:
• l’esito della prova non dipende dalle prove precedentemente effet-

tuate.
Ad esempio possiamo considerare un tiratore che ha la capacità di

colpire il bersaglio con probabilità p ad ogni tiro o una lampada che
può guastarsi con probabilità p ad ogni accensione.

probabilità 173
Sia ξ la variabile aleatoria che restituisce il numero del primo tenta-

tivo in cui la prova ha successo. Avremo che
P ( ξ = k ) = (1 − p ) k −1 p
p
in quanto la prova ha avuto esito negativo (la probabilità di insuccesso

r
è 1 − p) per k − 1 volte ed ha avuto successo la k-esima volta. @
Pertanto la distribuzione di probabilità della variabile aleatoria ξ è @q
p
definita da @r
@
H
HqH p
Hr

k −1
XXqXXrp
ϕ ( k ) = P ( ξ = k ) = (1 − p ) p XXX
q X
e si verifica subito che

+∞ +∞
1
∑ p (1 − p ) k −1 = p ∑ (1 − p ) k = p 1 − (1 − p ) =1
1 0
Inoltre
+∞ +∞
µ= ∑ kp(1 − p)k−1 = p ∑ k(1 − p)k−1 =
1 1
+∞ +∞
d d 1 1
= p ∑ − (1 − p ) k = − p ∑ (1 − p ) = − p − p2
k
=
1
dp dp 1
p
mentre
+∞ +∞ +∞
∑ k2 p(1 − p)k−1 = ∑ (k2 + k) p(1 − p)k−1 − ∑ kp(1 − p)k−1 =
Distribuzione Geometrica per p = .2
1
0.9
1 1 1
0.8
+∞
d2 d2 + ∞ 0.7
=p∑ (1 − p ) k +1
−µ = p ∑ (1 − p ) k +1
−µ = 0.6
1 dp2 dp2 1
0.5
0.4
d2 1 2 0.3
=p 2 −2− p −µ = 2 −µ 0.2
dp p p 0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
per cui Figura 11.5: PDF e CDF di una variabile

aleatoria Geometrica
+∞
2 1− p
σ2 = ∑ k 2 p (1 − p ) k −1 − µ 2 = p2
− µ − µ2 =
p2
1
Per quanto riguarda la funzione generatrice dei momenti
+∞ +∞
p
Mξ (t) = E(etξ ) = ∑ etk p(1 − p)k−1 = 1 − p ∑ (et (1 − p))k =
k =1 k =1

p e t (1 − p ) pet
= =
1− p 1 − e t (1 − p ) 1 − e t (1 − p )

11.3.4 La distribuzione di Poisson

Consideriamo un centralino telefonico che in media riceve λ chiamate
all’ora e supponiamo di voler determinare la probabilità che riceva k
chiamate in un’ora.
Suddividiamo l’ora in n parti uguali ciascuna della durata di n1 ;
durante ciascuno degli n periodi di durata n1 la probabilità che si riceva
una chiamata è λ/n, pertanto la probabilità che si ricevano k chiamate
si può ottenere considerando la probabilità che una variabile aleatoria
binomiale relativa ad n prove ripetute con probabilità di successo λn
assuma valore k Sia quindi ξ la variabile aleatoria che restituisce il
numero di successi ottenuti.
Avremo che
k
n λ λ n−k
ϕ(k) = P (ξ = k) = 1− =
k n n
k
n 1 λ n λ −k
= λk 1− 1− =
k n n n
Se ora consideriamo di far tendere n a +∞ avremo

n
λ
1− → e−λ
n
−k
λ
1− →1
n
k
n 1 n! 1 1 n!
= = =
k n k!(n − k)! n k k! (n − k)!nk
√
1 nn e−n 2πn
p =
k! (n − k )n−k e−(n−k) 2π (n − k )
r r
1 1 n nn 1 1 nn n
= n
= n
=
k! e k n − k (n − k) k! e (n − k)
k n−k
Distribuzione di Poisson per λ = 2 r
1
1 1 k −n n 1
0.9 1− →
0.8 k! ek n n−k k!
0.7
0.6
0.5
non appena si tenga conto che
0.4
r
0.3 k −n n
0.2 1− → ek e →1
0.1 n n−k
0
0 1 2 3 4 5 6 7 8 9 10
Figura 11.6: PDF e CDF di una variabile Pertanto la funzione distribuzione di probabilità della variabile alea-
aleatoria di Poisson. toria considerata è data da
1 k −λ
ϕ(k) = λ e
k!

probabilità 175
In generale chiamiamo variabile aleatoria di Poisson la variabile che

restituisce il numero di eventi accaduti nell’unità di tempo, noto il fatto
che il numero medio di eventi che accadono nell’unità di tempo è λ.
Per calcolare media, varianza ed i momenti della distribuzione di
Poisson è utile calcolare la funzione generatrice dei momenti.
+∞ +∞
λk (λet )k −λ
∑ etk k! e−λ = ∑
t
Mξ ( t ) = e = e − λ e λ ( e −1)
k =0 k =0
k!
e le sue derivate
d t
Mξ (t) = eλ(e −1) λet
dt
d2 t t
Mξ (t) = eλ(e −1) λ2 et + eλ(e −1) λet
dt2
Calcolando in t = 0 si ottiene
d
M (0) = λ = µ10 = µ
dt ξ
d2
Mξ (0) = λ2 + λ = µ20
dt2
da cui
µ = µ10 = λ
σ2 = µ20 − µ2 = λ2 + λ − λ2 = λ
11.3.5 Somma di variabili poissoniane

Sui può verificare che la somma di due variabili aleatorie di Poisson di
media λ e µ è ancora una variabile di Poisson di media λ + µ, infatti
se
1 1
ϕ (k ) = λk e−λ e ψ (k ) = µk e−µ
k! k!
possiamo calcolare la densità di probabilità della variabile somma me-
diante la
n n
1 h −λ 1
θ (k) = ∑ ϕ(h)ψ(k − h) = ∑ h!
λ e
(k − h)!
µk−h e−µ =
h =0 h =0
n
1 k!
= e−(λ+µ)
k!h! ∑
( k − h ) !
λh µk−h =
h =0
n
1 k h k−h 1
= e−(λ+µ) ∑ λ µ = e−(λ+µ) (λ + µ)k
k! h=0 h k!
11.3.6 La distribuzione multinomiale

Consideriamo un esperimento che possa avere k possibili esiti, che
indichiamo con
A1 , A2 , ......, Ak

con probabilità
p1 , p2 , ......, pk , p1 + p2 + ...... + pk = 1
e supponiamo di replicarlo per n volte; consideriamo la variabile alea-

toria ξ che restituisce la n−pla di valori
n1 , n2 , ......, nk , n1 + n2 + ...... + nk = n
dove ni è il numero di volte in cui si è verificato l’evento Ai .

La funzione distribuzione di probabilità di ξ è data da
ϕ(n1 , n2 , ......, nk ) = P (ξ 1 = n1 , ξ 2 = n2 , ......, ξ k = nk ) =

n! n n
= p 1 pn2 ......pk k
n1 !n2 !......nk ! 1 2
Infatti su n tentativi si sono verificati n1 successi con probabilità p1 ,

sui restanti n − n1 tentativi si sono verificati n2 successi con probabilià
p2 e così via fino at ottenere nk successi su (n − ni − n2 − · · · nk−1
tentativi per cui
ϕ(n1 , n2 , ......, nk ) = P (ξ 1 = n1 , ξ 2 = n2 , ......, ξ k = nk ) =

n! n ( n − n1 ) !
= p 1 p n2 · · ·
n1 ! ( n − n1 ) ! 1 n2 ! ( n − n1 − n2 ) ! 2
( n − n 1 − n 2 − n k −1 ) ! n
··· p k =
( n k ) ! ( n − n1 − n2 − · · · n k ) ! k
(dal momento che n − n1 − n2 − · · · nk = 0)
n! n n
= p 1 pn2 ......pk k
n1 !n2 !......nk ! 1 2
11.3.7
Sia ξ = (ξ 1 , ξ 2 , . . . ξ k ) una variabile aleatoria distribuita multinomial-
mente relativa al caso in cui gli eventi A1 , A2 , . . . , Ak hanno probabilità
di accadimento p1 , p2 , . . . pk e sia η = η1 + η2 +, · · · , ηk una variabile
aleatoria le cui componenti η j sono variabili indipendenti con densità
di Poisson di media λk = npk Allora
P ( ξ 1 = n1 , ξ 2 = n2 , . . . , ξ k = n k ) =
= P ( η1 = n 1 , η2 = n 2 , . . . , η n = n k | η1 + η2 + · · · + η k = n )
Infatti, dal momento che le η j son indipendenti si ha che e che
p1 + p2 + · · · p k = 1

probabilità 177
P ( η1 = n 1 , η2 = n 2 , . . . , η k = n k ) =

(np1 )n1 e−np1 (np2 )n2 e−np2 (npk )nk e−npk
··· =
n1 ! n2 ! nk !
n
!
(n)n1 +n2 +···nk p1n1 p2n2 · · · pk k
= e − n ( p1 + p2 + p k ) =
n1 ! n2 ! · · · n k !
n
!
(n)n1 +n2 +···nk p1n1 p2n2 · · · pk k
= e−n =
n1 ! n2 ! · · · n k !
D’altra parte
P ( η1 = n 1 , η2 = n 2 , . . . , η k = n k | η1 + η2 + · · · + η k = n ) =
n n n

(n)n p1 1 p2 2 ··· pk k
n1 ! n2 ! ··· nk ! e−n
= nn e−n
=
n!
n! n n
= p 1 p n2 · · · p k k =
n1 ! n2 ! · · · n k ! 1 2
= P ( ξ 1 = n1 , ξ 2 = n2 , . . . , ξ k = n k )
Distribuzione Ipergeometrica per N = 100, n = 10 e p = 0.2
11.3.8 La distribuzione ipergeometrica 1
0.9
0.8
Consideriamo un’urna contenente b palline nere e w palline bianche 0.7
0.6
e supponiamo di estrarre per n volte una pallina rimettendola. dopo 0.5
0.4
ogni estrazione, nell’urna. 0.3
Consideriamo la variabile aleatoria ξ che restituisce il numero di 0.2

0.1
volte in cui si è estratta una pallina nera; allora la densità di probabilità 0
0 1 2 3 4 5 6 7 8 9 10
di ξ si può calcolare mediante la Figura 11.7: PDF e CDF di una variabile

aleatoria Ipergeometrica.
k n−k k n−k
n b w n b w
ϕ(k) = P (ξ = k) = =
k b+w b+w k b+w
non appena si ricordi la distribuzione binomiale e si tenga presente
che
b w
p= , q=
b+w b+w
Qualora l’esperimento si ripeta senza rimettere la pallina estratta
nell’urna, (campionamento senza ripetizione), si può vedere che la
densità di probabilità della nuova variabile aleatoria ξ che conta il
numero delle palline nere estratte è
(bk)(nw
−k )
ϕ(k) = P (ξ = k) =
(b+nw)
Infatti il denominatore conta quante n − ple di palline si possono

formare avendo a disposizione b + w palline, mentre a numeratore c’è

il numero delle n−ple che contengono esattamente k palline nere che

si possono ottenere conbinando una k − pla di palline nere, in numero
di (bk), con una (n − k) − pla di palline bianche, in numero di (nw
− k ).
Si calcola anche che
nb nbw(b + w − n)
µ= , σ2 =
b+w ( b + w )2 ( b + w − 1)
Infatti
Ricordiamo l’identità di Vandermon-
de:
k
m+n m n
= ∑ n n (bk)(nw
−k )
k h =0
h k−h µ= ∑ kP (ξ = k) = ∑ k
(b+nw)
=
k =0 k =0
infatti:
• (m+ n 1 n
b−1 w 1 n −1 b − 1 w
k ) numero dei modi con cui si = b+w ∑ b = b+w ∑ b =
possono scegliere k elementi tra m +
( n ) k =1 k − 1 n − k ( n ) k =0 k n−k−1
n
• (mh) numero dei modi con cui si
1 b+w−1 n!(b + w − n)! ( b + w − 1) !
= b b+w =b =
possono scegliere h elementi tra m ( ) n − 1 (b + w)! ( n − 1) ! ( b + w − n ) !
n
• (k−n h) numero dei modi con cui si bn
possono scegliere k − h elementi tra =
n
b+w
k elementi tra m + n si scelgono prenden- Inoltre
done h tra i primi m e k − h tra gli altri n.
quindi per h fissato ci sono (mh)(k−n h) pos-
sibili scelte. Sommando su h si trovano
tutte e si ottiene la formula. n n (bk)(nw
−k )
∑ k2 P ( ξ = k ) = ∑ k2
(b+nw)
=
k =0 k =0
n
1 b−1 w
= ∑ k−1 n−k =
(b+nw) k=1
kb

1 n −1 b−1 w
= b + w ∑ ( k + 1) b =
( n ) k =0 k n−k−1
n −1 n −1 !
b b−1 w b−1 w
= b+w
( n ) k =1
∑k k n−k−1
+∑
k n−k−1
=
k =0
n −1 !
b b−2 w b+w−1
= b+w
( n ) k =1
∑ ( b − 1) k − 1 n − k − 1 + n − 1 =
n −2 !
b b−2 w b+w−1
= b+w
( n ) k =0
∑ ( b − 1) k n−k−2
+
n−1
=

b b+w−2 b+w−1
= b + w ( b − 1) + =
( n ) n−2 n−1

b ( b + w − 2) ! ( b + w − 1) !
= b + w ( b − 1) + =
( n ) ( n − 2) ! ( b + w − n ) ! ( n − 1) ! ( b + w − n ) !

bn!(b + w − n)! (b − 1)(n − 1)(b + w − 2)! + (b + w − 1)!
= =
(b + w)! ( n − 1) ! ( b + w − n ) !

probabilità 179
n
bn ((b − 1)(n − 1) + (b + w − 1))
∑ k2 P ( ξ = k ) = (b + w)! ((b + w − 2)!)
=
k =0
bn (nb − n − b + 1 + b + w − 1) bn (nb − n + w)
= =
(b + w)(b + w − 1) (b + w)(b + w − 1)
da cui
bn (nb − n + w) b2 n2
σ2 = − =
(b + w)(b + w − 1) (b + w)2
nb(nb − n + w)(b + w) − b2 n2 (b + w − 1)
= =
( b + w )2 ( b + w − 1)
nb(nb2 − nb + bw + nbw − nw + w2 − nb2 − nbw + nb)
= =
( b + w )2 ( b + w − 1)
nbw(b + w − n)
=
( b + w )2 ( b + w − 1)
Possiamo anche osservare che si ha
(bk)(nw
−k ) b! w! n!(b + w − n)!
= =
(b+nw) k!(b − k)! (n − k)!(w − (n − k))! (b + w)!

n b! w! (b + w − n)!
= =
k (b − k)! (w + k − n)! (b + w)!

n b(b − 1) · · · (b − k + 1))w(w − 1) · · · (w + k − n + 1)
= =
k (b + w)(b + w − 1) · · · (b + w − n + 1)

n b b−1 ( b − k + 1)
= ··· ·
k b+wb+w−1 b+w−k+1
w w−1 w−n+k+1
···
b+w−k b+w−k−1 b+w−n+1
Ora se b + w = N, b+b w = p e w
b+w = q si ha, dividendo numeratori
e denominatori per (b + w),

(bk)(nw
−k )n p p− 1
N p− k −1
N q q− 1
N q− n − k −1
N
= ··· k −1
··· −1
b+w
( n ) k 1 1− 1
N 1− N 1− k
N 1− k +1
N 1 − nN

(bk)(nw
−k ) n k n−k
lim = p q
N →+∞ (b+nw) k
Osserviamo anche che, con queste notazioni, la media e la varianza

si esprimono come

µ = np
N−n
σ2 = npq
N−1
Distribuzione Ipergeometrica per N = 50, n = 24, p = 0.7
1 Pertanto la media della distribuzione ipergeometrica è uguale alla
0.9
0.8
media della distribuzione binomiale; per quanto concerne la varianza,
0.7
0.6
possiamo vedere che il rapporto tra la varianza della ipergeometrica e
0.5 la varianza della binomiale è dato da
0.4
0.3
N−n
N → +∞
0.2
→1 per
0.1
0
N−1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Figura 11.8: Confronto tra distribuzione È pertanto evidente che per N grande la distribuzione ipergeome-
Ipergeometrica e Binomiale. trica si riduce a quella binomiale.
Distribuzione Ipergeometrica e Binomiale per N = 1000, n = 24, p = 0.7 In figura è riportata la PDF di una variabile aleatoria Binomiale e di
1
0.9 una variabile aleatoria Ipergeometrica nel caso in cui p = 0.7, q = 0.3
0.8
0.7 N = 7200, n = 24.
0.6
0.5
0.4
0.3 11.4 La distribuzione esponenziale
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Consideriamo ancora un centralino telefonico che in media riceve λ
Figura 11.9: Confronto tra distribuzione
chiamate all’ora; abbiamo già visto che la variabile aleatoria che resti-
Ipergeometrica e Binomiale.
Distribuzione Esponenziale per λ = 1
tuisce il numero il numero di chiamate in un’ora ha una distribuzione
1
0.9 di Poisson di media e varianza λ.
0.8
0.7
Consideriamo ora la variabile aleatoria che restituisce il tempo che
0.6 intercorre tra una chiamata e l’altra. A questo scopo conveniamo che
0.5
0.4
0.3
0.2
Pn (h) è la probabilità che si ricevano n chiamate in un intervallo
0.1
0
0 1 2 3 4 5 di tempo di h ore.
Figura 11.10: PDF e CDF di una variabile
aleatoria Esponenziale.
dal momento che λh è la media di chiamate in un intervallo di h
ore, usando la distribuzione di Poisson possiamo affermare che
P0 (h) = e−λh
Consideriamo ora la variabile aleatoria T che restituisce il tempo in
cui avviene la prima chiamata a partire da 0.
Avremo che la probabilità che T > t, si calcola imponendo che in
[0, t] non si siano ricevute chiamate e quindi
P ( T > t) = P0 (t) = e−λt
Ne viene che
Z +∞
P ( T > t) = e−λt = ϕ(t)dt
t

probabilità 181
e possiamo trovare la PDF ϕ della distribuzione esponenziale sempli-

cemente derivando rispetto a t
ϕ(t) = λe−λt
Si verifica subito che media e varianza sono date da:

Z +∞ +∞ Z
+∞ e−λt +∞ 1
µ= λte−λt dt = −te−λt + e−λt dt = − =
0 0 0 λ 0 λ
mentre
Z +∞ +∞ Z +∞

λt2 e−λt dt = −t2 e−λt + 2te−λt dt =
0 0 0
Z +∞ −λt −λt
te−λt +∞ e e +∞ 2
=2 − − dt = 2 − 2 = 2
λ 0 0 λ λ 0 λ
per cui
2 2 1 1
σ= 2
− µ2 = 2 − 2 = 2
λ λ λ λ
11.5 La distribuzione γ.
La distribuzione γ è definita, per α, β > 0 da


 tα−1 e−t/β t>0
βα Γ(α)
ϕ(t) =
0 altrimenti
La presenza dei due parametri α e β consente di adattare la distribu-

zione ai dati che si desidera rappresentare. In particolare il parametro
α descrive la forma della distribuzione mentre β è semplicemente un
fattore di scala.
Media, varianza e generatrice dei momenti sono date da
µ = αβ
σ2 = αβ2
1
Mγ (t) = (1 − βt)−α per t <
β
Distribuzione γ per α = 4 e beta = 2
1
Infatti 0.9
0.8
Z +∞ Z +∞ 0.7
1 1
µ= α tα e−t/β dt = α (sβ)α e−s βds = 0.6
β Γ(α) 0 β Γ(α) 0
0.5
0.4
β α +1 Γ ( α + 1 ) 0.3
= = αβ 0.2
βα Γ(α) 0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
mentre Figura 11.11: PDF e CDF di una variabile

aleatoria γ.
Z +∞ Z +∞
1 1
tα+1 e−t/β dt = (sβ)α+1 e−s βds =
βα Γ(α) 0 βα Γ(α) 0
β α +2 Γ ( α + 2 )
= = αβ2 (α + 1)
βα Γ(α)
e
σ2 = β2 α2 + αβ2 − β2 α2 = αβ2
Inoltre
Z +∞
1
Mγ ( t ) = etx x α−1 e− x/β dt =
β Γ(α)
α
0
  α −1
Z +∞
1 1 1
= α   e−s ds =
β Γ(α) 0 1
−t
1
β −t
β
βα Γ(α) 1
= α = α
βα Γ(α) β1 − t 1
β − t
Ovviamente il precedente integrale converge solo per t < β1 .

La moda infine è (α − 1) β per α > 1, come si deduce immediata-
mente calcolando il punto di massimo della funzione tα−1 e−t/β la cui
derivata

1 1
(α − 1)tα−2 e−t/β − tα−1 e−t/β = tα−2 e−t/β (α − 1) − =0
β β
per
t = ( α − 1) β
nel caso in cui α > 1
Nel caso in cui α = k ∈ N e β = 1 la distribuzione γ definisce una
variabile aleatoria che è somma di k variabili aleatorie esponenziali
di media λ = β1 . Infatti se consideriamo due variabili aleatorie con
densità esponenziale di media λ la loro somma avrà una densità di
probabilità definita dalla convoluzione
Z +∞ Z t
ψ(t) = λe−λs λe−λ(t−s) ds = λe−λs λe−λ(t−s) ds =
−∞ 0
Z t
λ2 e−λt ds = tλ2 e−λt
0
Inoltre se sommiamo due variabili aleatorie con densità nulla prima

di 0 e uguale a
tk−1 λk e−λt
e λe−λt
( k − 1) !
altrove, otterremo una nuova variabile aleatoria la cui PDF si ottiene
per convoluzione nella forma

probabilità 183
Z +∞
1
sk−1 λk e−λs λe−λ(t−s) ds =
−∞ ( k − 1) !
Z t
1
= λk+1 e−λt sk−1 ds =
( k − 1) ! 0
1 k+1 k −λt
λ t e
k! Distribuzione β α = 2 e beta = 3
11.6 La distribuzione β.
1
0.9
0.8
0.7
La distribuzione β è definita da 0.6
0.5
0.4
0.3
0.2
 α −1 0.1
0
 t (1 − t ) β −1 0<t<1
0 1
B(α,β) Figura 11.12: PDF e CDF di una variabile

ϕ(t) = = (11.1)
0 altrimenti
aleatoria β.

 Γ ( α + β ) t α −1 (1 − t ) β −1 0 < t < 1
= Γ(α)Γ( β) (11.2)
0 altrimenti
Anche in questo caso si tratta di una distribuzione che, in virtù dei

due parametri da cui dipende, ben si presta a descrivere una variabile
aleatoria di cui si conoscano le caratteristiche.
I momenti della distribuzione β rispetto all’origine si calcolano fa-
cilmente non appena si ricordi che
Γ(α)Γ( β)
B(α, β) =
Γ(α + β)
Si ha infatti
Z +∞
Γ(α + β)
µk = tα−1+k (1 − t) β−1 dt =
Γ(α)Γ( β) 0
k −1
Γ(α + β) Γ(α + k)Γ( β) α+n
= =∏
Γ(α)Γ( β) Γ(α + β + k) n =0
α+β+n
µ1 = µ fornisce la media e µ2 − µ21 = σ2 fornisce la varianza che sono

quindi date da:
α
µ=
α+β
αβ
σ2 =
(α + β)(α + β + 1)
La funzione generatrice dei momenti si può poi ricavare ricordando

che i momenti sono i coefficienti del suo sviluppo di McLaurin.

!
+∞ k −1
α+n tk
Mβ (t) = 1 + ∑ ∏ α+β+n k!
k =1 n =0
Cercando il punto di massimo di tα−1 (1 − t) β−1 si vede poi che la

moda è
α−1
α+β−2
.
La distribuzione β, per α = n + 1, β = m + 1 ∈ N diventa

 (n+m+)! tn (1 − t)m 0<t<1
n! m!
ϕ(t) =
0 altrimenti
e rappresenta la probabilità di aver ottenuto in una serie di n + m
prove bernoulliane ripetute, n successi ed m insuccessi, posto che sia t
la probabilità di successo della prova bernoulliana stessa.
Possiamo dedurre da questa osservazione che il valore di t per cui
questa probabilità è massima è t = n+n m ; infatti
(tn (1 − t)m )0 = ntn−1 (1 − t)m + mtn (1 − t)m−1 =

n
= (mt + (1 − t)n) tn−1 (1 − t)m−1 = 0 ⇐⇒ t =
n+m
Possiamo quindi dire che in presenza di una sequenza di esiti ber-
noulliani con n successi ed m insuccessi è ragionevole supporre uguale
a n+n m la probabilità di successo del singolo evento.
11.7 La distribuzione Normale di Gauss
La legge di distribuzione di probabilità normale è nota come distri-

buzione Gaussiana anche se Gauss si riferisce ad essa in una sua
pubblicazione solo nel 1809.
In precedenza, nel 1733, De Moivre aveva pubblicato una derivazio-
ne della legge normale come limite di una distribuzione binomiale ed
1
Distribuzione Normale di Gauss anche Laplace la conosceva già almeno dal 1774.
0.9
0.8
Gauss invece arrivò a considerare la distribuzione normale studian-
0.7 do il problema di stimare un parametro noto un certo numero di
0.6
0.5 sue osservazioni. Per questo scopo applicò quello che si chiama oggi
0.4
0.3
principio di massima verosimiglianza.
0.2
0.1
Una derivazione della legge normale molto interessante è dovuta
0
4 3 2 1 0 1 2 3 4 ad Herschel , 1850, che la dedusse studiando la distribuzione a due di-
Figura 11.13: PDF e CDF di una variabile mensioni degli errori di misurazione della posizione di una stella. In
aleatoria Normale (di Gauss).
seguito, nel 1860 James Clerk Maxwell estese le argomentazioni di Her-
schel al caso tridimensionale, studiando la distribuzione di probabilità
della velocità delle molecole in un gas.

probabilità 185
Infine nel 1941 un ingegnere elettrico, Vernon D.Landon, studiando

il rumore associato al voltaggio in circuito elettrico osservò che era
distribuito con densita’ invarianti rispetto all’intensità del disturbo e
provò che questa caratteristica identifica la distribuzione normale.
La varietà e la diversità dei problemi che conducono alla distri-
buzione normale giustificano quindi pienamente il ruolo centrale che
questa distribuzione occupa.
11.7.1 La derivazione della distribuzione Normale di De Moivre

Sia ξ n la variabile aleatoria binomiale definita dalla somma di n varia-
bili Bernoulliane ξ relative ad una prova con probabilità di successo p
e probabilità di insuccesso q = 1 − p.
ξ n = ξ + ξ + ξ + .... + ξ
e sia ζ n la corrispondente variabile aleatoria normalizzata.

Si può dimostrare che se n → +∞ la distribuzione di probabilità di
ζ n tende ad una distribuzione normale .
Si dimostra in tal modo un caso particolare del teorema del limite
centrale che verrà trattato più avanti
11.7.2 La derivazione della distribuzione normale di Herschel-Maxwell

Una stella si individua mediante la sua longitudine, misurata con un
errore ξ, e la sua declinazione, misurata con un errore η; Herschel
(1850) postulò che ξ e η sono variabili aleatorie indipendenti ed hanno
la stessa PDF f . Allora la distribuzione di probabilità della variabile
aleatoria (ξ, η ) è della forma
φ( x, y) = f ( x ) f (y)
Inoltre postulò che φ, espressa usando le coordinate polari (ρ, θ ),

fosse indipendente da θ, per cui
φ( x, y) = f ( x ) f (y) = g( x2 + y2 )
Ne dedusse infine che φ doveva allora essere quella che ora chia-
miamo densità di probabilità gaussiana.
Maxwell (1860) usò argomentazioni sostanzialmente identiche nel-
lo studio della cinetica dei gas estendendo l’idea di Herschel al caso
tridimensionale.
Infatti, ponendo x = 0 e f (0) = α si ricava f ( x )α = g( x2 ) da cui
g ( x 2 ) g ( y2 )
= g ( x 2 + y2 )
α α
dividendo per α2
g ( x 2 ) g ( y2 ) g ( x 2 + y2 )
2 2
=
α α α2

e di conseguenza
x 1
f = f (x)
m m
per ogni
n intero, e per ogni m naturale.
Se ne deduce che
n n
f x = f (x)
m m
da cui e
f (qx ) = q f ( x ) g( x2 ) g ( y2 ) g ( x 2 + y2 )
ln + ln = ln
per ogni q razionale. La continuità α2 α2 α2
garantisce poi che
g(z)
Pertanto la funzione z 7→ ln α2 è lineare e quindi
f (αx ) = α f ( x )

per ogni x reale e l’omogeneità di f che g(z) g( x2 )
essendo già additiva risulta lineare. ln = kz e ln = kx2
α2 α2
Ne deduciamo che
2
g( x2 ) = h2 ekx
e le costanti h e k possono essere determinate in modo da aversi una
distribuzione di probabilità. Innanzi tutto si vede che deve essere h > 0
e k < 0, imponendo poi che la distribuzione abbia media µ e varianza
σ otteniamo
1 ( x − µ )2
−
g( x ) = √ e 2σ2
σ 2π
11.7.3 La derivazione della distribuzione normale di Gauss

Gauss considerò il problema di stimare un parametro θ note n + 1 sue
osservazioni x0 , x1 , . . . , xn ed usò allo scopo il principio di massima
verosimiglianza.
Se indichiamo con f ( xi , θ ) la probabilità di ottenere la misura xi
condizionata al fatto che il parametro cercato è θ, la probabilità di avere
ottenuto le osservazioni xi , che supponiamo indipendenti, è data da
P(θ ) = ∏ f ( xi , θ )
Cerchiamo di determinare f in modo che P(θ ) sia massima in corri-
spondenza del valor medio θ̂ delle osservazioni. L’argomento di mas-
simo non cambia se consideriamo ln( P(θ )) in luogo di P(θ ) e quindi θ
deve soddisfare la condizione
n
∂
∑ ∂θ ln( f (xi , θ )) = 0
0
Se poniamo
ln( f ( xi , θ )) = g(θ − xi ) = g(u)
se supponiamo cioe’ che f ( xi , θ ) dipenda solo dall’errore commesso
nel considerare θ invece di xi , dovrà risultare
n
∑ g 0 ( θ − xi ) = 0 (11.3)
0
Se vogliamo che il massimo sia assunto per

n
1
θ = θ̂ = ∑ x
n+1 0 i
(11.4)

probabilità 187
dovrà aversi
n
∑ g0 (θ̂ − xi ) = 0 (11.5)
0
Le equazioni 11.5, 11.4 sono, in generale, incompatibili, anzi pos-
siamo subito osservare che qualora la distribuzione degli errori di mi-
surazione sia uniforme si avrebbe f ( xi , θ ) costante per cui tale risul-
terebbe anche P(θ ) e la 11.5 perderebbe di significato attribuendo a
qualunque valore di θ la stessa affidabilità.
Ora, se consideriamo il caso in cui una sola delle osservazioni dif-
ferisce dalla media, cioè se poniamo
x0 = (n + 1)u, x1 = x2 = · · · = x n = 0
per modo che
θ̂ = u, θ̂ − x0 = −nu, θ̂ − xi = u − 0, i = 1, · · · n
sostituendo in 11.5 otteniamo
g0 (−nu) + ng0 (u) = 0 (11.6)
Per n = 1 la 11.6 fornisce
g0 (−u) = − g0 (u)
e ne viene che g0 deve essere antisimmetrica inoltre la 11.6, garantisce

che la g0 , supposta continua, è lineare.
La linearità permette di concludere che
1 2
g0 (u) = au, g(u) = au + b
2
Infine usando la definizione di g e tenendo conto che la distribu-
zione di probabilità deve essere normalizzata, otteniamo che a < 0 ed
anche r
α − 1 α ( x − θ )2
f ( x, θ ) = e 2 (11.7)
2π
Nel caso in cui la 11.7 valga la funzione che definisce la verosimi-
glianza diventa
n r
α − 1 α ( x i − θ )2
ln( P(θ )) = ∑ ln e 2 =
0
2π
r n
α 1
= (n + 1) ln + ∑ − α ( x i − θ )2
2π 0
2
Ne segue che
n n
(ln( P(θ )))0 = ∑ α( xi − θ ) = ∑ αxi − (n + 1)θ
0 0
Che evidentemente assume massimo proprio per θ = θ̂ ed inoltre il

punto di massimo è unico (si tratta di un paraboloide concavo). Resta
libero il parametro α che definisce diverse forme della distribuzione.

11.7.4 La derivazione della distribuzione Normale di Landon

Landon studiò la distribuzione di probabilità della variabile aleatoria
ξ che rappresenta il rumore da cui è affetto il voltaggio osservato in
un circuito elettrico. Egli osservò che tale distribuzione sembrava non
cambiare forma al variare della deviazione standard σ del rumore.
Sia quindi p( x, σ) la probabilità che il rumore valga x nel caso in cui
la sua deviazione standard sia σ.
Supponiamo che alla variabile aleatoria ξ si sommi una quantità
aleatoria ∆ξ indipendente da ξ la cui distribuzione si chiami q. Avremo
che
Z +∞
f (x) = p( x − e, σ2 )q(e)de
−∞
è la distribuzione di probabilità della variabile aleatoria ξ + ∆ξ
Usando lo sviluppo di Taylor di ordine 2 di p( x, σ ) otteniamo
f (x) =
Z +∞
2 ∂p( x, σ2 ) 2
2 ∂ p ( x, σ )
= q(e) p( x, σ ) − e +e + R de
−∞ ∂x 2∂x2
∂p( x, σ2 ) 1 ∂p( x, σ2 )
f (x) = p( x, σ2 ) − µ(q) + Var (q) + R
∂x 2 ∂x2
Pertanto supponendo che la media µ(q) sia nulla e trascurando i
momenti di ordine superiore al secondo, si ha
1 ∂2 p( x, σ2 )
f ( x ) = p( x, σ2 ) + Var (q) +R
2 ∂x2
D’altro canto, poichè si suppone che la forma della distribuzione di
probabilità del rumore non cambi con la varianza e dal momento che
Var (ξ + ∆ξ ) = σ2 + Var (∆ξ ), deve essere
∂p( x, σ2 )
f ( x ) = p( x, σ2 + Var (q)) = p( x, σ2 ) + Var (q) +R
∂σ
Ove si sia usato lo sviluppo di Taylor di p( x, ·).
Possiamo quindi dedurre confrontando i due sviluppi che
∂p( x, σ2 ) 1 ∂2 p( x, σ2 )
=
∂σ 2 ∂x2
che è una equazione di diffusione che , con condizioni iniziali p( x, 0) =
δ( x ) fornisce come soluzione

probabilità 189
p( x, σ2 ) = N ( x, 0, σ )
11.8 Combinazione lineare di variabili gaussiane
Siano ξ 1 e ξ 2 variabili aleatorie gaussiane di media 0 e varianza 1 e

consideriamo ξ = αξ 1 + βξ 2 con α2 + β2 = 1, allora ξ è una variabile
aleatoria normale standard.
Avremo che la PDF di ξ 1 e di ξ 2 è data da
1 u2
√ e− 2
2π
e si può affermare che αξ 1 e βξ 2 hanno rispettivamente, le seguenti
PDF:
2 2
1 −u 1 −u
√ e 2α2 , √ e 2β2
2π |α| 2π | β|
Ne viene che la PDF φ della somma ξ sarà data da
Z +∞ 2 ( v − u )2
1 1 − u 2 − 2β2
φ(v) = √ √ 2α e e du
2π |α| 2π | β| −∞
e si calcola
Z +∞ 2 2 2
1 − u 2 − v 2 − u 2 + uv2
φ(v) = e
2α 2β 2β β du =
2π |αβ| −∞
2 Z +∞ 2 2
1 −v − u 2 − u 2 + uv2
= e 2β2 2α e
2β β du =
2π |αβ| −∞
2 Z +∞ 2
1 −v − u2 2 + uv2
= e 2β2 2α β eβ du =
2π |αβ| −∞
2
2 Z +∞ − √ u − √ v |αβ | v2 α2 β2
1 −v 2|αβ| 2β2
+
2β4
= e 2β2 e du =
2π |αβ| −∞
2
2 2 Z +∞ − √ u − √ v |αβ |
1 − v + v α2 β2 2|αβ| 2β2
= e 2β2 2β4 e du
2π |αβ| −∞
Ora, tenendo conto che

1 1 1
− + 4 α2 β2 = −
2β2 2β 2
e calcolato l’integrale ponendo
u v
t= √ −√ |αβ|
2|αβ| 2β2
si conclude
1 v2 √ 1 v2
φ(v) = e− 2 2π |αβ| = √ e− 2
2π |αβ| 2π

e ξ è a sua volta normale e standard.

Chiaramente qualora α2 + β2 6= 1 possiamo considerare che
q !
2 2
α β
αξ 1 + βξ 2 = α + β p ξ1 + p ξ2
α2 + β2 α2 + β2
inoltre, se η1 e η2 sono gaussiane di media µi e varianza σi2 possiamo

scrivere che
αη1 + βη2 = αµ1 + ασ1 ξ 1 + βµ2 + βσ2 ξ 2 =

= αµ1 + βµ2 + (ασ1 ξ 1 + βσ2 ξ 2 ) =
 
q
ασ1 βσ2
αµ1 + βµ2 + α2 σ12 + β2 σ22  q ξ1 + q ξ2  =
2 2 2 2
α σ1 + β σ2 2 2 2 2
α σ1 + β σ2
q
αµ1 + βµ2 + α2 σ12 + β2 σ22 ξ
essendo ξ una gaussiana normale standard.

Ne segue che αη1 + βη2 ha una distribuzione gaussiana di media
αµ1 + βµ2 e varianza α2 σ12 + β2 σ22
in quanto
 
q ασ1 βσ2
ξ1 + q ξ2 
α2 σ12 + β2 σ22 α2 σ12 + β2 σ22
è una gaussiana standard.
11.9 Le distribuzioni legate ai test statistici.
11.9.1 La distribuzione χ2
Si tratta della distribuzione di probabilità di una variabile aleatoria
χ2 che restituisce la somma dei quadrati di ν variabili aleatorie ξ i in-
dipendenti, aventi distribuzione gaussiano con media 0 e varianza 1
(distribuzioni normali standardizzate).
χ2 = ξ 12 + ξ 22 + ... + ξ ν2
Per ricavare la PDF della distribuzione χ2 a ν gradi di libertà è

opportuno procedere come segue.
11.9.2 χ2 ad 1 grado di libertà

Se ξ è una variabile aleatoria gaussiana standard e se η = ξ 2 , la PDF
ϕ di η è data da 
− 2s
 √1 e√ s≥0
ϕ(t) = 2π s
0 s<0

probabilità 191
Infatti si ha
√ √
P (η ≤ α) = P (ξ 2 ≤ α) = P (− α ≤ ξ ≤ α) =
Z √ Z √α
1 α
−t
2 2 t2
= √ √ e 2 dt = √ e− 2 dt =
2π − α 2π 0
posto s = t2 , per cui ds = 2tdt
Z α −s Z α −s
2 e 2 1 e 2
= √ √ ds = √ √ ds
2π 0 2 s 2π 0 s
11.9.3 χ2 a 2 gradi di libertà

Se η1 , η2 sono variabili aleatorie ηi = ξ i2 con ξ i gaussiana standard e
se η = η1 + η2 , la PDF ϕ di η è data da

 1 e− 2s s ≥ 0
ϕ(t) = 2
0 s<0
Infatti, se chiamiamo ϕi la PDF di ηi , si ha
Z +∞
ϕ(s) = ϕ1 (t) ϕ2 (s − t)dt =
−∞
Z s Z s − t − s−t
1 e 2e 2
= ϕ1 (t) ϕ2 (s − t)dt = √√ dt =
0 2π 0 t s−t
Z
1 −s s 1
= e 2 √√ dt
2π 0 t s−t
p
Posto t(s − t) = ut si ha
s 2us
t ( s − t ) = u2 t2 , s − t = u2 t , s = (1 − u2 ) t , t = 2
, dt = − du
1+u (1 + u2 )2
per cui
Z Z
1 2us
p dt = − du =
t(s − t) ut(1 + u2 )2
Z Z
2us 1
= − s du = −2 du =
u 1+ u2 (1 + u 2 )2 1 + u2
r
s−t
= −2 arctan(u) = −2 arctan
t
Per cui
Z s r
1 s − t s π
√√ dt = −2 arctan =2 =π
0 t s−t t 0 2
e
1 −s 1 s
ϕ(s) = e 2 π = e− 2
2π 2

11.9.4 χ2 a ν gradi di libertà

Possiamo ora provare che la variabile aleatoria
η = η1 + η2 + · + ην = ξ 12 + ξ 22 + · + ξ ν2
dove ξ i sono variabili aleatorie gaussiane normalizzate, ha una PDF

definita da
1 u
u 2 −1 e − 2
ν
ϕν (u) = ν
22 Γ 2ν
Le verifiche fatte precedentemente consentono di affermare che la

precedente affermazione è vera per ν = 1 e per ν = 2. Pertanto
per verificare la medesima è sempre vera sarà sufficiente provare che,
supposta vera per ν è vera anche per ν + 2.
Si ha
Z u
1 u−t 1 t
(u − t) 2 −1 e− 2 e− 2 dt =
ν
ϕ ν +2 ( u ) = ϕ ν ( u ) ∗ ϕ 2 ( u ) = νΓ ν
2 ( ) 0 2 2 2
Z u Z u
1 − u2 1 u
(u − t) 2 du = ν +1 ν e− 2
ν −1
(u − t) 2 −1 du =
ν
= ν +1 ν e
22 Γ 2 0 22 Γ 2 0
" ν
#u ν
1 − u2 (u − t) 2 1 − u2 ( u ) 2
= ν +1 ν e − = ν e =
22 Γ 2 2 2 +1 Γ ν2
ν ν
2 0 2
1 u
u 2 e− 2
ν
= ν +1
2 2 Γ ν
2 +1
Media, varianza e generatrice dei momenti della variabile aleatoria

χ2 sono date da
µ=ν
σ2 = 2ν
Mχ2 (t) = (1 − 2t)−ν/2
11.9.5 La distribuzione T di Student.

È la distribuzione di una variabile aleatoria T che restituisce il rapporto
ξ
T= q
η
ν
dove ξ è una variabile aleatoria con densità di probabilità gaussia-

na normale (media 0 e varianza 1) ed η è una variabile aleatoria con
distribuzione χ2 a ν gradi di libertà
Per ricavare la PDF di student cominciamo con l’osservare che:

probabilità 193
11.9.6
Se ξ è una variabile aleatoria con densità χ2 a ν gradi di libertà, la sua
PDF sarà data da
1 u
u 2 −1 e − 2
ν
ϕν (u) = ν
2 2 Γ ν2
Sia η la variabile aleatoria definita da
r
ξ
η=
ν
Avremo che
r ! Z να2
ξ 1 u
u 2 −1 e− 2 du =
ν
P (η ≤ α) = P ≤α = P (ξ ≤ να2 ) = ν
ν 2 Γ
2 ν
2
0
q
u
Posto t = ν da cui u = νt2 e du = 2νtdt
Z α
1 νt2
t ν −2 ν 2 −1 e −
ν
= ν 2 2νtdt =
2 Γ
2 ν
2
0
Z α
1 νt2
t ν −1 ν 2 e −
ν
= ν −1 2 dt
2 2 Γ ν
2
0
e possiamo concludere che la PDF di η è data da


 νt2
t ν −1 ν 2 e − 2 t ≥ 0
ν
 ν 1
−1
ϕ(t) = 2 Γ( 2 )
2 ν

0 t<0
11.9.7
Sia ora η1 una variabile aleatoria gaussiana standard, la cui PDF è
ovviamente data da
1 u2
g(u) = √ e− 2
2π
q
e sia η2 = νξ dove ξ è una variabile aleatoria con densità χ2 a ν gradi
di libertà; per quanto detto in precedenza la PDF di η2 è nulla prima
di 0 ed è data da
1 νt2
t ν −1 ν 2 e −
ν
g(t) = ν −1
2
2 2 Γ ν
2
per t ≥ 0.
La variabile aleatoria T di student è definita mediante la
η1
T=
η2
e possiamo ricavarne la PDF ϕ ricordando che si tratta del quoziente

di due variabili aleatorie di cui conosciamo la densità di probabilità.
Avremo:

Z +∞
1 νx2 1 t2 x 2
x ν −1 ν 2 e − √ e− 2 dx =
ν
ϕ(t) = x 2
2 −1
ν
0 2 Γ ν
2 2π
ν Z +∞
ν2 x 2 ( ν + t2 )
= √ x ν e− 2 dx =
2 −1
ν
2π2 Γ ν
2
0
q √
x2 2 2s √ 2
posto 2 (ν + t ) = s si ha x = ν + t2
e dx = √
ν + t2 2 s
ν Z +∞ ν ν √
ν2 22 s2 −s √ 2 1
= √ ν −1 ν e √ ds =
2π2 2 Γ ν2 0 ( ν + t2 ) 2 ν + t2 2 s
ν ν 1 Z +∞
ν2 22−2 1 1
s 2 − 2 e−s ds =
ν
= √
2 −1
ν ν +1
2π2 Γ ν
2 ( ν + t2 ) 2 0
ν Z +∞
ν 2 1 ν +1 −1
= √ ν +1
s 2 e−s ds =
πΓ ν t2 ν + 1
0
2 (ν) 2 (1 + ν)
2

Γ ν +1
2
= √
ν t2 ν + 1
νπΓ 2 (1 + ν)
2
Pertanto la funzione di distribuzione della variabile aleatoria T a ν

gradi di libertà è data da

Γ ν+ 1 − ν+2 1
2 t2
ϕ(t) = √ 1+
νπΓ(ν/2) ν
La media e la varianza di T risultano essere
µ=0
2 ν
σ =
ν−2
11.9.8 La distribuzione F di Fisher.

È la distribuzione di una variabile aleatoria F che restituisce il rapporto
η/µ
F=
ξ/ν
dove η ed ξ sono variabili aleatorie con distribuzione χ2 a µ e ν gradi
di libertà, rispettivamente.
Per ricavare la PDF di F ricordiamo che la PDF g di η/µ è data da
µ µ µu
g(u) = µ µ
(µu) 2 −1 e− 2
22 Γ 2
mentre la PDF f di ξ/ν è data da
ν
(νu) 2 −1 e− 2
ν νu
f (u) = ν
22 Γ 2ν

probabilità 195
η/µ
Possiamo quindi ricavare la PDF ϕ di F = ξ/ν usando quanto
conosciamo sul rapporto di due variabili aleatorie. Avremo
Z +∞
ν µ µ µ µtx
ν 2 −1 x 2 −1 e − µ 2 −1 (tx ) 2 −1 e−
ν ν νx
ϕ(t) = x ν
2
µ µ
2 dx =
0 2 Γ
2 ν
2 2 Γ 2
2
ν µ Z +∞
ν2 µ2 µ µ µtx
x 2 e − 2 t 2 −1 x 2 −1 e −
ν νx
= ν µ µ
2 dx =
2 2 Γ 2ν 2 2 Γ 2
0
Z +∞ ν+µ
µ x
= t 2 −1 Cν,µ x 2 −1 e− 2 (ν+tµ) dx =
0
posto 2x (ν + tµ) = s si ha dx = ν+2tµ ds
Z +∞ ν + µ −1
µ 2s 2 2
= t 2 −1 Cν,µ e−s ds =
0 ν + tµ ν + tµ
µ ν+µ Z +∞
t 2 −1 Cν,µ 2 2 ν+µ
= e−s ds = s 2 −1
ν+µ
(ν + tµ) 0 2
ν+µ
ν µ ν+µ
ν2 µ2 Γ 2 2 2 µ
t 2 −1
= ν µ µ ν+µ =
2 2 2 2 Γ 2ν Γ 2 (ν + tµ) 2

ν µ ν+µ
ν2 µ2 Γ 2 µ ν+µ
2 −1 ( ν + tµ ) − 2
= µ t
Γ 2 Γ 2
ν
Pertanto la funzione di distribuzione della variabile aleatoria F è

data da

ν1 +ν2

 Γ ν /2
ν 1 ν2ν2 /2 tν2 /2−1 (ν2 + ν1 t)−(ν1 +ν2 )/2
2
Γ(ν1 /2)Γ(ν2 /2) 1
t>0
ϕ(t) =

0 altrimenti
la media e varianza risultano essere
ν2
µ=
ν2 − 2
2ν22 (ν1 + ν2 − 2)
σ2 =
ν1 (ν2 − 4)(ν2 − 2)2
11.10 Variabili casuali con distribuzione assegnata.
Qualora sia necessario utilizzare dati generati casualmente con fun-

zione distribuzione di probabilità fissata, possiamo procedere come
segue.

Sia φ la distribuzione che si vuole considerare e sia

Z x
F(x) = φ(t)dt
−∞
la funzione di distribuzione cumulativa; allora si ha

Z b
P ( a ≤ ξ ≤ b) = φ(t)dt = F (b) − F ( a)
a
e quindi
P ( F −1 ( a) ≤ ξ ≤ F −1 (b)) = b − a
e
P ( a ≤ F (ξ ) ≤ b) = b − a
Pertanto F (ξ ) ha una distribuzione uniforme e quindi poichè
ξ = F −1 ( F (ξ ))
possiamo generare valori distribuiti con densità di probabilità φ, con-

siderando valori generati con densità uniforme ed applicando a tali
valori F −1 .
Tale procedimento non è tuttavia applicabile, ad esempio, per de-
terminare valori distribuiti con densità gaussiana in quanto non è
possibile determinare esplicitamente F −1 nel caso in cui
Z x
1 2 /2
F(x) = √ e−t dt
2π −∞
In tal caso, che peraltro è di rilevante importanza possiamo osser-

vare che se ξ e η sono variabili aleatorie indipendenti con distribu-
zione gaussiana normale, allora (ξ, η ) è una variabile aleatoria la cui
funzione distribuzione di probabilità è
1 −(t2 +s2 )/2
e
2π
Pertanto
ZZ ZZ
1 2 + s2 ) /2 1 2 ) /2
P ((ξ, η ) ∈ A) = e−(t dtds = ρe−(ρ dρdθ
2π 2π
A B
dove B ed A sono l’uno il trasformato dell’altro rispetto al cambio di

variabili in coordinate polari.
Ne viene che possiamo identificare due nuove variabili ( R, Θ) la cui
densità di probabilità è data da
1 −(ρ2 )/2 1 2
ρe = ( )(ρe−(ρ )/2 ) = f (θ ) g(ρ)
2π 2π
dove
1
f (θ ) =
2π
2 ) /2
g(ρ) = ρe−(ρ

probabilità 197
Quindi per quanto visto in precedenza, per generare valori casuali

di Θ e di R possiamo utilizzare valori uniformemente distribuiti θ ed
r e applicare a tali valori le funzioni F −1 e G −1 , rispettivamente, dove
Z t Z t
t 2 /2
F (t) = f (s)ds = , G (t) = g(s)ds = 1 − e−t
0 2π 0
Si ha allora
q
−1 −1
F (s) = 2πs , G (s) = −2 ln(1 − s)
e le variabili
q q
ξ = −2 ln(1 − t) cos (2πs) , η= −2 ln(1 − t) sin (2πs)
dove s e t sono distribuite uniformemente, risultano distribuite con

densità gaussiana di media 0 e di varianza 1.

12. IL TEOREMA DEL LIMITE CEN-
TRALE
Il teorema del limite centrale è un risultato di grande importanza in

quanto sancisce il fatto che la sovrapposizione di un gran numero di
variabili aleatorie aventi media e varianza comune conduce ad una
variabile con distribuzione normale (gaussiana).
Più precisamente possiamo dire che
Siano
ξ 1 , ξ 2 , ....., ξ n
variabili aleatorie indipendenti aventi la stessa distribuzione di proba-
bilità con media µ e varianza σ2 .
Siano
η1 , η2 , ....., ηn
le corrispondenti variabili normalizzate
ξk − µ
ηk =
σ
e consideriamo la variabile aleatoria ζ definita da
η1 + η2 + ... + ηn
ζn = √
n
(Poichè E(ηi ) = 0 avremo che E(ζ n ) = nE(η1 + η2 + ... + ηn ) = 0 e
inoltre, poichè Var(ηi ) = 1 avremo che Var(η1 + η2 + ... + ηn ) = n e
quindi Var(ζ n ) = 1)
Si ha
ξ + ξ 2 + ... + ξ n − nµ
ζn = 1 √
nσ
e si può dimostrare che
Z β
1 2 /2
lim P (α ≤ ζ n ≤ β) = √ e− x dx
n→+∞ 2π α
o equivalentemente che
Z b−nµ
√
1 nσ 2 /2
lim P ( a ≤ ξ 1 + ξ 2 + ... + ξ n ≤ b) = √ a−nµ
e− x dx
n→+∞ 2π √
nσ
12.1 Un caso particolare del Teorema del Limite Centrale: il

teorema di DeMoivre-Laplace
Sia ξ n la variabile aleatoria binomiale definita dalla somma di n varia-

bili Bernoulliane indipendenti ξ relative ad una prova con probabilità
di successo p e probabilità di insuccesso q = 1 − p.
ξ n = ξ + ξ + ξ + .... + ξ
√
La media di ξ è µ = p, la sua varianza è σ = pq per cui la media di
√
ξ n è np la sua varianza è npq mentre la sua densità di probabilità è
definita, per k − 21 ≤ x ≤ k + 21 da

1 1 n k n−k
Bn ( x ) = P (ξ n = k ) = P (k − ≤ ξn ≤ k + ) = p q
2 2 k
e, utilizzando la Formula di Stirling,
√
nn e−n 2πn
Bn (h) ≈≈ √ p p h q(n−h)
hh e−h 2πh(n − h)(n−h) e−(n−h) 2π (n − h)
Sia
ξ n − np
ζn = √
npq
la variabile aleatoria ottenuta normalizzando ξ n e sia Gn ( x ) la sua PDF.
Avremo che
Z k+ √1
2 npq 1 1
Gn ( x )dx = P (k − √ ≤ ζn ≤ k + √ )=
k − 2√1npq 2 npq 2 npq
√ 1 √ 1
= P (k npq − ≤ ξ n − np ≤ k npq + ) =
2 2
√ 1 √ 1
= P (np + k npq − ≤ ξ n ≤ np + k npq + ) =
2 2
√
= Bn (np + k npq)
da cui
1 √
√ Gn (k) ≈ Bn (np + k npq)
npq
e
√ √
Gn (k) ≈ npqBn (np + k npq)
Possiamo ora mostrare che
√ √ 1 k2
npqBn (np + k npq) → √ e− 2
2π
Avremo

probabilità 201
√
nn e−n 2πn
Bn (h) =≈ √ p p h q(n−h) =
hh e−h 2πh(n − h)(n−h) e−(n−h) 2π (n − h)
r
1 n nn
= √ p h q(n−h)
2π h (n − h ) h h (n − h )n−h
√
e definendo δ = k pq,
√ √ √ √
h = np + k npq = np + δ n da cui n − h = n − np − k npq = nq + δ n
si ha
√ √
npqBn (np + δ n) ≈
r
√ 1 n
= αn β n = npq √ √ √
2π (np + δ n)(nq − δ n)
!
nn √ √
(np+δ n) (nq−δ n)
√ √ √ √ p q
(np + δ n)(np+δ n) (nq − δ n)(nq−δ n))
Osserviamo subito che

r
√ 1 n 1
αn = npq √ √ √ → √
2π (np + δ n)(nq − δ n) 2π
e che
nn √ √
n) (nq−δ n)
βn = √ √ √ √ p(np+δ q =
(np + δ n)(np+δ n) ( nq − δ n )(nq−δ n)
√ √
nnp+δ n+nq−δ n √ √
= √ (np+δ√n) √ (nq−δ√n) p−(np+δ n) q(nq−δ n) =
(np + δ n) (nq − δ n)
√ √
npnp+δ n nqnq−δ n
√ √ √ √
(np + δ n)(np+δ n) (nq − δ n)(nq−δ n)
Si ha
−np−δ√n −nq+δ√n
δ δ
βn = 1+ √ 1− √ =
p n q n
√ √
(−np−δ n) ln 1+ p√
δ +(−nq+δ n) ln 1− q√δ n
=e n

Ma

√ δ √ δ
(−np − δ n) ln 1 + √ + (−nq + δ n) ln 1 − √ ≈
p n q n

√ δ δ2 √ δ δ2
≈ (−np − δ n) √ − 2 + (−nq + δ n) − √ − 2 ≈
p n 2p n q n 2q n
npδ npδ2 δ2 δ3 nqδ nqδ2 δ2 δ3
− √ + 2 − + 2√ + √ + 2 − + 2√ =
p n 2p n p 2p n q n 2q n q 2q n
δ 2 δ 2 δ 3 δ 2 δ 2 δ 3
=+ − + 2√ + − + 2√ →
2p p 2p n 2q q 2q n
2 2
δ δ
→− + =
2p 2q
h2 pq h2 pq h2
=− − =−
2p 2q 2
Pertanto
− k2
βn → e 2
ed infine
√ √ √ √ 1 k2
npqBn (np + k npq) = npqBn (np + δ n) → √ e− 2
2 π
Quindi possiamo affermare che
P ( a ≤ ξ n ≤ b) = P ( a ≤ ξ + ξ + ξ + .... + ξ ≤ b) ≈
Z b−np
√
1 npq 2 /2 b − np a − np
≈ √ a−np
e− x dx = G ( √ ) − G( √ )
2π √
npq
npq npq
dove x Z
1 2
G(x) = √ e− x /2 dx
2π −∞
è la funzione di distribuzione cumulativa Gaussiana standardizzata.
12.2 Un altro caso particolare del Teorema del Limite Centrale
Sia ξ n la variabile aleatoria definita dalla somma di n variabili Poisso-

niane ξ di media λ.
ξ n = ξ + ξ + ξ + .... + ξ
√
La media di ξ è µ = λ, la sua varianza è σ = λ per cui la media di
√
ξ n è nλ la sua varianza è nλ mentre la sua densità di probabilità è
definita da
(nλ)k −nλ
Hn (k) = P (ξ n = k) = e
k!

probabilità 203
Possiamo normalizzare la variabile aleatoria ξ n mediante la
ξ n − nλ
√
nλ
la cui funzione densità di probabilità è data da
√ √
nλHn (nλ + k nλ)
Possiamo mostrare che

√ √ 1 k2
nλHn (nλ + k nλ) → √ e− 2
2π
Avremo infatti che
√ √
nλHn (nλ + k nλ) =
√
√ (nλ)nλ+k nλ e−nλ
= nλ √ √ √ q √ =
(nλ + k nλ)nλ+k nλ e−nλ−k nλ 2π (nλ + k nλ)
v
u
1 u 1 1 1
= √ t k √ √ =
2π 1 + √ nλ + k nλ e − k nλ
nλ 1 + √k
nλ
Si verifica subito che

v
u
1 u 1 1
√ t → √
2π 1 + √k 2π
nλ
mentre
1 1
nλ+k√nλ √ = e − en
√k
e−k nλ
1+
nλ
dove
√ k √
en = (nλ + k nλ) ln 1 + √ − k nλ
nλ
Usando lo sviluppo di Taylor del logaritmo avremo allora
√ √
k k2
en ≈ (nλ + k nλ) √ − − k nλ =
nλ 2nλ
√ k2 k2 k3 √ k2
= k nλ − + k2 − − √ − k nλ →
2 2 2 nλ 2
Se ne deduce che
x2
en → e − 2
e si può concludere.

12.2.1 Approssimazione della Distribuzione Binomiale mediante la

Distribuzione Normale
Il teorema di De Moivre-Laplace, qualora il numero di prove n sia
grande, permette di approssimare una distribuzione binomiale me-
diante la distribuzione normale standardizzata.
Nella pratica l’approssimazione si usa se np, nq ≥ 5 essendo p la
probabilità di successo e q = 1 − p.
Ad esempio si può calcolare la probabilità che su 10 lanci di una
moneta non truccata si abbiano un numero di teste ξ compreso tra 3 e
6, tenendo conto che
!
3 − 21 − 5 6+ 1 −5
P (3 ≤ ξ ≤ 6) = P √ ≤ z n ≤ √2 =
2.5 2.5
= P (−1.58 ≤ zn ≤ 0.95)
Se G è la CDF Gaussiana standardizzata avremo:
P (−1.58 ≤ zn ≤ 0.95) = G (0.95) − G (1.58) = 0.8289 − 0.0571 = 0.7718
Possiamo confrontare il risultato con quello ottenuto direttamente

mediante i valori della distribuzione cumulativa binomiale B10 relativa
a 10 lanci; in questo modo si ottiene
B10 (6) − B10 (2) = 0.8281 − 0.0547 = 0.7734
ed osservare che l’errore di approssimazione commesso è dell’ordine

di 0.0016
Seguono le istruzioni Matlab per calcolare
G (0.95) − G (1.58)) = normcdf(0.95,0,1)-normcdf(-1.58,0,1)
B10 (6) − B10 (2) = cdf(’bino’,6,10,1/2)-cdf(’bino’,3,10,1/2)

13. I Test Statistici
13.1 Le distribuzioni legate ai test statistici.
13.1.1 La distribuzione χ2
La variabile aleatoria χ2 a ν gradi di libertà restituisce la somma dei

quadrati di ν variabili aleatorie ξ i indipendenti, aventi distribuzione
gaussiano con media 0 e varianza 1 (distribuzioni normali standardiz-
Distribuzione χ2 ad 1 grado di libertà.
zate).
χ2 = ξ 12 + ξ 22 + ... + ξ ν2
1
0.8
Per ricavare la PDF della distribuzione χ2 a ν gradi di libertà è 0.6

0.4
opportuno procedere come segue. 0.2
0
0 1 2 3
Figura 13.1: .
13.1.2 χ2 ad 1 grado di libertà
Se ξ è una variabile aleatoria gaussiana standard e se η = ξ 2 , la PDF

ϕ di η è data da

−s
 √1 e√ 2
s≥0
ϕ(t) = 2π s
0 s<0
Infatti si ha
√ √
P (η ≤ α) = P (ξ 2 ≤ α) = P (− α ≤ ξ ≤ α) =
Z √ Z √α
1 α
−t
2 2 t2
= √ √ e 2 dt = √ e− 2 dt =
2π − α 2π 0
2
posto s = t , per cui ds = 2tdt
Z α −s Z α −s
2 e 2 1 e 2
= √ √ ds = √ √ ds
2π 0 2 s 2π 0 s
13.1.3 χ2 a 2 gradi di libertà

Se η1 , η2 sono variabili aleatorie ηi = ξ i2 con ξ i gaussiana standard e
se η = η1 + η2 , la PDF ϕ di η è data da

 1 e− 2s s ≥ 0
ϕ(t) = 2
0 s<0
Infatti, se chiamiamo ϕi la PDF di ηi , si ha
Z +∞
ϕ(s) = ϕ1 (t) ϕ2 (s − t)dt =
−∞
Z s Z s − t − s−t
Distribuzione χ2 a 2 gradi di libertà
1 e 2e 2
1 = ϕ1 (t) ϕ2 (s − t)dt = √√ dt =
0.9 0 2π 0 t s−t
0.8 Z
1 −s s 1
0.7
= e 2 √√ dt
0.6
0.5
2π 0 t s−t
0.4 p
0.3 Posto t(s − t) = ut si ha
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 t ( s − t ) = u2 t2 , s − t = u2 t , s = (1 + u2 ) t
Figura 13.2: .
s 2us
t= , dt = − du
1 + u2 (1 + u2 )2
per cui
Z Z
1 2us
p dt = − du =
t(s − t) ut(1 + u2 )2
Z Z
2us 1
= − du = −2 du =
u 1+su2 (1 + u2 )2 1 + u2
r
s−t
= −2 arctan(u) = −2 arctan
t
Ne viene
Z s r
1 s − t s π
√√ dt = −2 arctan =2 =π
0 t s−t t 0 2
e si può dedurre che

1 −s 1 s
ϕ(s) = e 2 π = e− 2
2π 2
è la distribuzione di η.
13.1.4 χ2 a ν gradi di libertà

Possiamo ora provare che la variabile aleatoria
η = η1 + η2 + · + ην = ξ 12 + ξ 22 + · + ξ ν2

probabilità 207
Distribuzione χ2 a 6 gradi di libertà

dove ξ i sono variabili aleatorie gaussiane normalizzate, ha una PDF 1
0.9
definita da 0.8
1 u
u 2 −1 e − 2
ν 0.7
ϕν (u) = ν 0.6
22 Γ 2ν
0.5
0.4
Le verifiche fatte precedentemente consentono di affermare che la 0.3
0.2
precedente affermazione è vera per ν = 1 e per ν = 2. Pertanto 0.1
0
per verificare la medesima è sempre vera sarà sufficiente provare che, 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Figura 13.3: .
supposta vera per ν è vera anche per ν + 2.
Si ha
Z u
1 1 −t
u−t
( u − t ) 2 −1 e −
ν
ϕ ν +2 ( u ) = ϕ ν ( u ) ∗ ϕ 2 ( u ) = ν e 2 dt =
2
0 2 Γ
2 ν
2
2
Z u
" ν
#u
1 u 1 u (u − t) 2
e− 2 (u − t) 2 −1 du = e− 2
ν
= ν +1 ν − =
Γ Γ
ν
2 2 ν 0 2 2 +1 ν
2
2 2 0
ν
1 − u2 (u) 2 1 u
u e− 2
ν
= ν e = ν +1
2
Γ Γ
ν
2 2 +1 ν
2 2 2 ν
+1
2 2
Media, varianza della variabile aleatoria χ2 sono date da
µ=ν
σ2 = 2ν
Infatti
Z +∞ Z +∞
1 u 1 u
uu 2 −1 e− 2 du = u 2 e− 2 du =
ν ν
µ= ν ν
0 2 Γ 2 ν
2 2 Γ 2 ν
2
0
Z +∞ ν +1
1 ν −t 2 2 Γ ν
2 +1
ν (2t) e 2dt
2
ν =
22 Γ ν
2
0 22 Γ ν
2
ν
2 2 +1 ν2 Γ ν
2
ν =ν
22 Γ ν
2
mentre
Z +∞ Z +∞
1 u 1 u
u2 u 2 −1 e− 2 du = u 2 +1 e− 2 du =
ν ν
ν ν
0 2 Γ 2 ν
2 2 Γ
2 ν
2
0
Z +∞ ν +2
1 ν +1 −t 2 ν
2 +2
2 Γ
ν (2t) 2 e 2dt ν =
22 Γ ν
2
0 2 2 Γ ν2
ν
2 2 +2 ( ν2 + 1) ν2 Γ 2ν ν ν
ν = 4( + 1)
2 2 Γ ν2 2 2
e
ν ν
σ2 = 4( + 1) − ν2 = 2ν
2 2

Inoltre la generatrice dei momenti della variabile aleatoria χ2 è
Mχ2 (t) = (1 − 2t)−ν/2
13.1.5 La distribuzione T di Student.

È la distribuzione di una variabile aleatoria T che restituisce il rapporto
ξ
T= q
η
ν
dove ξ è una variabile aleatoria con densità di probabilità gaussia-

na normale (media 0 e varianza 1) ed η è una variabile aleatoria con
distribuzione χ2 a ν gradi di libertà
Per ricavare la PDF di student cominciamo con l’osservare che:
13.1.6
Se ξ è una variabile aleatoria con densità χ2 a ν gradi di libertà, la sua
PDF sarà data da
1 u
u 2 −1 e − 2
ν
ϕν (u) = ν
22 Γ 2ν
Sia η la variabile aleatoria definita da

r
ξ
η=
ν
Avremo che
r !
ξ
P (η ≤ α) = P ≤α = P (ξ ≤ να2 ) =
ν
Z να2
1 u
u 2 −1 e− 2 du =
ν
= ν
2 Γ
2 ν
2
0
q
u 2
posto t = ν da cui u = νt e du = 2νtdt
Z α Z α
1 ν−2 ν2 −1 − νt2
2 1 νt2
t ν −1 ν 2 e −
ν
= ν t ν e 2νtdt = ν −1 2 dt
2 Γ
2 ν
2
0 2 2 Γ ν
2
0
e possiamo concludere che la PDF di η è data da


 νt2
t ν −1 ν 2 e − 2 t ≥ 0
ν
 ν 1
− 1
ϕ(t) = 2 2 Γ( 2 )
ν

0 t<0
13.1.7
Sia ora η1 una variabile aleatoria gaussiana standard, la cui PDF è
ovviamente data da
1 u2
g1 ( u ) = √ e − 2
2π

probabilità 209
q
e sia η2 = νξ dove ξ è una variabile aleatoria con densità χ2 a ν gradi
di libertà; per quanto detto in precedenza la PDF di η2 è nulla prima
di 0 ed è data da
1 νt2
t ν −1 ν 2 e −
ν
g2 ( t ) = 2
2 −1
ν
2 Γ ν
2
per t ≥ 0.
La variabile aleatoria T di student è definita mediante la
η1
T=
η2
e possiamo ricavarne la PDF ϕ ricordando che si tratta del quoziente

di due variabili aleatorie di cui conosciamo la densità di probabilità.
Avremo:
Z +∞
1 νx2 1 t2 x 2
x ν −1 ν 2 e − √ e− 2 dx =
ν
ϕ(t) = x ν −1
2
0 2 2 Γ ν
2 2π
ν Z +∞
ν2 x 2 ( ν + t2 )
= √ ν −1 x ν e− 2 dx =
2π2 2 Γ ν
2
0
q √
x2 2 2s √ 2ds
posto 2 (ν + t ) = s si ha x = ν + t2
e dx = √
ν + t2 2 s
ν Z +∞ ν ν √
ν2 22 s2 −s √ 2 1
= √ ν −1 ν e √ ds =
2π2 2 Γ 2ν 0 ( ν + t2 ) 2 ν + t2 2 s
ν ν 1 Z +∞
ν2 22−2 1 1
s 2 − 2 e−s ds =
ν
= √ ν −1 ν +1
2π2 2 Γ ν
2 ( ν + t2 ) 2 0
ν Z +∞
ν 2 1 ν +1 −1
= √ ν +1 ν +1
s 2 e−s ds =
πΓ ν t2 0
2 (ν) 2 (1 + ν ) 2 Distribuzione di Student a 5 gradi di libertà
1
Γ ν +1 0.9
2 0.8
= √ 0.7
ν t2 ν + 1
νπΓ 2 (1 + ν)
2 0.6
0.5
0.4
0.3
Pertanto la funzione di distribuzione della variabile aleatoria T a ν 0.2
0.1
gradi di libertà è data da: 0
4 3 2 1 0 1 2 3 4
Figura 13.4: .
Γ ν+ 1 − ν+2 1
2 t2
ϕ(t) = √ 1+
νπΓ 2ν ν
La media e la varianza di T risultano essere
µ=0
2ν
σ =
ν−2

Infatti
Z +∞ Γ ν +1 − ν+2 1
2 t2
µ= √ t 1 + dt = 0
−∞ νπΓ 2ν ν
per la simmetria dell’integranda;
Inoltre

Z + ∞ Γ ν +1 − ν+2 1
2 2 2 t2
σ = √ t 1 + dt =
−∞ νπΓ ν2 ν

Γ ν+ 1 Z +∞ − ν−2 1
2 νt 2 d t2
= √ − 1+ dt =
νπΓ 2ν −∞ 2 ν − 1 dt ν
integrando per parti
 
Γ ν+ 1 − ν−2 1 +∞ Z +∞ 2 − 2
ν −1
2 νt t 2 ν t
= √ − 1+ + 1+ dt =
νπΓ ν2 ν−1 ν − 1 −∞
ν ν
−∞

Γ 2 ν +1 Z +∞
− ν−2 1
ν t2 ν − 2
= √ 1+ dt =
νπΓ ν2 ν − 1 −∞ ν−2 ν
q
posto s = t ν− ν
2

Γ ν+ 1 Z +∞ − ν−2 1 r
2 ν s2 ν
= √
ν ν−1 1+ ds =
νπΓ 2 −∞ ν−2 ν−2

r p
Γ ν+ 2
1
ν ν (ν − 2)πΓ ν−2 2
= √ =
νπΓ ν2 ν − 1 ν − 2 Γ ν− 1
2

Γ 2 ν +1
ν Γ ν− 2 1
2 − 2
ν
2 ν
= = =
Γ 2 ν ν − 1 Γ ν − 1 ν
2 − 1 ν − 2
2
13.1.8 La distribuzione F di Fisher.

È la distribuzione di una variabile aleatoria F che restituisce il rapporto
η/µ
F=
ξ/ν
dove η ed ξ sono variabili aleatorie con distribuzione χ2 a µ e ν gradi

di libertà, rispettivamente.
Per ricavare la PDF di F ricordiamo che la PDF g di η/µ è data da
µ µ µu
g(u) = µ µ
(µu) 2 −1 e− 2
2 Γ
2
2
mentre la PDF f di ξ/ν è data da

ν
(νu) 2 −1 e−
ν νu
f (u) = ν
2
2 Γ
2 ν
2

probabilità 211
η/µ
Possiamo quindi ricavare la PDF ϕ di F = ξ/ν usando quanto
conosciamo sul rapporto di due variabili aleatorie.
Avremo
Z +∞
ν µ µ µ µtx
ν 2 −1 x 2 −1 e − µ 2 −1 (tx ) 2 −1 e−
ν ν νx
ϕ(t) = x ν
2
µ µ
2 dx =
0 2 Γ
2 ν
2 2 Γ 2
2
ν µ Z +∞
ν2 µ2 µ µ µtx
x 2 e − 2 t 2 −1 x 2 −1 e −
ν νx
= ν µ µ
2 dx =
2 2 Γ 2ν 2 2 Γ 2
0
Z +∞ ν+µ
µ x
= t 2 −1 Cν,µ x 2 −1 e− 2 (ν+tµ) dx =
0
posto 2x (ν + tµ) = s si ha dx = ν+2tµ ds
Z +∞ ν + µ −1
µ
− 2s 2 2
1
= t 2 Cν,µ e−s ds =
0 ν + tµ ν + tµ
µ ν+µ Z +∞
t 2 −1 Cν,µ 2 2 ν+µ
= s 2 −1 e−s ds =
ν+µ
(ν + tµ) 2 0
ν+µ
ν µ ν+µ
ν2 µ2 Γ 2 2 2 µ
t 2 −1
= ν µ µ ν+µ =
2 2 2 2 Γ 2ν Γ 2 (ν + tµ) 2 Distribuzione di Fisher a 10 e 5 gradi di libertà
1
ν µ ν+µ
ν2 µ2 Γ 2 µ ν+µ
0.9
0.8
2 −1 ( ν + tµ ) − 2
= µ t 0.7
Γ 2 Γ 2
ν
0.6
0.5
0.4
Pertanto la funzione di distribuzione della variabile aleatoria F è 0.3
0.2
data da 0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
 ν µ Figura 13.5: .
 ν+µ
 ν 2 µ 2 Γ( 2 ) t µ2 −1 (ν + tµ)− ν+2 µ t>0
Γ( 2 )Γ( 2 )
ν µ
ϕ(t) =

0 altrimenti
la media e varianza risultano essere
ν2
µ=
ν2 − 2
2ν 2 ( ν + ν − 2)
2 1 2
σ2 =
ν1 (ν2 − 4)(ν2 − 2)2
Infatti posto

ν µ ν+µ
ν2 µ2 Γ 2
C (µ, ν) = µ
Γ 2ν Γ 2

Z +∞ Z +∞ Z +∞
µ ν+µ µ µ
tk+1 ϕ(t)dt = C (µ, ν) t 2 +k (ν + tµ)− 2 dt = C (µ, ν) t 2 +k ν 1 + t
0 0 0 ν
Z +∞ − ν+µ
ν+µ
− 2
µ µ + 2k + 2 ν − 2k − 2 µ 2
= C (µ, ν)ν t 2 +k 1+t dt =
0 ν − 2k − 2 µ + 2k + 2 ν
ν−2k −2 µ
posto s = µ+2k +2 ν t
Z +∞
µ ν+µ
ν+µ ν µ + 2k + 2 2 +k+1
µ µ + 2k + 2 − 2
= C (µ, ν)ν− 2 s 2 +k 1+s dt =
0 µ ν − 2k − 2 ν − 2k − 2
µ Z ν+µ
ν+µ
− 2 ν µ + 2k + 2 2 +k+1 +∞ µ +k µ + 2k + 2 − 2
= C (µ, ν)ν s 2 1+s dt =
µ ν − 2k − 2 0 ν − 2k − 2
µ
ν+µ
− 2 ν µ + 2k + 2 2 +k+1 C (µ, ν)
=ν =
µ ν − 2k − 2 C (µ + 2k + 2, ν − 2k − 2)
µ ν+µ µ µ
ν 2 µ 2 ν−
ν
2 ν 2 +k+1 (µ + 2k + 2) 2 +k+1
= µ µ µ
µ 2 +k+1 (ν − 2k − 2) 2 +k+1 (ν − 2k − 2) 2 −k−1 (µ + 2k + 2) 2 +k+1
ν

ν+µ
Γ 2 Γ ν2 − k − 1 Γ 2 + k + 1
µ
νk+1 Γ 2ν − k − 1 Γ 2 + k + 1
µ
= k +1 µ
µ ν+µ Γ 2ν Γ 2
Γ ν2 Γ 2 Γ 2 µ
Siamo così in grado di calcolare i momenti rispetto all’origine di

ogni ordine
Per k = 0 otteniamo il momento di ordine 1, Cioè la media,
Z +∞ µ µ
ν Γ ν2 − 1 2 Γ 2 ν
tϕ(t)dt = µ =
0 µ 2 −1 Γ 2 −1 Γ 2
ν ν ν−2
mentre per k = 1 possiamo calcolare la varianza come segue
Z +∞ µ µ µ
2 ν2 Γ 2 − 2 2 2 + 1 Γ 2
ν
t ϕ(t)dt = 2 µ =
2 −1 2 −2 Γ 2 −2 Γ 2
µ ν ν ν
0
ν2 µ ( µ + 2)
=
µ2 (ν − 2)(ν − 4)
2
ν2 µ ( µ + 2) ν 2ν2 (µ + ν − 2)
σ2 = − =
µ2 (ν − 2)(ν − 4) ν−2 µ(ν − 2)(ν − 4)
13.1.9 La Distribuzione T 2
Il quadrato T 2 di una variabile aleatoria di Student a ν gradi di libertà
è una variabile aleatoria di Fisher con (1, ν) gradi di libertà, infatti T è
una variabile aleatoria che restituisce il rapporto
ξ
T= q
η
ν

probabilità 213
dove ξ è una gaussiana normale ed η ha distribuzione χ2 a ν gradi di

libertà, per cui
!
ξ 2
P ( T 2 ≤ α) = P η ≤ α
ν
Osservando che ξ 2 , in quanto quadrato di una gaussiana normale,

ha una distribuzione χ2 a un grado di libertà, possiamo concludere
che T 2 è una distribuzione di Fisher a (1, ν) gradi di libertà.
13.1.10 Test Statistici.
Definiamo
H0 l’affermazione che vogliamo sottoporre a test
e
Ha o H1 una affermazione alternativa.
Va subito detto che Ha non è necessariamente la negazione di H0
ed anzi, in corrispondenza di una stessa ipotesi H0 si possono pro-
grammare diversi test semplicemente scegliendo differenti ipotesi al-
ternative Ha ciascuna delle quali in grado di mettere in luce differenti
aspetti significativi.
Un esempio classico in grado di illustrare la situazione è il mecca-
nismo di giudizio in un sistema giuridico nel quale:
Un individuo è considerato non colpevole fino a che non è provata
la sua colpevolezza oltre ogni ragionevole dubbio.
Implicitamente una tale affermazione ritiene molto più grave giudi-
care colpevole un non colpevole piuttosto che giudicare non colpevole
un colpevole.
Nei termini prima espressi avremo
H0 non colpevole
e
Ha colpevole oltre ogni ragionevole dubbio.
Rigettare H0 , nel caso in cui H0 sia vera, significa giudicare colpe-
vole un non colpevole ed è considerato più grave di di accettare Ha nel
caso in cui Ha sia falsa, cioè nel caso in cui si giudichi non colpevole
oltre ogni ragionevole dubbio un colpevole.
Diciamo che si commette un errore di I specie se si rigetta H0 nel
caso in cui H0 è vera. (Si condanna un innocente).
Diciamo che si commette un errore di I I specie se si rigetta Ha nel
caso in cui Ha è vera. (Si assolve un colpevole, ma non oltre ogni
ragionevole dubbio).
Definiamo inoltre
P( errore di I specie) = α livello di significatività del test.
P( errore di I I specie) = β potenza del test.

13.1.11
Riprendendiamo il semplice ma significativo esempio che abbiamo già
in precedenza considerato:
progettare un test per stabilire se una moneta è truccata;
con lo scopo di sottolineare la corrispondenza tra definizioni teori-
che e scelte pratiche.
Cominciamo con lo stabilire un chiaro quadro di riferimento.
Indichiamo con p la probabilità che esca Testa e con q la probabilità
che esca Croce. e lanciamo la moneta n = 100 volte; chiamiamo T il nu-
mero di teste uscito e stabiliamo di adottare un livello di significatività
α = 0.05.
Se la moneta non è truccata T è una variabile aleatoria che ha una
distribuzione binomiale (bernoulliana) di media µ e scarto quadratico
σ dati da
√
µ = np = 50 , σ = npq = 5
e può essere approssimata con una variabile aleatoria normale stan-

dardizzata z definita dalla
nt − µ
z=
σ
13.1.12
Consideriamo l’ipotesi da testare
H0 la moneta non è truccata cioè p = q = 12 .
a fronte della’ipotesi alternativa
Ha la moneta è truccata cioè p 6= 12 , q 6= 21 .
In questo caso giudicheremo la moneta truccata se T è troppo gran-
de p > 0.5 oppure se T è troppo piccolo p < 0.5 ed avremo un livello
di significatività α = 0.05 se
P(z < −z a oppure z > z a ) = 0.05
Dovrà quindi essere
0.05 = P(z > z a ) + P(z < −z a ) = 2P(z > z a ) = 2(1 − P(z < z a )) = 2(1 − F (z a ))
da cui
F (z a ) = 1 − 0.025 = 0.975 , z a = F −1 (0.975) = 1.96
Rigetteremo cioè H0 se z < −z a = −1.96 oppure se z > z a = 1.96

cioè se
T−µ T−µ
< −1.96 oppure > 1.96
σ σ
T < µ − 1.96σ ≈ 40 oppure T > µ + 1.96σ ≈ 60
Figura 13.6: .

probabilità 215
Riassumendo possiamo affermare che decidendo di accettare l’ipo-

tesi H0 che la moneta non sia truccata a fronte dell’ipotesi alternativa
Ha che p 6= 0.5 nel caso che il numero di teste uscite sia compreso tra
40 e 60, la probabilità di commettere un errore di prima specie e cioè
di rigettare l’ipotesi la moneta non è truccata, quando realmente non
è truccata, è 0.05
13.1.13
H0 - la moneta non è truccata cioè p = q = 12 .
Ha - la moneta è truccata cioè p > 12 .
de ed se stabiliamo un livello di significatività di α = 0.05 possiamo
calcolare
P(z > z a ) = 0.05 = 1 − F (z a )
da cui
z a = F −1 (0.95) = 2.571
Rigetteremo cioè H0 se se z > z a = 2.571 da cui
T−µ
> 2.571
σ
T > µ + 2.571σ ≈ 63

Ha che p > 0.5 nel caso che il numero di teste uscite sia maggiore di Figura 13.7: .
63, la probabilità di commettere un errore di prima specie e cioè di
rigettare l’ipotesi la moneta non è truccata, quando realmente non è
truccata, è 0.05
13.1.14
Con riferimento ai due esempi precedenti osserviamo che se ottenia-
mo un numero di teste T = 62, a parità di livello di significatività, nel
primo caso rigettiamo l’ipotesi che la moneta sia truccata mentre nel
secondo caso la accettiamo; ciò in conseguenza alla diversa formula-
zione dell’ipotesi Ha che deve essere scelta in modo da esprimere le
esigenze del problema.
Se ad esempio il test è condotto allo scopo si stabilire se è equo
giocare a Testa o Croce con quella moneta e si ha intenzione di puntare
su Testa è chiaro che il secondo test meglio si adatta alla situazione.

13.2 Il Test χ2
13.2.1 Il Test χ2 CASO 2 eventi

Si consideri un esperimento in cui sono possibili 2 uscite
A1 , A2
di cui si ipotizzano le probabilità
p1 , p2
Si supponga di eseguire n volte l’esperimento e di ottenere delle

frequenze di accadimento
x1 , x2
relative alla variabile aleatoria ξ = (ξ 1 , ξ 2 he ha una distribuzione

binomiale
Uno stimatore delle differenza tra frequenze osservate e frequenze
ipotizzate si può definire come
( x1 − np1 )2 ( x2 − np2 )2
χ2 = + (13.1)
np1 np2
Chiaramente x1 ed x2 non sono indipendenti e si ha
( x1 − np1 )2 ( x2 − np2 )2 ( x − np1 )2 ( x2 − np2 )2

χ2 = + = 1 p2 + p1 =
np2 np2 np1 np2
( x − np1 )2 p2 + ((n − x1 ) − n(1 − p1 ))2 p1
= 1 =
np1 p2
( x − np1 )2 p2 + (− x1 + p1 ))2 p1 ( x − np1 )2 ( p2 + p1 )
= 1 = 1 =
np1 p2 np1 p2

x − np1 2
= √1
np1 p2
Dal momento che

x1 −np1
√
np1 p2 tende ad una distribuzione normnale standard per il teorema

x −np 2
del limite centrale, si ha che √1np p12 si può approssimare mediante
1
una ditribuzione con densità χ2 ad un grado di libertà.
13.2.2 Il Test χ2 in generale

Si consideri un esperimento in cui sono possibili k uscite
Aj j = 1..k

probabilità 217
pj j = 1..k

frequenze di accadimento
xj j = 1..k
relative alla variabile aleatoria ξ = (ξ 1 , ξ 2 , . . . , ξ k ) che ha una distri-

buzione multinomiale
k ( x j − np j )2
χ2 = ∑ np j
(13.2)
j =1
tenendo conto che n j = np j è il valor medio di ξ j

Consideriamo ora la variabile aleatoria η che ha k componenti indi-
pendenti con distribuzione di Poisson di media λ j = np j condizionate
da
η1 + η2 + · · · + η k = n
Abbiamo visto in precedenza che η ha la stessa distribuzione di ξ e

quindi possiamo utilizzare il luogo della 13.2 la
 2
k ( y j − λ j )2 k yj − λj
χ2 = ∑ = ∑ q  (13.3)
j =1
λj j =1 λj
Se ora facciamo n → +∞, per il teorema del limite centrale, possia-

mo affermare che
yj − λj
q → ζj
λj
dove ζ j ha distribuzione normale standard, pertanto avremo che
k
χ2 = ∑ ζ 2j = ζ 12 + ζ 22 + · · · + ζ k2
j =1
è la somma di k variabili aleatorie normali standard condizionate da
0 = η1 + η2 + · · · + η k − n =

√ √ η1 − np1 √ η2 − np2 √ η − npk
n p1 √ + p2 √ + · · · + pk k√ =
np1 np2 npk

√ √ η1 − λ 1 √ η2 − λ 2 √ ηk − λ k
n p1 √ + p2 √ + · · · + pk √
λ1 λ2 λk

da cui

√ η −λ √ η2 − λ 2 √ η −λ
0= p1 1√ 1 + p2 √ + · · · + pk k√ k
λ1 λ2 λk
ed, al limite,
√ √ √
0= p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k
Sia ϕ la PDF della variabile aleatoria ottenuta; avremo che
√ √ √
ϕ( x ) = P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x | p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k = 0) =
√ √ √
lim P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x || p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) =
e →0
Dal momento che ζ j è una variabile normale standard, la sua PDF è
1 u2
g j (u) = √ e− 2
2π
per cui
√ √ √
P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x || p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) =
1
R − u21 +u22 +···+u2k
√ k Ve 2 du1 du2 . . . , duk
2π
√ √ √
P (| p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e)
essendo V la parte della sfera n-dimensionale compresa tra i piani

√ √ √
p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k = ±e
√
Poichè l’integranda dipende solo dalla distanza dall’origine e | p1 ζ 1 +
√ √
p2 ζ 2 + · · · + pk ζ k | < e rappresenta la parte di spazio delimitata da
due piani paralleli ed equidistanti da un piano per l’origine, il calcolo
non dipende da come è inclinato il piano e possiamo quindi sostituire
la condizione data con la
√
| pk ζ k | < e
Ne segue che
Z u2 + u2 +···+u2
1 1 2 k
√ k
e− 2 du1 du2 . . . , duk ≈
2π V
Z u2 + u2 +···+u2
1 1 2 k −1 1
≈ √ k
2e e− 2 du1 du2 . . . , duk−1 = √ 2eχ2k−1 ( x )
2π Vk−1 2π
essendo Vk−1 la sfera (n − 1)-dimensionale di raggio x e, conseguen-

temente, χ2k−1 la CDF di una variabile aleatoria di tipo χ2 a k − 1 gradi
di libertà

probabilità 219
√ √ √
D’altro canto p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k è una variabile aleatoria
normale standard in quanto combinazione lineare di variabili aleatorie
normali standard per cui la sua PDF è
1 u2
g(u) = √ e− 2
2π
e quindi
Z +e
√ √ √ 1 u2 1
P (| p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) = √ e− 2 = approx √ 2e
2π −e 2π
Ne segue che
√ √ √
P (ζ 12 + ζ 22 + · · · + ζ k2 ≤ x || p1 ζ 1 + p2 ζ 2 + · · · + pk ζ k | < e) =
√1 2eχ2 ( x )
2π k −1
= χ2k−1 ( x )
√1 2e
2π
(supponendo che le frequenze teoriche possano essere stimate senza

dover stimare statisticamente i parametri della popolazione).
Poichè i dati sono discreti e la variabile χ2 è continua può essere
opportuno apportare una correzione allo stimatore usando
k(| x j − np j | − .5)2
χ̄2 = ∑ np j
j =1
χ̄2 si chiama correzione di Yates.

Gli stimatori introdotti possono essere usati in test che tendano a
stabilire se le frequenze teoriche p j siano in accordo con i risultati
ottenuti x j .
13.2.3 Test sulle Medie
13.2.4
Siano ξ 1 , ξ 2 , .., ξ n variabili aleatorie costituenti un campione di gran-
dezza n. ( Con ciò si intende che ξ k è una variabile aleatoria che si
ottiene estraendo un elemento dalla popolazione).
Definiamo una nuova variabile aleatoria ξ̄, che chiamiamo media
campionaria, mediante la
ξ 1 + ξ 2 + .. + ξ n
ξ̄ =
n
La distribuzione di probabilità di ξ̄ è detta distribuzione campiona-

ria della media.

Si può verificare che, se la popolazione ha media µ e varianza σ2

allora la media e la varianza di ξ̄ sono date da

σ2 σ2
µξ̄ = µ , σξ̄2 = , σξ̄ = √
n n
Si può inoltre dimostrare che la variabile aleatoria
ξ̄ − µ
√
σ/ n
ha, per n grande, una distribuzione normale standard.
ξ̄ −µ
√ si usa come stimatore della media.
σ/ n
13.2.5 Test sulle Varianze
13.2.6
Definiamo una nuova variabile aleatoria s2 , che chiamiamo varianza
(ξ 1 − ξ̄ )2 + (ξ 2 − ξ̄ )2 + .. + (ξ n − ξ̄ )2
s2 =
n
La distribuzione di probabilità di s2 è detta distribuzione campio-
naria della varianza.
allora la media di s2 è data da
n−1 2
µ s2 = σ
n
Inoltre se la popolazione è distribuita normalmente, la variabile
aleatoria definita da
ns2
σ2
ha una distribuzione di tipo χ2 con n − 1 gradi di libertà.
ns2
σ2
si usa come stimatore della varianza.
13.3 Stima di parametri
13.3.1 Popolazioni
Diciamo che è assegnata una popolazione se è assegnato un insieme U
ed una variabile aleatoria ξ definita su U .
Se ad esempio siamo interessati a stimare il diametro di sfere di
acciaio per cuscinetti, possiamo considerare la popolazione i cui ele-
menti sono le sfere prodotte e la variabile aleatoria ξ che associa ad

probabilità 221
ogni sfera sk il suo diametro ξ (k) = dk . La variabile ξ che restituisce il

diametro di ciascuna sfera descrive la popolazione che stiamo esami-
nando. ξ potrebbe ad esempio avere una funzione di distribuzione, ad
esempio gaussiana di media µ e varianza σ2 .
13.3.2 Campioni
Data una popolazione definita dalla variabile aleatoria ξ sullo spazio
U diciamo che è assegnato un campione di taglia n se sono assegnate n
variabili aleatorie x1 , x2 , ...., xn sullo spazio U Indichiamo con x la n-pla
delle variabili aleatorie x1 , x2 , ...., xn che costituiscono il campione.
Ad esempio possiamo considerare xk come la variabile aleatoria che
restituisce il diametro di una k-esima sferetta scelta in U .
13.3.3 Stimatore
Diciamo che è assegnato uno stimatore, o riassunto campionario, se è
assegnata una funzione φ = φ( x1 , x2 , ...., xn ) .
Possiamo ad esempio considerare uno stimatore del diametro del-
le sferette considerando la media dei diametri delle n sferette che
abbiamo estratto per costruire il campione.
In tal caso
1
φ( x1 , x2 , ...., xn ) = ( x + x2 + .... + xn )
n 1
Uno stimatore è a sua volta una variabile aleatoria.
13.4 Risultati sulle distribuzioni campionarie
Si consideri una popolazione individuata da una variabile aleatoria

ξ su un insieme U di media µ e varianza σ ed un campione x =
( x1 , x2 , ...., xn ) di taglia n.
Sia
µ = E(ξ )
la media della popolazione e
1
x̄n = ( x + x2 + .... + xn )
n 1
la media campionaria
13.4.1 La media campionaria

Sia µ x̄n la media della variabile aleatoria x̄n , cioè il valor medio della
media campionaria; si ha

•
µ x̄n = E( x̄n ) = µ
infatti
1 nµ
E( x̄n ) = ( E( x1 ) + E( x2 ) + · · · E( xn )) = =µ
n n
•
σ2
σx̄2n = E(( x̄n − µ x̄n )2 ) = E(( x̄n − µ)2 ) =
n
infatti, tenendo conto che le variabili xi sono indipendenti,
E(( x̄n − µ x̄n )2 ) = E(( x̄n − µ)2 ) =

E(( x1 − µ)2 ) + E(( x2 − µ)2 ) + · · · E(( xn − µ)2 ) nσ2 σ2
= = =
n2 n2 n
13.4.2 Distribuzione della media campionaria

x̄n è distribuito normalmente con media µ e varianza σ2 /n. Infatti,
poichè ξ è distribuita normalmente con media µ e varianza σ2 allora
anche ciascuna delle xi segue la stessa distribuzione e, dal momento
che la somma di distribuzioni gaussiane è ancora gaussiana, anche x̄n
ha una PDF Gaussiana la cui media e varianza sono, in accordo con il
2
punto precedente, µ e σn , rispettivamente.
Inoltre, per il teorema del limite centrale, si ottiene che
x̄n − µ
√σ
n
è asintoticamente (n ≥ 30) distribuito normalmente con media 1 e

varianza 0.
13.4.3 La varianza campionaria

Chiamiamo varianza campionaria la variabile aleatoria definita da
( x1 − x̄n )2 + ( x2 − x̄n )2 + ..... + ( xn − x̄n )2

Sn2 =
n
Si ha che
n−1 2
E(Sn2 ) =
σ
n
infatti possiamo facilmente calcolare che
( xi − x̄n )2 = ( xi − µ + µ − x̄n )2 =
= ( xi − µ)2 − 2( xi − µ)( x̄n − µ) + ( x̄n − µ)2

probabilità 223
perciò
n n n
∑ (xi − x̄n )2 = ∑ (xi − µ)2 − 2(x̄n − µ) ∑ (xi − µ) + n(x̄n − µ)2 =
i =1 i =1 i =1
n n
= ∑ (xi − µ)2 − 2n(x̄n − µ)2 + n(x̄n − µ)2 = ∑ (xi − µ)2 − n(x̄n − µ)2
i =1 i =1
(13.4)
e ne segue
E(Sn2 ) =
! ! !
n n
1 1
= E
n ∑ (xi − x̄n ) 2
=
n
E ∑ ( xi − µ ) 2
− nE( x̄n − µ) ) 2
=
i =1 i =1

1 2 σ2 n−1 2
= nσ − n = σ
n n n
Definiamo inoltre
( x1 − x̄n )2 + ( x2 − x̄n )2 + ..... + ( xn − x̄n )2

Ŝn2 =
n−1
2
Ŝn è una definizione alternativa di varianza campionaria per la
quale si ha
n
nSn2 = (n − 1)Ŝn2 = ∑ (xi − x̄n )2
i =1
13.4.4 Indipendenza di media e varianza campionaria

Possiamo dimostrare che, nel caso in cui le variabili aleatorie xi siano
Gaussiane di media µ e varianza σ2 , la media campionaria x̄n e la
varianza campionaria Ŝn2 sono tra loro indipendenti.
Infatti, supponiamo, senza perdere di generalità , che µ = 0 e σ = 1,
avremo che
!
n
1
Ŝn2 = ( x1 − x̄n )2 + ∑ ( xi − x̄n )2 =
n−1 i =2
essendo ∑in=1 ( xi − x̄n ) = 0
 !2 
n n
1 
n−1 ∑ (xi − x̄n ) + ∑ ( xi − x̄n )2  =
i =2 i =2
Ora sia ϕ(t) = ϕ(t1 , t2 , . . . , tn ) la PDF congiunta delle variabili alea-

torie indipendenti gaussiane ( x1 , x2 , . . . , xn )
1 1 n 2
ϕ(t) = n e − 2 ∑ i =1 t i
(2π ) 2

1
e, posto t̄ = n ∑ ti , consideriamo la trasformazione di coordinate defi-
nita da:


 s1 = t̄



s = t − t̄
2 2

 ···



s = t − t̄
n n
1
La trasformazione è lineare ed il suo Jacobiano è n inoltre si ha
ti = si + s1 per i = 2, . . . , n e
n n n n
t1 = ∑ ti − ∑ ti = nt̄ − ∑ ti = t̄ − ∑ ti + (n − 1)t̄ =
i =1 i =2 i =2 i =2
n n n
= t̄ − ∑ (ti − t̄) = t̄ − ∑ si = s1 − ∑ si
i =2 i =2 i =2
per cui possiamo esprimere ϕ in funzione di s mediante la
n 1 n 2+
∑in=2 (si +s1 )2 )
ϕ(s) = n e − 2 ( ( s 1 − ∑ i =2 s i )
(2π ) 2
e dal momento che
!2
n n
s1 − ∑ s i + ∑ ( s i + s1 )2 =
i =2 i =2
!2
n n n n n
= s21 + ∑ si − 2s1 ∑ si + ∑ s2i + ∑ s21 + 2s1 ∑ si =
i =2 i =2 i =2 i =2 i =2
!2
n n
= ns21 + ∑ si + ∑ s2i
i =2 i =2
si ha
2

n 1 2 − 12 (∑in=2 si ) +∑in=2 s2i
ϕ(s) = n e− 2 ns1 e
(2π ) 2
Quindi, se (y1 , y2 , . . . , yn ) è la variabile aleatoria ottenuta da ( x1 , x2 , . . . , xn )

mediante la trasformazione lineare indicata, si ha che y1 è indipenden-
te da y2 , . . . , yn e x̄ è indipendente da Ŝ2
È un risultato notevole che la variabile aleatoria definita da Ŝn2 ha
una distribuzione di tipo χ2n−1 , cioè ha una distribuzione di tipo χ2 ad
(n − 1) gradi di libertà. Infatti, dal momento che
xn+1 + n x̄n 1
x̄n+1 = = x̄n + (x − x̄n )
n+1 n + 1 n +1

probabilità 225
si ha
n +1 n +1 2
1
nŜn2 +1= ∑ ( xi − x̄n+1 ) = ∑ ( xi − x̄n ) −
2
(x − x̄n ) =
i =1 i =1
n + 1 n +1
n +1
( xn+1 − x̄n )( xi − x̄n ) ( xn+1 − x̄n )2
= ∑ ( xi − x̄n ) − 2
2
+ =
i =1
n+1 ( n + 1)2
n
1 n+1
= ∑ (xi − x̄n )2 + (xn+1 − x̄n )2 − 2 n + 1 (xn+1 − x̄n )2 + (n + 1)2 (xn+1 − x̄n )2 =
i =1
n
= (n − 1)Ŝn2 + (x − x̄n )2
n + 1 n +1
Ora
1
Ŝ22 = ( x − x2 )2
2 1
ha una distribuzione χ21 in quanto quadrato di una gaussiana;
inoltre la formula precedente consente di verificare che Ŝn2 +1 ha
una distribuzione χ2n se Ŝn2 ha una distribuzione χ2n−1 ricordando che
n 2
n+1 ( xn+1 − x̄n ) è gaussiana.
Pertanto per il principio di induzione Ŝn2 ha una distribuzione di
tipo χ2n−1 per ogni n ∈ N
Possiamo quindi affermare che la variabile aleatoria
n 2
xi − x̄
ξ2 = ∑ σ
i =1
ha una distribuzione di tipo χ2 ad n − 1 gradi di libertà.
13.4.5 T-Test
Abbiamo quindi verificato che
x̄ − µ
√σ
n
è una variabile aleatoria gaussiana standard (media 0 e varianza 1).
n 2
xi − x̄ n 2 n−1 2
∑ σ
=
σ2
S =
σ2
Ŝ
i =1
è una variabile aleatoria con distribuzione di tipo χ2 ad n − 1 gradi di

libertà.
Quindi
v
u s s
u n x − x̄ 2
t ∑ i =1 i σ nS2 Ŝ2
= =
n−1 σ ( n − 1) σ
è la radice di una variabile aleatoria di tipo χ2 ad n − 1 gradi di libertà
divisa per i suoi gradi di libertà

e pertanto
x̄ −µ
√σ
n √ x̄ − µ √ x̄ − µ
q = n = n−1
Ŝ2 Ŝ S
σ2
ha una distribuzione di Student ad n − 1 gradi di libertà.
13.4.6 F-Test
13.4.7
Se ξ 1 , ξ 2 sono due popolazioni normalmente distribuite con varianza
σ12 , σ22 e se X1 , X2 sono due campioni di taglia n1 ed n2 rispettivamente
estratti dalle due popolazioni, le variabili aleatorie
ni 2 n −1
S = i 2 Ŝi2
σi2 i σi
hanno distribuzioni di tipo χ2 ad ni − 1 gradi di libertà. Poichè

n1 1 2
(n1 −1)σ12 1
S2 Ŝ
σ12 1
n2 =
S2
( n2 −1) σ 2 2
1 2
Ŝ
2 σ22 2
possiamo affermare che

1 2 1 2
σ Ŝ
σ22 1 Ŝ12 2
ha una distribuzione di probabilità di Fisher con n1 − 1, n2 − 1 gradi
di libertà.

14. REGRESSIONE LINEARE: LA
RETTA DEI MINIMI QUADRATI
Siano assegnate n coppie di dati (punti di R2 )
( x1 , y1 ) , ( x2 , y2 ) , . . . , ( x n , y n )
e si consideri il problema di determinare l’equazione di una retta
y = ax + b
in corrispondenza della quale risulti minima la quantità

n
e( a, b) = ∑ (yi − axi − b)2
i =1
e( a, b) è una funzione convessa della variabili ( a, b) che tende a +∞

per ( a, b) → ∞ e pertanto ammette uno ed un solo punto di minimo
assoluto che si può trovare annullando ∇e.
Per risolvere il problema dovremo pertanto risolvere il sistema de-
finito dalle equazioni

 ∂e = ∑n −2(y − ax − b) x = 0
∂a i =1 i i i
 ∂e = ∑n −2(yi − axi − b) = 0
∂b i =1
Ne viene che

∑n n 2 n
i =1 x i y i − a ∑ i =1 x i − b ∑ i =1 x i = 0
 ∑ n yi − a ∑ n xi − b ∑ n 1 = 0
i =1 i =1 i =1
ovvero

∑n n 2 n
i =1 x i y i = a ∑ i =1 x i + b ∑ i =1 xi
(14.1)
∑n yi = a ∑n xi + nb
i =1 i =1
Dalla seconda delle 14.1 si può vedere che

n n
nb = ∑ yi − a ∑ xi
i =1 i =1
ed anche
∑in=1 yi ∑n x
b= − a i=1 i = ȳ − a x̄
n n
dove
∑in=1 xi ∑ n yi
, x̄ = ȳ = i=1
n n
indicano la media dei valori xi ed yi , rispettivamente.
Dalla prima delle 14.1 si può invece ottenere che
n n n
∑ xi yi = a ∑ xi2 + b ∑ xi =
i =1 i =1 i =1

n n
∑in=1 yi ∑n x
=a∑ xi2 + ∑ xi − a i =1 i
i =1 i =1
n n
e
!
2
n
∑ n xi ∑ n yi ( ∑ n
x ) n
∑ x i y i − i =1 n i =1 = a ∑ xi2 − i=n1
i
i =1 i =1
 !2 
n n n n n
n ∑ xi yi − ∑ xi ∑ yi = a n ∑ xi2 − ∑ xi 
i =1 i =1 i =1 i =1 i =1
ed infine
n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi

a=
n ∑in=1 xi2 − (∑in=1 xi )2
Inoltre
!
n n
nb = ∑ yi − ∑ xi n ∑in=1 xi2 − (∑in=1 xi )2
=
i =1 i =1
 !2
n n n n
1 n ∑ x2
=
n (∑in=1 xi )2 − (∑in=1 xi )2
i ∑ yi − ∑ xi ∑ yi
i =1 i =1 i =1 i =1
!2 
n n n n
− n ∑ xi ∑ xi yi + ∑ xi ∑ yi 
i =1 i =1 i =1 i =1
e se ne conclude che
n ∑in=1 xi2 ∑in=1 yi − n ∑in=1 xi ∑in=1 xi yi

b=
n ∑in=1 xi2 − (∑in=1 xi )2

probabilità 229
Ora, tenendo conto che
n n n n n
∑ (xi − x̄)(yi − ȳ) = ∑ xi yi − ∑ x̄yi − ∑ xi ȳ + ∑ x̄ȳ =
i =1 i =1 i =1 i =1 i =1
n
= ∑ xi yi − nx̄ȳ − n x̄ȳ + n x̄ȳ =
i =1
n n
∑in=1 xi ∑in=1 yi
= ∑ xi yi − n x̄ȳ = ∑ xi yi − n
i =1 i =1
e che
n n n n
∑ (xi − x̄)2 = ∑ xi2 − 2 ∑ x̄xi + ∑ x̄2 =
i =1 i =1 i =1 i =1
n n
= ∑ xi2 − 2n x̄2 + n x̄2 = ∑ xi2 − nx̄2
i =1 i =1
si ricava che
∑in=1 ( xi − x̄ )(yi − ȳ)

=
∑in=1 ( xi − x̄ )2
1 n ∑in=1 xi yi − ∑in=1 xi ∑in=1 yi
= =
n ∑in=1 xi2 − n x̄2
= n =a
∑ i =1 x i 2
n ∑in=1 xi2 − n2 n
Pertanto possiamo esprimere a e b mediante le seguenti formule
 n






∑ (xi − x̄)(yi − ȳ)
 a= i =1
n
(14.2)



∑ (xi − x̄) 2

 i =1

ȳ = a x̄ + b
La prima delle due uguaglianze premette di concludere che a è inva-

riante rispetto alla traslazione degli assi: cioè usando x − x0 ed y − y0
in luogo di x ed y il valore di a non cambia.
La stessa trasformazione cambia invece il valore di b, come si vede
dalla seconda uguaglianza. Dalla medesima si vede anche che la retta
di regressione passa per il punto di coordinate ( x̄, ȳ) che è il baricentro
dei dati.
Possiamo anche osservare che, a meno di operare una traslazio-
ne dei dati riportando l’origine degli assi nel baricentro ( x̄, ȳ),si può

supporre che
 n






∑ xi yi
 a= i =1
n
(14.3)



∑ xi 2

 i =1

b = 0
Ora, siano
• s2x la varianza dei dati xi
∑in=1 ( xi − x̄ )2
s2x =
n
• s2y la varianza dei dati yi
∑in=1 (yi − ȳ)2

s2y =
n
• s xy la covarianza dei dati ( xi , yi )
∑in=1 ( xi − x̄ )(yi − ȳ)

s xy =
n
Possiamo scrivere la retta di regressione nella forma

s xy
y − ȳ = ( x − x̄ )
s2x
e se invertiamo il ruolo di x e di y l’equazione diventa
s xy
x − x̄ = (y − ȳ)
s2y
Possiamo misurare la correlazione tra i dati utilizzando il coefficien-

te definito da
s xy
r= (14.4)
s x sy
mediante il quale le equazioni delle due rette prima introdotte diven-

tano
y − ȳ x − x̄
=r
sy sx
e
y − ȳ x − x̄
r =
sy sx
Chiaramente le due rette coincidono soltanto nel caso in cui
r2 = 1 cioè r = ±1

probabilità 231
e il fatto che questo accada è indice della correlazione dei dati cioè del
fatto che i dati si trovano su una retta.
È ragionevole quindi stimare la maggiore o minore correlazione tra
i dati confrontando r2 con 1: più r2 è vicino ad 1 e più i dati sono da
considerarsi linearmente correlati.
Possiamo inoltre misurare la dispersione dei dati attorno alla retta
di regressione mediante la
s
∑in=1 (yi − yis )2
Sy,x =
n
dove
yis = axi + b
Pertanto
2 ∑in=1 (yi − axi − b)2
Sy,x =
n
e
∑in=1 (yi − axi − b)2 n
= ∑ (y2i + a2 xi2 + b2 − 2axi yi − 2byi + 2abxi ) =
n i =1
n n n n n
= ∑ y2i + a2 ∑ xi2 + nb2 − 2a ∑ xi yi − 2b ∑ yi + 2ab ∑ xi ) =
i =1 i =1 i =1 i =1 i =1
e per le 14.1
" !#
n n n
1
= ∑ y2i +a2 a ∑ xi yi − b ∑ xi + nb2 −
i =1 i =1 i =1
" !#
n n n
1
− 2a ∑ xi yi − 2b ∑ yi + 2ab ∑ yi − nb =
i =1 i =1
a i =1
n n n
= ∑ y2i + a ∑ xi yi − ab ∑ xi + nb2 −
i =1 i =1 i =1
n n n
− 2a ∑ xi yi − 2b ∑ yi + 2b ∑ yi − 2nb2 =
i =1 i =1 i =1
n n n
= ∑ y2i − a ∑ xi yi − ab ∑ xi − nb2 =
i =1 i =1 i =1
!
n n n
= ∑ y2i − a ∑ xi yi − b a ∑ xi + nb =
i =1 i =1 i =1
e ancora per le 14.1

n n n
= ∑ y2i − a ∑ xi yi − b ∑ yi
i =1 i =1 i =1
Quindi
2 ∑in=1 y2i − a ∑in=1 xi yi − b ∑in=1 yi
Sy,x =
n

Si può d’altro canto verificare che
n n n n n
∑ y2i − a ∑ xi yi − b ∑ yi = ∑ (yi − ȳ)2 − a ∑ (xi − x̄)(yi − ȳ)
i =1 i =1 i =1 i =1 i =1
infatti
n n
∑ (yi − ȳ)2 − a ∑ (xi − x̄)(yi − ȳ) =
i =1 i =1
n n n n
= ∑ y2i − 2ȳ ∑ yi + nȳ2 − a ∑ xi yi + a ∑ xi ȳ+
i =1 i =1 i =1 i =1
n n
+ a ∑ x̄yi − a ∑ x̄ ȳ =
i =1 i =1
n n
= ∑ y2i − 2nȳ2 + nȳ2 − a ∑ xi yi + anx̄ȳ + anx̄ȳ − anx̄ȳ =
i =1 i =1
n n
= ∑ y2i − nȳ2 − a ∑ xi yi + anx̄ȳ =
i =1 i =1
n n
= ∑ y2i − a ∑ xi yi + nȳ(ȳ − a x̄) =
i =1 i =1
n n
= ∑ y2i − a ∑ xi yi + nȳb =
i =1 i =1
n n n
= ∑ y2i − a ∑ xi yi + b ∑ yi
i =1 i =1 i =1
Le precedenti considerazioni permettono quindi di affermare che
∑in=1 y2i − a ∑in=1 xi yi − b ∑in=1 yi

2
Sy,x = =
n
∑n (y − ȳ)2 − a ∑in=1 ( xi − x̄ )(yi − ȳ)
= i =1 i = s2y − as xy
n
s xy
e dal momento che a = s2x
! !
s xy s2xy
= s2y 1−a 2 = s2y 1− =
sy s2x s2y

s2y 1 − r2
Ne viene quindi che

2
Sy,x
= (1 − r 2 )
s2y
∑in=1 (yi − yis )2

r2 = 1 −
∑in=1 (yi − ȳ)2

probabilità 233
D’altro canto
n n
∑ (yi − ȳ)2 = ∑ (yi − yis + yis − ȳ)2 =
i =1 i =1
n n n
= ∑ (yi − yis )2 + ∑ (yis − ȳ)2 + 2 ∑ (yi − yis )(yis − ȳ)
i =1 i =1 i =1
Poichè valgono le equazioni normali 14.1 che definiscono a e b
n n
∑ (yi − yis )(yis − ȳ) = ∑ (yi − axi − b)(axi + b − ȳ) =
i =1 i =1
n n
= (b − ȳ) ∑ (yi − axi − b) + a ∑ xi (yi − axi − b)
i =1 i =1
! " #
n n n n n
= (b − ȳ) ∑ yi − a ∑ xi − nb +a ∑ xi yi − a ∑ xi2 − b ∑ xi =0
i =1 i =1 i =1 i =1 i =1
avremo
∑in=1 (yi − yis )2 ∑in=1 (yi − ȳ)2 − ∑in=1 (yi − yis )2

r2 = 1 − = =
∑in=1 (yi − ȳ)2 ∑in=1 (yi − ȳ)2
∑in=1 (yis − ȳ)2 Variazione spiegata
= n =
∑ i =1 i
( y − ȳ ) 2 Variazione totale
Possiamo anche calcolare, dalla 14.4, che

r = r =
n 2 n 2 n 2 n 2
n ∑ i =1 x i − ( ∑ i =1 x i ) n ∑ i =1 y i − ( ∑ i =1 y i )
xy − x̄ ȳ
= r =
x2 − x̄2 )(y2 − ȳ2
∑in=1 xi yi
= q
(∑in=1 xi 2 )(∑in=1 yi 2 )

15. ANALISI DEI COMPONENTI
PRINCIPALI.
15.1 Forme quadratiche ed autovalori.
Sia A una matrice n × n e consideriamo la funzione
f (u) = h Au, ui , u ∈ Rn
f si chiama forma quadratica su Rn e si può vedere che è sempre

possibile supporre che la matrice A che la individua sia simmetrica.
Infatti, ad esempio per n = 2, se
!
a d1
A1 =
d2 c
!
x
ed u = avremo che
y
f (u) = h A1 u, ui = ax2 + d1 xy + d2 yx + cy2 = ax2 + (d1 + d2 ) xy + cy2 =

= ax2 + 2bxy + cy2 = h Au, ui
per b = (d1 + d2 )/2, da cui

!
a b
A=
b c
D’altro canto, se A è una matrice simmetrica possiamo verificare

che
h Au, vi = hu, Avi
ed inoltre
f (u + h) = h A(u + h), (u + h)i = h Au, ui + 2h Au, hi − h Ah, hi
per cui
f (u + h) − f (u) = 2h Au, hi + h Ah, hi = 2h Au, ui + khkω (h)

con ω funzione infinitesima per h → 0 (si ricordi che |h Ah, hi| ≤

k Ahkkhk ed Ah → 0 se h → 0).
Dalla definizione di differenziale si ottiene allora che f è differen-
ziabile e che
∇ f (u) = 2Au
Come caso particolare, se A = I (la matrice identica) si ha
g(u) = hu, ui = kuk2 , ∇ g(u) = 2u
Consideriamo ora il problema di trovare
max f (u) = max h Au, ui

g(u)−1=0 k u k2 =1
Per il teorema di Weierstraß, dal momento che f è continua e che

kuk2 = 1 definisce la superficie della sfera di centro l’origine e raggio
1, che è chiusa e limitata, possiamo affermare che il massimo esiste.
Sia u1 il punto in cui tale massimo è assunto
h Au1 , u1 i = max h Au, ui

kuk2 =−1
k u1 k2 = 1
D’altro canto, il teorema dei moltiplicatori di Lagrange consente di

affermare che esiste λ1 tale che
∇ f ( u1 ) = λ1 ∇ g ( u1 )
per cui deve essere

Au1 = λ1 u1
Dal momento che la precedente equazione è soddisfatta
• λ1 è un autovalore di A
• u1 è un autovettore di A corrispondente all’autovalore λ1
Possiamo inoltre osservare che
max h Au, ui = h Au1 , u1 i = hλ1 u1 , u1 i = λ1 ku1 k2 = λ1

k u k2 =1
per cui λ1 è il valore massimo assunto da h Au, ui sulla sfera kuk2 =

1
Consideriamo ora lo spazio vettoriale V1 generato da u1
V1 = {λu1 : λ ∈ R}
e lo spazio V1⊥ ortogonale a V1
V1⊥ = {v ∈ Rn : hv, u1 i = 0 } = {v ∈ Rn : h(v) = 0 }

probabilità 237
con h(v) = hv, u1 i.

Consideriamo ora il problema di trovare

g(u)−1=0 k u k2 =1
h(u)=0 hu,u1 i=0
possiamo anche qui applicare il metodo dei moltiplicatori di Lagrange

ed affermare che che esistono u2 ∈ V1⊥ e λ2 , µ2 tali che
∇ f ( u2 ) = λ2 ∇ g ( u2 ) + µ2 ∇ h ( u2 )
ma ∇h(u) = u1 in quanto h è lineare, e otteniamo
2Au2 = 2λ2 u2 + µ2 u1
da cui
2( A − λ2 ) u2 = µ2 u1
Moltiplicando per u1t otteniamo
0 = 2( A − λ2 )u2 u1t = µ2 ku1 k = µ1
da cui µ1 = 0 e
( A − λ2 ) u2 = 0
Ne deduciamo che λ2 è autovalore di A e u2 è l’autovettore corrispon-

dente e che λ1 ≥ λ2 in quanto {v : g(u) − 1 = 0, h(u) = 0} ⊂ {v :
g ( u ) − 1 = 0}.
Possiamo iterare i procedimento
Consideriamo ora lo spazio V2 generato da u1 , u2
V2 = {λu1 + µ2 : λ, µ ∈ R}
e lo spazio V1⊥ ortogonale a V1
V2⊥ = {v ∈ Rn : l (v) = 0 }
!
u1
con h(v) = Lv, L = .
u2
Consideriamo il problema di trovare

g(u)−1=0 k u k2 =1
A(u)=0 Au=0
possiamo ancora applicare il metodo dei moltiplicatori di Lagrange ed

affermare che che esistono u3 ∈ V2⊥ e λ3 , (µ3 , η3 ) tali che
∇ f (u3 ) = λ3 ∇ g(u3 ) + (µ3 , η3 )∇l (u3 )

!
u1
ma ∇l (u) = in quanto l è lineare, e otteniamo
u2
!
u1
2Au3 = 2λ3 u3 + (µ3 , η3 )
u2
da cui
2 ( A − λ 3 ) u 3 = µ 3 u 1 + η3 u 2
Moltiplicando per (µ3 u1 + η3 u2 )t otteniamo
0 = 2 ( A − λ 3 ) u 3 ( µ 3 u 1 + η3 u 2 ) t = k µ 3 u 1 + η3 u 2 k 2
da cui µ3 u1 + η3 u2 = 0 e
( A − λ3 ) u3 = 0
Ne deduciamo che λ3 è autovalore di A e u3 è l’autovettore corrispon-

dente e che λ1 ≥ λ2 ≥ λ3 in quanto
{v : g(u) − 1 = 0, l (u) = 0} ⊂ {v : g(u) − 1 = 0, h(u) = 0} ⊂ {v : g(u) − 1 = 0}
Chiaramente si può ripetere quanto fatto fino a trovare:
• n autovalori λ1 , λ2 , ...., λn decrescenti in valore
• n autovettori u1 , u2 , ...., un , uno per ogni autovalore, che risultano

ortogonali tra loro e di norma unitaria.
Gli autovettori u1 , u2 , ...., un formano quindi una base ortonormale

con la caratteristica che lungo il primo asse si trova il punto di massi-
mo della forma quadratica h Au, ui sulla sfera unitaria in R2 , lungo il
secondo asse si trova il massimo della forma quadratica h Au, ui sulla
sfera unitaria in V1⊥ e così via fino all’n−esimo asse.
Infatti, sia
 
u11 u12 . . . u1n
 2 
 u1 u22 . . . u2n 
R=   = u1 u2 . . . u n
. 
. . . . . . . . . . .
u1n u2n . . . u3n
la matrice che ha per colonne i vettori ui ; R è una matrice ortonormale

e rappresenta una rotazione in Rn .
15.2 Analisi delle componenti principali. PCA.
Vediamo ora di formalizzare quanto abbiamo potuto vedere nell’esem-

pio svolto.

probabilità 239
Sia A una matrice n × p che raccoglie n osservazioni relative a p

variabili. Per facilitare la comprensione supporremo p = 3, osservando
esplicitamente che la presenza di più di tre variabili comporta soltanto
un aggravio delle notazioni.
 
x1 x21 x1p
 12 
 x1 x22 x2p 
 
A=
 x1
3 x23 x3p 
 
. . . ... . . .
x1n x2n x np
e consideriamo la matrice di covarianza dei dati che è definita da
C = At A
e risulta definita da
 
σ2 2
σ12 2
σ13
 11
2 2 2 
C = σ21 σ22 σ23 
2
σ31 2
σ32 2
σ33
dove
σij2 = ∑(xik − x̄i )(xkj − x̄ j )
k
essendo chiaramente x̄i la media di xi , σi,i la varianza di xi e σi,j la

covarianza di xi ed x j .
La matrice C risulta una matrice simmetrica ed è noto che esiste una
matrice diagonale  
λ1 0 0
 
D =  0 λ1 0 
0 0 λ3
ed una matrice ortonormale
 
u1 u12 u13
 12 
R = u1 u22 u23  = u1 u2 u3
u31 u32 u33
tale che
Rt CR = D
La matrice D presenta sulla diagonale principale gli autovalori λi rea-

li e non negativi di C, mentre le colonne di R sono costituite dagli
autovettori ui = (u1i , u2i , u3i ) corrispondenti.
Più esplicitamente si ha
     
u11 u21 u31 σ112 2
σ12 2
σ13 u11 u12 u13 λ1 0 0
 1  2 2   u2 u2 u2  =  0 
u2 u22 u32  σ21 2
σ22 σ23  1 2 3  λ2 0 
u13 u23 u33 σ312 2
σ32 2
σ33 u31 u32 u33 0 0 λ3

e quindi svolgendo i calcoli, per l’ortogonalità delle colonne di R (e

delle righe di Rt ), si ha
( AR)t AR =
 
< Cu1 , u1 > 0 0
t  
= R CR =  0 < Cu2 , u2 > 0 =
0 0 < Cu3 , u3 >
 
λ1 0 0
 
=0 λ2 0
0 0 λ3
Pertanto la forma quadratica associata alla matrice di covarianza ( AR)t AR

relativa ai dati contenuti in A ruotati mediante R è data da
ϕ( a, b, c) = λ1 a2 + λ2 b2 + λ3 c2
e si vede che , posto
Λ = max{λ1 , λ2 , λ3 } e λ = min{λ1 , λ2 , λ3 }
si ha
λ ≤ λ1 a2 + λ2 b2 + λ3 c2 ≤ Λ , ∀( a, b, c) ∈ R3 , a2 + b2 + c2 = 1
Ciò assicura che la forma quadratica associata alla matrice di cova-

rianza relativa ai dati ruotati risulta massima in corrispondenza della
direzione individuata dall’autovettore associato al massimo autovalo-
re.
L’uguaglianza
( AR)t AR = Rt A T AR = Rt CR = D
permette anche di concludere

che, se consideriamo una generica riga
della matrice A a = x y z otteniamo

AR = x y z u1 u2 u3 = < a, u1 > < a, u2 > < a, u3 >
per cui
   
< a, u1 >2 0 0 λ1 0 0
t    
( AR) AR =  0 < a, u2 >2 0 =0 λ2 0
0 0 < a, u2 >2 0 0 λ3
Ne segue che, se λi è trascurabile
< a, ui >= 0
Ciò permette di determinare una relazione lineare tra le variabili

che sono riportate nelle colonne di A

probabilità 241
15.3 L’applicazione all’analisi delle componenti principali.
Torniamo ora ai nostri dati Pk = (u1k , u2k , ...., unk ) ∈ Rn e cerchiamo di

individuare una combinazione lineare delle componenti
Qk = α1 u1k + α2 u2k + ..... + αn unk
in modo che la varianza di Qk sia massima ( massima significatività

della variabile).
Definiamo
vi = Var(uik )
j
cij = Cov(uik , uk )
la varianza delle singole componenti e la covarianza delle componenti

a due a due e sia R la matrice di covarianza dei dati definita mediante
la  
v1 c12 c13 · · · c1n
 
 c21 v2 c23 · · · c2n 
R=  ..


· · · · · · · · · . · · ·
cn1 cn2 cn3 ··· vn
Possiamo allora verificare che
Var( Qk ) = h Ra, ai
dove
a = (α1 , α2 , ....., αn )
Var( Qk ) è quindi una forma quadratica cui possiamo applicare il

metodo visto nella precedente sezione e mediante tale metodo possia-
mo individuare in ordine decrescente di significatività le componenti
dei dati.
15.3.1 Un esempio
Per illustrare gli effetti del metodo consideriamo i punti del grafico
di sin(t) nell’intervallo [0, 2π ]; suddividiamo l’intervallo in 199 parti
uguali, in modo da individuare 200 punti in [0, 2π ] e calcoliamo i valori
assunti da sin(t) in tali punti.
Le seguenti istruzioni di Matlab producono come risultato un vet-
tore t che contiene i 200 punti in [0, 2π ], ed i vettori x ed y che conten-
gono i valori assunti da sin(6t) nei punti pari e dispari rispettivamente
clear all;
step=2*pi/199;
t=0:step:2*pi;
xx=0:2*step: 2*pi;

yy=step:2*step: 2*pi;
x=sin(6*xx);
y=sin(6*yy);
Possiamo esaminare nel piano la distribuzione dei punti di coordi-
nate ( x (k), y(k)) con k = 1, .., 100 mediante le seguenti istruzioni
figure(1)
plot(x,y,’+’);
axis([-2 2 -2 2]);
che producono la seguente figura 15.1
Le istruzioni
R=cov(x,y);
[V,D]=eig(R)
Figura 15.1: . calcolano la matrice di covarianza R e le matrici V e D , dove V è
la matrice le cui colonne sono gli autovettori di R e D è una matrice
diagonale con gli autovalori sulla diagonale principale; in altre parole
V è la matrice tale che
VR = RD cioè tale che V −1 RV = D
La matrice V pertanto è la matrice di passaggio dal sistema di coordi-

nate originale a quello individuato dagli autovalori di R.
Poichè ci interessa tener conto della componente relativa al massimo
autovalore, di assicuriamo anche che l’autovalore più grande sia in
posizione (1, 1) mediante le istruzioni
if D(1,1)>D(2,2)
vv=V(:,1);
V(:,1)=V(:,2);
V(:,2)=vv;
end
La matrice V, quindi, può essere usata per effettuare un cambio di
base che metta in evidenza le componenti principali.
Le seguenti istruzioni
tr=[x(:),y(:)]*V;
tr1=tr(:,1);
Figura 15.2: . tr2=tr(:,2);
figure(2)
plot(tr1,tr2,’r+’)
axis([-2 2 -2 2]);
Calcolano i trasformati tr1, tr2 dei punti ( x, y) e li mostrano rispetto
ad una coppia di assi ortogonali coincidenti con gli autovettori di R (si
veda la figura 15.2).
Le successive istruzioni:
rtr=[tr1(:),tr2(:)]*inv(V);
rtr1=rtr(:,1);
rtr2=rtr(:,2);

probabilità 243
figure(3)
plot(rtr1,rtr2,’g+’)
axis([-2 2 -2 2]);
mostrano come applicando la trasformazione inversa i dati possano
essere recuperati (si veda la figura 15.3).
Ora, possiamo osservare che la variazione della seconda componen-
te dei dati trasformati è trascurabile rispetto alla prima, per cui, se la
trascuriamo e applichiamo la trasformazione inversa ai dati privati di
tale componente, otteniamo nuovi punti che differiscono di poco da Figura 15.3: .
quelli originali; possiamo operare usando le seguenti istruzioni:

nu=zeros(size(tr2));
ntr=[nu(:),tr2(:)]*inv(V);
ntr1=ntr(:,1);
ntr2=ntr(:,2);
figure(4)
plot(ntr1,ntr2,’rx’,rtr1,rtr2,’g+’)
axis([-2 2 -2 2]);
che forniscono anche una immagine dei nuovi punti come indicato
in figura 15.3 ed un confronto con i punti originali 15.4.
È interessante ora osservare come dai punti originali e da quel-
li privati della componente meno significativa si possa ricostruire la
funzione sin(6t)
Le seguenti istruzioni Figura 15.4: .
z=zeros(1,200);
zt=zeros(1,200);
for k=0:99
zt(2*k+1)=x(k+1);
end
for k=1:100
zt(2*k)=y(k);
end
for k=0:99
z(2*k+1)=ntr2(k+1);
end
for k=1:100
z(2*k)=ntr1(k);
end
figure(5)
plot(t,z)
figure(6)
plot(t,zt)
producono i due grafici riportati in figura ??, il primo dei qua-
li riporta la funzione sin(t) ricostruita congiungendo con segmenti
di retta i 200 punti originali, mentre la seconda riporta il grafico di

sin(6t) ricostruito a partire dai punti ottenuti applicando la trasforma-

zione inversa ai punti prima trasformati e poi privati della seconda
componente.
Come si vede è evidente che la componente trascurata non ha peg-
giorato di molto il grafico, mentre la quantità di dati necessari a ri-
costruire l’immagine si è dimezzata. Questo indica come può essere
sviluppato un procedimento che consenta di immagazzinare dati (i
punti del grafico della funzione) utilizzando al meglio le informazioni
Figura 15.5: .
che contengono.
Figura 15.6: .

16. QUALCHE ARGOMENTO DI
PROBABILITÀ E STATISTICA.
16.1 Il Lancio di un Dado
Consideriamo un dado a forma di esaedro (cubo) con le facce nume-

rate da 1 a 6; identifichiamo con xk l’evento
è stato ottenuto il punteggio k
(la faccia superiore del dado mostra k) , k = 1..6.
Evidentemente possiamo costruire una tabella in cui ad ogni evento
si fa corrispondere la sua probabilità.
Evento Probabilità
x1 1/6
x2 1/6
x3 1/6
x4 1/6
x5 1/6
x6 1/6
In altre parole
1
P( xk ) = = pk
6
Calcoliamo il valor medio µ e la varianza σ2 della variabile aleatoria
che restituisce il valore del punto ottenuto.
Avremo
6
1 1 7∗6 1 7
µ= ∑ 6k = 6 2
=
6
(1 + 2 + 3 + 4 + 5 + 6) = = 3.5
2
k =1
2 !
6 6
1 7 1 7 6 6
49
σ2 = ∑ k− = ∑ k2 − 2 2 ∑ k + ∑ 4 =
k =1
6 2 6 k =1 k =1 k =1
91 49 49 364 − 294 35
= −2 + = =
6 4 4 24 12
In generale possiamo osservare che
6
µ= ∑ xk pk
k =1
e
6 6
σ2 = ∑ ( x k − µ )2 p k = ∑ (xk2 − 2µxk + µ2 ) pk =
k =1 k =1
6 6 6 6
= ∑ xk2 pk − 2µ ∑ xk pk + µ2 ∑ pk = ∑ xk2 pk − 2µ2 + µ2 =
k =1 k =1 k =1 k =1
6
= ∑ xk2 pk − µ2
k =1
Per cui
6 2
1 7 6 ∗ 7 ∗ 13 49 91 49 35
σ2 = ∑ k2 6 − 2
=
6
−
4
=
6
−
4
=
12
k =1
16.2 Lancio di due Dadi
Supponiamo di lanciare due dadi le cui facce sono numerate come d’u-
so da 1 a 6 e cominciamo con l’individuare lo spazio di tutti i possibili
eventi.
Possiamo allo scopo usare la seguente tabella.
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Gli eventi possibili sono 36 ciascuno dei quali ha la stessa probabi-

lità di uscita, per cui, se indichiamo con
Di,j = (i, j)

probabilità 247
l’evento che si verifica quando sul primo dado esce i e sul secondo
dado j, avremo
1
P( Di,j ) =
36
L’insieme Ω di tutti gli eventi possibili definisce lo spazio di proba-

bilità in cui operiamo.
Gli elementi di Ω sono gli eventi elementari Di,j e tutti gli eventi che
si ottengono come unione di eventi elementari; ad esempio
E1 = { D2,5 , D6,6 }
(l’evento che accade se sul primo dado esce 2 e sul secondo dado esce
5 oppure se sul primo dado esce 6 e sul secondo esce ancora 6)
E2 = { D1,2 , D2,1 , D3,6 }
E3 = { D1,1 , D2,2 , D3,4 }
Possiamo anche definire sullo spazio Ω la variabile aleatoria ξ che

ad ogni elemento di Di,j ∈ Ω assegna la somma dei punti ottenuti.
ξ ( Di,j ) = i + j
Come è evidente dalla figura seguente ξ assume i seguenti valori:
2 1 volta
3 2 volta Figura 16.1:
4 3 volta
5 4 volta
6 5 volta
7 6 volta
8 5 volta
9 4 volta
10 3 volta
11 2 volta
12 1 volta
e quindi possiamo costruire la funzione densità di probabilità di ξ

1
P(ξ = 2) = P(ξ = 12) =
36
2
P ( ξ = 3) = P ( ξ = 11) =
36
3
P ( ξ = 4) = P ( ξ = 10) =
36
4
P ( ξ = 5) = P ( ξ = 9) =
36
5
P ( ξ = 6) = P ( ξ = 8) =
36
6
P ( ξ = 7) =
36
e riportate i risultati su un istogramma.

Ad esempio possiamo calcolare
Figura 16.2:
6 1
P ( ξ = 7) = =
36 6
1 5
P ( ξ 6 = 7) = 1 − P ( ξ = 7) = 1 − =
6 6
P (4 ≤ ξ ≤ 8) = P ( ξ = 4) + P ( ξ = 5) + P ( ξ = 6) + P ( ξ = 7) + P ( ξ = 8) =
3+4+5+6+5 23
=
36 36
La media µ della variabile aleatoria ξ si può calcolare sommando

la media del punteggio del primo dado con quella del punteggio del
Figura 16.3: secondo dado:
7 7
µ = media del primo dado + media del secondo dado = + =7
2 2
oppure direttamente
2 + 12 + 2(3 + 11) + 3(4 + 10) + 4(5 + 9) + 5(6 + 8) + 6 ∗ 7

µ= =
36
1+2+3+4+5+3 18
= 14 = 14 = 7
36 36
La moda è 7 e la mediana è ancora 7.

La varianza è

probabilità 249
σ2 =
1 1 1 1 1 1
= (2 − 7)2 + (3 − 7)2 + (4 − 7)2 + (5 − 7)2 + (6 − 7)2 + (7 − 7)2 +
36 36 36 36 36 36
1 1 1 1 1
+ (8 − 7)2 + (9 − 7)2 + (10 − 7)2 + (11 − 7)2 + (12 − 7)2 =
36 36 36 36 36
1 210 35
= (25 + 2 ∗ 16 + 3 ∗ 9 + 4 ∗ 4 + 5 + 5 + 4 ∗ 4 + 3 ∗ 9 + 2 ∗ 16 + 25) = =
36 36 6
Alternativamente
12
σ2 = ∑ ξ i2 pi − µ2 =
i =2
1
= (4 + 2 ∗ 9 + 3 ∗ 16 + 4 ∗ 25 + 5 ∗ 36 + 6 ∗ 49 + 5 ∗ 64 + 4 ∗ 81 + 3 + 100 + 2 ∗ 121 + 144) − 49 =
36
1974 35
− 49 =
36 6
(in rosso è riportato il confronto con una gaussiana di media 7 e

varianza 35
6 )
Figura 16.4:
16.3 Lancio ripetuto di due dadi
Supponiamo di lanciare 2 dadi per 3 volte ed indichiamo con ξ la

variabile aleatoria che restituisce il numero di volte in cui si è ottenuto
il punteggio di 7 (nei tre lanci).
Come abbiamo visto prima
1 1 5
P(uscita di 7) = =p , P(non uscita di 7) = 1 − = =q
6 6 6
p s 3 uscite di 7
s

X

q XXs
p
XX
2 uscite di 7
s
s 2 uscite di 7
HH
H p
p q H
s

HX
Xs 1 uscite di 7
XXX
q
s
@
p
s 2 uscite di 7
@ sX

Xs 1 uscite di 7
@
q p
XXX
q
@
s
@H
H
H
p
s 1 uscite di 7
Pertanto
q H
H s

XXX

q XXs
0 uscite di 7
555 125
P(ξ = 0) = P(nessun7) = = ≈ 0.579
666 216
155 515 551 25
P(ξ = 1) = P(un 7) = + + =3 ≈ 0.347
666 666 666 216
115 511 151 5
P(ξ = 2) = P(due 7) = + + =3 ≈ 0.069
666 666 666 216
111 1
P(ξ = 3) = P(tre7) = = ≈ 0.005
666 216
L’istogramma che segue è relativo alla variabile aleatoria ξ e rap-
presenta la sua PDF.
Il problema consiste nel valutare il numero di successi ottenuti in 3
lanci considerando
Figura 16.5:
successo: l’evento " Il punteggio ottenuto è 7"
che ha probabilità p = 16 ,
insuccesso: l’evento " Il punteggio ottenuto non è 7"
che ha probabilità p = 56 .
Può essere trattato usando la Distribuzione Binomiale di Bernoulli.
Con riferimento al caso precedentemente trattato dei 3 lanci di due
dadi, definendo
Successo= "esce 7, p = 16 "
Insuccesso= "non esce 7, q = 1 − 61 = 56 "
0 3
3 1 5 125
P ( ξ = 0) = =1 = 0.579
0 6 6 216
1 2
3 1 5 25
P ( ξ = 1) = =3 = 0.347
1 6 6 216
2 1
3 1 5 5
P ( ξ = 2) = =3 = 0.069
2 6 6 216
3 0
3 1 5 1
P ( ξ = 3) = =1 = 0.005
3 6 6 216
Di seguito sono riportate la PDF della variabile aleatoria ξ e la sua
CDF
16.4 Applicazioni della distribuzione Binomiale e di Poisson
16.4.1
Figura 16.6: Il 20% dei pezzi prodotti da una macchina in un giorno è difettoso.
Scegliamo a caso 4 pezzi della produzione giornaliera e consideria-
mo la variabile aleatoria ξ che restituisce il numero di pezzi difettosi
tra i 4 scelti.

probabilità 251
ξ = numero dei pezzi non difettosi su 4 pezzi scelti nella

produzione giornaliera
Evidentemente possiamo ritenere
• Successo : che il pezzo non sia difettoso e si ha che la probabilità di

successo è
80 4
p= = = 0.8
100 5
• Insuccesso : che il pezzo sia difettoso e si ha che la probabilità di
insuccesso è
20 1
p= = = 0.2
100 5
ξ ha una distribuzione binomiale (bernoulliana) con n = 4 e k = 5.
Pertanto
0 4
4 2 8 4096
P ( ξ = 0) = = 1 4 = 0.4096
0 10 10 10
1 3
4 2 8 1024
P ( ξ = 1) = = 4 4 = 0.4096
1 10 10 10
2 2
4 2 8 256
P ( ξ = 2) = = 6 4 = 0.1536
2 10 10 10
3 1
4 2 8 64
P ( ξ = 3) = = 4 4 = 0.0256
3 10 10 10
4 0
4 2 8 24
P ( ξ = 4) = = 1 4 = 0.0016
4 10 10 10
Osserviamo che ovviamente si ha
0.4096 + 0.4096 + 0.1536 + 0.0256 + 0.0016 = 1
Di seguito sono riportate la PDF della variabile aleatoria ξ e la sua

CDF
16.4.2 Figura 16.7:
Supponiamo di lanciare una moneta non truccata per n = 10 volte; de-

finiamo successo l’uscita di Testa, che indichiamo con T ed insuccesso
l’uscita di Croce che indichiamo con C.
Evidentemente
1
• P( T ) = 2 = p è la probabilità di successo. Figura 16.8:
1
• P(C ) = 2 = q = 1 − p è la probabilità di insuccesso.

Sia ξ il numero k di successi ottenuti in n = 10 lanci.

Evidentemente
3 7
10 1 1 15
P ( ξ = 3) = = ≈ 0.1172
3 2 2 128
4 6
10 1 1 105
P ( ξ = 4) = = ≈ 0.2051
4 2 2 512
5 5
10 1 1 63
P ( ξ = 5) = = ≈ 0.2461
5 2 2 256
6 4
10 1 1 105
P ( ξ = 6) = = ≈ 0.2051
6 2 2 512
e possiamo calcolare che si ottengano un numero di successi compreso
tra 3 e 6 con probabilità
60 + 105 + 126 + 105 99

P (3 ≤ ξ ≤ 6) = = ≈ 0.7734
512 128
Se F è la CDF della distribuzione di probabilità binomiale relativa
ad n = 10 (possiamo ricavarne i valori dalla tabella in appendice),
avremo che
P(3 ≤ ξ ≤ 6) = F (6) − F (2) ≈ 0.82812 − 0.05469 ≈ 0.77343
16.4.3
Consideriamo due centri di servizio indipendenti che ricevono, nell’u-
nità di tempo, un numero di richieste di servizio R1 ed R2 , rispetti-
vamente, che possono essere rappresentate da una variabile aleatoria
avente densità di Poisson di media λ1 e λ2 , rispettivamente.
Vogliamo calcolare la probabilità che i due centri di servizio riceva-
no, nell’unità di tempo, un numero di richieste uguale a 3.
Allo scopo occorrerà calcolare
P ( R1 + R2 = 3) =
= P ( R1 = 0)P ( R2 = 3) + P ( R1 = 1)P ( R2 = 2)+
+ P ( R1 = 2)P ( R2 = 1) + P ( R1 = 0)P ( R2 = 3)
Poichè la densità di Ri è di Poisson con media λi , avremo
1 n − λi
P ( Ri = n ) = λ e
n! i
per cui

probabilità 253
P ( R1 + R2 = 3) =
1 0 − λ1 1 3 − λ2 1 1 − λ1 1 2 − λ2 1 2 − λ1 1 2 − λ2 1 3 − λ1 1 2 − λ2
λ e λ e + λ1 e λ e + λ1 e λ e + λ1 e λ e =
0! 1 3! 2 1! 2! 2 2! 1! 2 3! 0! 2
1 −(λ1 +λ2 ) 3 1
e [λ2 + 3λ22 λ1 + 3λ2 λ21 + λ31 ] = e−(λ1 +λ2 ) (λ1 + λ2 )3
3! 3!
più in generale possiamo ricavare la distribuzione di probabilità della

variabile aleatoria R1 + R2 osservando che
P ( R1 + R2 = n ) =
= P ( R1 = 0)P ( R2 = n) + P ( R1 = 1)P ( R2 = n − 1) + · · · +
+ · · · + P ( R1 = n)P ( R2 = 0) =
n n
1 k − λ1 1
= ∑ P ( R1 = k)P ( R2 = n − k) = ∑ λ1 e λ n − k e − λ2 =
0 0
k! (n − k)! 2
n
1 n!
= e−(λ1 +λ2 ) ∑ λk λn−k =
n! 0
k! ( n − k)! 1 2
n
1 n k n−k
= e−(λ1 +λ2 ) ∑ λ λ =
n! 0
k 1 2
1 −(λ1 +λ2 )
= e ( λ1 + λ2 ) n
n!
Possiamo quindi calcolare facilmente anche la probabilità che il

numero di richieste di servizio sia, in totale, inferiore a 3 mediante
la
P ( R1 + R2 ≤ 3) = P ( R1 + R2 = 0) + P ( R1 + R2 = 1)+
+ P ( R1 + R2 = 2) + P ( R1 + R2 = 3) =
Consideriamo ora il caso in cui si sappia che il numero di richieste

totale nell’unità di tempo è 8 e calcoliamo la probabilità che il primo
centro abbia ricevuto k richieste.
Avremo

P ( R1 + R2 = 8, R1 = k)
P ( R1 = k | R1 + R2 = 8) = =
P ( R1 + R2 = 8)
P ( R1 = k)P ( R2 = 8 − k)
1 k − λ1
k! λ1 e
1
λ 8− k e − λ2
(8− k ) ! 2
= = 8 1 n =
P ( R1 + R2 = 8) ∑0 n! λ1 e−λ1 (8−1n)! λ82−n e−λ2
1 8! k 8−k −(λ1 +λ2 )
8! k!(8−k )! λ1 λ2 e (8k )λ1k λ82−k
= n 8−n −(λ1 +λ2 )
= =
∑80 (n)λ1n λ82−n
1 8 8! 8
8! ∑0 n!(8−n)! λ1 λ2 e
k 8− k k !8− k
8 λ1 λ2 8 λ1 λ2
= =
k ( λ1 λ2 )8 k λ1 + λ2 λ1+ λ2
In maniera del tutto simile si calcola
P ( R1 + R2 = n, R1 = k)
P ( R1 = k | R1 + R2 = n ) = =
P ( R1 + R2 = n )
P ( R1 = k)P ( R2 = n − k) (n)λk λn−k
= = nk n 1 h2 n−h =
P ( R1 + R2 = n ) ∑0 ( h ) λ1 λ2
k n−k k !n−k
n λ1 λ2 n λ1 λ2
= =
k ( λ1 λ2 ) n k λ1 + λ2 λ1+ λ2
16.5 Probabilità condizionata. Teorema di Bayes
16.5.1
Consideriamo un’urna contenente 4 palline: una di colore Rosso, una
di colore Bianco, una di colore Verde ed una di colore Nero.
Indichiamo con R, B, V, N, rispettivamente, l’evento
’ ’ è estratta una pallina Rossa, Bianca, Verde, Nera ’ ’
Consideriamo gli eventi
E1 = B ∪ R
E2 = B ∪ V
E1 = B ∪ N
e verifichiamo che gli eventi Ei sono a due a due indipendenti, ma non
collettivamente indipendenti.
Si ha
1 1 1
P( E1 ) = + =
4 4 2
1 1 1
P( E2 ) = + =
4 4 2
1 1 1
P( E3 ) = + =
4 4 2

probabilità 255
ed inoltre
1 1
P( E1 ) P( E2 ) = P( E1 ∩ E2 ) = P( B) =
4 4
1 1
P( E2 ) P( E3 ) = P( E2 ∩ E3 ) = P( B) =
4 4
1 1
P( E1 ) P( E3 ) = P( E1 ∩ E3 ) = P( B) =
4 4
Possiamo anche verificare che E1 , E2 , E3 non sono collettivamente
indipendenti.
Infatti
1
P( E1 ∩ E2 ∩ E3 ) = P( B) =
4
mentre
1
P( E1 ) P( E2 ) P( E3 ) =
8
Se nell’urna viene aggiunta una quinta pallina Gialla, accade che
1 1 2
P( E1 ) = + =
5 5 5
1 1 2
P( E2 ) = + =
5 5 5
1 1 2
P( E3 ) = + =
5 5 5
mentre
4 1
P( E1 ) P( E2 ) = P( E1 ∩ E2 ) = P( B) =
25 5
4 1
P( E2 ) P( E3 ) = P( E2 ∩ E3 ) = P( B) =
25 5
4 1
P( E1 ) P( E3 ) = P( E1 ∩ E3 ) = P( B) =
25 5
e gli eventi E1, E2 , ed E3 non sono più mutuamente indipendenti.
16.5.2 Indipendenza di variabili aleatorie

Consideriamo un’urna che contiene due monete, α e β, una delle quali
e’ truccata.
Lanciamo la moneta ed indichiamo con T e con C rispettivamente,
gli eventi " è uscito Testa" oppure "è uscito Croce".
La moneta α non è truccata e pertanto
1
P( T |α) = P(C |α) =
2
mentre la moneta β è truccata in modo che
2 1
P( T | β) = P(C | β) =
3 3

Si sceglie casualmente una moneta essendo la scelta equiprobabile,

avendosi cioè:
1
P (α) = P ( β) =
2
e la si lancia due volte indicando con ξ il risultato del primo lancio e
con η il risultato del secondo lancio.
Vogliamo innanzi tutto determinare la distribuzione di probabilità
di ξ e di η che, per ovvie ragioni di simmetria dei dati, saranno uguali.
si ha:
11 12 7
P (ξ = T ) = P (ξ = T |α)P (α) + P (ξ = T | β)P ( β) = + =
22 23 12
11 11 5
P (ξ = c) = P (ξ = C |α)P (α) + P (ξ = C | β)P ( β) = + =
22 23 12
per cui la distribuzione di probabilità sia di ξ che di η è rappresentabile

come nella figura seguente.
Consideriamo ora la variabile aleatoria υ = (ξ, η ) definita dal ri-
sultato dei due lanci, considerati nell’ordine; la sua distribuzione di
Figura 16.9: probabilità può essere determinata calcolando la probabilità di uscita
dei quattro possibili risultati. Si ha
P (υ = ( T, T )) = P (υ = ( T, T )|α)P (α) + P (υ = ( T, T )| β)P ( β) =

11 14 25
= + =
24 29 72
P (υ = ( T, C )) = P (υ = ( T, C )|α)P (α) + P (υ = ( T, C )| β)P ( β) =
11 12 17
= + =
24 29 72
P (υ = (C, T )) = P (υ = (C, T )|α)P (α) + P (υ = (C, T )| β)P ( β) =
12 11 17
= + =
29 24 72
P (υ = (C, C )) = P (υ = (C, C )|α)P (α) + P (υ = (C, C )| β)P ( β) =
11 11 13
= + =
24 29 72
e pertanto la tabella seguente descrive la distribuzione di probabilità

di υ. Sommando per righe si ottiene la distribuzione di probabilità di
ξ mentre, sommando per colonne otteniamo la distribuzione di proba-
bilità di η, mentre la figura mostra le funzioni densità di probabilità
della variabile aleatoria congiuntaυ = (ξ, η ) e delle variabili aleatorie
Figura 16.10:
marginali ξ e η.

probabilità 257
ξ T C
η
T 25/72 17/72
C 17/72 13/72
ξ T C
η
T 25/72 17/72 7/12
C 17/72 13/72 5/12
7/12 5/12 1
e si verifica che
25 49
P (υ = (ξ, η ) = ( T, T )) = 6= = P (ξ = T )P (η = T )
72 144
dal che segue che ξ ed η sono variabili aleatorie dipendenti.
16.5.3 Il Teorema di Bayes

Ricordiamo che
Siano A1 , A2 ⊃ B, A1 ∩ A2 = ∅ allora si ha
P ( Ai ∩ B ) P ( B ∩ Ai )
P ( Ai | B ) = , P ( B | Ai ) =
P( B) P ( Ai )
e quindi
P ( Ai ∩ B ) = P ( B ) P ( Ai | B ) , P ( B ∩ Ai ) = P ( Ai ) P ( B | Ai )
ne segue che
P ( Ai ) P ( B | Ai )
P ( Ai | B ) =
P( B)
e, dal momento che B = ( B ∩ A1 ) ∪ ( B ∩ A2 )
P ( B ) = P ( B ∩ A1 ) + P ( B ∩ A2 ) = P ( A1 ) P ( B | A1 ) + P ( A2 ) P ( B | A2 )
si può concludere che

P ( Ai ) P ( B | Ai )
P ( Ai | B ) =
P ( A1 ) P ( B | A1 ) + P ( A2 ) P ( B | A2 )
16.5.4
Si considerino due urne che indichiamo con I ed I I e supponiamo che
nell’urna I siano contenute 2 palline bianche (B) e 3 palline nere (N), Figura 16.11:
mentre nell’urna I I siano contenute 8 palline bianche 2 palline nere.

Si sceglie una delle due urne lanciando una moneta non truccata,
per cui la probabilità di scegliere la prima urna (P( I )) e la probabilità
di scegliere la seconda urna (P( I I )) sono uguali a .5
1
P( I ) = P( I I ) =
2
Viene lanciata la moneta e viene estratta una pallina; conoscendo

il colore della pallina estratta, calcolare la probabilità che sia stata
estratta dalla prima o dalla seconda urna.
si ha
2 3
P( B| I ) = P( N | I ) =
5 5
8 2
P( B| I I ) = P( N | I I ) =
10 10
quindi
P( I ) P( B| I ) 2/5 · 1/2 1
P( I | B) = = =
P( I ) P( B| I ) + P( I I ) P( B| I I ) 2/5 · 1/2 + 8/10 · 1/2 3
P( I ) P( N | I ) 3/5 · 1/2 3
P( I | N ) = = =
P( I ) P( N | I ) + P( I I ) P( N | I I ) 3/5 · 1/2 + 2/10 · 1/2 4
P( I I ) P( B| I I ) 8/10 · 1/2 2
P( I I | B) = = =
P( I ) P( B| I ) + P( I I ) P( B| I I ) 2/5 · 1/2 + 8/10 · 1/2 3
P( I I ) P( N | I I ) 2/10 · 1/2 1
P( I I | N ) = = =
P( I ) P( N | I ) + P( I I ) P( N | I I ) 3/5 · 1/2 + 2/10 · 1/2 4
16.5.5
Durante una esercitazione scritta uno studente (S) si trova seduto nella
prima fila dell’aula avendo a fianco ed immediatamente dietro tre altri
studenti (A, B, C) con i quali riesce a consultarsi e dei quali valuta
l’affidabilità secondo le seguenti stime.
A B C
60% 30% 10%
Una delle domande della prova è la seguente.
 √
Figura 16.12: 
À -
 2π
Z +∞ 
− x2 /2
e dx = Á - 2π
−∞ 
 √

Â - π

probabilità 259
(Ricordiamo che la risposta corretta è la 1 in quanto
Z +∞ Z +∞
2
− x2 /2−y2 /2 − x2 /2
e dxdy = e dx =
−∞ −∞
Z +∞ Z 2π +∞
2 /2 2 /2
= e−ρ ρdρdθ = 2πe−ρ = 2π
0 0 0
R +∞ 2 √
per cui −∞ e− x /2 dx = 2π.)
Ciascuna tra A,B,C fornisce la sua opinione in merito alla risposta
corretta, come è riportato nella seguente tabella, dove su ogni riga è
indicata con quale probabilità A, B o C ritengono corretta ciascuna
delle risposte.
À Á Â
A 60% 30% 10%
B 50% 30% 20%
C 30% 30% 40%
Vediamo ora come, tenendo conto del fatto che la risposta corretta
è la À possiamo aggiornare la tabella della affidabilità di A,B,C.
Avremo che:
P( À | A) = 60/100
P( À | B) = 50/100
P( À |C ) = 30/100
da cui, indicando genericamente con X di volta in volta A,B,C , si ha:
P( À | X ) P( X )
P( X | À)=
P( À )
P( À ) = P( À | A) P( A) + P( À | B) P( B) + P( À |C ) P(C ) =
60 60 50 30 30 10 54
= + + =
100 100 100 100 100 100 100
Infine
36/100 36
P( A| À)= = ≈ 67%
54/100 54
15/100 15
P( B| À ) = = ≈ 28%
54/100 54
3/100 3
P(C | À ) = = ≈ 5%
54/100 54

16.5.6
Negli anni ’90 negli Sati Uniti fu proposto uno screening di massa per
rilevare il numero di individui affetti da AIDS.
Una possibilità per rivelare la malattia consiste nel misurare la pren-
za di anticorpi che vengono prodotti dall’organismo in reazione al-
l’AIDS. Il test, pur potendo essere molto accurato, può fornire risultati
scorretti
• non rilevando la malattia in un individuo malato
• rilevando la malattia in un individuo sano
Chiamiamo
• Sensitivià (p) del test la sua capacità di rilevare la malattia in un

individuo malato; è ad esempio ragionevole supporre che
95
p=
100
cioè che il test riveli la malattia nel 95%dei malati.
Ne consegue che il primo degli errori citati ha una probabilità del
5%.
• Specificità (q) del test la sua capacità di non rivelare la malattia in

un individuo sano; è ad esempio ragionevole supporre che
99
q=
100
cioè che il test riveli la malattia in un individuo sano nel 1% degli
individui sani.
Supponiamo infine che nella popolazione in esame sia malato 1 in-

dividuo su 1000; supponiamo cioè che l’incidenza (a) della malattia
sia
1
a=
1000
Con questi dati vogliamo stimare l’efficacia di uno screening di
massa.
Indichiamo con
A l’evento: "l’individuo è malato di AIDS"

0
A l’evento: "l’individuo non è malato di AIDS"
Tp l’evento: "l’individuo è risultato positivo al test"
Tn l’evento: "l’individuo è risultato negativo al test"

probabilità 261
Avremo:
1 999
P( A) = a = P( A0 ) = 1 − a =
1000 1000
95 0 1
P( T p| A) = p = P( T p| A ) = q =
100 100
5 0 99
P( Tn| A) = 1 − p = P( Tn| A ) = 1 − q =
100 100
Inoltre
P( T p) = P( T p| A) P( A) + P( T p| A0 ) P( A0 ) = pa + q(1 − a)
per cui
P( T p| A) P( A) pa
P( A| T p) = = =
P( T p) pa + q(1 − a)
95/100 · 1/1000 95 95
= = ≈ 0.0847
95/100 · 1/1000 + 1/100 · 999/1000 95 + 999 1094
In altre parole la probabilità che un individuo sia malato nel caso in
cui il test abbia rivelato l’AIDS è inferiore al 9%.
Per comprendere come questo risultato sia influenzato dai dati che
abbiamo usato calcoliamo la stessa probabilità usando set di parametri
diversi.
p q a P( A| T p)
95 1 1
100 100 1000 ≈ 0.0847
100 1 1
100 10 1000 ≈ 0.091
100 2 1
100 100 1000 ≈ 0.05
95 1 1
100 300 1000 ≈ 0.21
90 1 1
100 100 100 ≈ 0.55
95 1 1
100 100 10 ≈ 0.9
16.5.7
Consideriamo una fornitura di 1000 pezzi della quale è noto che i pezzi
difettosi possono essere 0, 1, 2, 3, 4, 5, avendo ognuna delle eventualità
probabilità 1/6. si estrae un campione di 100 pezzi e si verifica che
nessuna tra i pezzi scelti risulta difettoso.

Ci interessa stabilire la probabilità che nessuno dei pezzi dell’intera

fornitura sia difettoso.
A questo scopo indichiamo con
P (n/N D ) = probabilità che n pezzi su N siano difettosi
avremo allora che
P (0/1000 D ) = P (1/1000 D ) = P (2/1000 D ) = P (3/1000 D ) =

1
= P (4/1000 D ) = P (5/1000 D ) =
6
inoltre
0 100 100
100 k k k
P (0/100 D |k/1000 D ) = 1− = 1−
0 1000 1000 1000
e si calcola (si ricordi che 00 = 1) che
6
∑ P (0/100 D|k/1000 D) ≈ 4.74
0
e possiamo quindi anche calcolare che
P (0/100 D |0/1000 D )P (0/1000 D )

P (0/1000 D |0/100 D ) = =
∑60 P (0/100 D |k/1000 D )P (k/1000 D )
1/6
= ≈ 0.21
1/6(4.74)
16.5.8
In una classe è svolta una prova scritta che consiste in 10 domande a
risposta multipla ciascuna con 4 alternative.
Uno studente è sicuramente in grado di rispondere correttamente
alla domanda nel caso conosca la materia, ma ha 1 probabilità su 4 di
rispondere correttamente scegliendo una risposta a caso.
Se è noto , o è ragionevole supporre, che 2/3 degli studenti cono-
scano la materia, con quale probabilità uno studente che ha risposto
ad una certa domanda conosce la relativa materia?
Indichiamo con C l’evento "lo studente conosce la materia" e con C 0
in suo complementare (" lo studente non conosce la materia");
indichiamo inoltre con B l’evento "lo studente ha risposto corretta-
mente" e con B0 il suo complementare ("lo studente non ha risposto
correttamente").
Avremo

probabilità 263
2 1
P(C ) = P(C 0 ) =
3 3
1
P( B|C ) = 1 P( B|C 0 ) =
4
Risulta
P( B|C ) P(C )
P(C | B) = =
P( B|C ) P(C ) + P( B|C 0 ) P(C 0 )
1 · 2/3 8
= =
1 · 2/3 + 1/4 · 1/3 9
Pertanto la probabilità che uno studente conosca la materia, avendo

risposto correttamente alla domanda è 89 ≈ 0.89
D’altro canto
P( B|C 0 ) P(C 0 )
P(C 0 | B) = =
P( B|C ) P(C ) + P( B|C 0 ) P(C 0 )
1/4 · 1/3 1
= =
1 · 2/3 + 1/4 · 1/3 9
Cioè la probabilità che uno studente non conosca la materia, avendo

risposto correttamente alla domanda è 19 ≈ 0.11
Evidentemente quindi la probabilità che uno studente che abbia
risposto a k domande su 10 conosca veramente la materia è data da
k n−k
n 8 1
Pk =
k 9 9
Mentre la probabilità che, se ha risposto ad almeno 6 domande,

abbia studiato è
P6 + P7 + P8 + P9 + P10 ≈ 0.739
Se uno studente decide di scegliere a caso le risposte la probabilità di

rispondere a k domande è
k n−k
n 1 3
Ck =
k 4 4
e quindi la probabilità che risponda correttamente ad almeno 6 do-

mande su 10è
C6 + C7 + C8 + P9 + C10 ≈ 0.024

16.6 Distribuzioni di Probabilità
16.6.1
Sia ξ una variabile aleatoria la cui distribuzione di probabilità è data

da

 1
2,
 0<x<1
φ(t) = 1
, 2<x<4
4


0 altrove
(Ad esempio ξ può rappresentare il tempo di attesa per un autobus)
Calcolare la media µ e la varianza di ξ
Z +∞
µ = E(ξ ) = xφ( x )dx =
−∞
Z 1 Z
4 1
1
= x dx + x =
0 2 2 4
2
x 1 2
x 4
= + =
4 0 8 2
2 + 16 − 4 7 1
= = = 2 − = 2 − 0.25 = 1.75
8 4 4
Z +∞
2 2 7 2
σ = E((ξ − µ) ) = x− φ( x )dx =
−∞ 4
Z 1 Z 4
7 21 7 21
= x− dx + x− =
0 4 2 2 4 4
3 3
x − 74 1 x − 47 4
= + =
6 0 12 2

7 3

7 3
3
1− 4 4− 4 2 − 74
= + −− =
6 12 12
3 3
1 4−7 1 16 − 7 1 8−7 3
= + −− =
6 4 12 4 12 4
1 1 674
= 3 (−54 + 729 − 1) =
4 12 768
16.6.2
Stabilire per quali valori di k ∈ R la funzione


k se | x | ≤ 1
f (x) =
 k2 se | x | > 1
x

probabilità 265
è una PDF per qualche variabile aleatoria ξ.

Affinchè f sia la PDF di una variabile aleatoria occorre che f ( x ) ≥ 0
per ogni x ∈ R ed inoltre deve aversi che
Z +∞
f ( x )dx = 1
−∞
Pertanto deve essere
Z +∞ Z −1 Z 1 Z +∞
k k
1= f ( x )dx == dx + kdx + dx =
−∞ −∞ x2 −1 1 x2
−1
k −1
k +∞
=− + kx − =
x −∞ −∞ x 1
= k + 2k + k = 4k
e
1
k=
4
Si noti tuttavia che, poichè x f ( x ) e, a maggior ragione, ( x − µ)2 f ( x )
non sono integrabili su R della variabile aleatoria individuata da ξ non
è possibile calcolare nè media , nè la varianza.
Vogliamo ora, per k = 41 , determinare il valore di h ∈ R tale che
P(|ξ | ≤ h) = 0.9
Osserviamo che, dal momento che

Z 1 Figura 16.13:
1
P(|ξ | ≤ 1) = kdx = < 0.9
−1 2
dovrà risultare h > 1. ma
Z h
1 h k +∞
f ( x )dx = − =
1 4x 1 x 1
Per cui dovrà essere
9 1 k +∞
1− − =
10 4 x 1
20
e si ricava h = 4
16.7 Uso delle tavole per i valori della CDF Normale Standard
Sia ξ una variabile aleatoria Gaussiana di media µ e di varianza σ2 ;

allora se definiamo
ξ−µ
z= (da cui ξ = µ + σz)
σ
z risulta una variabile aleatoria Gaussiana di media µ = 0 e di va-
rianza σ2 = 1; una siffatta variabile aleatoria si dice normale standard.

La variabile aleatoria z ha una PDF ed una CDF che sono, rispetti-

vamente date da
Z z
1 2 1 2 /2
f (t) = √ e−t /2 F (z) = √ e−t dt
2π 2π −∞
si ha
1 2
f (t) = √ e−t /2
2π Z z
1 2
F (z) = P( x ≤ z) = √ e−t /2 dt =
2π −∞
Z 0 Z z
1 2 2
z
= √ e−t /2 dt + e−t /2 dt =
2π −∞ 0
Z Z z
1 z
2
e−t /2 dt = 1 1 2
e−t /2 dt =
F (z) = √
2π −∞ = +√
= P (ξ ≤ z) 2 2π 0
√ Z √
1 2 z/ 2 2
= +√ e−s ds =
2 2π 0
" Z z/√2
#
1 2 − s2
= 1+ √ e ds =
2 π 0
Figura 16.14: PDF e CDF di una variabile

aleatoria γ. 1 z
= 1 + erf √
2 2
Poichè

α−µ β−µ β−µ α−µ
P (α ≤ ξ ≤ β) = P ≤z≤ =F −F
σ σ σ σ
1
è evidentemente necessario disporre dei valori della funzione CDF
della variabile normale standardizzata.
Tali valori possono essere facilmente calcolati mediante programmi
di calcolo.
Ad esempio, usando EXCEL si calcola
F (z) = Normdist.tex(z,0,1,TRUE)
F (z) = (1+ERF(0,z/sqrt(2)))/2;
mentre usando MAPLE
F (z) = statevalf[cdf,normald](z);
oppure
F (z) = (1+evalf(erf(z/sqrt(2))))/2;
ed usando MATLAB
F (z) = normcdf(z,0,1)
F (z) = (1+erf(z/sqrt(2)))/2;

probabilità 267
I valori della funzione CDF della variabile normale standardizza-

ta possono essere anche trovati facendo uso di tabelle simili a quella
riportata in appendice; in essa sono indicati i valori di
y
φ = Φ x+
100
dove z Z * * * * * y * * * *
1 2
Φ(z) = √ e−t /2 dt + - - - - - - - - - -
2π 0 + - - - - - - - - - -
+ - - - - - - - - - -
e x, y, φ sono si trovano come segue x - - - - - φ - - - -
Per cui, ad esempio + - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
Z 0.95 Z 0.9+ 5
1 −t2 /2 1 100 2 /2
φ = Φ(0.95) = √ e dt = √ e−t dt = 0.3289
2π 0 2π 0 0 1 2 3 4 5 6 7 8 9
E, similmente, 0.9 - - - - - 0.3289 - - - -
Z 1.58 Z 1.5+ 8
1 2 /2 1 100 2 /2
φ = Φ(1.58) = √ = e−t dt = √ e−t dt = 0.4429
2π 0 2π 0 0 1 2 3 4 5 6 7 8 9
La tabella contiene valori di Φ(z) solo per valori di z compresi tra 1.5 - - - - - - - - 0.4429 -
0 e 3; per valori di z > 3 è ragionevole approssimare Φ(z) con 0.5,
mentre per valori di z negativi si usa il fatto che la funzione densità di
probabilità gaussiana f è una funzione pari e quindi Φ risulta dispari
per cui
Φ(z) = −Φ(−z)
Va inoltre ricordato che talvolta nelle tabelle è riportato il valore
di F per cui si leggono valori che differiscono da quelli di Φ per 0.5;
precisamente si ha
1
F (z) = Φ(z) +
2
16.7.1
Sia Z una variabile aleatoria normale standard (µ = 0 , σ = 1).

Calcoliamo
P(−1 ≤ z ≤ 1)
Z 1
1 2 /2
P(−1 ≤ z ≤ 1) = √ e−t dt =
2π −1
= F (1) − F (−1) = Φ(1) − Φ(−1) = 2Φ(1)
Usando le tabelle si ha
Φ(1) = −Φ(−1) = 0.3413

e
P(−1 ≤ z ≤ 1) = 0.6826
Calcoliamo
P(−2 ≤ z ≤ 2)
Figura 16.15:
Z 2
1 2 /2
P(−2 ≤ z ≤ 2) = √ e−t dt =
2π −2
= F (2) − F (−2) = Φ(2) − Φ(−2) = 2Φ(2)
Φ(2) = −Φ(−2) = 0.4472
e
P(−2 ≤ z ≤ 2) = 0.8944
Calcoliamo
P(−3 ≤ z ≤ 3)
Z 3
1 2 /2
P(−3 ≤ z ≤ 3) = √ e−t dt =
2π −3
= F (3) − F (−3) = Φ(3) − Φ(−3) = 2Φ(3)
Φ(3) = −Φ(−3) = 0.4981
e
P(−3 ≤ z ≤ 3) = 0.9962
Se poi ξ è una variabile aleatoria gaussiana di media µ e varianza

σ2 allora
ξ=µ
z=
σ
P(µ − σ ≤ ξ ≤ µ + σ ) = P(−1 ≤ z ≤ 1) = 0.6826
P(µ − 2σ ≤ ξ ≤ µ + 2σ ) = P(−2 ≤ z ≤ 2) = 0.8944
P(µ − 3σ ≤ ξ ≤ µ + 3σ ) = P(−3 ≤ z ≤ 3) = 0.9962

probabilità 269
16.7.2
Sia z una variabile aleatoria gaussiana standard, calcolare
P(0 ≤ z ≤ 1.2) = Φ(1.2) = .3849
P(−0.68 ≤ z ≤ 0) = −Φ(−0.68) = Φ(0.68) = .2517
16.7.3
Figura 16.16:
P(−0.46 ≤ z ≤ 2.21) = F (2.21) − F (−0.46) =

= Φ(2.21) − Φ(−0.46) = Φ(2.21) + Φ(0.46) = 0.4864 + 0.1772 = 0.6636
Figura 16.17:
16.7.4
Figura 16.18:
P(0.81 ≤ z ≤ 1.94) = F (1.94) − F (0.81) =
= Φ(1.94) − Φ(0.81) = 0.4864 + 0.1772 = 0.6636
16.7.5
Sia z una variabile aleatoria gaussiana standard, calcolare Figura 16.19:
P(z ≥ −1.28) = 1 − F (−1.28) = 1 − 1/2 − Φ(−1.28) =

= 1/2 + Φ(1.28) = 0.5 + 0.3997 = 0.8997
16.8 Calcolo dei valori della CDF Gaussiana Inversa Figura 16.20:
Sia ξ una variabile aleatoria Gaussiana di media µ e di varianza σ2 ; e
ξ−µ
z= (da cui ξ = µ + σz)
σ
la corrispondente variabile aleatoria normale standard.
Sia F la CDF di z, allora

F (z a = P(z ≤ z a ) = A
se e solo se
z a = F −1 ( A )
Il valore z a può essere ancora calcolato mediante programmi di
calcolo.
Ad esempio, usando EXCEL si calcola
z a = NormInv.tex(A,0,1)
mentre usando MAPLE
z a = statevalf[icdf,normald](A);
ed usando MATLAB
z a = NormInv.tex(A,0,1)
z a = sqrt(2)erfinv(2A-1)
I valori della funzione CDF della variabile normale standardizza-
ta possono essere anche trovati facendo uso di tabelle simili a quella
riportata in appendice; in essa sono indicati i valori di
Z x+ y
y 1 100 2 /2
φ = Φ x+ = √ e−t dt
100 2π 0
16.8.1
Sia z una variabile aleatoria e sia z a tale che
P(0 ≤ z ≤ z a ) = 0.3770
Determinare z a
Dalle tavole della CDF Gaussiana Inversa si ricava che
Figura 16.21:
z a = Φ−1 (0.3770) = 1.16
16.8.2
P(z ≤ z a ) = 0.8621
Determinare z a

Figura 16.22:
probabilità 271
z a = F −1 (0.8621) = Φ−1 (0.8621 − 0.5) = 1.09
16.8.3
P(z ≤ z a ) = 0.4332
Determinare z a
Poichè 0.4332 < 0.5 z a è negativo.
Si ha 0.5 − 0.4332 = 0.0668 e
Figura 16.23:
−1 −1 −1
za = F (0.0668) = Φ (0.0668 − 0.5) = −Φ (0.4332) = −1.68
16.9 Approssimazione della Distribuzione Binomiale mediante

la Distribuzione Normale
Qualora il numero di prove n sia grande e nè p nè q siano troppo

piccoli (in pratica si adotta la condizione np, nq ≥ 5), la distribuzione
binomiale può essere approssimata mediante la distribuzione normale
standardizzata.
Se ξ n è (la variabile aleatoria che restituisce) il numero di successi
su n prove bernoulliane con probabilità di successo p, definiamo (una
nuova variabile aleatoria) zn mediante la
ξ n − np √
zn = √ (da cui ξ n = np + npqzn )
npq
zn è una variabile aleatoria con media µ = 0 e varianza σ2 = 1

che per n → +∞ può essere approssimata mediante una variabile
gaussiana standard.
Più precisamente
Z b
1 2 /2
lim P ( a ≤ zn ≤ b) = √ e−t dt
n 2π a
Pertanto

1 √ 1
P (α ≤ ξ n ≤ β) = P α − ≤ np + npqzn ≤ β + =
2 2
!
α − 12 − np β + 1 − np
=P √ ≤ zn ≤ √2
npq npq

Alla luce di tutto ciò, la probabilità che su 10 lanci di una moneta

non truccata si abbiano un numero di teste ξ compreso tra 3 e 6, si può
calcolare tenendo conto che
1
α=3 , β=6 , n = 10 , p=q=
2
!
3 − 21 − 5 6+ 1 −5
P (3 ≤ ξ ≤ 6) = P √ ≤ z n ≤ √2 =
2.5 2.5
= P (−1.58 ≤ zn ≤ 0.95)
Usando le tavole della CDF Gaussiana standardizzata riportate in

appendice;
P (−1.58 ≤ zn ≤ 0.95) = F (0.95) − F (1.58) = 0.4429 + 0.3288 = 0.7718
Possiamo confrontare il risultato con quello ottenuto direttamente

mediante i valori della distribuzione cumulativa binomiale B10 relativa
a 10 lanci; in questo modo si ottiene
B10 (6) − B10 (2) = 0.7734
ed osservare che l’errore di approssimazione commesso è dell’ordne

di 0.0016
16.10 Stima di Probabilità
16.10.1
Una macchina produce n = 10000 pezzi al giorno. La probabilità che
un pezzo sia difettoso è del 20%
Vogliamo poter affermare che nella produzione giornaliera ci sono
almeno n pezzi buoni.
Determinare come dobbiamo scegliere n affinchè la probabilità che
l’affermazione sia corretta risulti superiore al 97.5%.
Sia ξ la variabile aleatoria che restituisce il numero di pezzi non
difettosi prodotti in un giorno.
La probabilità che un pezzo sia difettoso è q = P( D ) = 0.2 mentre
la probabilità che sia buono è p = P( B) = 0.8; ξ ha una distribuzione
binomiale di media µ = np = 10000 ∗ 0.8 = 8000 e di varianza σ2 =
npq = 10000 ∗ 0.16 = 1600, (σ = 40).
Affinche l’affermazione sia corretta occorre che
P(ξ > x ) > 0.975

Figura 16.24:
probabilità 273
Per calcolare il valore di x è conveniente osservare che deve essere

ξ−µ n−µ
P(ξ > n) = P > > 0.975
σ σ
ξ−µ
si può approssimare con una distribuzione normale standard z
σ
x−µ
e se = α deve essere
σ
1 − F (α) = P(z > α) > 0.975
da cui
F (α) < 0.025
ed
α < F −1 (0.025) = −1.96
Ne viene quindi che

n−µ
= α = −1.96
σ
e
x ≤ 8000 − 40 ∗ 1.96 = 7921.6
Concludendo, l’affermazione:
"La produzione giornaliera contiene almeno 7921 pezzi buoni"
è corretta al 97.5%
16.10.2
Una moneta viene lanciata 1000 volte; La probabilità p = P( T ) di
ottenere Testa è uguale alla probabilità q = P(C ) di ottenere Croce ed
entrambe valgono 0.5
Vogliamo determinare m in modo che la probabilità di ottenere più
di m volte Testa sia inferiore al 2.5%.
Sia ξ la variabile aleatoria che restituisce il numero di Teste (succes-
si) ottenuti in n = 1000 lanci.
ξ ha una distribuzione binomiale di media µ = np = 500 e di
√
varianza σ2 = npq = 250, (σ = 5 10 = 15.81).
Per calcolare m osserviamo che

ξ−µ m−µ Figura 16.25:
0.025 > P(ξ > m) = P > >0
σ σ
ξ−µ
si può approssimare con una distribuzione normale standard z
σ
m−µ
e se α =
σ
1 − F (z) = P(z > α) < 0.025
per
α > F −1 (0.025) = 1.96

Ne viene quindi che
m−µ
> α , m ≤ µ + σα
σ
x ≤ 500 + 15.81 ∗ 1.96 = 500 + 30.98 = 530.98
16.10.3
Una macchina produce sfere di acciaio di diametro medio uguale a
4cm.
Su un campione di 100 sfere se ne trovano
• 5 di diametro inferiore a 3.995cm.
• 12 di diametro superiore a 4.005cm.
Valutando la probabilità con le frequenze ottenute e supponendo il

diametro delle sfere prodotte distribuito normalmente con media µ e
varianza σ2 , calcolare µ e σ.
Sia ξ la variabile aleatoria che restituisce il diametro delle sfere
prodotte.
Avremo, valutando la probabilità con le frequenze, che
12
P(ξ > 4.005) =
100
5
P(ξ < 3.995) =
100
e

ξ−µ 4.005 − µ ξ−µ 3.995 − µ
P > = 0.12 , P < = 0.05
σ σ σ σ
ξ −µ
Poichè la variabile aleatoria z = σ è distribuita normalmente con
µ = 0 e σ = 1, posto
3.995 − µ 4.005 − µ
α= , β=
σ σ
affinchè
Figura 16.26: F (z) = P(z < α) = 0.05, 1 − F (z) = P(z > β) = 0.12
deve risultare
α = F −1 (0.12) = −1.645 , β = F −1 (0.88) = 1.175
Pertanto dovrà essere

3.995 − µ 4.005 − µ
= α = −1.645, e = β = 1.175
σ σ

probabilità 275
Se ne deduce che
3.995 − µ = −σ1.645
4.005 − µ = σ1.175
e
0.010 = σ (1.175 + 1.645) = σ2.820
Se ne conclude che
1 1
σ= = 0.0035
100 2.82
e
1 1
µ = 3.995 + 1.645 = 3.995 + 0.0058 = 4.0009
100 2.82
1 1
(µ = 3.995 − 1.175 = 4.005 − 0.0042 = 4.0009)
100 2.82
Assumiamo ora che µ = 4.0009 e cerchiamo di determinare σ in
modo che
2
P(ξ > 4.005) <
100
Ma
ξ−µ
z=
σ
Figura 16.27:
è una variabile aleatoria normalmente distribuita con media 0 e va-
rianza 1 e quindi

4.005 − µ 4.005 − µ
1 − F( )=P z> < 0.02
σ σ
Ne viene che
4.005 − µ
F > 1 − 0.02 = 0.98
σ
e
4.005 − µ
> F −1 (0.98) = 2, 053
σ
4.005 − 4.0009 > σ2.053
4.005 − 4.0009
σ< = 0.0019
2.053
16.10.4
Un parco è servito da due bagni. Si supponga che giornalmente 400
persone facciano uso dei bagni scegliendo a caso uno dei due con
probabilità 12
All’interno di ognuno dei bagni è collocato un dispenser che forni-
sce ogni utente di uno ed un solo asciugamani di carta.
Con quanti asciugamani devono essere riforniti i dispenser affinchè
la probabilità che restino vuoti sia inferiore al 2.5%?

Siano u1 e u2 gli utenti del primo e del secondo bagno, rispettiva-

mente.
Sia N il numero di asciugamani caricati in ciascun dispenser ed
indichiamo semplicemente con u il numero di utenti di uno dei bagni.
Ci interessa assicurare che
P(u > N ) < 0.025
La distribuzione di probabilità di u è binomiale con
1 √ √
n = 400 , p = q = , µ = np = 200 , σ = npq = 100 = 10
2
per cui possiamo normalizzare la variabile aleatoria u ed approssimar-
la mediante una distribuzione gaussiana standard.
Avremo che, posto
u−µ
z=
σ
P(u > N ) < 0.025 è equivalente a

N−µ
P z> < 0.025
σ
quindi

Figura 16.28: N−µ N−µ
1−F =P z> < 0.025
σ σ
e dovrà quindi essere
N−µ
> F −1 (1 − 0.025) = 1.96
σ
da cui
N > µ + σ1.96 = 200 + 10 · 1.96 = 219.6
Dovranno essere quindi caricati in ogni dispenser almeno 220 asciu-

gamani affinchè la probabilità che non si vuotino sia inferiore a 0.025.
16.10.5
Un addetto deve rifornire due macchine distributrici di lattine di una
medesima bibita che sono collocate in punti differenti di uno stesso
edificio.
Si stima che 100 clienti al giorno acquistino da una delle due mac-
chine, scelta a caso con probabilità 12 , una lattina.
Quante lattine devono essere contenute in ciascuna macchina per
essere certi al 97.5% che ogni cliente possa acquistare la propria lattina?
Sia uk , con k = 1, 2, il numero degli utenti della prima e della se-
conda macchina. Affinchè ciascuno di essi possa acquistare la propria

probabilità 277
lattina occorre che, detto nk , con k = 1, 2, il numero di lattine contenute

nella prima e nella seconda macchina rispettivamente.
uk è una variabile aleatoria binomiale di media µ e varianza σ2 con
µ = 50, σ2 = 25, σ=5
che può essere normalizzata ed approssimata da una variabile aleato-

ria gaussiana z normalizzata.
Dovrà risultare
P(uk > nk ) < 0.025

uk − µ n −µ
P( > k ) < 0.025
σ σ
nk −µ
e posto zk = σ
1 − F (zk ) = P(z > zk ) < 0.025
da cui
F (zk ) > 0.975
uk − µ
= zk > F −1 (0.975) = 1.96
σ
nk > 50 + 5 ∗ 1.96 = 59.8
16.10.6
Consideriamo ora lo stesso problema, relativo però a due macchine
che sono usate l’una con probabilità 41 e 34 .
u1 ed u2 sono ancora due variabili aleatorie binomiali che hanno la
stessa varianza
√
2 3 3
σ = 100 , σ = 10 ≈ 4.26
16 4
ed hanno media, rispettivamente,
1 3
µ1 = 100 = 25, µ2 = 100 = 75
4 4
procedendo come sopra si ottiene quindi che deve essere
nk > µk + σ ∗ 1.96 = 59.8
e quindi che
n1 > 25 + 4.26 ∗ 1.96 ≈ 33.35
n2 > 75 + 4.26 ∗ 1.96 =≈ 83.35
Osserviamo che, mentre nel primo caso per rifornire entrambe le
macchine erano necessarie 120 lattine, in questo ne servono soltanto
118.

16.11 Test Statistici
16.11.1
Determinare la probabilità di ottenere in (n =)100 lanci di una moneta
non truccata (p = q = 21 ) un numero di Teste (T) compreso tra 40 e 60.
Si tratta di un processo bernoulliano con media µ e varianza σ2 dati
da
1 11
µ = np = 100 , σ2 = npq = 100 = 25
2 22
Poichè np, nq > 5 possiamo approssimare la distribuzione binomia-
le di Bernoulli utilizzando una distribuzione normale standard con la
stessa media e varianza.
Avremo che

39.5 − µ T−µ 60.5 − µ
P(40 ≤ T ≤ 60) = P ≤ ≤ =
σ σ σ

T−µ
P −2.10 ≤ ≤ 2.10 = 2 · 0.4821 = 0.9642
σ
16.11.2
Figura 16.29:
Vogliamo ora testare l’ipotesi che una moneta non sia truccata.
Allo scopo possiamo procedere come segue:
• lanciamo la moneta 100 volte
• se otteniamo un numero di teste compreso tra 40 e 60 accettiamo

l’ipotesi che la moneta non sia truccata
• se invece otteniamo più di 60 o meno di 40 teste respingiamo l’ipo-

tesi che la moneta non sia truccata
Così facendo siamo guidati dalla convinzione che se si ottengono

un numero troppo alto o troppo basso di teste, se si è verificato cioè
un evento abbastanza raro, la moneta è truccata.
Tuttavia una moneta non truccata può fornire su 100 lanci più di 60
o meno di 40 teste per cui, se ciò fosse accaduto proprio in occasio-
ne della nostra serie di lanci sbaglieremmo a rigettare l’ipotesi che la
moneta non sia truccata.
È allora importante stabilire quale è la probabilità di commettere un
simile errore.
Se la moneta non è truccata otterremo un numero di teste compreso
tra 40 e 60 con probabilità 0.9642, quindi la probabilità che le teste non
siano comprese tra 40 e 60 è
P( T < 40 oppure T > 60) = 1 − 0.9642 = 0.0358

probabilità 279
Qualora ciò accada quindi noi rigetteremmo l’ipotesi che la moneta

non sia truccata, erroneamente.
Ne segue che la probabilià di rigettare l’ipotesi nel caso in cui l’ipo-
tesi sia corretta è 0.0358.
16.11.3
Figura 16.30:
Vogliamo programmare un test ver verificare l’ipotesi che una moneta
non sia truccata disponendo dei risultati di 64 lanci e con un livel-
lo di significatività (probabilità di rigettare l’ipotesi "la moneta non è
truccata" nel caso non sia effettivamente truccata) inferiore o uguale a
0, 01
Rigetteremo l’ipotesi che la moneta non sia truccata nel caso in cui
escano troppe o troppo poche teste; cioè se T > m oppure T < n
Commetteremo un errore (di I specie) nel caso in cui l’ipotesi sia
rigettata, essendo tuttavia vera; cioè nel caso in cui la moneta non
truccata fornisce un numero di teste superiore ad m od inferiore ad n.
La probabilità di tale errore è quindi uguale alla probabilità che esca
un numero di teste superiore ad m od inferiore ad n cioè alla
P( T < n oppure T > m)
e deve essere inferiore o uguale a 0.01, per cui occorre trovare m ed n

in modo che
P( T < n oppure T > m) = 0.01
Per calcolare tale probabilità possiamo approssimare la distribuzio-
ne di Bernoulli con una distribuzione normale standard e poichè
r
1
µ = np = 32 , σ = 64 = 4
4
Possiamo normalizzare la variabile T che restituisce il numero di
teste ponendo
T−µ T − 32
τ= =
σ 4
Avremo quindi che
n − 32
T ≤ n ⇐⇒ τ ≤
4
m − 32
T ≥ m ⇐⇒ τ ≥
4
e deve essere
n − 32 m − 32
0.01 = P( T < n oppure T > m) = P(τ < oppure τ > )
4 4
È ragionevole considerare
n − 32 m − 32
=− = −z a
4 4

per cui essendo τ una variabile aleatoria normale standardizzata, per

la simmetria della PDF Gaussiana, si ricava che deve essere
0.01 = F (−za) + 1 − F (z a ) = 2F (z a )
e
z a = F −1 (0.05) = 2.575
Allora
n − 32
= 2.575
4
e
32 + 2.575 · 4 ≈ 42 , 32 − 2.575 · 4 ≈ 22
Se ne conclude che, per operare con un livello di significatività di
0.01, si accetterà l’ipotesi che la moneta non sia truccata nel caso in cui
Figura 16.31: si verifichi l’uscita di un numero di teste
22 ≤ T ≤ 42
16.11.4 Test statistico di ipotesi

È frequente la necessità di sottoporre a test statistico la validità di una
ipotesi, tuttavia è essenziale ben definire cosa si intende con questo;
infatti il linguaggio usato può essere frainteso se interpretato alla luce
del senso comune.
Definiamo
H0 l’affermazione che vogliamo sottoporre a test
e
Ha o H1 una affermazione alternativa.
Va subito detto che Ha non è necessariamente la negazione di H0
ed anzi, in corrispondenza di una stessa ipotesi H0 si possono pro-
grammare diversi test semplicemente scegliendo differenti ipotesi al-
ternative Ha ciascuna delle quali in grado di mettre in luce differenti
aspetti significativi.
Un esempio classico in grado di illustrare la situazione è il mecca-
nismo di giudizio in un sistema giuridico nel quale:
Un individuo è considerato non colpevole fino a che non è provata
la sua colpevolezza oltre ogni ragionevole dubbio.
Implicitamente una tale affermazione ritiene molto più grave giudi-
care colpevole un non colpevole piuttosto che giudicare non colpevole
un colpevole.
Nei termini prima espressi avremo
H0 non colpevole
e
Ha colpevole oltre ogni ragionevole dubbio.
Rigettare H0 , nel caso in cui H0 sia vera, significa giudicare colpe-
vole un non colpevole ed è considerato più grave di di accettare Ha nel

probabilità 281
caso in cui Ha sia falsa, cioè nel caso in cui si giudichi non colpevole
oltre ragionevole dubbio un colpevole.
Diciamo che si commette un errore di I specie se si rigetta H0 nel
caso in cui H0 è vera. (Si condanna un innocente).
Diciamo che si commette un errore di I I specie se si rigetta Ha nel
caso in cui Ha è vera. (Si assolve un colpevole, ma non oltre ogni
ragionevole dubbio).
Definiamo inoltre
P( errore di I specie) = α livello di significatività del test.
P( errore di I I specie) = β potenza del test.
16.11.5 Uso dei Test statistici.

Illustriamo il concetto di test statistico riprendendo il semplice ma
significativo esempio che abbiamo già in precedenza considerato:
progettare un test per stabilire se una moneta è truccata; possiamo
procedere in diverse maniere che esaminiamo qui di seguito.
Indichiamo con p la probabilità che esca Testa e con q la probabilità
che esca Croce. e lanciamo la moneta 100 volte; chiamiamo T il numero
di teste uscito e stabiliamo di adottare un livello di significatività α =
0.05.
Se la moneta non è truccata T è una variabile aleatoria che ha una
distribuzione binomiale (bernoulliana) di media µ e scarto quadratico
σ dati da
√
µ = np = 50 , σ = npq = 5
e può essere approssimata con una variabile aleatoria normale stan-

dardizzata z definita dalla
nt − µ
z=
σ
16.11.6
H0 la moneta non è truccata cioè p = q = 21 .
Ha la moneta è truccata cioè p 6= 12 , q 6= 12 .
de p > 0.5 oppure se T è troppo piccolo p < 0.5 ed avremo un livello
di significatività α = 0.05 se
P(z < −z a oppure z > z a ) = 0.05
Dovrà quindi essere
0.05 = P(z > z a ) + P(z < −z a ) = 2P(z > z a ) = 2(1 − P(z < z a )) = 2(1 − F (z a ))

da cui
F (z a ) = 1 − 0.025 = 0.975 , z a = F −1 (0.975) = 1.96
Rigetteremo cioè H0 se z < −z a = −1.96 oppure se z > z a = 1.96

cioè se
T−µ T−µ
< −1.96 oppure > 1.96
σ σ
T < µ − 1.96σ ≈ 40 oppure T > µ + 1.96σ ≈ 60
Figura 16.32: Ha che p 6= 0.5 nel caso che il numero di teste uscite sia compreso tra
40 e 60, la probabilità di commettere un errore di prima specie e cioè
di rigettare l’ipotesi la moneta non è truccata, quando realmente non
è truccata, è 0.05
16.11.7
H0 - la moneta non è truccata cioè p = q = 21 .
Ha - la moneta è truccata cioè p > 12 .
de ed se stabiliamo un livello di significatività di α = 0.05 possiamo
calcolare
P(z > z a ) = 0.05 = 1 − F (z a )
da cui
z a = F −1 (0.95) = 2.571
Rigetteremo cioè H0 se se z > z a = 2.571 da cui
T−µ
> 2.571
σ
T > µ + 2.571σ ≈ 63
Figura 16.33: Ha che p > 0.5 nel caso che il numero di teste uscite sia maggiore di
63, la probabilità di commettere un errore di prima specie e cioè di
rigettare l’ipotesi la moneta non è truccata, quando realmente non è
truccata, è 0.05
16.11.8
Con riferimento ai due esempi precedenti osserviamo che se ottenia-
mo un numero di teste T = 62, a parità di livello di significatività, nel
primo caso rigettiamo l’ipotesi che la moneta sia truccata mentre nel

probabilità 283
secondo caso la accettiamo; ciò in conseguenza alla diversa formula-

zione dell’ipotesi Ha che deve essere scelta in modo da esprimere le
esigenze del problema.
Se ad esempio il test è condotto allo scopo si stabilire se è equo
giocare a Testa o Croce con quella moneta e si ha intenzione di puntare
su Testa è chiaro che il secondo test meglio si adatta alla situazione.
16.11.9 Il Test χ2
Si consideri un esperimento in cui sono possibili k uscite
Aj j = 1..k
pj j = 1..k
frequenze di accadimento relative
xj j = 1..k
k ( x j − np j )2
χ2 = ∑ np j
j =1
e si può dimostrare che se np j ≥ 5 z2 si può approssimare me-

diante una distribuzione χ2 con k − 1 gradi di libertà (supponendo
che le frequenze teoriche possano essere stimate senza dover stimare
statisticamente i parametri della popolazione).
Poichè i dati sono discreti e la variabile χ2 è continua può essere
opportuno apportare una correzione allo stimatore usando
k (| x j − np j | − .5)2
χ̄2 = ∑ np j
j =1
χ̄2 si chiama correzione di Yates.

Gli stimatori introdotti possono essere usati in test che tendano a
stabilire se le frequenze teoriche p j siano in accordo con i risultati
ottenuti x j .
16.11.10 Un esempio di applicazione del Test χ2

supponiamo di disporre di una serie di dati e di voler verificare se essi
sono distribuiti in accordo con una certa ipotesi che chiamiamo H0 .
Come esempio possiamo adottare il famoso esperimento di Mendel:

Mendel incrociò tra di loro due tipi di piselli ciascuno dei quali
aveva due caratteri
• la forma del seme: (Liscio o rugoso, L oppure r)
• il colore del seme: (Giallo o verde, G oppure v)
Egli supponeva che
• Liscio e Giallo fossero caratteri dominanti (distinti dall’iniziale

Maiuscola)
• ruvido e verde fossero caratteri recessivi (iniziale minuscola)
egli supponeva cioè che dall’incrocio di due piante si ottenesse

una terza pianta con i caratteri scelti tra i dominanti delle due che
l’avevano generata.
Mendel ottenne 556 piselli che classificò,in base ai caratteri appena

descritti, nella seguente tabella
Caratteri Frequenza osservata

Rotondo Giallo 315
Rotondo verde 108
rugoso Giallo 101
rugoso verde 32
Tabella 16.1: Risultati dell’esperimento di Mendel.
I tipi di piselli possibili sono pertanto 4 ed i possibili incroci sono

16 e possono essere elencati nella tabella 16.1
A LG LG LG LG Lv Lv Lv Lv rG rG rG rG rv rv rv rv
+ + + + + + + + + + + + + + + + +
B LG Lv rG rv LG Lv rG rv LG Lv rG rv LG Lv rG rv
⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓
C LG LG LG LG LG Lv LG Lv LG LG rG rG LG Lv rG rv
Tabella 16.2: Possibili incroci.
dove accanto alle caratteristiche delle piante A e B incrociate sono

riportate le caratteristiche C dell’incrocio.
Dalla tabella si evince che
• un pisello Liscio e Giallo si presenta in 9 casi su 16
• un pisello Liscio e verde si presenta in 3 casi su 16
• un pisello rugoso e Giallo si presenta in 3 casi su 16
• un pisello rugoso e verde si presenta in 1 caso su 16

probabilità 285
per cui possiamo dire che

9
P ( LG ) = 556 = 321.75
16
3
P ( Lv) = 556 = 104.75
16
3
P (rG ) = 556 = 104.75
16
1
P (rv) = 556 = 34.75
16
e possiamo affiancare alle frequenze osservate nella tabella 16.1 le
frequenze previste per ciascun caso e la relativa differenza:
Caratteri Frequenza osservata Frequenza prevista Differenza

fo fp fo − f p
Liscio Giallo 315 312.75 2.25
Liscio verde 108 104.25 3.75
rugoso Giallo 101 104.25 -3.25
rugoso verde 32 34.75 -2.75
Tabella 16.3: Risultati dell’esperimento di Mendel e frequenze previste.
Possiamo ora chiederci se i dati sperimentali confermano l’ipotesi

che abbiamo fatto sui caratteri delle due piante:
Liscio dominante e rugoso recessivo,
Giallo dominante e verde recessivo.
A questo scopo possiamo usare il test del χ2 e calcolare la quantità
fo − f p
p , k = 1, 2, 3, 4
fp
per ognuna delle frequenze.
Sommando i quadrati delle 4 variabili indicate in tabella 16.3 otter-
remo una nuova variabile che, se gli errori sono distribuiti secondo
una gaussiana,è distribuita con una densità χ2 con 3 = 4 − 1 gradi di
libertà.
Calcoliamo quindi
(315 − 312.75)2 (108 − 104.25)2 (101 − 104.25)2 (32 − 34.75)2
χ2 = + + + ≈ 0.47
312.75 104.25 104.25 34.75
e consideriamo la tavola che fornisce i valori di χ2 con 3 gradi di
libertà.
Possiamo osservare che la tavola fornisce l’indicazione che
P (χ2 < .352) = .05

P (χ2 < .584) = .10
P (χ2 < .95) = 7.81
P (χ2 < .584) = 11.3

per cui
.352 < .47 < .584 < 7.81 < 11.3
e pertanto possiamo concludere che se gli eventi fossero casuali

avremmo trovato un evento che accade con probabilità maggiore del
5% ma minore del 10%, per cui possiamo affermare che l’ipotesi fatta
può essere accettata al livello del 90% ma deve essere rifiutata al livello
del 95%
Un secondo esempio di applicazione del test χ2 si trova consideran-
do il seguente problema:
Si supponga di lanciare un dado a forma di tetraedro per 100

volte e di ottenere le seguenti uscite:
1 2 3 4
23 26 24 27
Tabella 16.4:
Ci si pone il problema di stabilire se il dado è non truccato.
100
La frequenza attesa per ciascuno dei punteggi è 4 = 25 e possiamo
quindi calcolare
(23 − 25)2 (26 − 25)2 (24 − 25)2 (27 − 25)2

χ2 = + + + ≈ .4
25 25 25 25
dalla tabella dei valori di χ2 con 4 − 1 = 3 gradi di libertà si ottiene

che
P (χ2 < .352) = .05

P (χ2 < .584) = .10
per cui
P (χ2 < .352) < P (χ2 < .4) < P (χ2 < .584)
per cui, come prima, se il dado fosse truccato, avremmo sperimen-
tato un evento la cui probabilità di accadimento è compresa tra il 5%
ed il 10%, per cui possiamo affermare che l’ipotesi fatta può essere
accettata al livello del 90% ma deve essere rifiutata al livello del 95%
16.11.11
Un’azienda introduce nuove tecniche di produzione per i suoi amplifi-
catori di segnale che sono caratterizzati da un fattore di amplificazione
η.

probabilità 287
In seguito ai cambiamenti introdotti ritiene possibile che la distribu-

zione di η sia gaussiana e a questo scopo misura, in condizioni control-
late, il fattore η su 1000 pezzi scelti casualmente ed ottiene i risultati
che sono riassunti nella seguente tabella.
h < 75 27
75 ≤ h < 80 116
80 ≤ h < 83 148
83 ≤ h < 85 140
85 ≤ h < 87 151
87 ≤ h < 90 188
90 ≤ h < 95 170
95 ≤ h 60
Inoltre la somma delle singole misurazioni di η ammonta a 86100

mentre la somma dei loro qudrati è 7453554.
L’azienda desidera sottoporre a test con livello di significatività del
95% l’ipotesi che la distribuzione dei valori di η sia effettivamente
gaussiana.
Sia n = 1000 il numero di misurazioni effettuate, siano ηi , i =
1..1000 i valori di tali misurazioni e siano a(i ), i = 1..8 i valori che
definiscono le classi
Possiamo innanzi tutto calcolate la media µ e la varianza σ di η sul
campione esaminato. Avremo
s
n
ηi 86100 n ηi2
µ= ∑ n
=
1000
= 86.1 σ= ∑ n
− µ2 = 7453553/1000 − 86.12 =≈ 6.35
0 0
inoltre il vettore delle frequenze ottenute si calcola mediante la

f (i ) = ( a(i )/n) per cui
f = (0.0270, 0.1160, 0.1480, 0.1400, 0.1510, 0.1880, 0.1700, 0.0600)
Possiamo ora calcolare il vettore delle frequenze attese nel caso la
distribuzione di η segua una distribuzione gaussiana di media µ e
varianza σ mediante la

a (1) − µ
f a (1 ) = F −1
σ

a ( i ) −µ a ( i − 1) − µ
f a ( i ) = F −1 − F −1 , i = 2..7
σ σ

a (8) − µ
f a (1 ) = 1 − F −1
σ
dove con F si indica come al solito la CDF di una variabile aleatoria

gaussiana standardizzata.

otteniamo
f a = (0.0403, 0.9597, 0.8316, 0.6872, 0.5687, 0.4437, 0.2696, 0.2696)
Possiamo a questo punto calcolare
8
f (i ) − f a (i ))2
χ2 = ∑ f a (i )
≈ 2.3977
0
Sia ora z a il valore per cui la distribuzione cumulativa di χ2 con 7

(8 − 1, essendo 8 il numero delle classi) è uguale a 0.95. si calcola che
z a ≈ 14.0671
Poichè χ2 ≈ 2.4 < 14.1 ≈ z a possiamo concludere che il valore

trovato "non è più raro del 95% dei casi e quindi l’ipotesi che la di-
stribuzione di η sia gaussiana di media 861 e varianza 6.35 può essere
accettata.
Osserviamo anche che il valore zb per cui la distribuzione cumula-
tiva di χ2 con 7 (8 − 1, essendo 8 il numero delle classi) è uguale a 0.05
è
zb ≈ 2.1673
per cui il valore di χ2 ottenuto non raggiunge nemmeno verso sinistra
la zona in cui la probabilià di cadere è del 5%.
Di seguito è riportato il listato dei comandi di Matlab che consento-
no di eseguire rapidamente i calcoli necessari.
a=[27,116,148,140,151,188,170,60];
m=86100/sum(a);
sigma=sqrt(7453554/1000-mˆ2);
h=[75,80,83,85,87,90,90];
f=a./1000;
fa(1)=normcdf(h(1),m,sigma);
fa(2)=normcdf(h(2),sigma)-normcdf(h(1),m,sigma);
fa(8)=1-normcdf(h(7),m,sigma);
chi2=sum((f-fa).ˆ2./fa);
za=chi2inv(0.95,7);
zb=chi2inv(0.05,7);
m = 86.1000

probabilità 289
sigma = 6.3517
fa =(0.0403 0.9597 0.8316 0.6872 0.5687 0.4437 0.2696 0.2696)
f =(0.0270 0.1160 0.1480 0.1400 0.1510 0.1880 0.1700 0.0600)
chi2 = 2.3977
za = 14.0671
zb = 2.1673
16.11.12
Si supponga di lanciare una moneta 200 volte e di ottenere 115 Teste

e 85 Croci. e si supponga di voler sottoporre a test l’ipotesi H0 che la
moneta sia truccata.
Possiamo definire Ha in parecchi modi ed ottenere altrettanti risul-
tati.
16.11.13
Siano A1 l’evento Testa ed A2 l’evento Croce; con le notazioni prece-

denti avremo
p1 = p2 = 0.5 x1 = 115 x2 = 85 n = 200
e possiamo calcolare
( x1 − np1 )2 ( x2 − np2 )2 (115 − 100)2 (85 − 100)2

z2 = + = + ≈ 4.50
np1 np2 100 100
z2 ha una distribuzione del tipo χ2 con 1 grado di libertà.

Nel caso in cui le frequenze teoriche siano corrette z2 assumerà
valori molto piccoli e possiamo quindi decidere di sottoporre a test
l’ipotesi
H0 la moneta non è truccata, z2 ≤ z a
a fronte dell’ipotesi alternativa
Ha la moneta è truccata, z2 > z a
Il valore χ2a deve essere determinato dal valore di significatività α;
dovremo cioè scegliere χ2a in modo che
P(χ2 > χ2a ) = α
Se α = 0.05, si ricava che a = 3.84 e quindi, poichè z2 = 4.50 si

conclude che la moneta è truccata.
16.11.14
Usando la correzione di Yates otteniamo un valore

(| x1 − np1 | − 0.5)2 (| x2 − np2 | − 0.5)2

χ̄2 = + =
np1 np2
(|115 − 100| − 0.5)2 (|85 − 100| − 0.5)2
= + ≈ 4.205 > 3.84
100 100
anche in questo caso si conclude che la moneta è truccata.
16.11.15
Possiamo anche procedere usando il fatto che il lancio di una moneta
non truccata per 200 volte segue una distribuzione binomiale di media
√
µ = 100 e scarto quadratico σ = 50 ≈ 7.07 ed usando un test a due
code.
Detta z la variabile aleatoria normale standardizzata che approssima
x1 − µ
σ (ricordiamo che x1 è il numero di teste), e scelto un livello di
significatività α = 0.05, possiamo sottoporre a test l’ipotesi
H0 la moneta non è truccata,
a fronte di
Ha la moneta è truccata, z < −z a oppure z > z a
Il valore z a deve essere in modo che
P(z > z a ) = α/2
Se α = 0.05, si ricava che z a = 1.196 e quindi, poichè
115 − 100
z= ≈ 2.12 > 1.196
7.07
si conclude che la moneta è truccata.
16.11.16
Possiamo infine procedere usando il fatto che il lancio di una moneta
non truccata per 200 volte segue una distribuzione binomiale di media
√
µ = 100 e scarto quadratico σ = 50 ≈ 7.07 ed usando un test a una
sola coda.
Come prima, detta z la variabile aleatoria normale standardizzata
x −µ
che approssima 1σ e scelto un livello di significatività α = 0.05,
possiamo sottoporre a test l’ipotesi
H0 la moneta non è truccata,
a fronte di
Ha la moneta è truccata, z > z a
Il valore z a deve essere calcolato in modo che
P(z > z a ) = α

probabilità 291
Se α = 0.05, si ricava che z a = 1.645 e quindi, poichè
115 − 100
z= ≈ 2.12 > 1.645
7.07
si conclude che la moneta è truccata.
16.12 Test sulle Medie
16.12.1
Definiamo una nuova variabile aleatoria ξ̄, che chiamiamo media
ξ 1 + ξ 2 + .. + ξ n
ξ̄ =
n
La distribuzione di probabilità di ξ̄ è detta distribuzione campiona-
ria della media.
allora la media e la varianza di ξ̄ sono date da

2 σ2 σ2
µξ̄ = µ , σξ̄ = , σξ̄ = √
n n
Si può inoltre dimostrare che la variabile aleatoria
ξ̄ − µ
√
σ/ n
ha, per n grande, una distribuzione normale standard.

ξ̄ −µ
√ si usa come stimatore della media.
σ/ n
16.12.2
Un produttore afferma che che la vita media delle lampade di sua
produzione è µ = 1600 ore Vogliamo sottoporre a test l’affermazione
con un livello di significatività α = 0.04 e α = 0.01.
Consideriamo un campione di 100 lampade e verifichiamone la vita
media.
Supponiamo di ottenere vita media ξ̄ = 1570 ore e scarto quadratico
σξ̄ = 120 ore
Consideriamo l’ipotesi
H0 - µ = 1600
Ha - µ < 1600

Usando σξ̄ come stima di σ avremo che
ξ̄ − µ 1570 − 1600
√ = √ ≈ −2.50
σ/ n 120/ 100
ξ̄ −µ
Poichè √ è una variabile asintoticamente normale si ha che
σ/ n

ξ̄ − µ
P √ < za = 0.04 se z a = −1.751
σ/ n
mentre

ξ̄ − µ
P √ < za = 0.01 se z a = −2.326
σ/ n
Poichè
−2.50 < −2.326 < −1.752
Figura 16.34: Il valore che abbiamo ottenuto ha probabilità di uscire, nel caso in
cui H0 sia vera, inferiore a 0.01. Ne segue che H0 va rigettata sia al
livello di significatività 0.04 sia al livello 0.01.
16.12.3
Il carico medio di rottura di un cavo è µ = 1800 kg con una varianza
σ2 = 100 kg.
Il produttore afferma di aver migliorato la tecnica di produzione e
di aver aumentato il carico medio di rottura.
Si provano 50 cavi e si riscontra una carico medio di rottura ξ̄ =
1850 kg.
È corretto sostenere l’affermazione con un livello di significatività
α = 0.01?
Possiamo sottoporre a test l’ipotesi
H0 - µ = 1800 kg.
Ha - µ > 1800 kg.
Calcoliamo
ξ̄ − µ 1850 − 1800
√ = √ ≈ 3.55
σ/ n 100/ 50
ξ̄ −µ
Poichè √ è una variabile asintoticamente normale si ha che
σ/ n

ξ̄ − µ
P √ > za = 0.01 se z a = 2.326
σ/ n
Poichè
2.326 < 3.55
Figura 16.35: il valore che abbiamo ottenuto ha probabilità di uscire, nel caso in cui
H0 sia vera, inferiore a 0.01. Ne segue che H0 va rigettata al livello di
significatività 0.01 e quindi l’affermazione del produttore può essere
accettata con lo stesso livello di significatività.

probabilità 293
16.13 Test sulle Varianze
16.13.1
Definiamo una nuova variabile aleatoria s2 , che chiamiamo varianza
(ξ 1 − ξ̄ )2 + (ξ 2 − ξ̄ )2 + .. + (ξ n − ξ̄ )2
s2 =
n
La distribuzione di probabilità di s2 è detta distribuzione campio-

naria della varianza.
allora la media di s2 è data da
n−1 2
µ s2 = σ
n
Inoltre se la popolazione è distribuita normalmente, la variabile
aleatoria definita da
ns2
σ2
ha una distribuzione di tipo χ2 con n − 1 gradi di libertà.
ns2
σ2
si usa come stimatore della varianza.
16.13.2
Nel passato la deviazione standard del peso di certe confezioni da 40.
g. è stata σ = 0.25 g.
L’esame di un campione casuale di 20 confezioni ha accertato una
deviazione standard di 0.32 g.
Stabilire se l’apparente aumento è significativo a livello α = 0.05 e
α = 0.01.
Possiamo sottoporre a test l’ipotesi
H0 - σ = 0.25 g.
Ha - σ > 0.25 g.
Calcoliamo
ns2 20 · 0.32
2
= ≈ 32.8
σ 0.25
ns2
Poichè σ2
ha una distribuzione di tipo χ2 con 19 gradi di libertà

ns2
P > za = 0.05 se z a = 30.1
σ2

mentre
ns2
P > za = 0.01 se z a = 36.2
σ2
Poichè
30.1 < 32.8 < 36.1
il valore che abbiamo ottenuto ha probabilità di uscire, nel caso in cui
H0 sia vera, inferiore a 0.05 ma superiore a 0.01.
Ne segue che H0 va rigettata al livello di significatività 0.05 ma non
può essere rifiutata al livello 0.01
16.14 Il Problema del compleanno

Figura 16.36:
Se in una stanza sono presenti N persone , qual’è la probabilità

che almeno due tra loro abbiano lo stesso compleanno?
Esistono 366 compleanni diversi (tra i possibili compleanni c’è anche

il 29 febbraio degli anni bisestili).
La probabilità che 2 persone abbiano compleanni diversi è :
366 365
P2 =
366 366
La probabilità che 3 persone abbiano tutte compleanni diversi è :
366 365 364

P3 =
366 366 366
La probabilità che 4 persone abbiano tutte compleanni diversi è :
366 365 364 363 366!

P4 = =
366 366 366 366 362!3664
La probabilità che n persone abbiano compleanni diversi è :
366!
Pn =
(366 − n)!366n
Si calcola che
366!
P50 = ≈ 0.03
(316)!36650
366!
P60 = ≈ 0.006
(306)!36660
Possiamo allora chiederci:
Quante persone ci devono essere in una stanza affinchè almeno

due tra esse abbiano lo stesso compleanno?

probabilità 295
Se sono presenti n persone, la probabilità che tutte abbiano com-

pleanni diversi è
366!
Pn =
(366 − n)!366n
Affinchè almeno due tra esse abbiano lo stesso compleanno ciò non
deve accadere e quindi occorre calcolare la probabilità Qn dell’evento
complementare a
Tutte e n le persone hanno compleanni diversi.
la cui probabilità è Pn
Pertanto
366!
Qn = 1 − Pn = 1 −
(366 − n)!366n
Q50 = 1 − 0.03 = 0.97
Q60 = 1 − 0.006 = 0.994
16.15 Il Paradosso di Bertrand
Data una circonferenza di raggio 1, calcolare la probabilità di

√
tracciare una corda di lunghezza inferiore a 3 (il lato di un
triangolo equilatero in essa inscritto).
Possiamo procedere in diversi modi.
16.15.1
• Consideriamo un punto sulla circonferenza e un valore
h π πi
θ∈ − ,
2 2
• disegniamo una corda che passa per il punto fissato e forma un
angolo θ con il diametro per il punto fissato.
√
Avremo una corda inferiore a 3 se
π
|θ | ≥
6
√
e quindi la probabilità di ottenere una corda inferiore a 3 è
Figura 16.37:
π− π
3 2
=
π 3

16.15.2
Potremmo anche procedere come segue:
• consideriamo un punto su un raggio della circonferenza cioè un

valore
t ∈ [0, 1]
• disegniamo una corda che passa per il punto fissato perpendicolare

al raggio.
√
Avremo una corda inferiore a 3 se
1
t ∈ [ , 1]
2
√
e quindi la probabilità di ottenere una corda inferiore a 3è
Figura 16.38:
1
2
16.15.3
Potremmo infine procedere così
1
• consideriamo un cerchio di raggio 2 e scegliamo un punto a caso
nel cerchio
• disegniamo una corda che passa per il punto fissato perpendicolare

al raggio che passa per il punto scelto.
√
Avremo una corda inferiore a 3 se il punto è stato scelto nella
corona circolare che ha area
π
π−
4
Figura 16.39: √
e quindi la probabilità di ottenere una corda inferiore a 3è
3
4π 3
=
π 4

17. Qualche esempio..
17.1
17.1.1
Sia ξ una variabile aleatoria avente densità f , di media 0 e varianza 1.
Determinare media e varianza della variabile aleatoria η = 3ξ + 7.
1 ...
Si ha Z x
P (ξ ≤ x ) = f (t)dt
−∞
e
Z x −7 Z x
x−7 3 1 s−7
P (3ξ + 7 ≤ x ) = P (ξ ≤ )= f (t)dt = f( )ds
3 −∞ −∞ 3 3
Quindi
1 s−7
f(
φ(s) = )
3 3
è la PDF della variabile aleatoria η = 3ξ + 7.
Ne segue che la sua media µ e la sua varianza σ possono essere calcolate
mediante le
Z x Z +∞
s s−7
µ= sφ(s)ds = f( )ds =
−∞ −∞ 3 3
Z +∞ Z +∞ Z +∞
= (3t + 7) f (t)dt = 3 s f (s)ds + 7 f (s)ds = 7
−∞ −∞ −∞
mentre
Z +∞ Z +∞
( s − 7)2 s−7
σ2 = (s − 7)2 φ(s)ds = f( )ds =
−∞ −∞ 3 3
Z +∞
= 9s2 f (s)ds = 9
−∞
e
σ=3
2 6
17.1.2
Si considerino nel piano i punti
(0, 4) (1, 4) (2, 3) (3, 2) (4, 2)
Determinare la retta di regressione ed il coefficiente di correlazione tra

le variabili x ed y
1 ...
Chiamiamo x = (0 , 1 , 2 , 3 , 4) ed y = (4 , 4 , 3 , 2 , 2) i vettori delle

ascisse e delle ordinate dei punti assegnati.
Sia
y = ax + b
la retta di regressione ad essi relativa.

Si ha che deve essere
ȳ = a x̄ + b
dove x̄ = 15 ∑5i=1 xi e ȳ = 1
5 ∑5i=1 yi sono le medie, rispettivamente dei valori
assunti da x e da y e che
∑5i=1 ( xi − x̄ )(yi − ȳ)

a=
∑5i=1 ( xi − x̄ )2
mentre il coefficiente di correlazione r è dato da
∑5i=1 ( xi − x̄ )(yi − ȳ)

r= q q
5
∑ i =1 i
( x − x̄ ) 2 ∑5i=1 ( xi − x̄ )2
Eseguendo i calcoli si trova che
x̄ = 2
ȳ = 3
a = −0.6
b = 4.2
r = −0.9487
A titolo di esempio riportiamo le istruzioni mediante le quali possiamo

eseguire i calcoli usando Matlab
x=[0 1 2 3 4]

probabilità 299
y=[4 4 3 2 2]
polyfit(x,y,1)
xm=mean(x)
ym=mean(y)
a=(sum((x-xm).*(y-ym)))/(sum((x-xm).ˆ 2))
b=ym-a*xm
r=(sum((x-xm).*(y-ym)))/...
( sqrt(sum((x-xm).ˆ 2))* sqrt(sum((y-ym).ˆ 2)))
u=a*x+b
Possiamo anche trovare la retta di regressione nella forma
x = cy + d
In tal caso useremo formule simili alle precedenti dove il ruolo di x e di y è

scambiato. I calcoli ci forniscono
c = −1.5
d = 6.5
e possono essere eseguiti con Matlab come segue

c=(sum((x-xm).*(y-ym)))/(sum((y-ym).ˆ 2))
d=xm-c*ym
v=(x-d)/c
I vettori u e v che sono stati calcolati, forniscono le ordinate delle rette di
regressione che abbiamo trovato. Usando l’istruzione
plot(x,y,x,u,x,v)
possiamo disegnare i grafici delle due rette ed osservare come esse appros-
simino i valori dati.
Osserviamo inoltre che il valore del coefficiente di correlazione è vicino ad
1 e quindi i dati sono ben correlati, cioè le due rette che abbiamo trovato, che
passano necessariamente per il punti ( x̄, ȳ), formano un angolo piccolo il cui
coseno è proprio il coefficiente di correlazione r. Figura 17.1:
2 6
17.1.3
Determinare la probabilità di ottenere, in 100 lanci di una moneta (non
truccata), un numero di ‘teste‘ compreso tra 45 e 60.
1 ...

La variabile aleatoria b che restituisce il numero di successi (teste) ottenuti

in n = 100 ripetizioni di una prova bernoulliana (lancio della moneta) in cui
la probabilità di successo è p = 0.5, è binomiale di media
µ = np = 50
e varianza
σ2 = npq = np(1 − p) = 25 , σ=5

b−µ
È noto che, per n grande (np > 5) σ si può approssimare con una
variabile aleatoria gaussiana standardizzata ξ per cui:
45 − µ b−µ 60 − µ
P (45 ≤ b ≤ 60) = P ( ≤ ≤ )=
σ σ σ
45 − µ 60 − µ 60 − µ 45 − µ
= P( ≤ξ≤ ) = F( ) − F( )
σ σ σ σ
dove F rappresenta come al solito la CDF della variabile Gaussiana standar-
dizzata.
60 − µ 45 − µ
F( ) − F( ) ≈ 0.8186
σ σ
usando Matlab, mediante l’istruzione
normcdf((60-50)/5,0,1)-normcdf((45-50)/5,0,1)
ovviamente lo stesso risultato si ottiene mediante la
normcdf(60,50,5)-normcdf(45,50,5)
possiamo anche apportare una correzione per tenere conto del fatto che b è
discreta mentre ξ è continua e calcolare:
60.5 − µ 44.5 − µ
F( ) − F( ) ≈ 0.8465
σ σ
mediante la normcdf((60.5-50)/5,0,1)-normcdf((44.5-50)/5,0,1)
Infine possiamo anche usare direttamente la distribuzione binomiale calco-
lando
P (45 ≤ b ≤ 60) = G (b) − G ( a) ≈ 0.8468

dove G rappresenta la CDF della variabile binomiale di media 50 e varianza
5, mediante la
data=[45:1:60]
pdata=binopdf(data,100,0.5)
dd=sum(pdata)
2 6

probabilità 301
17.2
17.2.1
(0, 0) (1, 0) (1, 1) (2, 1)
Determinare la retta di regressione tra le variabili x ed y
1 ...
Chiamiamo x = (0, 1, 1, 2) ed y = (0, 0, 1, 1) i vettori delle ascisse e delle

ordinate dei punti assegnati.
Sia
y = ax + b

Si ha che deve essere
ȳ = a x̄ + b
dove x̄ = 41 ∑4i=1 xi e ȳ = 1
assunti da x e da y e che
∑4i=1 ( xi − x̄ )(yi − ȳ)

a=
∑4i=1 ( xi − x̄ )2
∑4i=1 ( xi − x̄ )(yi − ȳ)

r= q q
∑4i=1 ( xi − x̄ )2 ∑4i=1 ( xi − x̄ )2
x̄ = 1
1
ȳ =
2
1
a=
2
b=0
r = 0.7071

x=[0 1 1 2]
y=[0 0 1 1]

polyfit(x,y,1)
xm=mean(x)
ym=mean(y)
b=ym-a*xm
r=(sum((x-xm).*(y-ym)))/...
u=a*x+b
x = cy + d
Useremo formule simili alle precedenti dove il ruolo di x e di y, è scambiato. I

calcoli ci forniscono
c=1
1
d=
2

d=xm-c*ym
v=(x-d)/c
I vettori u e v che sono stati calcolati, forniscono le ordinate delle rette di re-
gressione che abbiamo trovato. Usando l’istruzione plot(x,y,x,u,x,v) pos-
siamo disegnare i grafici delle due rette ed osservare come esse approssimino i
Figura 17.2: valori dati.
Il valore del coefficiente di correlazione è abbastanza vicino ad 1 e quindi
i dati sono abbastanza ben correlati: le due rette che abbiamo trovato, che
passano necessariamente per il punti ( x̄, ȳ), formano un angolo abbastanza
piccolo il cui coseno è il coefficiente di correlazione r.
2 6
17.2.2
Sia f , la funzione rappresentata nel seguente grafico
Determinarne a in modo che f rappresenti la densità di una varia-
Figura 17.3: bile aleatoria X e successivamente calcolarne media e varianza.
1 ...

probabilità 303
Affinchè f rappresenti la densità di probabilità di una variabile aleatoria

occorre che sia positiva e quindi dovrà intanto essere a > 0.
Inoltre deve aversi
Z +∞ Z 1 Z 2
1= f ( x )dx = axdx + adx =
−∞ 0 1
x2 1 2
a 3
=a + ax = + 2a − a = a
2 0 1 2 2
2
Pertanto a = 3 e per calcolare media e varianza possiamo procedere come
segue.
Z +∞ Z 1 Z 2
x3 1 x2 2
µ= x f ( x )dx = ax2 dx + axdx = a +a =
−∞ 0 1 3 0 2 1
1 4 1 11
= a+ a− a = a
3 2 2 6
Z +∞
Z 1 Z 2
2 2 11 2 3 2 11 2
σ = x f ( x )dx − a = ax dx + ax dx − a =
−∞ 6 0 1 6

x4 1 x3 2 11 2 1 8 1 11 2
= a +a − a = a+ a− a− a =
4 0 3 1 6 4 3 3 6

31 11 2 74
= a− a =
12 6 324
2 6
17.2.3
Si consideri un dado sulle cui 6 facce sono segnati i punteggi 1, 1, 2, 2, 3, 3
(tutti con eguale probabilità); determinare la probabilità che la somma
dei punteggi ottenuti in 150 lanci sia compresa tra 280 e 310.
1 ...
La variabile aleatoria b che restituisce la somma dei punteggi si può otte-

nere come somma di n = 150 variabili aleatorie xi la cui media e varianza
sono date da
1 1 2
µi = (1 + 2 + 3) = 2 , σi2 = ((1 − 2)2 + (2 − 2)2 + (3 − 2)2 ) =
3 3 3
Pertanto la media e la varianza di di b sono date da

r
2
√ 2
µ = nµi = 300 , σ = nσi2 , σ= nσi = 150 = 10
3
b−µ
Per il teorema limite centrale la variabile aleatoria σ si può approssimare
con una variabile aleatoria gaussiana standardizzata ξ per cui:
280 − µ b−µ 310 − µ

P (280 ≤ b ≤ 310) = P ( ≤ ≤ )=
σ σ σ
280 − µ 310 − µ 280 − µ 310 − µ
= P( ≤ξ≤ ) = F( ) − F( )
σ σ σ σ
dove F rappresenta la CDF della variabile Gaussiana standardizzata.
310 − µ 280 − µ
F( ) − F( ) ≈ 0.8186
σ σ
Possiamo anche apportare una correzione per tenere conto del fatto che b è
310.5 − µ 279..5 − µ
F( ) − F( ) ≈ 0.8460
σ σ
I risultati riportati si possono ottenere dalle seguenti istruzioni Matlab
dado=[1,1,2,2,3,3]
dadom=mean(dado)
dadov=var(dado,1)
mu=150*dadom
sigma=sqrt(150*dadov)
normcdf(310,mu,sigma)-normcdf(280,mu,sigma)
normcdf((310-mu)/sigma,0,1)-normcdf((280-mu)/sigma,0,1)
normcdf((310.5-mu)/sigma,0,1)-normcdf((275.5-mu)/sigma,0,1)
Vale la pena osservare che
normcdf(310,mu,sigma)-normcdf(280,mu,sigma)
normcdf((310-mu)/sigma,0,1)-normcdf((280-mu)/sigma,0,1)
eseguono lo stesso calcolo e che si è calcolato la varianza del vettore dado
mediante l’istruzione var(dado,1).
Matlab infatti, dato un vettore x = ( xi ) di dati equiprobabili calcola
n n
1 1
var ( x ) = ∑ x = var ( x, 0)
n−1 1 i
e var ( x, 1) =
n ∑ xi
1
2 6

probabilità 305
17.3
17.3.1
(1, 1/2) (2, 5/2) (3, 7/2) (4, 7/2)
Determinare la retta di regressione tra le variabili x ed y ed il coeffi-

ciente di correlazione.
1 ...
Chiamiamo x = (1 , 2 , 3 , 4) ed y = (1/2 , 5/2 , 7/2 , 7/2) i vettori delle

ascisse e delle ordinate dei punti assegnati.
Sia
y = ax + b
Deve essere
ȳ = a x̄ + b
dove x̄ = 41 ∑4i=1 xi e ȳ = 1
di x e da y e che
∑4i=1 ( xi − x̄ )(yi − ȳ)

a=
∑4i=1 ( xi − x̄ )2
∑4i=1 ( xi − x̄ )(yi − ȳ)

r= q q
∑4i=1 ( xi − x̄ )2 ∑4i=1 ( xi − x̄ )2
x̄ = 2.5
ȳ = 2.5
a=1
b=0
r = 0.9129

x=[1 2 3 4]
y=[1/2 5/2 7/2 7/2]
polyfit(x,y,1)

xm=mean(x)
ym=mean(y)
b=ym-a*xm
r=(sum((x-xm).*(y-ym)))/...
u=a*x+b
x = cy + d
Useremo formule simili alle precedenti dove il ruolo di x e di y è scambiato. I

5
c=
6
5
d=
12

d=xm-c*ym
v=(x-d)/c
plot(x,y,x,u,x,v)
Il valore del coefficiente di correlazione è abbastanza vicino ad 1 e quindi
i dati sono abbastanza ben correlati: le due rette che abbiamo trovato, che
passano necessariamente per il punti ( x̄, ȳ), formano un angolo abbastanza
Figura 17.4: piccolo il cui coseno è il coefficiente di correlazione r.
2 6
17.3.2
Sia ξ, la variabile aleatoria la cui funzione densità è definita da

2x x ∈ [0, 1]
ϕ( x ) =
0 altrove
Calcolare media e varianza di ξ.

probabilità 307
1 ...
La media è data da
Z +∞ Z 1
x3 1 2
µ = xϕ( x )dx = 2x2 dx = 2 =
−∞ 0 3 0 3
mentre la varianza è
Z +∞ 2 Z 1
2 4 x4 1 4
σ2 = x2 ϕ( x )dx − = 2x3 dx − = 2 − =
−∞ 3 0 9 4 0 9
2 4 1
= − =
4 9 18
2 6
17.4
17.4.1
(0, 0) (1, 1) (1, 3) (2, 4)
Determinare la retta di regressione tra le variabili x ed y ed il coeffi-

ciente di correlazione.
1 ...
Chiamiamo x = (0 , 1 , 1 , 2) ed y = (0 , 1 , 3 , 4) i vettori delle ascisse e

delle ordinate dei punti assegnati.
Sia
y = ax + b

Deve essere
ȳ = a x̄ + b
dove x̄ = 41 ∑4i=1 xi e ȳ = 1
di x e da y e che
∑4i=1 ( xi − x̄ )(yi − ȳ)

a=
∑4i=1 ( xi − x̄ )2

∑4i=1 ( xi − x̄ )(yi − ȳ)

r= q q
∑4i=1 ( xi − x̄ )2 ∑4i=1 ( xi − x̄ )2
x̄ = 1
ȳ = 2
a=2
b=0
r = 0.8944

x=[0 1 1 2]
y=[0 1 3 4]
polyfit(x,y,1)
xm=mean(x)
ym=mean(y)
b=ym-a*xm
r=(sum((x-xm).*(y-ym)))/...
u=a*x+b
x = cy + d
Useremo formule simili alle precedenti dove il ruolo di x e di y è scambiato. I

2
c=
5
1
d=
5

d=xm-c*ym
v=(x-d)/c
plot(x,y,x,u,x,v)

probabilità 309
Il valore del coefficiente di correlazione è abbastanza vicino ad 1 e quindi i
dati sono abbastanza ben correlati: le due rette che abbiamo trovato, che passa-
no necessariamente per il punti ( x̄, ȳ), formano un angolo abbastanza piccolo
il cui coseno è il coefficiente di correlazione r. 2 6
Figura 17.5:
17.4.2
Si considerino tre urne I, I I e I I I che
B N
contengono Gettoni Bianchi e Neri co-
I 7 3
me riportato nella tabella a fianco Si sce-
II 5 5
glie un’urna casualmente e si estrae un
III 3 7
gettone dall’urna prescelta.
La probabilità di uscita di ciascuna urna è 13 . Calcolare la probabilità
che l’estrazione sia avvenuta dall’urna I, dall’urna I I o dall’urna I I I
sapendo che è stato estratto un gettone Nero
1 ...
Indichiamo con
P ( C |U )
la probabilità di estrarre un Gettone di colore C dall’urna U. (Probabilità di

estrarre un gettone di colore C condizionata al fatto che l’estrazione avvenga
dall’urna U)
Avremo che
3 7
P (N| I) = P ( B| I ) =
10 10
1 1
P (N| I I) = P ( B| I I ) =
2 2
7 3
P (N| I I I) = P ( B| I I I ) =
10 10
Inoltre, poichè ognuna delle tre urne può essere scelta con egual probabilità
avremo
P (I) = P (I I) = P (I I I)
e, per il teorema di Bayes

P ( N | I )P ( I )
P ( I|N) = =
P ( N | I )P ( I ) + P ( N | I I )P ( I I ) + P ( N | I I I )P ( I I I )
3 1
10 3 3
= 3 1 11 7 1
=
10 3 + 2 3 + 10 3
15
P ( N | I I )P ( I )
P ( I I|N) = =
5 1
10 3 5
3 1 11 7 1
=
10 3 + 2 3 + 10 3
15
P ( N | I I I I )P ( I I I )
P ( I I I|N) = =
7 1
10 3 7
3 1 11 7 1
=
10 3 + 2 3 + 10 3
15
2 6
Si consideri una moneta truccata in modo che Testa esca con proba-
bilità 15 e Croce esca con probabilità 54 . Determinare la probabilità che
si abbia un numero di teste compreso tra 1980 e 2040. avendo lanciato
la moneta 10000 volte.
1 ...
Sia b la variabile aleatoria che restituisce il numero di successi (teste) ot-

tenuti in n = 10000 ripetizioni della prova bernoulliana effetuata lanciando
una moneta con probabilità di ottenere Testa p = 0.2 e probabilità di ottenere
croce q = 0.8.
b è binomiale di media
µ = np = 2000
e varianza
σ2 = npq = 1600 , σ = 40
b−µ
È noto che, per n grande (np > 5) σ si può approssimare con una
variabile aleatoria gaussiana standardizzata ξ per cui:
1980 − µ b−µ 2040 − µ

P (1980 ≤ b ≤ 2040) = P ( ≤ ≤ )=
σ σ σ
1980 − µ 2040 − µ 2040 − µ 1980 − µ
= P( ≤ξ≤ ) = F( ) − F( )
σ σ σ σ

probabilità 311
dove F è la CDF della variabile Gaussiana standardizzata.

2040 − µ 1980 − µ
F( ) − F( ) ≈ 0.532807
σ σ
usando Matlab, mediante l’istruzione
normcdf((2040-2000)/40,0,1)-normcdf((1980-2000)/40,0,1)
ovviamente lo stesso risultato si ottiene mediante la
normcdf(2040,2000,40)-normcdf(1980,2000,40)
possiamo anche apportare una correzione per tenere conto del fattoche b è
60.5 − µ 44.5 − µ
F( ) − F( ) ≈ 0.5402
σ σ
mediante la
normcdf((2040.5-2000)/40,0,1)-normcdf((1979.5-2000)/40,0,1)
Infine possiamo anche usare direttamente la distribuzione binomiale calco-
lando
P (1980 ≤ b ≤ 2040) = G (b) − G ( a) ≈ 0.539541

dove G rappresenta la CDF della variabile binomiale di media 50 e varianza
5, mediante la
data=[1980:1:2040]
pdata=binopdf(data,10000,0.2)
dd.tex=sum(pdata)
2 6
17.5
Si consideri una variabile aleatoria x la cui distribuzione di probabilità

(PDF) è del tipo


 2t − t2 t ∈ [0, 1]





a
f ( t ) = t4 t>1





 t<0
0

Determinare a in modo che f sia una distribuzione di probabilità
1 ...

Affinchè f sia una distribuzione di probabilità occorre innanzi tutto che

a ≥ 0. Inoltre dovrà essere
Z +∞
f (t)dt = 1
−∞
Quindi
Z +∞ Z 1 Z +∞
2 a
1= f (t)dt = 2t − t dt + dt =
−∞ 0 1 t4
1 1 t−3 +∞ 1 1 1
= t2 − t3 − a = 1− + a = 1 − (1 − a )
3 0 3 1 3 3 3
e si dovrà scegliere a = 1.
Calcolare la media µ e la varianza σ2 di x
1 ...
Z +∞ Z 1 Z +∞
1
µ= t f (t)dt = 2t2 − t3 dt + dt =
−∞ 0 t3 1
2 1 1 t−2 +∞ 2 1 1 11
= t3 − t4 − = − + =
3 4 0 2 1 3 4 2 12
inoltre
Z +∞ Z +∞
σ2 = (t − µ)2 f (t)dt = ( t2 f (t)dt)2 − µ2
−∞ −∞
e
Z +∞ Z 1 Z +∞
1
t2 f (t)dt = 2t3 − t4 dt + dt =
−∞ −0 1 t2
2 4 1 5 1 1 +∞ 2 1 13
= t − t − = − +1 =
4 5 0 t 1 4 5 10
Da cui
Z +∞ 2
2 2 13 11
σ = (t − µ) f (t)dt = − ≈ 1.2236
−∞ 10 12
σ≈
2 6

probabilità 313
Calcolare la probabilità che la variabile aleatoria x assuma valori

compresi tra 0 e 4
1 ...
Z 4 Z 1 Z 4
1
P (0 ≤ x ≤ 4) = t2 f (t)dt = 2t − t2 dt + dt =
0 0 1 t4
1 1 t−3 4 1 1 1 191
= t2 − t3 − = 1− + − = ≈ 0.9948
3 0 3 1 3 3 192 192
2 6
Stimare usando la disuguaglianza di Tchebichev
P (| x − µ| > 1)
1 ...
P (| x − µ| > 1) ≤ σ2 ≈ 1.2236
Evidentemente in questo caso la disuguaglianza di Tchebichev non produce

risultati significativi.
2 6
17.5.1
Per andare dal punto A al punto B posso seguire la strada I o la strada
I I.
Nel 80% dei casi scelgo la strada I I.
La probabilità di avere ritardo seguendo la strada I è del 10%
La probabilità di avere ritardo seguendo la strada I I è del 15%
Poichè sono arrivato in ritardo qual è la la probabilità che io abbia
seguito la strada I
1 ...

Indichiamo con P ( I ), (P ( I I )), la probabilità di scegliere la strada I,(I I),

con P ( R) la probabilità di avere ritardo e con P ( R0 ) la probabilità di non
avere ritardo.
P ( I ) = 0.2 , P ( I I ) = 0.8
P ( R| I ) = 0.1 , P ( R| I I ) = 0.15
Quindi per la regola di Bayes,
P ( R| I )P ( I ) 0.1 ∗ 0.2 1
P ( I | R) = = =
P ( R| I )P ( I ) + P ( R| I I )P ( I I ) 0.1 ∗ 0.2 + 0.15 ∗ 0.8 7
2 6
Se non sono arrivato in ritardo qual è la la probabilità che io abbia

seguito la strada I
1 ...
P ( R0 | I ) = 0.9 , P ( R0 | I I ) = 0.85
Quindi per la regola di Bayes,
P ( R0 | I )P ( I ) 0.9 ∗ 0.2 9
P ( I | R0 ) = 0 0
= =
P ( R | I )P ( I ) + P ( R | I I )P ( I I ) 0.9 ∗ 0.2 + 0.85 ∗ 0.8 43
2 6
17.6
Si consideri una variabile aleatoria ξ la cui distribuzione di probabilità

(PDF) è del tipo
 at
e
 t≤0

f (t) =

 bt
t>0
e
Determinare a, b in modo che f sia una distribuzione di probabilità

e che ξ abbia media 0.5.

probabilità 315
1 ...
Poichè f è una funzione positiva, affinchè sia una PDF, sarà sufficiente
verificare che
Z +∞
f (t)dt = 1
−∞
Dovrà pertanto aversi che a > 0 e b < 0 perchè sia garantita la convergenza
dell’integrale che definisce µ ed inoltre poichè
Z +∞ Z 0 Z +∞
f (t)dt = f (t)dt + f (t)dt =
−∞ −∞ 0
Z 0 Z +∞
1 at 0 1 +∞
= e at dt + ebt dt = e + ebt =
−∞ 0 a −∞ b 0
1 1 b−a
= − =
a b ab
dovrà risultare
b−a
=1
ab
e
ab = b − a
La media della variabile aleatoria definita da f è data da

Z +∞
µ= t f (t)dt
−∞
e
Z +∞ Z 0 Z +∞
t f (t)dt = te at dt + tebt dt =
−∞ −∞ 0
Z 0 at Z +∞ bt
e at 0 e ebt +∞ e
= t − dt + t − dt =
a −∞ −∞ a b 0 0 b
1 1
=− 2
+ 2
a b
Per cui dovrà aversi
1 1 1
− 2 =
b2 a 2
Pertanto per soddisfare le richieste occorre che

1 = b − a
ab
 1 = a22−b22 = a−b a+b = − a+b
2 a b ab ab ab
e
b − a = ab = −2( a + b)
Se ne deduce che 
 a = −3b
4b = −3b2

da cui
4
a=4 b=−
3
2 6
Stabilire se è più probabile che ξ assuma valori maggiori o minori

della media.
1 ...
Si ha
Z +∞
4 3 4 +∞ 3 41 3 2
P (ξ ≥ µ) = e− 3 t dt = − e− 3 t 1 = e− 3 2 = e− 3 ≈ 0.3851
1
2
4 2
4 4
Ovviamente
P (ξ ≤ µ) = 1 − P (ξ ≥ µ)
come possiamo anche calcolare direttamente
Z 0 Z
1 4t 0 3 4 2
1 1
2 4
P (ξ ≤ µ) = e4t dt + e− 3 t dt = e − e− 3 t =
−∞ 0 4 −∞ 4 0
1 3 3 −2 3 2
+ − e 3 = 1 − e− 3 ≈
4 4 4 4
Quindi
P (ξ ≤ µ) > P (ξ ≥ µ)
2 6
Calcolare la probabilità che la variabile aleatoria x assuma valori

compresi tra −1 e 1
1 ...

probabilità 317
Z 0 Z 1
4
P (−1 ≤ ξ ≤ 1) = e4t dt + e− 3 t dt =
−1 0
Z 0 Z 1
− 43 t 1 4t 0 3 4 1
e4t dt + e dt = e − e− 3 t =
−1 0 4 −1 4 0
1 3 4
(1 − e −4 ) + (1 − e − 3 ) ≈
4 4
2 6
Calcolare la probabilità che la variabile aleatoria ξ assuma valori

compresi tra −5 e 1 condizionata al fatto che ξ assuma valori positivi.
P (0 ≤ ξ ≤ 1)
P (−5 ≤ ξ ≤ 1|ξ ≥ 0) = =
P ( ξ > 0)
4 1

R 1 −4t − 34 e− 3 t 3 − 34 )
e 4 (1 − e
3 dt 4
= R +0∞ 4 = 0
= = 1 − e− 3 ≈
− t − 4 t +∞ 3
0 e 3 dt 3
−4e 3 4
0
Sia ξ lo scarto in grammi dal valore nominale del peso di una

confezione di merce.
Esaminando una particolare confezione si rileva che pesa 1.5 gram-
mi più del peso nominale; se si rigetta l’ipotesi che ξ abbia come PDF
la funzione f determinata in precedenza, calcolare la probabilità di
commettere un errore di I specie (rigettare l’ipotesi nel caso l’ipotesi
sia vera)
1 ...
Nel caso in cui ξ rappresenti lo scarto in grammi dal valore nominale, la

probabilità di avere una confezione con peso superiore a quello nominale di
1.5 grammi è
Z +∞
4 3 4 +∞ 3 43 3
P (ξ > 1.5) = e− 3 t dt = − e− 3 t 3 = e− 3 2 = e−2 ≈ 0.1015
3
2
4 2
4 4
Quindi se, avendo osservato un peso superiore a quello nominale di 1.5

grammi, rigettiamo l’ipotesi che ξ rappresenti lo scarto, commetteremo un
errore con probabilità del 10%.

Ciò significa che, con un livello di confidenza α = 90%, avendo osservato

un peso superiore a quello nominale di 1.5 grammi, rigetteremo l’ipotesi che
ξ rappresenti lo scarto.
2 6
17.7
Un’azienda dispone di due linee di produzione per tubi di diame-

tro (medio) d = 100mm. La prima linea (Linea1) produce tubi il cui
diametro è distribuito normalmente con scarto quadratico σ1 = 1mm
mentre la seconda (Linea2) produce tubi il cui diametro è distribuito
normalmente con scarto quadratico σ2 = 0.5mm.
La produzione media giornaliera è di 300 pezzi di cui 180 prodotti
dalla prima linea e 120 prodotti dalla seconda.
Calcolare la probabilità che un pezzo prodotto dalla Linea1 abbia
diametro compreso tra 99.5mm e 100.5mm.
1 ...
Sia δi la variabile aleatoria che rappresenta il diametro dei tubi prodotti

dalla Linea i; δi è una variabile gaussiana di media d e varianza σi .
Sia
δ −d
ξi = i
σi
ξ 1 è una variabile aleatoria gaussiana standardizzata e si ha
99.5 − d δ −d 100.5 − d
P (99.5 ≤ δ1 ≤ 100.5) = P ( ≤ 1 ≤ )=
σ1 σ1 σ1
= P (−0.5 ≤ ξ 1 ≤ 0.5) = F (0.5) − F (−0.5) ≈ 0.691 − 0.309 ≈ 0.382
dove F indica come al solito la densità di probabilità cumulativa della

variabile normale standardizzata. Calcolando con Excel
=Normdist.tex(0.5,0,1,TRUE)-Normdist.tex(-0.5,0,1,TRUE)≈ 0.3829.
2 6

diametro minore di 99.5mm e maggiore di 100.5mm.

probabilità 319
1 ...
Similmente
δ1 − d 99.5 − d
P (δ1 ≤ 99.5) = P ( ≤ )=
σ1 σ1
= P (ξ 1 ≤ −0.5) = F (−0.5) ≈ 0.309
P (δ1 ≥ 100.5) = P ( δ1σ−1 d ≥ 100.5−d

σ1 ) =
= P (ξ 1 ≥ 0.5) = 1 − F (0.5) ≈ 0.309
Calcolando con Excel

Normdist.tex(-0.5,0,1,TRUE) e 1-Normdist.tex(0.5,0,1,TRUE).
Calcolare la probabilità che un pezzo prodotto dalla Linea2 abbia diametro
compreso tra 99.5mm e 100.5mm.
99.5 − d δ −d 100.5 − d
P (99.5 ≤ δ2 ≤ 100.5) = P ( ≤ 2 ≤ )=
σ2 σ2 σ2
= P (−1 ≤ ξ 1 ≤ 1) = F (1) − F (−1) ≈ 0.841 − 0.159 ≈ 0.683
dove F indica come al solito la densità di probabilità cumulativa della variabile

normale standardizzata.
2 6

diametro minore di 99.5mm e maggiore di 100.5mm.
1 ...
δ2 − d 99.5 − d
P (δ2 ≤ 99.5) = P ( ≤ ) = P (ξ 2 ≤ −1) = F (−0.5) ≈ 0.159
σ2 σ2
e
δ2 − d 100.5 − d
P (δ2 ≥ 100.5) = P ( ≥ ) = P (ξ 2 ≥ 1) = 1 − F (1) ≈ 0.159
σ2 σ2
2 6

Calcolare la probabilità che un pezzo prodotto abbia diametro mi-

nore di 99.5mm e maggiore di 100.5mm.
1 ...
La probabilità che un tubo sia prodotto dalla linea i si può calcolare me-
diante le
180 3 120 2
P ( L1 ) = = = 0.6 P ( L2 ) = = = 0.4
300 5 300 5
per cui, se δ è la variabile aleatoria che rappresenta il diametro dei tubi
prodotti
P (δ ≤ 99.5.5) = P (δ ≤ 99.5| L1 )P ( L1 ) + P (δ ≤ 99.5| L2 )P ( L2 ) =

= P (δ1 ≤ 99.5)P ( L1 ) + P (δ2 ≤ 99.5)P ( L2 ) ≈
≈ 0.309 ∗ 0.6 + 0.159 ∗ 0.4 ≈ 0.249
P (δ ≥ 100.5.5) = P (δ ≥ 100.5| L1 )P ( L1 ) + P (δ ≥ 100.5| L2 )P ( L2 ) =

= P (δ2 ≥ 100.5)P ( L1 ) + P (δ2 ≥ 100.5)P ( L2 ) ≈
≈ 0.309 ∗ 0.6 + 0.159 ∗ 0.4 ≈ 0.249
2 6
Calcolare la probabilità che un pezzo prodotto abbia diametro com-

preso tra 99.5mm e 100.5mm.
1 ...
Similmente
P (99.5 ≤ δ ≤ 100.5) = P (99.5 ≤ δ ≤ 100.5| L1 )P ( L1 ) + P (99.5 ≤ δ ≤ 100.5| L2 )P ( L2 )

= P (99.5 ≤ δ1 ≤ 100.5)P ( L1 ) + P (99.5 ≤ δ2 ≤ 100.5)P ( L3 ) ≈ 0.383 ∗ 0.6 + 0.683 ∗ 0.4 ≈
2 6

probabilità 321
Vengono considerati difettosi i tubi il cui diametro differisce dalla

media per più del 0.5%.
Calcolare la probabilità che un pezzo difettoso della produzione
giornaliera provenga dalla Linea1
1 ...
Indichiamo con D l’evento il tubo è difettoso.
P ( D ) = P (δ ≥ 100.5.5) + P (δ ≤ 99.5.5) = 0.498
P ( D | L1 ) = P (δ1 ≥ 100.5.5) + P (δ1 ≤ 99.5.5) = 0.318
P ( D | L2 ) = P (δ2 ≥ 100.5.5) + P (δ2 ≤ 99.5.5) = 0.618
Usando la Regola di Bayes otteniamo
P ( D | Li )P ( Li )
P ( Li | D ) =
P ( D | L2 )P ( L2 ) + P ( D | L2 )P ( L2 )
per cui
0.618 ∗ 0.6
P ( L1 | D ) = ≈ 0.744
0.618 ∗ 0.6 + 0.318 ∗ 0.4
0.318 ∗ 0.4
P ( L2 | D ) = ≈ 0.256
0.618 ∗ 0.6 + 0.318 ∗ 0.4
2 6
17.8
In un impianto le sferette prodotte vengono raccolte in due contenitori

ai quali giungono dopo aver percorso un tubo che ad un certo punto si
sdoppia in due rami che portano ciascuno ad uno dei due contenitori.
Le sferette hanno probabilità 0.5 di percorrere uno dei due rami e
quindi di essere smistate nel corrispondente contenitore.
Si calcoli quante sferette deve poter contenere ogni contenitore af-
finchè nessuno dei due contenitori debba essere svuotato durante il
giorno con un livello di significatività del 2.5%, tenendo conto che la
produzione giornaliera è di 10000 sferette.
1 ...

Una sferetta finisce nel contenitore C1 casualmente con probabilità p = 0.5

e nel contenitore C2 probabilità q = 0.5 e la prova è ripetuta per ognuna delle
sferette prodotte.
Quindi il numero delle sferette che finiscono nel contenitore Ci è descritto
da una variabile aleatoria binomiale bi relativa ai parametri
• Numero delle prove n = 10000
• Probabilità di successo p = 0.5 (o equivalentemente q = 0.5)
per cui si ha che media e varianza sono date da
µ = np = 5000 σ2 = npq = 2500 σ = 50
Se N è il numero di sferette che possono essere contenute in Ci , esso dovrà

essere svuotato non appena si abbia che bi > N; se vogliamo che il contenitore
non debba essere svuotato con un livello di significatività del 2.5% dovremo
assicurarci che
P (bi > N ) < 0.025
bi , essendo np > 5, può essere normalizzata ed approssimata mediante una

variabile aleatoria gaussiana standard ξ i e si ha che
bi − µ N−µ N−µ
P ( bi > N ) = P ( > ) = P (ξ i > )
σ σ σ
Dovremo quindi determinare N in modo che
N−µ N−µ N−µ

0.025 > P (ξ i > ) = 1 − P (ξ i < )1 − F ( )
σ σ σ
dove F indica come al solito la densità di probabilità cumulativa della variabile
normale standardizzata.
Ne viene che
N−µ
F( ) > 1 − 0.025 = 0.975
σ
e
N−µ
> F −1 (0.975) ≈ 1.96
σ
come si vede ad esempio usando la seguente istruzione di Excel
NormInv(0.975,0,1)
Se ne conclude che deve essere
N > µ + σ 1.96 = 5000 + 50 ∗ 1.96 = 5097.99 ≈ 5098
2 6

probabilità 323
Un dado viene lanciato 100 volte con l’intento di stabilire se è stato

truccato in modo da alterare la probabilità di uscita dei numeri pari
rispetto a quella dei numeri dispari.
Determinare i limiti entro i quali devono mantenersi i numeri di
uscite di un pari affinchè si possa sostenere che il dado non è truccato
con un livello di significatività del 5%.
1 ...
L’uscita di un pari o di un dispari nel lancio di un dado è il risultato di

una prova bernoulliana in cui probabilità di successo e di insuccesso valgono
p = q = 1/2. Il numero di pari o di dispari può quindi essere rappresentato
da una variabile aleatoria δ binomiale con n = 100 di media e varianza date
da
µ = np = 100 ∗ 0.5 = 50 σ2 = npq = 100 ∗ 0.25 = 25 σ=5
Possiamo ritenere che il dado non sia truccato se il numero di pari o di

dispari non è troppo lontano dal valore medio µ Cioè se
µ−k ≤ δ ≤ µ+k
Naturalmente nulla impedisce che un dado non truccato restituisca su 100

lanci 100 numeri pari, tuttavia la probabilità che ciò accada è piccola e quindi
diremo che siamo certi che il dado non è truccato con un livello di significati-
vità del 5% se
[
P ((δ < µ − k) (δ > µ + k)) < 0.05
ovvero se
[
P ((δ − µ < −k) (δ − mu > k)) < 0.05
Dal momento che np = 50 possiamo usare una variabile aleatoria gaus-
siana standardizzata ξ per approssimare ognuna delle δ − µ, π − µ dopo che
siano state standardizzate ed avremo che
[
0.05 = P ((δ − µ < −k) (δ − mu > k)) =
δ−µ k [ δ − mu k
= P (( <− ) ( > )) =
σ σ σ σ
k [ k k
= P ((ξ < − ) (ξ > ) = 2 ∗ (1 − F ( )))
σ σ σ
dove F indica la densità di probabilità cumulativa della variabile normale
standardizzata.
Ne segue che

k
2 ∗ (1 − F ( )) = 0.05
σ
e
k
> F −1 (0.975) ≈ 1.96
σ
Se ne conclude che deve essere
k > σ 1.96 = 5 ∗ 1.96 = 9.8 = 9
per cui riterremo no truccato il dado se il numero di pari, o equivalentemente

di dispari, uscito è compreso tra 41 e 59.
2 6
Determinare i limiti entro i quali devono mantenersi i numeri di

uscite di un pari affinchè si possa sostenere che il dado non è truccato
in modo da favorire l’uscita di un pari con un livello di significatività
del 5%.
1 ...
Nel caso in cui ci interessi stabilire che il dado non favorisce l’uscita di pari
dovremo determinare k in modo che
P (δ > µ + k) = 0.05
Avremo, con le stesse notazioni precedenti,
δ−µ k k k
P (δ − mu > k) = P ( > ) = 1 − F ( ) = p(ξ ) > ) = 0.05
σ σ σ σ
e
k
= F −1(0.95) = 1.645
σ
(con Excel NormInv(0.95,0,1)) da cui
k = σ 1.645 = 5 ∗ 1.645 = 8.2 ≈ 8
per cui riterremo no truccato il dado se il numero di dispari, uscito inferiore a

58.
2 6

probabilità 325
17.9
Un’azienda produce stagionalmente 300 cassette ciascuna contenente

24 mele. La produzione è suddivisa in due classi di qualità A e B
in proporzione del 30% e del 70%, rispettivamente, per la stagione in
esame.
Supponendo di non effettuare nessun controllo prima di suddivide-
re la produzione in cassette, calcolare la probabilità che una cassetta
contenga 0, 1 o al più una mela di categoria B.
1 ...
La produzione stagionale ammonta a
300 × 24 = 7200 mele
Indichiamo con m ∈ A e m ∈ B il fatto che una mela m sia di classe A o B,

rispettivamente, avremo che
3 7
P (m ∈ A) = = 0.3 = p , P (m ∈ B) = = 0.7 = q
10 10
Poichè la produzione è stagionale e le cassette sono confezionate durante
l’arco di tutta la stagione supponiamo che la probabilità P (m ∈ A)e P (m ∈
B) rimanga costante.
Lo riempimento di una cassetta è un processo bernoulliano e se intendiamo
contare le mele di classe B che essa contiene definiamo ’successo’ il fatto di
scegliere una mela di classe B. Sia ξ la variabile aleatoria che restituisce il
numero di mele di classe B contenute nella cassetta.
24
0 0 24 3
P ( ξ = 0) = q p = ≈ 0.28 × 10−12
24 10
23
1 1 23 7 3
P ( ξ = 1) = q p = 24 ≈ 0.16 × 10−10
24 10 10
mentre
P (ξ ≤ 1) = P (ξ = 0) + P (ξ = 1) ≈ 0.16 × 10−10
2 6
Si supponga poi di introdurre un controllo di qualità in grado di

riconoscere che una mela è di classe A con certezza e di attribuire ad
una mela di classe B la qualifica di classe A nel 5% dei casi.

Calcolare la probabilità che una cassetta di classe A contenga 0, 1

o al più una mela di categoria B nell’ipotesi che venga effettuato tale
controllo.
1 ...
Dopo aver introdotto il controllo di qualità le mele sono divise in due cate-
gorie C A e CB e vengono confezionate le cassette considerando di classe A le
mele in C A .
C A conterrà le mele effettivamente di classe A più quelle di classe B clas-
sificate di classe A dal controllo di qualità. quindi in tutto

3 7 5 13
(300 × 24) + × = (300 × 24) = 2340
10 10 100 40
mele che serviranno per riempire

13
(300) ≈ 97
40
cassette che saranno definite di classe A nel confezionare le quali si procederà
estraendo dalla classe A in cui però sarà possibile trovare mele di classe B con
probabilità
P (C A | B)P ( B)
pC = P ( B |C A ) = =
P (C A | B)P ( B) + P (C A | A)P ( A)
5 7
100 10 7
= 5 7 3
= ≈ 0.1
100 10 + 1 10
67
La probabilità che una cassetta selezionata di classe A contenga 0, 1 o al più

una mela di classe B è data da una variabile bernoulliana ξ C relativa ad una
probabilià di successo pC e si ha
24
0 0 24 7
P ( ξ C = 0) = qC pC = ≈ 10−24
24 67
23
1 1 23 60 7
P ( ξ C = 1) = q p = 24 ≈ 10−23
24 C C 67 67
mentre
P (ξ C ≤ 1) = P (ξ C = 0) + P (ξ C = 1) ≈ 10−23
2 6

probabilità 327
In questa seconda ipotesi quante cassette di classe A vengono confe-

zionate? 1 ...
Vengono confezionate 97 cassette 2 6
Supponendo che una cassetta non selezionata possa essere venduta

ad un prezzo p, che una cassetta di presunta classe A possa subire un
incremento di prezzo del 30% e una cassetta di classe B una diminu-
zione del 20%, calcolare quanto è conveniente investire nel controllo
di qualità.
1 ...
nel caso non si introduca il controllo di qualità si potranno vendere 300

cassette a prezzo p ricavando
R = 300p
, mentre se si introduce il controllo si potranno vendere 97 cassette a prezzo

3 2
p + p 10 e 203 cassette a prezzo p − p 10 con un ricavo

3 2 577
RC = 97 p + p + 203 p − p = p∗
10 10 2
Il confronto tra R ed RC mostra che non è conveniente introdurre il control-

lo. 2 6
Osserviamo che l’uso della distribuzione binomiale non è corretto

in quanto il processo di scelta delle mele per lo riempimento delle
cassette è un processo di estrazione senza reintroduzione.
Per tenere conto di questo fatto occorrerebbe usare la distribuzio-
ne ipergeometrica in luogo della distribuzione binomiale. tuttavia
poichè il numero di mele è grande possiamo approssimare la distri-
buzione ipergeometrica con la distribuzione binomiale senza perdere
seignificatività.
Se infatti supponiamo che ξ sia ipergeometrica di parametri 5040
(casi favorevoli), 2160 ( casi contrari) e 24 ( numero delle estrazioni),
possiamo calcolare che

P (ξ = 0) =≈ 0.26 × 10−12
P (ξ = 1) =≈ 0.15 × 10−10
mentre
P (ξ ≤ 1) = P (ξ = 0) + P (ξ = 1) ≈ 0.15 × 10−10
Come è evidente i risultati sono praticamente identici.

Riportiamo le istruzioni per calcolare con MAPLE le probabilità
cercate:
Ad esempio
> statevalf[pf,binomiald[24,.7]](1);
per calcolare il valore della distribuzione di probabilità binomiale
relativa a 24 estrazioni con probabilià di successo .7 in 1. (probabilità
di ottenere 1 successo in 24 tentativi con probabilità di successo 0.7).
> statevalf[pf,hypergeometric[5040, 2160, 24]](1);
per calcolare il valore della distribuzione di probabilità ipergeome-
trica di parametri 5040 (casi favorevoli), 2160 ( casi contrari) e 24 ( nu-
mero delle estrazioni) in 1. (probabilità di ottenere 1 successo estraen-
do per 24 volte da una popolazione in cui ci sono 5040 casi favorevoli
e 2160 casi contrari).
Concludiamo poi riportando i grafici e le istruzioni per ottenerli con
MAPLE delle due distribuzioni di probabilità usate.
> with(plots);
> with(stats):
> with(plottools);
> bino:=statevalf[pf,binomiald[24,.7]](t):
> bi :=unapply(bino,t):
> biGph:=plot([seq([[k-1,bi(k)],[k,bi(k)],[k,bi(k+1)]]
> ,k=1..23)],color=yellow, thickness=6):
> hype:=statevalf[pf,hypergeometric[5040, 2160, 24]](t):
> hy :=unapply(hype,t):
> hyGph:=plot([seq([[k-1,hy(k)],[k,hy(k)],[k,hy(k+1)]],
> k=1..23)],color=blue, thickness=1):
> display(hyGph,biGph);
Figura 17.6:

probabilità 329
17.10
Si consideri una prova bernoulliana in cui la probabilità di successo p

è incognita. Si consideri poi la variabile aleatoria ξ che restituisce il
numero di successi ottenuti su n prove effettuate. Esprimere la media
µ = µ(n, p) e lo scarto quadratico medio σ = σ (n, p) di ξ in funzione
del numero di ripetizioni n e della probabilità di successo p.
Si osservano i valori assunti da ξ in m casi e si rileva che ξ assume
valori maggiori di k in a casi si chiede, alternativamente, di stimare
p in funzione di n, m, k, a oppure per n = 100, m = 10000, k = 75,
a = 8732.
1 ...
La variabile aleatoria ξ ha una distribuzione binomiale la cui media e

varianza sono
µ(n, p) = np , σ2 (n, p) = np(1 − p)
Per np > 5 possiamo standardizzare ξ ed approssimarla mediante una

gaussiana di media 0 e varianza 1.
Se consideriamo un campione costituito da m valori di cui a hanno valore
superiore a k avremo che, detta F la CDF Gaussiana standard,

k−µ ξ−µ k−µ a
1−F = > =
σ σ σ m
da cui
k−µ a
F = 1−
σ m
Ne segue che deve risultare
k−µ a
= F −1 1 − =α
σ m
e q
(k − np) = α (np(1 − p))
da cui
(k − np)2 = α2 (np(1 − p))
Svolgendo i calcoli si ottiene un’equazione di secondo grado
p2 (n2 + α2 n) − p(2kn + α2 n) + k2 = 0
che ha per soluzioni
√
2nk + α2 n ± 4n2 k2 α2 + α4 n2 − 4k2 α2 n
2n(n + α2 )

Delle due soluzioni va scelta quella in corrispondenza della quale k − np

ed α hanno lo stesso segno in quanto elevando al quadrato abbiamo perso tale
informazione.
Di seguito è riportato il codice Maple per eseguire i calcoli nell’esempio
numerico proposto.
> with(stats);
> n:=100:
> m:=10000:
> m := 100000:
> k:=75:
> a:=8732:
> alpha:=statevalf[icdf,normald](1-a/m);
α := 1.357444553
> eq:=p^2*(n^2+alpha^2*n)-p*(2*k*n+alpha^2*n) +k^2;
eq := 10184.26557 p2 − 15184.26557 p + 5625

> sol:=solve(eq,p);
sol := 0.8038969807, 0.6870564382
> k-n*sol[1];
−5.38969807
> k-n*sol[2];
6.29435618
Dal momento che α > 0 avremo quindi che p = 0.68705 in quanto in
corrispondenza di tale soluzione si ha k = np > 0.
2 6
17.11
L’azienda A produce componenti elettronici che l’azienda B utilizza

per la produzione delle sue apparecchiature. B quindi acquista da A
componenti in partite di N pezzi ciascuna.
Ciascuna partita di componenti contiene pezzi difettosi con proba-
bilità p0 , tuttavia, introducendo un controllo di qualità più efficiente,
la probabilità di trovare pezzi difettosi si riduce a p1 .
A afferma di aver introdotto tale controllo (cq) e B, per verificare
la veridicità dell’affermazione, effettua un campionamento estraendo,
con reintroduzione, n pezzi e verificando se sono difettosi. B trova che
degli n pezzi estratti q sono difettosi; indichiamo questo evento con
Dq .
q
È vero che, nel caso in cui il controllo sia stato effettuato n = p1 ?
Giustificare brevemente.

probabilità 331
Calcolare la probabilità di Dq supponendo che P (Cq) = 0 cioè che

il controllo di qualità non sia stato effettuato.
Calcolare la probabilità di Dq supponendo che P (Cq) = 1 cioè che
il controllo di qualità sia stato effettuato.
Calcolare la probabilità di Dq supponendo assegnata la probabilità
P (Cq) = t che il controllo di qualità sia stato effettuato.
Se assumiamo che P (Cq) = t come possiamo aggiornare la stima
di P (Cq) sapendo che Dq è accaduto?
1 ...
q
Intanto non è chiaramente sempre vero che n = p1 ; infatti se ad esempio
consideriamo una partita di N = 10000 pezzi per i quali p1 = 0.01 e se ci
capita di estrarre gli n = 100 pezzi difettosi che tale partita contiene avremo
q
q = 100 e 1 = n 6= p1 = 0.01
Se P (Cq) = 0 avremo che la probabilità di estrarre un pezzo difettoso è p0
per cui
n q
P ( Dq ) = p (1 − p0 ) n − q
q 0
trattandosi di un esperimento bernoulliano in cui la probabilità di successo
(estrarre un pezzo difettoso) è p0 .
Analogamente Se P (Cq) = 1 avremo che la probabilità di estrarre un
pezzo difettoso è p1 per cui

n q
P ( Dq ) = p (1 − p1 ) n − q
q 1
trattandosi di un esperimento bernoulliano in cui la probabilità di successo
(estrarre un pezzo difettoso) è p1 .
Nel caso in cui sia noto che P (Cq) = t , possiamo calcolare
P ( Dq ) = P ( Dq |Cq)P (Cq) + P ( Dq |Cqc )P (Cqc ) =

= P ( Dq |Cq)P (Cq) + P ( Dq |Cqc )(1 − P (Cq))
e

n q n q
P ( Dq ) = t p1 (1 − p1 ) n − q + (1 − t ) p0 (1 − p0 ) n − q
q q
Possiamo aggiornare la stima di P (Cq) sapendo che Dq è accaduto, calco-
lando
P ( Dq |Cq)P (Cq)
P (Cq| Dq ) = =
P ( Dq |Cq)P (Cq) + P ( Dq |Cqc )P (Cqc )
q
t(nq) p1 (1 − p1 )n−q
= q

q

t (nq) p1 (1 − p1 )n−q + (1 − t) (nq) p0 (1 − p0 )n−q

Fin qui abbiamo supposto che il Controllo di qualità sia stato applicato
all’intero lotto; nel caso in cui invece tale controllo sia stato applicato con
probabilità t ad ogni singolo pezzo, la probabilià P ( D1 ) di estrarre un pezzo
difettoso si può calcolare mediante la
P ( D1 ) = P ( D1 |Cq)P (Cq) + P ( D1 |Cqc )P (Cqc ) = p1 t + p0 (1 − t)
e

n
P ( Dq0 ) = ( p1 t + p0 (1 − t))q (1 − p1 t − p0 (1 − t))n−q 6= P ( Dq0 )
q
Ne deduciamo che gli eventi "estrazione di un pezzo " non sono, in tal caso,
indipendenti.
Si ha che P ( Dq ) = P ( Dq0 ) nel caso in cui si sappia che il controllo di
qualità è effettuato con probabilità t su ogni singolo pezzo. In tal caso invece,
gli eventi "estrazione di un pezzo " sono indipendenti.
2 6
17.12
Il numero di automobili in transito al casello di un località turistica

durante il weekend dipende dalle condizioni meteorologiche e può es-
sere descritto dalla variabile aleatoria x nel caso il tempo sia soleggiato
y nel caso il tempo sia nuvoloso e z in caso di cattivo tempo.
Le densità di probabilità di x, y, e z sono rispettivamente date da:
Rappresentare graficamen-
x < 300 300 < x < 800 x > 800
te la PDF di x, y, z.
10% 30% 60% Supponendo che,durante l’e-
state, la probabilità di una gior-
nata soleggiata sia del 65%, che
y < 300 300 < y < 800 y > 800 si abbia un cielo nuvoloso nel
20% 50% 30% 25% dei casi e che si abbia cat-
tivo tempo nel restante 10%,
determinare la PDF della va-
z < 300 300 < z < 800 z > 800 riabile aleatoria che descrive il
50% 40% 10% numero di auto in transito.
Considerato un week end in cui si sia registrato un numero di auto

compreso tra 300 e 800 , calcolare la probabilità che il tempo sia stato
soleggiato.

probabilità 333
Si consideri poi la seguente tabella che riporta i dati di 1000 osser-

vazioni del numero di auto in transito durante l’inverno relativamente
alle condizioni metereologiche
x < 300 300 < x < 800 x > 800

Buone 100 300 150
Cattive 150 250 50
Determinare la distribuzione di probabilità delle variabili aleatorie

ξ, η che rappresentano il numero di auto in transito rispettivamente
quando ci sono buone o cattive condizioni meteorologiche.
Determinare la distribuzione di probabilità delle variabili aleatorie
σ1 , σ2 , σ3 che rappresentano lo stato delle condizioni meteorologiche
nel caso in cui il numero si transiti sia, rispettivamente, inferiore a 300
compreso tra 300 e 800 o superiore a 800.
Stabilire se il numero di transiti è indipendente dalle condizioni
meteorologiche.
1 ...
Indichiamo con T1 l’evento il numero di transiti è inferiore a 300 T2

l’evento il numero di transiti è compreso tra 300 ed 800 T3 l’evento il
numero di transiti è superiore a 800
La PDF delle variabili aleatorie x, y, z puo’ essere rappresentata come
segue:
x < 300 300 < x < 800 x > 800 y < 300 300 < y < 800 y > 800

z < 300 300 < z < 800 z > 800
inoltre , se indichiamo con S l’evento il tempo è soleggiato con N l’evento

il tempo è nuvoloso e con C l’evento il tempo è cattivo avremo
P (S) = 0.65 , P ( N ) = 0.25 , P (C ) = 0.10
e
P ( Tk ) = P ( Tk |S)P (S) + P ( Tk | N )P ( N )P ( Tk |C )P (C )
Si ottiene che
10 65 20 25 50 10 650 + 500 + 500 1650

P ( T1 ) = + + = =
100 100 100 100 100 100 10000 10000
30 65 50 25 40 10 1950 + 1250 + 400 3600

P ( T2 ) = + + = =
100 100 100 100 100 100 10000 10000
10 65 20 25 50 10 3900 + 750 + 100 4750
P ( T3 ) = + + = =
100 100 100 100 100 100 10000 10000
ed il grafico della PDF della variabile aleatoria t che rappresenta il numero
dei transiti può essere rappresentata come segue.
t < 300 300 < t < 800 t > 800
Possiamo calcolare la probabilità di S ammesso che sia accaduto T2 come

probabilità 335
P ( T2 |S)P (S)
P (S| T2 ) = =
P ( T2 |S)P (S) + P ( T2 | N )P ( N ) + P ( T2 |C )P (C )
30 · 65 1950 195
= = = ≈ 0.3319
30 · 65 + 50 · 25 + 40 · 10 1950 + 1250 + 500 360
Manteniamo ora le notazioni per T1 , T2 e T3 ed indichiamo con B l’;evento
il tempo è buono e con C l’;evento il tempo è cattivo
Per quanto riguarda ξ e η si ha
10 30 15
P (ξ < 300) = , P (300 < ξ < 800) = , P (ξ > 800) =
55 55 55
15 25 5
P (η < 300) = , P (300 < η < 800) = , P (η > 800) =
45 45 45
mentre per identificare σ1 , σ2 , σ3 è sufficiente osservare che
10 15
P (σ1 = B) = , P (σ1 = C ) =
25 25
30 25
P (σ2 = B) = , P (σ2 = C ) =
55 55
15 5
P (σ3 = B) = , P (σ3 = C ) =
30 30
Per stabilire se il numeri di transiti e le condizioni del tempo sono indipen-
denti possiamo osservare che la PDF delle due variabili aleatorie congiunte è
la seguente.
x < 300 300 < x < 800 x > 800

Buone 0.1 0.3 0.15 0.55
Cattive 0.15 0.25 0.05 0.45
0.25 0.55 0.20 1
Poichè, ad esempio, la probabilità che il tempo sia buono e che i transiti

0.1
siano minori di 300 è 0.10 mentre la probabilità che il tempo sia buono è 0.25
0.1
mentre la probabilità che i transiti siano minori di 300 è 0.55 e quindi
0.1 0.1
P ( B ∩ t < 300) = 0.1 6= = P ( B)P (t < 300)
0.25 0.55
2 6
12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Prob/Prob-App.tex]

18. Appendice
Tabelle
di alcune
distribuzioni cumulative binomiali
φ
k
n=N + + + + + p + + + +
k - - - - - φ - - - -
N = numero delle prove

k = numero dei successi
p = probabilità di successo
Tabella della distribuzione cumulativa binomiale per n = 3, 4, 5, 6
n=3 p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
k
0 0.970 0.857 0.729 0.512 0.343 0.216 0.125 0.064 0.027 0.008 0.001 0.000 0.000
1 1.000 0.993 0.972 0.896 0.784 0.648 0.500 0.352 0.216 0.104 0.028 0.007 0.000
2 1.000 1.000 0.999 0.992 0.973 0.936 0.875 0.784 0.657 0.488 0.271 0.143 0.030
3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
n=4 p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
k
0 0.961 0.815 0.656 0.410 0.240 0.130 0.063 0.026 0.008 0.002 0.000 0.000 0.000
1 0.999 0.986 0.948 0.819 0.652 0.475 0.313 0.179 0.084 0.027 0.004 0.000 0.000
2 1.000 1.000 0.996 0.973 0.916 0.821 0.688 0.525 0.348 0.181 0.052 0.014 0.001
3 1.000 1.000 1.000 0.998 0.992 0.974 0.938 0.870 0.760 0.590 0.344 0.185 0.039
4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
n=5 p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
k
0 0.951 0.774 0.590 0.328 0.168 0.078 0.031 0.010 0.002 0.000 0.000 0.000 0.000
1 0.999 0.977 0.919 0.737 0.528 0.337 0.188 0.087 0.031 0.007 0.000 0.000 0.000
2 1.000 0.999 0.991 0.942 0.837 0.683 0.500 0.317 0.163 0.058 0.009 0.001 0.000
3 1.000 1.000 1.000 0.993 0.969 0.913 0.813 0.663 0.472 0.263 0.081 0.023 0.001
4 1.000 1.000 1.000 1.000 0.998 0.990 0.969 0.922 0.832 0.672 0.410 0.226 0.049
5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
n=6 p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
k
0 0.941 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001 0.000 0.000 0.000 0.000
1 0.999 0.967 0.886 0.655 0.420 0.233 0.109 0.041 0.011 0.002 0.000 0.000 0.000
2 1.000 0.998 0.984 0.901 0.744 0.544 0.344 0.179 0.070 0.017 0.001 0.000 0.000
3 1.000 1.000 0.999 0.983 0.930 0.821 0.656 0.456 0.256 0.099 0.016 0.002 0.000
4 1.000 1.000 1.000 0.998 0.989 0.959 0.891 0.767 0.580 0.345 0.114 0.033 0.001
5 1.000 1.000 1.000 1.000 0.999 0.996 0.984 0.953 0.882 0.738 0.469 0.265 0.059
6 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
AnTot.TEX— [ Content/Prob/Prob-App.tex] 12 dicembre 2018—16:09:13

probabilità 339
Tabella della distribuzione cumulativa binomiale per n = 7, 8, 9
p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
0.932 0.698 0.478 0.210 0.082 0.028 0.008 0.002 0.000 0.000 0.000 0.000 0.000
0.998 0.956 0.850 0.577 0.329 0.159 0.063 0.019 0.004 0.000 0.000 0.000 0.000
1.000 0.996 0.974 0.852 0.647 0.420 0.227 0.096 0.029 0.005 0.000 0.000 0.000
1.000 1.000 0.997 0.967 0.874 0.710 0.500 0.290 0.126 0.033 0.003 0.000 0.000
1.000 1.000 1.000 0.995 0.971 0.904 0.773 0.580 0.353 0.148 0.026 0.004 0.000
1.000 1.000 1.000 1.000 0.996 0.981 0.938 0.841 0.671 0.423 0.150 0.044 0.002
1.000 1.000 1.000 1.000 1.000 0.998 0.992 0.972 0.918 0.790 0.522 0.302 0.068
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
0.923 0.663 0.430 0.168 0.058 0.017 0.004 0.001 0.000 0.000 0.000 0.000 0.000
0.997 0.943 0.813 0.503 0.255 0.106 0.035 0.009 0.001 0.000 0.000 0.000 0.000
1.000 0.994 0.962 0.797 0.552 0.315 0.145 0.050 0.011 0.001 0.000 0.000 0.000
1.000 1.000 0.995 0.944 0.806 0.594 0.363 0.174 0.058 0.010 0.000 0.000 0.000
1.000 1.000 1.000 0.990 0.942 0.826 0.637 0.406 0.194 0.056 0.005 0.000 0.000
1.000 1.000 1.000 0.999 0.989 0.950 0.855 0.685 0.448 0.203 0.038 0.006 0.000
1.000 1.000 1.000 1.000 0.999 0.991 0.965 0.894 0.745 0.497 0.187 0.057 0.003
1.000 1.000 1.000 1.000 1.000 0.999 0.996 0.983 0.942 0.832 0.570 0.337 0.077
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
0.914 0.630 0.387 0.134 0.040 0.010 0.002 0.000 0.000 0.000 0.000 0.000 0.000
0.997 0.929 0.775 0.436 0.196 0.071 0.020 0.004 0.000 0.000 0.000 0.000 0.000
1.000 0.992 0.947 0.738 0.463 0.232 0.090 0.025 0.004 0.000 0.000 0.000 0.000
1.000 0.999 0.992 0.914 0.730 0.483 0.254 0.099 0.025 0.003 0.000 0.000 0.000
1.000 1.000 0.999 0.980 0.901 0.733 0.500 0.267 0.099 0.020 0.001 0.000 0.000
1.000 1.000 1.000 0.997 0.975 0.901 0.746 0.517 0.270 0.086 0.008 0.001 0.000
1.000 1.000 1.000 1.000 0.996 0.975 0.910 0.768 0.537 0.262 0.053 0.008 0.000
1.000 1.000 1.000 1.000 1.000 0.996 0.980 0.929 0.804 0.564 0.225 0.071 0.003
1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.990 0.960 0.866 0.613 0.370 0.086
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Tabella della distribuzione cumulativa binomiale per n = 10
n=10 p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.9
k
0 0.904 0.599 0.349 0.107 0.028 0.006 0.001 0.000 0.000 0.000 0.000 0.000 0.00
1 0.996 0.914 0.736 0.376 0.149 0.046 0.011 0.002 0.000 0.000 0.000 0.000 0.00
2 1.000 0.988 0.930 0.678 0.383 0.167 0.055 0.012 0.002 0.000 0.000 0.000 0.00
3 1.000 0.999 0.987 0.879 0.650 0.382 0.172 0.055 0.011 0.001 0.000 0.000 0.00
4 1.000 1.000 0.998 0.967 0.850 0.633 0.377 0.166 0.047 0.006 0.000 0.000 0.00
5 1.000 1.000 1.000 0.994 0.953 0.834 0.623 0.367 0.150 0.033 0.002 0.000 0.00
6 1.000 1.000 1.000 0.999 0.989 0.945 0.828 0.618 0.350 0.121 0.013 0.001 0.00
7 1.000 1.000 1.000 1.000 0.998 0.988 0.945 0.833 0.617 0.322 0.070 0.012 0.00
8 1.000 1.000 1.000 1.000 1.000 0.998 0.989 0.954 0.851 0.624 0.264 0.086 0.00
9 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.994 0.972 0.893 0.651 0.401 0.09
10 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.00
n=20 p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.9
k
0 0.818 0.358 0.122 0.012 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.00
1 0.983 0.736 0.392 0.069 0.008 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.00
2 0.999 0.925 0.677 0.206 0.035 0.004 0.000 0.000 0.000 0.000 0.000 0.000 0.00
3 1.000 0.984 0.867 0.411 0.107 0.016 0.001 0.000 0.000 0.000 0.000 0.000 0.00
4 1.000 0.997 0.957 0.630 0.238 0.051 0.006 0.000 0.000 0.000 0.000 0.000 0.00
5 1.000 1.000 0.989 0.804 0.416 0.126 0.021 0.002 0.000 0.000 0.000 0.000 0.00
6 1.000 1.000 0.998 0.913 0.608 0.250 0.058 0.006 0.000 0.000 0.000 0.000 0.00
7 1.000 1.000 1.000 0.968 0.772 0.416 0.132 0.021 0.001 0.000 0.000 0.000 0.00
8 1.000 1.000 1.000 0.990 0.887 0.596 0.252 0.057 0.005 0.000 0.000 0.000 0.00
9 1.000 1.000 1.000 0.997 0.952 0.755 0.412 0.128 0.017 0.001 0.000 0.000 0.00
10 1.000 1.000 1.000 0.999 0.983 0.872 0.588 0.245 0.048 0.003 0.000 0.000 0.00
11 1.000 1.000 1.000 1.000 0.995 0.943 0.748 0.404 0.113 0.010 0.000 0.000 0.00
12 1.000 1.000 1.000 1.000 0.999 0.979 0.868 0.584 0.228 0.032 0.000 0.000 0.00
13 1.000 1.000 1.000 1.000 1.000 0.994 0.942 0.750 0.392 0.087 0.002 0.000 0.00
14 1.000 1.000 1.000 1.000 1.000 0.998 0.979 0.874 0.584 0.196 0.011 0.000 0.00
15 1.000 1.000 1.000 1.000 1.000 1.000 0.994 0.949 0.762 0.370 0.043 0.003 0.00
16 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.984 0.893 0.589 0.133 0.016 0.00
17 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.996 0.965 0.794 0.323 0.075 0.00
18 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.992 0.931 0.608 0.264 0.01
19 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.988 0.878 0.642 0.18
20 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.00

probabilità 341
p 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99
0.740 0.215 0.042 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.964 0.554 0.184 0.011 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.997 0.812 0.411 0.044 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
1.000 0.939 0.647 0.123 0.009 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
1.000 0.984 0.825 0.255 0.030 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000
1.000 0.997 0.927 0.428 0.077 0.006 0.000 0.000 0.000 0.000 0.000 0.000 0.000
1.000 0.999 0.974 0.607 0.160 0.017 0.001 0.000 0.000 0.000 0.000 0.000 0.000
1.000 1.000 0.992 0.761 0.281 0.044 0.003 0.000 0.000 0.000 0.000 0.000 0.000
1.000 1.000 0.998 0.871 0.432 0.094 0.008 0.000 0.000 0.000 0.000 0.000 0.000
1.000 1.000 1.000 0.939 0.589 0.176 0.021 0.001 0.000 0.000 0.000 0.000 0.000
1.000 1.000 1.000 0.974 0.730 0.291 0.049 0.003 0.000 0.000 0.000 0.000 0.000
1.000 1.000 1.000 0.991 0.841 0.431 0.100 0.008 0.000 0.000 0.000 0.000 0.000
1.000 1.000 1.000 0.997 0.916 0.578 0.181 0.021 0.001 0.000 0.000 0.000 0.000
1.000 1.000 1.000 0.999 0.960 0.715 0.292 0.048 0.002 0.000 0.000 0.000 0.000
1.000 1.000 1.000 1.000 0.983 0.825 0.428 0.097 0.006 0.000 0.000 0.000 0.000
1.000 1.000 1.000 1.000 0.994 0.903 0.572 0.175 0.017 0.000 0.000 0.000 0.000
1.000 1.000 1.000 1.000 0.998 0.952 0.708 0.285 0.040 0.001 0.000 0.000 0.000
1.000 1.000 1.000 1.000 0.999 0.979 0.819 0.422 0.084 0.003 0.000 0.000 0.000
1.000 1.000 1.000 1.000 1.000 0.992 0.900 0.569 0.159 0.009 0.000 0.000 0.000
1.000 1.000 1.000 1.000 1.000 0.997 0.951 0.709 0.270 0.026 0.000 0.000 0.000
1.000 1.000 1.000 1.000 1.000 0.999 0.979 0.824 0.411 0.061 0.000 0.000 0.000
1.000 1.000 1.000 1.000 1.000 1.000 0.992 0.906 0.568 0.129 0.002 0.000 0.000
1.000 1.000 1.000 1.000 1.000 1.000 0.997 0.956 0.719 0.239 0.008 0.000 0.000
1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.983 0.840 0.393 0.026 0.001 0.000
1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.994 0.923 0.572 0.073 0.003 0.000
1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.970 0.745 0.175 0.016 0.000
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.991 0.877 0.353 0.061 0.000
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.956 0.589 0.188 0.003
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.989 0.816 0.446 0.036
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.958 0.785 0.260
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Tabella
della
distribuzione di probabilità cumulativa normale
y
x+
1000
* * * * * y * * * *
+ - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
x - - - - - φ - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -

probabilità 343
Tabella della distribuzione cumulativa normale

0 1 2 3 4 5 6 7 8 9
0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000

probabilità 345
Tabella
della inversa della
distribuzione cumulativa normale
Valori da 0 a .499
y
x+
100
y
x+
100
φ
+ + + + + y + + + +
+ - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
x - - - - - φ - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -

Tabella della inversa distribuzione cumulativa normale
0 1 2 3 4 5 6 7 8 9
0 0.0000 0.0025 0.0050 0.0075 0.0100 0.0125 0.0150 0.0175 0.0201 0.0226
0.01 0.0251 0.0276 0.0301 0.0326 0.0351 0.0376 0.0401 0.0426 0.0451 0.0476
0.02 0.0502 0.0527 0.0552 0.0577 0.0602 0.0627 0.0652 0.0677 0.0702 0.0728
0.03 0.0753 0.0778 0.0803 0.0828 0.0853 0.0878 0.0904 0.0929 0.0954 0.0979
0.04 0.1004 0.1030 0.1055 0.1080 0.1105 0.1130 0.1156 0.1181 0.1206 0.1231
0.05 0.1257 0.1282 0.1307 0.1332 0.1358 0.1383 0.1408 0.1434 0.1459 0.1484
0.06 0.1510 0.1535 0.1560 0.1586 0.1611 0.1637 0.1662 0.1687 0.1713 0.1738
0.07 0.1764 0.1789 0.1815 0.1840 0.1866 0.1891 0.1917 0.1942 0.1968 0.1993
0.08 0.2019 0.2045 0.2070 0.2096 0.2121 0.2147 0.2173 0.2198 0.2224 0.2250
0.09 0.2275 0.2301 0.2327 0.2353 0.2378 0.2404 0.2430 0.2456 0.2482 0.2508
0.1 0.2533 0.2559 0.2585 0.2611 0.2637 0.2663 0.2689 0.2715 0.2741 0.2767
0.11 0.2793 0.2819 0.2845 0.2871 0.2898 0.2924 0.2950 0.2976 0.3002 0.3029
0.12 0.3055 0.3081 0.3107 0.3134 0.3160 0.3186 0.3213 0.3239 0.3266 0.3292
0.13 0.3319 0.3345 0.3372 0.3398 0.3425 0.3451 0.3478 0.3505 0.3531 0.3558
0.14 0.3585 0.3611 0.3638 0.3665 0.3692 0.3719 0.3745 0.3772 0.3799 0.3826
0.15 0.3853 0.3880 0.3907 0.3934 0.3961 0.3989 0.4016 0.4043 0.4070 0.4097
0.16 0.4125 0.4152 0.4179 0.4207 0.4234 0.4261 0.4289 0.4316 0.4344 0.4372
0.17 0.4399 0.4427 0.4454 0.4482 0.4510 0.4538 0.4565 0.4593 0.4621 0.4649
0.18 0.4677 0.4705 0.4733 0.4761 0.4789 0.4817 0.4845 0.4874 0.4902 0.4930
0.19 0.4958 0.4987 0.5015 0.5044 0.5072 0.5101 0.5129 0.5158 0.5187 0.5215
0.2 0.5244 0.5273 0.5302 0.5330 0.5359 0.5388 0.5417 0.5446 0.5476 0.5505
0.21 0.5534 0.5563 0.5592 0.5622 0.5651 0.5681 0.5710 0.5740 0.5769 0.5799
0.22 0.5828 0.5858 0.5888 0.5918 0.5948 0.5978 0.6008 0.6038 0.6068 0.6098
0.23 0.6128 0.6158 0.6189 0.6219 0.6250 0.6280 0.6311 0.6341 0.6372 0.6403
0.24 0.6433 0.6464 0.6495 0.6526 0.6557 0.6588 0.6620 0.6651 0.6682 0.6713
0.25 0.6745 0.6776 0.6808 0.6840 0.6871 0.6903 0.6935 0.6967 0.6999 0.7031
0.26 0.7063 0.7095 0.7128 0.7160 0.7192 0.7225 0.7257 0.7290 0.7323 0.7356
0.27 0.7388 0.7421 0.7454 0.7488 0.7521 0.7554 0.7588 0.7621 0.7655 0.7688
0.28 0.7722 0.7756 0.7790 0.7824 0.7858 0.7892 0.7926 0.7961 0.7995 0.8030
0.29 0.8064 0.8099 0.8134 0.8169 0.8204 0.8239 0.8274 0.8310 0.8345 0.8381

probabilità 347
0 1 2 3 4 5 6 7 8 9
0.3 0.8416 0.8452 0.8488 0.8524 0.8560 0.8596 0.8632 0.8669 0.8706 0.8742
0.31 0.8779 0.8816 0.8853 0.8890 0.8927 0.8965 0.9002 0.9040 0.9078 0.9116
0.32 0.9154 0.9192 0.9230 0.9269 0.9307 0.9346 0.9385 0.9424 0.9463 0.9502
0.33 0.9542 0.9581 0.9621 0.9661 0.9701 0.9741 0.9782 0.9822 0.9863 0.9904
0.34 0.9945 0.9986 1.0027 1.0069 1.0110 1.0152 1.0194 1.0237 1.0279 1.0322
0.35 1.0364 1.0407 1.0451 1.0494 1.0537 1.0581 1.0625 1.0669 1.0714 1.0758
0.36 1.0803 1.0848 1.0893 1.0939 1.0985 1.1031 1.1077 1.1123 1.1170 1.1217
0.37 1.1264 1.1311 1.1359 1.1407 1.1455 1.1503 1.1552 1.1601 1.1650 1.1700
0.38 1.1750 1.1800 1.1850 1.1901 1.1952 1.2004 1.2055 1.2107 1.2160 1.2212
0.39 1.2265 1.2319 1.2372 1.2426 1.2481 1.2536 1.2591 1.2646 1.2702 1.2759
0.4 1.2816 1.2873 1.2930 1.2988 1.3047 1.3106 1.3165 1.3225 1.3285 1.3346
0.41 1.3408 1.3469 1.3532 1.3595 1.3658 1.3722 1.3787 1.3852 1.3917 1.3984
0.42 1.4051 1.4118 1.4187 1.4255 1.4325 1.4395 1.4466 1.4538 1.4611 1.4684
0.43 1.4758 1.4833 1.4909 1.4985 1.5063 1.5141 1.5220 1.5301 1.5382 1.5464
0.44 1.5548 1.5632 1.5718 1.5805 1.5893 1.5982 1.6072 1.6164 1.6258 1.6352
0.45 1.6449 1.6546 1.6646 1.6747 1.6849 1.6954 1.7060 1.7169 1.7279 1.7392
0.46 1.7507 1.7624 1.7744 1.7866 1.7991 1.8119 1.8250 1.8384 1.8522 1.8663
0.47 1.8808 1.8957 1.9110 1.9268 1.9431 1.9600 1.9774 1.9954 2.0141 2.0335
0.48 2.0537 2.0748 2.0969 2.1201 2.1444 2.1701 2.1973 2.2262 2.2571 2.2904
0.49 2.3263 2.3656 2.4089 2.4573 2.5121 2.5758 2.6521 2.7478 2.8782 3.0902

Tabella
della inversa
distribuzione normale
Valori da .4000 a .4999
y
x+
10000
y
x+
10000
φ
+ + + + + y + + + +
+ - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
x - - - - - φ - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -
+ - - - - - - - - - -

probabilità 349
Tabella della distribuzione normale cumulativa inversa (code)
0 1 2 3 4 5 6 7 8 9
0.4 1.2816 1.2821 1.2827 1.2833 1.2838 1.2844 1.2850 1.2856 1.2861 1.2867
0.401 1.2873 1.2878 1.2884 1.2890 1.2896 1.2901 1.2907 1.2913 1.2919 1.2925
0.402 1.2930 1.2936 1.2942 1.2948 1.2953 1.2959 1.2965 1.2971 1.2977 1.2983
0.403 1.2988 1.2994 1.3000 1.3006 1.3012 1.3018 1.3023 1.3029 1.3035 1.3041
0.404 1.3047 1.3053 1.3059 1.3064 1.3070 1.3076 1.3082 1.3088 1.3094 1.3100
0.405 1.3106 1.3112 1.3118 1.3124 1.3130 1.3135 1.3141 1.3147 1.3153 1.3159
0.406 1.3165 1.3171 1.3177 1.3183 1.3189 1.3195 1.3201 1.3207 1.3213 1.3219
0.407 1.3225 1.3231 1.3237 1.3243 1.3249 1.3255 1.3261 1.3267 1.3273 1.3279
0.408 1.3285 1.3291 1.3298 1.3304 1.3310 1.3316 1.3322 1.3328 1.3334 1.3340
0.409 1.3346 1.3352 1.3358 1.3365 1.3371 1.3377 1.3383 1.3389 1.3395 1.3401
0.41 1.3408 1.3414 1.3420 1.3426 1.3432 1.3438 1.3445 1.3451 1.3457 1.3463
0.411 1.3469 1.3476 1.3482 1.3488 1.3494 1.3500 1.3507 1.3513 1.3519 1.3525
0.412 1.3532 1.3538 1.3544 1.3551 1.3557 1.3563 1.3569 1.3576 1.3582 1.3588
0.413 1.3595 1.3601 1.3607 1.3614 1.3620 1.3626 1.3633 1.3639 1.3645 1.3652
0.414 1.3658 1.3664 1.3671 1.3677 1.3684 1.3690 1.3696 1.3703 1.3709 1.3716
0.415 1.3722 1.3728 1.3735 1.3741 1.3748 1.3754 1.3761 1.3767 1.3774 1.3780
0.416 1.3787 1.3793 1.3800 1.3806 1.3813 1.3819 1.3826 1.3832 1.3839 1.3845
0.417 1.3852 1.3858 1.3865 1.3871 1.3878 1.3885 1.3891 1.3898 1.3904 1.3911
0.418 1.3917 1.3924 1.3931 1.3937 1.3944 1.3951 1.3957 1.3964 1.3970 1.3977
0.419 1.3984 1.3990 1.3997 1.4004 1.4010 1.4017 1.4024 1.4031 1.4037 1.4044
0.42 1.4051 1.4057 1.4064 1.4071 1.4078 1.4084 1.4091 1.4098 1.4105 1.4112
0.421 1.4118 1.4125 1.4132 1.4139 1.4146 1.4152 1.4159 1.4166 1.4173 1.4180
0.422 1.4187 1.4193 1.4200 1.4207 1.4214 1.4221 1.4228 1.4235 1.4242 1.4249
0.423 1.4255 1.4262 1.4269 1.4276 1.4283 1.4290 1.4297 1.4304 1.4311 1.4318
0.424 1.4325 1.4332 1.4339 1.4346 1.4353 1.4360 1.4367 1.4374 1.4381 1.4388
0.425 1.4395 1.4402 1.4409 1.4417 1.4424 1.4431 1.4438 1.4445 1.4452 1.4459
0.426 1.4466 1.4473 1.4481 1.4488 1.4495 1.4502 1.4509 1.4516 1.4524 1.4531
0.427 1.4538 1.4545 1.4553 1.4560 1.4567 1.4574 1.4581 1.4589 1.4596 1.4603
0.428 1.4611 1.4618 1.4625 1.4632 1.4640 1.4647 1.4654 1.4662 1.4669 1.4676
0.429 1.4684 1.4691 1.4699 1.4706 1.4713 1.4721 1.4728 1.4736 1.4743 1.4750
0.43 1.4758 1.4765 1.4773 1.4780 1.4788 1.4795 1.4803 1.4810 1.4818 1.4825
0.431 1.4833 1.4840 1.4848 1.4855 1.4863 1.4871 1.4878 1.4886 1.4893 1.4901
0.432 1.4909 1.4916 1.4924 1.4931 1.4939 1.4947 1.4954 1.4962 1.4970 1.4977
0.433 1.4985 1.4993 1.5001 1.5008 1.5016 1.5024 1.5032 1.5039 1.5047 1.5055

0 1 2 3 4 5 6 7 8 9
0.434 1.5063 1.5070 1.5078 1.5086 1.5094 1.5102 1.5110 1.5117 1.5125 1.5133
0.435 1.5141 1.5149 1.5157 1.5165 1.5173 1.5181 1.5189 1.5196 1.5204 1.5212
0.436 1.5220 1.5228 1.5236 1.5244 1.5252 1.5260 1.5268 1.5276 1.5285 1.5293
0.437 1.5301 1.5309 1.5317 1.5325 1.5333 1.5341 1.5349 1.5358 1.5366 1.5374
0.438 1.5382 1.5390 1.5398 1.5407 1.5415 1.5423 1.5431 1.5440 1.5448 1.5456
0.439 1.5464 1.5473 1.5481 1.5489 1.5498 1.5506 1.5514 1.5523 1.5531 1.5539
0.44 1.5548 1.5556 1.5565 1.5573 1.5581 1.5590 1.5598 1.5607 1.5615 1.5624
0.441 1.5632 1.5641 1.5649 1.5658 1.5666 1.5675 1.5683 1.5692 1.5701 1.5709
0.442 1.5718 1.5726 1.5735 1.5744 1.5752 1.5761 1.5770 1.5779 1.5787 1.5796
0.443 1.5805 1.5813 1.5822 1.5831 1.5840 1.5849 1.5857 1.5866 1.5875 1.5884
0.444 1.5893 1.5902 1.5910 1.5919 1.5928 1.5937 1.5946 1.5955 1.5964 1.5973
0.445 1.5982 1.5991 1.6000 1.6009 1.6018 1.6027 1.6036 1.6045 1.6054 1.6063
0.446 1.6072 1.6082 1.6091 1.6100 1.6109 1.6118 1.6127 1.6137 1.6146 1.6155
0.447 1.6164 1.6174 1.6183 1.6192 1.6202 1.6211 1.6220 1.6229 1.6239 1.6248
0.448 1.6258 1.6267 1.6276 1.6286 1.6295 1.6305 1.6314 1.6324 1.6333 1.6343
0.449 1.6352 1.6362 1.6371 1.6381 1.6391 1.6400 1.6410 1.6420 1.6429 1.6439
0.45 1.6449 1.6458 1.6468 1.6478 1.6487 1.6497 1.6507 1.6517 1.6527 1.6536
0.451 1.6546 1.6556 1.6566 1.6576 1.6586 1.6596 1.6606 1.6616 1.6626 1.6636
0.452 1.6646 1.6656 1.6666 1.6676 1.6686 1.6696 1.6706 1.6716 1.6726 1.6736
0.453 1.6747 1.6757 1.6767 1.6777 1.6788 1.6798 1.6808 1.6818 1.6829 1.6839
0.454 1.6849 1.6860 1.6870 1.6881 1.6891 1.6901 1.6912 1.6922 1.6933 1.6943
0.455 1.6954 1.6965 1.6975 1.6986 1.6996 1.7007 1.7018 1.7028 1.7039 1.7050
0.456 1.7060 1.7071 1.7082 1.7093 1.7104 1.7114 1.7125 1.7136 1.7147 1.7158
0.457 1.7169 1.7180 1.7191 1.7202 1.7213 1.7224 1.7235 1.7246 1.7257 1.7268
0.458 1.7279 1.7290 1.7302 1.7313 1.7324 1.7335 1.7347 1.7358 1.7369 1.7381
0.459 1.7392 1.7403 1.7415 1.7426 1.7438 1.7449 1.7461 1.7472 1.7484 1.7495
0.46 1.7507 1.7519 1.7530 1.7542 1.7553 1.7565 1.7577 1.7589 1.7600 1.7612
0.461 1.7624 1.7636 1.7648 1.7660 1.7672 1.7684 1.7696 1.7708 1.7720 1.7732
0.462 1.7744 1.7756 1.7768 1.7780 1.7792 1.7805 1.7817 1.7829 1.7841 1.7854
0.463 1.7866 1.7878 1.7891 1.7903 1.7916 1.7928 1.7941 1.7953 1.7966 1.7979
0.464 1.7991 1.8004 1.8017 1.8029 1.8042 1.8055 1.8068 1.8080 1.8093 1.8106
0.465 1.8119 1.8132 1.8145 1.8158 1.8171 1.8184 1.8197 1.8210 1.8224 1.8237

probabilità 351
0 1 2 3 4 5 6 7 8 9
0.466 1.8250 1.8263 1.8277 1.8290 1.8303 1.8317 1.8330 1.8344 1.8357 1.8371
0.467 1.8384 1.8398 1.8411 1.8425 1.8439 1.8453 1.8466 1.8480 1.8494 1.8508
0.468 1.8522 1.8536 1.8550 1.8564 1.8578 1.8592 1.8606 1.8620 1.8634 1.8649
0.469 1.8663 1.8677 1.8692 1.8706 1.8720 1.8735 1.8749 1.8764 1.8779 1.8793
0.47 1.8808 1.8823 1.8837 1.8852 1.8867 1.8882 1.8897 1.8912 1.8927 1.8942
0.471 1.8957 1.8972 1.8987 1.9003 1.9018 1.9033 1.9048 1.9064 1.9079 1.9095
0.472 1.9110 1.9126 1.9142 1.9157 1.9173 1.9189 1.9205 1.9220 1.9236 1.9252
0.473 1.9268 1.9284 1.9301 1.9317 1.9333 1.9349 1.9366 1.9382 1.9398 1.9415
0.474 1.9431 1.9448 1.9465 1.9481 1.9498 1.9515 1.9532 1.9549 1.9566 1.9583
0.475 1.9600 1.9617 1.9634 1.9651 1.9669 1.9686 1.9703 1.9721 1.9738 1.9756
0.476 1.9774 1.9791 1.9809 1.9827 1.9845 1.9863 1.9881 1.9899 1.9917 1.9936
0.477 1.9954 1.9972 1.9991 2.0009 2.0028 2.0047 2.0065 2.0084 2.0103 2.0122
0.478 2.0141 2.0160 2.0179 2.0198 2.0218 2.0237 2.0257 2.0276 2.0296 2.0315
0.479 2.0335 2.0355 2.0375 2.0395 2.0415 2.0435 2.0456 2.0476 2.0496 2.0517
0.48 2.0537 2.0558 2.0579 2.0600 2.0621 2.0642 2.0663 2.0684 2.0706 2.0727
0.481 2.0748 2.0770 2.0792 2.0814 2.0836 2.0858 2.0880 2.0902 2.0924 2.0947
0.482 2.0969 2.0992 2.1015 2.1038 2.1060 2.1084 2.1107 2.1130 2.1153 2.1177
0.483 2.1201 2.1225 2.1248 2.1272 2.1297 2.1321 2.1345 2.1370 2.1394 2.1419
0.484 2.1444 2.1469 2.1494 2.1520 2.1545 2.1571 2.1596 2.1622 2.1648 2.1675
0.485 2.1701 2.1727 2.1754 2.1781 2.1808 2.1835 2.1862 2.1890 2.1917 2.1945
0.486 2.1973 2.2001 2.2029 2.2058 2.2086 2.2115 2.2144 2.2173 2.2203 2.2232
0.487 2.2262 2.2292 2.2322 2.2353 2.2383 2.2414 2.2445 2.2476 2.2508 2.2539
0.488 2.2571 2.2603 2.2636 2.2668 2.2701 2.2734 2.2768 2.2801 2.2835 2.2869
0.489 2.2904 2.2938 2.2973 2.3009 2.3044 2.3080 2.3116 2.3152 2.3189 2.3226
0.49 2.3263 2.3301 2.3339 2.3377 2.3416 2.3455 2.3495 2.3534 2.3575 2.3615
0.491 2.3656 2.3697 2.3739 2.3781 2.3824 2.3867 2.3911 2.3954 2.3999 2.4044
0.492 2.4089 2.4135 2.4181 2.4228 2.4276 2.4324 2.4372 2.4421 2.4471 2.4522
0.493 2.4573 2.4624 2.4677 2.4730 2.4783 2.4838 2.4893 2.4949 2.5006 2.5063
0.494 2.5121 2.5181 2.5241 2.5302 2.5364 2.5427 2.5491 2.5556 2.5622 2.5690
0.495 2.5758 2.5828 2.5899 2.5972 2.6045 2.6121 2.6197 2.6276 2.6356 2.6437
0.496 2.6521 2.6606 2.6693 2.6783 2.6874 2.6968 2.7065 2.7164 2.7266 2.7370
0.497 2.7478 2.7589 2.7703 2.7822 2.7944 2.8071 2.8202 2.8338 2.8480 2.8627
0.498 2.8782 2.8943 2.9113 2.9290 2.9479 2.9677 2.9889 3.0115 3.0357 3.0619
0.499 3.0902 3.1214 3.1560 3.1947 3.2390 3.2905 3.3528 3.4319 3.5402 3.7195

Tabella
della
distribuzione cumulativa χ2 inversa
φ
x
+ + + + + φ + + + +
d - - - - - x - - - -
d = gradi di libertà

probabilità 353
Tabella della distribuzione χ2 inversa
0.005 0.01 0.025 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.975 0.99 0.995 0.999
0.00 0.00 0.00 0.00 0.02 0.10 0.45 1.32 2.71 3.84 5.02 6.63 7.88 10.83
0.01 0.02 0.05 0.10 0.21 0.58 1.39 2.77 4.61 5.99 7.38 9.21 10.60 13.82
0.07 0.11 0.22 0.35 0.58 1.21 2.37 4.11 6.25 7.81 9.35 11.34 12.84 16.27
0.21 0.30 0.48 0.71 1.06 1.92 3.36 5.39 7.78 9.49 11.14 13.28 14.86 18.47
0.41 0.55 0.83 1.15 1.61 2.67 4.35 6.63 9.24 11.07 12.83 15.09 16.75 20.51
0.68 0.87 1.24 1.64 2.20 3.45 5.35 7.84 10.64 12.59 14.45 16.81 18.55 22.46
0.99 1.24 1.69 2.17 2.83 4.25 6.35 9.04 12.02 14.07 16.01 18.48 20.28 24.32
1.34 1.65 2.18 2.73 3.49 5.07 7.34 10.22 13.36 15.51 17.53 20.09 21.95 26.12
1.73 2.09 2.70 3.33 4.17 5.90 8.34 11.39 14.68 16.92 19.02 21.67 23.59 27.88
2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.55 15.99 18.31 20.48 23.21 25.19 29.59
2.60 3.05 3.82 4.57 5.58 7.58 10.34 13.70 17.28 19.68 21.92 24.73 26.76 31.26
3.07 3.57 4.40 5.23 6.30 8.44 11.34 14.85 18.55 21.03 23.34 26.22 28.30 32.91
3.57 4.11 5.01 5.89 7.04 9.30 12.34 15.98 19.81 22.36 24.74 27.69 29.82 34.53
4.07 4.66 5.63 6.57 7.79 10.17 13.34 17.12 21.06 23.68 26.12 29.14 31.32 36.12
4.60 5.23 6.26 7.26 8.55 11.04 14.34 18.25 22.31 25.00 27.49 30.58 32.80 37.70
5.14 5.81 6.91 7.96 9.31 11.91 15.34 19.37 23.54 26.30 28.85 32.00 34.27 39.25
5.70 6.41 7.56 8.67 10.09 12.79 16.34 20.49 24.77 27.59 30.19 33.41 35.72 40.79
6.26 7.01 8.23 9.39 10.86 13.68 17.34 21.60 25.99 28.87 31.53 34.81 37.16 42.31
6.84 7.63 8.91 10.12 11.65 14.56 18.34 22.72 27.20 30.14 32.85 36.19 38.58 43.82
7.43 8.26 9.59 10.85 12.44 15.45 19.34 23.83 28.41 31.41 34.17 37.57 40.00 45.31
8.03 8.90 10.28 11.59 13.24 16.34 20.34 24.93 29.62 32.67 35.48 38.93 41.40 46.80
8.64 9.54 10.98 12.34 14.04 17.24 21.34 26.04 30.81 33.92 36.78 40.29 42.80 48.27
9.26 10.20 11.69 13.09 14.85 18.14 22.34 27.14 32.01 35.17 38.08 41.64 44.18 49.73
9.89 10.86 12.40 13.85 15.66 19.04 23.34 28.24 33.20 36.42 39.36 42.98 45.56 51.18
10.52 11.52 13.12 14.61 16.47 19.94 24.34 29.34 34.38 37.65 40.65 44.31 46.93 52.62
11.16 12.20 13.84 15.38 17.29 20.84 25.34 30.43 35.56 38.89 41.92 45.64 48.29 54.05
11.81 12.88 14.57 16.15 18.11 21.75 26.34 31.53 36.74 40.11 43.19 46.96 49.65 55.48
12.46 13.56 15.31 16.93 18.94 22.66 27.34 32.62 37.92 41.34 44.46 48.28 50.99 56.89
13.12 14.26 16.05 17.71 19.77 23.57 28.34 33.71 39.09 42.56 45.72 49.59 52.34 58.30
13.79 14.95 16.79 18.49 20.60 24.48 29.34 34.80 40.26 43.77 46.98 50.89 53.67 59.70
14.46 15.66 17.54 19.28 21.43 25.39 30.34 35.89 41.42 44.99 48.23 52.19 55.00 61.10
15.13 16.36 18.29 20.07 22.27 26.30 31.34 36.97 42.58 46.19 49.48 53.49 56.33 62.49
15.82 17.07 19.05 20.87 23.11 27.22 32.34 38.06 43.75 47.40 50.73 54.78 57.65 63.87
16.50 17.79 19.81 21.66 23.95 28.14 33.34 39.14 44.90 48.60 51.97 56.06 58.96 65.25
17.19 18.51 20.57 22.47 24.80 29.05 34.34 40.22 46.06 49.80 53.20 57.34 60.27 66.62
0.005 0.01 0.025 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.975 0.99 0.995 0.999
17.89 19.23 21.34 23.27 25.64 29.97 35.34 41.30 47.21 51.00 54.44 58.62 61.58 67.98
18.59 19.96 22.11 24.07 26.49 30.89 36.34 42.38 48.36 52.19 55.67 59.89 62.88 69.35
19.29 20.69 22.88 24.88 27.34 31.81 37.34 43.46 49.51 53.38 56.90 61.16 64.18 70.70
20.00 21.43 23.65 25.70 28.20 32.74 38.34 44.54 50.66 54.57 58.12 62.43 65.48 72.06
20.71 22.16 24.43 26.51 29.05 33.66 39.34 45.62 51.81 55.76 59.34 63.69 66.77 73.40
21.42 22.91 25.21 27.33 29.91 34.58 40.34 46.69 52.95 56.94 60.56 64.95 68.05 74.74
22.14 23.65 26.00 28.14 30.77 35.51 41.34 47.77 54.09 58.12 61.78 66.21 69.34 76.08
22.86 24.40 26.79 28.96 31.63 36.44 42.34 48.84 55.23 59.30 62.99 67.46 70.62 77.42
23.58 25.15 27.57 29.79 32.49 37.36 43.34 49.91 56.37 60.48 64.20 68.71 71.89 78.75
24.31 25.90 28.37 30.61 33.35 38.29 44.34 50.98 57.51 61.66 65.41 69.96 73.17 80.08
25.04 26.66 29.16 31.44 34.22 39.22 45.34 52.06 58.64 62.83 66.62 71.20 74.44 81.40
25.77 27.42 29.96 32.27 35.08 40.15 46.34 53.13 59.77 64.00 67.82 72.44 75.70 82.72
26.51 28.18 30.75 33.10 35.95 41.08 47.34 54.20 60.91 65.17 69.02 73.68 76.97 84.04
27.25 28.94 31.55 33.93 36.82 42.01 48.33 55.27 62.04 66.34 70.22 74.92 78.23 85.35
27.99 29.71 32.36 34.76 37.69 42.94 49.33 56.33 63.17 67.50 71.42 76.15 79.49 86.66
28.73 30.48 33.16 35.60 38.56 43.87 50.33 57.40 64.30 68.67 72.62 77.39 80.75 87.97
29.48 31.25 33.97 36.44 39.43 44.81 51.33 58.47 65.42 69.83 73.81 78.62 82.00 89.27
30.23 32.02 34.78 37.28 40.31 45.74 52.33 59.53 66.55 70.99 75.00 79.84 83.25 90.57
30.98 32.79 35.59 38.12 41.18 46.68 53.33 60.60 67.67 72.15 76.19 81.07 84.50 91.87
31.73 33.57 36.40 38.96 42.06 47.61 54.33 61.67 68.80 73.31 77.38 82.29 85.75 93.17
32.49 34.35 37.21 39.80 42.94 48.55 55.33 62.73 69.92 74.47 78.57 83.51 86.99 94.46
33.25 35.13 38.03 40.65 43.82 49.48 56.33 63.79 71.04 75.62 79.75 84.73 88.24 95.75
34.01 35.91 38.84 41.49 44.70 50.42 57.33 64.86 72.16 76.78 80.94 85.95 89.48 97.04
34.77 36.70 39.66 42.34 45.58 51.36 58.33 65.92 73.28 77.93 82.12 87.17 90.72 98.32
35.53 37.48 40.48 43.19 46.46 52.29 59.33 66.98 74.40 79.08 83.30 88.38 91.95 99.61
36.30 38.27 41.30 44.04 47.34 53.23 60.33 68.04 75.51 80.23 84.48 89.59 93.19 100.89
37.07 39.06 42.13 44.89 48.23 54.17 61.33 69.10 76.63 81.38 85.65 90.80 94.42 102.17
37.84 39.86 42.95 45.74 49.11 55.11 62.33 70.16 77.75 82.53 86.83 92.01 95.65 103.44
38.61 40.65 43.78 46.59 50.00 56.05 63.33 71.23 78.86 83.68 88.00 93.22 96.88 104.72
39.38 41.44 44.60 47.45 50.88 56.99 64.33 72.28 79.97 84.82 89.18 94.42 98.10 105.99
40.16 42.24 45.43 48.31 51.77 57.93 65.33 73.34 81.09 85.96 90.35 95.63 99.33 107.26
40.93 43.04 46.26 49.16 52.66 58.87 66.33 74.40 82.20 87.11 91.52 96.83 100.55 108.53
41.71 43.84 47.09 50.02 53.55 59.81 67.33 75.46 83.31 88.25 92.69 98.03 101.78 109.79
42.49 44.64 47.92 50.88 54.44 60.76 68.33 76.52 84.42 89.39 93.86 99.23 103.00 111.06
43.28 45.44 48.76 51.74 55.33 61.70 69.33 77.58 85.53 90.53 95.02 100.43 104.21 112.32

0.005 0.01 0.025 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.975 0.99 0.995 0.999
71 44.06 46.25 49.59 52.60 56.22 62.64 70.33 78.63 86.64 91.67 96.19 101.62 105.43 113.58
72 44.84 47.05 50.43 53.46 57.11 63.58 71.33 79.69 87.74 92.81 97.35 102.82 106.65 114.83
73 45.63 47.86 51.26 54.33 58.01 64.53 72.33 80.75 88.85 93.95 98.52 104.01 107.86 116.09
74 46.42 48.67 52.10 55.19 58.90 65.47 73.33 81.80 89.96 95.08 99.68 105.20 109.07 117.35
75 47.21 49.48 52.94 56.05 59.79 66.42 74.33 82.86 91.06 96.22 100.84 106.39 110.29 118.60
76 48.00 50.29 53.78 56.92 60.69 67.36 75.33 83.91 92.17 97.35 102.00 107.58 111.50 119.85
77 48.79 51.10 54.62 57.79 61.59 68.31 76.33 84.97 93.27 98.48 103.16 108.77 112.70 121.10
78 49.58 51.91 55.47 58.65 62.48 69.25 77.33 86.02 94.37 99.62 104.32 109.96 113.91 122.35
79 50.38 52.72 56.31 59.52 63.38 70.20 78.33 87.08 95.48 100.75 105.47 111.14 115.12 123.59
80 51.17 53.54 57.15 60.39 64.28 71.14 79.33 88.13 96.58 101.88 106.63 112.33 116.32 124.84
81 51.97 54.36 58.00 61.26 65.18 72.09 80.33 89.18 97.68 103.01 107.78 113.51 117.52 126.08
82 52.77 55.17 58.84 62.13 66.08 73.04 81.33 90.24 98.78 104.14 108.94 114.69 118.73 127.32
83 53.57 55.99 59.69 63.00 66.98 73.99 82.33 91.29 99.88 105.27 110.09 115.88 119.93 128.56
84 54.37 56.81 60.54 63.88 67.88 74.93 83.33 92.34 100.98 106.39 111.24 117.06 121.13 129.80
85 55.17 57.63 61.39 64.75 68.78 75.88 84.33 93.39 102.08 107.52 112.39 118.24 122.32 131.04
86 55.97 58.46 62.24 65.62 69.68 76.83 85.33 94.45 103.18 108.65 113.54 119.41 123.52 132.28
87 56.78 59.28 63.09 66.50 70.58 77.78 86.33 95.50 104.28 109.77 114.69 120.59 124.72 133.51
88 57.58 60.10 63.94 67.37 71.48 78.73 87.33 96.55 105.37 110.90 115.84 121.77 125.91 134.75
89 58.39 60.93 64.79 68.25 72.39 79.68 88.33 97.60 106.47 112.02 116.99 122.94 127.11 135.98
90 59.20 61.75 65.65 69.13 73.29 80.62 89.33 98.65 107.57 113.15 118.14 124.12 128.30 137.21
91 60.00 62.58 66.50 70.00 74.20 81.57 90.33 99.70 108.66 114.27 119.28 125.29 129.49 138.44
92 60.81 63.41 67.36 70.88 75.10 82.52 91.33 100.75 109.76 115.39 120.43 126.46 130.68 139.67
93 61.63 64.24 68.21 71.76 76.01 83.47 92.33 101.80 110.85 116.51 121.57 127.63 131.87 140.89
94 62.44 65.07 69.07 72.64 76.91 84.42 93.33 102.85 111.94 117.63 122.72 128.80 133.06 142.12
95 63.25 65.90 69.92 73.52 77.82 85.38 94.33 103.90 113.04 118.75 123.86 129.97 134.25 143.34
96 64.06 66.73 70.78 74.40 78.73 86.33 95.33 104.95 114.13 119.87 125.00 131.14 135.43 144.57
97 64.88 67.56 71.64 75.28 79.63 87.28 96.33 106.00 115.22 120.99 126.14 132.31 136.62 145.79
98 65.69 68.40 72.50 76.16 80.54 88.23 97.33 107.05 116.32 122.11 127.28 133.48 137.80 147.01
99 66.51 69.23 73.36 77.05 81.45 89.18 98.33 108.09 117.41 123.23 128.42 134.64 138.99 148.23
100 67.33 70.06 74.22 77.93 82.36 90.13 99.33 109.14 118.50 124.34 129.56 135.81 140.17 149.45

Lezioni Di Analisi Matematematica 2

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Lezioni Di Analisi Matematematica 2

Caricato da

Copyright:

Formati disponibili

O . C A L I G A R I S - P.

I modelli matematici spesso devono tenere conto di molti parametri e

il corrispondente di P = ( x, y) secondo la legge assegnata f ; scriviamo anche

Chiamiamo rango di f l’insieme

Chiamiamo grafico di f l’insieme

Osservazione. Il grafico di una funzione di 2 variabili è pertanto un

Per avere un’idea del comportamento della funzione sarebbe como-

1. Non è possibile rappresentare il grafico di funzioni che dipendano

2. La rappresentazione in R3 di una funzione di due variabili passa

3. La proprietà che risulta di maggiore interesse per tracciare il grafico

Non sarà pertanto semplice disegnare il grafico qualitativo di una

Definizione 1.2 Se f : R2 → R chiamiamo curve od insiemi di livello di f

Le curve di livello di f consentono, in pratica, di rappresentare una

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13

superficie assume quota costante uguale a c e, se le quote c sono scel-

Come per le funzioni di una variabile è importante studiare la conti-

Indichiamo con R2 lo spazio vettoriale costituito dalla coppie ordinate

In R2 si definiscono le operazioni di somma e di prodotto per uno

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]

costituisce una base di R2 ; si avrà pertanto che, se P ∈ R2 ,

P = xe1 + ye2 = x (1, 0) + y(0, 1) = ( x, y)

Definizione 1.3 Si definisce norma in R2 una funzione che si indica con

che verifica le seguenti proprietà:

Si definisce prodotto scalare in R2 una funzione

• hαP + βQ, Ri = αh P, Ri + βh Q, Ri ∀ P, Q, R ∈ R2 , ∀α, β ∈ R.

Un esempio notevole di norma in R2 è

La norma di P indica la distanza di P dall’origine O = (0, 0); se P =

Se ρ > 0 chiamiamo intorno del punto P0 = ( x0 , y0 ), l’insieme

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13

S( P0 , ρ) è la sfera di centro P0 e raggio ρ.

Altri esempi di norme in R2 sono i seguenti

k Pkk = (| x |k + |y|k )1/k k≥1

k Pk∞ = max{| x |, |y|}

La disuguaglianza di Schwarz può essere dedotta osservando che,

0 ≤ k P + tQk2 = h P + tQ, P + tQi = t2 k Qk2 + 2th P, Qi + k Pk2

Ciò implica infatti che

h P, Qi2 − k Pk2 k Qk2 ≤ 0

Dalla dalla disuguaglianza di Schwarz possiamo anche ricavare la

k P + Qk2 = k Pk2 + k Qk2 + 2h P, Qi ≤ k Pk2 + k Qk2 + 2k Pkk Qk.

Osserviamo infine che

se e solo se esiste t ∈ R tale che P + tQ = 0, ovvero P e Q sono

k Pk = sup{h P, Qi : k Qk ≤ 1} = max{|h P, Qi| : k Qk ≤ 1}

1.2 Limiti e continuità per le funzioni di 2 variabili.

Definizione 1.4 Sia f : A → R, A ⊂ R2 e sia P0 un punto tale che ogni

12 dicembre 2018—16:09:13 AnTot.TEX— [ Content/Analisi-8.tex]

se ∀ε > 0 esiste δ(ε) > 0 tale che per P ∈ S( P0 , δ(ε)) ∩ A , P 6= P0 si ha

È possibile verificare che

1. ogni funzione che ammette limite finito è localmente limitata;

2. il limite di una funzione, se esiste, è unico;

3. vale il teorema della permanenza del segno;

4. il limite di una somma è uguale alla somma dei limiti, se questi

5. il limite del prodotto di due funzioni è uguale al prodotto dei limiti,

6. il limite del reciproco di una funzione è uguale al reciproco del

7. valgono i risultati sul confronto dei limiti, in analogia a quanto già

8. il limite di una funzione può essere caratterizzato per successioni

9. il limite di una funzione composta si calcola seguendo quanto fatto

Definizione 1.5 Diciamo che f è una funzione continua in P0 se

Nel caso in cui P0 ∈ A, sia un punto di accumulazione per A la condizione

Ovviamente f si dice continua in A se è continua in ogni punto di A

1. la somma di funzioni continue è continua;

2. il prodotto di una funzione a valori vettoriali per una funzione a

3. il reciproco di una funzione continua è continuo dove ha senso

AnTot.TEX— [ Content/Analisi-8.tex] 12 dicembre 2018—16:09:13