Sei sulla pagina 1di 34

Zibaldone

(Versione del 18 dicembre 2014)

Si indica con Zibaldone una esposizione non organica (ed incompleta) di tecniche e
nozioni matematiche propedeutiche allo studio del calcolo delle probabilità. E non
solo. Cose già note, o che tali dovrebbero essere, all’allievo matematico.
Alla fine della dispensa sono esposti alcune nozioni di statistica elementare che
costituiscono la base empirica del calcolo delle probabilità.

1 Nozioni di analisi combinatoria


La combinatorica l’arte di contare le cose
senza effettivamente contarle.
(J. Cohen, T. Pratchett e I. Stewart, 2003)

Sono dati r gruppi, ciascuno costituito da nj ≥ 2 oggetti distinti, j = 1, 2, . . . , r,


e altrettante scatole numerate. Da ciascuno degli r gruppi si prelevi un solo oggetto
e lo si disponga nella corrispondente scatola. Una successione ordinata di r oggetti
prescelti prende il nome di allineamento ∏ o possibilità. Il numero totale di allineamenti
distinti che si possono costruire è N = rj=1 nj .
• Esempio. Leo che dispone 3 camicie, 2 pantaloni e 4 paia di scarpe, ha N =
3 × 2 × 4 = 24 possibilità di vestirsi.
Se nj = n, ∀j, al posto di possibilità si preferisce parlare di disposizioni di n
oggetti distinti con r ripetizioni e si ha N = nr .
• Esempio. Date r = 3 celle ordinate si debba collocare in ciascuna di esse o
“0” o “1”. Come è facile constatare, le disposizioni che si possono formare sono
N = 23 = 8. Esse sono: 000, 001, 010, 011, 100, 101, 110, 111.
• Esempio. È data una stringa di r = 13 celle in ciascuna delle quali si deve
disporre uno solo dei tre oggetti 1, X, 2. Le disposizioni che si possono formare
sono N = 313 = 1. 594. 323.
Dati n oggetti distinti, il numero di gruppi che si possono formare scegliendone
k, tenendo conto dell’ordine della scelta, prende il nome di disposizioni semplici di n
oggetti presi k alla volta ed è pari a Dn,k = n(n − 1) · · · (n − k + 1), con 0 ≤ k ≤ n
con Dn,0 = 1. Se k = n le disposizioni prendono il nome di permutazioni e si adotta
il simbolo n! al posto di Dn,n . Per definizione 0! = 1.
Dati n oggetti distinti, il numero di gruppi che si possono formare scegliendone
k, a prescindere dall’ordine della scelta, prende il nome di combinazioni semplici di n
oggetti presi k alla volta e si indica col simbolo
( )
n
n
Ck = , 0≤k≤n. (1)
k

1
Il modo più facile per calcolare il valore di Ckn è assumere tutte le disposizioni di
n oggetti presi k alla volta, cioè Dn,k , e tener presente che quelle che sono costituite
dagli stessi oggetti sono k! Dunque
( )
n Dn,k n!
= = .
k k! k!(n − k)!
( )
n
Si dimostra che , detto anche coefficiente binomiale, è un numero intero
k
positivo. La potenza n−esima della somma dei numeri reali a e b è
∑n ( )
nn j n−j
(a + b) = ab . (2)
j=0
j

Dalla (2) discendono le note identità


n ( )
∑ ∑
n ( ) ∑n ( )
n n n
n
=2 , (−1) =0, j
j· = n 2n−1 ,
j=0
j j=0
j j=0
j

∑n ( )
n j
ζ (1 − ζ)n−j = 1 , ∀ζ ∈ (0, 1) .
j=0
j

È agevole verificare le identità simmetrica e ricorsiva


( ) ( ) ( ) ( ) ( )
n n n+1 n n
= , = + , (3)
k n−k k+1 k k+1
l’identità combinatoria di Fermat
n (
∑ ) n (
∑ ) ( ) ( )
j+k j+k n+k+1 n+k+1
= = = ,
j=0
k j=0
j k+1 n

ed ancora
( )( ) ( )( )
h+k n n n−h
= .
h h+k h k
Con un po’ di pazienza si verificano le identità combinatorie

∑n ( ) ∑n ( ) ∑n ( )
n n−1 2 n n−2 3 n
j = n2 , j = n(n + 1)2 , j = n2 (n + 3)2n−3 ,
j=0
j j=0
j j=0
j

nonché l’identità
n ( )( )
∑ ( )
n j n n−1
= 2 , k ≤ n.
j=k
j k k

Nello studio della legge ipergeometrica si fa uso della formula di Vandermonde

2
( ) ∑ jM ( ) ( )
m+n m n
= , jm = max{k − n, 0}, jM = min{k, m} ,
k j=j
j k − j
m

n ( )2
∑ ( )
n 2n (2n)!
la quale, per m = n = k, diviene = = . Quest’ultima, detta
j=0
j n (n!)2
formula di Lagrange.
Si abbiano n oggetti distinti da ripartire in r gruppi di taglia n1 , n2 , . . . , nr . Il
numero totale dei possibili gruppi distinti è dato dal coefficiente multinomiale
( )
n n!
= . (4)
n1 , n 2 , . . . , n r n1 !n2 ! · · · nr !
( ) ( )
n n
Se r = 2 si ha = , con k = n1 . Valgono poi le identità
n1 , n 2 k
( )
n
=
n1 , n2 , . . . , nr
( ) ( ) ( )
n−1 n−1 n−1
= + + ··· + ,
n1 − 1, n2 , . . . , nr n1 , n2 − 1, . . . , nr n1 , n 2 , . . . , n r − 1
( ) ( ) ( )
n n n
= n! , = .
1, 1, . . . , 1 n1 , n2 , . . . , nk n1 , n2 , . . . , nk , 0, . . . , 0
Lo sviluppo di Leibniz della potenza n−esima della somma di r numeri è

∑ ( )
( )n n
a1 + a2 + · · · + ar = an1 1 an2 2 · · · anr r , (5)
n1 , n 2 , . . . , n r
(n1 ,n2 ,...,nr )∈N

dove N indica l’insieme delle r−ple (n1 , n2 , . . . , nr ) costituite da interi non negativi
con somma pari ad n.
• Esempio.
(a) (Gioco del poker.) Il banco serve 5 carte ad un giocatore. Tenuto conto che il
gioco prevede 32 carte, ne consegue che il numero di tutti le possibili mani che un
giocatore può ricevere è
( )
32 32!
= = 201. 376 .
5 5! · 27!
(b) (Gioco del poker.) Il banco serve 5 carte a quattro giocatori. Il numero di
tutti i possibili modi di servirli (1) è

( )
32 32!
= = 2. 649. 169. 819. 964. 828. 160 ∼
= 2.649 · 1018 .
5, 5, 5, 5, 12 5! · 5! · 5! · 5! · 12!
(32)
1
Il lettore “veloce” è diffidato dal fornire “svelte” risposte tipo 4 · 5 o consimili.

3
(c) (Scopone.) Il banco che dispone di un mazzo di 40 carte distribuisce 10 carte
a quattro giocatori. Il numero di tutti i possibili modi di servire i giocatori è
( )
40 40!
= = 4. 705. 360. 871. 073. 570. 227. 520 ∼
= 4.705·1021 .
10, 10, 10, 10 10! · 10! · 10! · 10!
La prima cosa che balza all’occhio è il fatto che (anche) da numeri “piccoli” si
possano ottenere numeri “grandi” e dunque “poco trattabili. Il modo per maneggiare
coefficienti binomiali e multinomiali consistenti è di ricorrere alla formula asintotica
di Stirling. Vedi piú avanti.
Nello studio della legge multinomiale si fa uso del coefficiente multinomiale (4).
Sia (ζ1 , ζ2 , . . . , ζr−1 ) un vettore costituito da proporzioni, con ζi ≥ 0, ∀i, e con
∑ r−1
i=1 ζi ≤ 1. È facile verificare l’identità

∑ ( )
n xr−1 ( )xr
ζ1x1 ζ2x2 · · · ζr−1 1 − ζ1 − ζ2 − · · · − ζr−1 = 1 . (6)
x1 , x2 , . . . , xr
(x1 ,x2 ,...,xr )∈N

Grazie al simbolo di Pochhammer (2) definito, ∀α ∈ R e k ∈ N0 , come




 ∏
k−1
α(α + 1) . . . (α + k − 1) = (α + j) (se k ∈ N)
(α)k = , (7)

 j=0
1 (se k = 0)
si può (ri)definire il termine binomiale (1). Ponendo in (1) α ∈ R al posto di n ∈ N0 ,
dove α S k, si ha
( ) { α(α − 1) . . . (α − k + 1) (α − k + 1)k
α =
= k! k! , (8)
k 0 (se α ∈ N e α < k) 0

termine che (in generale) non ha significato combinatorio. Sempre ricorrendo al


simbolo di Pochhammer, permutazioni, disposizioni e combinazioni assumono la
forma
( )
n (n − k + 1)k (1)n
n! = (1)n , Dn,k = (n − k + 1)k , = = ,
k (1)k (1)k (1)n−k
Se α ∈ R+ si ha
( ) ( )
−α (−α)(−α − 1) . . . (−α − k + 1) (α)k k α+k−1
= = (−1) = (−1)k ;
k k! k! k
(1) ( 1)
( ) −2 ( )
ad esempio 2 = 4! − 2 4 = − 128 e
1 5 5
= 4!1 12 4 (−1)4 = 12835
, etc. Ed
( 1) 4 4
−2 ( 1 )n · · · · 2n−1
1 3
(2n)!
ancora = 2 (−1)n = (−1)n 2 2 2
= (−1)n n , da cui segue
n n! n! 4 n! n!
agevolmente la formula ( ) ( 1)
2n n −2
= (−4) .
n n
2
Dal matematico prussiano Leo August Pochhammer (1841-1920).

4
È facile verificare
( che )
il coefficiente
( ) (binomiale) (8) gode ancora della già vista
α+1 α α
proprietà ricorsiva = + . La formula di Vandermonde, per
k+1 k k+1
( ) ∑ n ( )( )
α+β α β
α, β ∈ R, diviene = .
n k=0
k n − k

1.1 Potenza negativa del binomio


Dicesi serie binomiale, o anche binomio di Newton (1665), lo sviluppo in serie di
McLaurin della funzione φ(x) = (1 + x)α , α ∈ R,

∑∞ ( ) ∑∞
α α j (α − j + 1)j j
(1 + x) = x = x . (9)
j=0
j j=0
j!
( )
α
Se α ∈ N0 , risulta = 0, ∀j > α, e la (9) coincide con la (2). Se nella (9)
j ( )
α
α ∈ R \ N, allora i coefficienti sono positivi ∀j < α, ed a segni alterni ∀j > α.
j
Se α = 12 i coefficienti della (9) sono {1, 21 , − 18 , 16
1
, − 128
5 7
, 256 , − 1024
21
, . . . }. Se α = −1
−1
si ritrova il ben noto sviluppo a segni alterni( ) (1 + x) = 1 − x + x2 − x3 + . . .
α
Si noti poi che per j → ∞ il coefficiente tende ad una certa costante, sicché
j
la (9) si comporta come una serie di potenze a segni alterni. Si ha infatti
(α)
(j + 1)! (α − j + 1)j j+1
lim ( α ) = lim
j
· = lim = −1 .
j→∞
j+1
j→∞ j! (α − j)j+1 j→∞ α − j

Da quanto precede è agevole dedurre che il raggio di convergenza della serie (9)
è x ∈ (−1, 1). (3)
Dalla (9) si ricava facilmente
∑∞ ( ) ∑∞ ( )
1 −α j α+j−1
α
= x = (−1)j xj ,
(1 + x) j=0
j j=0
j

e da questa, sostituendo −x ad x,
∑∞ ( ) ∑∞ ( )
1 −α j j α+j−1 j
= (−1) x = x . (10)
(1 − x)α j=0
j j=0
j

∑∞ ( )
k+j j
Posto k = α − 1 la (10) diviene x = (1 − x)−(k+1) . Posto infine
j=0
j
∑∞ ( )
α+j−1 α
ζ = 1 − x, con ζ ∈ (0, 1), si verifica l’identità ζ (1 − ζ)j = 1, utile
j=0
j
nello studio della legge binomiale negativa.
3
Si faccia attenzione al fatto che la φ(x) = (1 + x)α può esistere anche al di fuori del raggio di
convergenza. Ad esempio, se α = 12 e x = 3, φ(3) = 2.

5
2 Identità
Con un po’ di pazienza è possibile verificare l’dentità assai utile negli sviluppi della
statistica bayesiana
A·B
A (z − a)2 + B (z − b)2 = (A + B) (z − z0 )2 + (a − b)2 ,
A+B
A·a+B·b
dove A, B ∈ R+ e z0 = . Grazie all’ovvia identità
A+B

n ∑
n
(k + 1)α − k α = (n + 1)α − 1 , ∀α ∈ R+ .
k=1 k=1

è possibile dedurre le identità utili nel calcolo delle probabilità.


∑n
(i ) k = 1 n(n + 1),
∑nk=1 2 21
(ii ) k=1 k = 6 n(n + 1)(2n + 1),
∑n ( ∑n )2
(iii ) k=1 k 3 = 14 n2 (n + 1)2 = k=1 k ,
∑n
(iv ) k 4 = 15 n(n4 + 15 n3 + 53 n2 − 15 ),
∑n k=1
5 1 2 4
2
3 5 2 5
(v ) k=1 k = 6 n (n + 3n + 2 n + 2 ),
......
∑n ∑n
Ad esempio, per α = 2, si ∑nha k=1 (k + 1)

2
− 2
k=1 k ∑
2
= (n + 1)∑ − 1. Questa,
2 n 2 n n
tenuto
∑n conto dello sviluppo k=1 (k + 1) ∑n= k=1 k1 + 2 k=1 k + k=1 1, diviene
2 k=1 k + n = (n + 1) − 1, da cui
2
k=1 k = 2 n(n + 1). Le altre identità si
ottengono, con analoga procedura, ponendo α = 3, 4, 5, . . . .
Per n grande le identità ora viste ammettono una approssimazione integrale.
Tenuto conto che grazie al metodo dei rettangoli si ha

1 ∼ 1 ∑ ( k )α
1 n
tα dt = = ,
0 α+1 n k=1 n
si ottengono le formule approssimate

n n ( )

nα+1 k α n
k ∼

, ∼
= .
k=1
α+1 k=1
n α+1
∑ ( )α
• Esempio. (i) Se n = 100 e α = 5 si ha n1 nk=1 nk = 17.17 e α+1 n
= 16.67, con
∑ n ( )α
1
un errore relativo pari a ε < 0.03. (ii) Se n = 100 e α = 7 si ha n k=1 nk = 13.0
n
e α+1 = 12.5, con un errore relativo pari a ε < 0.04.
Dalle
∑n identità (i), (ii1 ), (iii ), . . . , discendono agevolmente le ulteriori identità
(ii’ ) k(k + 1) = 3 n(n + 1)(n + 2),
∑nk=1
(iii’ ) k=1 k(k + 1)(k + 2) = 14 n(n + 1)(n + 2)(n + 3), . . .
formula che facilmente si generalizza


n ∏
m
1 ∏
m+1
(k + j − 1) = · (n + j − 1) .
k=1 j=1
m + 1 j=1

6
2.1 Sull’uso di certi operatori logici
∩ ∪
Si dànno alcuni esempi d’uso degli operatori e . Se (an )n≥1 è una successione
di numeri reali positivi, con limn→∞ an = 0, si ha

∞ ∩
∞ ∩
∞ ∩

[0, an ] = [0, an ) = {0} , (0, an ] = (0, an ) = Ø .
n=1 n=1 n=1 n=1

Se la successione (an )n≥1 è decrescente con limn→∞ an = ℓ, abbiamo


∞ ∩

[0, an ] = [0, a1 ] , [0, an ] = [0, ℓ ] .
n=1 n=1

7
3 Successioni serie, limiti notevoli
( ) { }
Si indichi con an n≥1 la successione indefinita dei numeri reali a1 , a2 , a3 , . . . , e con
( )
sn n≥1 la corrispondente successione delle somme ridotte, cioè s1 = a1 , s2 = a1 + a2 ,
. . . , sn = a1 + a(2 +) · · · + an , . . .
Se la serie sn n≥1 converge ad un numero s, ossia limn→∞ sn = s, allora la
( ) ∑
successione an n≥1 è detta convergente. ed s = ∞ n=1 an è detto valore della serie.

La successione finita di potenze di ordine 0, 1, . . . , k e di ragione ρ ∈ R \ {1},


∑ 1 − ρk+1 ∑ 1 − ρk
1, ρ, ρ2 , . . . , ρk , ha somma kn=0 ρn = , da cui segue kn=1 ρn = ρ .
1−ρ ( n) 1−ρ
Si definisce successione geometrica di ragione ρ, la sequenza ρ n≥0 . Il valore
della serie geometrica, che esiste sse |ρ| < 1, è


1 ∑

ρ
n
ρ = , da cui ρn = . (11)
n=0
1−ρ n=1
1−ρ
La prima delle (11) derivata rispetto a ρ una e due volte porge


1 ∑

2
nρ n−1
= , n(n − 1) ρn−2 = .
n=1
(1 − ρ)2 n=2
(1 − ρ)3
e dunque, dopo qualche passaggio


ρ ∑

ρ(1 + ρ)
n
nρ = , n2 ρn = .
n=1
(1 − ρ)2
n=1
(1 − ρ)3
( )
Si chiama successione logaritmica di parametro b la sequenza k1 bk k≥1 . Il valore
∑∞
1 k
della serie logaritmica, che esiste sse |b| < 1, è · b = − log(1 − b).
k=1
k
Prende il nome di serie telescopica la somma


1
= 1, (12)
n=1
n(n + 1)
la quale facilmente si generalizza


1 3 ∑

1 11 ∑

1 25
= , = , = ,...
n=1
n(n + 2) 4 n=1
n(n + 3) 18 n=1
n(n + 4) 64


N
1
Dalla (12) discende la disuguaglianza < 1.
n=1
n(n + 1)
Limite notevole dell’analisi è
( f )n
lim 1+ = ef , (13)
n→∞ n

8
f )k·n ( ( )
dove f ∈ R non dipende da n. Da esso discende lim = ek·f . Se bn n≥1
1+
n (
f + b n )n
n→∞

è una successione di reali con lim bn = 0, si dimostra che lim 1 + = ef .


( ) n→∞ n→∞ n
Allo stesso modo, se fn n≥1 è una successione di reali con lim fn = f , si ha
( fn )n
n→∞
f
lim 1 + =e .
n→∞ n
bx − 1 −
• Esempio. Calcolare ℓ = lim , con b ∈ R+ noto. Sia t = (bx − 1) 1 , donde
x [ )t ]−1
x→0
( ) (
x = log b · log 1 + t . Sostituendo si ha ℓ = log b · lim log 1 + 1t
1 1
= log b.
t→∞

Gli sviluppi in serie di McLaurin delle funzioni cos x e sin x sono dati da


x2n ∑∞
x2n+1
cos x = (−1)n , sin x = (−1)n . (14)
n=0
(2n)! n=0
(2n + 1)!
Lo sviluppo di McLaurin della funzione f (x) = ex risulta

x2 x3 ∑∞
xj
x
e = 1+x+ + + ... = . (15)
2! 3! j=0
j!
La serie (15) troncata ad un temine n pari, produce le disuguaglianze

ex ≥ 1 , ex ≥ 1 + x + 12 x2 , ex ≥ 1 + x + 12 x2 + 3!1 x3 + 4!1 x4 , . . .
valide ∀x ∈ R+ , nonché le disuguaglianze, valide ∀x ∈ R− ,

ex ≤ 1 , ex ≤ 1 + x + 12 x2 , ex ≤ 1 + x + 12 x2 + 3!1 x3 + 4!1 x4 , . . .
La serie (15), troncata ad un temine n dispari, fornisce, ∀x ∈ R,
ex ≥ 1 + x , ex ≥ 1 + x + 21 x2 + + 3!1 x3 , ex ≥ 1 + x + 12 x2 + 3!1 x3 + 4!1 x4 + 5!1 x5 , . . .
ex − 1
Dalla disuguaglianza ex ≥ 1 + x segue che ≥ 1, che si può anche dedurre
x
considerando che f1 (x) = x, in x = 0, è tangente alla f2 (x) = ex − 1 che ha sempre
ex − 1
concavità rivolta verso l’alto. (Si tenga conto che lim = 1 e che f2′′ (x) > 0,
x→0 x
∀x.)
Altra utile disuguaglianza è ex + x ≥ ex . Essa si prova considerando che f1 (x) =
2

ex + x e f2 (x) = ex hanno, in x = 0, la stessa tangente y = 1 + x, che f2 (x) ≥ 1 + x,


2

che sia la f1 (x) che la f2 (x) sono convesse ∀x ∈ R, con f1′′ (x) > f2′′ (x).
1 2
Analogo sviluppo ammettono le funzioni g(x) = e 2 x e h(A) = eA

1 2
∑∞
x2j ∑

Aj
e2x = j j!
, eA = ,
j=0
2 j=0
j!
dove A può essere una costante, una funzione, una matrice, o altro. Confrontando
lo sviluppo


(ix)n ∑

x2n ∑∞
x2n+1
ix n
e = = (−1) +i (−1)n
n=0
n! n=0
(2n)! n=0
(2n + 1)!

9
con le formule (14), segue l’importante formula di Eulero

e±ix = cos x ± i sin x , (16)


da cui discendono le importanti formule

eix + e−ix eix − e−ix


cos x = , sin x = , (17)
2 2i
nonché le identità

e−iπ = 1 ,
π
eiπ = −1 , ei 2 = i , |eix | = 1 , etc.

Assai utile negli sviluppi del calcolo delle probabilità è la disuguaglianza, valida
∀x ∈ R, |eix − 1| ≤ |x|. (4)
Con un po’ di pazienza si dimostra l’identità di Eulero-De Moivre

e±inx = cos nx ± i sin nx = (cos x ± i sin x)n ,


(5)
e l’identita di Fagnano
1−i
π = 2i · log
.
1+i
Giova infine richiamare le ben note definizioni
et + e−t et − e−t et − e−t
cosh t = , sinh t = , tanh t = t ,
2 2 e + e−t
da cui seguono facilmente le identità

cosh t ± sinh t = e±t , cosh2 t + sinh2 t = cosh 2t , cosh2 t − sinh2 t = 1 ,

cosh it = cos t , sinh it = i sin t , . . .




x2j 1 2
∑∞
x2j
x
Il confronto fra cosh x = e e2 = j · j!
, unitamente al fatto che
j=0
(2j)! j=0
2
1 2
(2n)! > 2n n! (6)
, prova la disuguaglianza cosh x ≤ e 2 x , valida ∀x ∈ R.

4 Richiami analisi
Si rammentano certe note proprietà di analisi utili in probabilità e statistica.

Teorema 1. Se f (x), definita in (x1 , x2 ), ha massimo in x0 ∈ (x1 , x2 ) e φ(·) è una


trasformazione continua e monotona crescente, allora anche la φ[f (x)] è definita in
(x1 , x2 ) ed ha massimo in x0 . ▹
∫ x ∫ x ∫ x

4
Si noti che |eix − 1| = i eit dt ≤ i |eit |dt = i dt = |x|.
0 0 0
5
Dal matematico Giulio Fagnano (1682-1766).
6
Vedere piú avanti formula (23) e relativa nota

10
Trasformazioni
{ } monotone utili: (i) z = log f (x), purché f (x) > 0, ∀x; (ii)
z = exp f (x) ; (iii) z = m f (x) + q, con m ̸= 0.
• Esempio. Sia f (y) = y 3 e−y , con y ∈ R+ . Per calcolare il punto di massimo y0
2

√ (i) la quale porge z = 3 · log y − y ; derivando


2
della f (y), si assuma la trasformazione
3
ed uguagliando a zero si trova y0 = 2
.

Definizione 1. La funzione f (x), definita nell’intervallo simmetrico E, si dice pari


se f (−x) = f (x), ∀x ∈ E. Si dice dispari se f (−x) = −f (x), ∀x ∈ E. ▹
Teorema 2. Sia f (x) una funzione pari [dispari] sommabile nell’intervallo E sim-
metrico. Allora, ∀x0 > 0 tale che (−x0 , x0 ) ⊆ E, si ha
∫ x0 ∫ x0 [∫ x 0 ]
f (x)dx = 2 f (x)dx f (x)dx = 0 . ▹
−x0 0 −x0

Corollario 1. Se f (x) è pari e se la x2k+1 f (x), k ∈ N, è sommabile in E, allora,


∀(−x0 , x0 ) ⊆ E, ∫ x0
x2k+1 f (x)dx = 0 . ▹
−x0

Teorema 3. Condizione ns affinché la funzione f (x) sia sommabile nell’insieme


E ⊆ R è che tale sia la f (x) . ▹
• Esempio.
Calcolare i momenti dispari delle f.d.p. simmetriche (i) normale
1
standard ϕ(x) = (2π)− 2 exp{− 12 x2 }; (ii) Cauchy standard C(y) = π1 ·
1
.
∫ ∫ 1 + y2
0 ∞
2n+1
(i) Gli integrali I1 = x ϕ(x)d x e I2 = x2n+1 ϕ(x)d x sono sommabili:
−∞ 0
il teorema 3 garantisce che il momento µ′2n+1 esiste. Poiché la ϕ(x) è pari, si ha
I1 = −I2 , vedi corollario 1. Ergo µ′2n+1 =
∫ 0, ∀n ∈ N{0} . ∞
(ii) In base al teorema 3, l’integrale y 2n+1 C(y) dy, ∀n ∈ N{0} non è somma-
−∞
(7)
bile. Ergo, la C(·) non possiede alcun momento.
Siano a, β costanti reali positive. Vale il teorema
∫ ∞
Teorema 4. I(a, β) = t−β dt, esiste sse β > 1. ▹
a
Dim.
∫ {
t0 log t0 − log a β = 1,
t−β dt = [ ] t0
−β+1
a
1
−β+1
· t β ̸= 1 ,
a
e dunque
∫ {
t0
−β ∞ β ≤ 1,
I(a, β) = lim t dt =
t0 →∞ a
1
β−1
· aβ−1
1
β > 1.
Dal teorema segue il corollario
7
Un uso assurdo del corollario 1 per “dimostrare” che il momento dispari della f.d.p. C(y) esiste
∫t
ed è nullo: considerato che, ∀t > 0, −t y 2n+1 C(y) dy = 0, ne “consegue”, facendo crescere t ogni
oltre dire, che µ′2n+1 = 0.

11
∫ a
Corollario 2. J(a, β) = t−β dt esiste sse β < 1 e si ha J(a, β) = 1
1−β
· a1−β . ▹
0
∫ ∞
Sia f (t) una funzione continua e limitata. Per stabilire se l’integrale f (t) dt
a
è sommabile non vi è che studiare il comportamento della f ((t), )per t → ∞. Il
teorema 4 assicura che l’integrale è sommabile purché f (t) = o t−1 . (8)
• Esempio. Calcolare il momento k−esimo della v.a. X ∼ GammaInv(x|α, λ) =
λα −(α+1) − λ
x e x , con α, λ ∈ R+ . È agevole verificare che µ′k esiste sse k < α e si ha
Γ(α) ∫ ∞
′ λα −(α−k+1) − λ λk
µk = x e dx =
x . (9)
Γ(α) 0 (a − k)k

5 I simboli di Bachmann-Landau
Sono richiamate le notazioni O e o introdotte in analisi da Bachmann-Landau(10) ,
riguardanti il comportamento limite delle funzioni e delle successioni numeriche. Di
esse si fa largo impiego anche in probabilità e statistica.
Indichiamo con (an )n≥1 , (bn )n≥1 , (cn )n≥1 , . . . , sequenze di numeri che dipendono
a
dall’indice n ∈ N. La scrittura an = bn indica che le sequenze (an )n≥1 e (bn )n≥1
a an
convergono allo stesso numero finito non nullo. E dunque an = bn ⇒ lim = 1.
n→∞ bn
Con riferimento alle successioni numeriche, le notazioni an = O(bn ) e an = o(bn ),
n → ∞, sono cosı́ definite. (11)

Definizione 2. Si dice che an ha lo stesso ordine di grandezza di bn , per grandi


valori di n, e si scrive an = O(bn ), n → ∞, se ∃L ∈ R+ , con L < ∞, tale che
an
lim = L . ▹
n→∞ bn

Definizione 3. Si dice che an è di ordine di grandezza inferiore a bn , per grandi


an
valori di n, e si scrive an = o(bn ), n → ∞, se lim =0. ▹
n→∞ bn

Se an , per n → ∞, si comporta come bn , allora è vero pure il viceversa: an =


a
O(bn ) ⇔ bn = O(an ). Se an = O(bn ), allora ∃k ̸= 0 tale che an = k · bn . Infine, se
an = O(bn ) e bn = O(cn ) allora an = O(cn ).
La scrittura an = O(1) equivale a lim an = L, la scrittura an = o(1) significa
n→∞
an an
che lim an = 0. Se an = O(bn ) allora = O(1). Se an = o(bn ) allora è = o(1).
n→∞ bn bn
Seguono le utili relazioni

an = O(bn ) = bn · O(1) , an = o(bn ) = bn · o(1) . (18)


8
Per il simbolo o(·) si veda piú avanti in sezione 5.
9
Per tale integrale si veda piú avanti in sezione 6.
10
Dai matematici tedeschi Paul G. H. Bachmann (1837-1920) e Edmund G. H. Landau (1877-
1938).
11
La notazione an = O(bn ) [an = o(bn )] si legge: per n → ∞, “an è o-grande [o-piccolo] di bn ”.

12
( ) ( )
In molte applicazioni an n≥1 è la sequenza di interesse, mentre bn n≥1 è la

sequenza di confronto, ad es. del tipo, bn = n−1 , bn = n, bn = log n, bn = log log n,
etc. Segue un esempio.

Esempio 1. Se an = n(n + log n), bn = 3 − 4n2 , cn = n2 n, allora per n → ∞ si
ha an = O(bn ) e a(n = o(c)n ). Ed ancora: log n = o(nα ), ∀α > 0, sin n−1 = O(n−1 ),
n
cos n−1) = O(1), 1 − n1
( n+1 = O(1), etc. Con un po’ di pazienza si verifica che
Γ 2 √ ( )
n n√
( n ) = O( n) e che 2πn = O(n!) . (12) ▹
Γ 2 e

Da quanto ha preceduto, dovrebbe essere chiaro che non è lecito assumere gli
“enti” O(bn ) e o(bn ) come quantità effettive. Né trattare le notazioni an = O(bn ),
an = o(bn ), etc. come relazioni quantitative. Esse indicano solo il comportamento
asintotico delle serie e/o delle funzioni. Si rifletta sulle affermazioni:
◦ se k ̸= 0 è una costante, si ha an = k + O(1) = O(1) e an = k + o(1) = O(1);
◦ se an =( O(bn ),) segue k · an =( O(bn));
◦ si ha o O(bn ) = o(bn ) e O o(bn ) = o(bn );
◦ è privo di senso dire che dalla an = O(bn ) segue O(bn ) = an ;
◦ se an = o(bn ) e an = o(cn ), non è detto che bn = O(cn );
◦ se an = o(rn ) e bn = o(rn ), non è detto che an = O(bn ).
Il lettore è in grado di verificare, anche mediante esempi, le relazioni algebriche

O(an ) O(bn ) = O(an bn ) , o(an ) o(bn ) = o(an bn ) , o(an ) O(bn ) = o(an bn ) ,


√ ( 1) √ √
o(1) O( n) O(n−1 ) = o n− 2 , o(1) + O( n) + O(n−1 ) = O( n) ,
( )
an = O(rn ) e bn = O(sn ), ⇒ an + bn = O max{rn , sn } ,
( )
an = o(rn ) e bn = o(sn ), ⇒ an + bn = o max{rn , sn } .
Le notazioni di Bachmann-Landau applicate alle funzioni continue comporta
qualche cautela in piú. Se finora si è evitato di ripetere che le affermazioni an = O(rn )
oppure an = o(rn ), avevano validità per n → ∞, essendo “ovvia” tale condizione,
ora non è corretto scrivere, ad esempio, sin x = O(x) e basta, senza aggiungere la
condizione x → 0. Si rifletta in proposito sulle affermazioni
( 1) ( 1)
se f (x) = o(x), x → 0, e an = O n− 2 ⇒ f (an ) = o n− 2 ,
( )
e−x = o x−k , x → ±∞ , ∀k ∈ N, e−x = O(1) , x → 0,
2 2

( ) ( )
ex = o |x|−k , x → −∞ , ∀k ∈ N, ex = O(1) , x → 0, ex = o xx , x → ∞ ,
√ (√ ) 1 ( )
se f (x) = O(x) allora f (x) = O x ed ancora = O x−1 .
f (x)
Ricordando lo sviluppo del binomio di Newton è semplice verificare la relazione
1
= 1 + O(x) , x→0, ∀α ∈ R , (19)
(1 + x)α
12
Si veda la formula di Stirling, la (26), piú avanti in sezione 6.

13
ovvero le relazioni
1
(1 + x)α = 1 + O(x) , x → 0 , = 1 + O(x) , x → 0 , etc.
(1 + x)kα

Dalla (19) è deducibile una lunga serie di relazioni. Segnaliamo tra esse
1 1 (√ )
= 1 + O(e−y ) , y→∞, √ = 1+O x , x→0.
1 + e−y 1+ x

Di certo, le notazioni O e o risultano utili negli sviluppi in serie di Taylor e


di McLaurin. Come noto, lo sviluppo in serie di Taylor della φ(·), derivabile qvo
nell’intorno del punto c, arrestato al k−esimo termine, risulta
φ(x) = φ(c) + (x − c)φ′ (c) + + 2!1 (x − c)2 φ′′ (c) + · · · +
( )
+··· + 1
k!
(x − c)k φ(k) (c) + o |x − c|k , x → c. (20)

14
6 Funzioni euleriane
Questa sezione presenta una succinta esposizione delle funzioni euleriane di prima
e seconda specie, dette rispettivamente funzione beta e funzione gamma, o anche
integrali euleriani di prima e seconda specie, funzioni che assai ricorrono nella teoria
elementare e nelle applicazioni della probabilità.(13)

6.1 Funzione Gamma


L’idea di “interpolare” i punti del fattoriale mediante un integrale dipendente da un
certo
∫ 1 ( parametro α∫risale almeno alla fine del ’600. Le ricerche condussero all’integrale
1 )n ∞
log dt = xn e−x dx = n!, n ∈ N, noto come secondo integrale di Eulero.
0 t 0
Non molto dopo si comprese che l’integrabile è generalizzabile nel continuo. Oggi si
preferisce un’altra definizione di integrale euleriano.

Definizione 4. Si definisce funzione gamma o anche integrale euleriano di seconda


specie l’integrale ∫ ∞
Γ(α) = tα−1 e−t d , α ∈ R+ . ▹ (21)
0

L’integrale euleriano di seconda specie, il quale è sommabile sse α ∈ R+ , gode


della fondamentale proprietà

Teorema 5. Γ(α + 1) = α · Γ(α) . ▹ (14)

◃ Dim. Si procede integrando per parti.


Dal teorema 5 discende
(i ) Γ(α + k) = (α + k − 1) · · · αΓ(α) = (α)k Γ(α);
(ii ) Γ(n + 1) = n! e Γ(1) = 0! = 1;
(iii ) limα↓0 Γ(α) = limα→+∞ Γ(α) = +∞;
(iv ) Γ(α) è convessa ∀α, ovvero Γ′′ (α) > 0, ∀α.
◃ Nota 1. Con riferimento alla proprietà (ii ) alcuni autori adottano la scrittura
α! = Γ(α + 1), per valori di α > −1. ▹
◃ Nota 2. Come si è detto, l’integrale euleriano di seconda specie non è somma-
bile per argomenti negativi. Ciò nondimeno, ricorrendo alla proprietà (i), è an-
cora possibile definire la funzione gamma anche per argomenti negativi non interi
dell’argomento. Si ha per definizione

. Γ(α + k − 1) Γ(α + k − 1)
Γ(α) = = , (22)
α(α + 1) · · · (α + k − 1) (α)k
13
Le funzioni euleriane rientrano nel vasto capitolo delle funzioni speciali che comprende le fun-
zioni ipergeometriche, le funzioni di Bessel, di Legendre, i polinomi ortogonali, etc. Le funzioni
speciali, ben presenti negli sviluppi della probabilità, hanno grande rilievo nel campo delle equazioni
differenziali, dell’analisi numerica, della teoria dell’approssimazione, etc.
14
Come mostrò Emil Artin (1898-1962), tutti i risultati classici relativi alla funzione gamma
possono essere ricondotti alla proprietà di cui al teorema 5. È immediato constatare che la funzione
Γ(·) è una delle soluzioni della equazione funzionale f (x + 1) = x · f (x) per valori di x ≥ 0.

15
dove k ∈ N è tale che 1 < α + k < 2. Giova osservare che nella (22) la funzione Γ(α)
a primo membro non è un integrale euleriano. ▹
È agevole
∫ ∞ mostrare che ∫ ∞
√ √
− 21 −x
e−x dx = π ∼ = 1.7725 , Γ( 32 ) = 21 π ∼
2
1
Γ( 2 ) = x e dx = = 0.8862 ,
0√ −∞ √
Γ( 52 ) = 3·1
4
π∼ = 1.3293 , Γ( 72 ) = 5·3·1
8
π∼ = 3.3234, etc. Piú in generale
( )
( 1
) (2n − 1)(2n − 3) · · · 3 · 1 √ (2n)! √ 2n n! √
Γ n+ 2 = n
π = 2n
π = π.
2 n! 2 n 22n
Da quest’ultima si ricava l’importante formula di duplicazione

22n ( )
(2n)! = √ · n! Γ n + 12 , (15)
(23)
π
o anche, dopo banali passaggi, l’analoga

22n−1 ( )
Γ(2n) = √ · Γ(n) Γ n + 12 . (24)
π
alla)(22) è possibile, ∀n ∈ N e ∀α ∈ R \ Z−
Grazie ( 0 , calcolare il coefficiente
α 1 Γ(α + 1) (1/2) Γ( 12 )
binomiale = · . Ad esempio: = = − 128
5
;
n n! Γ(α − n + 1) 4
4! Γ(− 2 ) 5

(−1/2) Γ( 12 ) 35
4
= 7 = 128 , risultati già ottenuti.
4! Γ(− 2 )
La funzione gamma è stata tabulata per α ∈ [1, 2]. Per calcolare il valore di Γ(α)
per argomenti esterni all’intervallo [1, 2], si ricorre alla proprietà (i ).
• Esempio. Calcolare i momenti pari della legge normale standard ϕ(x). Si ha
∫ ∞ √ ∫ ∞
x2n e− 2 x dx ,
1 2
2n
E(X ) = x ϕ(x)dx = π2 ·
2n
−∞ 0

da cui, posto t = x2 , con dx = 1



2 t
dt, segue, ∀n ∈ N,

1 ∞
2n ( )
tn− 2 e− 2 t dt = √ Γ n + 12 = (2n − 1)(2n − 3) · · · 5 · 3 · 1 .
1 1
E(X ) = √ ·
2n
2π 0 π

◃ La formula di Stirling.
Per il calcolo della funzione gamma si utilizza, per grandi valori di α, lo sviluppo
1 √ { }
Γ(α + 1) = e−α αα+ 2 · 2π · 1 + 12α
1 1
+ 288α 2 − 51840α3 − 2488320α4 + O(α
139 571 −5
) , (25)

dove il simbolo O(·) é definito nel paragrafo 5.


Quando n ∈ N (o α ∈ R) è grande, per il calcolo approssimato di n! (o di α!) si
ricorre alla formula di Stirling
( n )n √
n̂! = 2πn , (26)
e
15
Dalla formula di duplicazione discendono le disuguaglianze (2n)! > 22n n! > 2n n!, etc.

16
o anche, in forma logaritmica,

log n̂! = (n + 21 ) log n − n + 12 log 2π . (27)


La formula di Stirling, nella forma (26) o nella forma (27) è di particolare utilità
negli sviluppi della teoria della cinetica dei gas ed applicazioni.(16) Si dimostra poi
n! − n̂!
lim (n! − n̂!) = +∞ , lim = 0.
n→∞ n→∞ n!
• Esempio. Si consideri il fattoriale
√ 9! = 362. 880. Grazie alle (25)√ e (26) si hanno

le approssimazioni 9! = ( e ) · 2π9 = 359. 536.87... e 9! ∼
9 9
= ( 9e )9 · 2π9 · {1 + 12·9
1
}=
.
362 865.91...
• Esempio. Si considerino i rapporti Γ(13)
Γ(10)
= 1320 e Γ(23)
Γ(20)
= 9240. Ricorrendo alla
(26) si hanno le approssimazioni Γ(13) ∼
= 1323.06... e
Γ(23)
= 9245.53...
Γ(10) Γ(20)
• Esempio. Grazie alla (26) è possibile produrre una agevole approssimazione della
formula di Lagrange vista nel capitolo 1
( ) 1 √
2n (2n)! ∼ (2n)2n+ 2 e2n 2π 4n
= = = √ .
n n!n! (n)2n+1 e2n 2π πn
( ) 40
Se n = 40 si ha 80 40
= 1.07507... · 1023 e √440π = 1.07844... · 1023 , con errore
assoluto E = 3.3648 · 1020 e relativo ϵ = 3.13 · 10−3 .
◃ Un limite notevole.
Grazie alla formula di Stirling si dimostra il limite notevole

Γ( n+1 ) 1
lim √ 2 n = √ . (28)
n→∞ n · Γ( 2 ) 2
Si ha infatti
√ √
Γ( n+1 ) 1 2π ( n−1 n
) 2 e
− n−1
n−2 ( 1 ) n2 1
√ 2 n ∼
2
= √ ·√ 2
= · 1 + −→ √ .
n · Γ( 2 ) n 2π ( n−2 )
n−1
2 e
− 2
n−2
2en n−2 2
2

Γ( n+1 ) √
Dalla (28) segue 2
n = O( n), per n → ∞.
Γ( 2 )
Nella teoria della funzione gamma ha importanza la derivata logaritmica della
funzione gamma, detta funzione Digamma o funzione Psi, cosı́ definita

Γ′ (α)
ψ(α) = . (29)
Γ(α)
Dal teorema (5) discende facilmente che
1
ψ(α + 1) = + ψ(α) . (30)
α
16
Cioè quando n è molto grande, ad esempio n = NA numero di Avogadro. Nel 2010, per il numero
di Avogadro, il CODATA ha consigliato NA = 6,02214129(27) × 1023 mol−1 ; in parentesi è data la
sd dell’ultima cifra. Per la maggior parte delle applicazioni si assume NA = 6,022 × 1023 mol−1 .

17
Per le necessità del calcolo tornano utili gli sviluppi in serie equivalenti
∞ (
∑ 1 ) ∑∞
1 α
ψ(α) = −γ + − , ψ(α + 1) = −γ + , (31)
j=0
j+1 α+j j=1
j(α + j)

dove γ = −ψ(1) = 0.5772156649 . . . è detta costante di Eulero-Mascheroni.(17) Per α


grande, è conveniente lo sviluppo in serie
1 1 1 1
ψ(α) = log α − − 2
+ 4
− + ... . (32)
2α 12α 120α 252α6

6.2 Funzione Beta


Definizione 5. Si definisce integrale euleriano di prima specie o anche funzione beta
l’integrale ∫ 1
B(α, β) = tα−1 (1 − t)β−1 dt , α ∈ R+ , β ∈ R+ . ▹ (33)
0

Il teorema che segue fornisce il legame fra le funzioni beta e gamma.


Γ(α) · Γ(β)
Teorema 6. B(α, β) = . ▹
Γ(α + β)
{ y } { }
◃ Dim. La trasformazione u = x + y, v = ⇔ x = u · v , y = u(1 − v) , con
x+y (
x, y )
(x, y) ∈ R × R ⇔ (u, v) ∈ R × (0, 1) con J
+ + +
= u, applicata al prodotto
∫ ∞ ∫ ∞ u, v
di integrali Γ(α) · Γ(β) = xα−1 e−x dx· y β−1 e−y dy, consente di arrivare al
0 0
prodotto Γ(α + β) · B(α, β). È facile verificare che la funzione beta è simmetrica
negli argomenti. Cioè B(α, β) = B(β, α).
( ) ( ( (
• Esempio. (a) B 21 , 21 = π, (b) B 1, 1) = 1, (c) B 2, 2) = 16 , (d ) B α, 1) = α1 ,
etc. Tra i coefficienti binomiali e la funzione beta sussistono le relazioni
( )
n 1 1 1 1
= · = · .
k n + 1 B(k + 1, n − k + 1) k B(k, n − k + 1)
( )
Ricordando la (28) e l’espressione di Γ n+ 21 nonché la funzione beta, è possibile
ritrovare le formule di Wallis (Arithmetica Infinitorum, 1666)


2 1 · 3 · 3 · 5 · 5 · 7··· 24n (n!)4 1 √ √ π
= = lim ( ) e x· 1 − x dx = .
π 2 · 2 · 4 · 4 · 6 · 6··· n→∞ (2n)! 2 (2n − 1) 0 8

L’integrale che segue è la generalizzazione dell’integrale beta.


Definizione
∫ 6. Dicesi integrale di Dirichlet (1839) la funzione B(α1 , α2 , . . . , αk ) =
αk−1 −1
tα1 1 −1 tα2 2 −1 · · · tk−1 (1 − t1 − t2 − · · · − tk−1 )αk −1 dt1 dt2 · · · dtk−1 , dove Sk è il
Sk
{ ∑ }
simplesso Sk = (t1 , t2 , . . . , tk−1 ) ∈ Rk−1 | ti > 0, i = 1, 2, . . . , k − 1, k−1 i=1 t i ≤ 1 .

( )
17
Come noto dall’analisi γ = limn→∞ 1 + 1
2 + 1
3 + ··· + 1
n − log n .

18
Il teorema che segue generalizza il teorema 6.
Γ(α1 ) · Γ(α2 ) · · · Γ(αk )
Teorema 7. B(α1 , α2 , . . . , αk ) = . ▹
Γ(α1 + α2 + · · · + αk )

6.3 Alcuni integrali notevoli


Ad ogni piè sospinto, nelle applicazioni del calcolo delle probabilità si incontrano
integrali notevoli, riconducibili agli integrali euleriani (21) e (33).
Seguono esempi di tali integrali (18)
gli integrali (1 ) si verificano ponendo t = λx e t = λy −1
∫ ∞ ∫ ∞
−(α+1) − y
Γ(α) λ Γ(α)
α−1 −λx
(1 ) x e dx = , y e dy = ;
0 λα 0 λα
gli integrali (2 ) si verificano ponendo t = λxβ e t = λy −β
∫ ∞ Γ( αβ ) ∫ ∞ Γ( αβ )
α−1 −λxβ −(α+1) −λy −β
(2 ) x e dx = α , y e dy = α ;
0 βλ β 0 βλ β
per l’integrale (3 ) si ponga t = y 2
∫ ∞
2k −λ·y 2 Γ(k + 21 )
(3 ) y e dy = 1 ;
−∞ λk+ 2
t
per verificare gli integrali (4 ) si ponga x = t−1 e y =
1−t
∫ ∞ ∫ ∞
(x − 1)β−1
y α−1
(4 ) α+β
dx = B(α, β), dy = B(α, β) ;
1 x 0 (1 + y)α+β
x−a
per verificare l’integrale (5 ), in cui è a < b, si ponga t =
b−a
∫ b
(5 ) (x − a)α−1 (b − x)β−1 dx = (b − a)α+β−1 B(α, β) ;
a
( )−1
per verificare l’integrale (6 ) si ponga z = 1 + ν1 t2
∫ ∞ ( )− ν+1
2 2 √
(6 ) 1 + tν dt = ν · B( 12 , β2 ).
−∞
A·B
Dalla identità A (z − a)2 + B (z − b)2 = (A + B) (z − z0 )2 + (a − b)2 , con
A+B
A·a+B·b
z0 = , vedi paragrafo 2, discende l’identità
A+B
( ) ( ) ( ) ( )
N x µ, λ−1
0 · N µ ψ0 , τ0−1 = N x ψ0 , λ−1
1 · N µ ψ1 , τ1−1 ,
τ 2 · λ2 λ0 (x − ψ0 )
con τ1 = τ0 + λ0 , λ1 = 20 02 e ψ1 = ψ0 + . Da cui
τ + λ0 τ02 + λ0
∫ µ
( ) ( ) ( ) (√ )
(7 ) N x u, λ−1 0 · N u ψ0 , τ −1
0 du = N x ψ 0 , λ −1
1 · Φ ( τ1 (µ − ψ1 ) .
−∞

Numerose leggi sono rappresentabili come misture di leggi di probabilità


18
Si assume che µ, ψ ∈ R, α, β, λ, τ ∈ R+ , n ∈ R+
0 e k, ν ∈ N.

19
∫ ∞ ( ) ( ) ( )
(8 ) N x u, λ−1
0 · N u ψ0 , τ −1
0 du = N x ψ0 , λ −1
1 ;
−∞
∫ 1 ( ) ( ) ( )
(9 ) Bin x θ, n · Beta θ α, β dθ = BeBin x α, β, n ;
0
∫ ∞ ( ) ( ) ( )
(10 ) N z µ, ν y −1 · Chi2 y ν dy = Student z µ, 1, ν ;
0
∫ ∞ ( ) ( ) ( )
(11 ) P o x y · Gamma y α, β dy = Bneg x (β + 1)−1 , α ;
0
(12 ) GAMMA-GAMMA

7 Alcune equazioni differenziali notevoli


Negli sviluppi del calcolo delle probabilità ricorrono certe equazioni differenziali. Si
considerano le seguenti
(i) y ′ + p(x) · y = 0,
(ii) y ′ + p(x) · y = ϕ(x),
in cui le funzioni∫ p(x) e ϕ(x) sono funzioni reali e continue. Sia P (x) una primitiva
di p(x), ovvero p(x)dx = P (x) + c, con c costante arbitraria.
y′
La (i), a variabili separabili, può porsi nella forma = −p(x) donde log y =
∫ y
− p(x)dx = −P (x) + c, da cui si ricava la soluzione generale

y(x) = e−P (x)+c ,


che risulta positiva quale che sia la primitiva P (x).
Per risolvere l’equazione (ii) si moltiplichino entrambi i membri per eP (x)
( )
eP (x) y ′ + p(x) · y = ϕ(x) · eP (x) ,
la quale equivale all’equazione
d ( )
y · eP (x) = ϕ(x) · eP (x) .
dx
Integrando entrambi i membri si ottiene

y·eP (x)
= ϕ(x) · eP (x) dx + c ,

donde la soluzione generale


(∫ )
−P (x)
y(x) = e · ϕ(x) · eP (x) dx + c .

Se p(x) = λ, costante positiva nota, le soluzioni generali delle equazioni (i) e (ii)
risultano rispettivamente
(∫ )
−λx+c −λx
y(x) = e e y(x) = e · e ϕ(x)dx + c . ( 19 )
λx

19

Osservare che eλx ϕ(x)dx è la trasformata di Laplace della funzione ϕ(x).

20
8 Volume della piramide e della sfera (*)
8.1 Volume della piramide
Si calcoli il volume della piramide k−dimensionale

{ ∑
k
}
Pkr = x ∈ Rk : x1 ≥ 0, x2 ≥ 0 . . . xk ≥ 0, xj ≥ r2 , k ≥ 1 .
j=1

Si ha

∫ ∫ 1 ∫ 1−x1 ∫ 1−x1 −x2 −···−xk−1


Ik = dx1 dx2 . . . dxk = dx1 dx2 . . . dxk =
Pkr 0 0 0

∫ 1 ∫ 1−x1 ∫ 1−x1 −x2 −···−xk−2


= dx1 dx2 . . . (1 − x1 − x2 − · · · − xk−1 )dxk−1 .
0 0 0
Integrando rispetto a xk−1 abbiamo

∫ 1 ∫ 1−x1 ∫ 1−x1 −x2 −···−xk−3


1
Ik = dx1 dx2 . . . (1 − x1 − x2 − · · · − xk−2 )2 dxk−2 ,
0 0 0 2!
e cosı́ via fino ad ottenere il valore del volume della piramide
∫ 1
(1 − x1 )k−1 1
Ik = dx1 = .
0 (k − 1)! k!

8.2 Volume della sfera


{ ∑ }
Con Skr = x ∈ Rk : kj=1 x2j ≤ r2 , k ≥ 1, si indichi la sfera k−dimensionale di

raggio r > 0 e centro nell’origine. Sia Wk (r) = S r dx il volume di Skr , sia Vk = Wk (1)
k
il volume della sfera k-dimensionale di raggio unitario.
Posto V0 = 1, è possibile dimostrare la formula ricorsiva
√ ( )
2 π Γ k+1
Vk = Vk−1 · · ( k2 ) , k = 1, 2, . . . (34)
k Γ 2
◃ Uso della formula. ( )
√ Γ 1 √ 1
• Per k = 1 si ha V1 = V0 · 2 π · ( 1 ) = 2 π · √ = 2;
Γ 2 π
Nota. La sfera 1−dimensionale è il segmento
(3) [−1, 1] ed ha volume V1 = 2.

2 π Γ √ √
• Per k = 2 si ha V2 = 2 · · ( 2 ) = 2 π· 12 π = π;
2 Γ (1 )

2 π Γ 2 √ 1
• Per k = 3 si ha V3 = π · · ( 3 ) = 23 π π · 1 √ = 34 π;
3 Γ (2 ) π
√ 2
2 π Γ 2 5
√ √
• Per k = 4 si ha V4 = 43 π · · ( ) = 23 π π · 32 · 12 π = 21 π 2 ; . . . etc.
4 Γ 2

21
◃ Dim.
Per definizione si ha

∫ ∫ 1 ∫
Vk = dx1 · · · dxk = dxk dx1 · · · dxk−1 .
x21 +x22 +···+x2k ≤1 −1 x21 +x22 +···+x2k−1 ≤1−x2k

Tenuto conto che Wk (r) = rk Vk e che dunque


( ) k−1
dx1 · · · dxk−1 = Wk−1 (1 − x2k ) = 1 − x2k 2 Vk−1 ,
x21 +x22 +···+x2k−1 ≤1−x2k

si giunge alla espressione ricorsiva


∫ 1 ( ) k−1
Vk = Vk−1 · 1 − x2k 2
dxk .
−1

Ponendo x2k = y, da cui dxk = 12 y − 2 dy, si ha


1

∫ ∫ ∫
1 ( ) k−1 1 ( ) k−1 − 12
1 ( ) k+1 −1
y 2 −1 1 − y 2 dy =
1
1− x2k 2
dxk = 1−y 2
y dy =
−1 0 0
( ) ( ) √ ( k+1 )
( 1 k+1 ) Γ 12 Γ k+1 2 π Γ
= B 2, 2 = ( )2 = · ( k2 ) ,
Γ k+2
2
k Γ 2
da cui la formula (34). ▹
Dalla (34) segue la formula del volume della sfera in Rk di raggio unitario

( k+1 )
k−1
2k · π 2
Vk = ·Γ 2
, k = 0, 1, 2, . . . ▹ (35)
k!

5 Vk
4
3
2
1
HkL
5 10 15 20

Figure 1: Volume della sfera in Rk di raggio r = 1 in funzione di k.

◃ Nota. Il valore del volume della sfera k−dimensionale di raggio unitario tende a
zero per k → ∞. Al lettore è lasciata la dimostrazione di tale paradossale risultato.
Qui ci si limita a fornire il grafico della (35) in funzione k. Vedasi figura 1. ▹
La (35) poteva essere ricavata usando le trasformazioni sferiche a k−dimensioni.

22
9 Coordinate polari e sferiche (*)
Il sistema di coordinate polari è un sistema di coordinate bidimensionale che ha come
riferimento un punto fisso detto polo, equivalente all’origine del sistema cartesiano
O, e una semiretta (coincidente col verso positivo dell’asse x) avente il polo come
estremo. In tale sistema ogni punto P del piano è identificato da una distanza e da
un angolo.
La prima coordinata, di solito indicata con la lettera ρ, denota la distanza del
punto P dal punto fisso O, la seconda coordinata, di tipo angolare, spesso indicata
con la lettera ϕ e detta angolo azimutale, fornisce l’angolo che la semiretta positiva
dell’asse x deve percorre in senso antiorario per sovrapporsi alla congiungente 0P .
Dunque (ρ, ϕ) ∈ R+ 0 × [0, 2π). Vedi figura 2 (A).
I sistemi di coordinate polari e cartesiane si corrispondono biunivocamente.
Ovvero, ad ogni vettore di coordinate cartesiane (x, y) ne corrisponde uno e uno
solo in coordinate polari (ρ, ϕ), mediante le trasformazioni
{ { √
x = ρ cos ϕ ρ = x2 + y 2
⇔ .
y = ρ sin ϕ ϕ = arctan xy
Passando dalle coordinate cartesiane alle polari, la regola di sostituzione per
integrali multipli stabilisce che si consideri il determinante della matrice jacobiana


∂(x, y) ∂x ∂x
cos ϕ −ρ sin ϕ
|J| = det = ∂ρ ∂ϕ
= = ρ cos2 ϕ + ρ sin2 ϕ = ρ .

∂(ρ, ϕ) ∂y
∂ρ
∂y
∂ϕ sin ϕ ρ cos ϕ

L’elemento d’area, che in coordinate cartesiane è dA = dx dy, risulta dA =


|J| dρ dϕ = ρ dρ dϕ in coordinate polari.
Il passaggio dalle coordinate cartesiane alle polari torna utile in presenza di
dominı̂ di integrazione
∫ ∞ circolari. Un esempio è dato dal calcolo dell’integrale (note-

e−x dx = π.
2
vole) di Gauss
−∞

Ρ sin Φ P HAL K
K HBL
Ρ cos Θ P
Ρ Ρ cos Φ Θ Ρ
H2
O
Φ Ρ sin Θ cos Φ Φ
O H H1
Ρ sin Θ sin Φ H

Figure 2: - Coordinate polari e coordinate sferiche.

In R3 la posizione del punto P è dato, vedi figura 2 (B ), dalle coordinate sferiche


(ρ, θ, ϕ) in cui: (i) ρ è la distanza del segmento OP , (ii ) θ è l’angolo che la direzione
positiva dell’asse verticale z percorre per sovrapporsi alla congiungente OP , (iii) ϕ
è l’angolo che la semiretta positiva dell’asse x deve percorre, in senso antiorario sul
piano orizzontale, per sovrapporsi a OH, proiezione (su tale piano) del segmento
OP . Dunque (ρ, θ, ϕ) ∈ R+ 0 × [0, π] × [0, 2π).

23
I sistemi di coordinate sferiche e cartesiane si corrispondono biunivocamente.
Ovvero, ad ogni vettore di coordinate cartesiane (x, y, z) ne corrisponde uno e uno
solo in coordinate polari (ρ, θ, ϕ), mediante le trasformazioni
  √
 x = ρ sin θ cos ϕ 
 ρ= x +y +z
2 2 2

y = ρ sin θ sin ϕ ⇔ θ = arccos √ 2 2 2 .


x
 

x +y +z
z = ρ cos θ ϕ = arctan xy
La regola di sostituzione per integrali multipli, passando dalle coordinate carte-
siane alle sferiche, richiede il calcolo del determinante della matrice jacobiana

sin θ cos ϕ ρ cos θ cos ϕ −ρ sin θ sin ϕ
∂(x, y, z)
|J| = det = sin θ sin ϕ ρ cos θ sin ϕ ρ sin θ cos ϕ = ρ2 sin θ .

∂(ρ, θ, ϕ) cos θ
−ρ sin θ 0
L’elemento d’area, che in coordinate cartesiane è dA = dx dy dz, diviene dA =
|J| dρ dϕ = ρ2 sin θ dρ dθ dϕ passando alle sferiche.
In Rk , infine, la posizione del punto P è individuata, oltre che dalla distanza ρ,
da k − 1 angoli ϕ1 , ϕ2 , . . . , ϕk−1 , con ϕi ∈ [0, π], i = 1, 2, . . . , k − 2, e ϕk−1 ∈ [0, 2π).
Le formule di passaggio dalle coordinate cartesiane (x1 , x2 , . . . , xk ) alle coordinate
k-sferiche (ρ, ϕ1 , ϕ2 , . . . , ϕk−1 )


 x1 = ρ sin ϕ1 · · · sin ϕk−3 sin ϕk−2 sin ϕk−1



 x = ρ sin ϕ1 · · · sin ϕk−3 sin ϕk−2 cos ϕk−1

 x3
2
= ρ sin ϕ1 · · · sin ϕk−3 cos ϕk−2
.. ,

 .



 xk−1 = ρ sin ϕ1 cos ϕ2

 x
k= ρ cos ϕ 1
{ ∑k } 21
con ρ = i=1 x2i , alle quali corrisponde il determinante jacobiano

∂(x1 , x2 , . . . , xk )
|J| = det = ρk−1 sink−2 ϕ1 sink−3 ϕ2 · · · sin ϕk−2 .
∂(ρ, ϕ1 , . . . , ϕk−1 )
Vi sono situazioni in cui è piú conveniente ricorrere alla trasformazione λ = ρ2 .
In tal caso il determinante jacobiano risulta
∂(x1 , x2 , . . . , xk )
= 21 λ 2 −1 sink−2 ϕ1 sink−3 ϕ2 · · · sin ϕk−2 .
k
|J| = det
∂(λ, ϕ1 , . . . , ϕk−1 )
◃ Nota 1. L’uso delle coordinate sferiche comporta il calcolo di integrali di potenze
di funzioni trigonometriche. In certi casi, si aggira la difficoltà utilizzando la formula
del volume della sfera k−dimensionale di raggio unitario (35).
Come si è detto nel paragrafo 8.2,{ il valore della
∑ volume della
} sfera k−dimensionale

di raggio r > 0 (e centrata) Skr = x ∈ Rk : kj=1 x2j ≤ r2 , è Wk (r) = S r dx =
( k+1 )
k
k−1
k 2k ·π 2
r · k! · Γ 2 . Ricorrendo alle coordinate k−sferiche si ha

( k+1 )
k−1
2k · π 2
Wk (r) = dx = r · k
·Γ 2
=
Skr k!

24
∫ π ∫ π ∫ π ∫ 2π ∫ r
= sin k−2
ϕ1 dϕ1 sin ϕk−3
2 dϕ2 ··· sin ϕk−2 dϕk−2 dϕk−1 ρk−1 dρ .
0 0 0 0 0
k
r
Tenuto conto che l’ultimo integrale vale si conclude che il valore dei primi
k
( )
k−1
2k · π 2
k − 1 integrali è Ik = · Γ k+1 , k ≥ 2. Dunque I2 = 2π, I3 = 4π, I4 = 2π 2 ,
(k − 1)! 2

I5 = 83 π 2 , I6 = 2π 3 , . . .
◃ Esempio 1. Si consideri l’integrale a simmetria sferica

1 { 1 }
F (w) = √ exp − (x2 + y 2 + z 2 ) dx dy dz ,
2π 2π Cu 2

nella variabile reale w > 0, con Cw = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ w}.
Passando alle coordinate sferiche si ha l’integrale a variabili separabili
∫ π ∫ 2π ∫ w
1 { }
F (w) = √ sin θdθ dϕ ρ2 exp − 12 ρ dρ .
2π 2π 0 0 0
√ ∫ w { }
Tenuto conto che I3 = 4π si ha infine F (w) = π2 ρ2 exp − 12 ρ2 dρ.
0
◃ Esempio 2. Si consideri l’integrale a simmetria sferica

1 { 1 }
F (u) = 2 exp − (x21 + x22 + x23 + x24 ) dx1 dx2 dx3 dx4 ,
4π Cu 2
nella variabile reale u > 0, con Cu = {(x1 , x2 , x3 , x4 ) ∈ R4 : x21 + x22 + x23 + x24 ≤ u}.
Trasformando si ha l’integrale a variabili separabili

∫ ∫ ∫ ∫
1 π π 2π u { }
F (u) = 2 2
sin ϕ1 dϕ1 sin ϕ2 dϕ2 dϕ3 λ exp − 12 λ dλ .
8π 0 0 0 0
∫ u { } 1 ( )
Poichè I4 = 2π 2 si ha F (u) = 1
4
λ exp − 12 λ dλ = 1 − e− 2 u 1 + 12 u .
0

25
10 La base empirico-intuitiva della probabilità
Non c’e dubbio che buona parte delle categorie del pensiero probabilistico e degli
oggetti (astratti) del calcolo delle probabilità abbiano come base intutiva le nozioni
empiriche di popolazione, di unità statistica, di esperimento, di risultato di una
prova, di variabile, di mutabile, etc. Richiamiamo dunque alcune elementari nozioni
della statistica descrittiva.
Si intende con popolazione, o universo un ben definito insieme o collettivo di unità
statistiche (d’ora in avanti “u.s.”). Universo e u.s., indicati con Ω e con ω1 , ω2 , . . . ,
sono rappresentabili in un diagramma di Venn.
Non è lecito parlare di universo né di u.s. senza aver chiarito volta per volta
lo scopo e l’ambito dell’indagine (statistica) che si intende eseguire. Ad esempio, se
l’ambito dell’analisi è la Sardegna, e lo scopo dell’analisi riguarda il diabete giovanile,
l’universo è dato dai sardi con meno di 25 anni e l’u.s. è il giovane sardo. Se l’indagine
riguarda i consumi domestici di elettricità, Ω è l’insieme delle famiglie domiciliate in
Sardegna e l’u.s. è la famiglia (e non gli individui che ne fanno parte). Se lo scopo
della ricerca è la nuzialità, Ω è dato dalle coppie di sposi sardi e l’u.s. è la coppia di
sposi. Segue dunque la definizione.

Definizione 7. Prende il nome di unità statistica (d’ora in poi u.s.) l’oggetto min-
imo osservabile (irriducibile ai fini dell’analisi), associato al fenomeno collettivo in
studio. ▹

L’u.s., definita volta per volta dall’indagine, è costituita da un numero fisso o


variabile di oggetti e/o individui. Il numero di u.s. in Ω può essere noto oppure
indefinito.
Esempi di popolazioni costituite da un numero indefinito di u.s.: gli studenti che
seguono le lezioni di fisica, la carica bacterica presente in un certo tino, i pazienti
visitati giorno per giorno in un certo ospedale. Esempio di popolazione costituita da
un numero noto di u.s.: il parlamento italiano costituito da 630 deputati. Notare che
se l’indagine riguarda le aggregazioni dei deputati, l’u.s. è il gruppo parlamentare.
Se gli scopi dell’analisi non sono ben precisati ed è arduo o impossibile definire
univocamente universo e u.s., è necessario riformulare il problema oppure rinunciare
all’analisi.
Per quanto possa apparire strano, in taluni degli esempi considerati può essere
ragionevole riguardare il numero delle u.s. come un numero illimitato cosı́ da far
“coincidere” (nella modellizzazione) indefinito con infinito.
Una volta definito l’universo Ω e le u.s., l’analisi deve precisare ciò che di esse
interessa. Quasi mai chi conduce l’indagine è interessato alle u.s. ωi “in quanto
tali”, quanto piuttosto a loro aspetti o caratteristiche.
Se l’indagine riguarda la corporatura degli Italiani maschi all’età della leva, i
caratteri di interesse sono l’altezza, il peso, la circonferenza toracica, etc. di ciascuna
recluta; se l’indagine riguarda la nuzialità in una certa comunità, i caratteri che
interessano sono: la nazionalità, la religione, l’età, le condizioni sociali degli sposi al
momento del matrimonio, etc. Se l’indagine ha per oggetto i consumi delle famiglie, i
caratteri da considerare sono: il numero componenti la famiglia, il reddito familiare,
il costo dell’energia e dell’istruzione, il livello dei prezzi alimentari, etc.

26
Una volta definiti i caratteri di interesse (ovvero la loro natura) è obbligatorio
possedere un ben preciso protocollo di misura dei caratteri. Protocollo qui inteso
come funzione, diciamo x = x(ω), che a ogni ω ∈ Ω fa corrispondere l’osservazione
x ∈ X , dove X indica l’insieme dei valori o delle modalità che x può assumere.
L’indagine statistica può riguardare tutte le u.s. di Ω o solo una parte di esse
sorteggiate con un qualche criterio di casualità. Nel primo caso si parla di indagine
esaustiva nel secondo di indagine campionaria. Decidere se procedere esaustivamente
oppure a campione è solo questione di convenienza. Il ricorso al campionamento è
conveniente, quando non eludibile, se (i) la popolazione è costituita da un numero
immenso di u.s., ed è impensabile ed inutile condurre indagini esaustive e se (ii ) pur
in presenza di popolazioni limitate, le prove sono lunghe e/o costose e/o distruttive.
Grazie al protocollo di misura e ad un criterio di indagine si può parlare di dati.
Si dà la definizione

Definizione 8. Si definisce campione la n−pla di valori x = (x1 , x2 , . . . , xn ) rilevati


sulle n u.s. (ω1 , ω2 , . . . , ωn ) sorteggiate da Ω. Il numero n va sotto il nome di
numerosità (o taglia) campionaria. L’ordine delle osservazioni è casuale. ▹

I caratteri si distinguono in variabili e mutabili. Variabile, o dato quantitativo, se il


carattere, si esprime mediante una quantità ordinabile di norma dotata di dimensione
fisica e come tale esprimibile in una conveniente unità di misura. Mutabile, o dato
qualitativo, o categoria, se il carattere è un attributo non quantitativo.
◃ Variabili. Una variabile può essere intera o “reale”. Variabile intera è il numero
degli alunni in una classe, il numero di componenti il nucleo familiare, il numero
di incidenti in edilizia nella provincia di Cagliari. Variabile “reale” è l’età, il peso,
il reddito, il consumo di elettricità, la proporzione di “si ” in un referendum, la
densità di popolazione, la temperatura e l’altezza di pioggia rilevata in una stazione
meteorologica, etc.
Si dice sommabile una variabile per la quale abbia senso la somma dei dati
(x1 , x2 , . . . , xn ). Sono sommabili la statura, l’età, il reddito, la massa corporea,
etc. Non sommabile è il tasso di interesse, la proporzione di “si” in un referendum,
il rendimento di un motore, la temperatura di un corpo, etc.
Si dice trasferibile un carattere sommabile che sia (in tutto o in parte) cedibile
da una u.s. ad un’altra, almeno virtualmente. Trasferibile è il reddito, il consumo
di energia, le azioni di una banca, la popolazione comunale, etc. Variabile somma-
bile non trasferibile è l’età, il quoziente intellettuale, la statura, il voto conseguito
nell’esame di CdP, etc.
◃ Mutabili. Una mutabile può essere ordinabile oppure non ordinabile (o scon-
nessa). È ordinabile il titolo di studio, il giudizio in un esame, il grado gerarchico
nell’Esercito. È non ordinabile il sesso, la nazionalità, la fede religiosa, il colore degli
occhi, etc. In ciascuna delle u.s. considerate la mutabile si presenta con una (ed una
sola) modalità. Rinominare le modalità di una mutabile con numeri interi, pratica
che va sotto il nome di codifica, non altera la natura del carattere.
Il concetto di universo o popolazione può essere utilmente “esteso”. Nel caso
di n ripetute misurazioni fisiche (x1 , x2 , . . . , xn ) di uno stesso oggetto (e/o di un
fenomeno opportunamente ripetuto), si può immaginare l’esistenza di un universo
virtuale Ω le cui u.s. sono costituite da tutte le possibili misurazioni dell’oggetto

27
stesso. Tale escamotage consente di trattare le misure ripetute alla stregua di ogni
altro tipo di osservazioni.
Se la popolazione Ω è molto ridotta può essere utile, in certi casi, assimilare
l’insieme delle sue u.s. ad un campione proveniente da un’ampia popolazione virtuale
detta superpopolazione. A tale concetto si fa largo ricorso in statistica inferenziale.
Ad esempio, nel caso di malattie genetiche rare che colpiscono poche decine di
persone al mondo, la superpopolazione, è virtualmente costituita oltre che dai malati
osservati anche dai malati presenti, passati e futuri, non osservati e/o di cui non si
ha notizia.
Una volta raccolti, i dati devono essere ordinati e rappresentati. Se il carattere
in studio è una variabile, i dati x = (x1 , x2 , . . . , xn ) sono ordinabili su una retta. Si
dànno le definizioni.
Definizione 9. Si definisce campione n−ordinato, e si scrive (x(1) , x(2) , . . . , x(n) ), la
successione delle osservazioni x riordinate in senso crescente. ▹
Si pone xmax = max{x1 , x2 , . . . , xn } e xmin = min{x1 , x2 , . . . , xn }.
Definizione 10. Si definisce range (o campo di variazione) delle osservazioni x la
quantità non negativa range = xmax − xmin = x(n) − x(1) . ▹
Quale che sia la natura delle osservazioni, può essere comodo, quanto piú n è
grande, accorparle in sottogruppi o classi o coorti, in base a qualche criterio di buon
senso. La scelta delle classi non è né univoca né esente da soggettività, specie nel
caso di variabili reali.
Definizione 11. Si definisce partizione di X una qualsiasi collezione finita di classi
{Aj , j = 1, 2, . . . , k}, tale che: (i) ∪kj=1 Aj = X , (ii) Aj ∩ Ah = Ø, ∀j ̸= h. ▹
Se x è un carattere continuo, possiamo partizionare X in classi della forma
Aj = [ξj−1 , ξj ), j = 1, 2, . . . , k. La scelta delle delimitazioni ξ0 , ξ1 , . . . , ξk non è
univoca e risponde solo a criteri di comodità e buon senso. Se xi ∈ X = R+ 0 è
l’energia elettrica (in kW h) consumata dall’utente ωi ∈ Ω, e si assume la partizione:
A1 = [0, 50), A2 = [50, 100), A3 = [100, 200), A4 = [200, 500), A5 = [500, +∞), è
evidente che xi appartiene ad una ed una sola delle classi Aj .
Se x è una discreta la procedura varia di poco. Se l’u.s. è il nucleo familiare
e il carattere x è il numero dei suoi componenti, e dunque xi ∈ X = {1, 2, . . . } =
N, si può assumere una partizione del tipo (A1 , . . . , Aj , . . . , Ak ), dove Aj = {j},
∀j = 1, . . . k − 1, e Ak = {k, k + 1, . . . }. (L’ISTAT assume k = 8.) Poche cautele
in piú se x è una mutabile. Ad esempio, se x è lo stato civile, ogni osservazione xi
assume una (ed una sola) delle 5 modalità: A1 = celibe/nubile, A2 = sposato/a,
A3 = separato/a, A4 = vedovo/a, A5 = divorziato/a.
Le definizioni che seguono sono valide qualunque sia il carattere x.
Definizione 12. Sia x una osservazione, sia A un evento. Si definisce indicatore
dell’evento A (o funzione indicatrice) la funzione y = 1A (x), che assume il valore
y = 1 se x ∈ A ed y = 0 se x ̸∈ A. ▹
Definizione 13. Il carattere x è detto dicotomico se esso si articola in due sole
classi {A, Ā}. Per convenzione, diciamo che x costituisce un successo [insuccesso]
se x ∈ A [x ∈ Ā].

28
Esempi di caratteri dicotomici: presente/assente, maschio/femmina,
∑ +/−, 1 /0,
aperto/chiuso, minorenne/maggiorenne, etc. La somma n1 = ni=1 yi , che conta gli
“1 ” (i successi) in y, coincide con la frequenza di A in x. La differenza n0 = n − n1 ,
il numero di “0 ” (gli insuccessi) in y, è la frequenza di Ā in x.

10.1 Indici statistici e momenti empirici


Gli indici sono gli “oggetti numerici” di cui si serve la statistica per dare una de-
scrizione in sintesi dei dati. Tale esigenza non ammette risposta (o soluzione) univoca
e dipende dagli scopi dell’analisi. Tutti gli indici che seguono si riferiscono ad una
n−pla di osservazioni reali omogenee x = (x1 , x2 , . . . , xn ).
Gli indici a cui si richiedono (essenzialmente) proprietà di buon senso, sono
classificati secondo la loro forma e il loro uso. Abbiamo cosı́ gli indici di posizione,
di concentrazione, di scala, di forma, di variabilità (o dispersione), etc. (Il range, vedi
definizione (10), è un indice di variabilità.)
Indici di posizione sono le medie. Seguendo A. Cauchy (1921) possiamo dare la
definizione di media.
Definizione 14. Data una n−pla di osservazioni reali omogenee x, si dà il nome
generico di media ad ogni indice, chiamato a rappresentarli, che goda della proprietà
della internalità

x(1) ≤ min{x1 , x2 , . . . , xn } ≤ m ≤ min{x1 , x2 , . . . , xn } ≤ x(n) ,

valendo il segno di uguale solo simultaneamente.


Come è facile osservare, la definizione di Cauchy non suggerisce alcun criterio o
indicazione per la costruzione di una media. Torna utile, a tale scopo, la seguente
definizione generale di media, di cui le medie aritmetica, armonica e geometrica non
sono che casi particolari.

Definizione 15. (Oscar Chisini, 1929.) Si dice che m è la media di n osservazioni


x in un problema in cui interessa una loro funzione φ(x1 , x2 , . . . , xn ) se essa assume
lo stesso valore quando al posto delle xi si pone m

φ(x1 , x2 , . . . , xn ) = φ(m, m, . . . , m) . ▹

La definizione di Chisini, stabilendo un nesso formale tra il concetto di media ed


il problema che si deve risolvere, mette in luce il carattere rappresentativo che deve
possedere qualsiasi valore medio.

Definizione 16. Si definisce media aritmetica o semplicemente media delle osser-


vazioni x, quando ciò non dà luogo a confusioni, l’indice

1 ∑
n
x1 + x2 + · · · + xn
m = x̄ = = xi . ▹
n n i=1

Da notare che se i dati y = (y1 , y2 , . . . , yn ) sono dicotomici, cioè yi = {0, 1}, la


media aritmetica ȳ coincide con la proporzione di successo pn .

29
Definizione 17. Posto che xi > 0 ∀i, si definiscono media armonica e media geome-
trica gli indici
n n
ma = = ∑ ,
1 1 1 1
+ + ··· + n
i=1
x1 x2 xn xi
√ {∏
n } n1
mg = n x1 , ·x2 · · · · · xn = xi .▹
i=1

1∑ 1 1∑
n n
1
Si noti che = e che log mg = log xi . Vale il teorema
ma n i=1 xi n i=1

Teorema 8. Per ogni n−pla di osservazioni positive x si ha ma ≤ mg ≤ x̄. Il


segno di uguale vale simultaneamente se e solo se x1 = x2 = · · · = xn . ▹

Definizione 18. Si definisce scarto o scostamento di xi rispetto a un centro t, la


quantità presa in segno ϵi (t) = xi − t, si definisce scarto baricentrico o scarto rispetto
alla media (scarto e basta quando non vi è confusione), la quantità presa in segno
ϵi = xi − x̄. ▹

La media gode dell’importante proprietà


∑n
∑n i=1 (xi −
Teorema 9. Per ogni n−pla di osservazioni x la funzione SG (t) = t)2 di
t ha punto di minimo unico in x̄ con minimo Dev = SG (x̄) = i=1 (xi − x̄) , noto
2

col nome di devianza. ▹

Definizione 19. Si definiscono varianza e varianza corretta gli indici

1 ∑
n
Dev
V ar = s = 2
= (xi − x̄)2 ,
n n i=1

1 ∑
n
n
V arc = s2c = (xi − x̄)2 = V ar . ▹
n − 1 i=1 n−1

Definizione 20. Si definiscono scarto quadratico medio (s.q.m.), o standard deviation


(s.d.) e s.q.m. corretto, o s.d. corretta gli indici
v
u
√ u1 ∑ n
2
sqm = s = s = t (xi − x̄)2 ,
n i=1
v
u
√ u 1 ∑
n
sqmc = s2c = sc = t (xi − x̄)2 . ▹
n − 1 i=1

30
Devianza, varianza e s.q.m. sono indici di variabilità. La varianza e lo e s.q.m.
sono anche una misure di variabilità. È facile vedere che ∀n V ar < V arc , e che per
n grande V ar ∼ = V arc .
È facile mostrare che la varianza dei dati dicotomici y = (y1 , y2 , . . . , yn ), aventi
frequenza relativa di successo pn , è data da V ar = pn (1 − pn ).

Definizione 21. Si definiscono momento rispetto all’origine (o non centrato) di or-


dine k (o k−esimo) e momento k−esimo rispetto a t, con k ∈ N, gli indici

1 ∑ k
n
xk1 + xk2 + · · · + xkn
m′k = = x ,
n n i=1 i

1 ∑ 1 ∑
n n
mk (t) = k
ϵi (t) = (xi − t)k . ▹
n i=1 n i=1

Definizione 22. Si definisce momento k−esimo rispetto alla media x̄ (o centrato,


o baricentrico) l’indice

1 ∑ k 1 ∑
n n
mk = ϵi = (xi − x̄)k . ▹
n i=1 n i=1

La varianza s2 , media dei quadrati degli scarti, coincide con il momento secondo
centrato m2 . Si osservi che mk (0) = m′k , che mk (x̄) = mk e che il momento m′1
coincide con la media, etc.

Definizione 23. Si definiscono momento assoluto k−esimo non centrato e centrato


gli indici
1 ∑ 1 ∑
n n
d′k = |xi |k , dk = |xi − x̄|k . ▹
n i=1 n i=1

Ovviamente momenti e momenti assoluti coincidono quando le osservazioni sono


non negative.

Definizione 24. Si definisce media k−esima (o di ordine k) l’indice


v
u
u1 ∑ n

rk = t
k
xk . ▹
n i=1 i

Analoga è la definizione di media k−esima centrata (o baricentrica di ordine k).


Vale il teorema.

Definizione 25. Per ogni n−pla di osservazioni x la relativa successione delle medie
k−esime {rk′ , k ∈ N}, gode delle seguenti proprietà: (i) r1′ ≤ r2′ ≤ · · · ≤ rk′ ≤ . . . ,
valendo simultaneamente il segno di eguale se e solo se x1 = x2 = · · · = xn ; (ii )
limk→∞ rk′ = x(n) , limk→0 rk′ = mg . ▹

31
10.2 Geometria delle masse ed indici statistici
Tra geometria delle masse e statistica vi sono profonde analogie formali: proprietà
valide in un contesto possono essere utilmente trasferite nell’altro. È facile vedere
che (i) il baricentro di un sistema di n masse puntuali di massa n1 concentrate nelle
xi si trova in x̄; (ii ) i momenti di inerzia calcolati rispetto all’origine e al baricentro
coincidono con m′2 e m2 .
Valgono le importanti proprietà.
Teorema 10. (Christiaan Huygens, 1655.) V ar = m′2 − x̄2 .
Corollario
∑n 3. Per ogni n−pla di osservazioni x è nulla la somma degli scarti
i=1 (xi − x̄) = 0.

Corollario 4. La varianza è il minimo momento secondo centrato


1∑ 1∑
n n
m2 (t0 ) = (xi − t0 )2 = (xi − x̄)2 + (t0 − x̄)2 = V ar + (t0 − x̄)2 .
n i=1 n i=1

Il teorema di Huygens si generalizza a tutti i momenti superiori al secondo


Corollario 5.
m3 = m′3 − 3 m′2 m + 2 m3 , m4 = m′4 − 4 m′3 m + 6 m′2 m2 − 3 m4 , etc.

In numerosi casi è utile conoscere il valore che, sull’asse delle x, segue la prima
metà delle osservazioni e precede la seconda metà. O, equivalentemente, il valore
prima e dopo il quale si colloca un uguale numero di osservazioni. Formalmente
Definizione 26. Si dice mediana,∑ o punto mediano, delle osservazioni x, il punto
di minimo della funzione SL (t) = ni=1 |xi − t|. Equivalentemente, si dice mediana
il punto me soluzione del sistema di disuguaglianze H(m−e ) ≤ 2 n ≤ H(me ).
1 +

Con riferimento al campione n−ordinato (x(1) , x(2) , . . . , x(n) ), si dimostra che se


n è dispari la mediana è me = x( n+1 ) . Viceversa, se n è pari la SL (t) è minima
2
∀t ∈ [x( n2 ) , x( n2 +1) ]. In tale situazione solitamente si assume me = 21 (x( n2 ) + x( n2 +1) ).
Alla definizione di 26 si può dare una ∑n giustificazione geometrica. Date le os-
servazioni (x1 , x2 , . . . , xn ), sia SL (t) = i=1 |xi − t| la somma degli scarti assoluti
rispetto a t, sia me il punto di minimo di SL (t).
Come mostrano i grafici di figura 3, la SL (t) ha minimo in me = x( n+1 ) per n
2
dispari, mentre, con n pari SL (t) è minima ∀t ∈ [x( n2 ) , x( n2 +1) ]. In tale caso si assume
me = 12 (x( n2 ) + x( n2 +1) ). (La figura 3 considera i dati {−1, 0, 2, 3, 6}, n = 5, me = 2
e {−1, 0, 1, 2, 3, 6}, n = 6, me = 1.5.)
Allo stesso modo si definiscono gli indici di posizione quartili, i decili e i percentili
(detti tutti quantili). In certo senso, il primo [terzo] quartile è la mediana della prima
[seconda] metà delle osservazioni. Formalmente
Definizione 27. Si definisce primo [terzo] quartile delle osservazioni x, il punto q1
[q3 ] soluzione del sistema di disuguaglianze
1 3
H(q1− ) ≤ n ≤ H(q1+ ) [H(q3− ) ≤ n ≤ H(q3+ )] . ▹
4 4

32
Il secondo quartile coincide con la mediana, cioè q2 = me .

Definizione 28. Si definiscono: (i) interquartili le distanze tra quartili ovvero δ1 =


me − q1 e δ2 = q3 − me ; (ii) range interquartile l’ampiezza δ12 = δ1 + δ3 = q3 − q1 .

SL HtL SL HtL
25 25

20 20

15 15
Hn=5L Hn=6L
10 10

5 5
me Ht,xL me Ht,xL
-2 2 4 6 -2 2 4 6

Figure 3: - Calcolo grafico della mediana, n = 5 e n = 6 osservazioni.

Si osservi che mentre i quartili sono indici di posizione, gli interquartili e il range
interquartile sono indici di variabilità. Nel caso di osservazioni non negative torna
utile l’indice di variabilità che segue.

Definizione 29. Data n−pla di osservazioni x, con xi ≥ 0, ∀i, con ni=1 xi > 0, si
s
definisce coefficiente di variazione (di K. Pearson) il rapporto qV = . ▹

Il coefficiente di variazione è un indice adimensionale che esprime la variabilità
relativa del carattere x in relazione all’intensità media √del carattere nel collettivo.
Essendo limitato (è facile dimostrare che 0 ≤ qV ≤ n − 1), qV è un indice di
variabilità relativa.
Tale indice, risulta prezioso quando si debbono mettere a confronto situazioni
e/o popolazioni differenti. Ad esempio, quando si deve paragonare la precisione
(relativa) di strumenti di misura eterogenei (la bilancia del farmacista con la bilancia
dell’ortolano). O anche per stabilire confronti fra differenti specie di viventi (la
variabilità relativa del peso dei pulcini e dei vitelli), etc.
◃ Quale media “scegliere”.
La guida più sicura per scegliere la media è la definizione 15 di Chisini. Chiedersi,
in astratto, quale sia il “miglior valore di sintesi” della n−pla x è domanda priva di
senso. Se, ad esempio, le xi sono i tassi di interesse annui praticati da una banca ad
uno stesso creditore, in n anni consecutivi, è facile
∏n mostrare,1/n in base alla definizione
di Chisini, che il tasso medio annuo è xM = { i=1 (1 + xi )} − 1. Se invece gli xi
sono i tassi di interesse praticati, in un certo anno, ad n clienti a ciascuno dei quali è
stata accordata una stessa somma, è facile vedere che il tasso medio praticato dalla
banca è la media aritmetica x̄. ▹

33
11 Derivate vettoriali
Dati i vettori colonna a, b, x, y, . . . e le matrici A, B, C . . . , di dimensioni tali
che siano possibili i prodotti aT x, Ax, y T Ax, etc. Si ha
∂ T ∂ T ∂ ∂ T T
x a= a x=a, Ax = x A = AT ,
∂x ∂x ∂x ∂x
∂ T ∂2
y A x = AT y , yT A x = A .
∂x ∂x∂y
Sia S una matrice simmetrica. La derivata della forma quadratica Q(x) = xT Sx
è data da
∂ ∂ T ∂2 ∂2 T
Q(x) = x S x = 2Sx , Q(x) = x S x = 2S .
∂x ∂x ∂x2 ∂x2

34

Potrebbero piacerti anche