Probabilidad Terminologia1

CORSO DI LAUREA IN ECONOMIA AZIENDALE
Metodi Statistici per l’impresa (Note didattiche)

Bruno Chiandotto – Fabrizio Cipollini
Capitolo 2
CALCOLO DELLE PROBABILITÀ
Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo si è sviluppato
teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei
fenomeni collettivi, diventando presupposto essenziale della teoria della statistica. La
teoria delle probabilità è una disciplina matematica astratta e altamente formalizzata pur
conservando il suo originale e rilevante contenuto empirico; in questa esposizione ci
limiteremo a esporre gli aspetti essenziali per la comprensione degli argomenti trattati
nel seguito.
1. Esperimento casuale, spazio campionario, eventi
Definizione 1: Definizione di esperimento casuale. Si dice esperimento casuale,

ogni fenomeno il cui risultato non può essere previsto con certezza.
Si evidenzia che il termine esperimento va qui inteso in senso lato. Infatti comprende
giochi di sorte (come il lancio di una moneta, l’estrazione di un numero al lotto,
l’estrazione di una numero alla roulette), esperimenti di laboratorio (come il test di
durata di un pneumatico, la somministrazione di un principio attivo ad un insieme di
cavie o il numero massimo di battiti cardiaci di un paziente durante un test di sforzo),
misurazioni fisiche (come la temperatura minima di domani in una certa stazione
meteorologica o l’intensità di una certa scossa di terremoto) fenomeni economici e
sociali (come il numero di computer prodotti da un’impresa del settore, il PIL italiano
fra 5 anni, il numero di imprese che falliranno in Inghilterra nel prossimo anno o il ROE
di un impresa nel prossimo esercizio) e più in generale tutte le prove, operazioni,
attività o fenomeni il cui esito non è prevedibile con certezza.
1
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Definizione 2: Definizione di spazio campionario. Dato un esperimento casuale, si

dice spazio campionario l'insieme Ω di tutti i possibili risultati,
esaustivi e mutualmente esclusivi, dell'esperimento stesso. Tali possibili
risultati sono detti punti campionari.
Alcuni esempi
Se l'esperimento casuale consiste nel lancio di una MONETA a due facce, lo spazio
campionario è dato da
Ω = {T, C}
dove T è il punto campionario testa e C è il punto campionario croce.
In questo esempio si è assunto (come si fa di solito) che gli unici risultati possibili siano
T e C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si
ipotizza che anche questo risultato sia possibile, allora lo spazio campionario di questo
esperimento casuale è
Ω = {T, C, B},
dove B è il punto campionario “moneta in equilibrio sul bordo”.
Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale
sia l’esito di una operazione di finanziamento di una banca ad una impresa cliente, i cui
risultati possibili sono la restituzione o meno del finanziamento concesso da parte
dell’impresa. In tal caso infatti lo spazio campionario Ω è dato da
Ω = {R, NR},
dove R è il punto campionario finanziamento restituito e NR il punto campionario
finanziamento non restituito.
Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio
campionario è dato da
Ω = {1, 2, …, 90},
costituito, come è ovvio, da tutti i numeri interi da 1 a 90.
Analogamente se l'esperimento casuale consiste nell'estrazione di un numero alla
roulette, lo spazio campionario è dato da
Ω = {0, 1, 2, …, 36}.
Se l'esperimento casuale consiste nel contare il numero di difetti (ad esempio dei nodi)
in una matassa di filato da 100 metri, lo spazio campionario è dato da
2
Ω = {0, 1, 2, …}.
cioè da tutti i numeri interi non negativi, dato che il numero di difetti è un numero intero
e non è possibile stabilire a priori il numero massimo.
Una situazione analoga si ha se l’esperimento casuale consiste nel contare il numero di
accessi ad un certo sito internet nell’arco di un anno oppure nel contare il numero
massimo di battiti cardiaci durante un test di sforzo.
Se l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio
campionario è costituito da
Ω = [0, +∞),
cioè tutti i numeri reali non negativi, dato che la durata è un numero che non può essere
negativo. Una considerazione analoga vale per l’intensità di una scossa di terremoto,
dato che questa, se misurata si scala RICHTER, sarà un numero non negativo (0 se non
c’è stata nessuna scossa).
Se l'esperimento casuale consiste nel valutare il ROE di un’impresa nel prossimo
esercizio, lo spazio campionario è costituito da
Ω = (–∞, +∞)
dato che il ROE di un’impresa può essere un qualsiasi numero reale.
Se l'esperimento casuale consiste nel misurare la temperatura (in gradi centigradi) in
una certa stazione meteorologica, lo spazio campionario è costituito da
Ω = [–273, +∞),
dato che secondo la fisica la temperatura non può scendere sotto lo 0 assoluto (circa –
273 °C).
Riepilogando, allora, lo spazio campionario è l’insieme dei risultati possibili

dell’esperimento campionario considerato.
Dagli esempi riportati possiamo notare che lo spazio campionario può essere costituito
da un numero finito di punti campionari (come nel caso del lancio della moneta, dei
pezzi buoni/difettosi, delle palline estratte da un’urna o dell’estrazione alla roulette),
oppure da un’infinità numerabile di punti campionari (come nel caso del numero di
computer prodotti, del numero di accessi ad un sito internet o del numero di battiti
cardiaci), o infine da un’infinità non numerabile di punti campionari (come nel caso
del test di durata di un pneumatico, del PIL italiano fra 5 anni, della temperatura di un
luogo o del ROE di un’impresa).
3
Definizione 3: Definizione di evento. Dato uno spazio campionario Ω relativo ad un

certo esperimento casuale, un evento è sempre un sottoinsieme di Ω.
Tuttavia:
• se Ω è costituito da un numero finito o da un’infinità numerabile di
punti campionari, è evento ogni sottoinsieme A di Ω;
• se invece Ω è costituito da un’infinità non numerabile di punti, non
tutti i possibili sottoinsiemi di Ω sono eventi ma soltanto i cosiddetti
sottoinsiemi ammissibili di Ω.
In ogni caso, comunque, un evento è un sottoinsieme di Ω ed è quindi costituito da un

insieme di punti campionari. Precisiamo inoltre che nel caso in cui Ω sia costituito da
un’infinità non numerabile di punti, i sottoinsiemi non ammissibili sono piuttosto
artificiosi da costruire: i sottoinsiemi ai quali si è comunemente interessati (vedremo poi
alcuni esempi) sono tutti ammissibili.
Definizione 4: Verificarsi di un evento. Dato uno spazio campionario Ω relativo ad

un certo esperimento casuale, l’evento A si verifica (si realizza) solo se
il risultato dell’esperimento casuale è un qualsiasi punto campionario di
A; in caso contrario A non si verifica.
Le due definizioni precedenti ci consentono di precisare che sono eventi anche:

• Ω stesso, che contenendo tutti i punti campionari deve per forza verificarsi ed è
quindi detto evento certo (importante: in generale tutti gli eventi certi possono
essere indicati con Ω).
• tutti gli eventi del tipo {ω}, cioè costituiti da un solo punto campionario ω, che
come tali sono detti eventi elementari;
• ø, che non contenendo alcun punto campionario non si potrà mai realizzare e che è
quindi detto evento impossibile (importante: in generale tutti gli eventi impossibili
possono essere indicati con ø).
4
Alcuni esempi
Se l'esperimento casuale consiste nel lancio di una moneta a due facce, sono eventi:
{T}, {C}, Ω = {T, C}, ø. Questi sono anche gli unici eventi che possono essere definiti
nell’esperimento casuale indicato. {T} e {C} sono eventi elementari in quanto costituiti
da un solo punto campionario; Ω è l’evento certo (infatti è certo che dal lancio venga T
o C); gli eventi {BABBO} oppure {CANE, GATTO} sono impossibili e possono essere
rappresentati, come tutti gli eventi impossibili, col simbolo ø. In questo esperimento
casuale implicitamente abbiamo escluso che la moneta possa rimanere in equilibrio sul
bordo. Quindi anche l’evento {B} è impossibile e può essere indicato con ø.
Se invece nell’esperimento della moneta a due facce è possibile che la moneta rimanga
in equilibrio sul bordo allora sono eventi: {T}, {C}, {B}, {T, C}, {T, B}, {C, B}, Ω =
{T, C, B}, ø; questi sono anche gli unici eventi che possono essere definiti in questo
esperimento casuale. {T}, {C} e {B} sono eventi elementari, mentre {T, C} non è più
l’evento certo (infatti non è certo che venga T o C, dato che è possibile che la moneta
rimanga sul B); {B} non è più impossibile mentre rimangono impossibili (e quindi
identificabili con col simbolo ø) gli eventi {BABBO} e {CANE, GATTO}. Se nel lancio
viene B allora si realizzano tutti gli eventi che contengono B ({B}, {C, B}, {T, B} ed
ovviamente Ω), mentre non si realizzano tutti quelli che non lo contengono ({C}, {T},
{T, C} ed ovviamente ø).
Una situazione simile a quella del lancio della moneta si ha nel caso in cui l'esperimento
casuale sia l’esito di una operazione di finanziamento di una banca ad una impresa
cliente. [Lo studente provi per conto proprio a scrivere gli eventi che possono essere
costruiti in questo caso, indicando quali sono quelli che si verificano se l’esito è NR]
Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, costruire l’elenco
di tutti gli eventi possibili è un’operazione lunghissima (e anche inutile!). Siccome lo
spazio campionario contiene un numero finito di punti campionari tutti i sottoinsiemi
possibili di Ω sono eventi, ivi compresi Ω stesso e ø. Ad esempio {33}, {99}, { 10 },
{55, 58}, {–3, 2.5} {99, 5}, {numeri pari}, {numeri divisibili per 10}, {numeri reali},
sono tutti eventi. Fra questi {99}, { 10 } e {–3, 2.5} sono impossibili e possono essere
indicati con ø; gli altri sono invece possibili (ivi compreso {99, 5}: se infatti viene fuori
il 5 questo evento si realizza); {numeri reali} è certo e può essere indicato con Ω. Se
viene estratto il 30 allora si verificano tutti gli eventi che contengono il 30 (ad esempio
5
si verificano {numeri pari}, {numeri divisibili per 10}, {30, 60, 90} e, naturalmente, Ω)
mentre non si verificano quelli che non lo contengono (ad esempio non si verificano
{dispari}, {numeri divisibili per 7}, {11, 22, 33} e, naturalmente, ø).
Se l'esperimento casuale consiste nel contare il numero di difetti in una matassa di filato
da 100 metri, costruire l’elenco di tutti gli eventi possibili è un’operazione impossibile,
dato che Ω contiene una infinità numerabile di punti campionari. Anche in questo caso,
comunque, tutti i sottoinsiemi di Ω sono eventi. Ad esempio sono eventi possibili {0},
{33}, {99}, {55, 58}, {99, 5}, {numeri pari}, {numeri divisibili per 10}; {numeri
reali}, {numeri non negativi} coincidono con l’evento certo Ω; sono invece impossibili
{ 10 }, {–8}, {–3, 2.5}, {numeri negativi} che possono essere quindi indicati con ø.
Se l'esperimento casuale consiste nel test di durata di un pneumatico, allora non tutti i
sottoinsiemi di Ω sono eventi ma soltanto quelli ammissibili; tuttavia, come indicato,
quelli ai quali si è comunemente interessati sono tutti ammissibili. Sono allora eventi
possibili {0}, {33}, { 10 }, {3/4, 58}, [3,9), (–∞, 5), {numeri divisibili per 10};
{numeri reali}, {numeri non negativi} coincidono con l’evento certo Ω; sono invece
impossibili {–55}, [–2,–1] che possono essere quindi indicati con ø.
[Lo studente provi per conto proprio a sviluppare in modo analogo ai precedenti altri
esempi di esperimenti casuali]
E’ chiaro che poiché lo spazio campionario Ω contiene solo i risultati possibili, e poiché
gli eventi sono sottoinsiemi di Ω, è conveniente “ripulire” gli eventi dai punti
campionari impossibili quando li contengono. Per definizione tutti i risultati possibili
devono essere inclusi; tutto il resto è impossibile.
Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente,

difficoltà nell'individuazione e nella successiva enumerazione dei punti campionari che
ne costituiscono i possibili risultati. In esperimenti più complessi possono risultare di
aiuto alcune formule combinatorie (richiamate in appendice al capitolo) che facilitano
tale operazione. L’utilità di tale enumerazione sarà più chiara quando si parlerà di
probabilità.
6
Riepilogando, lo spazio campionario Ω è l’insieme dei risultati possibili

dell’esperimento campionario considerato, mentre un evento è sempre un sottoinsieme
di Ω.
Spesso è utile operare sugli eventi, combinandoli fra di loro in modo opportuno, per
crearne di nuovi a seconda dell’interesse di chi studia il fenomeno (esperimento
casuale) considerato. D’altra parte poiché come detto gli eventi sono in tutto per tutto
degli insiemi è inutile inventare un modo nuovo per operare sugli eventi: conviene
prendere a prestito dalla matematica gli strumenti della teoria degli insiemi. In questo
ambito l'evento certo Ω (coincidente con l'intero spazio campionario) non rappresenta
altro che l'insieme universale, mentre l'evento impossibile ø corrisponde all'insieme
vuoto. Nelle pagine che seguono si richiamano gli aspetti fondamentali della teoria
degli insiemi che risultano utili per operare sugli eventi.
Le relazioni/operazioni della teoria degli insiemi che risultano di particolare interesse

per operare sugli eventi sono la relazione di inclusione (⊆) e le operazioni di negazione
(o complementazione) A , di intersezione (∩), di unione (∪), e di differenza (–). Per
comprendere e mettere in pratica queste relazioni ed operazioni sono utili i cosiddetti
diagrammi di Venn.
Relazione di inclusione. Un evento A è incluso nell'evento B, e si scrive A ⊆ B, se ogni

punto campionario di A appartiene anche a B (non è detto che valga il viceversa).
Relazione di uguaglianza. Due eventi A e B sono uguali sse contengono gli stessi punti
campionari, ovvero sse contemporaneamente
A ⊆ Be B ⊆ A
Operazione di negazione. La negazione (complementazione nella teoria degli insiemi)

di un evento A è l’evento A costituito da tutti i punti campionari di Ω che non
appartengono ad A.
Il seguente diagramma di Venn illustra graficamente il concetto di evento incluso e di

evento negato.
7
A
B
Fig. 1 - Diagramma di Venn per l’inclusione e la negazione dove il quadrato

rappresenta l’intero spazio campionario Ω e A ⊆ B.
Operazione di intersezione. L'intersezione tra due eventi A e B è l'evento E1 = A ∩ B

costituito da tutti i punti campionari che appartengono sia ad A che a B.
Operazione di unione. L'unione tra due eventi A e B è l'evento E2 = A ∪ B costituito da

tutti i punti campionari che appartengono ad almeno uno fra A e B.
Il seguente diagramma di Venn illustra graficamente le due operazioni (intersezione ed

unione).
Ω Ω
E1
A B A B
E2
Fig. 2 - Diagrammi di Venn per l’intersezione e l’unione. Il tratteggio evidenzia

l’evento intersezione nella prima figura e l’evento unione nella seconda figura.
Operazione di differenza. La differenza fra due eventi A e B è l’evento

E3 = A – B costituito da tutti i punti campionari che appartengono ad A ma non a B.
8
I palati matematici più fini, noteranno che una volta introdotte le operazioni di
negazione ed intersezione si potrebbe fare a meno d'introdurre le due ulteriori
operazioni di unione e di differenza. Infatti queste due operazioni possono essere
definite a partire dalle precedenti nel modo seguente [lo studente verifichi tali relazioni
utilizzando i diagrammi di Venn]:
A ∪ B = (A ∩ B )
A − B = (A ∩ B )
L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione che

esse comportano quando si opera sugli eventi (insiemi).
Si segnala anche che la relazione A ∪ B = (A ∩ B ) e la relazione duale
A ∩ B = (A ∪ B ) vengono usualmente dette leggi di de Morgan [si invita lo studente a

verificarle entrambe utilizzando i diagrammi di Venn].
Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche

a k (>2) eventi.
L'intersezione fra k eventi A1, A2, …, Ak fornisce come risultato l'evento
k
A = A1 ∩ A2 ∩ ... ∩ Ak = I Ai
i =1
che contiene tutti i punti campionari comuni ai k eventi considerati.

L'unione tra gli stessi k eventi dà come risultato l'evento
k
A = A1 ∪ A2 ∪ ... ∪ Ak = U Ai
i =1
che contiene tutti i punti campionari che appartengono ad almeno uno dei k eventi
considerati.
A questo punto possiamo elencare una serie di proprietà di facile dimostrazione che
conseguono dalle operazioni introdotte. Lo studente è invitato a dimostrarle utilizzando
i diagrammi di Venn (il simbolo ⇒ rappresenta la relazione di implicazione).
A⊆B ⇒ A∩B=A
A ⊆ B⇒ A ∪ B = B
9
φ =Ω
Ω=ø
ø⊆A⊆Ω
A∩ø=ø
A∩Ω=A
A∪ø=A
A∪Ω=Ω
A∩ A =ø
A∪ A=Ω
A ⊆ (A ∪ B)
(A ∩ B) ⊆ A
B ⊆ (A ∪ B)
(A ∩ B) ⊆ B
A∩B=B∩A (proprietà commutativa)
A∪B=B∪A (proprietà commutativa)
A1 ∩ A2 ∩ A3 = (A1 ∩ A2) ∩ A3 = A1 ∩ (A2 ∩ A3) (proprietà associativa)
A1 ∪ A2 ∪ A3 = (A1 ∪ A2) ∪ A3 = A1 ∪ (A2 ∪ A3) (proprietà associativa)
A1 ∩ (A2 ∪ A3) = (A1 ∩ A2) ∪ (A1 ∩ A3) (proprietà distributiva)
A1 ∪ (A2 ∩ A3) = (A1 ∪ A2) ∩ (A1 ∪ A3) (proprietà distributiva)
Le due ultime proprietà (distributive) per k eventi divengono

k k
A ∩ ( U Ai) = U (A ∩ Ai)
i=1 i=1
k k
A ∪ ( I Ai) = I (A ∪ Ai)
i=1 i=1
Dopo aver elencato relazioni ed operazioni della teoria degli insiemi utili per operare
sugli eventi, utilizziamo ora la teoria degli insiemi anche per definire il concetto
importante di incompatibilità fra eventi. Due eventi A e B sono incompatibili se la loro
intersezione è l’evento impossibile, cioè
10
A ∩ B = ø.
In pratica ciò significa o che i due eventi che non hanno punti campionari in comune,
oppure che hanno qualche punto in comune che però è impossibile (e quindi è come se
non l’avessero).
Un altro concetto importante (e nel quale di nuovo si sfrutta la teoria degli insiemi)
quando si opera sugli eventi è quello di condizionamento. Questo è utile quando si
vuol analizzare un certo evento A (l’evento condizionato) avendo a disposizione una
certa informazione B (l’evento condizionante). Per fare un esempio, nel lotto l’uscita
alla seconda estrazione del 5 nel caso in cui (informazione) alla prima estrazione sia
uscito il 90.
L'evento A | B (A condizionatamente ad B o, più semplicemente, A dato B) riguarda
l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si
sottolinea che l’espressione assumendo verificato non significa necessariamente che B
si è verificato, ma solo che noi si ragiona come se si fosse verificato (si ragiona cioè
sulla base dell’informazione a disposizione). Il condizionamento degli eventi si risolve
in pratica in una sorta di ridefinizione dello spazio campionario nel modo seguente.
Ω
Fig. 3 - Ridefinizione degli spazi per eventi condizionati.
Se si assume che l'evento B si è verificato allora accadono due importanti conseguenze:

1. perdono di rilevanza tutti i punti campionari che non appartengono ad B; in pratica
nell’assumere che si è verificato B diviene una specie di nuovo evento certo.
2. perdono di rilevanza tutti i punti campionari di A non appartengono ad B.
11
Quindi se si considera l'evento condizionato A | B, B “si trasforma” in Ω ed A “si

trasforma” nell'evento A ∩ B. Ulteriori dettagli su questo concetto saranno dati nel
seguito parlando di probabilità condizionata.
Infine un ultimo importante concetto: quello di algebra. Poiché tale concetto non è di
semplice comprensione, facciamolo precedere da alcune considerazioni intuitive.
Nelle pagine precedenti, dopo avere dato la definizione di evento abbiamo analizzato
alcuni esempi. Abbiamo visto che quando lo spazio campionario Ω è composto da pochi
punti campionari è semplice costruire la “lista” di tutti gli eventi: basta fare l’elenco di
tutti i sottoinsiemi di Ω. Se invece Ω è composto da un numero sempre finito ma
abbastanza elevato punti campionari, esplicitare tale “lista” è un’operazione alquanto
“tediosa”. Operazione che risulta addirittura impossibile se Ω è costituito da un numero
infinito di punti campionari. D’altra parte, abbiamo notato che esplicitare l’”insiemone”
di tutti gli eventi, talvolta chiamato spazio degli eventi, non è un’operazione molto
utile. Quello che invece è importante è stato, seppure implicitamente, evidenziato dopo:
operare sugli eventi con le operazioni della teoria degli insiemi produce come risultato
altri eventi. In altri termini è importante operare in un insieme chiuso. Possiamo
sintetizzare tutto ciò nel modo seguente: lo spazio degli eventi (facile da esplicitare solo
in casi particolarmente semplici) è un insieme chiuso rispetto alle operazioni di
negazione e di intersezione (e quindi anche rispetto all’unione e alla differenza che
possono essere derivate dalle precedenti).
Esplicitiamo ora questo concetto in modo più rigoroso. Un’algebra è un insieme chiuso
rispetto alle operazioni di negazione e di intersezione fra insiemi (e quindi anche
rispetto a quelle di unione e differenza che possono essere definite a partire dalle
precedenti): ciò significa che se prendiamo elementi appartenenti all’insieme, allora
anche il risultato delle operazioni di negazione e di intersezione fatte su di essi
appartengono all’insieme. Più in particolare, se l’insieme è chiuso rispetto ad un numero
finito di operazioni, si parla di algebra di Boole o, più semplicemente, di algebra; se il
sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di
Boole completa o, più semplicemente, di σ-algebra.
Nella successiva esposizione si assumerà che dato un esperimento casuale e lo spazio
campionario Ω ad esso relativo, gli eventi che possono essere costruiti a partire da Ω
12
formino una σ-algebra A. Quindi lo spazio degli eventi A sarà una σ-algebra e il
risultato di un numero finito o infinito numerabile di operazioni fatte su eventi (elementi
di A) sarà ancora un evento (elemento di A).
Tornando a una distinzione fatta in precedenza, se Ω è costituito da un numero finito
oppure da un’infinità numerabile di elementi allora A contiene tutti i possibili
sottoinsiemi di Ω; se invece Ω è costituito da un’infinità non numerabile di elementi
allora A contiene solo i sottoinsiemi “ammissibili” di Ω.
Dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la
σ-algebra generata da Ω, è detta spazio misurabile.
2. La probabilità
Ognuno di noi ha in testa una idea, almeno vaga, del concetto di probabilità. Per
introdurre il concetto di probabilità partiamo proprio da questa idea intuitiva. Se
volessimo spiegare il concetto con parole semplici, potremmo dire che la probabilità di
un evento A è il grado di certezza, su una scala da 0 ad 1, attribuito al verificarsi di tale
evento: più è la probabilità è vicina a 1 più è sicuro che A si verifichi; più la probabilità
è vicina a 0 meno è sicuro che A si verifichi.
Facendo per il momento affidamento su questa idea intuitiva di probabilità, il primo

problema che occorre affrontare nella pratica è come attribuire la probabilità, dal punto
di vista numerico, nei singoli casi concreti. Tra le innumerevoli definizioni proposte in
letteratura, ne presentiamo presentano soltanto tre: la definizione classica, la
definizione frequentista e la definizione soggettiva.
Definizione 5: Definizione classica della probabilità. La probabilità di un evento A è

data dal rapporto
n A numero dei casi favorevoli
P(A) = =
n numero dei casi possibili
purché tutti i casi siano ugualmente possibili.
13
Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La
prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che
tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non
si può definire un concetto utilizzando se stesso).
Altre due critiche, decisamente più rilevanti dal punto di vista pratico, riguardano
l’operatività della definizione: non sono affatto rare le situazioni reali nelle quali non è
possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili; inoltre,
anche nelle situazioni in cui si può effettuare una tale enumerazione, non è infrequente
la circostanza in cui non tutti i casi sono ugualmente possibili.
Per superare questi inconvenienti è stata introdotta la seguente definizione di
probabilità.
Definizione 6: Definizione frequentista della probabilità. La probabilità di un

evento ripetibile A è data dal rapporto fra nA, il numero di volte in cui A
si è verificato, ed n, il numero delle prove, quando il numero delle
prove tende ad infinito
nA
P(A) = lim ,
n →∞ n
supposto che tutte le prove siano effettuate nelle stesse condizioni.
La probabilità, secondo questa definizione, può essere quindi intesa come una sorta di
idealizzazione della frequenza relativa che verrà introdotta nel contesto della statistica
descrittiva. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non
siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano
la frequenza relativa di un evento come misura approssimata (per n finito) della
probabilità.
Anche alla definizione frequentista sono state rivolte critiche di varia natura. Anzitutto
quella relativa al limite irraggiungibile (+∞) imposto al numero delle prove; ma a tale
critica si risponde accettando la frequenza relativa di un numero finito (ma
sufficientemente elevato) di prove come misura approssimata della probabilità. Più
problematiche sono la critica relativa alla ripetibilità delle prove (esperimento) in
situazioni invariate e, soprattutto, quella che fa riferimento alle situazioni reali, e non
14
sono affatto infrequenti, nelle quali non è possibile procedere all’effettuazione di alcuna
prova.
Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla
definizione classica e alla definizione frequentista di probabilità è la definizione
seguente.
Definizione 7: Definizione soggettiva della probabilità. La probabilità di un evento A

è definita come il grado di fiducia che un individuo razionale
attribuisce al verificarsi di un evento. La misura (soggettiva) di
probabilità si deriva ponendo l'individuo (razionale) di fronte ad
un'operazione di scommessa chiedendo quanto è disposto a puntare per
ricevere 1 nel caso in cui l'evento in questione si realizzi.
Anche alla definizione soggettiva di probabilità sono state rivolte critiche: la prima
riguarda proprio la soggettività insita nella definizione; la seconda è relativa alla
difficoltà di tradurre in un valore numerico il grado di fiducia.
Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa
in senso condizionato, cioè condizionatamente all’informazione dell’individuo
(razionale). Pertanto, anche se apparentemente due individui diversi attribuiscono una
diversa misura di probabilità ad uno stesso evento, gli stessi individui si riferiscono a
due diversi eventi essendo diversa l’informazione sulla base del quale formulano il
proprio grado di fiducia.
Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura
di probabilità si perviene, come detto, attraverso l’attivazione di un processo
relativamente semplice (almeno sul piano concettuale) che è quello di porre l’individuo
di fronte ad una operazione di scommessa.
Le tre definizioni introdotte, cui si può far ricorso per ottenere una valutazione
numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle
probabilità. A tal fine infatti è sufficiente una definizione di carattere più formale che
invece di stabilire come attribuire i valori di probabilità nei casi concreti, fissa
semplicemente le regole che la probabilità deve rispettare. A questa definizione
15
assiomatica si farà riferimento negli sviluppi teorici che seguono, mentre le tre
definizioni non assiomatiche saranno utilizzate in alcuni esempi.
Definizione 8: Definizione assiomatica della probabilità. Siano dati un esperimento

casuale, con il suo spazio campionario Ω e la corrispondente σ-algebra
A (l’insieme degli eventi generati da Ω). Allora la probabilità è una
funzione che ad ogni evento (elemento di A) associa un numero fra 0 e
1, in simboli
P: A → [0,1]
A a P(A),
che soddisfa le seguenti proprietà:
1. P(A) ≥ 0 (ridondante, ma è bene sottolinearla)
2. P(Ω) = 1
3. Se A ∩ B = ø (cioè A e B sono incompatibili), allora
P(A ∪ B) = P(A) + P(B).
Questa definizione assiomatica della probabilità, dovuta a Kolmogorov, non ha

sollevato obiezioni sostanziali da parte degli studiosi. Infatti precisa e chiarisce soltanto
i contenuti sintattici, cioè le regole formali che deve rispettare la probabilità, regole
sulle quali è più facile trovare l'accordo. Dall'altro lato il considerare i soli aspetti
formali esclude ogni operatività della definizione, in quanto non dice niente su come
attribuire la probabilità, dal punto di vista numerico, nei singoli casi concreti. Quando si
vuol utilizzare la probabilità per risolvere problemi reali si dovrà, quindi, fare
necessariamente ricorso alle definizioni precedenti, nelle quali l'aspetto semantico, cioè
del significato, viene privilegiato.
Notiamo che la distinzione fra aspetto sintattico (o delle regole formali) e aspetto
semantico (o del significato) è la stessa distinzione che c’è, nello svolgimento di un
tema, fra l’aspetto grammaticale, che riguarda solo le regole della lingua in cui si scrive,
e l’aspetto dei contenuti e delle idee che nel tema sono esposte. I due non vanno
necessariamente insieme: un tema può essere buono come forma ma povero di idee o
viceversa un po’ sgrammaticato ma dai contenuti interessanti.
16
Si evidenzia infine che tutte e tre le definizioni non assiomatiche soddisfano le regole
della definizione assiomatica di probabilità.
Ricollegandosi alla definizione assiomatica, è facile dimostrare che da tale definizione

seguono alcune utili relazioni:
P(A) ≤ 1
P(ø) = 0
A ⊆ B ⇒ P(A) ≤ P(B)
P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
L'ultima relazione per 3 eventi diventa
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩
C)
che ovviamente si riduce a
P(A ∪ B ∪ C) = P(A) + P(B) + P(C)
quando i 3 eventi sono tra loro incompatibili.
Per k eventi tale relazione diventa
k 
P U Ai  =
  ∑ P( Ai ) − ∑ ∑ P(Ai ∩ A j ) + ∑ ∑ ∑ P(Ai ∩ A j ∩ Ah )
 i =1  i i j ≠i i j ≠i h ≠i , j
 
k
+ K + (− 1)k +1 P I Ai 
 
 i =1 
che ovviamente si riduce a
k  k
P U Ai  = ∑ P(Ai )
 
 i =1  i =1
quando i k eventi sono tra loro incompatibili.
In conclusione un’ultima notazione. Alla fine della sezione 2 abbiamo detto che dato un
esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la σ-
algebra generata da Ω, è detta spazio misurabile. Se a questa coppia aggiungiamo la
(funzione) probabilità otteniamo la tripletta (Ω, A, P(.)) detta spazio probabilistico.
17
3. La probabilità condizionata
Nella sezione 1 abbiamo enunciato il concetto di condizionamento fra eventi.

Ricordandone gli elementi fondamentali, (per maggiori dettagli si veda la sezione
indicata) il condizionamento è utile quando si vuole analizzare un certo evento A
(l’evento condizionato) avendo a disposizione una certa informazione B (l’evento
condizionante): l'evento A | B (detto A condizionatamente a B o A dato B) riguarda
quindi l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si
ricorda anche che l’espressione assumendo verificato non significa necessariamente che
B si è verificato, ma solo che si ragiona come se si fosse verificato (cioè prendendo per
buona l’informazione a disposizione). Abbiamo anche detto che il condizionamento
degli eventi si risolve in pratica in una sorta di ridefinizione dello spazio campionario.
Infatti se si assume che B si è verificato ne consegue che:
1. perdono di rilevanza tutti i punti campionari che non appartengono a B, cosicché B
diviene “una specie” di nuovo evento certo;
2. perdono di rilevanza tutti i punti campionari di A che non appartengono a B,
cosicché l’unica parte di A che ancora può verificarsi è soltanto A ∩ B.
La seguente definizione di probabilità condizionata risponde perfettamente a questa
logica.
Definizione 9: Definizione di probabilità condizionata. Assumendo P(B) > 0, la

probabilità di A | B è data da
P( A ∩ B )
P(A | B) =
P (B )
In pratica, allora, P(A | B) non è altro che P(A ∩ B) riproporzionato sulla base di P(B)
(la probabilità dell’evento condizionante).
Si può dimostrare [si invita lo studente a provare per conto proprio] che la probabilità
condizionata è una vera e propria probabilità, cioè è una funzione
P(. | B): A → [0,1]
A a P(A | B)
che soddisfa gli assiomi di probabilità 1, 2, 3 di cui alla definizione 8. Infatti
18
P(A | B) ≥ 0
P(B | B) = 1
P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B)
se A1 ed A2 sono incompatibili.
Valgono inoltre
A1 ⊆ A2 ⇒ P (A1 | B) ≤ P (A2 | B)
P( A1 | B) = 1 – P(A1 | B)
P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B) – P(A1 ∩ A2 | B)
Si evidenzia che le regole della probabilità valgono per l’evento a sinistra del | (l’evento
condizionato), mentre l’evento condizionante, l’informazione, è “tenuto fermo”.
E’ ovvio che se il ruolo dei due eventi è invertito rispetto alla definizione, cioè siamo
interessati ad B avendo A come informazione (con P(A) > 0), allora basta scambiare i
due eventi nella definizione per ricavare P(B | A):
P (B ∩ A)
P(B | A) = .
P ( A)
Dalla definizione di probabilità condizionata e dalle considerazioni precedenti possono

poi essere derivate una serie di formule assai utili nella pratica per il calcolo di certe
probabilità.
1. La prima è nota come formula delle probabilità composte ed è data da
P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A).
Tale relazione si dimostra ricavando P(A ∩ B) in funzione degli altri elementi sia
nella definizione di P(A | B) che di P(B | A) (si ricorda che, per la proprietà
commutativa, A ∩ B = B ∩ A e quindi P(A ∩ B) = P(B ∩ A)).
2. La seconda è nota come formula della probabilità marginale ed è data da
P(B) = P(B | A) P(A) + P(B | A ) P( A )
Questa formula può essere dimostrata, sfruttando le proprietà delle operazioni fra
eventi e della probabilità, attraverso i seguenti passaggi:
P(B) = P(B ∩ Ω) = P[B ∩ (A ∪ A )] = P[(B ∩ A) ∪ (B ∩ A )]
= P(B ∩ A) + P(B ∩ A ) = P(B | A) P(A) + P(B | A ) P( A ),
19
dove fra le altre cose si sfrutta il fatto che (B ∩ A) e (B ∩ A ) sono incompatibili (lo
studente è invitato a verificare ciò utilizzando i diagrammi di Venn) e la formula
delle probabilità composte.
3. La terza è nota come formula di Bayes ed è data da
P(B | A)P( A)
P(A | B) = .
P (B )
Tale formula può essere ricavata immediatamente dalla formula delle probabilità
composte. Si sottolinea che nella pratica il denominatore P(B) è spesso calcolato a
partire da P(B | A), P(B | A ), P(A) e P( A ) utilizzando la formula della probabilità
marginale.
Sulla base delle considerazioni precedenti possiamo ora discutere più in dettaglio
l’utilizzo pratico della probabilità condizionata. E’ banale osservare (ma spesso gli
studenti se lo dimenticano!) che la formula nella definizione di probabilità condizionata
è una uguaglianza: quindi dati due elementi (qualsiasi!) della stessa il terzo può essere
ricavato. Di conseguenza tale definizione può essere utilizzata in tre modi:
1. Uso “diretto”. E’ l’utilizzo più immediato: sapendo P(B) e P(A ∩ B) si ricava P(A |
B) utilizzando direttamente la definizione.
2. Uso “indiretto” via principio delle probabilità composte: sapendo la probabilità
condizionata P(B | A) e quella marginale P(A), si vuol ricavare la probabilità
dell’intersezione P(A ∩ B). In questo caso la definizione è utilizzata indirettamente
perché si ricava la probabilità dell’intersezione in funzione della probabilità
condizionata.
3. Uso “indiretto” via formula di Bayes: sapendo le probabilità condizionate P(B | A) e
P(B | A ) e quella marginale P(A) (da cui si ricava anche e P(B | A )), si vuol ottenere
P(A | B). In questo caso la definizione è utilizzata indirettamente perché si ricava
una probabilità condizionata in funzione di altre probabilità.
Alcune delle relazioni precedenti possono essere estese anche a più di 2 eventi.
1. Il formula delle probabilità composte può riguardare anche un numero qualsiasi di
eventi A1, A2, A3, … Si avrà allora
P(A1 ∩ A2 ∩ … ∩ Ak) = P(A1) P(A2 | A1) P(A3 | A1 ∩ A2) ... P(Ak | A1 ∩ … ∩ Ak–1),
20
che è detta anche regola della catena.

2. La formula della probabilità marginale può essere estesa anche ad una partizione
dello spazio campionario Ω più “fine” di quella vista in precedenza fra A e A . Ma
vediamo prima cos’è una partizione.
Una partizione di Ω (ma la definizione di partizione vale per un qualsiasi evento B)
è una suddivisione di tale spazio in tanti eventi A1, A2, ..., Ak che siano esaustivi ed
incompatibili:
• esaustivi in quanto devono esaurire Ω, cioè
k
U Ai = Ω;
i=1
• incompatibili in quanto non devono avere punti campionari in comune, cioè

Ai ∩ Aj = ø per ogni i ≠ j.
Per averne un’idea possiamo immaginare la partizione come le mattonelle di un
pavimento: la loro unione forma il pavimento (esaustività) ma fra loro non vi sono
sovrapposizioni (incompatibilità).
Detto cos’è una partizione, la formula della probabilità marginale per una generica
partizione A1, A2, ..., Ak di Ω è data da
k
P(B) = ∑
i =1
P(B | Ai) P(Ai).
Anche questa formula può essere dimostrata sfruttando le proprietà delle operazioni
fra eventi e della probabilità. I passaggi sono i seguenti:
k k k
P(B) = P(B ∩ Ω) = P[B ∩ ( U Ai)] = P[ U (B ∩ Ai)] = ∑ P(B ∩ A )i
i=1 i=1 i=1
k
= ∑ P(B | A ) P(A ), i i
i=1
dove fra le altre cose si sfrutta il fatto che i (B ∩ Ai) sono fra loro incompatibili.
3. Analogamente alla formula della probabilità marginale, anche la formula di Bayes
può essere estesa ad una generica partizione A1, A2, ..., Ak di Ω. In tale caso la
formula di Bayes è una semplice riscrittura di quella vista in precedenza:
P(B | Ai )P( Ai )
P(Ai | B) = ,
P (B )
21
dove normalmente P(B) è ricavato sulla base della formula della probabilità
marginale precedente.
Precisiamo che da un punto di vista pratico la formula di Bayes assume una
rilevanza particolare quando i k eventi Ai possono essere interpretati come possibili
“cause” dell'evento B. In tale contesto: P(Ai | B) è detta probabilità a posteriori
della causa Ai; P(Ai) è detta probabilità a priori della stessa causa e P(B | Ai) è detta
verosimiglianza dell'evento B.
La formula di Bayes esprime in maniera molto semplice il processo di
apprendimento dall'esperienza in contesti non deterministici. Della realtà si possiede
una conoscenza probabilistica, che viene espressa in termini di probabilità (a priori)
P(Ai); queste probabilità si trasformano, al verificarsi dell'evento B (acquisizione di
ulteriore informazione), nelle probabilità (a posteriori) P(Ai | B). Come molte volte
ripetuto, infatti, le probabilità condizionate si usano per riassegnare le probabilità
agli eventi una volta che siano state acquisite ulteriori informazioni relative ad una
realizzazione parziale di un esperimento casuale.
Ω
A1 A3 A4
A2
A
A5
Fig. 4 - Partizione dello spazio campionario Ω in cinque eventi A1, A2, A3, A4 ed A5
possibili cause dell’evento B.
Vediamo adesso un altro concetto di fondamentale importanza nell’ambito della

probabilità: quello di indipendenza fra eventi (importante: non confonderlo con quello
di incompatibilità!). Avere l’informazione che si è realizzato un certo evento B, non è
detto che modifichi necessariamente la probabilità di verificarsi di un altro evento A;
può accadere cioè che la valutazione di probabilità rimanga la stessa che si aveva senza
avere l’informazione, ovvero
22
P(A | B) = P(A).
E’ ragionevole definire questa situazione come indipendenza, e più in particolare A
indipendente da B.
D’altra parte se ciò accade, sostituendo tale relazione nella formula di Bayes per P(B |
A) si ottiene immediatamente
P(B | A) = P(B),
ovvero che B è indipendente da A. Questo significa che la relazione di indipendenza fra
due eventi è biunivoca, cioè se c’è in un senso c’è anche nell’altro: di conseguenza si
può parlare non solo di indipendenza di un evento da un altro ma di indipendenza fra
due eventi.
Inoltre se la relazione P(A | B) = P(A) si sostituisce nella formula delle probabilità
composte si ricava subito che
P(A ∩ B) = P(A) P(B),
che esprime quindi la formula delle probabilità composte per eventi indipendenti.
Riassumendo allora possiamo dare la seguente definizione.
Definizione 10: Definizione di indipendenza. Due eventi A e B sono fra loro

indipendenti se (una qualsiasi implica le altre due):
P(A | B) = P(A),
oppure
P(B | A) = P(B),
oppure
P(A ∩ B) = P(A) P(B).
Più in generale, k eventi A1, A2, ..., Ak sono indipendenti se

( ) ( ) ( ) ( )
P Ai1 ∩ Ai2 ∩K∩ Ais = P Ai1 ⋅ P Ai2 ⋅ ... ⋅ P Ais
per ogni sottoinsieme di eventi Ai1 , Ai2 , …, Ais con s = 2, 3, ...,k.
Ad esempio tre eventi A, B, C sono indipendenti se valgono tutte le seguenti relazioni

P(A ∩ B) = P(A) P(B)
P(A ∩ C) = P(A) P(C)
P(B ∩ C) = P(B) P(C)
P(A ∩ B ∩ C) = P(A) P(B) P(C)
23
Si sottolinea che le prime tre relazioni (indipendenze doppie) non implicano la quarta
(indipendenza tripla). Così come la quarta relazione non implica le prime tre.
4. Variabili casuali
In estrema sintesi possiamo riassumere le sezioni precedenti nello spazio probabilistico

(Ω, A, P(.)), dove: Ω è lo spazio campionario; A è la σ-algebra generata da Ω, cioè lo
spazio di tutti gli eventi dell’esperimento casuale; P(.) è la funzione di probabilità (si
veda la parte finale della sezione 2). A partire da tale spazio probabilistico (e da tutto
quello che ci sta dietro, ovviamente!) possiamo introdurre un ulteriore concetto
fondamentale nello sviluppo del calcolo delle probabilità e della statistica: quello di
variabile casuale (che spesso abbrevieremo in v.c.).
Definizione 11: Definizione di variabile casuale. Dato uno spazio probabilistico (Ω,
A, P(.)), una variabile casuale è una funzione che ad ogni punto
campionario associa un numero reale, in simboli
X: Ω → R
ω a X(ω),
che soddisfa la seguente proprietà: ogni insieme del tipo
{ω ∈Ω: X(ω) ≤ x}
è un evento, cioè un elemento di A.
In parole semplici una variabile casuale è un modo di trasformare i punti campionari in

numeri. Siccome ci sono infiniti modi di fare questo, di solito si sceglie il modo che più
ci fa comodo e, magari, anche quello più ovvio. Il motivo ritrasformare i punti
campionari in numeri è semplice: lavorare sui numeri è molto più semplice che lavorare
sui punti campionari, anche perché questi ultimi possono essere di natura assai diversa
fra un esperimento casuale ed un altro. La condizione tecnica che {ω ∈Ω: X(ω) ≤ x}
deve appartenere a A, cioè deve essere un evento (ricordiamo che A è l’insieme di tutti
gli eventi di un esperimento casuale) deriva dal fatto che su A abbiamo definito una
24
probabilità. Questa probabilità, definita sugli elementi di A, non vogliamo “perderla”,

ma vogliamo “trasferirla” ai sottoinsiemi di R, cioè ai numeri.
Alcuni esempi
Consideriamo l’esempio della moneta a due facce in cui Ω = {T, C}. Come v.c.
possiamo considerare quella che trasforma T in 1 e C in 0, cioè
X(T) = 1
X(C) = 0.
Consideriamo l’esempio dell’urna con 10 palline numerate da 1 a 10. In tal caso Ω =
{1, 2, 3, 4, 5, 6, 7, 8, 9, }. Come v.c. possiamo considerare quella che associa
ad ogni pallina il numero riportato sulla stessa, cioè
X( con numero i) = i.
Potrebbe però accadere, nello spesso esempio, di non essere interessati al numero in sé,
ma solo a distinguere fra pari e dispari. In tal caso potremmo considerare la v.c.
X( con numero pari) = 1
X( con numero dispari) = 0.
Come ulteriore esempio consideriamo una certa popolazione di N imprese industriali.
Poiché ciascuna impresa è identificata dalla sua ragione sociale, lo spazio campionario è
dato da Ω = {ω1, …, ωN}, dove ωi è la ragione sociale della impresa i. Se di tali imprese
interessa studiare la redditività, ad esempio misurata dall’indice ROE, possiamo
considerare la v.c. X che associa a ciascuna impresa il suo ROE, cioè
X(ω) = ROE dell’impresa ω.
Aggiungiamo che in questi casi per indicare la v.c. considerata si utilizza l’espressione
abbreviata “X è la v.c. ROE”, intendendo “X è la v.c. che associa a ciascuna impresa il
suo ROE”.
Nella stessa situazione delle N imprese potremmo considerare la v.c. ragione sociale,
distinguendo, ad esempio, fra società di persone, società di capitali e società
cooperativa. In tal caso potremmo utilizzare la v.c. X strutturata nel modo seguente:
X(ω) = 1 se ω è una società di persone
X(ω) = 2 se ω è una società di persone
X(ω) = 3 se ω è una società cooperativa
25
Anche in questo caso per indicare la v.c. considerata si utilizza l’espressione abbreviata
“X è la v.c. natura giuridica”, intendendo “X è la v.c. che associa a ciascuna impresa un
opportuno codice che identifica la sua natura giuridica”.
Anche se ai fini di un’analisi corretta abbiamo insistito molto sull’aspetto che la v.c.
trasforma i punti campionari in numeri in modo da conservare la probabilità prima
definita sugli eventi, ben presto ci dimenticheremo di tale probabilità e, più in generale,
dello spazio probabilistico (Ω, A, P(.)) che sta “a monte” di ogni v.c. Spesso lo spazio
probabilistico sarà semplicemente sottinteso senza esplicitarlo (questo però non vuol
dire che non c’è!).
Per questo motivo è bene allora avere un’immagine facilmente comprensibile e
immediata di cos’è una v.c., con l’avvertenza che tale immagine deve aiutare a capire
cos’è una v.c. ma non deve sostituire la definizione rigorosa. Possiamo allora pensare
una v.c. come un oggetto casuale, cioè un qualcosa di cui non possiamo sapere con
certezza cosa verrà fuori ma, al massimo, possiamo descrivere cosa può venire fuori e
con quale probabilità. Per avere qualche esempio pensiamo al numero estratto al lotto,
alla quotazione di un titolo azionario fra un mese, al voto che prenderemo all’esame di
statistica: tutti esempi di oggetti casuali, cioè di fenomeni di cui non si conosce con
certezza il risultato (data la presenza del caso) ma, al massimo,
1. quali risultati si possono avere;
2. con che probabilità ciascun risultato può venire fuori.
Vedremo questo più in dettaglio nella prossima sezione.
5. Distribuzione di una variabile casuale
Riassumendo, allora, la variabile casuale serve a due scopi: primo a trasformare i punti
campionari in numeri; secondo a trasferire ai numeri (ma è più corretto dire ai
sottoinsiemi di R) la probabilità prima definita sugli elementi di A. Per identificare una
variabile casuale dobbiamo allora indicare due cose (tenerlo sempre ben presente!):
1. quali valori può assumere;
2. come la probabilità è distribuita su tali valori.
26
Relativamente ai valori che la variabile casuale può assumere, come ovvio questi
cambiano da caso a caso, e in seguito ne vedremo numerosi esempi. Tuttavia, per motivi
che vedremo in seguito, vengono distinte in discrete e continue. Una v.c. si dice:
a. discreta, se può assumere un numero finito oppure un'infinità numerabile di valori;
b. continua, se può assumere un insieme continuo (e quindi non numerabile) di valori.
Relativamente a come la probabilità è distribuita (potremmo dire “spalmata”) sui valori

che la variabile casuale può assumere, questo può essere indicato in diversi modi,
ciascuno utile per scopi in parte diversi. Noi ne vedremo 3: la funzione di ripartizione
(definita sia per v.c. discrete che continue), la funzione di massa (definita solo per v.c.
discrete) e la funzione di densità (definita solo per v.c. continue).
Definizione 12: Definizione di funzione di ripartizione (o funzione delle probabilità

cumulate). Data una variabile casuale X, la funzione di ripartizione di
X è la funzione
F(x) = P(X ≤ x),
dove x è un qualsiasi numero reale.
La funzione di ripartizione di una variabile casuale, quindi, è semplicemente P(X ≤ x),

cioè, al variare di x, la probabilità che questa assuma valori minori o uguali ad x: solo
per brevità è indicata con F(x), ma dobbiamo sempre pensare che suo significato è,
appunto, P(X ≤ x). A questo proposito il termine, mutuato dall’inglese, di funzione delle
probabilità cumulate, rende sicuramente meglio l’idea: la probabilità è cumulata da –∞
fino al punto x. Si nota inoltre che la funzione di ripartizione rappresenta (non a caso) la
probabilità degli eventi {ω ∈Ω: X(ω) ≤ x} di cui alla definizione di variabile casuale,
cioè P(X ≤ x) è la scrittura abbreviata per P{ω ∈Ω: X(ω) ≤ x}. Come già detto, infatti, la
proprietà che {ω ∈Ω: X(ω) ≤ x} sia un evento serve per poter “trasferire” la probabilità
dagli eventi ai sottoinsiemi di R (X(ω) ≤ x significa infatti X(ω) ∈ (–∞, x] che appunto è
un sottoinsieme di R).
Analizzeremo in seguito le proprietà più importanti della funzione di ripartizione. Per

adesso facciamo soltanto osservare che conoscendo la funzione di ripartizione di X è
27
possibile ricavare la probabilità che X assuma valori in un qualsiasi intervallo (x1, x2].
Infatti
P(x1 < X ≤ x2) = P(X ≤ x2) – P(X ≤ x1) = F(x2) – F(x1).
Tornando a quanto detto sopra, la funzione di ripartizione risponde allora perfettamente

all’esigenza espressa: indicare come la probabilità è distribuita sui valori che la v.c. può
assumere. La funzione di ripartizione fa questo indicando, al variare di x, la probabilità
di X assumere valori minori o uguali ad x.
Questo modo di specificare come la probabilità è distribuita sui valori che la variabile
casuale può assumere, ha dei pregi e dei difetti. Il pregio principale è che la funzione di
ripartizione è definita allo stesso modo sia per v.c. discrete che per v.c. continue. Il
difetto più importante, invece, è che è riferita ad intervalli, in particolare intervalli aperti
a sinistra del tipo (–∞, x]. Infatti per molte esigenze (in particolare la semplicità di
interpretazione) è utile sapere come la probabilità si distribuisce su ciascun valore che la
v.c. può assumere piuttosto che sugli intervalli (–∞, x].
E’ per ovviare a questo inconveniente che si introducono la funzione di massa (per v.c.
discrete) e la funzione di densità (per v.c. continue).
Definizione 13: Definizione di funzione di massa (di probabilità). Sia X una v.c.
discreta che assume valori, ordinati in senso crescente, x1, …, xk
(eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori).
La funzione di massa di X è la funzione
f(x) = P(X = x).
Tale funzione vale quindi
f(xi) = P(X = xi)
se i = 1, …, k, mentre vale 0 per gli altri valori di x.
La funzione di massa di una v.c. discreta, quindi, è semplicemente P(X = x), cioè la
probabilità che X sia uguale ad x: solo per brevità è indicata con f(x), ma dobbiamo
sempre pensare che suo significato è, appunto, P(X = x). Come indicato nella
definizione, tale probabilità sarà maggiore di 0 solo per i valori x che la v.c. può
assumere, mentre sarà 0 per tutti gli altri valori di x.
28
Rispetto alla funzione di ripartizione, la funzione di massa ha il grosso pregio di essere

“più intelligibile”, perché la probabilità è riferita a ciascun punto x invece di essere
cumulata da –∞ a x. D’altra parte c’è un rovescio della medaglia: la funzione di massa
non può essere definita per le v.c. continue. Una spiegazione esauriente del motivo
richiederebbe sofisticati strumenti matematici ai quali non è il caso di fare riferimento;
ci limiteremo quindi ad una spiegazione basata su argomenti intuitivi. Una v.c.
continua, come detto può assumere valori in un insieme continuo. Ora nel continuo, e
questo vale anche se si prende un intervallo “piccolino”, ci sono tanti valori, assai più
che nell’infinito numerabile. Se X avesse probabilità positiva, anche piccolissima, in
ciascuno di questi valori, sommando tali probabilità otterremmo che la probabilità che X
assuma un valore qualsiasi (evento certo) sarebbe infinito, contravvenendo ad una delle
regole fondamentali della probabilità secondo le quali P(Ω) = 1. Quindi: primo, non ci
possono essere più di un’infinità numerabile di punti con probabilità maggiore di 0 (e di
questo ne abbiamo già tenuto conto quando abbiamo parlato della funzione di massa);
secondo, nel continuo P(X = x) = 0 in ogni x. Pertanto nel continuo la funzione di massa
non può essere definita e occorre un altro modo per vedere “cosa accade” sulle singole
x: la funzione di densità.
A questo scopo aggiungiamo un’altra considerazione. Come indicato, nel continuo
parlare di probabilità nel singolo punto non serve a molto, dato che questa è sempre 0.
Ha invece senso parlare di probabilità che la X assuma valori in un certo intervallo,
anche piccolissimo, purché di ampiezza maggiore di 0. Ad esempio ha senso la
probabilità che X appartenga ad un intervallo di ampiezza piccola a piacere dx, cioè
P(x < X ≤ x + dx).
Idealmente, possiamo allora pensare di “far scorrere” x da sinistra a destra (ogni volta
partendo dall’estremo superiore dell’intervallo precedente) e di calcolare, al variare di x,
la probabilità che X assuma valori nell’intervallino (x, x + dx]. Tali probabilità avranno
un certo andamento, che può essere il più vario. La cosa che qui interessa, però, non è
tanto il valore di tali probabilità ma di quanto cambia tale probabilità da una x alla
successiva. Interessa cioè il tasso: quanto vale la probabilità in rapporto all’ampiezza
dell’intervallo (dx), ovvero
P( x < X ≤ x + dx )
.
dx
29
La funzione di densità è esattamente tale tasso per l’intervallino di ampiezza

infinitesima.
Definizione 14: Definizione di funzione di densità (di probabilità). Sia X una v.c.
continua che assume valori nell’intervallo (a, b) (eventualmente a può
essere –∞ e b +∞). La funzione di densità di X è la funzione
P( x < X ≤ x + dx ) 1
f(x) = lim .
dx→0 dx
La funzione di densità in x, allora, rappresenta quanto vale la probabilità “intorno ad x”

in rapporto all’ampiezza di tale “intorno”. Il termine funzione di densità serve proprio
ad evocare quanto illustrato: quanto è densa la probabilità in ciascun punto.
A questo punto riassumiamo quanto visto finora. Prima abbiamo definito il concetto di
variabile casuale; successivamente abbiamo affermato che una variabile casuale si
identifica dando: i valori che questa può assumere e come la probabilità si distribuisce
su questi valori. Infine abbiamo detto che quest’ultima cosa, cioè la distribuzione della
probabilità sulle x, può essere data in tre modi diversi: funzione di ripartizione, funzione
di massa e funzione di densità. Ciascuna con pregi e difetti. Rimane una cosa da vedere:
che i diversi modi di indicare la distribuzione di una v.c. sono fra loro equivalenti. E’
chiaro che deve essere così: preso un esperimento campionario, la probabilità è
distribuita sugli eventi in un solo modo. Pertanto funzione di ripartizione – funzione di
massa (per v.c. discrete) e funzione di ripartizione – funzione di densità (per v.c.
continue) sono fra loro strettamente collegate: si può passare dall’una all’altra a seconda
di quello che fa comodo e di quello che interessa. Insieme a questa equivalenza fra le
diverse funzioni illustreremo anche alcune proprietà importanti delle stesse.
Consideriamo prima il caso discreto. Sia X una v.c. discreta che assume valori, ordinati
in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità
numerabile di valori). Allora per ricavare la funzione di massa dalla funzione di
ripartizione e viceversa possiamo utilizzare le seguenti 2 relazioni:
1
Poiché dx può essere anche negativo, in tale caso il numeratore è da intendere come P(x + dx < X ≤ x ) .
30
f(xi) = F(xi) – F(xi–1)

i
F(xi) = ∑ f(x).
j=1
La verifica delle due relazioni è immediata. La prima si ricava dal fatto che
f(xi) = P(X = xi) = P(X ≤ xi) – P(X ≤ xi–1);
la seconda dal fatto che
i i
F(xi) = P(X ≤ xi) = ∑ P(X = xj) = ∑ f(xj).
j=1 j=1
Consideriamo ora il caso continuo. Sia X una v.c. continua che assume valori
nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞). Allora per ricavare la
funzione di densità dalla funzione di ripartizione e viceversa possiamo utilizzare le
seguenti 2 relazioni:
f(x) = F’(x);
x
F(x) = ∫ f(y) dy.
a
Anche in questo caso la verifica delle due relazioni (ricordando un po’ di matematica!)
è immediata. Infatti ricordando la definizione di derivata e il fatto che P(x1 < X ≤ x2) =
F(x2) – F(x1) si ottiene
P(x < X ≤ x + dx ) F ( x + dx ) − F ( x )
f(x) = lim = lim = F’(x)
dx→0 dx dx→0 dx
e di conseguenza anche l’altra in base al teorema fondamentale del calcolo integrale.
Ripercorrendo le definizioni della funzione di distribuzione, della funzione di massa e

della funzione di densità, risulta immediata l’individuazione delle principali proprietà
che tali funzioni soddisfano.
Proprietà della funzione di ripartizione
1. La funzione di ripartizione essendo una probabilità gode ovviamente delle proprietà

della probabilità; in particolare 0 ≤ F(x) ≤ 1
2. Valgono i limiti lim F(x) = 0 e lim F(x) = 1
x→−∞ x → +∞
3. F(x) monotona non decrescente
31
4. F(x) continua a destra nel caso discreto (i punti di discontinuità si collocano in

corrispondenza dei valori x1, x2, ..., xk assunti dalla variabile) e assolutamente
continua (continua e derivabile quasi ovunque) nel caso continuo.
Proprietà della funzione di massa
1. La funzione di massa essendo una probabilità gode ovviamente delle proprietà della
probabilità; in particolare 0 ≤ f(xi) ≤ 1
k
2. ∑ f(xi) = 1.
i=1
Proprietà della funzione di densità
1. f(x) ≥ 0
b
2. ∫a f(x) dx = 1
Infine è opportuno esplicitare due formule utili per ricavare la probabilità che X
appartenga ad un dato intervallo, distinguendo a seconda che vogliamo ricavare quanto
interessa dalla funzione di ripartizione oppure dalla funzione di massa o dalla funzione
di densità. Tali relazioni si ricavano facilmente dalle formule precedenti.
1. Se X è una v.c. discreta allora
k
P(xh ≤ X ≤ xk) = F(xk) – F(xh–1) = ∑ f(x ).
i
i=h
2. Se X è una v.c. continua allora

x2
P(x1 ≤ X ≤ x2) = F(x2) – F(x1) = ∫ f(x) dx.
x1
Come prototipo per la comprensione dei concetti introdotti consideriamo i seguenti

esempi: il risultato del lancio di una moneta onesta e il risultato del lancio di un dado
onesto.
32
Esempio
Nel lancio di una moneta onesta gli unici risultati possibili sono testa (T) e croce (C),
entrambi con probabilità 1/2. Consideriamo allora la v.c. che associa 1 a T e 0 a C.
Poiché le probabilità si conservano nel passare dai punti campionari ai numeri, la
funzione di massa di questa v.c. è data da
1 / 2 se x = 0

f(x) = 1 / 2 se x = 1
 0 altrimenti

da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a
farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate
in Fig. 5.
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-1 -0.5 0 0.5 1 1.5 2 -1 -0.5 0 0.5 1 1.5 2
Fig. 5– Funzione di massa e funzione di ripartizione per la v.c. 0/1 nel lancio di una
moneta onesta.
Esempio
Nel lancio di un dado onesto gli unici risultati possibili sono le facce puntinate da 1 a 6
puntini, ciascuna con probabilità 1/6. Consideriamo allora la v.c. che associa a ciascuna
faccia il numero dei puntini. Poiché le probabilità si conservano nel passare dai punti
campionari ai numeri, allora la funzione di massa di questa v.c. è data da
1 / 6 se x = 1,2,3,4,5,6
f(x) = 
 0 altrimenti
33
da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a

farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate
in Fig. 6.
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-2 0 2 4 6 8 10 -2 0 2 4 6 8 10
Fig. 6 – Funzione di massa e funzione di ripartizione per la v.c. “numero di puntini” nel
lancio del dado onesto.
6. Indici sintetici di una variabile casuale
Nelle due sezioni precedenti, prima abbiamo definito una v.c. e successivamente
abbiamo analizzato alcuni modi di rappresentare la distribuzione della v.c.
Riepiloghiamo. Un esperimento casuale è un fenomeno il cui risultato non è prevedibile
con certezza, ovvero è frutto del caso: esso genera gli eventi con una certa probabilità.
La v.c. trasforma i risultati dell’esperimento casuale in numeri; ma poiché tali risultati
sono frutto del caso, anche i valori che la v.c. assume sono frutto del caso. Ne possiamo
conoscere il valore solo dopo che l’esperimento è stato effettuato, ma prima il massimo
che possiamo sapere sono: i valori che questa assume e con quale probabilità.
Conoscere queste due cose significa conoscere completamente la v.c.; infatti la
distribuzione identifica la v.c., nel senso che ne descrive completamente il massimo che
della v.c. possiamo conoscere: il suo comportamento probabilistico.
Per particolari esigenze, si può tuttavia essere interessati non alla distribuzione della v.c.
considerata, ma più semplicemente a delle sintesi della stessa. Può, cioè, risultare utile,
descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad
34
una sua rappresentazione completa mediante la funzione di distribuzione, la funzione di

massa o la funzione di densità.
A questo scopo, come riferimento per questa sezione supporremo che X sia:
• o una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk
(eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori) con
funzione di massa f(x);
• oppure una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a
può essere –∞ e b +∞) con funzione di densità f(x).
6.1. Momenti di una variabile casuale
Ci sono vari modi di costruire indici caratteristici di una variabile casuale. Uno fra i più
utilizzati è quello di procedere al calcolo di uno o più valori attesi (momenti) della v.c.
Definizione 13:Definizione di valore atteso (momento). Sia X una v.c. con funzione di
massa o funzione di densità f(x) e sia g(X) una trasformazione di X. Il
valore atteso di g(X) è dato da
k
∑ g ( xi ) f ( xi ) se la v.c. è discreta

E[g(X)] =  ib=1 .
 g ( x ) f (x )dx se la v.c. è continua
∫
a
Si evidenzia che un valore atteso è una costante. Quindi un valore atteso è

effettivamente una sintesi della v.c. nel senso descritto sopra, dato che, appunto,
sintetizza la distribuzione della v.c. in un valore. La definizione evidenzia anche che
tale sintesi è realizzata secondo la seguente logica: scelta una opportuna trasformazione
g(.) di X, i valori x trasformati secondo tale funzione, g(x), vengono sommati (o
integrati) dopo averli pesati con la loro probabilità (o densità). In sintesi, allora, un
valore atteso è la somma pesata, sulla base della distribuzione della v.c., di una
opportuna trasformazione dei valori assunti dalla v.c. stessa.
35
Ovviamente possiamo ottenere tanti momenti diversi a seconda della trasformazione

g(.) considerata. Nelle pagine che seguono vedremo che alcune trasformazioni hanno un
ruolo particolare in quanto possono essere interpretati in modo abbastanza semplice.
Prima di analizzare i momenti più importanti è però opportuno illustrare alcune
proprietà che valgono per i momenti in genere. Si evidenzia che tutte le proprietà che
enunceremo dipendono, come è ovvio, da quelle degli operatori ∑ e ∫:
sostanzialmente si tratta delle proprietà delle somme, dato che ∑ è una “somma
generalizzata” mentre ∫ è una “sommatoria nel continuo” [si invita lo studente a
rivedere le proprietà di questi due operatori!].
Valore atteso di una costante. Se g(X) = k costante, allora

E[g(X)] = E(k) = k.
In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una
costante è uguale alla costante stessa”.
La verifica di tale proprietà è del tutto simile nei casi discreto e continuo ed pressoché
immediata ricordando che la sommatoria della funzione di massa e l’integrale della
funzione di densità sono sempre 1 (si veda sez. 0).
Nel discreto:
k k
E(k) = ∑ k f(x ) = k ∑ f(x ) = k;
i i
i=1 i=1
nel continuo:
b b
E(k) = ∫ k f(x) dx = k ∫ f(x) dx = k.
a a
Proprietà di omogeneità. Sia c è una costante, allora

E[c g(X)] = c E[g(X)].
In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una
costante per g è uguale alla costante per il valore atteso di g”.
36
Tale proprietà deriva da quella analoga di omogeneità di cui godono sia la sommatoria
che l’integrale: come si può verificare facilmente osservando i seguenti passaggi, sono
del tutto simili.
Nel discreto:
k k
E[c g(X)] = ∑ c g(x ) f(x ) = c ∑g(x ) f(x ) = c E[g(X)];
i i i i
i=1 i=1
nel continuo:
b b
E[c g(X)] = ∫ c g(x) f(x) dx = c ∫ g(x) f(x) dx = c E[g(X)].
a a
Proprietà di additività. Siano g1(.) e g2(.) due funzioni. Allora

E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)].
In parole tale proprietà può essere ricordata con la frase “il valore atteso di una somma è
uguale alla somma dei valori attesi”.
Tale proprietà deriva da quella analoga di additività di cui godono sia la sommatoria
che l’integrale.
Nel discreto:
k k k
E[g1(X) + g2(X)] = ∑ [g1(x ) + g2(x )] f(x ) = ∑g1(x ) f(x ) + ∑ g1(x ) f(x )
i i i i i i i
i=1 i=1 i=1
= E[g1(X)] + E[g2(X)];
nel continuo:
b b b
E[g1(X) + g2(X)] = ∫ [g1(x) + g2(x)] f(x) dx = ∫ g1(x) f(x) dx + ∫ g1(x) f(x) dx
a a a
= E[g1(X)] + E[g2(X)].
Le proprietà di omogeneità e di additività possono essere fuse in un’unica proprietà,

quella di linearità.
Proprietà di linearità. Siano c1 e c2 due costanti, g1(.) e g2(.) due funzioni. Allora
E[c1 g1(X) + c2 g2(X)] = c1 E[g1(X)] + c2 E[g2(X)].
37
In parole tale proprietà può essere ricordata con la frase “il valore atteso di una
combinazione lineare è uguale alla combinazione lineare dei valori attesi”. [Lo studente
provi a dimostrarla direttamente servendosi delle proprietà della sommatoria e
dell’integrale]
Iniziamo adesso l’analisi dei principali momenti.
Momento r-mo dall’origine
Se si pone g(X) = Xr, per r = 0, 1, 2,..., si ottiene il momento r-mo dall’origine, definito
da
k r
 ∑ xi f ( xi ) nel discreto

µr = E(Xr) = bi =1 .
 x r f ( x)dx nel continuo
∫
a
Per r = 0 si ottiene µ0, il momento dall’origine di ordine 0. Tale momento non è però
interessante, dato che risulta sempre uguale ad 1. Infatti µ0 = E(X0) = E(1) = 1,
ricordando che il valore atteso di una costante è la costante stessa.
Per r = 1 si ottiene µ1, il momento primo dall’origine:

µ1 = E(X).
Tale momento viene di solito chiamato valore atteso o media ed è spesso indicato con
µ. Il valore atteso E(X) è l’indice sintetico più utilizzato per mettere in evidenza quanto
c’è di tipico nella variabile casuale in quanto esprime il valore “intorno” al quale si
collocano i valori che la v.c. X assume.
Altri momenti di un certo interesse sono il momento secondo dall’origine

µ2 = E(X2),
il momento terzo dall’origine
µ3 = E(X3),
ed il momento quarto dall’origine
µ4 = E(X4)
38
Momento r-mo centrale
Se si pone g(X) = (X – µ)r, per r = 0, 1, 2,..., dove µ = E(X), si ottiene il momento r-mo
centrale, definito da
k
∑ ( xi − µ ) f ( xi ) nel discreto
r

µ r = E[(X – µ)r] =  ib=1 .
 ( x − µ )r f ( x)dx nel continuo
∫
a
Oltre a µ 0 , il momento centrale di ordine 0 (che risulta sempre 1 per gli stessi motivi di
µ0), non è interessante neppure µ1 , il momento centrale primo. Infatti questo risulta
sempre uguale a 0, come è facile verificare:
µ1 = E(X – µ) = E(X) – µ = µ – µ = 0.
La trasformazione g(X) = X – µ rappresenta una traslazione dell’origine nel punto medio
µ ed è spesso detta variabile scarto. Qualunque variabile casuale scarto ha, pertanto,
sempre valore atteso 0.
Per r = 2 si ottiene µ 2 , il momento primo dall’origine:

µ 2 = E[(X – µ)2].
Tale momento viene di solito chiamato varianza ed è spesso indicato con σ2, con V(X)
o con Var(X). Assume una particolare rilevanza in quanto è l’indice più utilizzato per
sintetizzare la variabilità di una variabile casuale. Si nota che la varianza σ2, può essere
ricavata anche a partire dai momenti dall’origine primo e secondo, secondo la relazione
σ2 = µ2 – µ2.
Questa proprietà, spesso “utile per fare i conti”, può essere verificata nel modo
seguente:
σ2 = µ 2 = E[(X – µ)2] = E[X2 + µ2 – 2µX] = E(X2) + µ2 – 2µE(X) = µ2 + µ2 – 2µ2 = µ2 – µ2
Come misura di variabilità è assai utilizzata anche la radice quadrata della varianza,
cioè
σ= σ2 = [ ]
E ( X − µ )2 ,
che prende il nome di scostamento quadratico medio o deviazione standard.
39
Essendo la media e la varianza gli indici caratteristici più utilizzati per sintetizzare in
un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale X, si
incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla
varianza di particolari trasformazioni di X. Una delle trasformazioni di maggiore
interesse è la trasformazione lineare (cambiamento del sistema di riferimento che si
risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è
espressa la variabile):
Y = a + bX.
Se con µ e σ X2 si indicano rispettivamente la media e la varianza di X, allora la media e

X
la varianza della variabile trasformata Y risultano
µY = a + bµX σ Y2 = b2 σ X2
cioè, “la media di una trasformazione lineare è uguale alla trasformazione lineare della
media originaria”, mentre “la varianza di una trasformazione lineare è pari alla varianza
originaria per il quadrato del coefficiente angolare della trasformazione”. Tali proprietà
possono essere dimostrate sfruttando le proprietà dell’operatore valore atteso nel modo
seguente
µ = E(Y) = E(a + bX) = a + bE(X) = a + b µX
Y
σ Y2 = E[(Y – µY)2] = E[(a + bX – a – bµX)2] = E[b2(X – µX)2] = b2 E[(X – µX)2] = b2 σ X2 .
Momento r-mo standardizzato
r
X −µ 2 2
Se si pone g(X) =   per r = 0, 1, 2,..., dove µ = E(X) e σ = E[(X – µ) ], si
 σ 
ottiene il momento r-mo standardizzato, definito da
 k  x − µ r
 X − µ  r  ∑  σ 
  i  f ( xi ) nel discreto
i =1
µ r = E   = b r .
 σ     x − µ 
 ∫  σ 
f ( x)dx nel continuo
a
40
Oltre ai momenti standardizzati di ordine 0 ( µ 0 = 1) e primo ( µ 1 = 1) anche il momento

standardizzato secondo è del tutto irrilevante, dato che risulta sempre uguale ad 1.
Infatti
 X − µ  2  1 1 2
µ 2 = E    = 2 E[(X – µ) ] = 2 σ = 1.
2
 σ   σ σ
X −µ
La trasformazione g(X) = , (che come si può vedere facilmente è una
σ
trasformazione lineare: basta porre a = –µ/σ e b = 1/σ) è detta standardizzazione ed è
interessante in quanto oltre a procedere alla traslazione nel punto medio µ utilizza come
“nuova unità di misura” il valore assunto dalla deviazione standard σ.
Per r = 3 si ottiene µ 3 , il momento terzo standardizzato:
µ 3 = E   =
[ ]
 X − µ  3  E ( X − µ )3
=
µ3
 σ   σ3 σ3
che misura il grado di simmetria, rispetto a µ, della distribuzione della v.c. X ed è di

solito indicato con γ1.
Per r = 4 si ottiene µ 4 , il momento quarto standardizzato:
µ 4 = E   =
[ ]
 X − µ  4  E ( X − µ )4 µ
= 44
 σ  
4
σ σ
che misura la curtosi, cioè l’appiattimento rispetto alla distribuzione normale (che verrà
analizzata nelle pagine successive) della distribuzione della v.c. X, ed è di solito
indicato con γ2.
Come esempio per il calcolo di indici caratteristici della distribuzione di una v.c.
casuale consideriamo i due esempio discussi al termine della sez. precedente: la moneta
onesta e il dado onesto.
41
Esempio
Dalla funzione di massa relativa all’esito di una moneta onesta (codificata in 0/1) si
ricava:
E(X) = 0×0.5 + 1×0.5 = 0.5
E(X2) = 02×0.5 + 12×0.5 = 0.5
V(X) = E(X2) – E(X)2 = 0.5 – 0.52 = 0.25
γ3 =
[
E ( X − µ )3 ] = [(0 – 0.5) ×0.5 + (1 – 0.5) ×0.5]/(0.5) = 0
3 3 3
3
σ
γ4 =
[
E ( X − µ )4 ]= [(0 – 0.5) ×0.5 + (1 – 0.5) ×0.5]/(0.5) = 1
4 4 4
4
σ
Esempio
Dalla funzione di massa relativa numero di puntini di un dado onesto si ricava:

E(X) = 1×1/6 + 2×1/6 + … + 6×1/6 = 21/6 = 3.5
E(X2) = 12×1/6 + 22×1/6 + … + 62×1/6 = 91/6 = 15.15 6
V(X) = E(X2) – E(X)2 = 91/6 – (21/6)2 = 2.91 6
γ3 =
[
E ( X − µ )3 ] = [(1 – 3.5) ×1/6 + … + (6 – 3.5) ×1/6]/(2.91 6)
3 3 3/2
=0
3
σ
γ4 =
[
E ( X − µ )4 ]= [(1 – 3.5) ×1/6 + … + (6 – 3.5) ×1/6]/(2.91 6)
4 4 4/2
= 1.7314
4
σ
6.2. Altri indici caratteristici
I momenti non sono tuttavia l’unico modo di sintetizzare la distribuzione di una v.c.
Molto utilizzati, soprattutto a livello applicato, sono anche i quantili.
Definizione 15: Definizione di quantile. Sia X una v.c. con funzione di ripartizione
F(x). Il p-mo quantile, con 0 < p < 1, è il valore Q(p) che lascia a
sinistra una probabilità p, cioè tale che
P[X ≤ Q(p)] = p.
42
Facciamo osservare che P[X ≤ Q(p)] = p poteva essere scritto anche mediante la
funzione di ripartizione, cioè F[Q(p)] = p. Il p-mo quantile, quindi, lascia a sinistra una
probabilità p e a destra una probabilità (1 – p). Tuttavia mentre per le v.c. continue è
possibile operare la suddivisione con una proporzione esatta p di casi a sinistra ed una
proporzione (1– p) esatta di casi a destra di Q(p), ciò non è sempre possibile per le v.c.
discrete. Infatti, per le v.c. discrete la funzione di ripartizione varia “a scatti”, cosicché
scelto un p, può accadere, che non esista alcun valore x per il quale F(x) = p. In tal caso
il quantile viene allora individuato in corrispondenza del valore Q(p) nel quale si
riscontra il salto della funzione di ripartizione da un valore inferiore a p ad un valore
superiore a p. Inoltre, sempre per le variabili casuali discrete può accadere che la
relazione F(x) = p valga per un intervallo di valori di x, in questo caso per convenzione
si prende come quantile la semisomma degli estremi dell’intervallo.
Alcuni quantili assumono un ruolo particolare.

Il quantile Q(0.5) è detto mediana ed è indicato col simbolo Me. Come il valore atteso
µ, anche la mediana mette in evidenza quanto c’è di tipico nella variabile casuale,
esprimendo il valore “intorno” al quale si collocano i valori che la v.c. X assume. In
particolare la mediana è il valore in corrispondenza del quale si registra una probabilità
1/2 di valori inferiori e 1/2 di valori superiori.
I quantili Q(0.25) e Q(0.75) sono detti quartili. In particolare: Q(0.25) è detto 1o
quartile, è indicato spesso con Q1, ed è il valore che lascia 1/4 di probabilità a sinistra e
3/4 a destra; Q(0.75) è detto 3o quartile, è indicato spesso con Q3, ed è il valore che
lascia 3/4 di probabilità a sinistra e 1/4 a destra.
I quantili possono essere utilizzati anche per costruire indici di variabilità. A questo
proposito è spesso utilizzato l’indice
IQ = Q3 – Q1,
detto scarto interquartile.
Un altro indice caratteristico è la moda, indicata spesso con Mo. La moda di una
distribuzione è il valore della modalità cui corrisponde la probabilità (nel caso discreto)
o la densità di probabilità (nel caso continuo) più elevata. Quando il massimo non è
unico si parla di distribuzioni plurimodali, concetto questo che può essere esteso anche
43
a situazioni in cui si considerano non solo il massimo assoluto (della probabilità o della
densità di probabilità) ma anche i massimi relativi (massimi locali).
7. Variabili casuali multiple
Nelle pagine precedenti sono state introdotte le variabili casuali. Dato uno spazio
probabilistico (Ω, A, P(.)), una variabile casuale è un modo di trasformare ciascun
punto campionario in un numero reale “conservando sui numeri” la probabilità definita
sugli eventi di A. Successivamente abbiamo descritto la distribuzione di una v.c., che
fornisce una rappresentazione completa della v.c. stessa nel senso che la identifica
completamente, e abbiamo visto alcuni indici caratteristici di una distribuzione.
Per la precisione le v.c. viste in precedenza sono v.c. semplici, nel senso che ad ogni
punto campionario è associato un solo numero reale. Talvolta, però, è opportuno
associare ad ogni punto campionario non un solo numero ma più numeri. Per rendersi
conto di ciò basta pensare ad un esempio già visto in precedenza.
Consideriamo una certa popolazione di N imprese industriali. Ciascuna impresa è
identificata dalla sua ragione sociale per cui lo spazio campionario è dato da Ω = {ω1,
…, ωN}, dove ωi è la ragione sociale della impresa i. Se di tali imprese interessa
soltanto studiare la redditività, ad esempio misurata dall’indice ROE, possiamo
considerare soltanto la v.c. X che associa a ciascuna impresa il suo ROE. In breve “X è
la v.c. ROE”. D’altra parte assai spesso oltre all’analisi di una variabile in sé, è
interessante studiare tale variabile congiuntamente ad altre, per vedere se tra queste ci
sono relazioni, descriverle e valutarne l’importanza. Può essere allora opportuno
associare a ciascuna impresa non solo il suo ROE, ma anche altre grandezze: ad
esempio altri indici di bilancio (indici di rotazione, di indebitamento, di solvibilità,
ecc.), addirittura ciascuna voce del bilancio, il settore merceologico, l’età dell’impresa,
la provincia di residenza, la ragione sociale, ecc. In tale caso dobbiamo considerare più
v.c. contemporaneamente e ricorrere ad un’analisi multidimensionale o multivariata,
cioè a più variabili.
Tale analisi può essere sviluppata con un ordine degli argomenti simile a quello visto
per le v.c. semplici. Poiché i concetti di base sono gli stessi visti per le v.c. semplici,
molte considerazioni sono analoghe ed eviteremo di ripeterle. Per semplicità, inoltre,
44
dopo la definizione ci limiteremo principalmente al caso bivariato, cioè di v.c. doppie,

facendo cenno al caso generale solo per gli aspetti più interessanti
L’estensione del concetto di v.c. al caso multivariato non presenta difficoltà di ordine
logico. Si tratta, infatti, di definire una funzione che associa a ciascun punto
campionario non più un numero ma una k-upla (k ≥ 2) ordinata di numeri reali.
Definizione 16: Definizione di variabile casuale multipla. Dato uno spazio

probabilistico (Ω, A, P(.)), una variabile casuale multipla k-
dimensionale X = (X1, ..., Xk) è una funzione che ad ogni punto
campionario associa una k-pla ordinata di numeri reali, in simboli
X = (X1, ..., Xk): Ω → Rk
ω a X(ω) = (X1(ω), …, Xk(ω))
che soddisfa la seguente proprietà: ogni insieme del tipo
{ω∈Ω: X1(ω) ≤ x1, ..., Xk(ω) ≤ xk},
dove x = (x1, x2, ..., xk) è un qualsiasi elemento di Rk, è un evento, cioè
un elemento di A.
Quindi una variabile casuale a k dimensioni è una funzione a k componenti che fa

corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali in modo
da conservare la probabilità (precedentemente definita sugli eventi, come riassunto
dallo spazio probabilistico).
Si consideri ora il caso k = 2. La v.c. (X1, X2) è una v.c. doppia; per semplificare la
simbologia la identificheremo con (X, Y). Una v.c. doppia (X, Y), allora, è una funzione
che ad ogni punto campionario associa una coppia ordinata di numeri reali, cioè
(X, Y): Ω → R2
ω a (X(ω), Y(ω)),
che soddisfa la proprietà che ogni insieme del tipo {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, dove (x,
y) è un qualsiasi elemento di R2, è un evento, cioè un elemento di A.
45
Anche per identificare una v.c. doppia (e più in generale una v.c. multipla) occorre
indicare
1. quali valori può assumere;
2. come la probabilità è distribuita su tali valori.
Relativamente ai valori che la variabile casuale può assumere, ovviamente questi

cambiano da caso a caso. Tuttavia è conveniente raggrupparle in v.c. discrete, v.c.
continue e v.c. miste come segue. Una v.c. doppia (e più in generale multipla) è
a. discreta, se ciascuna componente è discreta [rivedersi il significato];
b. continua, se ciascuna componente è continua [rivedersi il significato];
c. mista, se alcune componenti sono discrete ed altre continue.
Relativamente a come la probabilità è distribuita sui valori assunti dalla v.c., anche in
questo caso può essere definita mediante la funzione di ripartizione, la funzione di
massa (se discreta) o la funzione di densità (se continua).
La funzione di ripartizione (o funzione delle probabilità cumulate) della v.c. doppia

(X, Y) è definita da in modo analogo a quella delle v.c. semplici, ovvero
F(x, y) = P(X ≤ x, Y ≤ y).
Anche in questo caso possiamo notare che la funzione di ripartizione rappresenta (non a
caso) la probabilità degli eventi {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, di cui alla definizione di
v.c. doppia; in altri termini P(X ≤ x, Y ≤ y) è la scrittura abbreviata per P{ω∈Ω: X(ω) ≤
x, Y(ω) ≤ y}. Infatti, come indicato dallo spazio probabilistico sugli eventi è definita una
probabilità. Poiché, come esplicitato nella definizione di v.c., quello in oggetto è un
evento, su di esso è data una probabilità che tramite la funzione di ripartizione è
trasferita a certi sottoinsiemi di R2.
Anche la funzione di massa per la v.c. discreta (X, Y) può essere definita in modo
analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. discreta le cui componenti
assumono valori, ordinati in senso crescente, rispettivamente x1, …, xh e y1, …, yk, (h e k
possono eventualmente essere +∞ ), allora la funzione di massa di (X, Y) è la funzione
f(x, y) = P(X = x, Y = y),
46
che vale quindi

f(xi, yj) = P(X = xi, Y = yj),
se i = 1, …, h e j = 1, …, k, mentre vale 0 per qualsiasi altra coppia (x, y).
Infine anche la funzione di densità per la v.c. continua (X, Y) può essere definita in
modo analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. continua le cui
componenti assumono valori rispettivamente nell’intervallo (a1, b1) e (a2, b2)
(eventualmente a1 e/o a2 possono essere –∞, b1 e/o b2 +∞), allora la funzione di densità
di (X, Y) è la funzione
P( x < X ≤ x + dx, y < Y ≤ y + dy )
f ( x, y) = lim .
dx ,dy →0 dxdy
Si osserva che il numeratore del limite esprime la probabilità che la v.c. doppia (X, Y) si
trovi in un rettangolino di lati dx - dy.
Analogamente alle v.c. semplici, anche per le v.c. multiple, funzione di ripartizione e
funzione di massa (per le v.c. discrete) e funzione di ripartizione e funzione di densità
(per le v.c. continue) sono equivalenti, nel senso che è possibile da una ricavare l’altra e
viceversa. Infatti:
• per le v.c. discrete
i j
F(xi, yj) = ∑∑ f(xu, yv)
u=1v=1
f(xi, yj) = F(xi, yj) – F(xi, yj–1) – F(xi–1, yj) + F(xi–1, yj–1)
• per le v.c. continue
xy
F(x, y) = ∫∫ f(u, v) du dv
a1a2
∂2
f ( x, y) = F(x, y)
∂ x∂ y
Proseguendo il parallelo con le v.c. semplici, anche funzione di ripartizione, funzione di

massa e funzione di densità delle v.c. doppie godono di particolari proprietà. Tuttavia a
proprietà analoghe a quelle viste per le v.c. semplici se ne aggiungono altre, relative in
particolare alla relazioni tra v.c. doppie e le v.c. semplici che le compongono. Per
47
distinguerle da quella doppia, le v.c. semplici componenti sono anche dette v.c.
marginali e le distribuzioni corrispondenti sono dette distribuzioni marginali.
Proprietà della funzione di ripartizione
1. Essendo una probabilità gode ovviamente delle proprietà della probabilità e in

particolare 0 ≤ F(x, y) ≤ 1
2. Valgono i limiti:
lim F(x, y) = 1,
x, y→+∞
cioè la funzione di ripartizione vale 1 quando tutti gli argomenti tendono a +∞;
lim F(x, y) = 0 lim F(x, y) = 0
x→−∞ y →−∞
cioè la funzione di ripartizione vale 0 se uno qualsiasi degli argomenti tende a –∞;
lim F(x, y) = F(y) lim F(x, y) = F(x)
x→+∞ y →+∞
cioè la funzione di ripartizione “perde l’altra componente” quando uno solo fra x o y
tende a +∞. Quest’ultima proprietà è assai utile: significa che per ricavare la
funzione di ripartizione di una v.c. marginale (ad es. X) occorre fare il limite della
funzione di ripartizione della v.c. doppia per l’altra variabile (nell’es. Y) che tende
a + infinito.
3. è monotona non decrescente rispetto a tutti gli argomenti
4. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente
continua (continua e derivabile quasi ovunque) rispetto a tutti gli argomenti nel caso
continuo.
Proprietà della funzione di massa
1. La funzione di massa essendo una probabilità gode delle proprietà della probabilità;
in particolare 0 ≤ f(x, y) ≤ 1
h k
2. ∑∑ f(xi, yj) = 1
i=1 j =1
h k
3. ∑ f ( x i, y ) = f ( y ) ∑ f ( x , y j) = f ( x )
i=1 j=1
48
Quest’ultima proprietà è assai utile: per ricavare la funzione di massa di una v.c.
marginale (ad es. X) basta sommare la funzione di massa della v.c. doppia rispetto
all’altra variabile (nell’es. Y).
Proprietà della funzione di densità
1. f(x, y) ≥ 0
b1 b2
2. ∫∫ f(x, y) dx dy = 1
a1 a2
b1 b2
3. ∫ f(x, y) dx = f(y) ∫ f(x, y) dy = f(x)
a1 a2
Di nuovo questa proprietà è utile per ricavare la funzione di densità di una v.c.
marginale (ad es. X): basta integrare la funzione di densità della v.c. doppia rispetto
all’altra variabile (nell’es. Y).
Finora abbiamo sviluppato i concetti introdotti per le v.c. multiple in modo parallelo a
quanto fatto per le v.c. semplici, in modo da facilitare la comprensione e la
memorizzazione degli stessi. D’altra parte abbiamo detto all’inizio che le v.c. multiple
sono utili in particolare per lo studio delle relazioni fra le variabili che compongono una
v.c. multipla. Il concetto che segue, quello di variabile casuale condizionata, va
proprio in questa direzione. [A questo riguardo si invita lo studente a rivedere quanto
detto nelle sezioni precedenti riguardo alla probabilità condizionata]
Sia (X, Y) una v.c. doppia. Spesso risulta interessante analizzare una delle variabili (ad
es. Y) per certi particolari valori dell’altra variabile (nell’es. X). Infatti può accadere che
sia il “comportamento” di una ad “influenzare” l’altra; tale influenza può essere studiata
analizzando la distribuzione di una variabile per diversi valori dell’altra: in termini
intuitivi, se la distribuzione rimane “sostanzialmente stabile” è chiaro che ci sarà poca
influenza; se invece “differisce in modo significativo” allora il legame risulta evidente.
Tenendo presente la definzione di probabilità condizionata di cui alle sezioni
precedenti, la v.c. (Y | X = x) (che si legge “Y condizionata a X = x” oppure “Y dato X =
x”) ha una distribuzione definita da
49
f ( x, y )
f ( y | x) =
f ( x)
dove:
• f(x, y) è la funzione di massa (se entrambe le v.c. sono discrete) oppure la funzione
di densità (se entrambe le v.c. sono continue) della v.c. doppia;
• f(x) è la funzione di massa (se X è discreta) oppure la funzione di densità (se X è
continua) della v.c. semplice X;
• la risultante f(y | x) sarà una funzione di massa se Y è una v.c. discreta e una
funzione di densità se Y è una v.c. continua.
In modo analogo è definita la v.c. condizionata (X | Y = y): basta invertire il ruolo delle
due variabili nella definizione data [si invita lo studente a farlo per conto proprio].
Si sottolinea un aspetto importante: (per ovvie ragioni) la funzione di massa/densità

della v.c. condizionata (Y | X = x) è definita solo per i valori di x per i quali f(x) > 0.
Questo implica che: se X è discreta, allora (Y | X = x) ha senso solo per i valori x che la
v.c. X assume con probabilità positiva (tali valori saranno quindi un numero finito o
un’infinità numerabile); se invece X è continua, allora (Y | X = x) ha senso solo per le x
che hanno densità maggiore di 0 (quindi saranno un’infinità non numerabile).
Si evidenzia un altro aspetto, già menzionato ma che merita di essere sottolineato
ulteriormente: la distribuzione condizionata riguarda la distribuzione di una v.c., ad es.
Y, per fissato un valore dell’altra variabile (nell’es. X). Di conseguenza in questa ottica
si analizza la distribuzione di Y in corrispondenza di un preciso valore x di X. Pertanto
la distribuzione condizionata di (Y | X = x) non deve essere assolutamente confusa con
la distribuzione marginale di Y, che invece riguarda la distribuzione di Y “come se X
non ci fosse”, cioè “dimenticandosi completamente dell’altra v.c. X”.
Altra osservazione. Le v.c. condizionate viste sono in tutto e per tutto delle v.c.
semplici. Di conseguenza anche per queste possono essere definiti degli indici
caratteristici (momenti, quantili, ecc.) in modo del tutto analogo a quanto fatto per le
v.c. semplici [non lo faremo esplicitamente ma si invita lo studente a farci mente
locale]. Ovviamente tali indici caratteristici riguardano la v.c. condizionata, dato che
quella condizionante, come indicato sopra, è come se fosse fissata ad un certo valore.
50
Sempre facendo riferimento all’analogo concetto illustrato relativamente alla probabilità

di eventi, risulta immediato il concetto di indipendenza fra v.c.
Sia (X, Y) una v.c. doppia. Allora X ed Y sono indipendenti se per ogni x e per ogni y
vale una qualsiasi delle seguenti relazioni (le altre sono conseguenze)
f ( x, y) = f ( x) f ( y)
f ( x | y) = f ( x)
f ( y | x) = f ( y)
Possiamo notare che solo in caso di indipendenza la distribuzione condizionata coincide
con la distribuzione marginale della v.c. corrispondente.
La funzione di ripartizione, la funzione di massa e la funzione di densità descrivono in

modo completo sia la variabile casuale doppia che le variabili casuali semplici (variabili
casuali marginali) componenti la variabile casuale doppia nonché le variabili casuali
condizionate. Come già evidenziato a proposito delle variabili casuali semplici può
risultare comunque conveniente una descrizione sintetica (e quindi parziale) delle
variabili casuali doppie mediante indici caratteristici. Un modo per procedere nella
sintesi, analogamente a quanto si è fatto per le variabili casuali semplici, è quello di
calcolare il valore atteso di opportune trasformazioni delle variabili casuali doppie.
Siano (X, Y) una v.c. doppia e g(X, Y) una generica trasformazione della v.c. doppia (X,
Y). Allora il valore atteso di g(X, Y) è definito da
h k
( )(
∑∑ g xi ,y j f xi ,y j ) se ( X , Y ) è una v.c. discreta
 i =1 j =1
E[g(X, Y)] =  b1 b2
 g ( x,y ) f ( x,y )dxdy se ( X , Y ) è una v.c. continua
 ∫∫
 a1 a2
Ponendo g(X, Y) = Xr Ys, per r, s = 0, 1, 2, ..., si ha

 h k r s
 ∑∑ xi y j f xi ,y j ( )
se ( X,Y ) è una v.c. discreta
 i =1 j =1
µrs = E(Xr Ys) = b1 b2
 x r y s f ( x,y )dxdy se ( X,Y ) è una v.c. continua,
∫ ∫
a1 a2
detto momento misto di ordine r-s rispetto all’origine.
51
Risulta facile verificare che tutti i momenti misti µr0 e µ0s sono i corrispondenti
momenti delle variabili casuali marginali X ed Y; infatti, si ha, ad esempio:
µr0 = E(Xr Y0) = E(Xr)
e analogamente per µ0s. Questo significa che i momenti misti rispetto all’origine in cui r
oppure s sono 0, sono i corrispondenti momenti della v.c. marginale: quindi possono
essere calcolati da questa e per gli stessi valgono le regole date per i momenti delle v.c.
semplici.
Il momento misto dall’origine più significativo quello di ordine 1-1
µ11 = E(XY)
cioè il valore atteso del prodotto fra X e Y.
Ponendo g(X, Y) = (X − µX)r (Y − µY)s, per r, s = 0, 1, 2, ..., si ha
µ rs = E[(X − µX)r (Y − µY)s]

che viene detto momento misto di ordine r-s centrale.
Anche in questo caso risulta facile verificare che i momenti misti centrali in cui r
oppure s sono 0 sono i corrispondenti momenti della v.c. marginale; infatti, si ha, ad
esempio:
µ r 0 = E[(X − µX)r (Y − µY)0] = E[(X − µX)r]
e analogamente per µ 0 s .
Particolarmente interessante risulta invece il momento misto di ordine 1-1 centrale:
µ 11 = E[(X − µX) (Y − µY)].
Tale momento misto è detto covarianza ed è spesso indicato con σXY, con Cov(X, Y) o
con C(X, Y).
Si evidenzia che, per come è definita, la covarianza è “simmetrica” rispetto agli
argomenti, cioè C(X, Y) = C(Y, X). Si fa notare anche che C(X, X) = V(X), cioè la
covarianza fra X e se stesso è la varianza di X.
La covarianza è un indice assoluto di correlazione (o di concordanza) tra le due
componenti e può assumere valore positivo, negativo o nullo.
La covarianza risulta positiva quando X e Y variano tendenzialmente nella stessa
direzione, cioè al crescere della X tende a crescere anche Y e al diminuire della X tende
a diminuire anche Y. In questo caso si ha che a scarti positivi (negativi) (X – µX)
52
corrispondono, tendenzialmente, scarti positivi (negativi) (Y – µY), cosicché il prodotto

degli scarti risulta mediamente positivo.
La covarianza risulta invece negativa quando le due variabili variano tendenzialmente
in direzione opposta, cioè quando al crescere di una variabile l’altra variabile tende a
diminuire (e viceversa). In questo caso a scarti positivi di una variabile corrispondono,
tendenzialmente, scarti negativi dell’altra variabile, cosicché il prodotto di tali scarti
risulta mediamente negativo.
Come indicato la covarianza può anche risultare zero. Ciò accade quando non vi è
alcuna tendenza delle 2 variabili a variare nella stessa direzione o in direzione opposta.
Quando σXY = 0 si dice anche che X ed Y sono incorrelate o linearmente indipendenti
(maggiori dettagli saranno forniti quando parleremo del coefficiente di correlazione).
Si nota che la covarianza σXY, può essere ricavata anche a partire dai momenti
dall’origine, secondo la relazione
σXY = E(XY) – E(X) E(Y).
Questa proprietà, spesso “utile per fare i conti”, può essere verificata nel modo
seguente:
σXY = E[(X − µX) (Y − µY)] = E(XY – XµY −µXY + µXµY)
= E(XY) – µXµY – µXµY + µXµY = E(XY) – E(X) E(Y)
Infine si può dimostrare atti si può dimostrare che vale la relazione
–σX σY ≤ σXY ≤ σX σY
cioè la covarianza fra X e Y in valore assoluto è sempre minore o uguale al prodotto
delle deviazioni standard di X e di Y (anche in questo caso maggiori dettagli saranno
forniti quando parleremo del coefficiente di correlazione).
r s
 X − µX   Y − µY 
Ponendo g(X, Y) =     , per r, s = 0, 1, 2,…, si ha
 σX   σY 
 X − µ 
r
 Y − µY 
s
µ rs = E  X    
 σ X   σY  
 
che viene detto momento misto di ordine r-s standardizzato.
Il momento misto standardizzato più significativo è quello di ordine 1-1,
53
 X − µ X  Y − µ Y  σ XY
µ 11 = E    = .
 σ X  σ Y  σ X σ Y
Tale momento misto è usualmente detto coefficiente di correlazione ed è indicato
anche con ρ, con ρXY, o con Corr(X, Y). Come la covarianza anche il coefficiente di
correlazione è “simmetrico” rispetto ai suoi argomenti, cioè Corr(X, Y) = Corr(Y, X),
mentre Corr(X, X) è ovviamente 1.
Anche il coefficiente di correlazione, come la covarianza, è un indice di correlazione
(o di concordanza), anche se relativo (la covarianza è invece un indice di correlazione
assoluto). Infatti, poiché come indicato parlando della covarianza, vale la relazione –σX
σY ≤ σXY ≤ σX σY, allora
σ XY
ρXY = ∈ [–1, 1],
σ XσY
ovvero il coefficiente di correlazione è sempre compreso fra –1 e +1. In pratica, quindi,
il coefficiente di correlazione è una specie di “covarianza relativizzata” in modo che il
suo valore sia compreso fra –1 ed 1 (invece che fra –σX σY e σX σY). Si fa notare che il
segno di ρXY è ovviamente il segno di σXY, cioè il segno del coefficiente di correlazione
dipende dal segno della covarianza.
Si può dimostrare che ρXY = ±1 (ovvero σXY = ± σX σY) solo quando le due v.c. X ed Y
sono linearmente dipendenti cioè quando esistono due costanti a e b tali che Y = a +
bX. In questo caso il segno di ρXY è lo stesso di b, il coefficiente angolare della retta.
Quando ρXY < 0 (che equivale a σXY < 0) si dice che X e Y sono correlati
negativamente (o inversamente), cioè all’aumentare di uno l’altro tende a diminuire (e
viceversa); quando ρXY > 0 (che equivale a σXY < 0) si dice che X e Y sono correlati
positivamente (o direttamente), cioè all’aumentare di uno anche l’altro tende ad
aumentare; quando invece ρXY = 0 si dice che X e Y sono incorrelati (o linearmente
indipendenti).
Si evidenzia che l’incorrelazione è una forma molto particolare di mancanza di
associazione tra variabili e non esclude affatto la presenza di un possibile legame di
natura diversa tra le due componenti X ed Y della v.c. doppia. Infatti potrebbe sussistere
tra le due componenti un legame funzionale molto stretto, ad es. Y = a + bX2, e risultare
ρXY = 0.
54
Si sottolinea poi che

X, Y indipendenti ⇒ X, Y incorrelati.
Infatti, se le due componenti X ed Y sono indipendenti allora f(x, y) = f(x) f(y) e quindi
(considerando a titolo di esempio il caso continuo)
b1 b2
σXY = E[(X − µX) (Y − µY)] = ∫ ∫ (x − µX) (y − µY) f(x, y) dxdy
a1a2
b1b2 b1 b1
= ∫∫ (x − µX) (y − µY) f(x) f(y) dxdy = ∫ (x − µX) f(x) dx ∫ (y − µY) f(y) dy = µ 10 µ 01 = 0
a1a2 a1 a1
Viceversa l’incorrelazione, come già accennato, non implica l’indipendenza statistica a

meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione
parlando della v.c. Normale doppia.
Sempre relativamente ai valori attesi, aggiungiamo senza dimostrazione (per la verità

tali relazioni non sono difficili da dimostrare) alcune relazioni che possono risultare
utili. Le prime due riguardano valore atteso e varianza della combinazione lineare (in
alcuni contesti detta “portafoglio”) di due v.c.:
E(c1X + c2Y) = c1E(X) + c2E(Y)
V(c1X + c2Y) = c12 V(X) + c 22 V(Y) + 2c1c2C(X, Y).

La prima dice che “il valore atteso di una combinazione lineare è uguale alla
combinazione lineare dei valori attesi”; la seconda che “la varianza di una
combinazione lineare è una particolare combinazione lineare delle varianze e delle
covarianze”.
Ovviamente se le v.c. X e Y sono incorrelate (cioè C(X, Y) = 0) la prima rimane
inalterata e la seconda diviene
V(c1X + c2Y) = c12 V(X) + c 22 V(Y).

[Sulla base di queste due relazioni si invita lo studente ad esplicitare quanto valgono
valore atteso e varianza di X + Y e di X – Y nel caso generale, quando X e Y sono
incorrelate e quando sono indipendenti].
Le altre due riguardano invece relazioni fra momenti marginali e momenti condizionati:
E(Y) = E[E(Y | X)] (associatività)
V(Y) = V[E(Y | X)] + E[V(Y | X)] (scomposizione della varianza)
55
Per concludere questa sezione occorre fare qualche ulteriore considerazione sulle v.c.
multiple X = (X1, …, Xk), dove k può essere anche maggiore di 2. Inizialmente abbiamo
dato la definizione di v.c. multipla per una generica v.c. k-dimensionale; tuttavia per
evitare l’eccessiva complessità formale che il caso generale comporta abbiamo limitato
l’analisi alle v.c. doppie. A questo punto possiamo affermare che le definizioni e i
concetti dati possono essere facilmente estesi al caso generale a prezzo, ripetiamo, di
una maggiore complessità delle formule: funzione di ripartizione, funzione di massa,
funzione di densità, proprietà di queste funzioni e relazioni fra queste funzioni, v.c.
condizionate, indipendenza fra v.c., momenti possono essere tutti estesi al caso
generale.
[Lo studente interessato può andarsi a vedere uno dei testi di utile consultazione a
supporto di questo corso]
Per quanto ci riguarda ci limiteremo ad alcune considerazioni aggiuntive non
immediatamente evidenti da quanto detto finora ma che risulteranno utili nel seguito.
• Il concetto di condizionamento è essenzialmente analogo a quello visto per le v.c.
doppie. Nel caso generale, però, possiamo addirittura pensare di condizionare un
sottoinsieme di v.c. ad un altro sottoinsieme di v.c. nell’ambito delle k v.c.
componenti la v.c. multipla.
• Il concetto di indipendenza fra k v.c. anche se del tutto analogo a quello delle v.c.
doppie merita di essere esplicitato. k v.c. (X1, …, Xk) sono indipendenti se la
funzione di massa o di densità della v.c. multipla è uguale al prodotto delle funzioni
di massa o di densità delle v.c. marginali, cioè
k
f(x1, …, xk) = f(x1) … f(xk) = ∏ f(xi).
i=1
• Valgono le seguenti generalizzazioni di alcune relazioni viste in precedenza sui

momenti di una combinazione lineare di v.c. casuali (in taluni contesti detta
“portafoglio”)
 k  k
E  ∑ ci X i  = ∑ ci E ( X i )

 i =1  i =1
56
 k  k 2 k
( )
V ∑ ci X i = ∑ ci V X i + ∑∑ ci c j C X i , X j




( )
 i =1  i =1 i =1 j ≠i
Di nuovo: La prima dice che “il valore atteso di una combinazione lineare è uguale
alla combinazione lineare dei valori attesi”; la seconda che “la varianza di una
combinazione lineare è una particolare combinazione lineare delle varianze e delle
covarianze”.
Ovviamente se le v.c. sono tutte fra loro incorrelate (cioè C(Xi, Xj) = 0 per ogni i ≠
j) la prima rimane inalterata e la seconda diviene
 k  k
V  ∑ ci X i  = ∑ ci2V ( X i ) .
 i =1  i =1
8. Alcune tipiche distribuzioni
Finora abbiamo trattato le v.c. in generale. Adesso è opportuno illustrare alcuni

particolari tipi di v.c., cioè alcuni particolari modelli probabilistici che si sono
dimostrati particolarmente utili in vari campi della ricerca applicata. Si tratta cioè di
particolari modelli di comportamento casuale che nonostante la (relativa) semplicità
sono comunque capaci di rappresentare bene il comportamento probabilistico di molti
fenomeni reali.
[Per una corretta memorizzazione delle diverse distribuzioni illustrate, si invita lo
studente a schematizzare ciascuna nei seguenti punti: 1. definizione (cioè valori che la
v.c. può assume e con quale funzione di massa o di densità); 2. esperimento tipico che
può essere associato a tale v.c. (questo vale in particolare per le v.c. discrete); 3.
principali indici caratteristici; 4. proprietà]
8.1. Distribuzioni discrete
8.1.1. Bernoulli
La v.c. X ha una distribuzione di Bernoulli, in simboli X ~ Be(p), se la sua funzione di

massa è:
57
 p x q1− x per x = 0 ,1
f(x; p) = 
 0 altrimenti
dove p∈ [0,1] e q = 1 – p.
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
Fig. 7 – Funzione di massa e funzione di ripartizione per X ~ Be(p) (p = 0.1 a sinistra e

p = 0.3 a destra).
La v.c. di Bernoulli assume quindi due soli valori: X = 1, con probabilità p; X = 0, con
probabilità q. La probabilità di ottenere una qualsiasi altra x è invece 0. Per questo
motivo, il modello di Bernoulli è utilizzato per rappresentare tutti gli esperimenti
casuali di tipo dicotomico, che cioè possono originare due soli risultati fra loro
esclusivi: sì/no, vero/falso, successo/insuccesso, fallito/non fallito, sano/malato, ecc. Il
risultato che interessa è identificato con 1 e l’altro con 0. Per comodità, tuttavia, spesso
ci si riferisce ad 1 come SUCCESSO e a 0 come INSUCCESSO.
L’esperimento tipico spesso associato al modello di Bernoulli è quello dell’urna con una
proporzione p di palline BIANCHE e q = 1 – p di palline NON BIANCHE, del quale
58
interessa la probabilità di ottenere BIANCA (e complementarmente quella di NON

BIANCA) in una estrazione.
Per questa v.c. è assai semplice determinare il valore dei principali indici caratteristici:
E(X) = p
V(X) = pq
Tale risultato si ricava facilmente dai valori attesi di cui alle pagine precedenti. Infatti
E(X) = 1 p + 0 q = p
E(X2) = 12 p + 02 q = p
V(X) = E(X2) – E(X) 2 = p – p2 = p(1 – p) = pq
8.1.2. Binomiale
La v.c. X ha una distribuzione di binomiale, in simboli X ~ Bi(n, p), se la sua funzione

di massa è:
 n  x n− x
  p q per x = 0 ,1, K, n
f(x; n, p) =  x 
 0 altrimenti

n n!
dove   = , p∈[0,1] e q = 1 – p.
 x  x!(n − x)!
0.50 0.50
0.40 0.40
0.30 0.30
0.20 0.20
0.10 0.10
0.00 0.00
-2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12
59
1.20
1.20
1.00
1.00
0.80
0.80
0.60
0.60
0.40
0.40
0.20
0.20
0.00
0.00
-2 0 2 4 6 8 10 12
-2 0 2 4 6 8 10 12
Fig. 8– Funzione di massa e funzione di ripartizione per X ~ Bi(n, p) (n = 10; p = 0.8 a

sinistra e p = 0.9 a destra).
La v.c. binomiale può assumere allora solo valori interi da 0 a n, mentre la probabilità di
ottenere una qualsiasi altra x è 0.
Anche la distribuzione binomiale, come quella di Bernoulli, è utilizzata in caso di
esperimenti dicotomici del tipo SUCCESSO/INSUCCESSO (1/0) e di nuovo
l’esperimento tipico è quello dell’urna con una proporzione p di palline BIANCHE e q
= 1 – p di palline NON BIANCHE.
A differenza del caso Bernoulliano, tuttavia, si effettuano n prove indipendenti (cioè
nelle stesse condizioni) delle quali si è interessati a determinare la probabilità di
ottenere x SUCCESSI (e ovviamente n – x INSUCCESSI). L'interpretazione della
formula della funzione di massa della v.c binomiale è allora immediata: la probabilità di
una specifica successione di x successi e (n – x) insuccessi è pari (formula delle
probabilità composte per eventi indipendenti) a
p ⋅ pK p q ⋅ q K q = p x q n− x ;
1424 31 424 3
x volte ( n − x ) volte
non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,
tali probabilità dovranno essere sommate (formula delle probabilità totali per eventi
incompatibili) tante volte quante sono le permutazioni di n oggetti di cui x ed
n
(n – x) sono uguali tra loro, appunto   (si veda appendice).
 x
Da quanto detto risultano due importanti relazioni della binomiale con la Bernoulli.
60
1. Se n = 1 allora Bi(n = 1, p) = Be(p), dato che su una sola prova la somma dei
SUCCESSI è 1 se nella prova vene fuori SUCCESSO e 0 se viene fuori
INSUCCESSO.
2. Poiché, come detto, le n estrazioni sono indipendenti, è ovvio che ciascuna
estrazione è esattamente una prova di Bernoulli. Quindi se Xi è la v.c. risultato della
i-ma prova, allora Xi ~ Be(p). D’altra parte, ciascuna Xi sarà 0 (se INSUCCESSO) o
1 (se SUCCESSO) e quindi la somma delle Xi sarà semplicemente la somma degli 1,
ovvero la somma dei SUCCESSI che però, per quanto visto in questa sezione, ha
una distribuzione binomiale. Riassumendo, allora
n
Xi ~ Be(p) indipendenti i = 1, …, n ⇒ X = ∑ Xi ~ Bi(n, p),
i=1
che può essere ricordato con la frase “la somma di n Bernoulli indipendenti è una
binomiale”. Se utile, inoltre, tale relazione può essere utilizzata anche nel modo
seguente: una binomiale può essere sempre rappresentata come somma di tante
Bernoulli indipendenti.
La relazione precedente semplifica anche il calcolo dei principali indici caratteristici

della v.c. binomiale. Infatti rappresentando X ~ Bi(n, p) come somma di tante Bernoulli
indipendenti e utilizzando le proprietà dei valori attesi si ottiene
E(X) = np;
V(X) = npq.
Infatti
n n n
E(X) = E( ∑ Xi) = ∑ E(Xi) = ∑ p = np;
i=1 i=1 i=1
n n n
V(X) = V( ∑ Xi) = ∑ V(Xi) = ∑ pq = npq.
i=1 i=1 i=1
Strettamente collegata alla v.c. binomiale è la v.c. binomiale relativa. Come detto, X ~
Bi(n, p) rappresenta il numero di successi in n prove di Bernoulli indipendenti ciascuna
con probabilità p. Tuttavia accade spesso di essere interessati non al numero di successi
X X
ma alla proporzione di successi Y = . In tal caso si dice che Y = ha una
n n
61
distribuzione binomiale relativa (da interpretare come “binomiale relativizzata”) con

parametri n e p:
X
Y= ~ BiRe(n, p).
n
La v.c. Y assumerà quindi valori 0, 1/n, 2/n, …, 1. Anche se si può farlo non ne
scriviamo la funzione di massa in quanto non è molto utile: tutti i conti che interessano
possono essere infatti effettuati lavorando non sulla proporzione di successi Y ma sul
numero di successi X. Ad esempio se interessa la probabilità che la proporzione di
successi sia compresa in un certo intervallo [c1, c2] abbiamo
X
P(c1 ≤ Y ≤ c2) = P(c1≤ ≤ c2) = P(nc1 ≤ X ≤ nc2).
n
Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X
numero di successi.
I principali indici caratteristici della binomiale relativa, invece si ricavano facilmente da
quelli della binomiale utilizzando le proprietà dei valori attesi:
pq
E(Y) = p V(Y) =
n
Infatti:
X 1 1
E(Y) = E( ) = E(X) = np = p
n n n
X 1 1 pq
V(Y) = V( ) = 2 V(X) = 2 npq =
n n n n
Esempio
Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p
= 1 – p = 0.5, si vuol determinare la probabilità che in una famiglia con 4 figli vi sia: a.
almeno un maschio; b. almeno un maschio ed una femmina.
Indichiamo con X la v.c. numero di maschi. Allora X ~ Bi(n = 4, p) (n è pari a 4, il
numero di figli).
a. Il procedimento più breve è far riferimento all’evento complementare, cioè
P(almeno un maschio) = P(X ≥ 1) = 1 – P(X = 0),
dato che il numero di maschi è un intero non negativo. D’altra parte
62
 4
P(X = 0) =   0.5 0 0.5 4−0 = 0.0625,
0
per cui
P(X ≥ 1) = 1 – 0.0625 = 0.9375
b. “almeno un maschio ed una femmina” significa che il numero dei maschi deve
essere almeno 1 (ovviamente) e non più di 3 (per permettere che almeno 1 sia una
femmina):
P(almeno un maschio ed una femmina) = P(1 ≤ X ≤ 3) = P(X = 1) + P(X = 2) + P(X = 3)
 4  4  4
=   0.51 0.5 4−1 +   0.5 2 0.5 4−2 +   0.53 0.5 4−3 = 0.25 + 0.375 + 0.25 = 0.875
1  2  3
Esempio
In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo
predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore
all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il numero
minimo di cavie da sottoporre ad esperimento.
Sia X la v.c. numero di cavie sopravvissute. Allora X ~ Bi(n, p = 0.4) (la probabilità di
SUCCESSO = cavia sopravvissuta in una prova è 1 – 0.6 = 0.4). Il problema da
risolvere è determinare il più piccolo n (numero di cavie da sottoporre ad esperimento)
capace di soddisfare la disuguaglianza
P(X ≥ 2) > 0.8.
Questo problema si risolve procedendo per tentativi sul valore di n, tenendo però conto
che, come è facile intuire, la probabilità al primo membro cresce al crescere di n (infatti
più cavie si utilizzano più è probabile che almeno 2 sopravvivano). Proviamo a partire
da un valore tentativo n (ma andrebbe bene un n qualsiasi) “facendo finta” che 2 (il
numero minimo di cavie sopravvissute) sia anche il valore atteso. Allora dalla formula
di E(X) si ottiene n = 2/0.4 = 5. Se n fosse 5 allora
 5  5  1 5−1
P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 –   0.4 0 0.6 5−0 –   0.4 0.6 = 0.66304,
 0 1
 
che come si nota è inferiore a 0.8. n = 5 è allora troppo piccolo. Proviamo n = 6:
 6  6  1 6−1
P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 –   0.4 0 0.6 6−0 –   0.4 0.6 = 0.76672.
 0 1
63
che è ancora inferiore a 0.8. Proviamo n = 7:

7  7  1 7−1
P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 –   0.4 0 0.6 7−0 –   0.4 0.6 = 0.84137.
0 1
Ci siamo! Il numero minimo di cavie da sottoporre ad esperimento è quindi 7.
8.1.3. Ipergeometrica
La v.c. X ha una distribuzione di ipergeometrica, in simboli X ~ IG(n, N, K), se la sua

funzione di massa è:
  K  N − K 
   
 x   n − x 
 per x intero in [max{n − ( N − K )}, min{n, K }]
f(x; n, N, K) =  N
  
 n
 0 altrimenti
dove n, N e K sono interi positivi con n ≤ N e K ≤ N.
La v.c. ipergeometrica può assumere allora solo valori interi compresi fra un certo
minimo, dato da max{0, n – (N – K)} e un certo massimo, dato da min{n, K}.
Al di là della definizione, per comprendere la distribuzione ipergeometrica conviene

riprendere in considerazione le due v.c. precedenti nell’interpretazione che si rifà al
linguaggio dell'estrazione casuale da un'urna. Si consideri allora un'urna contenente N
palline, di cui K BIANCHE e N – K NON BIANCHE. La probabilità di estrarre pallina
K.
bianca (SUCCESSO) in una prova sarà allora p =
N
Se nel contesto precedente si effettua una sola estrazione, la v.c. esito di tale estrazione
K
(SUCCESSO/INSUCCESSO) si distribusce secondo una Be(p = ).
N
Se invece si effettuano n estrazioni con ripetizione, cioè con reinserimento della pallina
nell’urna, i risultati delle n estrazioni sono indipendenti e la v.c. numero di successi si
K
distribuirà secondo una Bi(n, p = ).
N
Si invece si effettuano le n estrazioni senza ripetizione, cioè senza rimettere ogni volta
la pallina estratta nell'urna, i risultati delle n estrazioni non sono più indipendenti, dato
64
che la probabilità di estrarre un certo colore alle estrazioni successive è legato ai colori
estratti in precedenza. In questa situazione la probabilità di estrarre esattamente x
BIANCHE è data dalla funzione di massa della ipergeometrica, come si può facilmente
verificare mediante le formule del calcolo combinatorio. L’interpretazione
dell’estrazione dall’urna senza reimmissione consente anche di spiegare facilmente il
motivo per il quale x è compreso fra max{0, n – (N – K)} e min{n, K}. Che x deve
essere compreso fra 0 ed n è ovvio. D’altra parte se n – (N – K) > 0, cioè il numero di
estrazioni n è maggiore del numero di NON BIANCHE (N – K), nella peggiore delle
ipotesi si pescano tutte le (N – K) NON BIANCHE, ma le rimanenti n – (N – K) estratte
devono essere per forza BIANCHE; se invece n < K, cioè il numero di estrazioni n è
minore del numero di BIANCHE K, nella migliore delle ipotesi si pescano tutte le K
BIANCHE, ma le rimanenti devono essere per forza NON BIANCHE.
I principali indici caratteristici della v.c. ipergeometrica sono

K
E(X) = n = np
N
N −n K  K  N −n
V(X) = n 1 −  = npq
N −1 N  N  N −1
K
dove con p = abbiamo indicato la proporzione di BIANCHE nell’urna.
N
La principale proprietà della distribuzione Ipergeometrica è data dalla sua relazione con
la distribuzione Binomiale. Oltre alla analogia delle situazioni alle quali le due
distribuzioni possono essere applicate, infatti, si può dimostrare che per N
sufficientemente grande la distribuzione Ipergeometrica può essere approssimata con la
Binomiale, cioè:
K
IG(n, N, K) ≈ Bi(n, p = ).
N
Anche senza dimostrazioni si può intuire la correttezza di tale relazione se si pensa che
per N “grande”, anche in caso di reimmissione la probabilità di estrarre la stessa unità è
prossima a 0.
65
8.1.4. Poisson
La v.c. X ha una distribuzione di Poisson, in simboli X ~ Po(λ), se la sua funzione di

massa vale:
 λ x e −λ
 per x = 0,1,2,K
f(x; λ) =  x!
 0 altrimenti
dove, λ ≥ 0.
0.45 0.45
0.40 0.40
0.35 0.35
0.30 0.30
0.25 0.25
0.20 0.20
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
-2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12
Fig. 9 – Funzione di massa e funzione di ripartizione per X ~ Po(λ) (λ = 0.9 a sinistra e

λ = 2.3 a destra).
La v.c. di Poisson può assumere allora solo valori interi da 0 a +∞, mentre la probabilità
di ottenere una qualsiasi altra x è 0.
Si può dimostrare che i principali indici caratteristici della v.c. di Poisson sono:
E(X) = λ
V(X) = λ,
66
da cui emerge che il parametro caratterizzante la distribuzione di Poisson, coincide con

la media e la varianza della variabile casuale.
Una proprietà importante della distribuzione di Poisson è l’additività: se X1, ..., Xk sono
v.c. Poisson indipendenti, allora la loro somma è ancora Poisson con parametro pari alla
somma dei parametri delle singole Poisson; in simboli
k k
Xi ~ Po(λi) indipendenti i = 1, …, k ⇒ X = ∑ Xi ~ Po( ∑ λi).
i=1 i=1
Una seconda proprietà interessante della distribuzione di Poisson è data dalla sua
relazione con la distribuzione Binomiale. Si può infatti dimostrare che per n
sufficientemente grande e p sufficientemente prossima 0 allora
Bi(n, p) ≈ Po(λ = np).
La distribuzione di Poisson è un eccellente modello (o comunque un modello da tenere

in considerazione) in tutte le situazioni in cui interessa il numero di volte che accade un
certo evento nel tempo o nello spazio: numero di difetti di un tessuto per m2, numero di
arrivi ad un pronto soccorso per minuto, numero di incidenti ogni ora in un certo tratto
della rete stradale, ecc.
Strettamente collegata alla v.c. di Poisson è la v.c. Poisson relativa. Ipotizzando che il
numero di volte in cui un certo evento accade, diciamo X, sia distribuito secondo una
Poisson, può accadere di essere interessati non a tale numero di volte ma alla
X X
proporzione di volte Y = . In tal caso si dice che Y = ha una distribuzione
n n
Poisson relativa (da interpretare come “Poisson relativizzata”) con parametri n e λ:
X
Y= ~ PoRe(n, λ).
n
La v.c. Y assumerà quindi valori 0, 1/n, 2/n, 3/n, … Anche se si può farlo non ne
scriviamo la funzione di massa in quanto non è molto utile: come per la Binomiale
relativa, tutti i conti che interessano possono essere infatti effettuati lavorando non sulla
proporzione di volte Y ma sul numero di volte X. Ad esempio se interessa la probabilità
che la proporzione di volte sia compresa in un certo intervallo [c1, c2] abbiamo
67
X
P(c1 ≤ Y ≤ c2) = P(c1≤ ≤ c2) = P(nc1 ≤ X ≤ nc2).
n
Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X
numero di volte.
I principali indici caratteristici della Poisson relativa, invece si ricavano facilmente da
quelli della Poisson utilizzando le proprietà dei valori attesi:
λ λ
E(Y) = V(Y) =
n n2
Infatti:
X 1 1
E(Y) = E( ) = E(X) = λ
n n n
X 1 1
V(Y) = V( ) = 2 V(X) = 2 λ
n n n
8.1.5. Alcune considerazioni sulle distribuzioni: Bernoulli, Binomiale,

Ipergeometrica, Poisson
La distribuzione Binomiale può essere considerata un'eccellente modello probabilistico

per molte situazioni sperimentali. Infatti, tale distribuzione può servire per studiare ad
es. l'atteggiamento dei cittadini nei confronti di un determinato provvedimento
legislativo (favorevoli o contrari alla elezione diretta del Presidente della Repubblica),
per analizzare la produzione di un determinato macchinario (pezzi regolari e pezzi
difettosi), per valutare la propensione a restituire o meno il finanziamento concesso
(finanziamento restituito, finanziamento non restituito) ecc. Serve cioè, in generale,
nello studio di tutti quei fenomeni che possono essere caratterizzati da un evento che
può realizzarsi o meno, cioè del tipo SUCCESSO/INSUCCESSO dove, SUCCESSO
vuol dire estrazione di pallina bianca, essere favorevole alla elezione diretta del
Presidente, pezzo regolare, finanziamento restituito, ecc., mentre insuccesso vuol dire
estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso,
finanziamento non restituito, ecc.
La distribuzione Ipergeometrica ha lo stesso campo di applicabilità della distribuzione
Binomiale, e dovrà essere ad essa sostituita tutte le volte che gli eventi relativi alle
singole prove non possono essere considerati indipendenti.
68
L'esperienza mostra che l'applicazione della distribuzione di Poisson in svariati campi

dell'analisi conduce a dei risultati piuttosto soddisfacenti. Si consideri ad es. il numero
delle particelle emesse da una sostanza radioattiva in un certo intervallo di tempo e si
indichi tale numero con X, si potrà accertare che, per un conveniente valore di λ, la
variabile casuale X ha una distribuzione di probabilità approssimativamente
poissoniana. Si pensi ancora al numero di difetti riscontrabili in un manufatto, al
numero delle chiamate telefoniche in un certo intervallo di tempo, al numero degli
arrivi, sempre in un determinato intervallo di tempo, a un casello autostradale o a uno
sportello bancario. In tutti questi casi si può pensare ad un processo di generazione di
numeri casuali (difetti, chiamate, ecc.) in un determinato intervallo temporale o
spaziale, approssimativamente poissoniano.
Altre distribuzioni discrete frequentemente usate sono: la distribuzione geometrica e la
distribuzione binomiale negativa.
8.2. Distribuzioni continue
8.2.1. Normale
La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata

la più importante tra le distribuzioni continue per le seguenti ragioni:
a. una vasta serie di esperimenti casuali ha associata una variabile casuale la cui
distribuzione è approssimativamente normale;
b. alcune v.c. che non sono distribuite normalmente, possono essere rese tali mediante
trasformazioni relativamente semplici (log, , ecc.);
c. alcune distribuzioni complicate o addirittura impossibili da determinare esattamente
possono essere approssimate sufficientemente bene dalla distribuzione normale;
d. alcune v.c., che sono alla base di procedure di inferenza statistica, o sono distribuite
normalmente o derivano da tale distribuzione;
e. gode di proprietà notevoli dal punto di vista matematico (alcune delle quali sono
esclusive della normale).
Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure
notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo
69
fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e

che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i
fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che
svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel teorema
del limite centrale; di questo teorema si tratterà in seguito.
La v.c X ha una distribuzione Normale, in simboli X ~ N(µ, σ2), se la sua funzione di

densità è
1  1  x − µ 2 
f(x; µ, σ2) = exp −   
2πσ 2  2  σ  
dove x è un qualsiasi numero reale, µ ∈ R e σ ≥ 0.
0.25
0.2
0.15
0.1
0.05
0
-4 -2 0 2 4 6 8 10 12 14
1.2
0.8
0.6
0.4
0.2
0
-4 -2 0 2 4 6 8 10 12 14
70
Fig. 10 – Funzione di densità e funzione di ripartizione per X ~ N(µ, σ2) (Blu: µ = 3, σ2

= 4; Rosa: µ = 5, σ2 = 4; Verde µ = 5, σ2 = 7.84).
Attraverso uno studio di funzione si controlla facilmente che la funzione di densità della
v.c. normale ha un andamento “a campana” con le seguenti caratteristiche: ha massimo
in x = µ; è simmetrica rispetto a tale punto di massimo; ha due flessi in corrispondenza
dei punti µ – σ e µ + σ; per x → ± ∞ (le code) la densità f(x) tende asintoticamente a 0.
Nell’ambito delle v.c. normali, come vedremo assume un ruolo particolare la v.c.
Normale standard. La v.c. X ha una distribuzione Normale standard se X ~ N(0, 1),
cioè se è Normale con µ = 0 e σ2 = 1. La sua funzione di densità è quindi la stessa
riportata sopra in cui al posto di µ e di σ si pone rispettivamente 0 e 1.
Si può dimostrare che i principali indici caratteristici della v.c. normale sono dati da
E(X) = µ
V(X) = σ2
γ1 = 0
γ2 = 3
Qualche commento.
Primo: valore atteso e varianza di una v.c. normale coincidono con i due parametri della
distribuzione (la simbologia non è scelta caso!). Notare anche che la varianza non
dipende dal valore atteso, al contrario di molte di quelle viste finora (Bernoulli,
Binomiale, Poisson, Ipergeometrica).
Secondo: l’indice di asimmetria γ1 risulta pari a 0: un risultato del tutto ovvio visto che
la funzione di densità della v.c. normale è simmetrica. Si ricorda a questo proposito che
tale indice assume risulta negativo in caso di asimmetria a sinistra, mentre risulta
positivo in caso di asimmetria a destra della funzione di densità (cfr. Fig. 11).
Terzo: l’indice di curtosi γ2 risulta pari a 3. Mentre l’asimmetria è un concetto definito
in termini assoluti, la curtosi è concetto relativo; infatti, una distribuzione è platicurtica
o leptocurtica solo con si fa riferimento alla distribuzione normale. Poiché quest’ultima
v.c. ha un indice di curtosi pari a 3, si dice platicurtica la distribuzione con γ2 < 3 e
leptocurtica la distribuzione con γ2 > 3 (cfr. Fig. 11).
71
Si fa notare che γ1 = 0 e γ2 = 3 sono condizioni necessarie ma non sufficienti per la

normalità della distribuzione; in altri termini esistono v.c. con γ1 = 0 e γ2 = 3 che però
non sono normali.
Asimmetria positiva
Asimmetria negativa
γ1 > 0
γ1 < 0
µ Me Mo Mo Me µ
Distribuzione leptocurtica
γ2 > 3normale
Distribuzione
γ2 = 3
Distribuzione platicurtica
γ2 < 3
Fig. 11 - Forma delle distribuzioni
La funzione di ripartizione della v.c normale è:

x
1  1  y − µ 2 
F(x) = ∫ exp −    dy .
 2  σ  
−∞ 2πσ 2
Questo significa che la funzione di ripartizione di una v.c. normale rimane definita
implicitamente dall’operatore di integrale; infatti l’integrale indefinito di cui sopra è
uno di quelli che “non si possono risolvere” (in termini più corretti la funzione di
densità della normale non ha una primitiva in forma analitica).
D’altra parte poiché la funzione di ripartizione (o comunque l’integrale della funzione
di densità) sono indispensabili per determinare la probabilità di eventi nel caso in cui X
sia normale, occorre ugualmente un modo per calcolare l’integrale definito di cui sopra.
Il modo più semplice di fare questa operazione è quello di ricorrere alla v.c.
standardizzata
X −µ
Z= .
σ
72
Nella sezione sui momenti abbiamo evidenziato che se X è una v.c. con media µ e
varianza σ2, allora qualsiasi sia la forma della sua distribuzione si ha che
X −µ X −µ
E =0 V  = 1.
 σ   σ 
Tuttavia nel caso particolare in cui la v.c. oltre ad avere media µ e varianza σ2 sia anche
Normale, si può dimostrare che anche la v.c. standardizzata ha una distribuzione
Normale, ovviamente con media 0 e varianza 1. In simboli
X −µ
X ~ N(µ, σ2) ⇒ Z = ~ N(0, 1).
σ
Poiché i valori della funzione di ripartizione della Normale standard sono stati tabulati
(o possono essere calcolati con un computer attraverso particolari algoritmi: anche
Excel ne ha uno) il calcolo della probabilità che una v.c. Normale standard assuma
valori in un certo intervallo (z1, z2] può essere fatto nel modo seguente:
P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1),
dove le probabilità P(Z ≤ z2) e P(Z ≤ z2) sono appunto i valori della funzione di
ripartizione della Normale standard in z1 e z1 che possono essere letti nella tavola.
Come ulteriore aiuto per il calcolo delle probabilità di cui sopra, si fa notare che la
simmetria rispetto a 0 della funzione di densità della Normale standard implica
P(Z ≤ – z) = 1 – P(Z ≤ z)
(si invita lo studente a evidenziare graficamente questa proprietà). Questo comporta
che, nel caso in cui si ricorra alle tavole, la tabulazione per valori di z ≥ 0 è sufficiente
anche per calcolare valori probabilità per z negative.
In base alla logica seguita, il calcolo della probabilità che una generica v.c. Normale
assuma valori in un certo intervallo (x1, x2] può essere ricondotto a quello della v.c.
Normale standard nel modo seguente:
 x − µ X − µ x2 − µ 
P(x1 < X ≤ x2) = P 1 < ≤  = P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1)
 σ σ σ 
x1 − µ x2 − µ X −µ
dove z1 = e z2 = sono calcolati e Z = ha come detto una
σ σ σ
distribuzione N(0, 1).
Si ricorda anche che se X è una v.c. continua allora P(X = x) = 0 per ogni x. Di
conseguenza se nell’esempio di cui sopra avessimo calcolato probabilità che X assuma
73
valori in [x1, x2], oppure in (x1, x2) o ancora in [x1, x2) avremmo ottenuto lo stesso
identico risultato.
Come detto ad inizio sezione, la distribuzione Normale è importante perché sotto certe
condizioni approssima bene molte distribuzioni. Ad esempio, relativamente alle
distribuzioni analizzate si dimostra che: 2
• per n sufficientemente grande, la distribuzione Binomiale può essere bene
approssimata dalla distribuzione normale con la stessa media e la stessa varianza
della Binomiale, cioè
Bi(n, p) ≈ N(µ = np, σ2 = npq)
• per λ sufficientemente grande, la distribuzione di Poisson può essere bene
approssimata dalla distribuzione Normale con la stessa media e la stessa varianza
della Poisson, cioè
Po(λ) ≈ N(µ = λ, σ2 = λ)
• per n sufficientemente grande, la distribuzione χ2 (che vedremo successivamente)
può essere approssimata abbastanza bene dalla distribuzione normale con la stessa
media e la stessa varianza della χ2, cioè
χ n2 ≈ N(µ = n, σ2 = 2n)
• per n sufficientemente grande, la distribuzione T di Student (che vedremo

successivamente) può essere approssimata abbastanza bene dalla distribuzione
Normale con la stessa media e la stessa varianza della T , cioè
n
Tn ≈ N(µ = 0, σ2 = )
n−2
Infine si enuncia un’altra proprietà importantissima della distribuzione Normale.

Trattando delle v.c. multiple, abbiamo illustrato quanto valgono il valore atteso e la
varianza di una combinazione lineare di v.c. Tali proprietà riguardavano solo valore
atteso e varianza, senza dire niente altro sulla forma della distribuzione. Ebbene si può
dimostrare che le v.c. di partenza oltre ad avere un certo valore atteso e una certa
2
Si fa notare che molte delle approssimazioni riportate sono giustificabili via teorema limite centrale (si
veda sez. 9).
74
varianza sono Normali allora anche una qualsiasi combinazione lineare è Normale. In
simboli
k  k k k 
Xi ~ N(µi, σ i2 ) i = 1, …, k ⇒ ∑ ci Xi ~ N  ∑ ci µ i , ∑ ci2σ i2 + ∑∑ ci c j σ ij  ,
 i =1 
i=1  i =1 i =1 j ≠i 
dove ci sono delle costanti e σ ij sono le covarianze fra la v.c. i-ma e j-ma. Si può notare
che rispetto alla proprietà del valore atteso e della varianza di una combinazione lineare,
k
in più c’è solo la Normalità di ∑ ci Xi, dato che media e varianza conseguono come
i=1
detto dalle proprietà dei valori attesi per v.c. multiple. E’ ovvio che, sempre nell’ipotesi
di normalità delle Xi, se le n v.c. sono fra loro incorrelate, cioè le σ ij sono tutte 0,
allora
k  k k 
∑ ci Xi ~ N  ∑ ci µ i , ∑ ci2σ i2  .
i=1  i =1 i =1 
Un altro caso particolare molto importante (cui faremo sovente riferimento in ambito
inferenziale) si ha quando le Xi oltre ad essere distribuite normalmente sono anche
indipendenti, con la stessa media µ e con la stessa varianza σ2. In questo caso,
sfruttando i risultati precedenti si dimostra facilmente che la distribuzione della media
aritmetica delle v.c. Xi ha la seguente distribuzione
1 n
X = ∑ X i ~ N(µ,σ2/n).
n i =1
Per pervenire a questo risultato basta ricordare che l’indipendenza implica
l’incorrelazione e quindi sfruttare la formula corrispondente con ci = 1/n, µi = µ e σ i2 =
σ2 per tutte le i.
Esempio
Sia X ~ N(µ = –2, σ2 = 0.25). Si vuol determinare il valore della costante c in modo da
soddisfare le relazioni:
a. P(X ≥ c) = 0.2;
b. P(–c ≤ X ≤ –1) = 0.5;
c. P(c1 ≤ X ≤ c2) = 0.95;
75
Utilizzando la tavola della funzione di ripartizione della normale standard, si ottiene:

 X −µ c−µ
a. 0.2 = P(X ≥ c) = P ≥  = P(Z ≥ z) ⇒ P(Z ≤ z) = 1 – 0.2 = 0.8 in base
 σ σ 
c−µ
al quale dalla tavola si ricava z = 0.84. Poiché z = , sostituendo i valori di µ, σ
σ
e z si ricava c = µ + σz = –2 + 0.5 0.84 = –1.58.
 − c − µ X − µ −1− µ 
b. 0.5 = P(–c ≤ X ≤ –1) = P ≤ ≤  = P(z ≤ Z ≤ 2) = P(Z ≤ 2) –
 σ σ σ 
P(Z ≤ z) da cui P(Z ≤ z) = P(Z ≤ 2) – 0.5 = 0.97725 – 0.5 = 0.47725 implica z = –
−c−µ
0.06. Poiché z = , sostituendo i valori di µ, σ e z si ricava c = –µ – σz = 2 –
σ
0.5 (–0.06) = 2.03.
c. Ci sono infiniti intervalli [c1, c2] tali che P(c1 ≤ X ≤ c2) = 0.95. Tuttavia a meno che
particolari ragioni non indichino di procedere in modo diverso, normalmente
interessa l’intervallo più stretto, che nelle distribuzioni simmetriche coincide on
quello simmetrico rispetto alla media. Allora 0.95 = P(c1 ≤ X ≤ c2)
 c − µ X − µ c2 − µ 
= P 1 ≤ ≤  = P(–z ≤ Z ≤ z), da cui P(Z ≤ z) = 0.975 e quindi z =
 σ σ σ 
1.96. A questo punto si possono ricavare c1 = µ – σz = –2 – 0.5·1.96 = –2.98 e c2 =
µ + σz = –2 + 0.5·1.96 = –1.02.
Esempio
Le lamine d'acciaio prodotte dalla THESTEEL devono avere un determinato spessore.

Tuttavia la produzione subisce delle piccole variazioni (in termini di spessore) aventi
carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte, può essere
convenientemente rappresentato dalla v.c. X. L’esperienza acquisita garantisce che X ha
una distribuzione Normale con media µ = 10 mm e varianza σ2 = 0.0004mm2. Si vuol
determinare la percentuale attesa di lamine difettose nei seguenti casi:
a. siano difettose le lamine con spessore inferiore a 9.97 mm;
b. siano difettose le lamine con spessore superiore a 10.05 mm.;
c. siano difettose le lamine che si discostano dalla media per più di 0.03 mm;
76
Si chiede inoltre:
d. Quale valore dovrebbe assumere la costante c affinché la percentuale attesa di
lamine che si discosta da 10 mm per una quantità non superiore a c sia pari a 0.95;
e. come varierebbe la percentuale attesa di cui al punto d, relativamente al valore della
costante |c| trovato, nel caso in cui si avesse µ = 10.01.
Usando la tavola della funzione di ripartizione della Normale si ottengono i seguenti

risultati:
 X − µ 9.97 − 10 
a. P(X < 9.97) = P  <  = P(Z < –1.5) = 0.06681
 σ 0.02 
 X − µ 10.05 − 10 
b. P(X > 10.05) = P  >  = P(Z > 2.5) = 1 – P(Z ≤ 2.5) = 0.00621
 σ 0.02 
 X − µ 9.97 − 10   X − µ 10.03 − 10 
c. P(X ≤ 9.97) + P(X ≥ 10.03) = P  ≤  + P ≥ =
 σ 0.02   σ 0.02 
P(Z ≤ –1.5) + P(Z ≥ 1.5) = 2 P(Z ≥ 1.5) = 2 [1 – P(Z ≤ 1.5)] = 0.13361
 − c X − 10 c 
d. 0.95 = P(–c < X – 10 < c) = P  < <  = P(–z < Z < z) implica z =
σ σ σ
1.96, da cui c = σ z = 0.02٠1.96 = 0.0392
e. P(10 – 0.0392 < X < 10 + 0.0392) = P(9.9608 < X < 10.0392) =
 9.9608 − 10.01 X − 10.01 10.0392 − 10.01 
P < <  = P( –2.46 < Z < 1.46) = P(Z <
 0.02 0.02 0.02 
1.46) – P(Z < –2.46) = 0.92785 – (1 – 0.99305) = 0.9209
8.2.2. Gamma e χ2 (di Pizzetti-Pearson)
La v.c. X ha una distribuzione Gamma, in simboli X ~ Ga(α, β), se la sua funzione di

densità è
 β α α −1 − βx
 se x > 0
f(x; α, β) =  Γ(α ) x e
 0 altrimenti

dove α e β sono due reali positivi e Γ(α) è la funzione Gamma, una particolare funzione
che vale
77
+∞
Γ(α ) = ∫x
α −1 − x
e dx .
0
Valori particolari della funzione Gamma sono Γ(1) = 1, Γ(1/2) = π e Γ(n) = (n – 1)!
se n è un intero positivo. Inoltre si dimostra per induzione che vale la relazione Γ(α + 1)
= Γ(α).
La v.c. Gamma può assumere allora solo valori positivi. Si può dimostrare che i
principali momenti della distribuzione Gamma sono dati da
α α
E(X) = V(X) = .
β β2
In realtà, per quanto riguarda questo corso non utilizzeremo spesso la distribuzione
Gamma, ma piuttosto un suo caso particolare: la v.c. χ2 (Chi-quadrato). Quest’ultima è

appunto un caso particolare della Gamma quando α = n/2 e β = 1/2; quindi
χ2(n) = Ga(α = n/2, β = 1/2).
Di conseguenza la v.c. Chi-quadrato ha funzione di densità
 1
 n/2 x n / 2−1e − x / 2 se x > 0
f(x; n) =  2 Γ(n / 2)
 0 altrimenti
dove n è un intero positivo detto gradi di libertà (il significato di questa espressione
sarà chiarito nei capitoli successivi).
78
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14
Fig. 12 – Funzione di densità per la v.c. X ~ χ2(n) (Blu: n = 1; Rosa: n = 2; Verde: n = 3;

Celeste: n = 4; Viola: n = 5).
La v.c. χ2 può allora assumere solo valori positivi. Anche in questo caso uno studio di
funzione evidenzia che questa funzione di densità: è monotona decrescente per n = 1 e n
= 2, mentre per n > 2 ha un massimo nel punto x = n – 2.
Tuttavia, a meno di una esplicita necessità, si invita lo studente a non memorizzarla.
Infatti capita raramente di dover utilizzare la funzione di densità della χ2, mentre si
utilizzano assai più spesso le sue proprietà.
La prima proprietà collega la Chi-quadrato alla Normale standard: se Z è una v.c.

normale standard, allora la v.c. Z2 è una v.c. χ2 con 1 grado di libertà; in simboli
Z ~ N(0, 1) ⇒ Z2 ~ χ2(1).
La seconda è la proprietà di additività del Chi-quadrato: se X1, ..., Xk sono v.c. Chi-
quadrato indipendenti, allora la loro somma è ancora Chi-quadrato con gradi di libertà
pari alla somma dei gradi di liberta delle singole Chi-quadrato; in simboli
k k
Xi ~ χ2(ni) indipendenti i = 1, …, k ⇒ X = ∑ Xi ~ χ2( ∑ ni).
i=1 i=1
79
Sulla base dei momenti della Gamma si ricava facilmente che i principali indici
caratteristici della v.c. Chi-quadrato sono:
E(X) = n
V(X) = 2n
Esempio
Sia X ~ χ2(5). Si vogliono determinare le costanti c, c1 e c2 in modo che sia:

a. P(X ≤ c) = 0.10
b. P(X > c) = 0.05
c. P(c1 < X ≤ c2) = 0.95
Utilizzando le tavole della distribuzione χ2 si ha

a. P(X ≤ c) = F(c) = 0.10 ⇒ c = 1.61
b. P(X > c) = 1 – P(X ≤ c) = 1 – F(c) = 0.05 ⇒ c = 11.1
c. Esistono infinite coppie di valori c1, c2 capaci di soddisfare la condizione posta al
punto c. Si potrebbe ad esempio suddividere la probabilità 0.05 in modo da avere un
livello pari a 0.01 alla sinistra di c1 ed un intervallo 0.04 alla destra di c2, oppure
0.02 a sinistra di c1 e 0.03 a destra di c2 ecc. Usualmente, a meno che non vi siano
particolari ragioni per operare in modo diverso, si suddivide la probabilità in parti
uguali. Così facendo si avrà
P(X ≤ c1) = F(c1) = 0.025 ⇒ c1 = 0.831
P(X > c2) = 1 – P(X ≤ c2) = 0.025 ⇒ c2 = 12.8.
8.2.3. T (di Student)
La v.c. X ha una distribuzione T di Student, in simboli X ~ T(n), se la sua funzione di

densità è
 n + 1 n +1
Γ  −
 2 2
f(x; n) =  2  1 + x 
n  n 
Γ   nπ 
2
80
dove x è un numero reale e n è un intero positivo detto gradi di libertà.
0.5
0.4
0.3
0.2
0.1
0
-6 -4 -2 0 2 4 6
Fig. 13 – Funzione di densità della v.c. X ~ T(n) (Blu: n = 1; Rosa: n = 3; Verde: n = 10;
Celeste: n = +∞ (ovvero N(0,1))).
La distribuzione T, introdotta dal chimico W.S. Gosset nel 1908 sotto lo pseudonimo di
"Student", può assumere allora qualsiasi valore reale. Anche in questo caso uno studio
di funzione è utile per evidenziare che funzione di densità ha un andamento a campana
con le seguenti caratteristiche: è simmetrica; ha un massimo nel punto x = 0; le code
tendono asintoticamente a 0.
Anche in questo caso, a meno di una esplicita necessità, si invita lo studente a non
memorizzare la funzione di densità. Infatti capita raramente di doverla utilizzare mentre
più spesso si utilizzano le sue proprietà.
La proprietà principale, che utilizzeremo spesso in seguito, è la seguente. Siano Z una

v.c. Normale standard e Y una v.c. χ2 con n gradi di libertà, con Z e Y indipendenti. Si
Z
può dimostrare che la v.c. X = ha una distribuzione T con n gradi di libertà. In
Y /n
simboli
Z
Z ~ N(0, 1), Y ~ χ2(n) indipendenti ⇒ X = ~ T(n).
Y /n
81
Un’altra proprietà interessante è data dal fatto che al crescere di n la distribuzione T

tende alla distribuzione Normale standardi; un buona approssimazione si ottiene già per
n relativamente piccolo (n ≥ 30).
Si può infine dimostrare che i principali indici caratteristici della v.c. T sono:
E(X) = 0 per n ≥ 2 (non esiste per n < 2)
n
V(X) = per n ≥ 3 (non esiste per n < 3)
n−2
Esempio
Sia X ~ T(9). Si vogliono determinare i valori della costante c che soddisfano le

relazioni:
a. P(X > c) = 0.05;
b. P(X < c) = 0.05;
c. P(–c < X ≤ c) = 0.99;
d. P(0 < X ≤ c) = 0.475.
Utilizzando le tavole della distribuzione T e ricordando che tale distribuzione è

simmetrica, si ottiene
a. 0.05 = P(X > c) = 1 – P(X ≤ c) ⇒ P(X ≤ c) = 0.95, da cui c = 1.8331
b. P(X ≤ c) = 0.05 ⇒ P(X ≤ –c) = 0.95, da cui –c = 1.8331 e quindi c = –1.8331.
c. 0.99 = P(–c < X ≤ c) ⇒ P(X ≤ c) = 0.995, da cui c = 3.2498
d. 0.475 = P(0 < X ≤ c) ⇒ P(X ≤ c) = 0.975, da cui c = 2.2622
8.2.4. F (di Fisher-Snedecor)
La v.c. X ha una distribuzione F (Fisher-Snedecor), in simboli X ~ F(n1,n2), se la sua

funzione di densità è
82
  n1 + n2  n1 / 2 n2 / 2
 Γ 2 n1 n2 x n1 / 2−1
   per x > 0
f(x; n) =  n  n 
Γ 1 Γ 2  (n2 + n1 x )( n1+n2 ) / 2

 2  2 
 0 altrimenti
dove n1 e n2 sono due interi positivi detti gradi di libertà.
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12
Fig. 14 – Funzione di densità della v.c. X ~ F(n1,n2) (Blu: n1 = 2, n2 = 2; Verde: n1 = 8,

n2 = 2; Celeste: n1 = 5, n2 = 5; Viola: n1 = 10, n2 = 10).
La v.c. F può allora assumere solo valori positivi. Anche in questo caso uno studio di
funzione evidenzia che questa funzione di densità ha una forma simile a quella della χ2.
Di nuovo, a meno di una esplicita necessità, si invita lo studente a non memorizzare
l’equazione della funzione di densità. Infatti capita raramente di doverla utilizzare,
mentre più spesso si utilizzano le sue proprietà.
La proprietà principale della v.c. F è la seguente. Siano X1 e X2 due v.c. χ2

rispettivamente con n1 ed n2 gradi di libertà, con X1 e X2 indipendenti. Si può dimostrare
X 1 / n1
che la v.c. X = ha una distribuzione F con n1 ed n2 gradi di libertà. In simboli
X 2 / n2
X 1 / n1
X1 ~ χ2(n1), X2 ~ χ2(n2) indipendenti ⇒ X = ~ F(n1,n2).
X 2 / n2
Si noti che l'ordine dei gradi di libertà n1 ed n2 è fondamentale.
83
Da questa consegue immediatamente una seconda proprietà: se X ha una distribuzione

F(n1,n2) allora il reciproco di X, cioè 1/X, ha anch’esso una distribuzione F ma con i
gradi di libertà invertiti F(n2,n1). In simboli
X ~ F(n1,n2) ⇒ 1/X ~ F(n2,n1)
Si può infine dimostrare che i principali indici caratteristici della v.c. F sono
n2 2n22 (n1 + n2 − 2)
E(X) = V(X) =
n2 − 2 n1 (n2 − 2)2 (n2 − 4)
Esempio
Sia X ~ F(7, 10). Si vogliono determinare i valori della costante c che soddisfano:
a. P(X ≤ c) = 0.95;
b. P(X ≤ c) = 0.01.
Utilizzando la tavola della distribuzione F si ottiene

a. 0.95 = P(X ≤ c) ⇒ c = 3.1355
b. 0.01 = P(X ≤ c) = P(1/X ≥ 1/c) ⇒ P(1/X ≤ 1/c) = 0.99, da cui 1/c = 6.620 e quindi c
= 0.151.
8.3. Distribuzioni multiple
8.3.1. Normale doppia
La funzione di densità della v.c. normale doppia o v.c. normale bivariata è data da
f(x, y; µX, µY, σX, σY, ρXY) =
  x − µ 
2
 x − µX   y − µY   y − µY 
2  
1  1
 X 
exp−   − 2 ρ XY     +  
2
2 πσ X σ Y 1 − ρ XY
2
 2(1 − ρ XY )  σ X   σX  σY   σY  
 
per –∞ ≤ x, y ≤ +∞ , dove i parametri che caratterizzano la distribuzione coincidono con

gli indici caratteristici più significativi della distribuzione stessa
µ10 = E(X) = µX µ01 = E(Y) = µY
84
µ 20 = E[(X – µX)2] = σ X2 µ 02 = E[(Y – µY)2] = σ Y2
 X − µ X   Y − µY  σ XY
µ 11 = E     = = ρ XY = ρ YX
 σ X  σY  σ X σ Y
E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti

+∞  
1 1
∫
2
f ( x) = f ( x, y )dy = exp − 2
( x − µ X ) 
−∞ 2πσ X2  2σ X 
+∞  
1 1
∫
2
f ( y) = f ( x, y )dx = exp − 2
( y − µ Y ) 
−∞ 2πσ Y2  2 σ Y 
f ( x, y) 1  1  σX  
f ( x | y) = = exp− − µ − ρ ( − µ )
f ( y) (
2πσ X2 1 − ρ XY
2
) (
 2σ X2 1 − ρ XY
2 
 )
y Y XY
σY
y Y 
 
f ( x, y) 1  1  σY 
f ( y | x) = = exp− − µ − ρ ( − µ )
f ( x) (
2π σ Y2 1 − ρ XY
2
) (
 2σ Y2 1 − ρ XY
2 
 )
y Y XY
σX
x X 

che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni
condizionate.
Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni
condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal
coefficiente di correlazione. Se ρXY = ρYX = 0, le due variabili casuali componenti sono
indipendenti (cioè f(x, y) = f(x) f(y)) e le distribuzioni condizionate, per l’indipendenza,
non risentono più del condizionamento e risultano uguali alle distribuzioni marginali.
Nella Fig. 15 è riportata la forma della funzione di densità e le sezioni orizzontali e
verticali della variabile casuale normale doppia le cui componenti sono incorrelate
(indipendenti) ed hanno uguale varianza.
85
Fig. 15 – Funzione di densità di una v.c. normale doppia con ρXY = ρYX = 0 e σ x2 = σ 2y =
σ2 .
Nella Fig. 16 sono riportate le sezioni orizzontali di variabili casuali normali doppie
incorrelate (ρXY = 0) con relazione diversa tra le varianze delle due distribuzioni
marginali.
Fig. 16 - Sezioni orizzontali di una variabile casuale normale doppia con ρXY = ρYX = 0
86
Fig. 17 – Sezioni orizzontali di una v.c. normale doppia con σ X2 = σ Y2 = 1.
Fig. 18 - Sezioni orizzontali di una variabile casuale normale bivariata con σ X2 = 4 e
σ Y2 = 1.
87
Nella Fig. 17 sono riportate le sezioni orizzontali di una variabile casuale normale
doppia, le cui componenti hanno stessa varianza σ X2 = σ Y2 = 1, per diversi livelli di

correlazione; mentre nella Fig. 18 le sezioni sono relative a diversi livelli di
correlazione e diversa varianza ( σ X2 = 4 e σ Y2 = 1).

Osservando Fig. 16, Fig. 17 e Fig. 18, si rileva l’incidenza del valore assunto da
parametri caratteristici sulla forma della funzione di densità. La forma campanulare
perfetta si ha solo quando ρXY = ρYX = 0 e σ X2 = σ Y2 . Se ρXY = ρYX = ±1, cioè se esiste
un legame lineare tra le due componenti, si avrà un completo schiacciamento della
distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro
desumibile immediatamente anche per via analitica e dal punto di vista logico; non ha
più senso, infatti, parlare di variabilità su due componenti essendo la variabilità dell’una
(ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la relazione
Y = a + bX).
8.3.2. Trinomiale (o Binomiale doppia)
Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova

sia ω1 o ω2 o ω3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna
prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato
esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate
ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).
Si definisca ora la variabile casuale doppia (X, Y) come coppia ordinata di numeri reali
in cui la prima componente X rappresenta il numero delle volte in cui si è presentato il
risultato ω1 nelle n prove, mentre Y rappresenta il numero delle volte in cui si è
presentato il risultato ω2. Ovviamente, il numero delle volte in cui si presenta il risultato
ω3 non può essere inserito come terza variabile essendo lo stesso numero univocamente
determinato per differenza (n – x – y).
Se, per semplicità di notazione, si pone
88
p1 = P(ω1 ) = P( X = 1) = p x
p 2 = P(ω 2 ) = P(Y = 1) = p y
p3 = P(ω 3 ) = P[( X = 0) ∩ (Y = 0)] = 1 − p x − p y = q
si avrà
n!
f ( x, y ) = P[( X = x) ∩ (Y = y )] = p xx p yy q n− x − y
x! y!(n − x − y )!
dove: x rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n

prove ed y il numero delle volte in cui si è presentato il risultato ω2; x potrà, pertanto,
assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n – x, ed
anche x, y = 0, 1, 2, …, n con il vincolo x + y ≤ n.
Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono
variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto
riportate relative ad alcuni momenti misti
µ10 = µX = n pX, µ01 = µy = n pY
µ 20 = σ x2 = n p x (1 − p x ) , µ 02 = σ y2 = n p y (1 − p y )
px ⋅ p y
µ 11 = σ xy = σ yx = − n p x p y , µ 11 = ρ xy = ρ yx = −
(1 − p x ) (1 − p y )
py px
E (Y | x) = (n − x) , E ( X | y ) = (n − y )
1 − px 1− py
L’espressione analitica delle due distribuzioni condizionate è

y n− x− y
(n − x)!  p y   q 
f ( y | x) =    
y!(n − x − y )!  1 − p x 
 1 − px 
x n− x− y
(n − y )!  p x 

 q



f ( x / y) =
x!(n − x − y )!  1 − p y 

1 − p y



L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove indipendenti

ed ipotizzare che in ciascuna prova si possa presentare uno dei k + 1 risultati necessari
ed incompatibili ω1, ω2, …, ωk, ωk+1. Si potrà introdurre la variabile casuale
multinomiale a k dimensioni (X1, X2, …, Xk), dove le componenti rappresentano il
89
numero delle volte in cui, nelle n prove, si è presentato, rispettivamente il risultato ω1,
ω2, …, ωk. Il numero delle volte in cui si presenta il risultato ωk+1 non viene considerato
k
risultando il suo valore per differenza n − ∑ x i .
i =1
8.3.3. Multinomiale e Ipergeometrica multipla
k
Se con p1 , p 2 , ... , p k , q = 1 − ∑ pi si indicano le probabilità dei risultati (punti
i =1
campionari) ω1, ω2, …, ωk+1, la funzione di massa di probabilità della variabile casuale
multinomiale è
k
n − ∑ xi
n! x
f ( x1 , x 2 , ..., x k ) = p1x1 ⋅ p 2x2 ... p k k q i =1
 k 
x1! x 2 ! ... x k ! n − ∑ xi  !
 i =1 
k
dove x1, x2, …, xk = 0, 1, 2, …, n, con il vincolo ∑ xi ≤ n .
i =1
Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti che,

rifacendosi allo schema di estrazione da un’urna, significa effettuare n estrazioni senza
ripetizione, si deriva la versione a k dimensioni della variabile casuale
ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di probabilità
 k 
 N − ∑ Ni 
 N1   N 2   N k   i =1 
    ...    k 
 x1   x 2   x k   n − x 
 ∑ i
f ( x1 , x 2 , ..., x k ) =  i =1 
N
 
n
k
dove N1, N2, …, Nk, Nk+1 ( N k +1 = ∑ N i ) rappresentano le palline, rispettivamente, del
i =1
colore 1, 2, …, k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore

numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo
k
∑ xi ≤ n anche dai valori N1, N2, …, Nk.
i =1
90
9. Alcuni teoremi fondamentali del calcolo delle

probabilità
Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di

carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie
informative che si collocano ad un livello intermedio tra la conoscenza completa,
seppure spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica
espressa dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e
significativi è quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a
cui si perviene facilmente attraverso una opportuna specificazione di un teorema più
generale.
Teorema 1: Teorema di Markov. Siano: X una v.c. con funzione di massa (se
discreta) o di probabilità (se continua) f(x); g(.) una funzione a valori
reali non negativa; e c una costante positiva. Allora
E [g ( X )]
P[g(X) ≥ c] ≤
c
Considerando, senza perdere in generalità, il caso continuo, il teorema si dimostra con

relativa facilità attraverso i seguenti passaggi
+∞
E[g(X)] = ∫ g ( x) f ( x) dx = ∫ g (x ) f (x ) dx + ∫ g (x ) f (x ) dx ≥ ∫ g ( x) f ( x) dx
−∞ {x:g ( x )≥c} {x:0≤ g ( x )<c} {x:g ( x )≥c}
≥c ∫ f (x )dx = c P[g(X) ≥ c],

{x:g ( x )≥c}
da cui la tesi del teorema.
Di particolare interesse risulta il seguente corollario del teorema, noto come

disuguaglianza di Bienaymé-Cebiçev.
Teorema 2: Disuguaglianza di Bienaymé-Cebiçev. Siano: X una v.c. con valore

atteso E(X) = µ e varianza V(X) = σ2. Allora se k > 0
91
1
P[| X – µ | ≤ kσ] ≥ 1 – .
k2
Il risultato sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori
che si collocano in un intorno della media di ampiezza ± kσ è sempre superiore ad
1
1− . Ovviamente la disuguaglianza assume significato solo per k > 1.
k2
La dimostrazione di questa disuguaglianza segue facilmente dal teorema di Markov
ponendo g(X) = X – µ, c = kσ , cosicché
P[| X – µ | ≥ kσ] = P[(X – µ)2 ≥ k2σ2] ≤

[
E ( X − µ )2 ]= σ2
=
1
k2σ 2 k 2σ 2 k2
da cui la tesi.
Se si fa riferimento ad una particolare distribuzione e si considera una specifica

funzione g(.) si perviene ad un altro interessante risultato.
Teorema 3: Teorema di Bernoulli. Sia X ~ Bi(n, p). Allora

X 
lim P  − p < c  = 1 .
n→+∞  n 
Questo significa che siccome c può essere scelto piccolo a piacere, al crescere del
numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la
frequenza relativa di un evento X/n converge, in probabilità, alla probabilità p
dell’evento stesso.
X
Il teorema si dimostra applicando il teorema di Markov per g(X) = − p , da cui
n
 X  
2
E  − p  
X   X 
2   n   pq
P  − p ≥ c  = P  − p  ≥ c 2  ≤  2
= ;
 n   n   c n c2
quindi
92
X  pq
lim P  − p ≥ c  ≤ lim =0
n→ +∞  n  n→+∞ n c 2
da cui segue
X 
lim P  − p < c  = 1 .
n→+∞  n 
Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più

interessante è quella che estende il risultato ad una successione qualsiasi di variabili
casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media
E(Xi) = µ.
Teorema 4: Teorema di Kolmogorov (legge forte dei grandi numeri). Sia X1, X2,
…, Xn, … una successione di v.c. indipendenti e identicamente
distribuite, di media µ finita. Allora per la variabile casuale
n
1
Xn =
n
∑ X i vale la relazione
i =1
P lim X n = µ  = 1 .
 n→+∞ 
Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano

varianza σ2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev,
dimostrare facilmente al cosiddetta legge debole dei grandi numeri.
Teorema 5: Legge debole dei grandi numeri. Sia X1, X2, …, Xn, … una successione
di v.c. indipendenti e identicamente distribuite, di media µ e varianza σ2
n
1
> 0 finite. Allora per la variabile casuale X n =
n
∑ Xi vale la relazione
i =1
( )
lim P X n − µ < c = 1 .
n→+∞
Sulla rilevanza operativa, tutt’altro che marginale, delle leggi dei grandi numeri si avrà
modo di soffermare l’attenzione successivamente.
93
Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della

probabilità e della statistica ma ancora più rilevante è, come si avrà modo di
approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale,
qui se ne propone una versione particolare, quella usualmente attribuita a
Lindberg-Levy.
Teorema 6: Teorema del limite centrale. Sia X1, X2, …, Xn, … una successione di
v.c. indipendenti ed identicamente distribuite (i.i.d.) di media µ e
varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica
dei primi n elementi della successione)
n
1
Xn =
n
∑ Xi
i =1
che avrà valore medio E( X n ) = µ e varianza V( X n ) = σ2/n; allora la
variabile casuale standardizzata

Xn −µ
Zn =
σ/ n
per n → +∞ tende alla distribuzione normale standard.
L’implicazione più rilevante del teorema e che per n abbastanza grande la variabile
casuale X n può essere approssimata dalla distribuzione normale di media µ e varianza
σ2/n senza fare alcuna assunzione circa la forma della distribuzione delle Xi. La bontà
dell’approssimazione dipende, come è facile intuire, dal tipo di distribuzione delle Xi:
tanto più è “simile” a quella della Normale (simmetria, code “sottili” ecc.) tanto
migliore è l’approssimazione anche per n non troppo grandi.
In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in
cui non si richiede più che le variabili casuali della successione abbiano identica
distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi
generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) =
µi e le varianze V(Xi) = σ i2 > 0 siano finite. In questo caso, naturalmente, la variabile

che tende alla variabile casuale normale standardizzata è
94
Xn −µ
Zn =
σ /n
n n n
1 1 1
dove: X n =
n
∑ Xi , µ = n
∑ µi , σ 2 = n
∑ σ i2 .
i =1 i =1 i =1
Appendice - Calcolo combinatorio
Il primo concetto utile è quello delle permutazioni di n oggetti distinti. Si definisce

permutazione di n oggetti il numero dei gruppi che possono essere formati dagli n dati
scambiando di posto gli oggetti stessi. Se A, B e C sono i tre oggetti (n = 3), le possibili
permutazioni saranno
(A, B, C) (A, C, B) (B, A, C) (B, C, A) (C, A, B) (C, B, A)
Per individuare il numero delle possibili permutazioni di n oggetti basta considerare che
vi sono n modi diversi di occupare la prima posizione, a ciascuna di queste va associato
uno degli n – 1 modi diversi di occupare la seconda posizione (dagli n –1 oggetti
residui) che potrà, a sua volta essere associato ad uno degli n – 2 modi diversi di
occupare la terza posizione e così via
Le permutazioni di n oggetti distinti saranno pertanto pari a:
Pn = n (n – 1) (n – 2)...2 1 = n!
(si ricordi che per convenzione e convenienza matematica, 0! = 1).
Se fra gli n oggetti ve ne sono n1 (n1 ≤ n) uguali tra loro, n2 (n2 ≤ n) uguali tra loro, fino
h
a nh (nh ≤ n) uguali tra loro, con n = ∑ ni, e si vuol procedere alla determinazione del
i=1
numero dei gruppi diversi che possono essere formati, si dovrà tener conto del fatto che
lo scambio di posto fra due oggetti uguali non modifica il gruppo; ad esempio se i tre
oggetti sono A, A e B, si verifica, immediatamente che i possibili gruppi diversi sono
soltanto 3:
(A, A, B) (A, B, A) (B, A, A).
95
Sono stati, cioè, eliminati dai 6 gruppi iniziali i 3 gruppi che comportavano uno scambio
di posto dello stesso oggetto A; il numero delle permutazioni in questo caso è dato da
3!
.
2! 1!
In generale il numero delle permutazioni di n oggetti, di cui n1 uguali tra loro, n2 uguali
tra loro, ... nh uguali tra loro, che vengono dette con ripetizione, proprio per il ripetersi
di alcuni oggetti, è dato da
h
n!
Pn1,n2 ,...,nh =
n1!n2!...nh!
dove n = ∑ ni
i=1
n!  n 
La quantità Pn1,n2 ,...,nh = =   viene usualmente detta
n1!n2!...nh!  n1 , n2 ,⋅ ⋅ ⋅ ⋅ ⋅, nh 
coefficiente multinomiale in quanto rappresenta il coefficiente nella espansione

multinomiale (polinomio di Leibniz)
 n  n1 n2
(a1 + a2 + ⋅ ⋅ ⋅ ⋅ ⋅ + a h )n = ∑∑ ...∑  a1 a 2 .....a hnh
n1 n2 n ,nnh  1 2 ,⋅ ⋅ ⋅ ⋅ ⋅, n h 
Un altro importante concetto di raggruppamenti possibili è quello relativo al numero di

gruppi che si possono formare da n oggetti distinti prendendone k (≤ n) alla volta e
considerando diversi i gruppi che differiscono o per un elemento o per il posto che
l'elemento occupa. Anche in questo caso risulta facile il conteggio basandosi sullo
stesso schema di ragionamento fatto sopra. Il primo, dei k posti, potrà essere occupato
in n modi diversi (cioè da ciascuno degli n oggetti dati) a ciascuno di questi dovrà
essere associato al secondo posto che potrà essere occupato in n – 1 modi diversi (cioè
da ciascuno degli n – 1 oggetti residui) e così via fino al k-esimo posto che potrà essere
occupato in n – (k – 1) = n – k + 1 modi diversi (gli oggetti residui sono n meno k – 1
oggetti che sono stati utilizzati per occupare le prime k – 1 posizioni). La formula, detta
delle disposizioni di n elementi in classe k sarà
n!
Dn,k = n (n – 1) (n – 2) ...(n – k + 1) = .
(n − k )!
Naturalmente
96
Dn,n = n! = Pn,
cioè le disposizioni di n elementi in classe n coincidono con le permutazioni di n
elementi.
Se disponendo di n oggetti, diversi o per ordine o per elemento, si considerano tutti i

possibili gruppi che si possono formare prendendone k (≤ n) dagli n dati ma
ammettendo che ciascun oggetto possa essere preso fino a k volte (cioè i k oggetti ven-
gono scelti con ripetizione degli n dati), risulta facile, sulla scorta delle considerazioni
sopra fatte, arrivare alla determinazione del numero di disposizioni con ripetizione, di
classe k, che è dato da
Dnr,k = n k
in quanto ciascuno dei k posti può essere occupato da ciascuno degli n oggetti
(n n ...n = nk).
Se ci si propone di determinare i possibili gruppi che possono essere formati
prendendone k (senza ripetizione) dagli n dati in modo che ciascun gruppo differisca
dall'altro per almeno un elemento, il numero dei possibili gruppi, cioè delle
combinazioni di n elementi in classe k, si ottiene escludendo dal numero delle
disposizioni di classe k tutte quelle che differiscono tra loro solo per l'ordine degli
elementi, cioè
Dn , k n!  n
Cn,k = = = ,
Pk k!(n − k)!  k
 n
dove   rappresenta anche il k-esimo termine dello sviluppo del binomio di Newton
 k
n
n
(a + b)n = ∑  k a k b n−k
k =1  
e viene usualmente detto coefficiente binomiale. Si tratta, ovviamente, di una
particolarizzazione del polinomio di Leibniz per h = 2. Si noti inoltre che le
combinazioni di n elementi di classe k coincidono con le permutazioni con ripetizione
di n elementi dei quali k uguali tra loro ed (n – k) uguali tra loro
 n n!
Cn,k =   = = Pk,n – k
 k k!(n − k)!
97
Le formule sopra introdotte delle permutazioni (con e senza ripetizione), delle

disposizioni (con e senza ripetizione) e delle combinazioni si riveleranno
estremamente utili nella misura delle probabilità di eventi non elementari in quanto
consentono in modo abbastanza immediato la determinazione del numero degli eventi
elementari associati ad esperimenti casuali complessi.
Si riportano infine alcune relazioni di uguaglianza tra formule combinatorie utili nel
calcolo delle probabilità.
n  n 
  =  
k  n − k 
 n + 1  n   n 
  =   +   per n = 1, 2, … e k = 0, ± , ± 2, …
 k   k   k − 1
− n  n + k − 1
  = (− 1)k  
 k   k 
98

Probabilidad Terminologia1

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Probabilidad Terminologia1

Caricato da

Copyright:

Formati disponibili

CORSO DI LAUREA IN ECONOMIA AZIENDALE

Metodi Statistici per l’impresa (Note didattiche)

CALCOLO DELLE PROBABILITÀ

1. Esperimento casuale, spazio campionario, eventi

Definizione 1: Definizione di esperimento casuale. Si dice esperimento casuale,

Definizione 2: Definizione di spazio campionario. Dato un esperimento casuale, si

Riepilogando, allora, lo spazio campionario è l’insieme dei risultati possibili

Definizione 3: Definizione di evento. Dato uno spazio campionario Ω relativo ad un

In ogni caso, comunque, un evento è un sottoinsieme di Ω ed è quindi costituito da un

Definizione 4: Verificarsi di un evento. Dato uno spazio campionario Ω relativo ad

Le due definizioni precedenti ci consentono di precisare che sono eventi anche:

Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente,

Riepilogando, lo spazio campionario Ω è l’insieme dei risultati possibili

Le relazioni/operazioni della teoria degli insiemi che risultano di particolare interesse

Relazione di inclusione. Un evento A è incluso nell'evento B, e si scrive A ⊆ B, se ogni

Operazione di negazione. La negazione (complementazione nella teoria degli insiemi)

Il seguente diagramma di Venn illustra graficamente il concetto di evento incluso e di

Fig. 1 - Diagramma di Venn per l’inclusione e la negazione dove il quadrato

Operazione di intersezione. L'intersezione tra due eventi A e B è l'evento E1 = A ∩ B

Operazione di unione. L'unione tra due eventi A e B è l'evento E2 = A ∪ B costituito da

Il seguente diagramma di Venn illustra graficamente le due operazioni (intersezione ed

Fig. 2 - Diagrammi di Venn per l’intersezione e l’unione. Il tratteggio evidenzia

Operazione di differenza. La differenza fra due eventi A e B è l’evento

L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione che

Si segnala anche che la relazione A ∪ B = (A ∩ B ) e la relazione duale

A ∩ B = (A ∪ B ) vengono usualmente dette leggi di de Morgan [si invita lo studente a

Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche

che contiene tutti i punti campionari comuni ai k eventi considerati.

Le due ultime proprietà (distributive) per k eventi divengono

Fig. 3 - Ridefinizione degli spazi per eventi condizionati.

Se si assume che l'evento B si è verificato allora accadono due importanti conseguenze:

Quindi se si considera l'evento condizionato A | B, B “si trasforma” in Ω ed A “si

Facendo per il momento affidamento su questa idea intuitiva di probabilità, il primo

Definizione 5: Definizione classica della probabilità. La probabilità di un evento A è

Definizione 6: Definizione frequentista della probabilità. La probabilità di un

supposto che tutte le prove siano effettuate nelle stesse condizioni.

Definizione 7: Definizione soggettiva della probabilità. La probabilità di un evento A

Definizione 8: Definizione assiomatica della probabilità. Siano dati un esperimento

Questa definizione assiomatica della probabilità, dovuta a Kolmogorov, non ha

Ricollegandosi alla definizione assiomatica, è facile dimostrare che da tale definizione

Nella sezione 1 abbiamo enunciato il concetto di condizionamento fra eventi.

Definizione 9: Definizione di probabilità condizionata. Assumendo P(B) > 0, la

Dalla definizione di probabilità condizionata e dalle considerazioni precedenti possono

che è detta anche regola della catena.

• incompatibili in quanto non devono avere punti campionari in comune, cioè

Vediamo adesso un altro concetto di fondamentale importanza nell’ambito della

Definizione 10: Definizione di indipendenza. Due eventi A e B sono fra loro

Più in generale, k eventi A1, A2, ..., Ak sono indipendenti se

per ogni sottoinsieme di eventi Ai1 , Ai2 , …, Ais con s = 2, 3, ...,k.

Ad esempio tre eventi A, B, C sono indipendenti se valgono tutte le seguenti relazioni

In estrema sintesi possiamo riassumere le sezioni precedenti nello spazio probabilistico

In parole semplici una variabile casuale è un modo di trasformare i punti campionari in

probabilità. Questa probabilità, definita sugli elementi di A, non vogliamo “perderla”,

5. Distribuzione di una variabile casuale

Relativamente a come la probabilità è distribuita (potremmo dire “spalmata”) sui valori

Definizione 12: Definizione di funzione di ripartizione (o funzione delle probabilità

La funzione di ripartizione di una variabile casuale, quindi, è semplicemente P(X ≤ x),

Analizzeremo in seguito le proprietà più importanti della funzione di ripartizione. Per

Tornando a quanto detto sopra, la funzione di ripartizione risponde allora perfettamente

Rispetto alla funzione di ripartizione, la funzione di massa ha il grosso pregio di essere

La funzione di densità è esattamente tale tasso per l’intervallino di ampiezza

La funzione di densità in x, allora, rappresenta quanto vale la probabilità “intorno ad x”

f(xi) = F(xi) – F(xi–1)