2006 Calcolo Delle Probabilita

Politecnico di Milano
Esercizi di Calcolo delle Probabilità cod. 061195

Per gli allievi ING AUT, ELN, INF e TEL
Anno accademico 2005-20061
Ilenia Epifani
8 marzo 2006
1
Il contenuto di queste dispense è protetto dalle leggi sul copyright e dalle disposizioni dei trattati
internazionali. Il materiale qui contenuto può essere copiato (o comunque riprodotto) ed utilizzato libera-
mente dagli studenti, dagli istituti di ricerca, scolastici ed universitari afferenti ai Ministeri della Pubblica
Istruzione e dell’Università e della Ricerca Scientifica e Tecnologica per scopi istituzionali, non a fine di
lucro. Ogni altro utilizzo o riproduzione (ivi incluse, ma non limitatamente a, le riproduzioni a mezzo
stampa, su supporti magnetici o su reti di calcolatori) in toto o in parte è vietata, se non esplicitamen-
te autorizzata per iscritto, a priori, da parte dall’autore. L’informazione contenuta in queste pagine è
ritenuta essere accurata alla data della pubblicazione. Essa è fornita per scopi meramente didattici. L’in-
formazione contenuta in queste pagine è soggetta a cambiamenti senza preavviso. L’autore non si assume
alcuna responsabilità per il contenuto di queste pagine (ivi incluse, ma non limitatamente a, la correttezza,
completezza, applicabilità ed aggiornamento dell’informazione). In ogni caso non può essere dichiarata
conformità all’informazione contenuta in queste pagine. In ogni caso questa nota di copyright non deve
mai essere rimossa e deve essere riportata anche in utilizzi parziali. Copyright 2006 Ilenia Epifani.
2
Questo materiale è stato elaborato durante gli Anni Accademici 2000-2005 per le esercitazioni
ai corsi di Calcolo delle Probabilità per allievi di Ingegneria Elettronica, Informatica e delle Tele-
comunicazioni, tenuti dai docenti A. Guglielmi, L. Ladelli e I. Epifani. Alcuni degli esercizi sono
inoltre tratti dai temi d’esame di Calcolo delle Probabilità sempre di quegli anni. Gli esercizi sono
organizzati seguendo gli “Appunti per il corso di Calcolo delle Probabilità”, edizione 2005/2006,
di I. Epifani, L. Ladelli e G. Posta disponibili alla pagina
http://www1.mate.polimi.it/∼ileepi/dispense/0506CP/.
Per gli esercizi tratti da un libro sono forniti pagina, titolo, autore, casa editrice.
Per gli esercizi tratti da prove d’esame sono forniti data e nome del corso.
Milano, marzo 2006 Ilenia Epifani
Indice
1 Probabilità 1
1.1 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Operazioni su eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Proprietà della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Spazi finiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Spazi di probabilità uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Probabilità condizionata e indipendenza . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Alcune formule importanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3 Affidabilità di un sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Soluzioni di alcuni esercizi del Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . 10
2 Variabili aleatorie 21
2.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Esempi di densità discrete notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 Densità bernoulliana, binomiale, geometrica . . . . . . . . . . . . . . . . . . 22
2.3.2 Densità di Poisson come limite di densità binomiale . . . . . . . . . . . . . 23
2.3.3 Densità ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Funzioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.1 Funzioni di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . 26
2.5.2 Funzioni di variabili aleatorie assolutamente continue . . . . . . . . . . . . . 27
3 Media varianza e momenti 39

3.1 Media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Densità gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Approssimazione gaussiana della funzione di ripartizione binomiale . . . . . . . . . 41
4 Vettori aleatori 47
4.1 Vettori aleatori discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Vettori aleatori assolutamente continui . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Minimo e Massimo di variabili aleatorie i. i. d. . . . . . . . . . . . . . . . . . . . . 51
4.4 Vettori gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5 Miscellanea 65
5.1 Esercizi di ricapitolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
i
ii INDICE
Capitolo 1
Probabilità
1.1 Spazi di probabilità

1.1.1 Operazioni su eventi
Esercizio 1.1.1 (tratto da [4] pag. 25) Stabilite quali delle seguenti relazioni sono vere e quali
sono false
1. (A ∪ B) \ C = A ∪ (B \ C)
2. A ∩ B ∩ C = A ∩ B ∩ (C ∪ B)
3. A ∪ B ∪ C = A ∪ (B \ (A ∩ B)) ∪ (C \ (A ∩ C))
4. A ∪ B = (A \ (A ∩ B)) ∪ B
5. (A ∩ B) ∪ (B ∩ C) ∪ (C ∩ A) ⊃ A ∩ B ∩ C
6. (A ∩ B) ∪ (B ∩ C) ∪ (C ∩ A) ⊂ (A ∪ B ∪ C)
7. (A ∪ B) \ A = B
8. A ∩ B c ∩ C ⊂ A ∪ B
9. (A ∪ B ∪ C)c = Ac ∩ B c ∩ C c
10. (A ∪ B)c ∩ C = (Ac ∩ C) ∪ (B c ∩ C)
11. (A ∪ B)c ∩ C = Ac ∩ B c ∩ C
12. (A ∪ B)c ∩ C = C \ [C ∩ (A ∪ B)]
Esercizio 1.1.2 Siano A, B e C tre eventi. Esprimete i seguenti eventi mediante operazioni
logiche su A, B e C:
(1) almeno un evento si verifica
(2) nessun evento si verifica
(3) si verifica soltanto un evento
(4) al più un evento si verifica
(5) tutti gli eventi si verificano
(6) due eventi su tre si verificano
(7) si verifica soltanto A
(8) si verifica A
(9) si verificano almeno due eventi
1
2 CAPITOLO 1. PROBABILITÀ
Esercizio 1.1.3 Una moneta regolare viene lanciata due volte. Antonio vince se esce testa al
primo lancio; Benedetto vince se la moneta esibisce croce al secondo.
a) Descrivete lo spazio campionario.
b) Descrivete in termini di sottoinsiemi dello spazio campionario i seguenti eventi:
(1) Antonio vince
(2) Benedetto vince
(3) Antonio non vince
(4) Benedetto non vince
(5) Antonio e Benedetto vincono entrambi
(6) Vince Antonio ma non Benedetto
(7) Vince Benedetto ma non Antonio
(8) Almeno uno dei due vince
(9) Nessuno dei due vince
(10) Vince soltanto uno dei due
(11) Esce cuori
(12) Esce testa o croce
1.2 Proprietà della probabilità

Esercizio 1.2.1 (Esercitazione del ??/02 della dott.ssa G. Guatteri) 1 Una ditta riceve ri-
chieste di forniture, che possono essere urgenti oppure no, e richiedere la consegna in città oppure
fuori città. Per una data richiesta è noto che:
i) la probabilità che una consegna sia fuori città è 0.4.
ii) la probabilità che una consegna sia urgente è 0.3.
iii) la probabilità che una consegna sia non urgente e in città è 0.4.
Calcolate
a) la probabilità che una consegna sia urgente e in città;
b) la probabilità che una consegna sia o fuori città o non urgente
c) la probabilità che una consegna sia urgente ma fuori città.
Esercizio 1.2.2 Relativamente alla prima sessione d’esame del primo anno del corso di laurea
XXX è noto che la probabilità che uno studente superi:
• l’esame A è 0.4,
• l’esame B è 0.5,
• l’esame C è 0.3,
• l’esame A e l’esame B è 0.35,
• l’esame A e l’esame C è 0.2,
• l’esame B e l’esame C è 0.25,
• tutti e tre gli esami è 0.15,
Determinare la probabilità che nella prima sessione uno studente scelto a caso
1. non superi l’esame A;
2. superi A ma non superi B;
3. superi almeno un esame;
4. non superi alcun esame.
Esercizio 1.2.3 Si risponda alle seguenti domande giustificandole in modo opportuno:

1. Se P (A) = 1/3 e P (B c ) = 1/4, A e B possono essere eventi incompatibili?
2. Se P (A) = 1/4 e P (A ∪ B) = 3/4, quanto vale P (B) nel caso che A e B siano incompatibili?
3. Se P (A) = P (B) = 3/8, può verificarsi che P (A ∪ B) = 1/4? E P (A ∪ B) = 7/8?
1 http://www1.mate.polimi.it/∼guatteri/
1.3. SPAZI FINITI 3
4. Siano P (A) = 3/4 e P (B) = 3/8. Si verifichi che 1/8 ≤ P (A ∩ B) ≤ 3/8.
5. Si dimostri in generale la diseguaglianza di Bonferroni:
P (A ∩ B) ≥ P (A) + P (B) − 1
1.3 Spazi finiti

Esercizio 1.3.1 Un canale trasmette le cifre 1,2,3. Sia Ti l’evento Ti = “Il canale trasmette i”.
Se la probabilità di trasmettere la cifra 3 è tre volte la probabilità di trasmettere la cifra 1 e la
probabilità di trasmettere la cifra 2 è due volte la probabilità di trasmettere la cifra 1, quanto
valgono P (T1 ), P (T2 ), P (T3 )? [Risp: 1/6, 1/3, 1/2]
Esercizio 1.3.2 Se una moneta è truccata in modo tale che la probabilità che esca croce risulti
quattro volte la probabilità che esca testa, quanto vale la probabilità che esca testa?
Esercizio 1.3.3 Si vuole assegnare la probabilità che una persona scelta a caso (in una certa
popolazione) possegga k appartamenti a partire dai pesi


c/4 se k = 0
qk = c/2k se k = 1, . . . , 5


0 altrove
(1) Per quali valori di c i pesi assegnati definiscono una funzione di probabilità?
(2) Quanto vale la probabilità che una persona scelta a caso possegga almeno due appartamenti?
1.3.1 Spazi di probabilità uniforme

Esercizio 1.3.4 Si lanciano due dadi regolari contemporaneamente. Antonio vince se la somma
dei due dadi è pari, mentre Biagio vince se almeno uno dei due dadi esibisce faccia superiore
numerata 6. Siano A, B gli eventi A:“Antonio vince”, B:“Biagio vince”.
(1) Descrivete in termini di A, B gli eventi:
(a) Antonio e Biagio vincono
(b) Almeno uno dei due vince
(c) Soltanto Antonio vince
(2) Calcolate P (A), P (B) e la probabilità degli eventi descritti al punto precedente.
[risp: P (A) = 1/2; P (B) = 11/36; (a)5/36; (b)2/3(= 1/2+11/36−5/36); (c)13/36(= 1/2−5/36)]
Esercizio 1.3.5 (tratto da [4], pag. 55) A lancia un dado 6 volte e vince se totalizza almeno
un uno, B lancia un dado 12 volte e vince se totalizza almeno 2 volte un uno. Chi ha maggiore
probabilità di vincere? [Risp: A]
Esercizio 1.3.6 (Esempio 1.4.7 pag. 14 in [5]) Un’associazione è formata da 25 iscritti. Tra
questi devono essere scelti un presidente ed un segretario.
(1) Quanti sono i modi possibili per ricoprire le due cariche?
(2) Se gli individui vengono scelti a caso per ricoprire le cariche, qual è la probabilità che un
assegnato membro dell’associazione ne ricopra una?
Esercizio 1.3.7 Ordinando a caso i primi 7 numeri naturali, quanto vale la probabilità che i
numeri 1 e 2 siano adiacenti (con 2 successivo ad 1)? [Risp: 0.14285]
Esercizio 1.3.8 1. Estraendo a caso senza reimmissione sette lettere dall’alfabeto italiano (com-
posto da 21), quante parole diverse (anche di senso non compiuto) si possono comporre? Qual è
la probabilità di comporre una parola che inizia e finisce per vocale?
2. Come cambiano le risposte alle domande precedenti se le lettere sono estratte con reimmis-
sione?
3. Se le lettere vengono estratte con reimmissione, quanto vale la probabilità di comporre una
parola di sette lettere non ripetute?
Esercizio 1.3.9 Scegliendo a caso 5 lettere dall’alfabeto italiano (costituito da 21),

a) Qual è la probabilità di comporre una parola che contiene una sola lettera “a”?
b) Qual è la probabilità di comporre una parola di 5 vocali?
c) Qual è la probabilità di comporre la parola “esame”?
Si risponda alle precedenti domande nelle diverse due ipotesi:
(i) le lettere possono essere ripetute,
(ii) ogni lettera può essere usata una sola volta.
N.B. Vengono contate anche le parole di senso non compiuto!
4 5 × 20!/(20 − 4)! 21

[Risp: sotto (i): a) 5×20 5
215 ; b)(5/21) ; c)21
−5
; Sotto (ii): a) = 5/21; b)1/ 5 ; c)0]
(21)5
Esercizio 1.3.10 Quanti sono i possibili anagrammi (anche di senso non compiuto) della parola
“PROVENZALI”? Se una scimmia ordina a caso le lettere della parola PROVENZALI, quanto vale
la probabilità che la quinta lettera della parola composta sia una vocale e l’ultima una consonante?
[Risp: 10!; 4/15]
Esercizio 1.3.11 (Esame, CP INF 06/09/02) Consideriamo una ruota della roulette con 37
possibili diversi risultati: 0,1, . . . ,36. Il croupier lancia 10 volte la pallina.
1. Qual è la probabilità di ottenere su 10 lanci della pallina la seguente sequenza (ordinata) di

risultati (0, 0, 3, 6, 9, 12, 15, 14, 28, 14)? [Risp: 37−10 ]
2. Qual è la probabilità di ottenere sui 10 lanci della pallina i seguenti risultati: sui primi due
lanci 0, sui successivi cinque lanci un multiplo di 3 diverso da 0, e sugli ultimi tre lanci un
multiplo di 14 diverso da 0? [Risp: 125 · 23 /3710 ]
3. Qual è la probabilità di ottenere sui 10 lanci della pallina due volte zero, cinque volte
un multiplo
5 di 3 diverso da 0 e tre volte un multiplo di 14, sempre diverso da 0? [Risp:
10 5 3 10
5 3 12 · 2 /37 ]
Esercizio 1.3.12 (Esempio (b) pag. 35 in [4]) Ciascuno dei 50 fra gli Stati Uniti d’America
hanno due senatori. In una commissione di 50 senatori scelti a caso, qual è la probabilità che
(1) un assegnato stato sia rappresentato [Risp: 149/198]
(2) tutti gli stati siano rappresentati [Risp: 250 / 100
50 ]
Esercizio 1.3.13 (Esempio 1.4.8 in [5]) (1) Se una persona gioca a poker con un mazzo di 32
carte, in quanti modi può essere servito?
(2) Qual è la probabilità che il giocatore abbia un tris “servito” (e non un gioco migliore)?
Esercizio 1.3.14 Nell’Università xxx, il docente del corso yyy ha distribuito 16 domande fra cui
ne pescherà 4 per la prova d’esame. Se uno studente prepara soltanto 4 domande,
(1) qual è la probabilità che proprio queste 4 domande costituiscano la prova d’esame? [Risp:
1/1820]
(2) Qual è la probabilità che almeno una delle domande preparate dallo studente sia estratta alla
prova d’esame? [Risp: 265/364]
1.4. PROBABILITÀ CONDIZIONATA E INDIPENDENZA 5
Esercizio 1.3.15 (Esempio 1.4.9 pag. 15 in [5]) Estraendo con reimmissione n palline da un’ur-
na che ne contiene M numerate da 1 a M e tenendo conto dell’ordine, quanto vale la probabilità
che ciascuna delle n palline estratte sia diversa dalle altre?
Esercizio 1.3.16 Allocando a caso 40 palline in 50 celle, quanto vale la probabilità che una
assegnata cella contenga esattamente 30 palline? Quanto vale la probabilità che una assegnata
cella contenga esattamente k palline, per k = 0, . . . , 40?
Esercizio 1.3.17 Due carte vengono estratte “a caso” da un mazzo di 52 carte francesi. Calcolare
la probabilità che 52
(a) siano entrambe di picche; [Risp: 13 / ]
252
2
4 13
(b) siano dello stesso seme; [Risp: 1 2 / 2 ]
4 52
(c) abbiano lo stesso numero; [Risp: 13 2 / 2 ]
1 52
(d) una sia di picche e l’altra di cuori; [Risp: 13 1
13
1 / 2 ]
(e) la prima sia di picche e la seconda di cuori. [Risp: (13 × 13)/(52 × 51) ]
Esercizio 1.3.18 In un gioco del poker con un mazzo di 32 carte (“variante Teresina”),
(1) qual è la probabilità che un giocatore riceva poker d’assi servito?
(2) qual è la probabilità che un giocatore riceva un poker servito?
Esercizio 1.3.19 Un mazzo di 52 carte contenente esattamente 26 carte rosse e 26 nere viene
diviso a metà. Si determini la probabilità che ognuna delle due parti contenga carte rosse e nere
in egual numero.
Esercizio 1.3.20 Bianchi scommette con Rossi che estrarrà 4 carte di 4 semi diversi da un mazzo
di carte napoletane (che ne contiene 10 per ognuno dei quattro semi). Qual è la probabilità che
Bianchi vinca?
Esercizio 1.3.21 (Esame CP TEL 21/11/02) Un’urna contiene 25 palline di cui 5 palline
rosse, 5 gialle, 5 blu, 5 nere e 5 bianche. Vengono estratte in blocco 3 palline.
(1) Calcolare la probabilità che le tre palline estratte siano tutte rosse.
(2) Calcolare la probabilità che le tre palline estratte siano tutte dello stesso colore.
(3) Calcolate la probabilità che le tre palline estratte siano tutte di colori diversi.
Esercizio 1.3.22 (a) Si determini la probabilità che i 160 allievi di una classe festeggino il
compleanno in 160 giorni diversi.
(b) In un gruppo di cinque amici quanto vale la probabilità che
(b.1) almeno 2 persone scelte a caso siano nate nello stesso giorno della settimana?
(b.2) Esattamente 2 siano nate di domenica?
Esercizio 1.3.23 In quanti modi 7 persone possono disporsi

(a) su 7 sedie allineate?
(b) Attorno a un tavolo circolare?
1.4 Probabilità condizionata e indipendenza

1.4.1 Alcune formule importanti
Esercizio 1.4.1 Un’inchiesta sulla popolazione della città xxx ha fornito i seguenti dati: il 10%
della popolazione è ricco (R), il 5% è famoso (F ) e il 3% è ricco e famoso. Per un cittadino di xxx
scelto a caso,
(a) Qual è la probabilità che sia ricco ma non famoso?
(b) Per un cittadino NON famoso, qual è la probabilità di essere ricco?
(c) Per un cittadino famoso, qual è la probabilità di essere ricco?
Esercizio 1.4.2 Cinque biglietti di una lotteria sono rimasti invenduti. Fra questi c’è il biglietto
vincente. Due amici A e B decidono di comprarne uno a testa. A sceglie per primo il biglietto.
(a) Qual è la probabilità che A acquisti il biglietto vincente?
(b) Qual è la probabilità che B acquisti il biglietto vincente?
(c) Qual è la probabilità che B acquisti il biglietto vincente, se non è stato acquistato da A?
(d) Qual è la probabilità che uno dei due vinca?
Esercizio 1.4.3 (Esempio 1.13 in [11]) Un canale di comunicazione trasporta segnali di due
tipi denominati 0 e 1. A causa del rumore alcune volte viene trasmesso 0, ma è ricevuto 1; altre
volte è trasmesso 1 e ricevuto 0. Assumiamo che sia 0.94 la probabilità che un segnale trasmesso
come 0 sia ricevuto correttamente e che sia 0.91 la probabilità che un segnale trasmesso come 1
sia ricevuto correttamente. Assumiamo che la probabilità di trasmettere 0 sia 0.45. Viene spedito
un segnale. Trovare:
1) la probabilità di ricevere 1,
2) la probabilità di ricevere 0,
3) la probabilità che sia trasmesso 1, dato che è ricevuto 1,
4) la probabilità che sia trasmesso 0, dato che è ricevuto 0,
5) la probabilità di un errore.
Esercizio 1.4.4 (Urne di Polya) Un’urna contiene 3 palline bianche e 5 nere. Si estrae una
pallina a caso. Se la pallina estratta è nera, la pallina viene riposta nell’urna insieme ad altre tre
palline nere. Se, invece, la pallina estratta è bianca, nessuna pallina è riposta nell’urna. Si procede
quindi a successive due estrazioni seguendo lo schema appena descritto.
(a) Qual è la probabilità di estrarre tre palline nere?
(b) Qual è la probabilità di estrarre tre palline dello stesso colore?
Esercizio 1.4.5 (Esercizio 1.11 pag. 8 in [1]) Un’urna contiene 2 palline rosse e quattro nere.
Due giocatori A e B giocano nel modo seguente: le palline vengono estratte ad una ad una e messe
da parte. A vince se l’ultima pallina è rossa, altrimenti vince B.
a) Qual è la probabilità che A vinca?
b) Qual è la probabilità che A vinca sapendo che la prima pallina estratta è rossa?
c) Qual è la probabilità che A vinca e che la prima pallina estratta sia rossa?
Esercizio 1.4.6 In un gioco televisivo viene messo in palio un 1 milione di euro. Per vincerlo il
concorrente dovrà indovinare fra tre buste qual è quella che contiene la promessa di pagamento.
Il concorrente sceglie a caso una busta; a questo punto il conduttore mostra una busta vuota
offrendo al concorrente la possibilità di cambiare la propria busta con quella rimanente.
Qual è la probabilità di vincere il premio conservando la prima busta scelta?
Qual è la probabilità di vincere cambiando la busta?
Qual è la strategia migliore fra le due?
Esercizio 1.4.7 (Esame MPSPS 07/02/01 (VO)) È noto che i gemelli possono essere dei
veri gemelli, e in questo caso sono dello stesso sesso, o degli pseudo-gemelli, e in tal caso è 1/2 la
probabilità che siano dello stesso sesso. Sia p la probabilità che due gemelli siano veri gemelli.
(1) Determinare la probabilità che due gemelli siano veri gemelli sapendo che sono dello stesso
sesso.
(2) Qual è la probabilità che due gemelli siano di sesso diverso?
Esercizio 1.4.8 Abbiamo due urne U1 , U2 . U1 contiene 2 palline bianche e 3 palline nere. U2
contiene 6 palline bianche e 4 nere. Si estrae a caso una pallina da un’urna. L’urna è scelta
seguendo un procedimento di casualizzazione che attribuisce probabilità p a U1 ed (1 − p) a U2 .
Per quale valore di p la probabilità di estrarre pallina nera risulta uguale alla probabilità di estrarre
a caso una pallina nera da un’urna con 7 palline nere ed 8 bianche?
Esercizio 1.4.9 Una prima urna contiene 4 palline bianche e 3 palline nere e una seconda urna
contiene 3 palline bianche e 5 palline nere. Estraggo una pallina dalla prima urna e senza guardarla
la ripongo nella seconda; quindi estraggo una pallina dalla seconda urna.
(1) Calcolare la probabilità che la pallina estratta dalla seconda urna sia nera.
(2) Se la pallina estratta dalla seconda urna è nera, è più probabile che la pallina estratta dalla
prima urna fosse bianca o nera?
Esercizio 1.4.10 (Esercizio 46 pag. 59 in [7]) Il 5% degli abitanti di un paese ha la pressione

alta. Se il 75% delle persone con pressione alta beve alcolici mentre il 50% delle persone con
pressione non alta non beve alcolici, qual è la percentuale dei bevitori con pressione alta?
Esercizio 1.4.11 Ho programmato di partire dopodomani per le vacanze. Ma, è annunciato

uno sciopero dei treni e io non ho nessuna intenzione di partire nel bel mezzo di uno sciopero.
Comunque, so che è in corso una trattativa sindacale e che se la trattativa avrà successo lo sciopero
verrà revocato con probabilità dell’80%, mentre se la trattativa fallisce lo sciopero sarà messo in
atto con probabilità del 99%. Ho stimato inoltre la probabilità che la trattativa fallisca pari a
40%.
(a) Calcolate la probabilità che io fra due giorni non riesca a partire a causa dello sciopero.
(b) Se arrivata in stazione scopro che i treni viaggiano, quanto vale la probabilità che la trattativa
abbia avuto successo?
Esercizio 1.4.12 (Esame CP TEL; II recupero 18/09/03) Partendo dalla piazzetta del pae-
se, Camillo può raggiungere il porto, scegliendo fra sei diversi percorsi numerati da 1 a 6. Camillo
sceglie il percorso lanciando un dado regolare. Per i = 1, . . . , 6, sia 1/(i + 1) la probabilità di
raggiungere il porto in meno di 10 minuti, attraverso il percorso i.
(1) Calcolate la probabilità che Camillo impieghi meno di 10 minuti per raggiungere il porto dalla
piazzetta.
(2) Calcolate la probabilità che Camillo non abbia scelto il percorso 1, sapendo che ha impiegato
almeno 10 minuti per andare dalla piazzetta al porto.
Esercizio 1.4.13 (Esame MPSPS 20/09/01 (VO)) Siano date due urne, urna A ed urna B.
Nell’urna A ci sono 2 biglie bianche ed 1 biglia nera, nell’urna B c’è 1 biglia bianca e 2 nere. Si
lancia un dado; se esce un numero minore od uguale a 4 si pesca una biglia dall’urna A, altrimenti
si pesca una biglia dall’urna B.
(1) Calcolare la probabilità che la biglia estratta sia nera. [Risp: 4/9]
(2) Calcolare la probabilità che sul dado sia uscito un numero minore od uguale a 4 sapendo che
si è estratta una biglia nera. [Risp: 1/2]
(3) Calcolare la probabilità che sul dado sia uscito il numero 1 sapendo che si è estratta una biglia
nera. [Risp: 1/8]
Esercizio 1.4.14 (CP INF 16/09/02 Esercizio 1.1) Un’urna contiene 6 palline di cui 3 bian-
che, 2 rosse ed 1 nera. Si estraggono senza reimmissione tre palline e si vince se una delle tre è
nera.
1. Si calcoli la probabilità di vincere.
2. Si calcoli la probabilità di vincere sapendo che la pallina nera non è uscita nelle prime due
estrazioni.
3. Sapendo di aver vinto, qual è la probabilità che la pallina nera non sia uscita nelle prime due
estrazioni?
Esercizio 1.4.15 (CP INF 02/05/02 Esercizio 2) La ditta XYZ produce transistor per la
realizzazione di circuiti elettronici. I transistor prodotti dalla ditta sono di due classi: classe A e
classe B. Per testarne la durata, i transistor vengono sottoposti ad un “test di vita accelerata”. La
probabilità che un transistor di classe A bruci dopo 5 minuti di test di vita accelerata è pari a 0.2,
mentre la probabilità che un transistor di classe B bruci dopo 5 minuti di test di vita accelerata è
pari a 0.6.
La ditta UVW utilizza i transistor prodotti da XYZ per assemblare circuiti elettronici dei quali
garantisce la durata. A tal fine acquista solo transistor di classe A. Un giorno l’ufficio consegne
della XYZ telefona alla UVW avvertendo che c’è una piccola probabilità, pari al 10%, che l’ultimo
lotto di transistor acquistato dalla UVW, a causa di un errore di consegne, sia costituito da
transistor di classe B. La UVW sottopone un transistor proveniente dall’ultimo lotto acquistato
ad un test di vita accelerato.
1. Calcolare la probabilità che il transistor bruci dopo 5 minuti di test.

2. Sapendo che il transistor è bruciato, calcolare la probabilità che sia di classe A.
1.4.2 Indipendenza
Esercizio 1.4.16 (Esercizio 173 pag. 44 in [3]) Si effettuano due estrazioni con reimmissione
da un’urna che contiene 100 palline numerate da 1 a 100. Siano A1 “la prima pallina estratta è
pari”, A2 := “la seconda pallina estratta è pari” e B := “una sola pallina estratta è pari”.
Gli eventi A1 , A2 sono indipendenti? E A2 , B? E A1 , B?
I tre eventi A, A2 , B sono indipendenti?
Esercizio 1.4.17 (Esempio 1.9 pag. 28 in [11]) Si lanciano due dadi regolari. Siano A=“Il
primo dado esibisce la faccia 1,2 o 3”, B=“Il primo dado esibisce la faccia 3,4 o 5”, C=“La
somma dei due dadi è 9”. Verificare che P (A ∩ B ∩ C) = P (A)P (B)P (C). Gli eventi A, B, C sono
indipendenti? Perché?
Esercizio 1.4.18 La distribuzione dei dipendenti di una nuova compagnia telefonica è la seguente:
il 70% sono uomini e il 30% sono donne. Fra gli uomini, il 25% è laureato, il 60% ha un diploma
di scuola media superiore e il restante 15% ha la licenza media inferiore. Per le donne le tre
percentuali sono rispettivamente, 35%, 60% e 5%.
(1) Scelto un dipendente a caso, qual è la probabilità che non sia laureato?
(2) Scelto un dipendente a caso, qual è la probabilità che sia donna e non laureata?
(3) Scelto a caso un dipendente che è laureato, qual è la probabilità che sia uomo?
(4) Sesso e livello di istruzione sono indipendenti?
(5) La risposta al punto precedente cambia se la ripartizione delle dipendenti per livello di
istruzione coincide con la ripartizione dei dipendenti per livello di istruzione?
Esercizio 1.4.19 (Esame CPSMA, bio II recupero 17/09/02) Siano A =“il libro di pro-
babilità XYZ della biblioteca del dipartimento in questo momento è in prestito” e B =“il libro di
probabilità ZWT della biblioteca del dipartimento in questo momento è in prestito”.
(1) Se P (A) = 0.5, P (B) = 0.4 e P (A ∪ B) = 0.65, calcolare la probabilità che entrambi i libri
siano in prestito e la probabilità che esattamente uno dei due libri sia in prestito.
(2) Se invece P (A ∪ B) = 0.7 e ciascuno dei due libri viene preso in prestito indipendentemente
dall’altro ma con uguale probabilità, calcolare P (A).
(3) Se invece so che P (A ∪ B) = 0.7 e la probabilità che esattamente un libro sia in prestito è 0.5,
posso determinare P (A) e P (B)? (Giustificare adeguatamente la risposta).
Esercizio 1.4.20 (Esame MPSPS 21/06/01 (VO)) Filiberto possiede 5 monete di cui 3 eque
e 2 truccate in modo tale che se lanciate diano sempre testa. Filiberto sceglie a caso una delle 5
monete e la lancia 3 volte.
(1) Calcolare la probabilità di ottenere 3 teste.
(2) Supponiamo che dopo aver lanciato 3 volte la moneta Filiberto abbia ottenuto 3 teste. Ora
Filiberto è (erroneamente!) convinto che lanciando la stessa moneta una quarta volta otterrà croce
con grande probabilità. Calcolare la probabilità di ottenere croce al quarto lancio sapendo che nei
primi tre si è ottenuto testa.
(3) Supponendo che al quarto lancio Filiberto abbia ottenuto ancora testa, calcolare la probabilità
che la moneta che Filiberto ha lanciato quattro volte sia una di quelle truccate.
Esercizio 1.4.21 (Esame MPSPS 19/04/01 (VO)) Tacito è appassionato di pesca, in par-
ticolare ama pescare trote. Per questo si reca nella “Valle della Trota”. La valle è famosa per i
suoi due laghi, il “Lago d’Oro” ed il “Lago d’Argento”, entrambi pescosissimi, ma mentre il primo
è popolato interamente da trote per il secondo si stima che solo il 60% dei pesci in esso presenti
siano trote (le uniche prede di interesse per Tacito). Tacito arriva al bivio tra i due laghi ma non
ricorda quale dei due sia quello con più trote, cosı̀ rimette la scelta del lago al caso lanciando
una moneta (equilibrata). Tacito è un ottimo pescatore e sicuramente pescherà almeno un pesce,
inoltre essendo uno sportivo quando pesca un pesce smette di pescare per l’intera giornata. Prima
di sera ha catturato un pesce.
(1) Calcolare la probabilità che il pesce pescato da Tacito sia una trota.
(2) Sapendo che Tacito ha pescato una trota, calcolare la probabilità che l’abbia pescata dal “Lago
d’Oro”.
(3) Il giorno seguente, rincuorato dal risultato della giornata precedente torna al lago del giorno
precedente. Calcolare la probabilità che peschi una trota (sapendo che il giorno prima ne ha
pescata una e che i risultati della pesca in uno stesso lago in giorni differenti possono essere
considerati indipendenti).
Esercizio 1.4.22 (Esempio 1.5.34 pag. 23 in [5]) Un tribunale sta investigando sulla possi-
bilità che sia accaduto un evento E molto raro e a tal fine interroga due testimoni, Arturo e
Bianca. L’affidabilità dei due testimoni è nota alla corte: Arturo dice la verità con probabilità α e
Bianca con probabilità β, e i loro comportamenti sono indipendenti. Siano A e B gli eventi Arturo
e Bianca rispettivamente affermano che E è accaduto, e sia p = P (E). Qual è la probabilità che
E sia accaduto sapendo che Arturo e Bianca hanno dichiarato che E è accaduto? Assumendo
α = β = 0.9 e p = 10−3 , quale conclusione ne traete?
1.4.3 Affidabilità di un sistema

Definizione 1 Dato un sistema S costituito dai componenti A1 , . . . , An , si chiama affidabilità del
componente Aj la probabilità che il componente funzioni (nel senso che fornisca certe prestazioni
in limiti di tempo e condizioni prefissate) ed affidabilità di S la probabilità che S funzioni.
Se i componenti sono supposti tra loro indipendenti e sono connessi in serie (cioè il sistema funziona
se e solo se tutti i componenti funzionano) allora l’affidabilità del sistema è:
(Sistema in serie) P (S) = P (A1 ) · · · P (An )
Se i componenti sono supposti tra loro indipendenti e sono connessi in parallelo (cioè il sistema
funziona se e solo se almeno un componente funziona) allora l’affidabilità del sistema è:
(Sistema in parallelo) P (S) = 1 − (1 − P (A1 )) · · · (1 − P (An ))
Esercizio 1.4.23 Si determini l’affidabilità del sistema in Figura 1.1, posto che i componenti
funzionino in modo indipendente e con la stessa affidabilità p = 0.8.
Esercizio 1.4.24 Qual è l’affidabilità di un sistema formato da tre componenti in serie A1 , A2 , A3

che funzionano in modo indipendente e le cui affidabilità sono rispettivamente 0.8, 0.7, 0.6? Per
aumentare l’affidabilità del sistema, un tecnico propone due soluzioni alternative:
(a) Aggiungere un sistema identico in parallelo come nella Figura 1.2 (cioè, B1 , B2 , B3 sono
indipendenti tra di loro e indipendenti da A1 , A2 , A3 e hanno affidabilità 0.8, 0.7, 0.6, rispetttiva-
mente)
(b) triplicare il sottosistema 2–3 costituito dai componenti più fragili secondo lo schema della
Figura 1.3 (B2 e C2 hanno la stessa affidabilità di A2 e B3 , C3 di A3 . Inoltre, i 7 componenti del
nuovo sistema S2 funzionano tutti in modo indipendente)
Quale fra le soluzioni (a) e (b) è la più efficiente?
1 2
3 4 5
Figura 1.1: Sistema Esercizio 1.4.23
A1 A2 A3
B1 B2 B3
Figura 1.2: Sistema S2
Esercizio 1.4.25 (Esempio 1.11 in [11]) Calcolate l’affidabilità del sistema S4 in figura 1.4,
costituito da una copia del componente R1 , una del componente R2 , tre del componete R3 , 2
del componente R4 e una del componente R5 , sapendo che i componenti R1 , R2 , R3 , R4 , R5 sono
indipendenti e hanno affidabilità 0.95, 0.99, 0.7, 0.75, 0.9 rispettivamente.
1.5 Soluzioni di alcuni esercizi del Capitolo 1

Esercizio 1.1.2
(1) A ∪ B ∪ C c
(2) A ∩ (B c ∩ C c ) ∪ B ∩ (C c ∩ Ac ) ∪ C ∩ (B c ∩ Ac ) ∪ A ∪ B ∪ C
(3) Ac ∩ B c ∩ C c
(4) A ∩ B ∩ C
(5) A∩(B c ∩C c ) ∪ B ∩(Ac ∩C c ) ∪ C ∩(B c ∩Ac ) = (A\(B ∪C))∪(B \(A∪C))∪(C \(A∪B))
(6) (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C) ∪ (Ac ∩ B ∩ C) = (A ∩ B \ C) ∪ (A ∩ C \ B) ∪ (B ∩ C \ A)
Esercizio 1.1.3 a) Ω = {T T, T C, CT, CC};
1. A=“Antonio vince” = {T T, T C}
2. B=“Benedetto vince” = {T C, CC}
3. Ac = {CT, CC}
4. B c = {T T, CT }
5. A ∩ B = {T C}
6. A \ B = {T T }
7. B \ A = {CC}
8. A ∪ B = {T T, T C, CC}
9. Ac ∩ B c = (A ∪ B)c = {CT }
10. A∆B = (A ∪ B) \ (A ∩ B) = {T T, CC}
11. ∅
12. Ω
Esercizio 1.2.1 Introdotti gli eventi U =“La consegna è urgente” e C =“La consegna è in città”,
dobbiamo calcolare:
a) P (C ∩ U )
1.5. SOLUZIONI DI ALCUNI ESERCIZI DEL CAPITOLO 1 11
A2 A3
A1 B2 B3
C2 C3
R3
R4
R1 R2 R3 R5
R4
R3
b) P (C c ∪ U c )
c) P (U \ C) = P (U ∩ C c )
conoscendo le probabilità dei seguenti eventi:
i)P (C c ) = 0.4
ii) P (U ) = 0.3.
iii) P (C \ U ) = P (U c ∩ C) = 0.4.
Osservando che C ∩ U = C \ (C \ U ) e che (C \ U ) ⊂ C, deduciamo che:
a) P (C ∩ U ) = P (C \ (C \ U )) = P (C) − P (C \ U ) = (1 − P (C c )) − P (C \ U ) = 1 − 0.4 − 0.4 = 0.2;
b) P (C c ∪ U c ) = 1 − P ((C c ∪ U c )c ) = 1 − P ((C c )c ∩ (U c )c ) = 1 − P (C ∩ U ) = 1 − 0.2 = 0.8.
Infine, poiché U \ C = U \ (C ∩ U ) e (C ∩ U ) ⊂ U , allora
c) P (U \ C) = P (U ) − P (C ∩ U ) = 0.3 − 0.2 = 0.1
Esercizio 1.2.2 Indichiamo con A l’evento “lo studente supera l’esame A”, con B l’evento “lo
studente supera l’esame B” e con C l’evento “lo studente supera l’esame C”. Allora le probabilità
richieste sono:
1. P (Ac ) = 1 − P (A) = 0.6;
2. P (A ∩ B c ) = P (A \ (A ∩ B)) = P (A) − P (A ∩ B) = 0.4 − 0.35 = 0.05;
3. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − [P (A ∩ B) + P (A ∩ C) + P (B ∩ C)] + P (A ∩ B ∩ C) =

0.4 + 0.5 + 0.3 − 0.35 − 0.2 − 0.25 + 0.15 = 0.55;
4. P (Ac ∩ B c ∩ C c ) = P ((A ∪ B ∪ C)c ) = 1 − 0.55 = 0.45.
Esercizio 1.2.3
1. No. Ragioniamo per assurdo: A ∩ B = ∅ ⇒ A ⊂ B c ⇒ P (A) ≤ P (B c ). Ossia, 1/3 ≤ 1/4:
assurdo!
2. Se A e B sono incompatibili, allora P (B) = P (A ∪ B) − P (A) = 3/4 − 1/4 = 1/2.
3. Nessuna delle due affermazioni è vera. Infatti,
A ⊂ A ∪ B ⇒ P (A) ≤ P (A ∪ B) e B ⊂ A ∪ B ⇒ P (B) ≤ P (A ∪ B), da cui otteniamo

P (A ∪ B) ≥ P (A) ∨ P (B) = 3/8 > 1/4. Inoltre, P (A ∪ B) ≤ P (A) + P (B) = 6/8 < 7/8.
4. A ∩ B ⊂ A ⇒ P (A) ≥ P (A ∩ B) e A ∩ B ⊂ B ⇒ P (B) ≥ P (A ∩ B), da cui otteniamo:
P (A ∩ B) ≤ P (A) ∧ P (B) = 3/8.
5. P (A ∩ B) = 1 − P ((A ∩ B)c ) = 1 − P (Ac ∪ B c ) e P (Ac ∪ B c ) ≤ P (Ac ) + P (B c ) =
2 − P (A) − P (B). Quindi, P (A ∩ B) ≥ P (A) + P (B) − 1.
In generale valgono le seguenti disuguaglianze:
max{P (A), P (B)} ≤ P (A ∪ B) ≤ P (A) + P (B)

P (A) + P (B) − 1 ≤ P (A ∩ B) ≤ min{P (A), P (B)}.
Esercizio 1.3.2 Lo spazio campionario relativo all’esperimento aleatorio del lancio della moneta
è Ω = {T, C}. Poniamo P (T ) = x: allora deve essere P (C) = 4x. I due eventi sono incompatibili
ed esauriscono Ω, quindi P (T ) + P (C) = x + 4x = 1 = P (Ω) da cui 5x = 1 e P (T ) = 0.2.
Esercizio 1.3.3 I pesi assegnati suggeriscono che, scelta una persona a caso in una certa popo-
lazione, i possibili risultati elementari sono riassunti nello spazio campionario Ω = {0, 1, . . . , n}.
Essendo lo spazio finito, la funzione di probabilità (dipendente dai pesi dati) sarà una funzione
definita sull’insieme potenza P(Ω) –costituito da 2n elementi– nel seguente modo:
(
cp(1 − p) se k = 0
(1.1) P ({k}) =
cpk se k = 1, . . . , n (p ∈ (0, 1)).
P in (1.1) è una probabilità su (Ω, P(Ω)) se
i) cp(1 − p) ≥ 0
ii) cpk ≥ 0 ∀k = 1, . . . , n
Pn
iii) cp(1 − p) + k=1 cpk = 1.
Pn da i) e da ii) che necessariamente c > 0: se fosse c = 0 allora P ({k}) = 0 ∀k e

Segue
k=0 P ({k}) = 0: assurdo! Inoltre
n
X n
X 1 − pn+1 1 − pn+1 − 1 + p 1 − pn
pk = pk − 1 = −1= =p
1−p 1−p 1−p
k=1 k=0
da cui, in virtù della condizione iii):
1 1−p 1
c= 1−pn = .
p[(1 − p) + 1−p ]
p (1 − p) + 1 − pn
2
Se n = 5 e p = 1/2, allora c = 32/39, A= “una persona scelta a caso possiede almeno due
appartamenti” ={2, 3, 4, 5} e P (A) = 1 − P ({0, 1}) = 1 − 32/39 ∗ 1/4 − 32/39 ∗ 1/2 = 15
39 .
Esercizio 1.3.8 Se estraiamo a caso senza reimmissione 7 lettere da un insieme di 21, ogni
possibile parola componibile è una stringa (ordinata) di 7 elementi tutti diversi tra di loro, e
quindi il numero dei casi elementari corrispondenti a questo eserimento coincide con il numero di
disposizioni semplici di 21 elementi in 7 classi, cioè 21 · 20 · · · 15 = 586051200.
Sia A l’evento:“Compongo una parola che inizia e finisce per vocale”. Il numero di parole di sette
lettere che cominciano e finiscono per vocale, quando le lettere non si possono ripetere, può essere
calcolato nel seguente modo: il primo posto posso riempirlo usando una delle 5 vocali dell’alfabeto
e il settimo usando una delle 4 rimanenti. A questo punto, le lettere dell’alfabeto rimaste sono 19
e quindi la stringa interna di 5 posti posso riempirla in 19 · 18 · 17 · 16 · 15 modi diversi. Segue
che 4 · 5 · 19 · 18 · 17 · 16 · 15 rappresenta il numero di casi favorevoli all’evento A. In definitiva, la

probabilità cercata vale:
4 · 5 · 19 · 18 · 17 · 16 · 15 20 1
P (A) = = = ' 0.0477
21 · 20 · · · 15 21 · 20 21
2. Se le estrazioni avvengono con reimmissione allora lo spazio campionario connesso all’e-
sperimento è l’insieme delle disposizioni con ripetizione di 21 oggetti di classe 7. Esse sono in tutto
217 . In questo caso A ha cardinalità 52 · 215 , poiché primo e settimo posto possono essere riempiti
usando una delle 5 vocali dell’alfabeto e la stringa interna di 5 posti usando una qualunque delle
21 lettere. Segue ora che
52 · 215 25
P (A) = = ' 0.057
215 441
3. Se le estrazioni avvengono con reimmissione, allora P (”le lettere nella parola estratta sono
tutte diverse)= 21···15
217 ' 0.3254
Esercizio 1.3.18 Le 32 carte del mazzo sono cosı̀ ripartite: quattro semi, per ognuno dei quali
si hanno le 8 carte distinte: A, K, Q, J, 10, 9, 8, 7. Ogni mano è un insieme di 5 carte scelte dal
mazzo. Allora: il numero di mani possibile è 32 5 = 201376: Ciascuna mano ha probabilità (32)
1
5
di essere servita.

1. Sia A l’evento: “il giocatore riceve un poker d’assi servito”. Allora |A| = 44 32−4
1 = 28 e
28
P (A) = 32 = 0.0001390434

5
2. Sia B l’evento: “il giocatore riceve un poker servito”. In un mazzo di 32 carte il poker
servito può essere di 8 valori diversi e la probabilità di ottenere un poker servito d’assi è
uguale alla probabilità di ricevere un poker servito di un altro valore. Inoltre, gli eventi
“il giocatore riceve poker servito d’assi”, di K, . . . sono incompatibili tra di loro. Quindi
P (B) = 8 · P (A) = 0.001112347.

Esercizio 1.3.19 Ci sono 52 26 (= # di combinazioni semplici di 52 oggetti di classe 26) modi di
scegliere 26 carte tra 52, quindi 5226 modi di dividere il mazzo (casi possibili). Ci sono esattamente
26 carte rosse tra le 52 carte; se ognuna delle due parti del mazzo deve contenere carte rosse e
nere in egual numero, ognuna dovrà contenere 13 carte rosse. Scelgo quindi le 13 carte rosse di
una prima metà in 26 13 modi e le rimanenti 13 carte tra le 26 nere in 26
13 modi. Dunque
26
26

13 13
P (“ciascuna parte contiene carte rosse in egual numero”) = 52
' 0.218126.
26
Esercizio 1.3.20 L’esperimento è del tipo estrazione senza reimmissione di un campione non
ordinato di ampiezza 4 da un insieme di 40 elementi di cui 10 del tipo bastoni, 10del tipo coppe,
10 del tipo denari e 10 del tipo spade. Lo spazio campionario ha cardinalità 40 4 , mentre i casi
favorevoli all’evento E =“estrarre 4 carte di 4 semi diversi da un mazzo di carte napoletane” sono

10 4
4 40
1 , da cui P (E) = 10
1 / 4 ' 0.11.
Esercizio 1.3.22
(a) Sia A l’evento “i 160 allievi festeggiano il compleanno in giorni diversi” e pensiamo l’anno
formato (sempre) da 365 giorni. Immaginando di avere etichettato i 160 allievi con un numero da
1 a 160, lo spazio campionario Ω è costituito dalle 160-uple (ordinate) dei giorni di compleanno
dei 160 allievi:
Ω = {(s1 , . . . , s160 ) : sj = 1, . . . , 365; j = 1, . . . , 160}
[dove sj = 1 significa che il j-esimo allievo è nato il primo gennaio, . . ., sj = 365 significa che il
j-esimo allievo è nato il 31 dicembre] e
A = {(s1 , . . . , s160 ) ∈ Ω : si 6= sj ∀i 6= j}.
Se supponiamo ogni caso elementare di Ω egualmente probabile allora P (A) = |A| |Ω| . I casi possibili
160
sono 365 (= numero di disposizioni con ripetizione di 365 oggetti di ordine 160) mentre i
casi favorevoli sono 365 · 364 · · · (365 − 159) = 365!/(365 − 160)! (= numero di disposizioni senza
ripetizione di 365 elementi di ordine 160). Dunque
(365)160
P (A) = ' 10−19
365160
Nota 1 Sostituiamo ora a 160, un generico n ≤ 365. Allora P (Ac ) = 1 − P (A) è la probabilità
che 2 o più allievi fra i 160 festeggino il compleanno lo stesso giorno. Si può calcolare che per
n = 22 P (Ac ) > 50%, per n = 50 P (Ac ) ' 97% e per n = 100 P (A) ' 1.
Nota 2 Assegnare ad ogni evento elementare (a1 , . . . , a160 ) ∈ Ω probabilità

1
P ({(a1 , . . . , a160 )}) =
365160
corrisponde ad assumere per il modello delle nascite degli allievi le seguenti ipotesi:
i) la probabilità che un allievo scelto a caso nasca nel giorno j è la stessa per ogni j = 1, . . . , 365;
ii) i giorni in cui sono nati i 160 studenti sono indipendenti tra di loro nel seguente senso:
fissata la stringa (a1 , . . . , a160 ), consideriamo gli eventi E1 =“lo studente con etichetta 1 è nato nel
giorno a1 ”, . . . , E160 =“lo studente con etichetta 160 è nato nel giorno a160 ”. Allora E1 , . . . , E160
sono indipendenti.
(b) In questo caso, lo spazio campionario è Ω2 = {(s1 , . . . , s5 ) : sj = 1, . . . , 7 j = 1, . . . , 5} che ha
cardinalità |Ω2 | = 75 .
(b.1) Consideriamo l’evento B=“I cinque amici sono nati in giorni diversi della settimana”. I casi
favorevoli sono costituiti dalle 5-uple (s1 , . . . , s5 ) tali che si 6= sj per i 6= j, che sono un esempio
di disposizioni senza ripetizione di ordine 5 tra 7 elementi. B ha probabilità: (7 · 6 · 5 · 4 · 3)/75 .
Pertanto la probabilità cercata vale 1 − 360
74 ' 0.85.
(b.2) Scegliamo le 2 persone nate la domenica tra le 5 in 52 modi; rimangono 3 persone, per le
qualiscegliamo i giorni della settimana in cui sono nate in 63 modi. Quindi, la probabilità cercata
5 3
6
è: 2 5 = 0.027648.
7
Esercizio 1.3.23
(a) Sono i modi di ordinare 7 oggetti (permutazioni), cioè 7!.
(b) Se consideriamo i posti intorno al tavolo numerati, allora si hanno 7! modi di sedersi. Se
però consideriamo che la posizione relativa delle persone rispetto al tavolo è ininfluente, cioè con-
sideriamo due configurazioni equivalenti se si ottengono mediante una rotazione “rigida” attorno
al tavolo, si vede che il numero di configurazioni possibili diventano: 7!/7 = 6!.
Esercizio 1.4.1 Poiché P (R) = 0.1, P (F ) = 0.05 e P (R ∩ F ) = 0.03, allora

(a) P (R ∩ F c ) = P (R) − P (R ∩ F ) = 0.1 − 0.03 = 0.07 = 7%;
c
(b) P (R|F c ) = P P(R∩F ) 0.07 7
(F c ) = 1−0.05 = 95 ≈ 0.07368;
P (R∩F ) 0.03
(c) P (R|F ) = P (F ) = 0.05 = 60%.
Esercizio 1.4.2 Siano A e B gli eventi A=“Il signor A compra il biglietto vincente” e B=“Il
signor B compra il biglietto vincente”. Se A compra per primo il biglietto e B per secondo, allora
l’insieme dei possibili risultati associati a tale acquisto è
Ω = {A ∩ B c , Ac ∩ B, Ac ∩ B c }
con
1·4 1 4·1 1 4·3 3
P (A ∩ B c ) = = ; P (Ac ∩ B) = = ; P (Ac ∩ B c )= = .
5·4 5 5·4 5 5·4 5
Pertanto:
(a) P (A) = P (A ∩ B c ) = 51
(b) P (B) = P (B ∩ Ac ) = 51 .
c
(c) P (B|Ac ) = P P(B∩A
(Ac )
)
= 1/5 1
4/5 = 4 =(Probabilità di estrarre un biglietto vincente dall’insieme
dei quattro biglietti rimasti di cui uno è vincente)
(d) P (A ∪ B) = P (A) + P (B) = 25 .
Nota 3 Si osservi che A e B hanno la stessa probabilità di vincere; ma la probabilità che B vinca
cambia se abbiamo l’ulteriore informazione che A non ha acquistato il biglietto vincente!!!
Esercizio 1.4.3 Siano Ti , Ri gli eventi Ti =“È trasmesso i” ed Ri =“È ricevuto i”, per i = 0, 1.
Dobbiamo calcolare
1)P (R1 ), 2) P (R0 ), 3) P (T1 |R1 ), 4) P (T0 |R0 ) e 5) P ([R0 ∩ T1 ] ∪ [R1 ∩ T0 ]), a partire dalle
seguenti probabilità assegnate:
0.94 = P (R0 |T0 )
0.91 = P (R1 |T1 )
0.45 = P (T0 ).
Applicando la formula delle probabilità totali otteniamo:
(1) P (R1 ) = P (R1 |T1 )P (T1 ) + P (R1 |T0 )P (T0 ) = 0.91(1 − 0.45) + (1 − 0.94)0.45 = 0.5275
(2) P (R0 ) = 1 − P (R1 ) = 1 − 0.5275 = 0.4725.
Per la formula di Bayes:
P (R1 |T1 )P (T1 ) 0.91(1 − 0.45) 1001

(3) P (T1 |R1 ) = = = ' 0.9488
P (R1 ) 0.5275 1055
P (R0 |T0 )P (T0 ) 0.94 · 0.45 94
(4) P (T0 |R0 ) = = = ' 0.8952.
P (R0 ) 0.4725 105
(5) P (R0 ∩ T1 ∪ R1 ∩ T0 ) = P (R0 ∩ T1 ) + P (R1 ∩ T0 )

= P (R0 |T1 )P (T1 ) + P (R1 |T0 )P (T0 ) = [1 − P (R1 |T1 )]P (T1 ) + [1 − P (R0 |T0 )]P (T0 )
= 0.09 · 0.55 + 0.06 · 0.45 = 0.0765
Esercizio 1.4.4 Siano Ni =“La i-esima pallina estratta è nera” e Bi =“La i-esima pallina estratta
è bianca” per i = 1, 2, 3.
(a) Per la formula di moltiplicazione:
5 8 11 5
P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 |N1 )P (N3 |N1 ∩ N2 ) = · · = ≈ 0.3571429,
8 11 14 14
poiché
5 5
P (N1 ) = =
5+3 8
5+3 8
P (N2 |N1 ) = P (“estrarre una pallina nera da un’urna con 3 bianche e (5+3) nere”) = =
8+3 11
11
P (N3 |N1 ∩ N2 ) = P (“estrarre una pallina nera da un’urna con 3 bianche e (8+3) nere”) =
14
(b) La probabilità cercata è P (B1 ∩ B2 ∩ B3 ) + P (N1 ∩ N2 + N3 ) = 1/56 + 5/14 = 21/56 = 3/8 =

0.375, poiché
3 2 1 1
P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 |B1 )P (B3 |B1 ∩ B2 ) = · · = .
8 7 6 56
Esercizio 1.4.5 Lo schema di riferimento è quello del campionamento senza reimmissione e in

cui interessa l’ordine. Per contare, possiamo pensare le palline rosse numerate da 1 a 2 e quelle
nere da 3 a 6. Siccome il numero delle estrazioni è pari al numero di palline presenti nell’urna, in
tutto possiamo ottenere 6! sequenze diverse di palline. Sia ora A l’evento “Vince A”=“L’ultima
pallina estratta è rossa”. Allora A si verifica se e solo l’ultima posizione è occupata da una pallina
rossa. A ha cardinalità 5! · 2 e quindi
a) P (A) = 2∗5! 1
6! = 3 .
b) Sia R =“Prima pallina estratta è rossa”. Dobbiamo calcolare P (A|R). Ma P (A|R) =
P (“estraendo 5 palline senza reimmissione da un’urna che ne contiene 5 di cui 1 rossa e 4 nere,
l’ultima estratta è rossa”) = 4!/5! = 1/5.
c) Poiché P (R) = 2/6, allora
1 1 1
P (A ∩ R) = P (A|R)P (R) = · =
5 3 15
Esercizio 1.4.6 Poichè la probabilità di scegliere la busta contenente la promessa di pagamento è

1/3, se il concorrente decide di conservare la prima busta scelta, la probabilità di vincere è 1/3. Con
la seconda strategia –consistente nel cambiare la busta che si ha in mano con la busta rimanente
dopo che il conduttore ne ha mostrata una vuota– il concorrente vince se e solo se inizialmente ha
scelto una delle due buste vuote. Pertanto, con la strategia del cambio della busta, la probabilità
di vincere è pari a 2/3. Conviene la strategia di cambiare busta.
Esercizio 1.4.7 Sia
V := “i due gemelli sono veri gemelli”, S := “i due gemelli sono dello stesso sesso”.
1. La probabilità richiesta è
P (S|V )P (V ) p 2p
P (V |S) = = 1 = .
P (S|V )P (V ) + P (S|V c )P (V c ) p + 2 (1 − p) p +1
2. P (S c ) = 1 − p − 21 (1 − p) = 21 (1 − p).
Esercizio 1.4.8 Calcoliamo prima la probabilità di estrarre una pallina nera (N ) scegliendo
l’urna fra U1 e U2 in modo tale che P (U1 ) = p. Allora, per la formula delle probabilità totali:
3 4 2 1
P (N ) = P (N |U1 )p + P (N |U2 )(1 − p) = p+ (1 − p) = + p
2+3 6+4 5 5
Se invece, ora calcolo la probabilità di estrarre pallina nera dall’urna U = U1 ∪ U2 , ottengo
3+4 7 2 1 7 1
7+8 = 15 . Quindi, le due probabilità sono uguali se 5 + p 5 = 15 , da cui ottengo p̂ = 3 .
Nota 4 Si osservi che se p = 0.5 (praticamente lancio una moneta equa per decidere l’urna da
cui estrarre), allora la probabilità di estrarre nera da una delle due urne distinte è 12 > 15
7
. In
generale, per valori di p 6= p̂, i due procedimenti di estrazione sono diversi.
Esercizio 1.4.9
6 3 5 4 38
1. P (N2 ) = P (N2 |N1 )P (N1 ) + P (N2 |B1 )P (B1 ) = 3+5+1 4+3 + 3+5+1 4+3 = 63
2. P (N1 |N2 ) = P (N2P|N(N1 )P

2)
(N1 )
= 18/63 9
38/63 = 19 < 0.5. Osservando che P (N1 |N2 ) + P (B1 |N2 ) = 1,
segue che P (B1 |N2 ) > P (N1 |N2 ), cioè, se la pallina estratta dalla seconda urna è nera, è più
probabile che la pallina estratta dalla prima urna fosse bianca.
Esercizio 1.4.10 Siano A=“Pressione alta” e B=“Bevitore di alcolici”. L’esercizio fornisce i
seguenti dati: P (A) = 5%, P (B|A) = 75% e P (B c |Ac ) = 50%. Quindi, calcoliamo la percentuale
dei bevitori con pressione alta come P (A|B). Applicando il teorema di Bayes otteniamo P (A|B) =
375
5125 ' 7.32%.
Esercizio 1.4.11 Siano S =“lo sciopero è messo in atto e T =“la trattativa ha successo”. Allora,
P (S c |T ) = 0.8, P (S|T c) = 0.99 e P (T c ) = 0.4 e
(a) P (S) = P (S | T )P (T ) + P (S|T c )P (T c ) = (1 − 0.8) · (1 − 0.4) + 0.99 · 0.4 = 0.516.
(b) Si cerca P (T |S c ). Si ricava P (S c ) = 1 − P (S) = 1 − 0.516 = 0.484 e quindi, per il teorema di
Bayes,
P (S c |T )P (T ) 0.8 · 0.6
P (T |S c ) = c
= = 0.9917.
P (S ) 0.484
Esercizio 1.4.12 Definiamo i seguenti eventi: Ci =“Camillo sceglie il percorso i-esimo” e

T =“Camillo impiega meno di 10 minuti per andare dalla piazzetta al porto”.
1. Utilizzando la formula delle probabilità totali abbiamo
6
X 6
X 1 1 669 223
P (T ) = P (T |Ci )P (Ci ) = (1/6) = · = ' 0.2654762
i=1 i=1
i+1 6 420 840
2. Dobbiamo calcolare P (C1c |T c ) c

= 1 − P (C1 |T ). Per il Teorema di Bayes,
P (T c |C1 )P (C1 ) (1 − P (T |C1 ))P (C1 ) (1 − 1/2) · (1/6) 70

P (C1 |T c ) = c
= = = ,
P (T ) 1 − P (T ) 1 − 223/840 617
quindi, la probabilià cercata vale P (C1c |T c ) = 1 − P (C1 |T c ) = 1 − 70/617 = 547/617 ' 0.8865
Esercizio 1.4.16 Le possibili coppie di risultati delle due estrazioni dall’urna sono
Ω = {(p1, p2), (p1, d2), (d1, p2), (d1, d2)}
Poichè le estrazioni sono effettuate con reimmissione e nell’urna vi è un egual numero di pari e
dispari (50), allora tutte le coppie hanno eguale probabilità pari a 1/4. Inoltre,
P (A1 ) = P {(p1, p2), (p1, d2)} = 1/2;
P (A2 ) = P {(p1, p2), (d1, p2)} = 1/2;
P (B) = P {(p1, d2), (d1, p2)} = 1/2;
P (A1 ∩ A2 ) = P {(p1, p2)} = 1/4 = P (A1 )P (A2 );
P (A1 ∩ B) = P {(p1, d2)} = 1/4 = P (A1 )P (B);
P (A2 ∩ B) = P {(d1, p2)} = 1/4 = P (A2 )P (B);
ma,
P (A1 ∩ A2 ∩ B) = 0 < P (A1 )P (A2 )P (B). Pertanto gli eventi A1 , A2 e B sono indipendenti a
coppie ma non indipendenti
Nota 5 Dati tre eventi, l’indipendenza a coppie non implica l’indipendenza dei tre eventi.
Esercizio 1.4.18 Siano D : “il dipendente è donna”, U : “il dipendente è uomo” , M : “il dipen-
dente ha la licenza media inferiore”, S : “il dipendente ha un diploma di scuola media superiore”
e L : “il dipendente è laureato”. Allora
P (D) = 0.30 e P (U ) = 0.70;
P (M | D) = 0.05, P (S | D) = 0.60 e P (L | D) = 0.35;
P (M | U ) = 0.15, P (S | U ) = 0.60 e P (L | U ) = 0.25.
1 Per la regola delle probabilità totali, P (L) = P (L | D)P (D) + P (L | U )P (U ) = 0.35 · 0.30 + 0.25 ·
0.70 = 0.28. Quindi, P (Lc ) = 1 − P (L) = 0.72;
2 P (D ∩ Lc ) = P (Lc | D)P (D) = (1 − 0.35)0.30 = 0.195;
3 Per il Teorema di Bayes: P (U | L) = P (L | U )P (U )/P (L) = 0.25 · 0.70/0.28 = 0.625;
4 Poichè P (L | D) = 0.35 > 0.28 = P (L), sesso e livello di istruzione non sono indipendenti.
Possiamo dire che c’è una concordanza positiva fra essere donna e laureato: sapendo che un
dipendente è donna è più probabile che sia laureato.
5 Diversamente da prima, se P (M | D) = 0.15, P (S | D) = 0.60 e P (L | D) = 0.25, allora
P (L) = P (L | D)P (D) + P (L | U )P (U ) = 0.25 · 0.30 + 0.25 · 0.70 = 0.25 = P (L | D)

P (S) = P (S | D)P (D) + P (S | U )P (U ) = 0.6 · 0.30 + 0.6 · 0.70 = 0.6 = P (S | D)
Possiamo concludere che con la nuova assegnazione di probabilità sesso e livello di istruzione sono
indipendenti.
Nota 6 Notate quindi che l’indipendenza è una proprietà della probabilità: se gli eventi sono
indipendenti rispetto a una funzione di probabilità P , non è detto che cambiando P gli eventi
restino indipendenti.
Per quanto riguarda invece la relazione fra indipendenza e incompatibilità, notate che ovvia-
mente gli eventi D e U di questo esercizio sono incompatibili, ma non indipendenti. Infatti:
P (D)P (U ) = 0.3 · 0.7 = 0.21 6= 0 = P (D ∩ U ).
Infine: l’evento impossibile ∅ è incompatibile e indipendente da qualunque altro evento. Verifica-
telo...
Esercizio 1.4.19
(1a) P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 0.5 + 0.4 − 0.65 = 0.25

(1b) P (A∆B) = P (A ∪ B) − P (A ∩ B) = 0.65 − 0.25 = 0.40
(2) 0.7 = P (A ∪ B) = P (A) + P (B) − P (A)P (B) = 2P (A) − P (A)2
√
sse P (A)2 − 2P (A) + 0.7 = 0, e l’unica soluzione ammissibile per la precedente è P (A) = 1 − 0.3.
3. NO! Infatti, dai dati del problema deriviamo soltanto che P (A∩B) = P (A∪B)−P (A∆B) =
0.7 − 0.5 = 0.2, da cui P (A) + P (B) = P (A ∪ B) + P (A ∩ B) = 0.9. Allora, ogni coppia di valori
per (P (A), P (B)) tali che 
P (A) + P (B) = 0.9

0.2 ≤ P (A) ≤ 0.7


0.2 ≤ P (B) ≤ 0.7
soddisfa le richieste “P (A ∪ B) = 0.7 e la probabilità che esattamente un libro sia in prestito è
0.5”.
Esercizio 1.4.20
1. Siano A = {Filiberto ottiene 3 teste nei primi 3 lanci} e B = {Filiberto sceglie una moneta equa},
allora P (B) = 3/5, P (B c ) = 2/5, P (A|B) = 1/8 e P (A|B c ) = 1. Dalla formula delle probabilità
totali otteniamo
19
P (A) = P (A|B)P (B) + P (A|B c )P (B c ) = = 0.475.
40
2. Sia C = {Filiberto ottiene testa nel quarto lancio}, allora
P (C ∩ A) P (C ∩ A|B)P (B) + P (C ∩ A|B c )P (B c )

P (C|A) = = =
P (A) P (A)
1 1 3
P (C|B)P (A|B)P (B) + P (C|B c )P (A|B c )P (B c ) 2 · 8 · 5 +0 3
= = 19 = ' 0.088,
P (A) 40
38
dove abbiamo utilizzato la formula delle probabilità totali ed il fatto che A e C sono indipendenti
condizionatamente a B (Filiberto è deluso).
3. Sia Q = {Filiberto ottiene 4 teste in 4 lanci}, allora la formula di Bayes afferma che
P (Q|B c )P (B c ) 1 · 25 32
P (B c |Q) = = 1 = ' 0.914.
P (Q) 16 · 35 + 1 · 2
5
35
Esercizio 1.4.21 Definiamo gli eventi T1 : “Tacito il primo giorno pesca una trota”, T2 : “Tacito
il secondo giorno pesca una trota”, O: “Tacito sceglie il Lago d’Oro” e A: “Tacito sceglie il Lago
d’Argento”. Dal testo si ha che P (O) = P (A) = 1/2, P (T1 |O) = 1, P (T1 |A) = 0.6 = 3/5.
1. Per la formula delle probabilità totali
1 3 1 4
P (T1 ) = P (T1 |O)P (O) + P (T1 |A)P (A) = 1 · + · = = 0.8.
2 5 2 5
2. Bisogna calcolare P (O|T1 ). Per la formula di Bayes
P (T1 |O)P (O) 1· 1 5

P (O|T1 ) = = 4 2 = = 0.625.
P (T1 ) 5
8
3. Bisogna calcolare P (T2 |T1 ). Utilizzando la definizione di probabilità condizionata e la

formula delle probabilità totali otteniamo
P (T1 ∩ T2 ) P (T1 ∩ T2 |O)P (O) + P (T1 ∩ T2 |A)P (A)

P (T2 |T1 ) = = =
P (T1 ) P (T1 )
2
1 · 21 + 53 · 1
2 17
= 4 = = 0.85.
5
20
Esercizio 1.4.22 Dobbiamo calcolare P (E|A ∩ B). Per la formula di Bayes si ha che:
P (A ∩ B|E)P (E)
P (E|A ∩ B) =
P (A ∩ B)
Notiamo che P (A ∩ B|E) corrisponde alla probabilità che Arturo e Bianca dicano la verità.
Dal momento che i comportamenti di Arturo e Bianca sono indipendenti, essi dicono la verità
indipendentemente l’uno dall’altra, perciò si ha che: P (A∩B|E) = P (A|E)P (B|E) = αβ. Quindi:
P (A ∩ B|E)P (E) αβp

P (E|A ∩ B) = =
P (A ∩ B) P (A ∩ B)
Calcoliamo ora P (A ∩ B) applicando la formula delle probabilità totali:
P (A ∩ B) = P (A ∩ B|E)P (E) + P (A ∩ B|E c )P (E c ) = αβp + P (A ∩ B|E c )P (E c )
Per calcolare P (A ∩ B|E c ) ragioniamo nel seguente modo.

Sappiamo che P (Ac |E c ) = α e P (B c |E c ) = β e dal momento che essi dicono la verità in modo
indipendente: P (Ac ∩ B c |E c ) = P (Ac |E c )P (B c |E c ). Quindi otteniamo:
P (A ∩ B|E c ) = 1 − P ((A ∩ B)c |E c ) = 1 − P (Ac ∪ B c |E c ) = 1 − P (Ac |E c ) − P (B c |E c ) + P (Ac ∩ B c |E c )

= 1 − α − β + αβ = (1 − α)(1 − β)
Questo ci permette di concludere che:
P (A ∩ B) = P (A ∩ B|E)P (E) + P (A ∩ B|E c )P (E c ) = αβp + (1 − α)(1 − β)(1 − p)

Infine:
αβp
P (E|A ∩ B) = .
αβp + (1 − α)(1 − β)(1 − p)
Sostituendo i valori numerici otteniamo:
(0.9)2 ∗ 10−3
P (E|A ∩ B) = = 0.075 :
(0.9)2 ∗ 10−3 + (0.1)2 ∗ (1 − 10−3 )
Nonostante Arturo e Bianca siano molto affidabili e affermino che E sia accaduto, la corte resta
scettica riguardo al fatto che E sia veramente accaduto: infatti 0.075 > 0.001 ma è ancora un
valore molto lontano da 1.
Esercizio 1.4.23 Sia S l’evento “Il sistema funziona”. Allora,
S = (1 ∩ 2 ∩ 5) ∪ (3 ∩ 4 ∩ 5) ∪ (6 ∩ 5) = [(1 ∩ 2) ∪ (3 ∩ 4) ∪ 6] ∩ 5
P (S) = P ((1 ∩ 2) ∪ (3 ∩ 4) ∪ 6)p
= p(p · p + p · p + p − p · p · p − p · p · p − p · p · p · p + p · p · p · p · p)
= p2 (1 + 2p − 2p2 − p3 + p4 ) = 0.779264.
Esercizio 1.4.24 1. La probabilità che il sistema S1
A1 A2 A3
funzioni è
P (“S1 funzioni”) = P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ) = 0.8 · 0.7 · 0.6 = 0.336
2. Calcoliamo la probabilità di funzionamento di S2 e S3 : S2 è formato da due sottosistemi in

parallelo, S10 ,S100 copie di S1 . Quindi
P (S2 ) = P (S10 ∪ S100 ) = 1 − P (S10c ∩ S100c ) = 1 − P (S10c )P (S100c ) = 1 − (1 − 0.336)2 = 0.559104
Per il sistema S3 vale quanto segue: sia D1 il sottosistema formato dai componenti in serie A2 , A3
e siano D2 , D3 due copie indipendenti di D1 . Allora, la probabilità di funzionamento di D1 , D2 , D3
è 0.7 · 0.6 = 0.42. Pertanto il sottosistema ottenuto mettendo in parallelo D1 , D2 , D3 funziona con
probabilità pari a
P (D1 ∪ D2 ∪ D3 ) = 1 − P (D1c ∩ D2c ∩ D3c ) = 1 − P (D1c )P (D2c )P (D3c ) = 1 − 0.583 = 0.804888
Segue che P (S3 ) = P (A1 ∩ (D1 ∪ D2 ∪ D3 )) = P (A1 )P (D1 ∪ D2 ∪ D3 ) = 0.8 · 0.804888 = 0.6439104:
la soluzione S3 è preferibile alla S2 .
Capitolo 2
Variabili aleatorie
2.1 Variabili aleatorie

2.2 Variabili aleatorie discrete
Esercizio 2.2.1 (Esercizio 14 pag. 168 in [9]) Conque numeri distinti vengono assegnati a
caso ai cinque giocatori A, B, C, D, E. Quando due giocatori confrontano i propri numeri, vince
chi ha il numero più grande. Inizialmente, i giocatori A e B confrontano i propri numeri; il vincitore
allora confronta il suo numero con il giocatore C, e cosı̀ via. Denotiamo con X il numero di volte
che il giocatore A vince. Determinate la densità di X. [risp: X assume valori in {0, 1, 2, 3, 4} e
pX (0) = 1/2, pX (1) = 1/6, pX (2) = 1/12, pX (3) = 1/20, pX (4) = 1/5]
Esercizio 2.2.2 (II recupero CP Ing. Mat. aa. 2002-03) La funzione di ripartizione della
variabile aleatoria X è definita come segue:


 0 x<0



 0≤x<1
1/2
F (x) = 2/3 1≤x<2



 11/12 2 ≤ x < 3


1 3≤x
(1) Quanto vale P (X > 1/2)?
(2) Quanto vale P (2 < X ≤ 4)?
(3) Quanto vale P (2 ≤ X ≤ 4)?
(4) Quanto vale P (X < 3)?
(5) Determinare la densità di X.
Esercizio 2.2.3 Una sorgente di informazioni genera casualmente i simboli ♥, ♦, ♣, ♠ con pro-
babilità: P (♥) = 1/2, P (♦) = 1/4, P (♣) = P (♠) = 1/8. Uno schema di codifica trasforma i
simboli in codici binari nel modo seguente:
♥ 7−→ 0 ♦ 7−→ 10 ♣ 7−→ 110 ♠ 7−→ 111.
Sia X = “bit del codice”. Calcolare:
1) la densità di X; 2) la funzione di ripartizione FX (x); 3) P (X ≤ 1); 4) P (1 < X ≤ 2);
5) P (X > 1); 6) P (1 ≤ X ≤ 2)
Esercizio 2.2.4 Lanciamo contemporaneamente due dadi regolari. Sia X il punteggio minimo
che si ottiene fra i due.
(1) Qual è la densità di X?
(2) Qual è la f.d.r. di X?
21
22 CAPITOLO 2. VARIABILI ALEATORIE
2.3 Esempi di densità discrete notevoli

2.3.1 Densità bernoulliana, binomiale, geometrica
Esercizio 2.3.1 Si consideri un sistema elettronico composto da n = 10 componenti che funziona
se e solo se almeno k = 2 componenti su 10 funzionano. Si supponga inoltre che tutti i componenti
abbiano la stessa affidabilità p = 0.05 e che funzionino indipendentemente uno dall’altro. Qual è
l’affidabilità del sistema testé descritto?
Esercizio 2.3.2 Un canale di comunicazione trasmette le cifre 0 e 1. Se la cifra trasmessa è

0, la cifra viene correttamente ricevuta con probabilità 0.99; invece, se è stato trasmesso 1, con
probabilità 0.05 viene erroneamente ricevuto 0.
(1) Se l’80% di cifre trasmesse è 1, qual è la probabilità di un’errata ricezione?
(2) Si calcoli la probabilità che su 30 cifre trasmesse si verifichino più di 3 errori.
Esercizio 2.3.3 Un test a risposta multipla è costituito da 10 domande, a ognuna delle quali
sono abbinate 4 possibili risposte di cui soltanto 1 corretta. Uno studente impreparato sceglie a
caso una risposta per domanda.
(1) Determinare la densità di probabilità della variabile aleatoria indicante il numero di risposte
corrette.
(2) Per superare il test uno studente deve rispondere correttamente ad almeno 5 domande su
10. Qual è la probabilità che uno studente impreparato superi il test?
Esercizio 2.3.4 (Esame CP INF 02/05/02) Armando vuole giocare alla roulette puntando
sul rosso 1 a puntata. Sapendo che la probabilità di vincere puntando sul rosso in una roulette
non truccata è pari a 18/37,
(1) calcolare la probabilità che Armando vinca per la prima volta alla quinta partita.
(2) Se Armando gioca 10 partite, calcolare la probabilità che ne abbia vinte almeno due.
(3) Osservando che ogni volta che vince, vince 1 ed ogni volta che perde, perde 1 , qual è
la probabilità che alla fine delle 10 partite il capitale di Armando sia aumentato di 2 ?
Esercizio 2.3.5 Due urne A e B sono inizialmente vuote. Esse vengono poi riempite con 12
palline che vengono messe, una dopo l’altra, in una delle urne, scelta a caso ogni volta.
(1) Qual è la probabilità che l’urna B sia vuota?
(2) Qual è la probabilità che le due urne posseggano lo stesso numero di palline?
(3) Qual è la probabilità che nessuna delle due urne sia vuota?
Esercizio 2.3.6 La probabilità di vincere giocando a una slot machine è p = 0.1.

(1) Se si effettuano 10 giocate, qual è la probabilità di vincere 6 volte?
(2) Se si continua a giocare finché non si vince, qual è la probabilità di ottenere la prima
vittoria alla decima giocata?
(3) Se sulle prime cinque giocate non si è riportata nessuna vittoria, qual è la probabilità che
si vinca alla sesta giocata?
(4) Se si riportano 6 vittorie su 10, qual è la probabilità di vincere nelle prime 6 giocate?
Esercizio 2.3.7 Una moneta irregolare con probabilità di testa p = 1/6 viene lanciata tante volte
finché non compare testa. Dato che testa non appare al primo lancio, qual è la probabilità che
siano necessari più di 4 lanci?
Esercizio 2.3.8 (Esame CP INF; Recupero del 06/09/02) Un’indagine statistica ha rive-
lato che il 15% degli abitanti di una certa città fa l’elemosina ai mendicanti che vede sul marcia-
piede. Passano 20 persone davanti ad un mendicante.
1. Qual è la probabilità che il mendicante riceva elemosina da almeno 3 di esse? [risp: 0.595]
2.3. ESEMPI DI DENSITÀ DISCRETE NOTEVOLI 23
2. Quante persone al minimo devono passare davanti al mendicante perchè con probabilità
superiore a 0.5 gli venga fatta almeno un’elemosina?[risp: almeno 5]
3. Supposto che ogni persona che fa l’elemosina dia 50 centesimi di euro, quante persone devono
passare perché il mendicante ottenga, in media, 3 euro di elemosina prima di andarsene?
[risp: 40]
Esercizio 2.3.9 In una sala da gioco ci sono due slot machine A e B. Se gioco alla slot machine
A, ad ogni giocata la probabilità di vincere è 0.45.
1. Se gioco alla slot machine A finchè non vinco, quanto vale la probabilità di non vincere nelle
prime 9 giocate? [risp: 0.559 ]
2. Se gioco alla slot machine A finchè non vinco, quanto vale la probabilità di dover giocare
almeno 12 volte per registrare la prima vittoria, sapendo che nelle prime due giocate non ho vinto?
[risp: 0.559 ]
Se invece gioco alla slot machine B, ad ogni giocata la probabilità di vincere è 0.55. Inoltre,
all’inizio del gioco, scelgo a caso fra A e B e poi gioco sempre con la stessa slot machine.
3. Quanto vale la probabilità di non vincere nelle prime 9 giocate? [(0.559 + 0.459)/2 ' 0.0027]
4. Quanto vale la probabilità di dover giocare almeno 12 volte per registrare la prima vittoria,
sapendo che nelle prime due giocate non ho vinto? [(0.5511 + 0.4511 )/(0.552 + 0.452 ) 6= (0.559 +
0.459 )/2 (RIFLETTETE!!!)]
2.3.2 Densità di Poisson come limite di densità binomiale

Esercizio 2.3.10 Il numero di errori di battitura per cartella commessi da una segretaria si può
supporre essere una variabile aleatoria con densità di Poisson di parametro λ = 2.3.
(1) Calcolare la probabilità che ci siano almeno due errori in una data cartella.
(2) Quanto dovrebbe valere il parametro λ affinché la probabilità che in una cartella non ci
siano errori sia superiore a 0.5?
Esercizio 2.3.11 Se partecipo a 180 concorsi diversi (e indipendenti), in ciascuno dei quali si
vince un solo premio e per ciascuno dei quali la probabilità di vincere il premio è 0.008, quanto
vale (approssimativamente) la probabilità
(1) di vincere il premio di un solo concorso,
(2) di vincere almeno un premio,
(3) di vincere 30 premi?
Esercizio 2.3.12 Il numero di automobili che un concessionario vende giornalmente si può mo-
delizzare mediante una variabile aleatoria di Poisson di parametro λ = 1.
(1) Quanto vale la probabilità che il concessionario venda al giorno almeno una macchina?
[1 − e−1 ]
(2) Se il numero di automobili vendute in giorni diversi sono indipendenti, quanto vale la
probabilità che trascorrano 7 giorni consecutivi senza che il venditore venda automobili e che poi
all’ottavo giorno venda almeno una macchina? [e−7 (1 − e−1 ) ' 0.0005764]
Esercizio 2.3.13 (II Recupero CP TEL 18/09/03) Nel gioco del lotto, ad ogni estrazione,
per ogni ruota, si estraggono senza reimmissione 5 palline da un pallottoliere che ne contiene 90
numerate da 1 a 90.
(1) Dimostrate che ad ogni estrazione la probabilità di fare ambo giocando i numeri 80,90 sulla
ruota di Bari è pari a 2/801.
(2) Quanto vale la probabilità che sia necessario giocare esattamente 600 giornate per fare
ambo (per la prima volta) puntando sui numeri 80,90 sulla ruota di Bari?
(3) Dall’inizio dell’anno Marco sta puntando sull’ambo 80,90 sulla ruota di Bari, ogni mercoledı̀
e sabato, per un totale ad oggi di 72 giornate. Sapendo che dall’inizio dell’anno l’ambo non è ancora
uscito, quanto vale la probabilità che esca per la prima volta alla 672-esima giornata?
(4) Diversamente, Matteo ha deciso di giocare per 1000 giornate puntando sempre sullo stesso
ambo 80,90 sulla ruota di Bari. Quanto vale approssimativamente la probabilità che Matteo faccia
ambo almeno 2 volte?
2.3.3 Densità ipergeometrica

Esercizio 2.3.14 Il 5% di un lotto di 100 fusibili è soggetto a controllo casuale prima di essere
immesso sul mercato. Se un fusibile non brucia ad un determinato amperaggio l’intero lotto viene
mandato indietro. In realtà, il lotto contiene 10 fusibili difettosi.
1. Qual è la probabilità che il lotto sia rispedito indietro?
2. Un compratore temendo che la percentuale di difettosi sia elevata decide di controllare
il lotto finché non trova i difettosi. Qual è la probabilità che sia necessario controllare più di un
pezzo per scoprire il pezzo difettoso?
3. Se il primo fusibile è funzionante, qual è la probabilità che sia necessario controllare più
di 2 fusibili per scoprire un fusibile difettoso?
Esercizio 2.3.15 Al buio cerco la chiave del mio ufficio in un mazzo di 10 chiavi tutte della stessa
fattura. Ovviamente metto da parte le chiavi provate. Sia X il numero di chiavi che devo provare
per trovare la chiave giusta.
(1) Quanto vale la probabilità di controllare almeno 8 chiavi?
(2) Qual è la f.d.r. di X?
(3) Qual è la densità di probabilità di X?
(4) Se anche il secondo tentativo è fallito, quanto vale la probabilità di trovare la chiave giusta
al quarto tentativo? [Risp:1/8]
(5) Come cambiano le risposte ai punti precedenti se, stupidamente non metto da parte le
chiavi già provate prima di procedere a provarne una nuova?
Esercizio 2.3.16 (Dall’esercitazione del 09/10/03 della dott.ssa G. Guatteri) 1 In una

città ci sono 8 stazioni di rifornimento, di cui 3 sono self-service. Un automobilista ne sceglie a
caso una per 5 giorni consecutivi, ogni giorno in modo indipendente dagli altri giorni.
(1) Calcolare la probabilità che faccia rifornimento in un self- service il secondo giorno.
(2) Calcolare la probabilità che capiti in un self-service esattamente 2 volte.
(3) Calcolare la probabilità degli eventi ai punti 1. e 2. supponendo però che l’automobilista
non faccia mai rifornimento due volte nella stessa stazione.
2.4 Variabili aleatorie assolutamente continue

Esercizio 2.4.1 La variabile aleatoria X ha fdr


0 x≤0
FX (x) = x2 0<x<1


1 x≥1
X è assolutamente continua? Perché? Se si, qual è la sua densità fX ?
Esercizio 2.4.2 Sia X una variabile aleatoria assolutamente continua con densità di probabilità

 x
 25 0<x<5
x
fX (x) = − 25 + 25 5 < x < 10


0 altrove
(1) Determinate la funzione di ripartizione FX di X.

(2) Calcolate P (2 ≤ X ≤ 9) usando FX .
1 http://www1.mate.polimi.it/∼guatteri/
2.4. VARIABILI ALEATORIE ASSOLUTAMENTE CONTINUE 25
Esercizio 2.4.3 (CP, INF I prova in itinere, 02/05/02) Sia X una variabile aleatoria asso-
lutamente continua con densità
(
4x3 se x ∈ (0, 1)
fX (x) :=
0 se x 6∈ (0, 1).
(1) Calcolare la funzione di ripartizione FX di X.

(2) Calcolare P (−0.5 < X ≤ 0.5).
Esercizio 2.4.4 Verificate se le seguenti funzioni f sono funzioni di densità di probabilità. In

caso positivo
(1) determinate la corrispondente funzione di ripartizione F ;
(2) media e varianza (se esistono).
θ
( 
 2 0≤x<1
2

1
3x x ∈ (0, 1) 2 1≤x<2
(a) f (x) = (b) f (x) = 1−θ
0 altrove 
 2≤x<3

 2
0 altrove, θ ∈ [0, 1].
( (
1
−1 x ∈ (0, 1) b−a x ∈ (a, b)
(c) f (x) = (d) f (x) =
0 altrove 0 altrove

 (
x 0<x<1 1
x>0
(e) f (x) = 3 − x 2 < x < 3 (f ) f (x) = x

 0 altrove
0 altrove
( (
1
2 x≥1 4x3 0<x<2
(g) f (x) = x (h) f (x) =
0 altrove 0 altrove
Esercizio 2.4.5 (Esercizio 3 pag. 92 in [7]) Trovate la costante k tale che la funzione che
segue sia una funzione di densità:
f (x) = kx2 1(−k,k) (x)
Esercizio 2.4.6 (Esame MPSPS 14/04/2000 (VO)) Si consideri la funzione

( 2
kxe−x se x ≥ 0
f (x) =
0 se x < 0.
1. Determinare la costante k per cui f è la densità di una variabile aleatoria X.

2. Calcolare P (X ≤ 1) e P (X < 1).
Esercizio 2.4.7 In base all’orario ufficiale delle Ferrovie dello Stato il treno Lecco-Milano delle
ore 14.45 arriva nella stazione di Milano Centrale alle ore 15.30. Ma qualche volta subisce ritardi. Il
ritardo espresso in ore può essere modellato come una variabile aleatoria X assolutamente continua
con densità uniforme sull’intervallo [0, 1].
1. Qual è la probabilità che il treno arrivi dopo le ore 15.33?
2. Qual è la probabilità che il treno abbia al più 5 minuti di ritardo sull’orario previsto?
3. Qual è la probabilità che il treno subisca un ritardo fra i 6 e gli 11 minuti sull’orario previsto?
Esercizio 2.4.8 Sia Y una variabile aleatoria assolutamente continua con densità fY (y) = 2y1(0,1) (y).
Qual è la probabilità che l’equazione (in x) x2 + 40Y x + 360Y − 32 = 0 non ammetta soluzioni
reali?
Esercizio 2.4.9 Il tempo (in ore) impiegato dal tecnico A del centro di assistenza xxx per riparare
una certa apparecchiatura ha densità esponenziale di parametro λ = 0.5.
(1) Qual è la probabilità che siano necessarie ad A più di 2 ore per riparare l’apparecchiatura?
(2) Qual è la probabilità che A abbia bisogno di almeno 11 ore per effettuare la riparazione,
dato che ci lavora già da almeno 9?
In realtà al centro di assistenza xxx c’è anche un secondo tecnico B e il tempo (in ore) che B
impiega per la riparazione ha densità esponenziale di parametro λ = 0.6. Inoltre, quando arriva
un’apparecchiatura da riparare, si sceglie a caso fra A e B.
(3) Qual è la probabilità che in quel centro di assistenza siano necessarie più di 2 ore per
riparare l’apparecchiatura?
(4) Qual è la probabilità che nel centro di assistenza xxx si impieghino almeno 11 ore per la
riparazione, dato che la durata della riparazione supera le 9 ore?
Esercizio 2.4.10 (Esercizio 5 pag. 222 in [9]) Un benzinaio è rifornito di gasolio una volta
la settimana. Se la sua vendita settimanale in migliaia di litri è una variabile aleatoria con densità
f (x) = 5(1 − x)4 1(0,1) (x)
quale deve essere la capacità del serbatoio affinché la probabilità che il gasolio sia esaurito in una
settimana sia pari a 0.01? [risp: k t.c. P (X > k) = 0.01 =⇒ k = 1 − 0.011/5 ]
Esercizio 2.4.11 (CP TEL 06/09/05 Esercizio 3) Una cisterna d’acqua viene riempita una
volta alla settimana con k ettolitri d’acqua. La quantita d’acqua prelevata dalla cisterna (sempre
misurata in ettolitri) in una settimana può essere modellata mediante una variabile aleatoria X
assolutamente continua con densità
(
a a−1
a (1000 − x) se 0 < x < 1000
f (x) = 1000
0 altrimenti, a > 0
1. Determinare a in modo tale che la richiesta media in una settimana sia di 750 ettolitri.
2. Determinare la funzione di ripartizione di X.
3. Determinare la capacità k della cisterna affinché la probabilità che la cisterna esaurisca

l’acqua durante la settimana sia 0.1.
Esercizio 2.4.12 (Esempio pag. in [9]) Il tempo di vita di un dato tipo di pile per radio è
100
una variabile aleatoria assolutamente continua con densità fX (x) = 2 1(100,+∞) (x).
x
1. Calcolate la probabilità che una pila della radio debba essere sostituita entro le 150 ore di
attività. [risp: 1/3]
2. Determinate FX
3. Una radio per funzionare ha bisogno di cinque pile. Se le pile funzionano in modo indipen-
dente, qual è la probabilità che esattamente due pile su cinque debbano essere sostituite entro le
150 ore di attività? [risp: 80/243]
2.5 Funzioni di variabili aleatorie

2.5.1 Funzioni di variabili aleatorie discrete
Esercizio 2.5.1 Sia X una variabile aleatoria geometrica di parametro p = 1/3.
1. Qual è la densità di Z = max(3, X)?
2. Qual è la densità di Y = min(3, X)?
2.5. FUNZIONI DI VARIABILI ALEATORIE 27
Esercizio 2.5.2
1. Lanciando n = 10 volte una moneta equilibrata, qual è la probabilità che la differenza in
valore assoluto tra numero di teste e numero di croci ottenute sia 4?
Sia X la variabile aleatoria che indica la differenza in valore assoluto tra numero di teste e
numero di croci (sempre ottenute lanciando n = 10 volte la moneta equilibrata).
2. determinate la densità di X.
2.5.2 Funzioni di variabili aleatorie assolutamente continue

Esercizio 2.5.3 Se X è una variabile aleatoria tale che
(
1 se x < 1
P (X > x) =
x−λ se x ≥ 1 λ>0
qual è la funzione di ripartizione di Y = log X? Qual è la sua densità?
Esercizio 2.5.4 Se X è una variabile aleatoria assolutamente continua con densità uniforme su
(−π/2, π/2), qual è la funzione di ripartizione di Y = tan X. Qual è la sua densità? La variabile
aleatoria Y ammette media?
Esercizio 2.5.5 (densità di Weibull) Sia X ∼ E(λ) e Y = X 1/α con α > 0.

1. Qual è la densità di probabilità di Y ?
2. Calcolate P (Y > t + s | Y > s) e stabilite per quali valori di α e λ questa funzione è
crescente in s. Per quali è decrescente?
3. Quali valori di α e λ scegliereste per modellare con Y il tempo di rottura di un’apparec-
chiatura soggetta ad usura?
Esercizio 2.5.6 Sia U ∼ U(0, 1). Determinate le funzioni di densità delle seguenti variabili
aleatorie:
1. Y1 = U − 1/2
2. Y2 = |U − 1/2|
3. Y3 = (U − 1/2)2
4. Y4 = 1/(U + 1/2)
log(U )
5. Y5 = − dove λ > 0.
λ
Esercizio 2.5.7 Sia X ∼ E(λ) e Y = [X] + 1, dove g(x) = [x] rappresenta la parte intera di x.
Determinate la densità di Y . [Risp: Y è va discreta geometrica di parametro (1 − e−λ )]
Esercizio 2.5.8 Sia X ∼ U (0, 1) e Y = [nX] + 1, dove g(x) = [x] rappresenta la parte intera di
x. Determinate la densità di Y . [Risp: Y è va discreta uniforme su {1, . . . , n}]
Esercizio 2.5.9 (CP ELN INF 12/07/04 Esercizio 2.4) Il tempo di vita (espresso in ore) di
un motore elettrico, ancora in rodaggio, può essere rappresentato dalla variabile aleatoria T = X 4 ,
con X variabile aleatoria esponenziale di parametro 0.25.
1. Determinare la densità di T .
2. Sapendo che il motore è ancora funzionante dopo 192 ore, calcolare la probabilità che funzioni
nelle successive 50 ore.

Esercizio 2.2.2
(1) P (X > 1/2) = 1 − P (X ≤ 1/2) = 1 − F (1/2) = 1/2.
(2) P (2 < X ≤ 4) = F (4) − F (2) = 1 − 11/12 = 1/12.
(3) P (2 ≤ X ≤ 4) = P (1 < X ≤ 4) = F (4) − F (1) = 1/3
(4) P (X < 3) = F (2) = 11/12.
(5) Indicata con p la densità di X, vale p(0) = 1/2, p(1) = 1/6, p(2) = 1/4, p(3) = 1/12 e
p(x) = 0 per ogni altro x.
Esercizio 2.2.3
1. X assume solo tre valori: {1, 2, 3}. Si ha:
1
P (X = 1) = P (♥) =
2
1
P (X = 2) = P (♦) =
4
1 1 1
P (X = 3) = P (♣ oppure ♠) = P (♣) + P (♠) = + =
8 8 4
P (X = k) = 0 se x 6∈ {1, 2, 3}.
2.

0


x<1
P (X = 1) = 1 1≤x<2
FX (x) = P (X ≤ x) = 2
P (X = 1) + P (X = 2) = 3

 4 2≤x<3

1 x ≥ 3.
3. P (X ≤ 1) = FX (1) = 1/2.
4. P (1 < X ≤ 2) = FX (2) − FX (1) = 3/4 − 1/2 = 1/4.
5. P (X > 1) = 1 − FX (1) = 1 − 1/2 = 1/2
6. P (1 ≤ X ≤ 2) = FX (2) − FX (1) + P (X = 1) = 3/4 − 1/2 + 1/2 = 3/4.
Esercizio 2.2.4 X è definita sullo spazio campionario Ω = {ω = (i, j) : i, j = 1 . . . 6} con

|Ω| = 36 e P ({ω}) = 1/36 ∀ω. Le modalità di X sono 1, . . . , 6. Inoltre:
{X = 6} = {(i, j) : i ∧ j = 6} = {(6, 6)}

{X = 5} = {(i, j) : i ∧ j = 5} = {(5, 5), (5, 6), (6, 5)}
{X = 4} = {(i, j) : i ∧ j = 4} = {(4, 4), (4, 5), (4, 6), (6, 4), (5, 4)}
{X = 3} = {(i, j) : i ∧ j = 3} = {(3, 3), (3, 4), (3, 5), (3, 6), (6, 3), (5, 3), (4, 3)}
{X = 2} = {(i, j) : i ∧ j = 2} = {(2, 2)(2, 3), (2, 4), (2, 5), (2, 6), (6, 2), (5, 2), (4, 2), (3, 2)}
Segue che

  0 x<1
 1
P (X = 6) = 36 k =6 
 11

 
 1≤x<2

 3 
 36

 P (X = 5) = 36 k =5 
 20

P (X = 4) = 5 
 36 2≤x<3
k =4
pX (k) = 36
7
e FX (x) = 27
36 3≤x<4

 P (X = 3) = k =3 


 36 
 32
4≤x<5

 9
P (X = 2) = 36 k =2 
 36

 P5 
 35
5≤x<6
 11 

1 − j=1 pX (j) = 36 k =1  36
1 x≥6
Esercizio 2.3.1 Indicata con X la variabile aleatoria che conta il numero di componenti funzio-
nanti su 10, allora X ha densità binomiale di parametri p = 0.05 e n = 10. Pertanto,
= P {“il sistema funziona} = P {“almeno 2 componenti su 10 funzionano”}

= 1 − P {“al più 1 componente su 10 funziona”} = 1 − P (X ≤ 1)
' 1 − (1 − 0.05)10 − 10 · 0.05 · 0.959 ≈ 0.0861
Esercizio 2.3.2 Siano Ti = “la cifra trasmessa è i” i = 0, 1 e Ri = “la cifra ricevuta è i”. Allora,
P (R0 | T0 ) = 0.99 ⇔ P (R1 | T0 ) = 0.01

P (R0 | T1 ) = 0.05 ⇔ P (R1 | T1 ) = 0.95
e P (T1 ) = 0.8.
(1) P (“errata ricezione”) = P (R0 ∩ T1 ) + P (R1 ∩ T0 ) = P (R0 |T1 )P (T1 ) + P (R1 |T0 )P (T0 )
= 0.05 · 0.8 + 0.01 · 0.2 = 42/1000 = 0.042(:= p).
Introduciamo ora la variabile aleatoria X che descrive il numero di errori su 30 cifre trasmesse con
la probabilità di errore ad ogni trasmissione pari a 0.042. Allora X ∼ Bi(30, 0.042) e
P (“Su 30 cifre trasmesse si verificano più di 3 errori”) = P (X > 3) = 1 − P (X ≤ 3)

30 30 30 30
=1− 0.95830 − 0.042 · 0.95829 − 0.0422 · 0.95828 − 0.0423 · 0.95827 = 0.03568
0 1 2 3
Esercizio 2.3.3 Posto Ω = {0, 1}10, (cioè caso elementare=ω = (a1 , . . . , a10 )), allora X = #
risposte corrette su 10 è la seguente funzione: X(ω) = a1 + . . . + a10 ; ∀ω ∈ {0, 1}10, X(ω) ∈
{0, 1, . . . , 10} e p(k) := P (X = k) = P {(a1 , . . . , a10 ) : a1 + . . . + a10 = k}. Poiché lo studente
10−k
sceglie a caso, abbiamo P ({(1, . . . , 1, 0, . . . , 0 )} = 3 410 = P {(a1 , . . . , a10 )} ∀(a1 , . . . , a10 ) avente
| {z } | {z }
k volte 10−k volte
1 k 3 10−k
k componenti = 1 e le rimanenti =0. Quindi, p(k) = 10 k 4 4 , cioè X è una variabile
aleatoria binomiale (X ∼ Bi(10, 1/4)).
P10 1 k 3 10−k
P (“uno studente impreparato supera il test”) = P (X ≥ 5) = k=5 10 k 4 4 ≈ 0.07813 ≈
7.8%.
Esercizio 2.3.4
(1) Sia X il numero di partite, inclusa l’ultima, necessarie per osservare una vittoria. Allora
X è una variabile geometrica di parametro 18/37 e si ha
5−1
18 18 2345778
P (X = 5) = 1− = ' 0.034.
37 37 69343957
(2) Sia Y il numero di partite vinte da Armando in una sequenza di 10 partite. Allora Y ∼
Bi(10, 18/37), quindi
1
X k
10−k
10 18
18
P (Y ≥ 2) = 1 − P (Y < 2) = 1 − 1− =
k 37 37
k=0
10 9
19 18 19 4744369520559828
=1− − 10 · = ' 0.9866.
37 37 37 4808584372417849
(3) Il capitale viene incrementato di 2 se il numero di vincite è 6, cioè supera di 2 il numero
delle perdite. Quindi la probabilità richiesta è
6 4
10 18 18
P (Y = 6) = 1− = 0.1936
6 37 37
Esercizio 2.3.5 Detta X la variabile aleatoria che conta il numero di palline poste in B, poichè
per ogni pallina scelgoa a caso l’urna, dove riporla, allora X ∼ Bi(12, 1/2) e
1. P (B vuota) = P (X = 0) = 0.512 ; 12
2.P (“due urne posseggano lo stesso numero di palline”) = P (X = 6) = 10 6 0.5 ;
3. P (“nessuna delle due urne sia vuota”) = P (1 ≤ X ≤ 11) = 1 − P (X ∈ {0, 12}) =
1 − 0.52 − 0.52 = 1 − 0.511 .
Esercizio 2.3.6 Se la slot machine non è truccata, possiamo assumere che le 10 prove –consistenti
in 10 giocate distinte– si svolgano indipendentemente le une dalle altre; ciascuna prova è dicotomica
(si vince o si perde) e la probabilità di successo è la stessa in entrambe le prove e pari a p = 0.1.
1. Quindi, la variabile aleatoria X che conta il numero di vittorie su 10 giocate ha densità
binomiale di parametri n = 10 e p = 0.1. La risposta al punto 1. è P (X = 6) = 10 6 0.1 6
× 0.94 ≈
0.00014.
2. La variabile aleatoria T che rappresenta il numero di giocate necessarie per riportare la
prima vittoria ha densità geometrica di parametro p = 0.1: P (T = 10) = 0.1 × 0.99 = 0.03874.
3. La probabilità da calcolare è P (T = 6|T > 5) = P (“alla sesta giocata vinco”) = 0.1.
P ({(1, . . . , 1, 0, . . . , 0)} ∩ A6 )
| {z }
6 volte p6 (1 − p)10−6 1
(4) P ({(1, . . . , 1, 0, . . . , 0)} | A6 ) = =
10 6 = 10
,
| {z } P (A6 ) 10−6
6 p (1 − p) 6
6 volte
dove A6 := “Un giocatore vince 6 volte su 10” = {(x1 , . . . , x10 ) ∈ Ω : x1 + . . . + x10 = 6}. Il
risultato non sarebbe cambiato se la domanda fosse stata: “Se si riportano 6 vittorie su 10, qual
è la probabilità di vincere alle giocate s1 -esima, ..., s6 -esima?”.
Esercizio 2.3.7 Se lanciamo la moneta irregolare finchè non compare testa per la prima volta,
stiamo eseguendo una successione di prove bernoulliane, con probabilità di successo nella singola
prova pari a p = 1/6. Quindi la variabile aleatoria X che conta il numero di prove necessarie per
ottenere per la prima volta testa ha densità geometrica di parametro 1/6, ovvero:

 5 k−1 1
6 6 k = 1, . . . .
pX (k) =
0 altrove
quindi
k
X
FX (k) = P (X ≤ k) = p(1 − p)x−1 = 1 − (1 − p)k ∀k = 1, . . .
x=1
da cui
P (X > k) = (1 − p)k ∀k = 1, . . .
Dalla proprietà di assenza di memoria della densità geometrica (cioè P (X > k + r|X > k) =
P (X > r), ∀k = 1, 2 . . . , ∀r = 1, 2, . . . otteniamo P (“Sono necessari più di 4 lanci“ posto che “il
6 non appare al primo lancio”) = P (X > 4 | X > 1) = P (X > 1 + 3 | X > 1) = P (X > 3) =
3
5
6 ' 0.5787
Esercizio 2.3.10
1. P (X ≥ 2) = 1 − P (X = 0) − P (X = 1) = 1 − e−λ − λe−λ = 0.6691.
2. Ora, il parametro λ è incognito e devo determinarlo in modo tale che risulti:
1 1
P (X = 0) = e−λ > ⇐⇒ −λ > log = − log(2) ⇐⇒ λ < log 2 = 0.6931.
2 2
Esercizio 2.3.11 Posso ipotizzare i concorsi indipendenti, cosı̀ che, detta X la variabile aleatoria
che conta il numero di premi vinti su 180 concorsi, allora X ∼ Bi(180, 0.008). Essendo la proba-
bilità di successo piccola e il numero dei concorsi a cui partecipo grande, allora, nei calcoli posso
approssimare la densità Bi(180, 0.008) con la densità di Poisson P(180 · 0.008) = P(1.44). Quindi
1. P (di vincere il premio di un solo concorso) = P (X = 1) = 180 · 0.008 · 0.992179 =
0.3419415 ≈ 0.341176 = e−1.44 · 1.44.
2. P (di vincere almeno un premio) = P (X ≥ 1) = 1 − P (X = 0) = 1 − 0.008180 = 0.7644403
30
3. P (di vincere 30 premi) = P (X = 30) = 180 30
· 0.992150 ≈ e 30!1.44
−1.44
30 0.008
Esercizio 2.3.13 Siamo interessati all’evento A=“Esce l’ambo 80, 90 sulla ruota di Bari”.
(1) Ad ogni estrazione abbiamo

2 88
2 2
P (A) = 90
3 = ' 0.002497
5
801
poichè ad ogni estrazione e per ogni ruota si procede ad estrarre 5 palline senza reimmmissione.
Poichè ad ogni estrazione si usa la stezza urna con 90 palline numerate da 1 a 90 e per ogni
ruota si procede ad estrarre 5 palline senza reimmmissione, allora la successione delle estrazioni
del lotto sulla ruota di Bari costituiscono una successione di prove bernoulliane, con probabilità
di successo nella singola prova data da P (A) = 2/801.
(2) Sia ora X la variabile aleatoria che conta il numero di estrazioni necessarie per ottenere
l’ambo 80,90 per la prima volta sulla ruota di Bari. X ha densità geometrica di parametro 2/801
e quindi
P (“esattamente 600 giornate per fare ambo (per la prima volta) puntando sui numeri 80,90
sulla ruota di Bari”)=P (X = 600) = (2/801) (1 − 2/801)599 ' 0.00056.
(3) Per la proprietà di assenza di memoria della densità geometrica
P (X = 672|X > 72) = P (X = 672 − 72) = P (X = 600) ' 0.00056
(4) Sia ora Y la variabile aleatoria che conta il numero di volte in cui esce l’ambo 80,90 sulla
ruota di Bari, su 1000 estrazioni. Allora Y ∼ Bin(1000, 2/801) e
P (“Matteo fa ambo almeno 2 volte su 1000”) = P (Y ≥ 2) = 1 − P (Y = 0) − P (Y = 1) '

e−2000/801 (2000/801)0 e−2000/801 (2000/801)1
'1− − ' 0.71206,
0! 1!
dove è stato usato il fatto che essendo il numero delle estrazioni “grande” e la probabilità di
successo “piccola”, la densità binomiale Bin(1000, 2/801) può essere approssimata con la densità
di Poisson di parametro 2000/801.
Esercizio 2.3.14 Il lotto è rispedito indietro se almeno un fusibile sui 5 (= 5% dei 100) scelti
a caso per il controllo non brucia ad un determinato amperaggio. I 5 fusibili da controllare
sono estratti senza reimmissione dal lotto di 100 pezzi costituito da 90 fusibili funzionanti e 10
difettosi. Pertanto, la variabile aleatoria X che conta il numero di fusibili difettosi su 5 ha densità
ipergeometrica di parametri (10, 100, 5):
10
90
k 5−k
P (X = k) = 100
k = 0, . . . , 5
5

10 90

0
e P (“il lotto è rispedito indietro”) = P (X ≥ 1) = 1 − P (X = 0) = 1 − 100
5 = 0.4162.
5
Sia Y il numero di pezzi difettosi da controllare per scoprire un primo pezzo difettoso. Allora
Y > k se e solo se i primi k pezzi controllati sono tutti funzionanti, da cui:
P (Y > k) = P (“si estrae una successione di k fusibili senza reimmissione tutti funzionanti”)
 90
 ( k ) k = 1, . . . , 90
100
= (k)
0 altrove
Segue che
90
2. P (Y > 1) = 100 = 0.9.
3. Dobbiamo calcolare P (Y > 2 | Y > 1):
90
90

P (Y > 2 ∩ Y > 1) P (Y > 2) 2 1 89
P (Y > 2 | Y > 1) = = = 100 / 100
=
P (Y > 1) P (Y > 1) 2 1
99
Nota 7 In questo esercizio, non vale la proprietà di assenza di memoria. Infatti: P (Y > 1) >
P (Y > 1 + 1 | Y > 1). D’altro canto, lo schema di estrazione dei fusibili è senza reimmissione.
Esercizio 2.3.15 Le modalità che X può assumere sono 1, . . . , 10 e

9
1
k 10 − k k
P (X > k) = P (“su k chiavi controllate non vi è quella giusta”) = 9
0 = =1−
k
10 n
Quindi
7
1. P (controllare almeno 8 chiavi) = P (X ≥ 8) = P (X > 7) = 1 − 10 = 0.3.
2. Per quanto riguarda la funzione di ripartizione di X vale che ∀k = 1, . . . , 10:
k
FX (k) = P (X ≤ k) = 1 − P (X > k) =
10
da cui:


0 x≤0
k
FX (x) = k ≤x<k+1
 10

1 x ≥ 10
3. Infine, ∀k = 1, . . . , 10:
k k−1 1
pX (k) = FX (k) − FX (k − 1) = − =
10 10 10
Nota 8 X è la variabile aleatoria uniforme discreta sui primi 10 numeri naturali. Se il mazzo fosse
stato formato da n chiavi avremmo ottenuto per X la densità discreta uniforme sui primi n numeri
naturali, cioè X assume i valori in S := {1, . . . , n} con probabilità data da pX (k) = 1/n, ∀k ∈ S.
4. Se prima di provare una nuova chiave, rimetto la chiave nel mazzo allora lo schema di
riferimento è di estrazioni con reimmissione e la variabile aleatoria, diciamo Z, che indica il numero
di chiavi da provare per trovare quella dell’ufficio ha densità geometrica di parametro 1/10. Quindi:
1. P (Z ≥ 8) = P (Z > 7) = (9/10)7 .
Esercizio 2.3.16 Per la prima parte dell’esercizio, possiamo modellare le scelte dell’automobilista
tramite uno schema di Bernoulli di cinque prove indipendenti. Il successo corrisponde alla scelta
del self-service e quindi ogni prova avrà probabilità di successo p = 3/8 = 0.375. In particolare,
se definiamo E2 = “L’automobilista sceglie il self-service il secondo giorno” allora P (E2 ) = 83 .
Sia ora X = numero di successi. Allora X ∼ B(n, p) = B(5, 3/8) e
2 3
5 3 5
(2) P (X = 2) = = 0.3433.
2 8 8
Se l’automobilista non fa mai rifornimento due volte nella stessa stazione, allora l’automobilista
sceglie senza ripetizione n = 5 stazioni da un insieme di N = 8 stazioni di cui K = 3 self-service:
è come se estraesse senza reimmissione n = 5 palline da un’urna di N = 8 palline di cui K = 3
rosse e le rimanenti bianche.
Se Ei = “Il giorno i l’automobilista sceglie il self-service” per i = 1, 2, allora:

35 23 3
P (E2 ) = P (E2 |E1c )P (E1c ) + P (E2 |E1 )P (E1 ) = + =
78 78 8
Sia X = numero di self-service. In questo caso X ha legge ipergeometrica di parametri (8, 3, 5) e
si trova
3 5
2 3 30
P (X = 2) = = = 0.5357.
8 56
5
Esercizio 2.4.2 Indicata con FX la funzione di ripartizione di X, vale che



 0 x<0
 x2
 0≤x<5
(1) FX (x) = 50x2


 − + 2x − 1 5 ≤ x < 10
 50 5
1 x ≥ 10
92 2 22
(2) P (2 ≤ X ≤ 9) = FX (9) − FX (2−) = FX (9) − FX (2) = − + 9−1− = 0.9
50 5 50
Esercizio 2.4.3 R Rx
x
1. FX (x) = −∞ fX (s) ds = −∞ 4s3 1(0,1) (s) ds. Quindi FX (x) = 0 se x < 0 e FX (x) =
Rx 3 x
0
4s ds = s4 0 = x4 se 0 ≤ x < 1, e FX (x) = 1 se x ≥ 1. In definitiva:


0 se x < 0
FX (x) := x4 se 0 ≤ x < 1


1 se x ≥ 1.
2. P (−0.5 < X ≤ 0.5) = FX (0.5) − FX (−0.5) = (0.5)4 − 0 = 0.0625 = 1/16.

Esercizio 2.4.4 Le funzioni in (c), (f ), (h) non sono funzioni di densità in quanto la funzione
in (c) è negativa, la funzione in (f ) non è integrabile e la funzione in (h) integra a 16. Per le
rimanenti funzioni le corrispondenti funzioni di ripartizione sono
(a) F (x) = x3 1(0,1) (x) + 1[1,∞) (x)

x θ − 1
θx (1 − θ)(x − 1 − θ)
(b) F (x) = 1[0,1) (x) + + 1[1,2) (x) + 1[2,3) (x) + 1[3,∞) (x)
2 2 2 2
x−a
(d) F (x) = 1[a,b) (x) + 1[b,+∞) (x)
b−a

x2 1 (3 − x)2
(e) F (x) = 1(0,1) (x) + 1[1,2) (x) + 1 − 1[2,3) (x) + 1[3,∞) (x)
2 2 2
(g) F (x) = (1 − x−1 )1(1,∞) (x)
Esercizio 2.4.5 Poiché f (x) ≥ 0 ∀x ∈ R, allora, necessariamente, k ≥ 0. Inoltre

Z +∞ Z k Z k
2 2 4
1= f (x)dx = kx dx = 2k x2 dx = k
−∞ −k 0 3
se e solo se k 4 = 3/2, e quindi k = (3/2)1/4

Esercizio 2.4.6
R +∞ R +∞ 2 R +∞ d −x2 2 +∞
1. 1 = −∞ f (x) dx = k 0 xe−x dx = − k2 0 dx e dx = − k2 e−x = k
2 =⇒ k = 2.
0
R1 R1 2 R1
2 1
d −x2
2. P (X ≤ 1) = P (X < 1) = −∞
f (x) dx = 2 0
xe−x dx = − 0 dx
e dx = − e−x =
0
1 − e−1
Esercizio 2.4.7 X ha funzione di densità data da

1 0≤x≤1
fX (x) =
0 altrove
e quindi, essendo per esempio 3 minuti uguale a 3/60 ore,

R1 R1 57
1. P (X > 3/60) = 3/60 fX (x)dx = 3/60 1dx = 60 = 19/20;
R 5/60 5 1
2. P (X ≤ 5/60) = 0 1dx = 60 = 12
1
3. P (6/60 ≤ X ≤ 11/60) = P (“X cade in un intervallo di lunghezza (11-6)/60”) = 12 [perché
X ∼ U ].
Esercizio 2.4.8 Il discriminante dell’equazione x2 + 40Y x + 360Y − 32 = 0 è ∆(Y ) = 1600Y 2 −
1440Y + 128 e ∆(Y ) < 0 se e solo se 0.1 < Y < 0.8. Segue che la probabilità cercata vale
R 0.8
P (0.1 < Y < 0.8) = 0.1 2y dy = 0.82 − 0.12 = 0.63.
Esercizio 2.4.9 Sia TA la v.a. che rappresenta il tempo di riparazione del tecnico A. Allora:
1
(1) P (TA > 2) = e− 2 2 = e−1
1
e− 2 11
(2) P (TA ≥ 11|TA > 9) = 1 = e−1 = P (TA > 2).
e− 2 9
Sia ora TB la v.a. che rappresenta il tempo di riparazione del tecnico B e T la variabile
aleatoria che rappresenta il tempo di riparazione del centro di assistenza xxx. Siano inoltre,
A=“La riparazione è effettuata dal tecnico A” e B=“La riparazione è effettuata dal tecnico B”.
Allora
P (T ≤ t) = P (T ≤ t|A)P (A) + P (T ≤ t|B)P (B) = P (TA ≤ t)P (A) + P (TB ≤ t)P (B)
(
0 se t ≤ 0
=
1 − (e−0.5∗t + e−0.6∗t )/2 se t > 0
In particolare T non è esponenziale. Segue che

e−1 + e−1.2
(3) P (T > 2) = 1 − P (T ≤ 2) =
2
P (T ≥ 11) e−5.5 + e−6.6 e−1 +e−1.2
(4) P (T ≥ 11|T > 9) = = −4.5 [6= 2 ]
P (T > 9) e + e−5.4
Esercizio 2.4.11
1000 1
1. E(X) = = 750 se e solo se a =
1
 + a 3

R0 se x ≤ 0
x a x
a
2. F (x) = 0 1000a
(1000 − t)a−1 dt = 1 − 1 − 1000 se 0 < x < 1000


1 se x ≥ 1000
3. Determiniamo k tale che 0.1 = P (X ≥ k). Ma,
a
k
0.1 = P (X ≥ k) = P (X > k) = 1 − F (k) = 1 − 1 + 1 −
1000
se e solo se
k
= 1 − 0.11/a
1000
se e solo se
1000
k = 1000 − 1000 × 0.11/a = 1000 − = 999.
1000
Esercizio 2.5.1
(1) pZ (k) = P (max(X, 3) = k) =

 
1 2 2 2

0 k = 1, 2  3 1 + 3 + ( 3 ) ' 0.8025 k = 3

k−1
= P (X ≤ 3) k = 3 = 13 32 k = 4, 5, . . .

 

P (X = k) k = 4, 5, . . . 0 altrove.
 k−1
 1 2
P (X = k) = 3 3 k = 1, 2
2
(2) pY (y) = P (Y = k) = P (X ≥ 3) = 23 = 94 k = 3


0 altrove
Esercizio 2.5.2 Sia T la variabile aleatoria che indica il numero di teste su 10 lanci indipendenti
di una moneta equilibrata. Allora T ∼ Bi(10, 1/2). Ovviamente il numero di croci è dato da
10 − T e la variabile aleatoria X = |T − (10 − T )| = |2T − 10| è la differenza in valore assoluto
tra numero di teste e numero di croci. Per rispondere alle varie domande dobbiamo calcolare la
densità di X:
1. X = 4 se e solo se |T − (10 − T )| = |2T − 10| = 4. Quindi
pX (4) = P ({2T − 10 = 4} ∪ {−2T + 10 = 4}) = P ({2T − 10 = 4}) + P ({−2T + 10 = 4}) =

10
10 1
= pT (7) + pT (3) = 2
3 2
2.-3. X = 0 se e solo se T = 5e quindi la densità di X in 0 è strettamente positiva; esattamente
abbiamo pX (0) = pT (5) = 10 1
5 210 . Passando agli altri valori: X = k se e solo se |2T − 10| = k se
e solo se “2T − 10 = k oppure −2T + 10 = k”, cioè “T = k/2 + 5 oppure T = 5 − k/2”. Quindi,
gli unici valori ammissibili per k sono in S = {0, 2, 4, 6, 8, 10} e
 10 1

 5 210 k=0
10
1 10 10
1 9
pX (k) = P (T = k/2 + 5) + P (T = 5 − k/2) = 2 k/2+5 2 = k/2+5 2 k ∈ S \ {0}


0 altrove
Esercizio 2.5.3
( (
y 0 se ey < 1 0 se y < 0
FY (y) = P (log X ≤ y) = P (X ≤ e ) = =
1 − e−λy se ey ≥ 1 1 − e−λy se y ≥ 0
Quindi Y è una variabile aleatoria continua con funzione di densità fY (y) = λe−λy 1(0,+∞ (y),
λ > 0, cioè Y ∼ E(λ).
Esercizio 2.5.4
arctan y + π/2
FY (y) = P (tan X ≤ y) = P (X ≤ arctan y) = ∀y ∈ R
π
Pertanto
∂ ∂ arctan y + π/2 1
(2.1) fY (y) = FY (y) = = ∀y ∈ R
∂y ∂y π π(1 + y 2 )
La densità in (2.1) prende il nome di densità

R∞ di Cauchy. È un esempio di densità continua che
y
non ammette media. Infatti: E|Y | = 2 0 π(1+y 2 ) dy = ∞, sebbene
Z 0 Z ∞
1 1
x dx + x dx = 0!!!
−∞ π(1 + y 2 ) 0 π(1 + y 2 )
Esercizio 2.5.5
1. Poichè X è una variabile aleatoria continua e g(x) = x1/α è funzione derivabile e strettamente
crescente su (0, +∞) con inversa g −1 (x) = xα derivabile, allora Y = X 1/α è una variabile aleatoria
continua con densità
α
fY (y) = fX [g −1 (y)](g −1 )0 (y)1g((0,+∞)) (y) = fX (y α )αy α−1 1(0,+∞) (y) = λαy α−1 e−λy 1(0,+∞) (y).
2. Y ha funzione di ripartizione
( ( (
0 y≤0 0 y≤0 0 y≤0
FY (y) = R y α−1 −λtα
= R yα −λz = α
0 λαt e dt y > 0 0
λe dz y>0 1 − e−λy y>0
1 1/α−1
(z = tα , dt = z dz)
α
Quindi,
α
P (Y > t + s) 1 − FY (t + s) e−λ(t+s) α α
P (Y > t + s | Y > s) = = = = e−λ(t+s) +λs ;
P (Y > s) 1 − FY (s) e−λsα
Poiché
d
P (Y > t + s | Y > s) = P (Y > t + s | Y > s)λα(−(t + s)α−1 + sα−1 ) ≥ 0
ds
se e solo se sα−1 ≥ (s + t)α−1 e, ∀s ≥ 0, vale che sα−1 ≥ (s + t)α−1 se e solo se α ≤ 1, allora
concludiamo che
- se α = 1 allora P (Y > t + s | Y > s) è funzione costante in s;
- se α < 1 allora P (Y > t + s | Y > s) è funzione crescente in s;
- se α > 1 allora P (Y > t + s | T > s) è funzione decrescente in s.
3. Sulla base dei risultati illustrati al punto precedente, visto che l’andamento in s di P (Y > t + s |
T > s) non dipende da λ, per modellare tempi di vita di apparecchiature potremmo procedere
nella scelta si α secondo le seguenti regole:
- sceglieremo α = 1, cioè useremo la densità esponenziale, per modellare tempi di vita di
apparecchiature non soggette ad usura;
- sceglieremo α < 1 per modellare il tempo di vita di apparecchiature in rodaggio: sapendo che
l’apparecchiatura funziona da un tempo superiore ad s, è più probabile che sia in vita per un
ulteriore periodo di lunghezza almeno pari a t.
- sceglieremo α > 1 per modellare il tempo di vita di apparecchiature soggette ad usura.
Nota 9 La densità di probabilità trovata per Y è detta densità di Weibull.

In generale, se X è una variabile aleatoria con densità fX e funzione di ripartizione FX , allora
fX (t)
rX (t) = 1−F X (t)
è detto tasso istantaneo di propensione al guasto. Il nome è giutificato dalla
seguente eguaglianza:
Rt Rt fX (u) Rt
− du d
e− 0
rX (u)du
=e 0 1−FX (u)
=e 0 du
log(1−FX (u))du
= 1 − FX (t)
dalla quale deriva anche che

R t+s
P (X > t + s | X > s) = e− s
rX (u)du
R t+s
per cui, fissato t, P (X > t + s | X > s) è funzione crescente in s se e solo se s rX (u)du è
funzione decrescente in s. L’ultima condizione è equivalente a rX (s + t) < rX (s) ∀s, cioè rX (u)
è funzione decrescente. Infine, X si dice IFR (incresing failure rate) se u 7→ rX (u) è crescente,
mentre si dice DFR (decresing failure rate) se u 7→ rX (u) è decrescente. Quindi per una variabile
aleatoria X con densità di Weibull di parametri (α, λ) abbiamo che X è IFR se e solo se α > 1.
Esercizio 2.5.6 1. Y1 = U − 1/2 ∼ U(−1/2, 1/2). Cfr. Dispense, Esempio 2.6.6 pagina 54-55.
2. Poichè Y1 = U − 1/2 ∼ U(−1/2, 1/2) allora, la funzione di ripartizione di Y2 = |Y1 | è


0 y≤0
FY2 (y) = P (−y ≤ Y1 ≤ y) = 2y 0 < y < 1/2


1 y ≥ 1/2
e quindi, Y2 ∼ U(0, 1/2);

3. Poiché Y3 = Y22 e su (0, 1/2) la funzione g(x) = x2 è invertibile, allora
√ 1 2 √ 1
fY3 (y) = fY2 ( y) √ = √ 1(0,1/2) ( y) = √ 1(0,1/4) (y).
2 y 2 y y
4. Poichè g(x) = 1/(x + 1/2) è invertibile su (0, 1) e g −1 (y) = 1/y − 1/2 è derivabile su (0, +∞)
con (g −1 (y))0 = −1/y 2, allora

1 1 1 1 1 1 1
fY4 (y) = fU − = 2 1(0,1) − = 2 1(2/3,2) (y).
y 2 y2 y y 2 y
5. Poichè g(x) = − log(x)/λ è invertibile su (0, 1) e g −1 (y) = e−λy è derivabile su (0, +∞) con
(g −1 (y))0 = −λe−λy , allora

fY5 (y) = fU e−λy 1(0,1) e−λy λe−λy = λe−λy 1(0,+∞) (y)
Capitolo 3
Media varianza e momenti
3.1 Media e varianza

Esercizio 3.1.1 In una classe maschile di 30 studenti, due studenti sono alti 167cm, cinque 170cm,
tre 175cm, cinque 176cm, sei 180cm, sette 185cm e due 190cm. Se scelgo uno studente a caso
quanto mi aspetto sia alto?
Esercizio 3.1.2 Se una moneta regolare viene lanciata quattro volte, mediamente, quante volte
succede che croce segua immediatamente testa?
Esercizio 3.1.3 Sia U ∼ U(0, 1). Determinate media e varianza delle seguenti variabili aleatorie:
1. Y = U − 1/2 [Risp. E(Y ) = 0, Var(Y ) = 1/12]
2. Y = (U − 1/2)2 [Risp. E(Y ) = 1/12, Var(Y ) = 1/180]
3. Y = 1/(U + 1/2) [Risp. E(Y ) = log(3), Var(Y ) = 4/3 − log(3)2 ' 0.1264]
4. Y = − log(U ) [Risp. E(Y ) = Var(Y ) = 1]
Esercizio 3.1.4 ([CP, INF II Appello, 01/03/06) Il diametro X di un tipo di particelle di

polline, espresso in micron, è una variabile aleatoria assolutamente continua con densità

c x−6 x≥1
fX (x) =
0 x<1
1. Determinare il valore di c.
2. Calcolare media e varianza di X.
3. Qual è la probabilità che una particella selezionata a caso abbia diametro compreso tra 1.3
e 2 micron?
4. Calcolare la funzione di ripartizione di X.
Esercizio 3.1.5 Il numero di vestiti confezionati settimanalmente da una sartoria è una variabile
aleatoria con momento primo 5 e momento secondo 30.
1. Fornite una stima della probabilità che la prossima settimana il numero di vestiti confezio-
nati sia compreso fra 2 e 8.
2. Nei periodi di maggiore richiesta nella sartoria vengono assunti alcuni lavoranti stagionali
per aumentare la produzione settimanale. Si sa che con i nuovi lavoranti, comunque la produzione
media settimanale rimane invariata, mentre la varianza diminuisce all’aumentare dei lavoranti
secondo la seguente regola: Var(X) = 5/(n + 1), dove n rappresenta il numero di lavoranti
39
40 CAPITOLO 3. MEDIA VARIANZA E MOMENTI
stagionali assunti (n = 0, 1, . . .). Avendo le uniche informazioni di media e varianza, qual è il

numero minimo di lavoranti stagionali che la sartoria deve assumere affinché sia almeno pari a 0.8
la probabilità che il numero di vestiti confezionati settimanalmente sia compreso fra 2 e 8?
3.2 Densità gaussiana

Esercizio 3.2.1 Sia X una variabile aleatoria gaussiana standard (X ∼ N (0, 1)). Facendo uso
delle tavole, determinate:
1. P (X ≤ 0.2), P (X > 0.2), P (X < −0.2), P (−0.2 < X < 0.2),
2. il quantile di ordine 0.95 di X,
3. il valore di k tale che P (−k < X < k) = 0.95,
4. il quantile di ordine 0.05 di X.
Esercizio 3.2.2 Le bilance da cucina prodotte dalla casa xxx sono tarate in modo tale da non
aver errori sistematici. In realtà, l’errore effettivo di misurazione, espresso in grammi, non è
sempre nullo, ma si può modellare come una variabile aleatoria N (0, 1). Prima di esse immesse
sul mercato, le bilance sono controllate ad una ad una (per sempio pesando un oggetto di cui già
si conosce esattamente il peso) e passano il controllo quelle per cui l’errore di misurazione (sia per
eccesso sia per difetto) non supera i 2 grammi.
1. Si determini la percentuale di bilance che superano il controllo.
2. Di quanto è necessario aumentare il tetto dei 2 grammi, affinché la percentuale delle bilance
che non superano il controllo si riduca all’1%?
Esercizio 3.2.3 Sia X una variabile aleatoria assolutamente continua con densità gaussiana di
parametri µ = 4 e σ 2 = 25.
1. Qual è il valore di P (X ≤ 5), P (X > 3), P (3 < X < 5)?
2. Determinate il quantile di ordine 0.95 di X, cioè, indicata con FX la f.d.r. di X, determinate
il valore di k tale che FX (k) = 0.95.
3. Determinate il quantile di ordine 0.05 di X.
4. Per quale valore di k, P (2 − k < X < 6 + k) = 0.95?
Esercizio 3.2.4 Sia X ∼ N (µ, 36) con µ incognito. Determinate µ sapendo che P (X ≤ 5) = 0.40.
Esercizio 3.2.5 Le sferette di acciaio prodotte da una certa linea di produzione devono avere una
lunghezza nominale di 5 mm; sono accettabili sferette aventi lunghezza entro i limiti di tolleranza
[4, 6]. Le lunghezze reali dei pezzi prodotti sono in realtà variabili aleatorie con densità gaussiana
di media 5mm e varianza (0.5)2 mm2 .
1. Quale percentuale dei pezzi prodotti non rispetta i limiti di tolleranza dati?
2. Potendo ricalibrare la linea di produzione, a quale valore dobbiamo ridurre la varianza
affinchè la percentuale di pezzi che non rispettano i limiti di tolleranza si riduca al 1%?
Esercizio 3.2.6 Il peso (in Kg) degli uomini di 48 anni di una certa città può essere modellato
come una variabile aleatoria gaussiana X. Si sa inoltre che il 12.3% degli uomini pesano più di 70
Kg e il 6.3% pesa meno di 58 Kg. Determinate media e varianza di X.
Esercizio 3.2.7 L’altezza degli uomini di una determinata città si può modellare come una varia-
bille aleatoria gaussiana di parametri µ = 178cm e deviazione standard σ = 10cm. Mentre, quella
delle donne è una variabile aleatoria gaussiana di parametri µ = 168cm e deviazione standard
σ = 15cm. Inoltre, le donne costituiscono il 58% della popolazione della città oggetto di indagine.
1. Qual è la probabilità che l’altezza di un abitante della città mascherato fermato a caso ad
un angolo di una strada (un giorno di carnevale) sia compresa fra 164 e 180 cm?a
2. Se l’altezza della persona mascherata fermata è compresa fra 165 e 180 cm, qual è la
probabilità che la persona scelta a caso sia un uomo?
3.3. APPROSSIMAZIONE GAUSSIANA DELLA FUNZIONE DI RIPARTIZIONE BINOMIALE41
Esercizio 3.2.8 (CP TEL 12/11/02 Esercizio 1.3) Il tempo giornaliero, che uno studente
scelto a caso della Sezione [D − HZ] dedica allo studio di Calcolo delle Probabilità (CP) du-
rante la preparazione dell’esame, è una variabile aleatoria gaussiana con media 5 ore e varianza 4
(ore2 ).
1. Determinate la percentuale di studenti della Sezione [D − HZ] che dedica giornalmente a
CP meno di 6 ore.
Da un’indagine sulla Sezione [I − QZ], risulta che il 60% degli studenti della Sezione [I − QZ]
dedica allo studio di CP durante la preparazione dell’esame più di 3 ore al giorno.
2 Ipotizzando che il tempo giornaliero dedicato da uno studente della Sezione [I − QZ] a CP
durante la preparazione dell’esame sia sempre una variabile aleatoria gaussiana di varianza
4 (ore2 ), quanto vale la media di questa densità?
3 Calcolate ora anche per la Sezione [I −QZ] la percentuale di studenti che dedica giornalmente
a CP meno di 6 ore.
Supponiamo che la Sezione [D − HZ] sia formata da 162 studenti e quella [I − QZ] da 138.
4 Se uno studente viene estratto a caso dall’elenco di tutti gli studenti appartenenti alle due
Sezioni, quanto vale la probabilità che dedichi allo studio di CP un tempo inferiore a 6?
Esercizio 3.2.9 (CP ELN INF 11/11/03 Esercizio 2.3) Per trasmettere un messaggio bi-
nario (“0” o “1”) da una sorgente A a una ricevente B tramite un canale (per esempio un filo
elettrico), si decide di mandare un segnale elettrico di +2 Volt se il messaggio è “1” e di −2 Volt
se il messaggio è “0”. A causa di disturbi nel canale, se A invia il segnale µ = ±2, B riceve un
segnale X = µ + Z, dove Z rappresenta il rumore del canale. Alla ricezione di un qualunque
segnale X si decodifica il messaggio con la seguente regola:
se X ≥ 0.5 si decodifica “1”
se X < 0.5 si decodifica “0”.
Si supponga inoltre che Z sia una variabile aleatoria assolutamente continua con densità gaussiana
standard e che la probabilità di trasmettere “0” sia uguale alla probabilità di trasmettere “1”.
1. Qual è la probabilità di decodificare “1”, avendo inviato “0”?
2. Qual è la probabilità di decodificare “0”, avendo inviato “1”?
3. Qual è la probabilità di decodificare “1”?
4. Avendo decodificato “1”, qual è la probabilità che la decodifica sia esatta?
3.3 Approssimazione gaussiana della funzione di ripartizio-

ne binomiale
Esercizio 3.3.1 Dall’esperienza passata ci si aspetta che l’esame xyz venga superato dal 75%
degli allievi elettronici. Una classe costituita da 10 allievi elettronici sosterrà l’esame xyz. Se i
risultati dei singoli studenti si ipotizzano indipendenti, quanto vale la probabilità che lo superi
almeno il 70% di essi?
2. Come cambia la risposta se la classe è costituita da 140 studenti (sempre nell’ipotesi che i
risultati dei singoli studenti siano indipendenti)?
Esercizio 3.3.2 (I recupero CP Ing. Mat. aa. 2002-2003) Il 35% di tutto l’elettorato è a
favore del candidato Tizio. In una sezione elettorale votano 200 persone (scelte a caso) e sia X il
numero di quelle che sono a favore di Tizio.
1. Quante schede ci sono a favore di Tizio in media in quella sezione?

2. Determinare la probabilità che X sia maggiore di 75 (scrivere la formula esplicita che assegna
questa probabilità senza eseguire il calcolo numerico).
3. Determinare un valore approssimato della probabilità richiesta al punto precedente.
4. A votazione terminata, lo scrutatore compie lo spoglio delle schede: Tizio ha ricevuto 60
voti. Se si scelgono ora 10 schede (distinte) tra le 200, qual è la probabilità che tra esse ce
ne siano esattamente 3 per Tizio? (Scrivere l’espressione esatta di tale probabilità).
Esercizio 3.3.3 (CP ELN INF 08/09/04 esercizio 2) Il tempo di esecuzione del programma
xxx sul calcolatore yyy è compreso fra 60 e 120 minuti primi. Idealmente, esso può essere modellato
come una variabile aleatoria X assolutamente continua con densità
(
x−60
60 ≤ x ≤ 120
fX (x) = 1800
0 altrove.
1. Calcolate la probabilità che il calcolatore impieghi più di 90 minuti per eseguire il program-
ma.
Su ciascuno di 50 calcolatori, tutti del tipo yyy, i cui tempi di esecuzione sono variabili aleatorie
indipendenti lanciamo il programma xxx e, allo scadere dei 90 minuti, controlliamo se il programma
è stato eseguito oppure no. Indichiamo con S il numero di programmi (su 50) eseguiti nei primi
90 minuti.
2. Determinate media, varianza e densità di probabilità di S.
3. Calcolate approssimativamente la probabilità che almeno il 40% dei programmi siano stati
eseguiti nei primi 90 minuti.

Esercizio 3.1.1 Sia X la variabile aleatoria che modella l’altezza dello studente scelto a caso. Per
rispondere alla domanda, dobbiamo calcolare E(X). X è variabile aleatoria discreta con densità
di probabilità data da
2 5 3 5
pX (167) = , pX (170) = , pX (175) = , pX (176) =
30 30 30 30
6 7 2
pX (180) = , pX (185) = , pX (190) = .
30 30 30
Quindi P
2 5 3 5 6 7 2
E(X) = k xk pX (xk ) = 167 30 + 170 30 + 175 30 + 176 30 + 180 30 + 185 30 + 190 30 ≈ 178.13.
Esercizio 3.1.2 Sia X il numero di volte che in quattro lanci testa è seguita immediatamente da
croce. Allora: P (X = 2) = P (T CT C) = 1/24, P (X = 0) = P ({T T T T, CCCC, CCCT, CCT T, CT T T } =
5/24 , P (X = 1) = 1 − 1/24 − 5/24 = 10/24 e E(X) = 10/24 + 2 · 1/24 = 0.75
Esercizio 3.1.4
R R +∞
1. Deve essere 1 = R fX (x) dx = 1 cx−6 dx = 5c , quindi c = 5.
2. Si trova
Z Z +∞
5
E(X) = x fX (x) dx = 5x−5 dx = = 1.25,
R 1 4
Z +∞ 2
5 5 5 5
E(X 2 ) = 5x−4 dx = e Var(X) = E(X 2 ) − (E(X))2 = − = ' 0.1042.
1 3 3 4 48
R2
3. P (1.3 < X < 2) = 1.3
5x−6 dx = (1.3)−5 − 2−5 ' 0.2381.
4. La funzione di ripartizione FX è:


 0 t<1
FX (t) =

1 − t−5 t≥1
Esercizio 3.1.5
1. Sia X la variabile aleatoria che indica il numero di vestiti confenzionati settimanalmente.
Allora X ha media E(X) = 5 e momento secondo E(X 2 ) = 30. Per rispondere alla domanda, dob-
biamo stimare P (2 ≤ X ≤ 8). Avendo informazioni su media e varianza, usiamo la diseguaglianza
di Chebychev:
P (2 ≤ X ≤ 8) = P (2 − E(X) ≤ X − E(X) ≤ 8 − E(X)) = P (2 − 5 ≤ X − E(X) ≤ 8 − 5)

Var(X) E(X 2 ) − E2 (X) 5
= P (−3 ≤ X − E(X) ≤ 3) ≥ 1 − 2
=1− = 1 − ' 0.4445 :
3 9 9
Quindi 0.4445 rappresenta un estremo inferiore per P (2 ≤ X ≤ 8).
2. Con ragionamento analogo a quello del punto precedente otteniamo che
Var(X) 5
P (2 ≤ X ≤ 8) ≥ 1 − =1−
32 9(n + 1)
Risolvendo la seguente disequazione in n:

5 16
1− ≥ 0.8 ⇐⇒ n≥ ' 1.777778,
9(n + 1) 9
concludiamo che la sartoria deve assumere almeno due altri lavoranti.

Esercizio 3.2.1
1. P (X ≤ 0.2) = Φ(0.2) = 0.5793, P (X > 0.2) = 1 − Φ(0.2) = 1 − 0.5793 = 0.4207;
P (X < −0.2) = P (X > 0.2) = 0.4207; P (−0.2 < X < 0.2) = 2Φ(0.2) − 1 = 0.1586;
2. Il quantile di ordine α della funzione di ripartizione Φ è quel valore qα tale che Φ(qα ) = α.
Essendo Φ strettamente crescente su R, segue che qα = Φ−1 (α). Quindi dalle tavole della fdr
N (0, 1), otteniamo: q0.95 = 1.644.
3. Dalla simmetria della gaussiana standard (intorno allo zero) ricavo che P (−k < X < k) =
2Φ(k) − 1. Impongo 2Φ(k) − 1 = 0.95, ossia Φ(k) = (1 + 0.95)/2 = 0.975, k è dunque il quantile
di ordine 0.975: k = 1.96.
4. Si osservi che se α < 0.5, allora dalla monotonia di Φ e dal fatto che Φ(0) = 0.5 segue che
qα < 0. Inoltre, sempre dalla simmetria della densità N (0, 1) discende che qα = −q1−α , per ogni
α ∈ (0, 1). Quindi, q0.05 = −q1−0.05 = −1.644.
Esercizio 3.2.2
1. Sia X ∼ N (0, 1) la v.a. che indica l’errore di misurazione della bilancia. Allora, la
percentuale di bilance che superano il controllo è dato da
P (|X| ≤ 2) = 2Φ(2) − 1 ' 2 × 0.9772499 − 1 = 0.9544997
2. Dobbiamo determinare k tale che 1 − P (|X| ≤ 2 + k) = 0.01:

0.01
1−P (|X| ≤ 2+k) = 1−(2Φ(2+k)−1) = 2(1−Φ(2+k)) = 0.01 se e solo se Φ(2+k) = 1− = 0.995
2
cioè 2 + k è il quantile di ordine 0.995 di Φ. Dalle tavole deriva che: 2 + k = 2.576 e quindi, è
necessario aumentare il tetto da 2 grammi a 2.576 grammi.
Esercizio 3.2.3 Dobbiamo innanzitutto ricondurci alla densità gaussiana standard: Se X ∼

x−µ
N (µ, σ 2 ) allora, P (X ≤ x) = Φ σ .
1. P (X ≤ 5) = Φ 5−4 5 = Φ(0.2) = 0.5793;

P (X > 3) = 1 − P (X ≤ 3) = 1 − Φ 3−4 5 = 1 − Φ(−0.2)
= Φ(0.2)
= 0.5793;
5−4 3−4
P (3 < X < 5) = P (X <5) −P (X < 3) = Φ 5 − Φ 5 = 2Φ(0.2) − 1 = 0.1586.

k−µ k−µ
2. Poiché FX (k) = Φ σ , allora dobbiamo determinare k tale che Φ σ = 0.95, cioè
k−µ
σ = qα , dove qα è il quantile di ordine α di Φ. Quindi
k = 5q0.95 + 4 = 5 ∗ 1.644 + 4 = 12.22
3. In questo caso, k = 5q0.05 + 4 = 5(−q0.95 ) + 4 = 5 ∗ (−1.644) + 4 = −4.22
4. P (2 − k < X < 6 + k) = P − 2k 5 <
X−4
5 < 2+k5 = 2Φ 2+k5 − 1 = 0.95 se e solo se 2+k
5 è il
quantile di ordine (1 + 0.95)/2 = 0.975 della gaussiana standard. Quindi (2 + k)/5 = 1.96, da cui
k = 7.8.

Esercizio 3.2.4 0.4 = P (X ≤ 5) = Φ 5−µ 6 implica 5−µ
6 = z0.4 (= quantile della normale
standard di ordine 0.4). Per la simmetria della normale standard: z0.4 = −z1−0.4 = −z0.6 =
−0.2533 da cui µ = 6.52.
Esercizio 3.2.5 Lunghezza dei pezzi (misurata in mm): X ∼ N (µ; σ 2 ) , µ = 5, σ = 0.5. Poniamo
Z = (X − µ)/σ.
1. Si chiede
P ({X < 4} ∪ {X > 6}) = P (X < 4) + P (X > 6]) =

4−5 6−5
P Z< +P Z > = P (Z < −2) + P (Z > 2)
0.5 0.5

= 2 1 − Φ(2) ' 2 × 0.02275 = 0.04550 = 4.55%
2. Imponendo
1 1 1
0.99 = P (4 ≤ X ≤ 6) = P − ≤ Z ≤ = 2Φ −1;
σ σ σ

1 1 1
Φ = 0.995 = z0.995 ' 2.57583 , σ≈ ≈ 0.3882;
σ σ 2.57583
2
otteniamo che la varianza richiesta è = 0.1507mm2 .
Esercizio 3.2.6 I dati a nostra disposizione si possono cosı̀ sintetizzare:
( (
P (X > 70) = 1 − Φ 70−µ
σ = 12.3% Φ 70−µ
σ = 1 − 12.3%
= =
P (X < 58) = Φ 58−µ
σ = 6.3% Φ 58−µ
σ = 6.3%
( (
70−µ
σ = z1−12.3% = z0.877 = 1.1601 µ = 64.83
= 58−µ ⇒
σ = z6.3% = z0.063 = −1.5301 σ 2 = (4.46)2 ' 19.897
Esercizio 3.2.7 Sia X ∼ N (178, 100) l’altezza degli uomini e Y ∼ N (168, 225) l’altezza delle
donne, E l’evento=“l’altezza di una persona fermata a caso ad un angolo di una strada il giorno
di carnevale con una maschera sul viso è compresa fra 165 e 180 cm” e U l’evento=“Una persona
scelta a caso nella città è uomo” .
1. Per il teorema delle probabilità totali, P (E) = P (E | U )P (U ) + P (E | U c )P (U c ). Dai dati

del problema
abbiamo P (U ) = 0.42. Inoltre, P (E | U ) = P (X ∈ [165, 180]) = Φ 180−178 10 −
Φ 165−178
10 = Φ(0.2) − Φ(−1.3) = 0.5793
− 0.0968 = 0.4825 e P (E | U c
) = P (Y ∈
[165, 180]) = Φ 180−168
15 − Φ 165−168
15 = Φ(0.8) − Φ(−0.2) = 0.7881 − 0.4207 = 0.3674.
Quindi, P (E) = 0.4825 ∗ 0.42 + 0.3674 ∗ 0.58 = 0.4157.
P (E|U)P (U)
2. Per il teorema di Bayes, P (U | E) = P (E) = 0.4825 ∗ 0.42/0.4157 = 0.4875.
Esercizio 3.3.1
1. Per ogni allievo della classe posso pensare pari a 0.75 la probabilità che superi l’esame. Allo-
ra X che indica il numero di studenti che superano la prova su 10, tenuto conto anche dell’indipen-
denza dei risultati dei singoli studenti, ha densità binomiale di parametri (10,0.75).
Essendo 70% di
P10
10 uguale a 7, allora per rispondere a 1. calcoliamo P (X ≥ 7) = k=7 10 k 0.75 k
0.25 10−k
' 0.7759.
2. Valgono ancora le ipotesi del punto 1., ma ora gli allievi in classe sono 140. Quindi
Y =numero di studenti che superano la prova su 140 ha densità binomiale di parametri (140,0.75).
Essendo 70% di 14=98, allora per rispondere a 2. calcoliamo approssimativamente P (Y ≥ 98),
usando il teorema centale del limite. Con la correzione di continuità abbiamo:
P (Y ≥ 98) = P (Y > 97) = 1 − P (Y ≤ 97) = 1 − P (Y ≤ 97 + 0.5)

97 + 0.5 − 105
'1−Φ √ = 1 − Φ(−1.46385) = Φ(1.46385) ' 0.9284.
26.25
Esercizio 3.3.2
1. E(X) = 200 × 0.35 = 70.
P200 200

2. X ∼ Bin(200, 0.35). Quindi P (X > 75) = k=76 k 0.35k 0.65200−k
3. Usando un’approssimazione gaussiana, basata sul Teorema di De Moivre-Laplace si ottiene

X − 70 75 − 70
P (X > 75) = P √ > √ '
200 × 0.35 × 0.65 200 × 0.35 × 0.65

75.5 − 70
'1−Φ √ ' 1 − Φ(0.815) ' 1 − Φ(0.82) ' 1 − 0.7938 = 0.2162
200 × 0.35 × 0.65
(Abbiamo applicato la correzione di continuità)

4. Sia Y il numero delle schede a favore di Tizio tra le 10 estratte. Allora Y ha densità
ipergeometrica e
60 140
3
P (Y = 3) = 7
200
10
Capitolo 4
Vettori aleatori
4.1 Vettori aleatori discreti

Esercizio 4.1.1 (II Recupero CP INF 16/09/2002) Si consideri il vettore aleatorio (X, Y )
che ha la seguente densità congiunta:
Y=-1 Y=0 Y=1
X=-15 0 2/36 0
X=-1 4/36 2/36 0
X=0 1/36 26/36 1/36
(1) Si calcoli la covarianza delle variabili aleatorie X ed Y : sono correlate?

(2) Le variabili aleatorie X ed Y sono indipendenti?
(3) Si calcoli P ((X, Y ) ∈ {(x, y) : x − |y| = −1}).
Esercizio 4.1.2 (I recupero 19/07/02 CP, INF) Un’urna contiene 3 biglie rosse, due biglie
bianche ed una verde. Si estraggono due biglie senza reinserimento. Siano R il numero di biglie
rosse estratte e B il numero di biglie bianche estratte.
(1) Qual è la densità congiunta del vettore (R, B)?
(2) Qual è la densità marginale di B? Quale quella di R?
(3) Calcolate media e varianza di B.
(4) Calcolare la covarianza di R e B e il coefficiente di correlazione lineare. B e R sono variabili
aleatorie non correlate?
(5) Calcolare Var(R − B).
Esercizio 4.1.3 Sia (X, Y ) un vettore aleatorio con densità congiunta data da:
X \Y -1 0 2 6
-2 1/9 1/27 1/27 1/9
1 2/9 0 1/9 1/9
3 0 0 1/9 4/27
Calcolare la probabilità:
1. che Y sia pari. (si consideri 0 un numero pari);
2. che XY sia dispari;
3. P (X > 0, Y ≥ 0) e P (|XY | ≥ 2);
4. P (X ≥ Y );
5. cov(X, Y ).
6. X, Y sono indipendenti?
47
48 CAPITOLO 4. VETTORI ALEATORI
7. Determinare le densità marginali.

e Ye ) che abbia le stesse densità marginali di (X, Y ), ma
8. Determinare un vettore aleatorio (X,
le cui componenti siano indipendenti.
Esercizio 4.1.4 Si lanciano in successione tre monete equilibrate. Sia X il numero di esiti “testa”
per le prime due monete e Y il numero di esiti “croce” per le ultime due.
1. Si determini la densità congiunta del vettore (X, Y ).
2. Si determinino E(X), E(Y ), Var(X), Var(Y ) e ρ(X, Y ).
3. X e Y sono indipendenti? Perché?
4. Quanto vale P (X < Y )?
5.1 Le tre monete equilibrate sono ora lanciate in successione 100 volte. Quanto vale la
probabilità che sia almeno pari a 35 il numero di lanci in cui si ottiene un numero di teste per le
prime due minore del numero di croci per le ultime due?
Esercizio 4.1.5 Sia (X, Y ) un vettore aleatorio discreto la cui densità congiunta è la seguente:
X \Y 0 1
0 1/3 1/3
1 1/12 1/12
2 1/12 1/12
X, Y sono indipendenti?
Esercizio 4.1.6 (I recupero Ing. Matematica a. 2002-03) Da un’urna contenente tre pal-
line numerate da 1 a 3 vengono effettuate due estrazioni in successione e senza rimpiazzo. Sia X
il numero della prima pallina estratta ed Y il più grande dei due numeri estratti.
1. Trovare la densità del vettore (X, Y ).
2. Trovare la densità di (X, Y − X).
3. Trovare la densità di Y − X.
4. Calcolare cov(X, Y ).
Esercizio 4.1.7 Il vettore aleatorio discreto (X, Y ) ha densità congiunta:
X \Y 0 1 2
0 1/3 0 1/3
1 0 1/3 0
1. Calcolare cov(X, Y ). X, Y sono scorrelate? Sono indipendenti?

2. Se U = 12 (X + Y ) e Z = 21 (Y − X), qual è la densità congiunta di (U, Z)?
3. Calcolare cov(U, Z).
Esercizio 4.1.8 (CP ELN-INF 11/11/03 Esercizio 2.2) Da un gruppo di 7 batterie, di cui 3
nuove, 2 usate ma funzionanti e 2 difettose, ne vengono scelte 3 a caso. Siano X e Y rispettivamente
il numero di batterie nuove e usate tra quelle scelte.
1. Determinare la densità congiunta di (X, Y ) e le densità marginali di X e di Y .
2. Calcolare cov(X, Y ). X ed Y sono indipendenti? (Giustificare adeguatamente la risposta).
3. Le tre batterie scelte sono montate su di un apparecchio che funziona se nessuna di esse è
difettosa. Determinare la probabilità che l’apparecchio funzioni.
1 Svolgere nell’ultima esercitazione dopo i teoremi limite
4.2. VETTORI ALEATORI ASSOLUTAMENTE CONTINUI 49
Esercizio 4.1.9 (CP 02/07/04 CP INF Esercizio 4) Siano X, Y due variabili aleatorie di
Bernoulli di parametro p e indipendenti. Posto
Z = X(1 − Y ) e W = 1 − XY
1. qual è la densità congiunta del vettore (Z, W )?
2. Quali sono le densità marginali di Z e W ?
3. Per quali valori di p Z e W hanno la stessa densità?
Esercizio 4.1.10 (08/09/04 CP, ELN, INF, esercizio 3) Un dado che ha una faccia blu,
due rosse e tre verdi viene lanciato due volte. Siano R il numero di volte in cui il dado esi-
bisce la faccia superiore rossa e V il numero di volte in cui il dado esibisce la faccia superiore
verde.
1. Costruite la tabella della densità congiunta del vettore (R, V ).
2. Calcolate P (max{R, V } = 0), P (max{R, V } = 1).
3. Determinate quali sono i valori che Z = max{R, V } può assumere con probabilità stretta-
mente positiva e calcolate E(Z) e Var(Z).
Esercizio 4.1.11 (CP TEL Seconda prova in itinere del 02/02/2005) Siano X, Y due va-
riabili aleatorie indipendenti entrambe geometriche di parametro p = 0.2. Siano poi U = 0.5X +
0.1Y e V = bX + Y + c. Usando le proprietà di varianza e covarianza:
1. determinate Var(U ) e Var(V );
2. determinate cov(U, V );
3. stabilite per quali valori dei parametri b, c le variabili aleatorie U, V non sono correlate,
quindi calcolate Var(U − V ) in questo caso.
4.2 Vettori aleatori assolutamente continui

Esercizio 4.2.1 Un sistema in parallelo è costituito da due componenti, i cui tempi di guasto
espressi in minuti sono rappresentati dal vettore assolutamente continuo (S, T ) che ha densità
congiunta: (
e−t 0 < s < t
f(S,T )(s, t) =
0 altrove
1. Qual è la probabilità che il sistema funzioni ancora dopo 10 minuti dall’attivazione? [Risp
P ({S > 10} ∪ {T > 10}) = 1 − FS,T (10, 10) = 11e−10]
2. Come cambia la risposta al punto 2. se i componenti sono collegati in serie? [Risp P (S >
10, T > 10) = e−10 .]
Esercizio 4.2.2 Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità
( y2
e− 2 0<x< √1 ey∈R
fX,Y (x, y) = 2π
0 altrove
1. Determinate le densità marginali fX e fY e stabilite se X, Y sono indipendenti
2. Sia V = X + Y 2 . Calcolate E(V ).

Esercizio 4.2.3 Sia (X, Y ) un vettore aleatorio assolutamente continuo con funzione di riparti-
zione FX,Y data da


0 se x ≤ 0 o y ≤ 0
FX,Y (x, y) = 1 − λxe−λy − e−λx se 0 < x < y


1 − e−λy − λye−λy se 0 < y < x
dove λ > 0. Si determinino le funzioni di ripartizione marginali FX , FY e le corrispondenti funzioni

di densità.
Esercizio 4.2.4 Il vettore (X, Y ) ha densità congiunta:

(
λ2 e−λy 0 < x < y
fX,Y (x, y) =
0 altrove
1. Quali sono le densità marginali di X e Y ?

2. Calcolare E(X + Y ).
3. Determinare la densità di X + Y .
4. Calcolare P (X ≤ 3, Y ≤ 2).
5. X ed Y sono indipendenti?
6. Trovare una funzione di densità congiunta diversa da fX,Y che abbia le stesse marginali.
Esercizio 4.2.5 Se le variabili aleatorie X, Y hanno funzione di densità congiunta f della forma
fX,Y (x, y) = e−2y 1(−1,1) (x)1(0,+∞) (y)
X, Y sono indipendenti?
Esercizio 4.2.6 Sia (X, Y ) un vettore aleatorio con densità uniforme sul triangolo di vertici
(0, 0), (0, 1), (2, 0).
1. Calcolate la densità marginale di X.
2. Quanto vale E(X)?
3. Quanto vale P (X > 2Y )?
4. Quanto vale P (X > 1, Y ≤ 1/2)?
Esercizio 4.2.7 (I recupero 19/07/02 CP, INF) Sia (X, Y ) un vettore aleatorio continuo
con densità data da (
1
(x + y)e−(x+y) se x, y > 0
fXY (x, y) = 2
0 altrove.
1. Determinare la densità di X + Y .
2. Calcolare le densità marginali di X e di Y . X e Y sono variabili aleatorie indipendenti?
3. Calcolare cov(X, Y ).
4. Calcolare la media di X + Y .
1
5. Calcolare la media di .
X +Y
Esercizio 4.2.8 Sia X, Y un vettore aleatorio continuo con densità

(
6
(x2 + y) x ∈ (0, 1), y ∈ (0, 1)
fX,Y (x, y) = 5
0 altrove
1. determinare P (X ≤ 0.5, Y ≤ 0.5);

2. determinare cov(X, Y );
3. X, Y sono indipendenti? Giustificare rigorosamente la risposta.
4.3. MINIMO E MASSIMO DI VARIABILI ALEATORIE I. I. D. 51
4. Determinare le funzioni di densità marginali di X e Y .

5. Trovare una diversa funzione di densità di probabilità congiunta avente le stesse marginali.
6. determinare Var(X), Var(Y ).
7. Quanto vale Var(X + Y )?
Esercizio 4.2.9 (II prova in itinere 04/07/02 CP, INF, Esercizio 1) Sia (X, Y ) un vetto-
re aleatorio continuo con densità data da
(
6
(x2 + y) se 0 < x < 1 e 0 < y < 1
fXY (x, y) = 5
0 altrove.
1. Calcolare le densità marginali di X e di Y . X e Y sono variabili aleatorie indipendenti?

2. Calcolare la covarianza di X e Y . X e Y sono variabili aleatorie non correlate?
Esercizio 4.2.10 (CP INF 06/09/03 Esercizio 1.3) Sia (X, Y ) un vettore aleatorio continuo
con densità data da
(
(x + y) se 0 < x < 1 e 0 < y < 1
fXY (x, y) =
0 altrove.
1. Calcolare le densità marginali di X e Y .

2. Calcolare media e varianza di X e di Y .
3. Calcolare la covarianza di X e Y .
4. Quanto vale Var(X − Y )?
Esercizio 4.2.11 (CP ELN-INF 10/02/04 Esercizio 2.4) Sia (X, Y ) un vettore aleatorio bi-
dimensionale assolutamente continuo con densità
1
fX,Y (x, y) = (6 − x − y)I(0,2) (x)I(2,4) (y).
8
1. Determinare le densità marginali di X e di Y .
2. Determinare E(X + Y ).
3. Determinare E(XY ).
4. Le variabili aleatorie sono indipendenti? Giustificare rigorosamente la risposta.
4.3 Minimo e Massimo di variabili aleatorie i. i. d.

Esercizio 4.3.1 Siano X1 , . . . , Xn n variabili aleatorie indipendenti con la stessa funzione di
ripartizione F . Siano Z = max{X1 , . . . , Xn } e W = min{X1 , . . . , Xn }.
1. Qual è la funzione di ripartizione di Z?
2. Qual è la funzione di ripartizione di W ?
3. Se F è assolutamente continua con densità f , qual è la densità di Z?
4. Se F è assolutamente continua con densità f , qual è la densità di W ?
Esercizio 4.3.2 Un sistema in parallelo è costituito da due componenti indipendenti i cui tempi
di guasto espressi in minuti, chiamiamoli S e T , sono entrambi variabili aleatorie assolutamente
continue con densità esponenziale di parametro λ = 0.2.
1. Qual è la probabilità che il sistema funzioni ancora dopo 10 minuti dall’attivazione?
2. Come cambia la risposta al punto 2. se i componenti sono collegati in serie?
Esercizio 4.3.3 Due giocatori A e B lanciano ciascuno un dado equilibrato finchè non ottengono
6. Se i giocatori impiegano lo stesso numero di lanci, il gioco finisce in parità, altrimenti vince chi
ha effettuato meno lanci.
1. Qual è la probabilità che il gioco finisca con k lanci?
2. Qual è la probabilità che il gioco finisca in parità?
3. Qual è la probabilità che vinca il giocatore A?
Esercizio 4.3.4 Si lanciano due dadi equi e si osservano i numeri che escono. Sia U il valore
minimo fra i due numeri usciti e W il massimo. Si determini la densità congiunta del vettore
aleatorio (U, W ).
4.4 Vettori gaussiani

Esercizio 4.4.1 Siano Z1 , Z2 i. i. d. ∼ N (0, 1) e X1 = 2Z1 + Z2 e X2 = 3Z1 − 6Z2 + 5.
1. Calcolate Var(X1 ), Var(X2 ) e cov(X1 , X2 ). [Risp: 5, 45, 0]
2. Calcolate E(X2 (1 − X1 )). [Risp: 5]
3. Calcolate E(5X1 − 2X2 ) e Var(5X1 − 2X2 ). [Risp: −10, 305]
4. Qual è la densità della variabile aleatoria Y = 5X1 − 2X2 ? [Risp: N (−10, 305)]
5. Qual è la densità del vettore aleatorio (X1 , X2 )?
Esercizio 4.4.2 Sia X = (X1 , . . . , Xn )T un vettore gaussiano con

Pnvettore delle medie b e matrice
di covarianza C. Qual è la densità della variabile aleatoria Y = j=1 aj Xj , se aj 6= 0 per qualche
Pn Pn P
j? [Risp: Y ∼ N ( j=1 aj bj , j=1 a2j cjj + i6=j ai aj cij ]
Esercizio 4.4.3 Siano X1 , X2 , X3 i. i. d. ∼ N (0, 1). Consideriamo le variabili aleatorie Y1 , Y2 , Y3

ottenute mediante le seguenti trasformazioni lineari:
Y1 = X1 + 2X2 + 3X3
Y2 = 2X1 + 3X2 + X3
Y3 = 3X1 + 1X2 + 2X3
1. Calcolate le medie di Y1 , Y2 , Y3 .
2. Calcolate la matrice di covarianza del vettore (Y1 , Y2 , Y3 )
3. Qual è la densità del vettore (Y1 , Y2 , Y3 )?
)T un vettore
Esercizio 4.4.4 Sia (X, Y T
aleatorio gaussiano con vettore delle medie (0, 0) e
4 3/2
matrice di covarianza C = . X + 2Y e X − 2Y sono indipendenti? Qual è la densità
3/2 1
di X − 2Y ? E quella di X + 2Y ?
Esercizio 4.4.5 (II recupero CP, Inf, 16 /09/02) Il peso e l’altezza delle donne americane
in età giovanile (misurato rispettivamente in chilogrammi e centimetri) si può modellizzare
con
Xp
un vettore aleatorio gaussiano (che in seguito supporremo per semplicità adimensionale) di
Xa

57 6 7
media m = e matrice di covarianza C = .
165 7 12
La regola più semplice per calcolare il peso forma, che in questo modello è rappresentato dalla
variabile aleatoria Xi , è la seguente:
Xi = Xa − 110
1. Si calcoli il coefficiente di correlazione fra Xp e Xi .
2. Si determini la densità di Xi − Xp .
3. Si determini la percentuale di donne americane in età giovanile che supera il peso forma.
4.5. TEOREMA CENTRALE DEL LIMITE 53
Esercizio 4.4.6 (III recupero 08/09/04 CP, ELN, INF) Siano X, Y due variabili aleatorie
indipendenti
√ √ in particolare X ∼ N (0, λ) (λ > 0) e Y ∼ N (0, 1). Definiamo U =
e gaussiane;
X + λY e V = X − λY .
1. Determinate le densità marginali di U e V .
2. Determinate cov(U, V ). U e V sono indipendenti?
3
3. Determinate per quali valori di λ la seguente disuguaglianza è vera: P (U ≤ 0, V ≤ 1) ≤ .
8
Esercizio 4.4.7 (II Appello CP per ING INF 01/03/06) Sia X una variabile aleatoria nor-
male di media 1 e varianza 2; sia Y una variabile aleatoria indipendente da X, normale di media
4 e varianza 4. Si introduca la variabile aleatoria W = X − Y2 . Si calcoli P [−2.5 ≤ W ≤ 0.5].
4.5 Teorema centrale del limite

Esercizio 4.5.1 (II prova in itinere, 04/07/01, CP Inf ) Due dadi equilibrati vengono lan-
ciati 300 volte. Sia X la variabile aleatoria che indica il numero di volte che si è ottenuto un
doppio uno.
1. Calcolare E(X) e Var(X).
2. Calcolare in modo approssimato la probabilità di ottenere un doppio uno più di 10 volte.
3. Quante volte bisogna approssimativamente lanciare i due dadi affinché la probabilità di
ottenere un doppio uno più di 10 volte sia maggiore di 0.5?
Si consideri l’esperimento di lanciare tre dadi contemporaneamente 300 volte e si definisca la
variabile aleatoria Y che conta il numero di volte in cui si è ottenuto un triplo 1.
4. Calcolare in maniera approssimata la probabilià che si verifichino al più 2 tripli 1.
Esercizio 4.5.2 Siano X1 , X2 , . . . variabili aleatorie i. i. d. ∼ P(4) e S = X1 + · · · + X100 .

1. Qual è la densità di S?
2. Quanto vale approssimativamente P (S ≤ 390)?
3. Quante variabili aleatorie indipendenti e con densità di Poisson di parametro 4 dobbiamo
sommare (almeno) affinché P (X1 + · · · + Xn > 390) > 0.5?
4. Se X ∼ P(256), quanto vale approssimativamente P (X > 270)?
Esercizio 4.5.3 Il primo di settembre di ogni anno un cartolaio prepara un ordine di biro gialle
con cui far fronte alle vendite dell’intero anno (=365 giorni). Si sa che il cartolaio vende X biro
gialle al giorno, dove X è una variabile aleatoria di Poisson di parametro λ = 2.5 e che il numero
di biro gialle vendute in giorni diversi sono indipendenti.
1. Se Y indica il numero totale di biro gialle vendute in un anno, qual è la densità di Y ?
[Risp: In quanto somma di v.a. di Poisson i. i. d. Y è ancora di Poisson con parametro la
somma dei parametri, cioè, Y ∼ P(365 · 2.5 = 912.5).]
2. Quanto vale approssimativamente la probabilità che in un anno si vendano al più 960 biro?
[Risp: Dobbiamo calcolare approssimativamente
P (Y ≤ 960) usando il il teorema centrale
960.5−912.5
del limite: P (Y ≤ 960) = FY (960.5) ' Φ √
912.5
= Φ(1.59) ' 0.9440]
3. Quante biro gialle dovrà approssimativamente ordinare il cartolaio affinché la probabilità di

rimanerne sprovvisto durante l’anno sia inferiore al 5%?
[Risp: Sia k il numero di biro che deve ordinare il cartolaio per far fronte alle vendite di un
anno. Dobbiamo determinare k tale che P (Y > k) < 0.05. Utilizzando l’approssimazione

gaussiana della f.d.r di Poisson, dobbiamo determinare k tale che: 1−Φ k+0.5−912.5
√
912.5
< 0.05,

equivalente a k tale che Φ k+0.5−912.5
√
912.5
> 0.95 sse k+0.5−912.5
√
912.5
> q0.95 , dove q0.95 è il quantile
√
di ordine 0.95 di Φ. Dalle tavole: q0.95 = 1.645 e k > 1.645 912.5 − 0.5 + 912.5 ' 961.6915:
il cartolaio deve ordinare almeno 962 penne gialle. ]
Esercizio 4.5.4 (II Appello CP per ING INF 01/03/06) La variabile aleatoria X che con-
ta il numero giornaliero di outlink dalla pagina web xxx alla pagina web bbb si può modellare come
una variabile aleatoria di Poisson di parametro θ > 0, cioè
( −θ k
e θ
k! k = 0, 1, 2, . . .
pX (k) =
0 altrove.
Invece, la variabile aleatoria Y che conta il numero giornaliero di outlink dalla pagina web yyy
alla pagina web bbb ha densità binomiale di parametri n = 10 e p = 0.2. Assumiamo che X e Y
siano indipendenti.
1. Determinare il valore di θ tale che la probabilità che in un giorno non ci sia nessun outlink
da xxx a bbb sia pari a 0.1
2. Determinare media e varianza di X + Y (si usi il valore di θ trovato al punto 1.)
3. Supponendo che gli outlink alla pagina bbb in giorni diversi siano tutti indipendenti, calcolare
un valore approssimato per la probabilità che in 49 giorni ci siano almeno 200 outlink alla
pagina bbb provenienti da xxx o yyy (si usi il valore di θ trovato al punto 1.)
Esercizio 4.5.5 (Esempio 3b pag. 400 da Ross (2004)) Il numero di studenti che si iscrivo-
no a un corso di laurea specialistica è rappresentato da una variabile aleatoria di Poisson di media
100. Se si iscrivono più di 120 unità i corsi saranno sdoppiati. Se invece si iscrivono al più 120
unità, si farà un unico canale.
Qual è la probabilità che i corsi di base vengano sdoppiati? [Risp: ' 0.0202]
Esercizio 4.5.6 Ho un vecchio walkman che funziona con una sola pila. Uso sempre pile aaa non
ricaricabili e con una pila del tipo aaa, il mio walkman suona per un tempo modellabile come una
2
variabile aleatoria assolutamente continua con densità f (x) = x1(0,5) (x).
25
1. Calcolate media e varianza della durata del mio walkman con la pila aaa. [Risp: E(X) = 10/3
e Var(X) = 25/18]
Siano X1 la durata della prima pila aaa, X2 la durata della seconda pila aaa, . . ., Xn la durata
dell’ n-esima pila aaa sostituita, . . ..
2. Scrivete in termini di X1 , . . . , Xn la probabilità che all’ora t io avrò sostituito almeno n
batterie. [Risp: P (X1 + · · · + Xn ≤ t) ]
3. Calcolate il valore approssimato della probabilità che dopo 250 ore io avrò sostituito almeno
72 batterie. Quale ipotesi state facendo sulla successione X1 , . . . , Xn , . . .? [Risp: 0.8413,
X1 , . . . , Xn , . . . , i. i. d.]
Esercizio 4.5.7 Sia X una variabile aleatoria uniforme su (0, 2).

1. Si determini media e varianza di X.
2. Siano X1 , . . . , X147 147 variabili aleatorie i. i. d. ∼ U(0, 2) e S = X1 + · · · + X147 . Calcolate
approssimativamente P (S < 161).
Esercizio 4.5.8 (CP TEL 18/09/03 Esercizio 1.3) Assegnata la funzione

(
2xk−1 0 < x < 1
f (x; k) :=
0 altrove
1. Per quale valore di k, f (x; k) è una funzione di densità di probabilità?

Sia X una variabile aleatoria continua con densità f (x; k), dove k assume il valore determinato al
punto 1..
2. Calcolate E(X) e Var(X).
Siano ora X1 , . . . , X200 200 variabili aleatorie iid con comune funzione di densità di probabilità
f (x; k) dove k assume il valore determinato al punto 1.. Sia inoltre S200 = X1 + · · · + X200 .
3. Quanto vale approssimativamente P (S200 > 138.816)? Giustificate rigorosamente la rispo-

sta.

Esercizio 4.1.1
6 30 5 1 4
1. cov(X, Y ) = E(XY )−E(X)E(Y ), dove: E(X) = − − = −1, E(Y ) = − + =−
36 36 36 36 36
4 4 4
e E(XY ) = . Quindi cov(X, Y ) = − = 0. Le due v.a. non sono correlate.
36 36 36
1
2. P (X = −1, Y = 1) = 0 6= = P (X = −1)P (Y = 1): X ed Y non sono indipendenti.
216
3. P ((X, Y ) ∈ {(x, y) : x + |y| = −1}) = pX,Y (−1, 0) + pX,Y (0, −1) + pX,Y (0, 1) = 2/36 +
1/36 + 1/36 = 1/9.
Esercizio 4.1.2
2 2 1 1 3 1 3·2
1. pRB (0, 1) = = 15 ; pRB (0, 2) = = 15 ; pRB (1, 0) = = 5; pRB (1, 1) = =
(62) (62) (62) (62)
3
2 ()
5; pRB (2, 0) = 2
6= 15 e pR B (r, b) = 0 altrove. Usando una tabella a doppia entrata, descriviamo
()2
pRB nel seguente modo:
R\B 0 1 2
0 0 2/15 1/15
1 1/5 2/5 0
2 1/5 0 0
R\B 0 1 2 pR
0 0 2/15 1/15 2/15 + 1/15 = 1/5
2. 1 1/5 2/5 0 2/15 + 1/5 = 3/5
2 1/5 0 0 1/5
pB 1/5 + 1/5 = 2/5 2/15 + 2/5 = 8/15 1/15
3. Quindi E(B) = 8/15 + 2 · 1/15 = 2/3. Inoltre, E(B 2 ) = 8/15 + 4 · 1/15 = 4/5. Ne segue che
Var(B) = 4/5 − (2/3)2 = 16/45.
4. E(R) = 1 e E(RB) = 1 · 1 · 2/5 = 2/5 quindi cov(R, B) = E(RB) − 2/3 = 2/5 − 2/3 = −4/15.
√
Inoltre E(R2 ) = 3/5 + 4/5 = 7/5, da cui Var(R) = 2/5. Infine ρ(R, B) = √ −4/15 = −1/ 2, da
16/45·2/5
cui evinciamo che R e B non sono scorrelate.
5. Var(R − B) = Var(R) + Var(B) − 2cov(R, B) = 2/5 + 16/45 + 8/15 = 58/45
Esercizio 4.1.3
X \Y -1 0 2 6 pX
-2 1/9 1/27 1/27 1/9 8/27 = pX (−2)
1 2/9 0 1/9 1/9 4/9
3 0 0 1/9 4/27 7/27
pY 1/3 1/27 7/27 10/27 1
1. P (“Y è pari00 ) = P (Y = 0) + P (Y = 2) + P (Y = 6) = 1/27 + 7/27 + 10/27 = 18/27 = 2/3
2. P (“XY è dispari00 ) = P ((X, Y ) = (1, −1)) = 2/9

3. P (X > 0, Y ≥ 0) = 1 − P (Y = −1) − P (X = −2) + 1/9 = 1 − 8/27 − 1/3 + 1/9 = 13/27
4. P (X > Y ) = P ((X, Y ) ∈ {(1, −1), (3, 2)}) = pX,Y (1, −1) + pX,Y (3, 2) = 2/9 + 1/9 = 1/3
5. cov(X, Y ) = E(XY
) − E(X)E(Y ) = 74/27
− (17/27) · (65/27) ' 1.225, poiché
1
E(XY ) = −2 −1 × 1/9 + 2 27 + 6 × 1/9 +1 [−1 × 2/9 + 2 × 1/9 + 6 × 1/9]+3 [2 × 1/9 + 6 × 4/27] =
74/27 e E(X) = −2 × 8/27 + 4/9 + 3 × 7/27 = 17/27, E(Y ) = −1/3 + 2 × 7/27 + 6 × 10/27 =
65/27 ' 0.1139.
6. Dal momento che cov(X, Y ) 6= 0 deduciamo che X ed Y non sono indipendenti.
7. Si vedano l’ultima colonna e l’ultima riga della tabella.
e Ye ) la cui densità congiunta è il prodotto delle marginali individuate

8. Si consideri il vettore (X,
al punto 7.:
e \ Ye
X -1 0 2 6 pX
-2 8/81 8/(27)2 56/(27)2 80/(27)2 8/27
1 4/27 4/243 28/243 40/243 4/9
3 7/81 7/(27)2 49/(27)2 70/(27)2 7/27
pY 1/3 1/27 7/27 10/27 1
Esercizio 4.1.4 L’insieme dei possibili risultati dei lanci delle tre monete è
Ω = {T T T, T T C, T CT, T CC, CT T, CT C, CCT, CCC}
Essendo le monete equilibrate ogni terna in Ω ha probabilità uniforme =1/8.

1. La densità del vettorio aleatorio (X, Y ) può essere descritta utilizzando una tabella a doppia
entrata:
X Y 0 1 2 pX (x)
pX,Y (0, 0)+
0 pX,Y (0, 0) = 0 pX,Y (0, 1) = 1/8 pX,Y (0, 2) = 1/8 pX,Y (0, 1)+
pX,Y (0, 2) = 2/8
1 1/8 2/8 1/8 4/8
2 1/8 1/8 0 2/8
pX,Y (0, 0)+
pY (y) pX,Y (1, 0)+ 4/8 2/8 1
pX,Y (2, 0) = 2/8
2. Poiché pX = pY , allora E(X) = E(Y ) e Var(X) = Var(Y ); E(X) = 48 · 1 + 28 · 2 = 1;

Var(X) = E(X 2 ) − E2 (X) = 48 · 1 + 28 · 4 − 1 = 12 ;
cov(X, Y ) = E(XY ) − E(X)E(Y ) = 1 · 1 · 82 + 1 · 2 · 18 + 2 · 1 · 81 − 1 = −1/4 ⇒ ρ(X, Y ) =
cov(X, Y )
p = −(1/4)/(1/2) = −0.5
Var(X), Var(Y )
3. Essendo ρ(X, Y ) 6= 0 allora X, Y non sono indipendenti.
1 1 1 3
4. P (X < Y ) = P ((X, Y ) ∈ {(0, 1), (0, 2), (1, 2)}) = 8 + 8 + 8 = 8
5. Sia S la variabile aleatoria che conta su 100 lanci quante volte il numero di teste per le prime
due monete è minore del numero di croci per le ultime due. Poiché i 100 lanci di tre monete
in successione costituiscono una successione di prove indipendenti e per ogni prova la probabilità
dell’evento “numero di teste per le prime due monete minore del numero di croci per le ultime
due” vale P (X < Y ) = 3/8, allora S ∼ Bi(100, 38 ) e la probabilità cercata è P (S ≥ 35) = P (S >
34) = 1 − FS (34). Per il Teorema Centrale del Limite, applicando la correzione di continuità, e
avendo in mente che E(S) = 100 · 83 = 37.5 e Var(X) = 100 · 38 · 85 = 23.4375 abbiamo:

34 + 0.5 − 37.5 37.5 − 34 − 0.5
1 − FS (34) ' 1 − Φ √ =Φ √ ' Φ(0.62) ' 0.7324
23.4375 23.4375
Esercizio 4.1.5 Le densità marginali di X e Y sono date rispettivamente da prima e ultima

colonna e prima e ultima riga della seguente tabella
X \Y 0 1 pX
0 1/3 1/3 2/3
1 1/12 1/12 1/6
2 1/12 1/12 1/6
pY 1/2 1/2 1
Poiché per ogni coppia (x, y) ∈ {(0, 0), (0, 1), (1, 0), (1, 1), (2, 0), (2, 1)}, la densità congiunta fatto-
rizza nel prodotto delle marginali [pX,Y (x, y) = pX (x)pY (y)], allora X, Y sono indipendenti.
Esercizio 4.1.6
1. I possibili risultati dell’esperimento in questione sono rappresentabili dalle coppie {(a, b) :
a 6= b, a, b : 1, 2, 3}, pertanto scegliamo come spazio campionario Ω = {(a, b) : a 6= b, a, b : 1, 2, 3},
i.e. le disposizioni senza ripetizione di ordine 2 di 3 elementi. Allora |Ω| = 3 · 2 = 6 e assegnamo
allo spazio probabilizzabile (Ω, P(Ω)) la probabilità uniforme. Abbiamo che X((a, b)) = a ed
Y ((a, b)) = max(a, b) per ogni (a, b) ∈ Ω. Pertanto: SY = {2, 3}, SX = {1, 2, 3} e
X/Y 2 3
1 (1, 2) (1, 3)
2 (2, 1) (2, 3)
3 ∅ (3, 1), (3, 2)
Deduciamo la seguente tabella della densità congiunta:

X/Y 2 3 pX
1 1/6 1/6 1/3
2 1/6 1/6 1/3
3 0 2/6 1/3
pY 1/3 2/3 1

X X 1 0 X
2. =A = .
Y −X Y −1 1 Y

1 0
Dal momento che A−1 = si ha che p(X,Y −X) (x, z) = p(X,Y ) (x, x + z), perciò:
1 1
X/Y − X 0 1 2 pX
1 0 1/6 1/6 1/3
2 1/6 1/6 0 1/3
3 1/3 0 0 1/3
pY −X 1/2 1/3 1/6
3. È descritta dalla prima e ultima riga della tabella al punto precedente.

4. Poiché: E(X) = 1 · 1/3 + 2 · 1/3 + 3 · 1/3 = 2
E(Y ) = 2 · 1/3 + 3 · 2/3 = 8/3 e
E(XY ) = 2 · 1/6 + 3 · 1/6 + 4 · 1/6 + 6 · 1/6 + 9 · 2/6 = 33/6,
allora cov(X, Y ) = E(XY ) − E(X)E(Y ) = 1/6
Esercizio 4.1.7
1. E(X) = 13 , E(Y ) = 31 +2 31 = 1, E(XY ) = 1·1· 13 = 13 e quindi cov(X, Y ) = E(XY )−E(X)E(Y ) =

0: allora X, Y sono scorrelate. Ma, pXY (0, 0) = 13 6= 32 31 = pX (0)pY (0): concludiamo che X, Y
non sono indipendenti.
2. Poichè
U X 1/2 1/2
=A , A=
Z Y −1/2 1/2
allora
−1 1 −1 −1 U U −Z
A = eA =
1 1 Z U +Z
Quindi:
p(U,Z) (u, z) = p(X,Y ) (A−1 ((U, Z)0 )) = p(X,Y ) (U − Z, U + Z) =
U \Z 0 1 pU
0 pX,Y (0, 0) = 1/3 0 1/3
1 pX,Y (1, 1) = 1/3 pX,Y (0, 2) = 1/3 2/3
pZ 2/3 1/3 1
3. cov(U, Z) = cov((X + Y )/2, (Y − X)/2) = cov(X + Y, Y − X)/4 = 1/4[cov(X, Y ) − cov(X, X) +
cov(Y, Y ) − cov(Y, X)] = [0 − V ar(X) + V ar(Y ) − 0]/4 = (−2/9 + 2/3)/4 = 1/9
Esercizio 4.1.11
1. Essendo X e Y variabili aleatorie geometriche con lo stesso parametro p, abbiamo che

1−p 0.8
Var(X) = Var(Y ) = = = 20. Per l’indipendenza della variabili X e Y abbiamo
p2 0.04
che
Var(U ) = Var(0.5X) + Var(0.1Y ) = 0.25Var(X) + 0.01Var(Y ) = 0.25 × 20 + 0.01 × 20 = 5.2.
Analogamente Var(V ) = 20b2 + 20 = 20(b2 + 1).
2. cov(U, V ) = cov(0.5X + 0.1Y, bX + Y + c) = cov(0.5X, bX) + cov(0.1Y, Y ) = 0.5 × b × 20 +

0.1 × 20 = 10b + 2.
3. cov(U, V ) = 10b + 2 = 0 se b = −0.2 e qualunque sia il valore di c. In tal caso Var(V ) =

20(0.04 + 1) = 20.8 e Var(U − V ) = Var(U )+ Var(−V ) = Var(U )+ Var(V ) = 5.2 + 20.8 = 26.
Esercizio 4.2.3 Se y > 0 allora: FY (y) = limx→+∞ FX,Y (x, y) = limx→+∞ (1 − e−λy − λye−λy ) =
1 − e−λy − λye−λy altrimenti FY (y) = 0. Se x > 0 allora: FX (x) = limy→+∞ F(X,Y ) (x, y) =
limy→+∞ 1 − λxe−λy − e−λx = 1 − e−λx , altrimenti FX (x) = 0. Quindi:
fX (x) = λe−λx 1(0,+∞) (x) e fY (y) = λ2 ye−λy 1(0,+∞) (y).
cioè X ∼ E(λ), mentre Y ∼ Γ(2, λ).

Esercizio 4.2.4
fX (x) = λe−λx 1(0,+∞) (x) e fY (y) = λ2 ye−λy 1(0,+∞) (y),
cioè X ∼ E(λ), mentre Y ∼ Γ(2, λ).

Facilmente si ottiene E(X + Y ) = E(X) + E(Y ) = λ1 + λ2 = λ3 .
R z 2 −λy z
R z/2 λ e dy = λ[e−λ 2 − e−λz ] z > 0
fX+Y (z) = R f(X,Y ) (z − y, y) dy =
0 altrove
R 2 R y
P (X ≤ 3, Y ≤ 2) = P ((X, Y ) ∈ (−∞, 3] × (−∞, 2]) = λ2 0 0 e−λy dx dy = −2λe−2λ + 1 − e−2λ .
Il fatto che f(X,Y ) (x, y) = 0 6= fX (x)fY (y), ∀(x, y) ∈ {(x, y) ∈ R2 : x > y > 0} è sufficiente per
concludere che X ed Y non sono indipendenti.
2
g(x, y) = f(X, e ) (x, y) = fX (x)fY (y), (x, y) ∈ R è una densità congiunta con marginali fX , fY . g
e Y
è diversa da fX,Y come si evince dal punto 5..
Esercizio 4.2.5 Poichè f è della forma f (x, y) = f1 (x)f2 (y), ∀(x, y) ∈ R2 dove f1 (x) = 1(−1,1) (x)
e f2 (y) = e−2y 1(0,+∞) (y), allora X e Y sono indipendenti. Inoltre X ha densità uniforme
sull’intervallo (−1, 1) e Y ha densità esponenziale di parametro 2.
Esercizio 4.2.6
(R (
1−x/2
R 1 dy x ∈ (0, 2) 1 − x/2 x ∈ (0, 2)
1. fX (x) = fX,Y (x, y) dy = 0 = .
0 altrove 0 altrove
R2
2. E(X) = 0
x(− x2 + 1) dx = 32 .
3. Poiché (X, Y ) è uniforme sul triangolo R di vertici (0, 0), (0, 1), (2, 0), allora P (X > 2Y ) =
area{(x, y) ∈ R : x > 2y} 1
= .
area R 2
4. P (X > 1, Y ≤ 1/2) = Area del triangolo di vertici (1, 0), (2, 0), (1, 1/2)/area(R) = 1/4.
Esercizio 4.2.7 R Rz Rz
+∞
1. fX+Y (z) = −∞ fXY (z − y, y) dy = 0 21 ze−z du1(0,+∞) (z) = z −z
2e 1(0,+∞) (z) 0 du =
z 2 −z
2 e 1(0,+∞) (z),cioè Z ∼ gamma(3, 1).
R∞ R +∞ 1
2. fX (x) = −∞ fXY (xy) dy = 0 2 (x + y)e
−(x+y)
dy = 21 (x + 1)e−x 1(0,+∞) (x). Analoga-
mente fY (y) = 12 (y + 1)e−y 1(0,+∞) (y): X e Y non sono indipendenti, perché la densià congiunta
non fattorizza nel prodotto delle marginali. nR o
R +∞ +∞ R +∞
3. E(Y ) = E(X) = 0 x 12 (x + 1)e−x dx = 0 x2 e−x dx + 0 xe−x dx /2 = (2 + 1)/2 =
3/2;
R +∞ R +∞ 1 −(x+y)
R +∞ −y nR +∞ 2 −x R
y +∞ −x
o
E(XY ) = 0 0 xy 2 (x + y)e dxdy = 0 ye 0 x e /2 dx + 2 0 xe dx dy = 2
cov(X, Y ) = E(XY ) − E(X)E(Y ) = 2 − ( 23 )2 = − 14 .
4. Siano X1 , X2 , X3 i.i.d. ∼ E(1). Poichè X + Y è gamma(3,1), allora la densità di X + Y
coincide con la densità di X1 + X2 + X3 . Pertanto E(X + Y ) = E(X1 + X2 + X3 ) = 3EX1 = 3.
Alternativamente, procediamo nel seguente modo:
Z ∞Z ∞ Z ∞Z ∞
1
E(X + Y ) = (x + y)fXY (x, y)dxdy = (x + y)2 ex+y dxdy = . . . = 3
−∞ −∞ 0 0 2
Oppure: Sia Z = X + Y . Allora

Z +∞ Z +∞
z 2 −z z 3 −z
E(X + Y ) = E(Z) = z e 1(0,+∞) (z)dz = e dz = 3
−∞ 2 0 2
Oppure: E(X + Y ) = E(X) + E(Y ) = 23 + 32 = 3.

1 R +∞ 1 1 2 −z 1
R +∞
5. Sia Z = X + Y . Allora E = 0 z · 2 ·z e dz = 2 0
ze−z dz = 21 .
Z
Esercizio 4.2.8
Z 1/2 Z 1/2 Z 1/2 Z 1/2
6
(1) P (X ≤ 1/2, Y ≤ 1/2) = fX,Y (x, y) dxdy = (x2 + y) dxdy =
−∞ −∞ 5 0 0
Z Z
6 1/2
x3 1/2 y 6 1/2 1 y 1
= 0 + dy = 3
+ dy = .
5 0 3 2 5 0 3·2 2 10
1
2. cov(X, Y ) = E(XY ) − E(X)E(Y ) = − 100 ; Infatti,
Z Z 1
3 6 x4 1 3 x2 1 3
E(X) = xfX (x) dx = x(2x2 + 1) dx = + =
R 5 0 5 4 0 5 2 0 5
Z Z 1
2 3
E(Y ) = yfy (y) dy = y (3y + 1) dy =
0 5 5
ZR Z Z
6 6
E(XY ) = xyfX,Y (x, y) = xy(x2 + y) dxdy = (x3 y + xy 2 ) dxdy
R 2 5 [0,1] 2 5 [0,1] 2
Z Z
6 3 6 2
= x y dxdy + xy dxdy
5 [0,1]2 5 [0,1]2
Z Z Z Z
6 3 6 2
= y( x dx)dy + y ( x dx) dy
5 [0,1] [0,1] 5 [0,1] [0,1]
Z Z
6 x4 1 6 x2 1
= y dy + y2 dy
5 [0,1] 4 0 5 [0,1] 2 0
3 2 1 2 1 7
= y + y3 =
20 0 10 0 20
1
3. X e Y non sono indipendenti, perché cov(X, Y ) = − 100 6= 0:se sono correlate allora non
sono indipendenti. R
R 1
4. fX (x) = R fXY (x, y)dy = 0 65 (x2 + y)dy 1(0,1) (x) = 35 (2x2 + 1)1(0,1) (x);
R R
1
fY (y) = R fXY (x, y)dx = 0 65 (x2 + y)dx 1(0,1) (y) = 25 (3y + 1)1(0,1) (y);
5. fe(x, y) = fX (x)fY (y) = 256
(2x2 + 1)(3y + 1)1(0,1) (y)1(0,1) (x)
R1
6. Var(X) = E(X 2 ) − E2 (X) = 0 35 x2 (2x2 + 1)dx − 25 9
= 11 9
25 − 25 = 25 .
2
R 1 9
Var(Y ) = E(Y 2 ) − E2 (Y ) = 0 52 y 2 (3y + 1)dy − 25 = 13 9
30 − 25 = 50 .
3
2 3 1 3
7. Var(X + Y ) = Var(X) + Var(Y ) + 2cov(X, Y ) = 25 + 50 − 50 = 25
Esercizio 4.3.1
(1) FW (x) = P (W ≤ x) = 1 − P (W > x) = 1 − (1 − F (x))n
dal momento che

\
n

P (W > x) = P (min{X1 , . . . , Xn } > x) = P Xj > x =
j=1
n
Y n
Y n
Y
= P (Xj > x) = (1 − P (Xj ≤ x)) = (1 − F (x)) = (1 − F (x))n
j=1 j=1 j=1
T Qn
n
2. FZ (x) = P (Z ≤ x) = P (max{X1 , . . . , Xn } ≤ x) = P j=1 Xj ≤ x = j=1 P (Xj ≤ x) = F n (x)
d
3. fZ (x) = dx F n (x) = nF n−1 (x)f (x);
d
4. fW (x) = dx 1 − (1 − F (x))n = n(1 − F (x)n−1 f (x).
Esercizio 4.3.2
1. Sia F la comune f.d.r. di S e T . La durata di vita di un sistema in parallelo costituito da
due componenti con tempi di vita S e T è data da Z = max{S, T }. Quindi, il sistema dopo 10
minuti dall’attivazione funziona se e solo se {Z > 10} e
P (Z > 10) = 1 − FZ (10) = 1 − (F (10))2 = 1 − (1 − e−0.2∗10 )2 = 0.2524
2. La durata di vita di un sistema in serie costituito da due componenti con tempi di vita S e
T è data da W = min{S, T }. Quindi, il sistema dopo 10 minuti dall’attivazione funziona se e solo
se {W > 10}. Chiamiamo F la comune f.d.r. di S e T . Poichè
P (W > x) = (1 − F (x))2 = (e−λx )2 = e−2λx ∀x > 0
Quindi W ∼ E(2λ) e la probabilità cercata è P (W > 10) = e−4 ' 0.01832.

Esercizio 4.3.3 Siano X e Y due variabili aleatorie che indicano rispettivamente il numero dei
lanci necessari ad A e quelli necessari a B per ottenere 6. Poichè i risultati dei lanci dei due
dadi dei concorrenti si configurano come esperimenti indipendenti, X e Y sono variabili aleatorie
indipendenti. Entrambe hanno densità geometrica di parametro p = 1/6. Esprimiamo ora gli
eventi di cui dobbiamo calcolare la probabilità in termini di X e Y .
1. Il gioco finisce con k lanci se e solo se “W ≡ min{X, Y } = k”. Quindi, applicando i
risultati sulla funzione di ripartizione del minimo, otteniamo:
P (W = k) = FW (k) − FW (k − 1) = (1 − F (k − 1))2 − (1 − F (k))2
[dove F (x) indica la f.d.r. della geometrica di parametro 1/6, data da F (k) = 1 − (5/6)k ]
11 k−1 11
= (1 − p)2(k−1) − [(1 − p)2 ]k = [(1 − p)2 ]k−1 (1 − (1 − p)2 ) = (1 − ) ·
36 36
Osservazione 1 Se X e Y sono indipendenti e geometriche di parametro p, q, rispettivamente,
allora W = min{X, Y } ha densità geometrica di parametro 1 − (1 − p)(1 − q) = p + q − pq.
[
∞
2. P (“Il gioco finisce in parità”) = P (X = Y ) = P {X = k, Y = k}
k=1
∞
X ∞
X ∞
X
= P (X = k, Y = k) = P (X = k)P (Y = k) = [p(1 − p)k−1 ]2
k=1 k=1 k=1
∞
X
2 p 1
=p (1 − p)2k = = ' 0.091.
2−p 11
k=0
[
∞ X∞
3. P (“vince A”) = P (X < Y ) = P {X = k, Y > k} = P (X = k, Y > k)
k=1 k=1
∞
X ∞
X ∞
X 1−p 5
= P (X = k)P (Y > k) = p(1 − p)k−1 (1 − p)k = p(1 − p) (1 − p)2k = =
2−p 11
k=1 k=1 k=0
Esercizio 4.3.4 Introduciamo due v.a. aleatorie D1 e D2 che rappresentano rispettivamente i

risultati del primo e del secondo lancio. Esse sono indipendenti ed entrambe sono uniformi su
{1, 2, . . . , 6}. Allora U = min{D1 , D2 } e W = max{D1 , D2 }.
Notiamo innanzitutto che U, W ∈ {1, 2, . . . , 6} e P (U ≤ W ) = 1. Quindi otteniamo per i, j =
1, . . . , 6 :

 0 se i > j
1
p(U,W ) (i, j) = P (D1 = i, D2 = i) = P (D1 = i)P (D2 = i) = 36 se i = j
 2
P (D1 = i, D2 = j) + P (D1 = j, D2 = i) = 36 se i < j
Esercizio 4.4.3
1. Essendo ciascun Yj somma di variabili a medie nulle allora E(Y1 ) = E(Y2 ) = E(Y3 ) = 0.
2. Poiché     
Y1 1 2 3 X1
Y := Y2  = 2 3 1 X2  := X,
Y3 3 1 2 X3
   
1 2 3 Y1
e A := 2 3 1 è matrice simmetrica e invertibile (infatti det(A) = −18) allora Y2  ha
3 1 2 Y3
matrice di covarianza:
     
1 2 3 1 2 3 14 11 11
C := 2 3 1 I 2 3 1 = 11 14 11
3 1 2 3 1 2 11 11 14
3. Infine, sempre considerando che Y = AX, con A matrice invertibile, deriva che Y ∼
N (0, C).
Esercizio 4.4.4

X + 2Y X 1 2
1. =A con A := che ha det(A) = −2 − 2 = −4.
X − 2Y Y 1 −2
Allora A ha rango pieno e (X + 2Y, X − 2Y )T ∼ N con vettore delle medie: A(0, 0)T = (0, 0)T e
matrice di covarianza

1 2 4 3/2 1 1 14 0
ACAT = =
1 −2 3/2 1 2 −2 0 2
Poiché la matrice di covarianza è diagonale e il vettore (X + 2Y, X − 2Y )T è gaussiano, segue che

(a) X + 2Y e X − 2Y sono indipendenti e
(b) X + 2Y ∼ N (0, 14) e X − 2Y ∼ N (0, 2).
Esercizio 4.4.5
cov(Xa , Xp ) 7
1. ρ(Xi , Xp ) = ρ(Xa − 110, Xp ) = ρ(Xa , Xp ) = p p =√ = 0.8249
var(Xa ) var(Xp ) 6 ∗ 12
2. Xi − Xp = Xa − 110 − Xp ∼ N (−2, 4).
3. Dobbiamo calcolare

Xi − Xp − (−2) 0 − (−2)
P (Xp > Xi ) = P (Xi − Xp < 0) = P < = Φ(1) = 0.8413 :
2 2
l’84.13% delle donne americane in età giovanile è in sovrappeso.

Esercizio 4.4.6
1. Poiché U e V sono entrambe combinazioni lineari di variabili aleatorie gaussiane indipen-
denti, allora il vettore (U, V ) è gaussiano bidimensionale. Segue che √sia U che V sono gaussiane.
In particolare esse sono identicamente√distribuite √ con densità N (0 + λ0 = 0, λ + λ = 2λ).
2. cov(U, V ) = E(U V ) = E[(X + λY )(X − λY )] = E(X 2 − λY 2 ) = Var(X) − λVar(Y ) =
λ − λ = 0. Poiché, come osservato al punto 1., il vettore (U, V ) è un gaussiano, si può concludere
che U e V sono indipendenti.
1 1 1 3
3. P (U ≤ 0, V ≤ 1) = P (U ≤ 0) · P (V ≤ 1) = P (V ≤ 1) = Φ √ ≤ se e solo se
2 2 2λ 8
1 √ 1 1
Φ √ ≤ 0.75 ' Φ(0.6745) se solo se 2λ ≥ se e solo se λ ≥ 2
' 1.099.
2λ 0.6745 2 · 0.6745
Esercizio 4.4.7 Per la linearità del valore atteso E[W ] = 1 − 24 = −1. Per l’indipendenza e le
proprietà della varianza Var[W ] = 2 + 242 = 3. Dato che combinazioni lineari di normali danno
normali, W è normale. Poi abbiamo

1.5 W − (−1) 1.5 1.5 1.5
P [−2.5 ≤ W ≤ 0.5] = P − √ ≤ √ ≤ √ =Φ √ − Φ −√
3 3 3 3 3

1.5
= 2Φ √ − 1 ' 2Φ(0.866) − 1 ' 0.6134 ' 61%
3
Esercizio 4.5.1
1. Poichè X rappresenta il numero di successo su 300 prove bernoulliane con probabilità di suc-
cesso pari alla probabilità di ottenere la coppia (1, 1), lanciando due dadi regolari simultaneamente,
1
allora, tale probabilità è p = 36 e X ∼Bi(300, 1/36). In conseguenza di ciò E(X) = 300/36 = 25/3
e Var(X) = 300/36 · 35/36 = 875/108.

2. P (X > 10) = 1−P (X ≤ 10) = 1−P (X ≤ 10.5) = 1−P √X−EX ≤ 0.76 ' 1−Φ(0.76) '
Var(X)
0.22363.
10.5−n/36
3. 1 − Φ √ > 0.5 ⇔ Φ( 378−n
√
35n
) < 0.5 ⇔ 378−n
√
35n
< 0 ⇔ n > 378.
35n/362
4. la probabilità che si verifichi un triplo 1 è p = 613 = 0.0046, quindi Y ∼ Bi(300, 0.0046). Dal
momento che 300∗0.0046 = 1.39 < 5 approssiamo la densità binomiale tramite la densità di Poisson
∗(1.39)2
di parametro 0.0046 ∗ 300 = 1.39, si ha quindi P (Y ≤ 2) ∼ e−1.39 + e ∗(1.39)
+e
−1.39 −1.39
1! 2! ∼
0.8359.
Esercizio 4.5.2
1. In quanto somma di v.a. di Poisson i. i. d. S è ancora di Poisson con parametro la somma
dei parametri, cioè, S ∼ P(100 · 4) = P(400).
2. Per il teorema centrale del limite, P (S ≤ 390) vale approssimativamente

390.5 − 400
P (S ≤ 390) = P (S ≤ 390+0.5) ' Φ √ = Φ(−0.475) = 1−Φ(0.475) ' 1−0.6826 = 0.3174
400

390.5 − 4n
(3) 0.5 < P (X1 + · · · + Xn > 390) = 1 − P (X1 + · · · + Xn ≤ 390) ' 1 − Φ √ ,
2 n
se e solo se

390.5 − 4n 390.5 − 4n
Φ √ < 0.5 sse √ < q0.5 = 0 sse 390.5 − 4n < 0 sse n > 97.625 cioè n ≥ 98.
2 n 2 n
4. Siano Y1 , . . . , Y256 256 variabili aleatorie discrete i.i.d. con densità di Poisson di parametro 1.
Allora X ha la stessa densità di S = Y1 + . . . + Y256 . Quindi, applicando il Teorema centrale del
limite: P (X > 270) = P (S > 270) = 1 − FS (270) = 1 − FS (270 + 0.5) ' 1 − Φ( 270+0.5−256 √
256
)=
1 − Φ(0.90625) ' 1 − 0.818588 = 0.181412.
Esercizio 4.5.4
1. Deve essere P (X = 0) = e−θ = 0.1, quindi θ = ln 10 ' 2.3026.
2. E(X + Y ) = E(X) + E(Y ) = ln 10 + 2 ' 4.3026. Inoltre dal momento che si tratta di variabili
aleatorie indipendenti, si ha
Var(X + Y ) = Var(X) + Var(Y ) = ln 10 + 10 × 0.2 × 0.8 = ln 10 + 1.6 ' 3.9026
3. Siano Xi , Yi le variabili aleatorie che contano rispettivamente il numero di outlink da xxx

alla pagina bbb e il numero di outlink da yyy alla pagina bbb nel giorno i-esimo. Poniamo
Vi = Xi + Yi ; allora il numero di outlink alla pagina bbb provenienti da xxx o yyy in 49
giorni è dato da S49 = V1 + · · · + V49 , dove V1 , . . . , V49 sono i.i.d. Pertanto si ha E(S49 ) =
49(ln 10 + 2) ' 210.8267 e Var(S49 ) = 49(ln 10 + 1.6) ' 191.2267. Dobbiamo calcolare:
P (S49 ≥ 200). Dal Teorema Centrale del Limite si ha

S49 − 210.8267 199 − 210.8267
P (S49 ≥ 200) = 1 − P (S49 ≤ 199) = 1 − P √ ≤ √
191.2267 191.2267
' 1 − Φ (−0.8552) ' Φ(0.86) ' 0.8051
Se si applica la correzione di continuità:

S49 − 210.8267 199.5 − 210.8267
P (S49 ≥ 200) = 1 − P (S49 ≤ 199.5) = 1 − P √ ≤ √
191.2267 191.2267
' 1 − Φ (−0.8191) ' Φ(0.82) ' 0.7939
Esercizio 4.5.7
1. E(X) = E(2U ) = 2E(U ) = 2/2 = 1, Var(X) = Var(2U ) = 4Var(U ) = 4/12 = 1/3 dove
U ∼ U (0, 1);
2. Sia S = X1 + · · · + X147 . In quanto somma di variabili aleatorie i. i. d. assolutamente
continue, anche S è assolutamente continua da cui P (S < 161) = P (S ≤ 161). Inoltre E(S) = 147
e Var(S) = 147 · 31 = 49. Per il teorema centrale del limite, la f.d.r. di S−E(S)
√
VarS
converge alla f.d.r

N (0, 1). Quindi, P (S < 161) = FS (161) ' Φ 161−147
√
49
= Φ(2) ' 0.9772.
Capitolo 5
Miscellanea
5.1 Esercizi di ricapitolazione

Esercizio 5.1.1 Al casinò ogni sabato sera gioco alla roulette e punto 10 volte sul rosso. Sia X
la variabile aleatoria che indica quante volte vinco.
(1) Qual è la densità di X? Quanto valgono E(X) e Var(X)? (X ∼ Bin(10, 18/37), E(X) =
180/37, Var(X) = 180/37 ∗ 19/37)
(2) Per puntare 10 volte sul rosso, pago una posta iniziale di 50 euro e ad ogni giocata o tota-
lizzo
0 o vinco 20 euro. Qual è la probabilità di vincere 50 euro (al netto della posta)? [risp
10 5 5
5 (18/37) (19/37) ≈ 0.2452]
(3) Se torno al casinò per 100 sabati consecutivi e punto ogni sabato 10 volte sul rosso, quanto
vale approssimativamente la probabilità di totalizzare un numero di vittorie complessivo compreso
fra 480 e 520 (inclusi)? [risp: P (480 ≤ Y ≤ 520) ' 0.7551, dove Y ∼ Bin(1000, 18/37).]
Esercizio 5.1.2 Sia X una variabile aleatoria assolutamente continua con densità fX (x) = |x|1(−1,1) (x)
ed Y una variabile aleatoria esponenziale di parametro 1 indipendente da X.
(1) Determinate E(X 2 ) e E(X 3 ).
(2) Calcolate P (X < 0.3).
(3) Posto Z = X 2 determinate la densità di Z.
(4) Calcolate media e varianza di W = Z + Y .
(5) Siano ora W1 , . . . , W161 161 variabili aleatorie iid con media E(W ) e varianza Var(W )
individuate al punto (4). Calcolate approssimativamente la probabilità che W1 + · · · + W161 ∈
[230, 250].
(6) Quante variabili aleatorie i.i.d. aventi la stessa densità di W è necessario sommare affinchè
la probabilità che W1 + · · · + Wn ≤ 250 sia inferiore a 0.5?
Soluzione
R1 R1 R1
(1) E(X 2 ) = −1 x2 |x| dx = 2 0 x3 dx = 1/2. Mentre E(X 3 ) = −1 x3 |x| dx = 0, essendo
l’integranda una funzione dispari.
(2) Si ha:
Z 0 Z 0.3
P (X < 0.3) = − x dx + x dx = 1/2 + 0.09/2
−1 0
√ √ (
fX ( x) + fX (− x) 1 se x ∈ (0, 1)
(3) fZ (x) = √ = =⇒ Z ∼ U (0, 1).
2 x 0 se x ∈
/ (0, 1)
(4) E(W ) = E(Z)+E(Y ) = E(X 2 )+1 = 1/2+1 = 3/2. Var(Z) = E(X 4 )−(E(X 2 ))2 = 1/3−1/4 =
1/12, quindi per l’indipendenza di Z e Y : Var(W ) = Var(Z) + Var(Y ) = 1/12 + 1 = 13/12.
65
66 CAPITOLO 5. MISCELLANEA
(5) W1 , . . . W161 son v.a. i.i.d con E(W1 +· · ·+W161 ) = 241.5 e Var(W1 +· · ·+W161 ) = 161∗13/12 '
174.4167. Per il Teorema centrale del limite:
!
230 − 241.5 W1 + · · · + W161 − 241.5 250 − 241.5
P (230 ≤ W1 + · · · + W161 ≤ 250) = P p ≤ p ≤ p
161 ∗ 13/12 161 ∗ 13/12 161 ∗ 13/12
' Φ(0.6436) − Φ(−0.8708) = 0.7401 − 0.1919 = 0.5482
(6) W1 , . . . Wn v.a. i.i.d con E(W1 + · · · + Wn ) = n ∗ (3/2) e Var(W1 + · · · + W161 ) = n ∗ (13/12).

Per il Teorema centrale del limite:
!
W1 + · · · + Wn − 3n/2 250 − 3n/2
0.5 > P (W1 + · · · + Wn ≤ 250) = P p ≤ p
13n/12 13n/12
Quindi: 250−3n/2
√ < 0, da cui n > 250 ∗ 2/3 = 166.6667, ovvero n ≥ 167.
13n/12
Esercizio 5.1.3 Due urne contengono 50 dadi ciascuna. In una i dadi sono regolari, nell’altra i
dadi sono truccati in modo che la probabilità di ottenere 1 sia 12 e la probabilità di ottenere ogni
1
altro risultato è 10 .
(1) Un dado viene estratto a caso (probabilità uniforme) da una delle due urne e lanciato, sia X
la v.a. che indica il risultato del lancio. Si calcoli la probabilità di ottenere un 3 e la media di X.
(2) Calcolare la probabilità di aver lanciato un dado truccato, sapendo che si è ottenuto un tre.
(3) Consideriamo il seguente esperimento: un dado viene estratto a caso e viene lanciato due volte.
Siano A l’evento “al primo lancio ottengo 2” e B = “al secondo lancio ottengo 3”. A e B sono
indipendenti?
Soluzione
(1) Sia T = “il dado scelto è truccato”. Allora:
1 1 1 1 2
P (X = 3) = P (X = 3|T )P (T ) + P (X = 3|T c)P (T c ) = ∗ + ∗ = .
10 2 6 2 15
È facile verificare che pX (k) = P (X = k) = 2/15, per ogni k = 2, 3, 4, 5, 6 e quindi pX (1) =

1 − 5 · (2/15) = 5/15 = 1/3. Segue che
6
X 1 2
E(X) = kPX (k) = ∗ 20 · =3
3 15
k=1
(2) Applichiamo il teorema di Bayes:
1/10 ∗ 1/2 3
P (T |X = 3) = = .
2/15 8
(3) verifichiamo se vale la relazione P (A ∩ B) = P (A)P (B). Essendo

1 2 1 1 2 1 2 2
P (A ∩ B) = P (A ∩ B|T )P (T ) + P (A ∩ B|T c )P (T c ) = + 6= = P (A)P (B)
10 2 6 2 15
allora A e B non sono indipendenti.
Esercizio 5.1.4 (CP INF 16/09/02 Esercizio 1.2) Sia X una variabile aleatoria continua
con densità uniforme sull’intervallo (0, 1) ed Y una variabile aleatoria esponenziale di parametro
1 indipendente da X.
5.1. ESERCIZI DI RICAPITOLAZIONE 67
1. Posto Z = − 31 log(X), si determini la densità di Z.

2. Posto W = 13 Y , si determini la densità di W .
3. Si calcoli la media e la varianza di Z + W .
Esercizio 5.1.5 (CP ELN INF 10/02/04 Esercizio 2.3) Un commerciante sa che il numero
di computer portatili che può vendere in un qualsiasi giorno di apertura (dal lunedı̀ al venerdı̀
di ogni settimana) ha densità di Poisson di parametro 0.4 e che il numero di portatili venduti nei
singoli giorni sono indipendenti.
1. Sia Y il numero di computer venduti in una settimana. Qual è la densità di Y ? Qual è la
media di Y ?
2. Qual è la probabilità che il commerciante non venda nessun portatile in una settimana?
Sia X il numero di settimane consecutive che passano a partire da lunedı̀ 16 febbraio 2004 fino a
quando il commerciante non vende il primo portatile (compresa la settimana in cui si verifica la
prima vendita).
3. Qual è la densità di X? Qual è la probabilità che si debbano attendere almeno tre settimane
per vendere il primo portatile?
68 CAPITOLO 5. MISCELLANEA
Bibliografia
[1] Baldi, P. Giuliano R., Ladelli, L. (1995) Laboratorio di Statistica e Probabilità, problemi svolti,
Mc Graw Hill Italia.
[2] Bramanti, M. (1998) Calcolo delle probabilità e statistica, Progetto Leonardo Bologna.
[3] Cacoullos, T. (1989) Exercises in probability Springer New York.
[4] Feller, W. (1950) An Introduction to Probability Theory and Its Applications, volume 1. John
Wiley & Sons.
[5] Epifani, I., Ladelli, L.M. e Posta, G. (2006) Appunti per il corso di Calcolo delle Probabilità,
AA 2005/2006 http://www1.mate.polimi.it/∼ileepi/dispense/0506CP/
[6] Hsu, H. (1998) Probabilità, variabili casuali e processi stocastici, Schaum’s n. 93. Mc Graw
Hill Italia.
[7] Mood, A. M., Graybill, F. A., Boes, D.C. (1988) Introduzione alla statistica, Mc Graw Hill
Italia.
[8] Ross, S.M. (1987) Introduction to Probability And Statistics for Engineers and Scientists,
J.Wiley.
[9] Ross, S.M. (2004) Calcolo delle probabilità, Apogeo.
[10] Temi d’esame degli AA 2000-2004: http://www1.mate.polimi.it/∼ileepi/temi-esame
[11] Trivedi, K S. (2002) Probability and statistics with reliability, queuing, and computer science
applications, 2. ed. Wiley New York.
69
Politecnico di Milano
Appunti per il corso
di
calcolo delle probabilità
Anno Accademico 2005/20061
Ilenia Epifani
Lucia Ladelli
Gustavo Posta
1 Ilcontenuto di queste dispense è protetto dalle leggi sul copyright e dalle disposizioni dei
trattati internazionali. Il materiale qui contenuto può essere copiato (o comunque riprodotto) ed
utilizzato liberamente dagli studenti, dagli istituti di ricerca, scolastici ed universitari afferenti
ai Ministeri della Pubblica Istruzione e dell’Università e della Ricerca Scientifica e Tecnologica
per scopi istituzionali, non a fine di lucro. Ogni altro utilizzo o riproduzione (ivi incluse, ma
non limitatamente a, le riproduzioni a mezzo stampa, su supporti magnetici o su reti di calco-
latori) in toto o in parte è vietata, se non esplicitamente autorizzata per iscritto, a priori, da
parte degli autori. L’informazione contenuta in queste pagine è ritenuta essere accurata alla da-
ta della pubblicazione. Essa è fornita per scopi meramente didattici. L’informazione contenuta
in queste pagine è soggetta a cambiamenti senza preavviso. Gli autori non si assumono alcuna
responsabilità per il contenuto di queste pagine (ivi incluse, ma non limitatamente a, la correttez-
za, completezza, applicabilità ed aggiornamento dell’informazione). In ogni caso non può essere
dichiarata conformità all’informazione contenuta in queste pagine. In ogni caso questa nota di
copyright non deve mai essere rimossa e deve essere riportata anche in utilizzi parziali. Copyright
2005 Ilenia Epifani, Lucia Ladelli e Gustavo Posta.
2
Indice
1 Probabilità 1
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Spazio campionario . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Spazio di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Proprietà della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Spazi finiti o numerabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Probabilità condizionata ed indipendenza . . . . . . . . . . . . . . . . . . . 15
1.5.1 Alcune formule importanti . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.3 Prove di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Variabili aleatorie 27
2.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Esempi di densità discrete notevoli . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Densità binomiale e bernoulliana . . . . . . . . . . . . . . . . . . . 36
2.3.2 Densità Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.3 Densità di Poisson come limite di densità binomiale . . . . . . . . . 39
2.3.4 Densità ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4 Variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 44
2.5 Esempi di densità continue notevoli . . . . . . . . . . . . . . . . . . . . . . 47
2.5.1 Densità uniforme continua . . . . . . . . . . . . . . . . . . . . . . . 47
2.5.2 Densità esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.5.3 Densità gaussiana standard . . . . . . . . . . . . . . . . . . . . . . 50
2.6 Funzioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.6.1 *Cenno alla simulazione di variabili aleatorie . . . . . . . . . . . . . 56
3 Media varianza e momenti 59

3.1 Valore atteso (o media) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.1.1 Valore atteso di funzioni di variabili aleatorie . . . . . . . . . . . . . 62
i
ii INDICE
3.1.2 Proprietà del valore atteso . . . . . . . . . . . . . . . . . . . . . . . 63

3.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 Proprietà della varianza . . . . . . . . . . . . . . . . . . . . . . . . 65
3.3 Disuguaglianza di Chebychev . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4 Standardizzazione di una variabile aleatoria . . . . . . . . . . . . . . . . . 69
3.5 Densità gaussiana N (µ, σ 2) . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.6 Approssimazione gaussiana della funzione di ripartizione binomiale . . . . . 70
3.7 *Momenti e funzione generatrice dei momenti . . . . . . . . . . . . . . . . 73
4 Vettori Aleatori 77
4.1 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . 77
4.2 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3 Vettori aleatori discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.4 Vettori aleatori assolutamente continui . . . . . . . . . . . . . . . . . . . . 84
4.5 Funzioni di vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5.1 Funzioni di vettori aleatori discreti . . . . . . . . . . . . . . . . . . 87
4.5.2 Funzioni di vettori aleatori assolutamente continui . . . . . . . . . . 89
4.6 *Vettori aleatori indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.7 Valore atteso di funzioni di vettori aleatori . . . . . . . . . . . . . . . . . . 93
4.8 Covarianza, Coefficiente di correlazione . . . . . . . . . . . . . . . . . . . . 95
4.8.1 Matrice di covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.9 *Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . 100
4.10 Vettori gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.11 Teoremi limite per somme di variabili aleatorie . . . . . . . . . . . . . . . . 106
4.11.1 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . 106
4.11.2 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . 108
A Richiami di analisi matematica A-1

A.1 Richiami di teoria degli insiemi . . . . . . . . . . . . . . . . . . . . . . . . A-1
A.2 Alcuni limiti notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-2
A.3 Calcolo integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-2
A.3.1 Proprietà dell’integrale . . . . . . . . . . . . . . . . . . . . . . . . . A-2
A.3.2 Regole di integrazione . . . . . . . . . . . . . . . . . . . . . . . . . A-2
A.3.3 Alcuni integrali immediati . . . . . . . . . . . . . . . . . . . . . . . A-3
A.4 Successioni e serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-4
B Calcolo combinatorio B-7

B.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B-7
B.2 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . B-7
B.3 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B-9
B.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B-10
Capitolo 1
Probabilità
1.1 Introduzione
Lo scopo di questi appunti è quello di introdurre il lettore ai concetti base della teoria e
del calcolo delle probabilità. Il calcolo delle probabilità si occupa dello studio e della for-
malizzazione matematica di fenomeni “casuali”, cioè di fenomeni per i quali non possiamo
predire a priori l’esito. I motivi per i quali può accadere che per un certo fenomeno non
sia possibile dare una descrizione deterministica sono molteplici: può accadere che le infor-
mazioni riguardanti il fenomeno sul quale vogliamo fare previsioni siano incomplete, può
accadere che non esista una teoria che permetta di arrivare a dedurre delle conseguenze
per il fenomeno in osservazione, o che magari la teoria esista ma risulti di difficile applica-
zione, oppure può accadere semplicemente che il fenomeno sia veramente “casuale”. Come
esempio pensiamo al lancio di una moneta. Il moto di un corpo rigido nello spazio, come
è la moneta, è ben descritto dalle equazioni della meccanica newtoniana, quindi in linea di
principio, se riusciamo a tenere conto della velocità iniziale con la quale viene lanciata la
moneta, dell’attrito effettuato dall’aria e degli urti anelastici che la moneta subisce quan-
do ricade a terra, potremmo calcolare se alla fine la moneta esibirà sulla faccia superiore
testa o croce. Tuttavia un conto reale di questo genere risulta infattibile, sia perché non
è possibile in generale misurare sperimentalmente le grandezze fisiche coinvolte, sia perché
il sistema in esame esibisce una dipendenza sensibile dalle condizioni iniziali: una piccola
(infinitesima) variazione delle condizioni iniziali (ad esempio la forza applicata nel lancio
o posizione dalla quale si lancia) porta ad un effetto macroscopico notevole (ad esempio
esce testa piuttosto che croce). Risulta invece chiaro che se la moneta è sufficientemente
simmetrica ci attendiamo che la “possibilità” che dopo un lancio si presenti testa sia la
stessa che si presenti croce. Da qui l’esigenza di modellizzare questo fenomeno attraverso
una teoria diversa dalla meccanica newtoniana.
Dall’esempio precedente può sembrare che mentre una teoria deterministica come la
meccanica newtoniana ci potrebbe dire, almeno in linea di principio, se alla fine osservere-
mo una testa o una croce, una descrizione probabilistica del fenomeno si limita a constatare
che se lanciamo una moneta la “possibilità” di ottenere testa è la stessa di quella di ot-
1
tenere croce, non aiutandoci affatto nel fare previsioni quantitative. Questo, per quanto
riguarda l’esempio precedente è almeno parzialmente vero. Per capire quali siano i punti
di forza della teoria della probabilità bisogna fare un esempio più complesso. Supponiamo
di rovesciare un sacchetto contenente 1000 monete da 1 su un tavolo e supponiamo di
voler sapere quante sono le monete che esibiscono una testa sulla parte superiore. Que-
sto è un problema totalmente intrattabile dal punto di vista della meccanica classica (lo
sarebbe anche nel caso potessimo supporre le monete perfettamente identiche e gli urti
perfettamente elastici). Da un punto di vista intuitivo possiamo aspettarci che circa la
metà delle monete esibirà una testa mentre l’altra metà esibirà una croce. Tuttavia non
sarebbe corretto affermare che osserveremo esattamente 500 teste e 500 croci. La teoria
della probabilità ci fornirà invece gli strumenti per dare un significato quantitativo a frasi
del tipo “circa la metà delle monete esibirà una testa mentre l’altra metà esibirà una cro-
ce”. Ad esempio vedremo che la probabilità di osservare un numero compreso tra 440 e
560 teste vale approssimativamente
Z 3.82636
1 x2
√ e− 2 dx ' 0.99987
2π −3.82636
che indicherà che quasi sicuramente il numero di teste che osserveremo sarà un numero
compreso tra 440 e 560.
Come abbiamo detto la nostra sarà solamente una introduzione alle tecniche del calcolo
delle probabilità, per questo le applicazioni che vedremo saranno sempre molto semplici e
avranno scopo essenzialmente didattico. Non vedremo praticamente mai un’applicazione
che risolve un vero problema tecnico–ingegneristico. Piuttosto svilupperemo le tecniche
matematiche che potranno poi essere utilizzate per veri problemi applicativi in corsi più
avanzati. Il taglio di questo corso sarà quindi di carattere modellistico–matematico, nel
senso che il corso svilupperà delle tecniche matematiche, ma terremo sempre d’occhio cosa
queste tecniche significhino da un punto di vista pratico–applicativo. Per poter apprendere
le tecniche base del calcolo delle probabilità è necessaria una certa familiarità con alcuni
concetti matematici elementari, come il calcolo combinatorio e il calcolo differenziale ed
integrale di più variabili.
Nel testo sono contenuti anche degli esercizi. Gli esercizi sono tutti molto semplici
e vanno svolti tutti, esclusi quelli segnalati da un asterisco “ * ” che sono di carattere
più matematico–teorico. Cercare di studiare il testo senza tentare di confrontarsi con gli
esercizi è quasi totalmente inutile: lo scopo dell’esercizio è forzare lo studente a pensare in
modo non superficiale a quanto ha letto e pensa di aver capito.
Il materiale è organizzato nel modo seguente.
Nel primo capitolo vengono introdotte le nozioni base della teoria delle probabilità quali
spazio campionario, eventi e spazio di probabilità; viene poi sviluppato il concetto basilare
di indipendenza. Questo capitolo non contiene materiale particolarmente avanzato da un
punto di vista tecnico, tuttavia contiene alcuni concetti (come quello di spazio degli eventi
elementari e di famiglia di eventi) che vanno letti con attenzione.
Nel secondo capitolo vengono introdotte le variabili aleatorie monodimensionali e le
caratteristiche deterministiche ad esse associate. Per comprendere questo capitolo è ne-
1.2. SPAZI DI PROBABILITÀ 3
cessario avere una certa familiarità con il calcolo differenziale e integrale unidimensiona-
le. Inoltre anche qui alcuni concetti elementari ma profondi come quello di preimmagine
richiedono una certa attenzione.
Nel capitolo terzo vengono trattate le variabili aleatorie multidimensionali. Per poter
leggere questo capitolo è necesssario che il lettore conosca il calcolo integrale e differenziale
a più variabili.
Nel capitolo quarto vengono discusse le leggi limite del calcolo delle probabilità; una
certa conoscenza del concetto di successione di funzioni è utile anche se non necessaria.
1.2 Spazi di probabilità

In questo paragrafo introdurremo gli oggetti matematici che sono alla base del modello
probabilistico assiomatico. Come in tutte le teorie assiomatiche alcune delle definizioni di
base possono sembrare inizialmente astratte e prive di contenuto. Per ridurre al minimo
questo inconveniente cercheremo sempre di accompagnare le definizioni con semplici esempi
applicativi.
1.2.1 Spazio campionario

Supponiamo di condurre un esperimento aleatorio, cioè un esperimento di cui non possiamo
prevedere a priori il risultato, e supponiamo che ogni possibile risultato dell’esperimento
possa essere identificato con un elemento ω di un certo insieme Ω. L’insieme Ω viene
detto spazio campionario o spazio dei campioni o spazio degli eventi elementari relativo
all’esperimento, gli elementi (o punti) di Ω si chiamano eventi elementari.
Esempio 1.2.1 Si consideri l’esperimento aleatorio: “Giuseppe lancia un dado ed osserva

il numero che compare sulla faccia superiore”. I possibili risultati di questo esperimento
sono sei: “Giuseppe osserva un uno”, “Giuseppe osserva un due”,. . . , “Giuseppe osserva
un sei”; sembra allora corretto considerare uno spazio campionario Ω = {ω1 , ω2 , . . . , ω6 }
costituito da 6 punti, dove ω1 è associato all’evento “Giuseppe osserva un uno”, ω2 è
associato all’evento “Giuseppe osserva un due” etc. Ovviamente i punti ωk possono essere
scelti in modo arbitrario, ad esempio si può porre ω1 := a, ω2 := b,. . . ,ω6 := f . Però risulta
più chiaro porre Ω := {1, 2, . . . , 6}.
Esempio 1.2.2 Si consideri l’esperimento aleatorio che consiste nell’osservare lo stato di

un interruttore in un circuito elettrico. Questo esperimento ha solo due possibili risultati:
il circuito è aperto oppure è chiuso. Uno spazio campionario ragionevole può essere Ω :=
{0, 1} dove 0 significa circuito aperto mentre 1 significa circuito chiuso.
Esempio 1.2.3 Si consideri l’esperimento aleatorio consistente nel lanciare una moneta
equilibrata fino a quando non si presenta testa. Il risultato dell’esperimento casuale può
essere un qualunque numero naturale 1, 2, . . .; quindi per spazio campionario si può scegliere
Ω = N ∪ {∞}.
Esempio 1.2.4 Si consideri l’esperimento aleatorio che consiste nell’osservare il tempo in

secondi che intercorre tra l’inizio del funzionamento di un componente di un circuito ed
il suo primo guasto (tempo di vita del componente). Il risultato dell’esperimento casuale
può essere un qualsiasi numero reale non negativo; pertanto, per spazio campionario si può
scegliere Ω := [0, +∞) =: R+ .
Esempio 1.2.5 Si consideri l’esperimento aleatorio: “Giuseppe lancia due dadi, uno rosso
l’altro blu, ed osserva i numeri che compaiono sulle facce superiori”. In questo caso i
risultati possibili sono tutte le coppie ordinate di numeri interi tra uno e sei. Uno spazio
degli eventi elementari è
Ω := {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (2, 6), . . . , (6, 1), (6, 2), . . . , (6, 6)} =
= {(i, j) : i = 1, 2, . . . , 6; j = 1, 2, . . . , 6}
dove il generico evento elementare (i, j) in Ω rappresenta il risultato “è uscito i sul dado
rosso e j sul dado blu”.
Esercizio 1.2.6 Tre palline sono estratte una dopo l’altra senza reimbussolamento da
un’urna che ne contiene dieci numerate da 1 a 10 e per il resto identiche. Trovare lo spazio
campionario.
1.2.2 Eventi
Abbiamo detto che lo spazio campionario Ω è un insieme che rappresenta tutti i possibili esi-
ti di un dato esperimento aleatorio. Torniamo ora all’Esempio 1.2.1 dove Ω = {1, 2, . . . , 6};
ciascun punto di Ω rappresenta il numero che Giuseppe osserva sulla faccia superiore del
dado che ha lanciato. Ci piacerebbe ora poter rappresentare eventi del tipo “Giuseppe
osserva un numero pari”, oppure “Giuseppe osserva un numero più grande di 4” etc. Que-
sti sono sempre eventi relativi all’esperimento aleatorio ma non sono più elementari, nel
senso che, ad esempio, l’evento “Giuseppe osserva un numero pari” può essere descritto
in termini di eventi elementari nel modo seguente: “Giuseppe osserva un 2” oppure “Giu-
seppe osserva un 4” oppure “Giuseppe osserva un 6”. La scelta che si opera nel calcolo
delle probabilità è quella di rappresentare gli eventi relativi ad un esperimento aleatorio
mediante sottoinsiemi dello spazio campionario Ω. In questo modo ad esempio l’evento
“Giuseppe osserva un numero pari” è rappresentato dal sottoinsieme {2, 4, 6} ⊂ Ω mentre
l’evento “Giuseppe osserva un numero più grande di 4” è rappresentato dal sottoinsieme
{5, 6} ⊂ Ω. Segue che gli eventi elementari vengono rappresentati da insiemi contenenti
un solo elemento: l’evento “Giuseppe osserva un 2” è rappresentato dall’insieme {2} ⊂ Ω.
Esercizio 1.2.7 Relativamente all’Esempio 1.2.4 rappresentare come sottoinsiemi di Ω =

R+ i seguenti eventi
1. il componente si rompe esattamente dopo 2 secondi;
2. il componente dura più di 2 secondi;
3. il componente non si rompe mai.
Esercizio 1.2.8 Relativamente all’Esempio 1.2.5 rappresentare come sottoinsiemi di Ω :=

{(i, j) : i = 1, 2, . . . , 6; j = 1, 2, . . . , 6} i seguenti eventi
1. i due dadi presentano lo stesso valore;
2. il dado rosso presenta un valore più grande del dado blu;
3. la somma dei due dadi è 7.

Si può osservare che agli operatori logici “o”, “e” e “non”, attraverso la corrispon-
denza tra eventi ed insiemi, corrispondono operazioni sugli insiemi. Ad esempio, prece-
dentemente, abbiamo descritto l’evento “Giuseppe osserva un numero pari” in termini di
eventi elementari come: “Giuseppe osserva un 2” oppure “Giuseppe osserva un 4” op-
pure “Giuseppe osserva un 6”; questa decomposizione corrisponde alla seguente ovvia
relazione insiemistica {2, 4, 6} = {2} ∪ {4} ∪ {6}, cioè l’operatore logico “o” corrisponde
all’unione insiemistica “∪”1 . Analogamente l’operatore logico “e” corrisponde all’interse-
zione insiemistica “∩”: “Giuseppe osserva un numero pari e più grande di 4” corrisponde
al sottoinsieme {6} = {2, 4, 6} ∩ {5, 6}. L’operatore logico “non” corrisponde al comple-
mentare insiemistico: “Giuseppe non osserva un numero pari” corrisponde al sottoinsieme
{1, 3, 5} = Ω \ {2, 4, 6} = {2, 4, 6}c. Abbiamo quindi che gli eventi relativi ad un espe-
rimento aleatorio possono essere rappresentati da sottoinsiemi dello spazio campionario e
quindi costituiscono una famiglia o collezione di sottoinsiemi di Ω che indicheremo con F
(questo significa che se E ∈ F allora E ⊂ Ω). Inoltre, diremo che si è verificato un evento
E, se il risultato dell’esperimento aleatorio è ω ∈ E.
* Proprietà di chiusura della famiglia di eventi F

Sia Ω lo spazio campionario relativo ad un esperimento aleatorio e F una collezione di eventi relativi
ad esso. Ci domandiamo: da quali sottoinsiemi deve essere costituita F ? Sembra piuttosto ragionevole
richiedere, ad esempio, che se reputiamo E un evento, quindi se siamo in grado di dire se E si è verificato,
siamo anche in grado di dire se E non si è verificato, cioè se si è verificato E c . Pertanto sembra ragionevole
supporre che se E ∈ F allora E c ∈ F . Analogamente, se E ed F sono eventi, se cioè sappiamo dire se E
ed F si sono verificati, sappiamo anche dire se l’evento “E o F ” si è verificato. Ne segue che se E, F ∈ F
allora E ∪ F ∈ F . È inoltre ragionevole che l’evento certo Ω, cioè l’evento che si verifica sicuramente,
appartenga a F .
Una famiglia di insiemi che soddisfa alle precedenti proprietà viene chiamata algebra di sottoinsiemi:
Definizione 1.2.9 Sia Ω un insieme ed F una famiglia di sottoinsiemi di Ω. F è un’ algebra di sottoin-
siemi di Ω se soddisfa alle seguenti proprietà:
1. Ω ∈ F ;
2. E ∈ F ⇒ E c := Ω \ E ∈ F ;
3. E, F ∈ F ⇒ E ∪ F ∈ F .
1
In generale useremo l’operatore logico “o” in modo inclusivo, cioè l’evento “A oppure B” si verifica se
si verifica A ma non B oppure si verifica B ma non A oppure si verificano sia A che B
Esercizio 1.2.10 Sia Ω un insieme qualsiasi, verificare che l’algebra banale F1 := {∅, Ω} e l’insieme delle
parti F2 := P(Ω) = {tutti i sottoinsiemi di Ω} sono algebre di sottoinsiemi di Ω.
Esercizio 1.2.11 Verificare che se F è un’algebra di sottoinsiemi di Ω allora:

1. ∅ ∈ F ;
2. E, F ∈ F ⇒ E ∩ F ∈ F ;
S
3. E1 , E2 , . . . , En ∈ F ⇒ nk=1 Ek ∈ F ;
Tn
4. E1 , E2 , . . . , En ∈ F ⇒ k=1 Ek ∈ F .
Se Ω è finito gli assiomi della Definizione 1.2.9, e in particolare l’assioma 3. (e la sua conseguenza naturale
data da 3. dell’Esercizio 1.2.11) sono adeguati. Tuttavia, se Ω non è finito, essi non bastano per la teoria
che vogliamo costruire. Si consideri, a tal fine, l’esperimento descritto nell’Esempio 1.2.3 e supponiamo di
aver costruito la nostra algebra di eventi F . Sia Ek l’evento “esce testa al k–esimo lancio” e supponiamo
che Ek ∈ F per ogni k = 1, 2, . . . . Sembrerebbe naturale supporre che l’evento E “prima o poi esce
testa” sia in F . Notiamo che E può essere descritto S come “esce testa al primo lancio, oppure al secondo,
oppure al terzo,. . . ”. Questo significa che E = +∞ k=1 Ek . SMa se F è semplicemente un’algebra, il fatto
che Ek ∈ F per ogni k = 1, 2, . . . non implica che E = +∞ k=1 Ek ∈ F . Quindi E non è un evento che
viene considerato dal nostro modello, il che sembra piuttosto deludente. Per ovviare a questa situazione
si introduce una nozione più restrittiva di quella di algebra di insiemi:
Definizione 1.2.12 Sia Ω un insieme ed F una famiglia di sottoinsiemi di Ω. F è una σ-algebra2 di

sottoinsiemi di Ω se soddisfa alle seguenti proprietà:
1. Ω ∈ F ;
2. E ∈ F ⇒ E c := Ω \ E ∈ F ;
S+∞
3. E1 , E2 , · · · ∈ F ⇒ k=1 Ek ∈ F .
Esercizio 1.2.13 Verificare che una σ-algebra di sottoinsiemi è anche un’algebra di insiemi di Ω.
Esercizio 1.2.14 Risolvere l’Esercizio 1.2.10 sostituendo alla parola “algebra” la parola “σ-algebra”.
Esercizio 1.2.15 Verificare che se F è una σ-algebra di sottoinsiemi di Ω allora:

1. ∅ ∈ F ;
2. E, F ∈ F ⇒ E ∩ F ∈ F ;
T+∞
3. E1 , E2 , · · · ∈ F ⇒ k=1 Ek ∈ F .
1.2.3 Spazio di probabilità

Abbiamo visto che a un esperimento aleatorio è associata una coppia (Ω, F ) in cui Ω è lo
spazio campionario ed F è una famiglia (σ-algebra) di sottoinsiemi di Ω rappresentanti
i possibili eventi relativi all’esperimento. Questa coppia viene talvolta chiamata spazio
probabilizzabile. Ora, l’unica cosa che manca alla nostra teoria è l’ingrediente fondamentale,
cioè la probabilità. Quello che vogliamo è poter dire che la probabilità di un evento è uguale
ad un numero. Quindi per noi la probabilità sarà una funzione che ad ogni evento E ∈ F
associa un numero P (E). Diamo ora la definizione di probabilità e di spazio di probabilità.
2
Si legge “sigma algebra”
Definizione 1.2.16 Sia (Ω, F ) uno spazio probabilizzabile. Una probabilità su (Ω, F ) è
una funzione su F tale che:
1. P (E) ≥ 0 per ogni E ∈ F ;
2. P (Ω) = 1;
· · · ∈ F sono
3. se E1 , E2 ,S P+∞ eventi a due a due disgiunti, cioè Eh ∩ Ek = ∅ se h 6= k,
+∞
allora P k=1 Ek = k=1 P (Ek ).
La terna (Ω, F , P ) viene detta spazio di probabilità.3

Gli assiomi che definiscono la probabilità sono assolutamente naturali. L’assioma 1. ci
dice che la probabilità associa ad ogni evento un numero non negativo che interpretiamo
come la sua probabilità di accadere. Scopriremo che l’assioma 2. ci dice semplicemen-
te che attribuiamo all’evento certo Ω (cioè l’evento che si verifica sicuramente) il valore
massimo che può assumere la probabilità. Infine, l’assioma 3. esprime il fatto che data
una successione di eventi E1 , E2 , . . . incompatibili, o “mutuamente escludentesi” (ossia, gli
eventi E1 , E2 , . . . non possono verificarsi simultaneamente), allora la probabilità dell’evento
“almeno uno degli eventi E1 , E2 , . . . si verifica” è dato dalla somma delle singole proba-
bilità degli eventi E1 , E2 , . . . . Questo assioma prende il nome di σ-additività o additività
completa.
Una immediata conseguenza degli assiomi sono le seguenti proprietà della probabilità.
Proposizione 1.2.17 Sia (Ω, F , P ) uno spazio di probabilità. Allora:

1. P (∅) = 0 ( probabilità dell’evento impossibile);
Sn Pn
2. se E1 , E2 , . . . , En ∈ F , Eh ∩ Ek = ∅ se h 6= k, allora P ( k=1 Ek ) = k=1 P (Ek )
( additività finita).
Dimostrazione
Ek := ∅ per k = 1, 2, . . . , allora E1 , E2 , . . . è una successione di eventi disgiunti a
1. Se S
coppie e +∞k=1 Ek = ∅. Per l’assioma 3. della Definizione 1.2.16 si ha:
+∞
! +∞
[ X
P (∅) = P Ek = P (∅)
k=1 k=1
che è verificata solo se P (∅) = 0.

2. Se Ek := ∅ per k = n + 1, n + 2, . . . S
S+∞ , allora E1 , E2 , . . . è una successione di eventi di-
sgiunti a coppie (verificare!) e k=1 Ek = nk=1 Ek . Per l’assioma 3. della Definizione 1.2.16
si ha: ! !
[n +∞
[ X n +∞
X Xn
P Ek = P Ek = P (Ek ) + P (Ek ) = P (Ek )
k=1 k=1 k=1 k=n+1 k=1
3
Questa formulazione matematica è detta impostazione assiomatica della probabilità ed è dovuta al
matematico sovietico A.N. Kolmogorov (1933)
poiché P (Ek ) = P (∅) = 0 per k = n + 1, n + 2, . . . .

L’assioma 3 della Definizione 1.2.16 è equivalente al punto 2. della Proposizione 1.2.17
se lo spazio Ω è finito.
Esercizio 1.2.18 Perché?
Esempio 1.2.19 Se lanciamo tre monete distinguibili e non truccate, lo spazio campio-
nario è
Ω := {T T T, T T C, T CT, T CC, CT T, CT C, CCT, CCC}
e come famiglia di eventi possiamo scegliere F := P(Ω). Infine, scelta la funzione P (E) :=
|E|/|Ω|, dove |E| indica la cardinalità di E, si può verificare direttamente che con questa
definizione (Ω, F , P ) costituisce uno spazio di probabilità.
La maggior generalità dell’assioma 3 è necessaria nel caso di spazi campionari infiniti.
Esempio 1.2.20 Consideriamo l’esperimento descritto nell’Esempio 1.2.3 e sia Ek l’evento

“esce testa per la prima volta al k-esimo lancio”. Gli ek , k = 1, 2, . . ., sono a due a due
incompatibili (cioè hanno
S+∞intersezione vuota) e l’evento E “prima o poi
P+∞ esce testa” è quindi
l’unione disgiunta E = k=1 Ek . Segue dall’assioma 3. che P (E) = k=1 P (Ek ). Vedremo
in seguito che, se la moneta non è truccata, si assume P (Ek ) = 21k e quindi P (E) = 1.
1.3 Proprietà della probabilità

Vediamo altre proprietà che seguono direttamente dagli assiomi della Definizione 1.2.16.
Proposizione 1.3.1 Sia (Ω, F , P ) uno spazio di probabilità. Allora:

1. se E ∈ F allora P (E c ) = 1 − P (E) ( probabilità del complementare);
2. se E ∈ F allora P (E) ≤ 1;
3. se E, F ∈ F e F ⊂ E allora P (E \ F ) = P (E) − P (F );
4. se E, F ∈ F e F ⊂ E allora P (F ) ≤ P (E) ( monotonia);
5. se E, F ∈ F allora P (E ∪ F ) = P (E) + P (F ) − P (E ∩ F ) ( probabilità dell’unione).

Dimostrazione
1. Notiamo che Ω = E ∪E c e E ∩E c = ∅; quindi per l’assioma 2. della Definizione 1.2.16
e il punto 2. della Proposizione 1.2.17 vale 1 = P (Ω) = P (E) + P (E c ) che implica
P (E c ) = 1 − P (E).
2. Per il punto precedente P (E) = 1 − P (E c ), ma P (E c ) ≥ 0 per l’assioma 1. della
Definizione 1.2.16; segue che necessariamente P (E) ≤ 1.
3. Se F ⊂ E allora E = (E \ F ) ∪ F e l’unione è disgiunta; applicando il punto 2. della
Proposizione 1.2.17: P (E) = P (E \ F ) + P (F ) e quindi P (E \ F ) = P (E) − P (F ).
1.3. PROPRIETÀ DELLA PROBABILITÀ 9
4. Per il punto precedente P (E) − P (F ) = P (E \ F ) che è non negativo per l’assioma

1. della Definizione 1.2.16.
5. Possiamo scrivere E ∪F = (E ∩F c )∪(E ∩F )∪(E c ∩F ) e l’unione è disgiunta; sempre
il punto 2. della Proposizione 1.2.17 implica P (E ∪F ) = P (E ∩F c )+P (E ∩F )+P (E c ∩F );
quindi P (E ∪ F ) + P (E ∩ F ) = P (E ∩ F c ) + P (E ∩ F ) + P (E ∩ F ) + P (E c ∩ F ). Ma
P (E ∩ F c ) + P (E ∩ F ) = P (E) e P (E ∩ F ) + P (E c ∩ F ) = P (F ) (verificare!) e quindi
P (E ∪ F ) + P (E ∩ F ) = P (E) + P (F ).
Applicando due volte la proprietà 5. della Proposizione 1.3.1, possiamo calcolare la
probabilità dell’unione di tre eventi E, F, G ∈ F :
P (E ∪ F ∪ G) = P ((E ∪ F ) ∪ G)
= [P (E) + P (F ) + P (G)] − [P (E ∩ F ) + P (E ∩ G) + P (F ∩ G)] + P (E ∩ F ∩ G)
Una generalizzazione della precedente formula è la seguente proposizione.
Proposizione* 1.3.2 (Principio di inclusione-esclusione di Poincaré) Sia (Ω, F , P ) uno spazio di

probabilità ed E1 , E2 , . . . , En ∈ F eventi. Allora
n
! n n
[ X X
P Ek = (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr ) =
k=1 r=1 k1 ,k2 ,...,kr =1
k1 <k2 <···<kr
Xn X
= (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr ) (1.3.1)
r=1 {k1 ,k2 ,...,kr }⊂{1,2,...,n}
Dimostrazione La dimostrazione è per induzione. La (1.3.1) è vera per n = 2 per il punto 5. della
Proposizione 1.3.1. Supponiamo ora che (1.3.1) sia verificata per tutti gli interi ≤ n e per ogni famiglia di
n eventi in F e proviamola per n + 1. Dall’ipotesi induttiva deriva:
n+1
! n
! ! n
! n
!
[ [ [ [
P Ek = P Ek ∪ En+1 = P Ek + P (En+1 ) − P (Ek ∩ En+1 ) =
k=1 k=1 k=1 k=1
n
X X
= (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr )+
r=1 {k1 ,k2 ,...,kr }⊂{1,2,...,n}
n
X X
+ P (En+1 ) − (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr ∩ En+1 ) =
r=1 {k1 ,k2 ,...,kr }⊂{1,2,...,n}
n+1
X X
= (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr )+
r=1 {k1 ,k2 ,...,kr }⊂{1,2,...,n+1}
{k1 ,k2 ,...,kr }63(n+1)
n+1
X X
+ (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr ) =
r=1 {k1 ,k2 ,...,kr }⊂{1,2,...,n+1}
{k1 ,k2 ,...,kr }3(n+1)
n+1
X X
= (−1)r+1 P (Ek1 ∩ Ek2 ∩ · · · ∩ Ekr ).
r=1 {k1 ,k2 ,...,kr }⊂{1,2,...,n+1}
Esercizio 1.3.3 Relativamente alla prima sessione d’esame del primo anno del corso di
laurea XXX è noto che la probabilità che uno studente superi:
• l’esame A è 0.4,
• l’esame B è 0.5,
• l’esame C è 0.3,
• l’esame A e l’esame B è 0.35,
• l’esame A e l’esame C è 0.2,
• l’esame B e l’esame C è 0.25,
• tutti e tre gli esami è 0.15,
Determinare la probabilità che nella prima sessione uno studente scelto a caso
1. non superi l’esame A;
2. superi A ma non superi B;
3. superi almeno un esame;
4. non superi alcun esame.
Soluzione Indichiamo con A l’evento “lo studente supera l’esame A”, con B l’evento
“lo studente supera l’esame B” e con C l’evento “lo studente supera l’esame C”. Allora le
probabilità richieste sono:
1. P (Ac ) = 1 − P (A) = 0.6;
2. P (A ∩ B c ) = P (A \ (A ∩ B)) = P (A) − P (A ∩ B) = 0.4 − 0.35 = 0.05;
3. P (A∪B∪C) = P (A)+P (B)+P (C)−[P (A∩B)+P (A∩C)+P (B∩C)]+P (A∩B∩C) =
0.4 + 0.5 + 0.3 − 0.35 − 0.2 − 0.25 + 0.15 = 0.55;
4. P (Ac ∩ B c ∩ C c ) = P ((A ∪ B ∪ C)c ) = 1 − 0.55 = 0.45.
1.4 Spazi finiti o numerabili

In questo paragrafo vedremo come probabilizzare uno spazio campionario finito o nume-
rabile, cioè come costruire modelli probabilistici per esperimenti aleatori che hanno al più
una infinità numerabile di esiti possibili.
Fissiamo inizialmente l’attenzione sul caso Ω numerabile e sia {ω1 , ω2 , . . . } una nume-
razione dei punti di Ω. In generale, in questo caso, si sceglie come σ-algebra F l’insieme
di tutti i sottoinsiemi di Ω, P(Ω). Si definisce una probabilità su (Ω, F ) assegnando una
successione p1 , p2 , . . . tale che
pk ≥ 0 per ogni k = 1, 2, . . .
e
∞
X
pk = 1 (1.4.1)
k=1
1.4. SPAZI FINITI O NUMERABILI 11
Infatti se attribuiamo agli eventi elementari le probabilità P ({ω1}) = p1 , P ({ω2 }) = p2 , . . . ,

allora la probabilità di ogni evento E ∈ F risulta automaticamente
S individuata come se-
gue. Per ogni evento E ∈ F possiamo scrivere E = k: ωk ∈E {ωk } e l’unione è disgiun-
ta, quindi per la proprietà di σ-additività di cui deve godere una probabilità definiamo
(necessariamente)
X X
P (E) = P ({ωk }) = pk (1.4.2)
k: ωk ∈E k: ωk ∈E
È immediato P+∞ verificare che la P cosı̀ definita è una probabilità su P(Ω). Infatti P (∅) = 0
e P (Ω) = k=1 pk = P 1. Inoltre la proprietà di σ-additività segue dalla Definizione 1.4.2 e
dal fatto che, poiché +∞ k=1 pk è una serie a termini positivi convergente, allora si possono
sommare somme parziali disgiunte ed ottenere sempre il medesimo risultato come somma
totale.
Viceversa, P una qualunque misura di probabilità su P(Ω) soddisfa P ({ωk }) ≥ 0 per
k = 1, 2, . . . e +∞k=1 P ({ωk }) = P (Ω) = 1. Abbiamo dimostrato la seguente proposizione.
Proposizione 1.4.1 Sia Ω un insieme numerabile e sia {ω1 , ω2 , . . . } una numerazione dei
punti di Ω. Sia F = P(Ω).
1. Ogni probabilità su (Ω, F ) individua una successione di numeri reali p1 , p2 , . . . che

soddisfano (1.4.1) ponendo P ({ωk }) = pk per ogni k.
2. Data una successione p1 , p2 , . . . che soddisfa (1.4.1), esiste un’unica misura di pro-
babilità su (Ω, F ) tale che P ({ωk }) = pk per ogni k. Tale probabilità è data
da X
P (E) = pk ∀E ⊂ Ω
k: ωk ∈E
Notiamo che quanto detto sopra per spazi numerabile può essere ripetuto per Ω finito.
Esercizio 1.4.2 Enunciare e dimostrare la proposizione precedente nel caso di spazi cam-
pionari finiti.
Esempio 1.4.3 Ogni successione [sequenza] di termini positivi per la quale la somma dei
termini è uno fornisce un esempio di modello probabilistico su uno spazio numerabile [fini-
to]. Tuttavia alcune di queste si impongono come modelli naturali per certi tipi di fenomeni
aleatori. Ricordiamo qui i principali modelli utili nelle applicazioni. Una trattazione più
approfondita viene rimandata al capitolo dedicato alle variabili aleatorie.
1. Modello di Poisson. In questo modello la probabilità, dipendente da un parametro

positivo λ, è definita su Ω = {0, 1, 2, . . . } dalla successione
e−λ λk
pk = k = 0, 1, . . .
k!
2. Modello geometrico. In questo modello la probabilità, dipendente da un parametro p

con 0 < p < 1, è definita su Ω = {1, 2, . . . } dalla successione
pk = p(1 − p)k−1 k = 1, 2, . . .
3. Modello binomiale. In questo modello la probabilità, dipendente da due parametri n

intero positivo e p con 0 < p < 1, è definita su Ω = {0, 1, . . . , n} dalla sequenza

n k
pk = p (1 − p)n−k k = 0, 1. . . . , n
k
Esercizio 1.4.4 Verificare che i pk assegnati nei punti 1., 2. e 3. dell’Esempio 1.4.3
verificano (1.4.1) e quindi definiscono una probabilità.
Consideriamo ora un esperimento aleatorio che ammette solo un numero finito n di

risultati possibili, sia Ω = {ω1 , ω2 , . . . , ωn } lo spazio campionario associato e F = P(Ω).
Supponiamo che la natura dell’esperimento aleatorio ci suggerisca di assumere p1 = p2 =
· · · = pn = p, cioè di assegnare la stessa probabilità ad ogni evento elementare. In questo
caso si parla di spazio di probabilità uniforme oppure spazio equiprobabile finito. Dall’assio-
ma 2. della Definizione 1.2.16 e dalla proprietà di additività finita (cfr. Proposizione 1.2.17)
segue che
n
X n
X 1
1 = P (Ω) = P ({ωk }) = p = np = |Ω|p =⇒ p =
|Ω|
k=1 k=1
e la probabilità di ogni evento E ∈ F è data da
X X 1 |E|
P (E) = P ({ωk }) = =
|Ω| |Ω|
k: ωk ∈E k: ωk ∈E
Esempio 1.4.5 (segue Esempio 1.2.5) Consideriamo ancora l’esempio del lancio di due
dadi. In questo caso lo spazio degli eventi elementari è Ω = {(i, j) : i, j = 1, 2, . . . , 6} e
come famiglia (σ-algebra) degli eventi possiamo scegliere F := P(Ω). Per quanto riguarda
l’assegnazione di una probabilità P su (Ω, F ) osserviamo che se assumiamo che i due
dadi non siano truccati e vogliamo che il nostro spazio di probabilità (Ω, F , P ) modellizzi
questo fatto fisico, dobbiamo ammettere che tutti gli eventi elementari di Ω abbiano la
stessa probabilità p = 1/|Ω| = 1/36. Sia Ek l’evento “la somma dei due dadi è k” per
1.4. SPAZI FINITI O NUMERABILI 13
k = 2, 3, . . . , 12. Allora,
E2 = {(1, 1)}
E3 = {(1, 2), (2, 1)}
E4 = {(1, 3), (2, 2), (3, 1)}
E5 = {(1, 4), (2, 3), (3, 2), (4, 1)}
E6 = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
E7 = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}
E8 = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}
E9 = {(3, 6), (4, 5), (5, 4), (6, 3)}
E10 = {(4, 6), (5, 5), (6, 4)}
E11 = {(5, 6), (6, 5)}
E12 = {(6, 6)}
Applicando la formula P (E) = |E|/|Ω| otteniamo: P (E2 ) = P (E12 ) = 1/36, P (E3 ) =

P (E11 ) = 1/18, P (E4 ) = P (E10 ) = 1/12, P (E5 ) = P (E9 ) = 1/9, P (E6 ) = P (E8 ) = 5/36,
P (E7 ) = 1/6.
Esempio 1.4.6 Consideriamo l’esempio del lancio di due dadi, ma assumiamo di essere
interessati solamente alla somma dei risultati dei due dadi. In questo caso lo spazio degli
eventi elementari è dato da Ω = {2, 3, . . . , 12} e come famiglia degli eventi possiamo sceglie-
re F := P(Ω). Per quanto riguarda l’assegnazione di una probabilità P su (Ω, F ) osservia-
mo che se assumiamo che i due dadi non siano truccati, per l’esempio precedente, dobbiamo
porre P ({2}) = P ({12}) = 1/36, P ({3}) = P ({11}) = 1/18, P ({4}) = P ({10}) = 1/12,
P ({5}) = P ({9}) = 1/9, P ({6}) = P ({8}) = 5/36, P ({7}) = 1/6. Se invece assu-
miamo che i possibili risultati della somma dei due dadi siano equiprobabili, dobbiamo
porre P ({k}) = 1/11 per ogni k = 2, 3, . . . , 12: lo spazio di probabilità cosı̀ costruito è
matematicamente corretto, ma non ha nulla a che vedere con la realtà fisica e sperimentale.
Campionamento da urne
Esempi classici di probabilità uniforme sono quelli associati agli esperimenti aleatori di
campionamento da un’urna contenente M palline numerate da 1 a M e per il resto in-
distinguibili. L’esperimento consiste nell’estrarre un numero n di palline. A seconda
delle modalità secondo cui vengono effettuate le estrazioni si ottengono differenti spazi
campionari.
Campionamento senza reimmissione Estraiamo una dopo l’altra n ≤ M palline dal-

l’urna eliminando di volta in volta la pallina estratta (Campionamento senza reimmissione
o senza rimpiazzo). Possiamo scegliere come spazio campionario
Ω1 := {(a1 , . . . , an ) : ai = 1, . . . , M e ai 6= aj ∀i 6= j}
dove la i-esima componente del caso elementare (a1 , . . . , an ) rappresenta il numero della
i−esima pallina estratta. Se non vi è reimmissione, la prima coordinata a1 può essere
scelta in M modi e per ciascuno di questi abbiamo M − 1 possibilità per scegliere a2
... e M − n + 1 per l’n-esima. Detto diversamente, lo spazio campionario è l’insieme di
tutte le disposizioni senza ripetizione di ordine n delle M palline. La cardinalità di Ω1 è
|Ω1 | = (M)n = M(M − 1) · · · (M − n + 1).
Se n = M allora |Ω1 | = M! = numero delle permutazioni (senza ripetizione) di M
oggetti.
Esempio 1.4.7 Un’associazione è formata da 25 iscritti. Tra questi devono essere scelti
un presidente ed un segretario. Quanti sono i modi possibili per ricoprire le due cariche?
Considerando che la prima carica può essere ricoperta da 25 persone diverse e che per
ciascuna di queste si hanno 24 scelte possibili della seconda carica, allora
|Ω1 | = |{(a1 , a2 ) : a1 , a2 = 1, . . . , 25 e a1 6= a2 }| = 25 × 24 = 600
Se gli individui vengono scelti a caso per ricoprire le cariche, qual è la probabilità che un
assegnato membro dell’associazione ne ricopra una?
Sia A: “Un assegnato membro dell’associazione ricopre una carica”. Per fissare le idee, e
senza perdere in generalità, il membro in questione sia il numero 1. Allora, A = {(a1 , a2 ) ∈
Ω1 : a1 = 1 o a2 = 1} e |A| = |{(a1 , a2 ) ∈ Ω1 : a1 = 1}| + |{(a1 , a2 ) ∈ Ω1 : a2 = 1}| =
24 + 24, da cui
|A| 48 2
P (A) = = = = 0.08
|Ω1 | 25 × 24 25
Se non interessa l’ordine con cui le palline sono estratte, si può scegliere come spazio
campionario4
Ω2 := {E : E ⊂ {1, . . . , M}, |E| = n} = {{a1 , . . . , an } : ai = 1, . . . , M, ai 6= aj ∀i 6= j}

La cardinalità di Ω2 è |Ω2 | = M
n
.
Esempio 1.4.8 Se una persona gioca a poker con un mazzo di 32 carte, in quanti modi
può essere servito?
Le 32 carte del mazzo sono cosı̀ ripartite: quattro semi ♥, ♦, ♣ e ♠, per ognuno dei quali
si hanno le 8 carte distinte: A, K, Q, J, 10, 9, 8, 7. Ogni mano è un insieme di 5 carte scelte
dal mazzo. Allora: Ω2 = {E : E ⊂ {1, . . . , 32}, |E| = 5} e il numero di mani possibili è
|Ω2 | = 32
5
= 201376.
Qual è la probabilità che il giocatore abbia un tris “servito”?
Sia A l’evento: “il giocatore ha un tris servito (e non un gioco migliore)”. Allora P (A) =
|A|/|Ω2 |. Per calcolare |A| scegliamo
il valore del tris (Es. tris di K) tra gli 8 disponibili,
4
per ciascuna scelta abbiamo 3 modi di scegliere i semi delle carte che compongono il tris
4
Ω2 è l’insieme delle combinazioni di classe n di {1, . . . , M }, cfr. Appendice B.
1.5. PROBABILITÀ CONDIZIONATA ED INDIPENDENZA 15

(Es. ♥, ♦ e ♣): in totale abbiamo 8 × 43 modi di scegliere il tris. Ora dobbiamo prendere
le rimanenti 2 carte. I valori di queste carte devono necessariamente essere differenti tra
di loro (altrimenti avremmo un “full”) e differenti dal valore precedentemente scelto per il
7
tris (altrimenti avremmo un “poker”), abbiamo quindi 2 modi di scegliere i valori delle
rimanenti 2 carte5 . Rimangono da decidere i semi delle 2 carte: per ciascuna carta abbiamo
4 semi possibili. In definitiva |A| = 8 × 43 × 72 × 4 × 4 e la probabilità del tris servito è

8 × 43 × 72 × 4 × 4 48
32
= ' 0.0534 ' 5.3%
5
899
Campionamento con reimmissione Estraiamo ora una pallina dalla solita urna, regi-
striamo il numero della pallina e prima di procedere alla successiva estrazione rimettiamo
la pallina nell’urna. Quindi ripetiamo n volte le estrazioni secondo questo schema (cam-
pionamento con reimmissione o con rimpiazzo). In questo caso n può essere un numero
naturale qualunque. Possiamo scegliere il seguente spazio campionario:
Ω3 := {(a1 , . . . , an ) : ai = 1, . . . , M}
Cioè lo spazio campionario è l’insieme di tutte le disposizioni con ripetizione di M elementi
di ordine n e |Ω3 | = M n . Infine, assegniamo a ogni ω uguale probabilità: P ({ω}) = 1/M n .
Esempio 1.4.9 Quanto vale la probabilità che ciascuna delle n palline estratte sia diversa
dalle altre. Detto A tale evento, è evidente che se n > M allora P (A) = 0. Invece, se
n ≤ M vale quanto segue:
|A| M(M − 1) · · · (M − n + 1) M!
P (A) = n
= n
=
M M (M − n)!M n
1.5 Probabilità condizionata ed indipendenza

In questa sezione vengono introdotti e discussi i concetti di indipendenza e probabilità
condizionata. Questi sono concetti fondamentali per la teoria della probabilità, sia da un
punto di vista teorico sia da un punto di vista applicativo, rivestiranno un ruolo centrale
in tutto ciò che segue e traducono in termini matematici il concetto di aggiornamento della
probabilità sulla base di nuove conoscenze in possesso dello sperimentatore.
Esempio 1.5.1 (segue Esempio 1.4.6) Supponiamo vengano lanciati due dadi e sup-
poniamo che ci venga chiesto di calcolare la probabilità che la somma dei due dadi sia 12.
Per l’Esempio 1.4.6 risponderemmo 1/36. Rispondiamo ora alla stessa domanda ma sapen-
do che sul primo dado è uscito un 6. Questa ulteriore informazione cambia radicalmente
le nostre valutazioni. Infatti, se sappiamo che sul primo dado è uscito un 6, la probabilità
che la somma dei due dadi faccia 12 è uguale alla probabilità che sia uscito un 6 anche
sull’altro dado, cioè 1/6.
5
7 sono i valori disponibili e ne scegliamo 2 senza ripetizione e senza tenere conto dell’ordine
Questo esempio mostra la necessità di dare una definizione per situazioni in cui si vuole
calcolare le probabilità di un evento E sapendo che si è verificato un altro evento F . La
definizione che segue va in questa direzione.
Definizione 1.5.2 (Probabilità condizionata) Sia (Ω, F , P ) uno spazio di probabilità

e sia F ∈ F un evento tale che P (F ) > 0. Dato un qualsiasi evento E ∈ F si chiama
probabilità condizionata di E dato F il numero
P (E ∩ F )
P (E|F ) :=
P (F )
Nota 1.5.3 Come abbiamo detto P (E|F ) va interpretata come la probabilità che si verifi-
chi E sapendo che si è verificato F . Un errore tipico è confondere la probabilità condizionata
con la probabilità dell’intersezione, cioè con la “probabilità che si verifichino sia E che F ”.
Tornando all’Esempio 1.5.1 se E è l’evento “la somma dei due dadi è 12” ed F è l’evento
“sul primo dado esce 6”, allora E ∩ F = E è l’evento “la somma dei due dadi è 12”, quindi
P (E|F ) = 1/6 6= 1/36 = P (E ∩ F ).
Esercizio 1.5.4 Quanto vale la probabilità che la somma delle facce di due dadi regolari
sia 12, se si è verificato che su uno dei due dadi è uscito 6?
Soluzione Siano E=“la somma dei due dadi è 12” e G=“su uno dei due dadi esce 6”
. Se calcoliamo la probabilità condizionata che si verifichi E sapendo che si è verificato
G usando la nozione intuitiva di probabilità condizionata, sbagliamo. Infatti, la nozione
intuitiva di probabilità condizionata ci porta a ripetere erroneamente un ragionamento
analogo a prima (se sappiamo che su un dado è uscito un 6, la probabilità che la somma
dei due dadi faccia 12 è uguale alla probabilità che sia uscito un 6 anche sull’altro dado)
cosı̀ ottenendo per P (E|G) il valore 1/6. Ma questo ragionamento è falso: applicando la
formula per il calcolo della probabilità condizionata otteniamo
P (E ∩ G) P ({(6, 6)}) 1/36 1 1
P (E|G) = = = = <
P (G) P ({(1, 6), (2, 6), . . . , (6, 6), (6, 5), . . . , (6, 1)}) 11/36 11 6
Esercizio 1.5.5 Un lotto è costituito da 25 transistor accettabili, 10 parzialmente difettosi

(cioè che si rompono dopo qualche ora d’uso) e 5 difettosi (cioè che si guastano immedia-
tamente). Un transistor viene preso a caso dal lotto. Se non si rompe subito qual è la
probabilità che sia accettabile?
Soluzione In questo caso abbiamo tre eventi A “il transistor è accettabile”, B “il tran-
sistor è parzialmente difettoso”, C “il transistor è difettoso”. Ci viene chiesto di calcolare
P (A|C c ). Abbiamo che:
P (A ∩ C c ) P (A) 25/40 5
P (A|C c ) = c
= = =
P (C ) 1 − P (C) 35/40 7
Esercizio 1.5.6 Sia (Ω, F , P ) uno spazio di probabilità e sia F ∈ F un evento tale che
P (F ) > 0. Poniamo PF (E) := P (E|F ) per ogni E ∈ F .
1. Verificare che (Ω, F , PF ) è uno spazio di probabilità;
2. verificare che PF (F ) = 1;
3. verificare che se E ∈ F è P –impossibile, cioè P (E) = 0, allora E è PF –impossibile,

cioè PF (E) = 0.
Nota 1.5.7 Dal punto 1. dell’esercizio precedente segue che PF = P (·|F ) gode di tutte le
proprietà generali di cui godono S
le probabilità.
Ad esempio: se E1 , E2 , . . . , En ∈ F , con
P
n n
Eh ∩ Ek = ∅ ∀h 6= k, allora P k=1 Ek F = k=1 P (Ek |F ), oppure: se E ∈ F allora
c
P (E |F ) = 1 − P (E|F ).
1.5.1 Alcune formule importanti

Riuniamo in questo paragrafo alcune formule utili nelle applicazioni che coinvolgono il
concetto di probabilità condizionata.
Formula delle probabilità totali

Spesso nelle applicazioni si ha a che fare con esperimenti aleatori in cui le condizioni di
preparazione dell’esperimento aleatorio sono a loro volta casuali: la formula delle probabilità
totali è utile per calcolare probabilità di eventi relativamente a questi casi.
Esempio 1.5.8 Ci sono due urne dette “urna A” ed “urna B”. La prima contiene 1000
biglie bianche ed 1 nera mentre la seconda ne contiene 2 nere. Si lancia una moneta equa
e se viene testa si pesca una biglia dall’urna A mentre se viene croce si pesca una biglia
dall’urna B. Qual è la probabilità che la biglia pescata sia nera?
Un errore tipico in queste situazioni è di pensare che la probabilità di pescare una
biglia nera, seguendo la procedura sopra descritta, sia la stessa che pescare una biglia nera
da un’urna C in cui siano stati spostati i contenuti delle urne A e B, cioè che contiene
1000 biglie bianche e 3 biglie nere. Questo è evidentemente un errore grossolano, infatti la
probabilità di pescare una biglia nera dall’urna C è di 3/1003 cioè prossima a 0, mentre
la probabilità di pescare una biglia nera seguendo la procedura di cui sopra è maggiore di
1/2, in quanto è maggiore della probabilità di ottenere croce su una moneta equa (se si
ottiene croce allora si sceglie l’urna B e quindi necessariamente si estrae una biglia nera).
La formula delle probabilità totali fornisce la risposta su come gestire situazioni di questo
genere.
Proposizione 1.5.9 (Formula delle probabilità totali)SSia (Ω, F , P ) uno spazio di

probabilità e F1 , F2 , . . . , Fn ∈ F una partizione finita di Ω, nk=1 Fk = Ω e Fh ∩ Fk = ∅ se
h 6= k, tale che P (Fk ) > 0 per k = 1, 2, . . . , n. Allora per ogni evento E ∈ F si ha

n
X
P (E) = P (E|Fk )P (Fk ) (1.5.1)
k=1
Sn
Dimostrazione
Sn Sia E ∈ F , poiché Ω = k=1 Fk ed E ⊂ Ω,Snsegue che E = E ∩ Ω =
k=1 (E ∩ Fk ); inoltre, poiché Fh ∩ Fk = ∅ se h 6= k, allora k=1 (E ∩ Fk ) è un’unione
disgiunta e dall’additività otteniamo
n
X n
X
P (E) = P (E ∩ Fk ) = P (E|Fk )P (Fk )
k=1 k=1
(l’ultima uguaglianza segue direttamente dalla definizione di probabilità condizionata).
Esempio 1.5.10 Riprendiamo l’Esempio 1.5.8. In questo caso poniamo F1 “esce testa”,
F2 := F1c “esce croce”, E “viene pescata una biglia nera”. F1 ed F2 costituiscono ovvia-
mente una partizione di Ω. Inoltre si ha P (F1 ) = P (F2 ) = 1/2, P (E|F1 ) = 1/1001 mentre
P (E|F2 ) = 1. Dalla formula delle probabilità totali deriva che
1 1 1
P (E) = P (E|F1 )P (F1) + P (E|F2)P (F2 ) = × + 1 × ' 0.5
1001 2 2
Nota 1.5.11 Si noti che nell’esempio precedente non abbiamo detto nulla sullo spazio
di probabilità (Ω, F , P ) in cui tutto avviene, abbiamo solamente assunto che tale spazio
esista. Inoltre per calcolare le probabilità condizionate non abbiamo utilizzato la Defini-
zione 1.5.2, che si sarebbe rivelata inutile senza una conoscenza esplicita di (Ω, F , P ), ma
abbiamo utilizzato il significato euristico di probabilità condizionata, cioè la “probabilità
che venga presa una biglia nera sapendo da quale urna si sta pescando”. Questo modo di
procedere, tralasciando i dettagli formali e utilizzando nozioni intuitive, è tipico del cal-
colo delle probabilità e verrà utilizzato ancora in seguito. Lasciamo al lettore più pignolo
il compito di verificare che effettivamente esiste uno spazio (Ω, F , P ) in cui è possibile
immergere rigorosamente la nostra discussione.
Esercizio 1.5.12 Dimostrare la formula delle probabilità totali per una partizione nume-
rabile F1 , F2 , . . . di eventi.
Formula di Bayes
Torniamo ancora all’Esempio 1.5.8. Supponiamo che qualcuno, non visto da noi, abbia
lanciato la moneta, abbia di conseguenza scelto l’urna ed ora ci mostri una biglia nera.
Se ci viene chiesto di scommettere se sia uscito testa o croce sulla moneta, dopo qualche
ragionamento quasi tutti scommetterebbero su croce. Infatti è assai improbabile che la
biglia che è stata pescata provenga dall’urna A, costituita quasi interamente da biglie
bianche. La formula di Bayes è utile in situazioni di questo tipo, in cui cioè ci viene data
un’informazione a posteriori su un evento aleatorio e ci viene chiesto in che modo si sia
realizzato tale evento.
Proposizione 1.5.13 (Formula di Bayes) Sia (Ω, F , P ) uno spazio di probabilità e

F1 , F2 , . . . , Fn ∈ F una partizione finita Ω tale che P (Fk ) > 0 per k = 1, 2, . . . , n. Se
E ∈ F è tale che P (E) > 0 allora si ha
P (E|Fh )P (Fh )
P (Fh |E) = Pn h = 1, 2, . . . , n (1.5.2)
k=1 P (E|Fk )P (Fk )
Dimostrazione Dalla definizione di probabilità condizionata si ha

P (Fh ∩ E) P (E|Fh )P (Fh )
P (Fh |E) = =
P (E) P (E)
cosi che la (1.5.2) si ottiene applicando la formula delle probabilità totali (1.5.1) al deno-
minatore di questa uguaglianza.
Esempio 1.5.14 (Test clinici) 6 In un test clinico un individuo di una certa popolazione
viene sottoposto ad un’analisi di laboratorio (test) per sapere se ha o meno una certa
malattia. Il risultato del test può essere negativo, ad indicare che l’individuo è sano [rispetto
a quella malattia], oppure positivo, ad indicare che l’individuo è malato. Tuttavia tutti i
test utilizzati in pratica non sono completamente affidabili, nel senso che può accadere che
a sottoponendo un individuo sano al test, il test fornisce un risultato positivo (falso
positivo)
b sottoponendo un individuo malato al test, il test dà un risultato negativo (falso
negativo).
Ovviamente un test è “buono” se rende minime le probabilità di osservare falsi positivi o
negativi. Cosı̀, per valutare la bontà di un test, prima di applicarlo su larga scala, lo si ve-
rifica su individui di cui si conosce lo stato di salute. Supponiamo di sottoporre ad un test
clinico un individuo, e siano M l’evento “l’individuo è malato”, S l’evento “l’individuo è
sano”, I l’evento “il test è positivo” e O l’evento “il test è negativo”. Le grandezze P (I|M)
e P (O|S) sono note nella letteratura epidemiologica rispettivamente come sensibilità e spe-
cificità del test e possono essere calcolate, o meglio stimate, utilizzando il test su individui
dei quali si conosce lo stato di salute. In un buon test queste grandezze devono essere
quanto più possibile prossime ad 1. Se il test viene utilizzato per capire se un individuo è
malato o meno la grandezza che interessa è P (M|I) detta valore predittivo del test. Per la
formula di Bayes si ha che:
P (I|M)P (M) P (I|M)P (M)
P (M|I) = =
P (I|M)P (M) + P (I|S)P (S) P (I|M)P (M) + [1 − P (O|S)][1 − P (M)]
quindi per conoscere il valore predittivo del test non basta conoscere la specificità e la
sensibilità del test ma bisogna conoscere anche P (M). In definitiva bisogna avere informa-
zioni a priori sulla frequenza relativa della malattia nella popolazione. Si noti inoltre che
6
Si veda [3]
se P (M) → 0, anche P (M|I) è piccolo, cosicchè il test usato su una popolazione sana dà
quasi sempre falsi positivi. Tanto per fare un esempio pratico consideriamo la metodica
“ELISA” per la rilevazione degli anticorpi relativi al retrovirus HIV. Nel ’95 si stimava che
gli individui che avevano sviluppato anticorpi relativi all’HIV in Italia fossero lo 0.0025%
della popolazione totale. La sensibilità del test è 0.993 mentre la sua specificità è 0.9999.
Ne segue che il valore predittivo del test è dato da:
0.993 × 0.000025
P (M|I) = ' 0.2 = 20%
0.993 × 0.000025 + (1 − 0.9999) × (1 − 0.000025)
questo significa che se si effettuasse il test ELISA per l’HIV “a tappeto” su tutta la po-
polazione italiana l’80% circa dei positivi sarebbero falsi positivi! Per ovviare a questo
inconveniente nella pratica si restringe la popolazione da esaminare alla cosiddetta “popo-
lazione a rischio”, elevando in questo modo P (M), e si consiglia a chi è risultato positivo
alla metodica ELISA di sottoporsi ad un altro test, più costoso, ma anche più accurato.
Esercizio 1.5.15 (Test di collaudo) [Tratto da [12] ] Un’impresa industriale ha instal-

lato un sistema automatico per il controllo di qualità, che garantisce che, se un pezzo è
difettoso, esso viene eliminato con probabilità 0.995. Tuttavia, c’è una probabilità (piccola)
pari a 0.001 che un pezzo non difettoso sia eliminato. Inoltre, si sa anche che la probabilità
che un pezzo sia difettoso è 0.2. Si calcoli la probabilità che un pezzo non eliminato dopo
il controllo di qualità sia difettoso.
Esercizio 1.5.16 Dimostrare la formula di Bayes per una partizione numerabile F1 , F2 , . . .

di eventi.
Regola di moltiplicazione
Consideriamo ora l’esperimento di estrarre in sequenza e senza rimpiazzo delle biglie da
un’urna che inizialmente ne contiene r rosse e b bianche. Per calcolare la probabilità che la
prima biglia estratta sia rossa e la seconda bianca possiamo procedere come segue. Siano
Bk l’evento “la k-esima biglia estratta è bianca” ed Rk l’evento “la k-esima biglia estratta
è rossa”. La probabilità richiesta è
r b
P (R1 ∩ B2 ) = P (B2|R1 )P (R1 ) = ·
r+b r+b−1
Vogliamo ora calcolare la probabilità che la prima biglia estratta sia rossa, la seconda
bianca, la terza rossa e la quarta ancora bianca, cioè P (R1 ∩ B2 ∩ R3 ∩ B4 ). Come possiamo
estendere a questo caso il ragionamento precedente? In casi come questo risulta utile la
seguente formula.
Proposizione 1.5.17 (Formula di moltiplicazione) Sia (Ω, F , P ) uno spazio di pro-

babilità ed E1 , E2 , . . . , En ∈ F eventi tali che P (E1 ∩ E2 ∩ · · · ∩ En−1 ) > 0. Allora
P (E1 ∩ E2 ∩ · · · ∩ En ) = P (E1 )P (E2 |E1 )P (E3 |E2 ∩ E1 ) · · · · · P (En |E1 ∩ E2 ∩ · · · ∩ En−1 )

Dimostrazione Poiché E1 ∩ E2 ∩ · · · ∩ En−1 ⊂ E1 ∩ E2 ∩ · · · ∩ En−2 ⊂ · · · ⊂ E1 , per la

proprietà di monotonia si ha
0 < P (E1 ∩ E2 ∩ · · · ∩ En−1 ) ≤ P (E1 ∩ E2 ∩ · · · ∩ En−2 ) ≤ · · · ≤ P (E1 )
quindi possiamo scrivere
P (E1 ∩ E2 ∩ · · · ∩ En ) =
P (E1 ∩ E2 ) P (E1 ∩ E2 ∩ E3 ) P (E1 ∩ E2 ∩ · · · ∩ En )
= P (E1 ) · · ····· =
P (E1 ) P (E1 ∩ E2 ) P (E1 ∩ E2 ∩ · · · ∩ En−1 )
= P (E1 )P (E2 |E1 )P (E3 |E1 ∩ E2 ) · · · · · P (En |E1 ∩ E2 ∩ · · · ∩ En−1 )
Ritornando all’esempio dell’inizio del paragrafo
P (R1 ∩ B2 ∩ R3 ∩ B4 ) = P (R1 )P (B2 |R1 )P (R3 |R1 ∩ B2 )P (B4 |R1 ∩ B2 ∩ R3 ) =

r b r−1 b−1
= · · ·
r+b r+b−1 r+b−2 r+b−3
1.5.2 Indipendenza
L’indipendenza di eventi gioca un ruolo fondamentale nel calcolo delle probabilità. In-
tuitivamente due eventi sono indipendenti se il realizzarsi di uno dei due non influenza il
verificarsi dell’altro. Analogamente un numero finito e qualunque di eventi sono indipen-
denti se il realizzarsi di un numero finito di essi non influenza il verificarsi dei rimanenti.
Diamo ora le definizioni rigorose che si usano per formalizzare questi concetti.
Definizione 1.5.18 Sia (Ω, F , P ) uno spazio di probabilità. Gli eventi E, F ∈ F sono
indipendenti se
P (E ∩ F ) = P (E)P (F )
Si noti che se E ed F sono eventi indipendenti tali che P (E), P (F ) > 0 allora P (E|F ) =
P (E) e P (F |E) = P (F ), in accordo con l’idea intuitiva di indipendenza e probabilità
condizionata.
Definizione 1.5.19 Sia (Ω, F , P ) uno spazio di probabilità. Gli eventi E1 , E2 , . . . , En

sono indipendenti se comunque preso un sottoinsieme {h1 , h2 , . . . , hk } ⊂ {1, 2, . . . , n} con
k ≥ 2 si ha
P (Eh1 ∩ Eh2 ∩ · · · ∩ Ehk ) = P (Eh1 )P (Eh2 ) · · · · · P (Ehk ) (1.5.3)
Esempio 1.5.20 Tre eventi A, B e C sono indipendenti se e solo se valgono tutte le

seguenti relazioni: P (A∩B) = P (A)P (B), P (A∩C) = P (A)P (C), P (B ∩C) = P (B)P (C)
e P (A ∩ B ∩ C) = P (A)P (B)P (C).
Esercizio 1.5.21 Analogamente all’esempio qui sopra, indicare le 24 −4 −1 = 11 relazioni

necessarie e sufficienti per l’indipendenza di 4 eventi A, B, C e D.
Esercizio* 1.5.22 Verificare che sono 2n − n − 1 le relazioni del tipo (1.5.3) necessarie e
sufficienti per l’indipendenza di n eventi E1 , E2 , . . . , En .
Nota 1.5.23 Si noti che la Definizione 1.5.19 cattura il senso intuitivo di indipenden-
za secondo quanto detto all’inizio della sezione. Infatti se E1 , E2 , . . . , En sono eventi
indipendenti si ha ad esempio
P (E1 ∩ Eh1 ∩ Eh2 ∩ · · · ∩ Ehk )

P (E1 |Eh1 ∩ Eh2 ∩ · · · ∩ Ehk ) = = P (E1 )
P (Eh1 ∩ Eh2 ∩ · · · ∩ Ehk )
per ogni sottoinsieme {h1 , h2 , . . . , hk } ⊂ {1, 2, . . . , n} tale che 1 6∈ {h1 , h2 , . . . , hk } e P (Ehj ) >
0 per ogni j = 1, . . . , k: cioè il realizzarsi di qualsivoglia scelta di eventi tra E2 , . . . , En non
influenza il realizzarsi di E1 . Un discorso analogo si può fare sostituendo E2 ad E1 etc.
Esercizio* 1.5.24 Siano Tn E1 , E2 , . . . , En , con n ≥ 2, eventi in uno spazio di probabilità

(Ω, F , P ) tali che P ( j=1 Ej ) > 0. Provare che E1 , E2 , . . . , En sono indipendenti se e solo
se per ogni k ≥ 1
P (E1 |Eh11 ∩ Eh12 ∩ · · · ∩ Eh1k ) = P (E1 ) per ogni {h11 , h12 , . . . , h1k } ⊂ {1, 2, . . . , n} \ {1}
P (E2 |Eh21 ∩ Eh22 ∩ · · · ∩ Eh2k ) = P (E2 ) per ogni {h21 , h22 , . . . , h2k } ⊂ {1, 2, . . . , n} \ {2}
...
P (En |Ehn1 ∩ Ehn2 ∩ · · · ∩ Ehnk ) = P (En ) per ogni {hn1 , hn2 , . . . , hnk } ⊂ {1, 2, . . . , n} \ {n}
Nota 1.5.25 La Definizione 1.5.19 va letta e compresa con attenzione. Un errore tipico
consiste nel non capirne il significato, tentando quindi di ricostruirla mnemonicamente a
partire dal suo caso particolare e più facile da ricordare dato nella Definizione 1.5.18. In
questo modo si arriva spesso al seguente errore: “gli eventi E1 , E2 , . . . , En sono indipendenti
se P (E1 ∩ E2 ∩ · · · ∩ En ) = P (E1 )P (E2) · · · · · P (En )” oppure “gli eventi E1 , E2 , . . . , En sono
indipendenti se P (Eh ∩ Ek ) = P (Eh )P (Ek ) per ogni h 6= k”. Un altro errore tipico, in un
certo senso più grave dei precedenti, è il seguente: “due eventi E ed F sono indipendenti
se E ∩ F = ∅.
Esercizio 1.5.26 Provare che se E ed F sono due eventi non impossibili, cioè tali che
P (E) > 0 e P (F ) > 0, e se E ∩ F = ∅, allora E ed F non sono indipendenti.
La nozione di indipendenza si estende naturalmente a successioni di eventi nel modo
seguente:
Definizione 1.5.27 Sia (Ω, F , P ) uno spazio di probabilità. Si dice che gli eventi E1 , E2 , . . .
sono indipendenti se preso comunque un sottoinsieme finito di eventi della successione esso
è costituito da eventi indipendenti.
Cioè una successione di eventi è costituita da eventi indipendenti se preso comunque un
sottoinsieme finito di eventi della successione esso è costituito da eventi indipendenti.
Esercizio 1.5.28 Sia (Ω, F , P ) uno spazio di probabilità, mostrare che gli eventi ∅, Ω
sono indipendenti da qualsiasi evento o famiglia o successione di eventi in F . Qual è il
significato euristico di questa proprietà?
Esercizio 1.5.29 Sia (Ω, F , P ) uno spazio di probabilità, mostrare che se E, F ∈ F sono
eventi indipendenti, allora lo sono anche E ed F c , E c ed F , E c ed F c . Quale è il significato
euristico di questa proprietà?
Abbiamo già messo in evidenza che, se F ∈ F con P (F ) > 0, allora la funzione
PF (·) = P (· | F ) è una probabilità su (Ω, F ). Possiamo quindi considerare la nozione di
indipendenza rispetto a questa probabilità.
Definizione 1.5.30 Sia (Ω, F , P ) uno spazio di probabilità e siano A1 , . . . , An e F eventi

con P (F ) > 0. Allora A1 , . . . , An si dicono condizionatamente indipendenti, dato F se
essi sono indipendenti rispetto alla probabilità PF .
Nota 1.5.31 Attenzione! L’indipendenza di due eventi non implica la loro indipendenza
condizionatamente ad un terzo evento come mostra il seguente semplice esempio.
Esempio 1.5.32 Si lanciano due dadi regolari. Sia A l’evento: “il punteggio dei due
dadi è uguale”, B l’evento: “il punteggio del secondo dado è 2” e C l’evento: “il punteg-
gio del primo dado è pari”. Mostriamo che gli eventi A e B sono indipendenti ma non
condizionatamente indipendenti, dato C. Lo spazio campionario relativo all’esperimento
“lancio di due dadi è quello introdotto nell’Esempio 1.2.5 e gli eventi i A, B e C corri-
spondono ai sottoinsiemi di Ω, A = {(i, i) : i = 1, . . . , 6}, B = {(i, 2) : i = 1, . . . , 6},
C = {(2i, j) : i = 1, . . . , 3 j = 1, . . . , 6} e A∩B = {(2, 2)}. Quindi P (A) = |A|/|Ω| = 1/6,
P (B) = |B|/|Ω| = 1/6 e P (A ∩ B) = |A ∩ B|/|Ω| = 1/36. Poichè P (A)P (B) = 1/36 =
P (A ∩ B), A e B sono indipendenti. Se invece calcoliamo le probabilità degli stessi even-
ti, ma condizionatamente all’evento C, otteniamo P (A|C) = |A ∩ C|/|C| = 3/18 = 1/6,
P (B|C) = |B ∩ C|/|C| = 3/18 = 1/6 e P (A ∩ B|C) = |A ∩ B ∩ C|/|C| = 1/18 6= 1/36 =
P (A|C)P (B|C).
Esercizio 1.5.33 Mostrare con un controesempio che l’indipendenza condizionale non

implica l’indipendenza.
Per comprendere meglio il significato della nozione di indipendenza condizionata propo-
niamo al lettore il seguente esercizio.
Esercizio 1.5.34 Un tribunale sta investigando sulla possibilità che sia accaduto un even-
to E molto raro e a tal fine interroga due testimoni, Arturo e Bianca. L’affidabilità dei due
testimoni è nota alla corte: Arturo dice la verità con probabilità α e Bianca con probabi-
lità β, e i loro comportamenti sono indipendenti. Siano A e B gli eventi Arturo e Bianca
rispettivamente affermano che E è accaduto, e sia p = P (E). Qual è la probabilità che E
sia accaduto sapendo che Arturo e Bianca hanno dichiarato che E è accaduto? Assumendo
α = β = 0.9 e p = 10−3 , quale conclusione ne traete?
1.5.3 Prove di Bernoulli

Supponiamo di voler studiare un esperimento aleatorio, che chiameremo “prova”, in cui è
possibile ottenere solo due possibili risultati: “successo” o “fallimento”. Supponiamo di
poter ripetere in condizioni identiche questo esperimento un certo numero n ∈ N di volte in
modo tale che ogni prova non influenzi le altre. L’esempio tipico è il lancio di una moneta.
Indichiamo con successo l’uscita sulla moneta di una testa e con fallimento l’uscita di una
croce e lanciamo la moneta un certo numero di volte. Vogliamo rispondere a domande
del tipo, “qual è la probabilità di osservare 2 teste in 4 lanci?”. Poiché questo schema è
relativamente generale conviene sviluppare un modello generale. Costruiamo quindi uno
spazio di probabilità (Ω, F , P ) partendo dalle caratteristiche, sopra specificate in corsivo,
dell’esperimento aleatorio.
Sia n il numero delle prove. Ogni possibile risultato delle n prove può essere rappre-
sentato da una stringa binaria o n–upla, (a1 , a2 , . . . , an ) dove ak = 1 se la k–esima prova è
un successo mentre ak = 0 se la k–esima prova è un fallimento. Per esempio, se lanciamo
una moneta n = 4 volte, la stringa (1, 0, 0, 0) indica che al primo lancio si è ottenuta una
testa, mentre ai rimanenti si sono ottenute croci. Ne segue che un buon candidato come
spazio degli eventi elementari è l’insieme
Ω = {(a1 , a2 , . . . , an ) : ak ∈ {0, 1}, k = 1, 2, . . . , n} .
Essendo Ω un insieme finito di cardinalità 2n (verificare!), possiamo prendere (cfr. Sezio-
ne 1.4) F := P(Ω) e per individuare P è sufficiente determinare P ({ω}) per ogni ω ∈ Ω.
A tal fine osserviamo che il fatto che le varie prove non si influenzino a vicenda si traduce
nell’indipendenza degli eventi
E1 := {la prima prova è un successo} ,
E2 := {la seconda prova è un successo} ,
..
.
En := {l’n–esima prova è un successo} ;
mentre, il fatto che ripetiamo l’esperimento in condizioni identiche si traduce nell’ipotesi di
uguale probabilità di successo ad ogni prova: P (E1 ) = P (E2 ) = · · · = P (En ) = p ∈ (0, 1).
Considerato che per ogni ω = (a1 , a2 , . . . , an ) ∈ Ω vale7
! !
\ \
{ω} = Eh ∩ Ekc
h tali che ah =1 k tali che ak =0
allora
Y Y
P ({ω}) = P (Eh ) P (Ekc )
7
Supponiamo ad esempio n = 4 ed ω = (1, 0, 0, 1), il corrispondente evento è allora: “successo al-
la prima prova, fallimento alla seconda e terza prova, successo alla quarta prova”, che è l’intersezione
E1 ∩ E2c ∩ E3c ∩ E4 .
[per l’indipendenza di E1 , E2 , . . . , En ]
Y Y Pn Pn
ai
= p (1 − p) = p i=1 (1 − p)n− i=1 ai
,
dove per ottenere

Pn l’ultima eguaglianza abbiamo utilizzato il fatto che il numero degli h tali
che ah = 1 è i=1 ai , mentre il numero dei k tali che ak = 0 è
n
X
n − “il numero degli h tali che ah = 1” = n − ai
i=1
Quindi per ogni ω ∈ Ω, P ({ω}) è determinata una volta che sia noto il numero di cifre uguali
ad 1 di ω, cioè il numero di successi ottenuti nelle n prove; cioè, P ({ω}) = pk (1 − p)n−k se
il numero di successi è k e p è la probabilità di ottenere un successo in una singola prova.
Risulta cosı̀ giustificata la seguente definizione
Definizione 1.5.35 (Spazio di probabilità di Bernoulli) Sia n ∈ N e p ∈ (0, 1). Po-

niamo
Pn
Ω := {(a1 ,P a2 , . . . , an ) : ak ∈ {0, 1}, k = 1, 2, . . . , n}, F := P(Ω) e P ({(a1, a2 , . . . , an )} =
n
p k=1 ak (1 − p)n− k=1 ak per ogni (a1 , a2 , . . . , an ) ∈ Ω. La terna (Ω, F , P ) si chiama spazio
di probabilità di Bernoulli o spazio di probabilità di n prove di Bernoulli.
Supponiamo ora di lanciare una moneta 10 volte (o anche di lanciare 10 monete identiche);
sappiamo che questo esperimento aleatorio può essere rappresentato mediante uno spazio
di Bernoulli con n = 10 e p = 1/2 (se la moneta è equa). Ci chiediamo, ad esempio, “qual
è la probabilità di osservare 4 teste e 6 croci?” Per rispondere a domande di questo genere
è utile la seguente
Proposizione 1.5.36 La probabilità di osservare k ≤ n successi in una sequenza di n ≥ 1

prove di Bernoulli se la probabilità di successo della singola prova è p ∈ (0, 1) è data da

n k
p (1 − p)n−k
k
Dimostrazione Sia (Ω, F , P ) lo spazio di probabilità di Bernoulli, e Bk ∈ F l’evento
“si osservano k successi”, cioè
( n
)
X
Bk = (a1 , a2 , . . . , an ) ∈ Ω : ah = k
h=1
allora X X
P (Bk ) = P ({ω}) = pk (1 − p)n−k = |Bk |pk (1 − p)n−k
ω∈Bk ω∈Bk
n

ma |Bk | = k , infatti per elencare tutte le stringhe lunghe n in cui k cifre sono uguali ad
1 ed n − k sono uguali a 0, basta fissare i k posti degli 1 e questo può essere fatto in nk
modi.
Nota 1.5.37 Si noti che gli eventi Bk , k = 0, 1, . . . n, che fissano il numero di successi in n
prove di Bernoulli, hanno probabilità che corrispondono ai valori pk del modello binomiale
(vedi Esempio 1.4.3). Quindi uno spazio di probabilità di Bernoulli induce sullo spazio
campionario Ωe = {0, 1, . . . , n} dell’esperimento che considera il numero dei successi nelle
n prove, un modello binomiale di parametri n e p.
Capitolo 2
Variabili aleatorie
2.1 Variabili aleatorie

Abbiamo visto nel capitolo precedente come la teoria assiomatica del calcolo delle proba-
bilità modellizzi gli eventi casuali. In particolare abbiamo fatto la scelta di associare ad
un esperimento aleatorio uno spazio di probabilità, cioè una terna (Ω, F , P ), dove Ω è
l’insieme di tutti i possibili risultati dell’esperimento casuale, F è un insieme costituito da
sottoinsiemi di Ω che vanno interpretati come eventi associati all’esperimento casuale e P
è una funzione che ad ogni insieme E ∈ F associa un numero P (E) ∈ [0, 1] da interpretare
come la probabilità che l’evento (associato ad) E avvenga1 .
Una classe molto importante di eventi casuali sono quelli che hanno a che fare con i
“numeri casuali”. Un numero casuale è proprio quello che il linguaggio comune suggerisce.
Sia ad esempio T il tempo di vita di un componente elettronico: possiamo pensare a
T come ad un numero casuale. Sia X il numero di teste che si presentano se lanciamo
1000 monete da un euro, allora X è un numero casuale. Per ragioni storiche nel calcolo
delle probabilità i numeri casuali vengono chiamati variabili aleatorie. In questo capitolo
introdurremo il concetto di variabile aleatoria da un punto di vista assiomatico e vedremo
alcune applicazioni di questo concetto. In realtà nel Capitolo 1 abbiamo già studiato
dei fenomeni casuali che nascondevano delle variabili aleatorie; quindi l’introduzione che
ne faremo qui non aggiunge nulla da un punto di vista concettuale. Tuttavia parlare
di numeri casuali, piuttosto che di eventi casuali, consente di utilizzare tutto l’apparato
matematico che è stato sviluppato dall’analisi; ad esempio, potremo parlare di somma di
variabili aleatorie, di limiti di successioni di variabili aleatorie etc., ottenendo cosı̀ degli
strumenti matematici piuttosto potenti.
Come abbiamo fatto nel Capitolo 1 per gli eventi casuali, dobbiamo dare una definizione
matematicamente soddisfacente del concetto di numero casuale. Per la teoria assiomatica
della probabilità le variabili aleatorie sono funzioni sullo spazio degli eventi elementari Ω.
Per meglio capire questo concetto vediamo un esempio.
1
In quanto segue, se non c’è possibilità di errore, ometteremo frasi del tipo “un insieme E associato ad
un certo evento” ma parleremo semplicemente dell’evento E, identificando gli insiemi con gli “eventi”.
27
Esempio 2.1.1 Viene lanciata tre volte una moneta non truccata e sia X il numero di teste
che si presentano. Chiaramente X è un numero casuale che può assumere i valori 0, 1, 2, 3.
L’esperimento che stiamo considerando rappresenta tre prove di Bernoulli con probabilità
di successo in ogni singola prova pari ad 1/2. Il modello probabilistico adeguato è quindi
lo spazio di Bernoulli (Ω, F , P ), dove Ω = {(a1 , a2 , a3 ) : ai = 0, 1 i = 1, 2, 3} con ai = 1 se
all’i-esimo lancio esce testa e 0 altrimenti, F = P(Ω) e P (E) = |E|/|Ω|. Questo spazio,
fatta eccezione per la diversa rappresentazione degli eventi elementari, coincide con quello
dell’Esempio 1.2.19. Ora possiamo pensare alla variabile aleatoria X come ad una regola
che ad ogni (a1 , a2 , a3 ) ∈ Ω associa il numero di teste che sono uscite se accade l’evento
elementare rappresentato da (a1 , a2 , a3 ). Questo numero verrà denotato con X((a1 , a2 , a3 ))
e vale X((a1 , a2 , a3 )) = a1 + a2 + a3 . Notiamo come in questo caso possiamo calcolare la
probabilità che X assuma un certo valore. Ad esempio
P (X = 2) = P ({(a1 , a2 , a3 ) ∈ Ω : X((a1 , a2 , a3 )) = 2})

3
= P ({(1, 1, 0), (1, 0, 1), (0, 1, 1)}) =
8
L’esempio appena visto dovrebbe far vedere perché nella teoria assiomatica della probabilità
si pensa alle variabili aleatorie come a funzioni definite su Ω.
Un altro fatto importante al quale bisogna pensare, prima di vedere la definizione
formale di variabile aleatoria, è il seguente. Sia X una variabile aleatoria definita su
uno spazio di probabilità (Ω, F , P ) (cioè X è una funzione da Ω in R) e chiediamoci:
qual è la probabilità che X sia minore di un certo numero fissato x? Oppure, qual è la
probabilità che X sia maggiore di un certo numero fissato x? Queste sembrano essere
domande totalmente legittime e vorremmo che il nostro modello matematico contenesse al
suo interno la possibilità di rispondere a domande di questo genere. In realtà, chiedersi
ad esempio qual è la probabilità che X sia minore o uguale di un certo numero fissato
x equivale a chiedersi qual è la probabilità dell’evento E = {ω ∈ Ω : X(ω) ≤ x} e per
calcolare questa probabilità è necessario che E ∈ F , dal momento che P (E) non è definita
se E 6∈ F . Questa questione “tecnica” non si pone se F = P(Ω) (come accade se Ω è finito
o numerabile), perché essa è banalmente soddisfatta per ogni x. Tuttavia, la questione è
rilevante in quanto si possono fare esempi, che non vedremo in questo corso, di spazi di
probabilità (Ω, F , P ) e di funzioni X : Ω → R per i quali {ω ∈ Ω : X(ω) ≤ x} 6∈ F .
Ora possiamo dare la definizione di variabile aleatoria.
Definizione 2.1.2 (Variabile aleatoria) Sia (Ω, F , P ) uno spazio di probabilità. Una
variabile aleatoria X è una funzione da Ω in R tale che per ogni x ∈ R, l’insieme {X ≤
x} := {ω ∈ Ω : X(ω) ≤ x} ∈ F .
Esempio 2.1.3 (Segue Esempio 2.1.1) Torniamo all’Esempio 2.1.1. Poiché {ω ∈ Ω :

X(ω) ≤ 1} = {ω : X(ω) = 0} ∪ {ω : X(ω) = 1} = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1)},
allora P (X ≤ 1) = P {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1)} = 4/8 = 1/2.
2.1. VARIABILI ALEATORIE 29
Esempio 2.1.4 (Segue Esempio 1.2.4) Torniamo all’Esempio 1.2.4 del tempo di vita
di un componente elettronico. Ricordiamo che Ω := R+ dove il punto t ∈ R+ significa
che il componente si è guastato all’istante t. Un esempio di scelta per la probabilità P è
P ((s, t]) = e−µs − e−µt , se 0 ≤ s ≤ t, dove µ > 0 è un parametro che dipende dal modello.
Vedremo in seguito che questa scelta modellizza il guasto accidentale di un componente
monitorato nel tempo continuo e non soggetto ad usura. L’istante di guasto T è una
funzione T : Ω → R definita come la funzione identità cioè T (ω) := ω per ogni ω ∈ Ω.
Allora, se 0 ≤ s < t abbiamo che
{ω ∈ Ω : s < T (ω) ≤ t} = {ω ∈ Ω : s < ω ≤ t} = (s, t]
da cui
P (s < T ≤ t) = P ((s, t]) = e−µs − e−µt se 0 ≤ s ≤ t
Si noti che “fraudolentemente” non abbiamo detto chi è F in questo caso. Il motivo non
è una semplice dimenticanza, il problema è che in questo caso F è un oggetto piuttosto
complicato. Ci accontenteremo di dire che è possibile costruire F in modo che contenga
tutti gli intervalli di R+ (compreso lo stesso R+ ), i loro complementari e le loro unioni.
Se (Ω, F , P ) è uno spazio di probabilità ed X una variabile aleatoria su questo spazio,
allora, per definizione, {X ≤ x} ∈ F per ogni x ∈ R. A partire da questa richiesta, si
ottiene la seguente proposizione.
Proposizione 2.1.5 Se X è una variabile aleatoria allora {X < x}, {X ≥ x}, {X >
x}, {x < X < y}, {x ≤ X < y}, {x < X ≤ y}, {x ≤ X ≤ y}, {X = x}, {X 6= x} sono
eventi (cioè sottoinsiemi di Ω che appartengono a F ).
Esercizio* 2.1.6 Si dimostri la Proposizione 2.1.5
Aiuto Si usi nella dimostrazione il fatto che F è una σ-algebra (quindi valgono le proprietà
della Definizione 1.2.12). Per cominciare, si osservi che
+∞
[
{X < x} = {ω ∈ Ω : X(ω) < x} = {ω ∈ Ω : X(ω) ≤ x − 1/n}
n=1
e {ω ∈ Ω : X(ω) ≤ x − 1/n} ∈ F ∀n ≥ 1, quindi...
2.1.1 Funzione di ripartizione

Nella sezione precedente abbiamo visto che il concetto di numero casuale è modellizzato da
una funzione definita sullo spazio degli eventi elementari. In questa sezione vedremo come
ad una variabile aleatoria X sia possibile associare una funzione reale FX che ci permetterà
di calcolare probabilità di eventi connessi a X.
Sia X una variabile aleatoria definita su uno spazio di probabilità (Ω, F , P ) e sia x ∈ R.
Per il punto 3. della Proposizione 1.2.17:
P (X > x) = P ({ω ∈ Ω : X(ω) > x}) = P ({ω ∈ Ω : X(ω) ≤ x}c ) =
= 1 − P ({ω ∈ Ω : X(ω) ≤ x}) = 1 − P (X ≤ x).
Se invece x, y ∈ R con x < y, dal punto 3. della Proposizione 1.3.1 deriva che
P (x < X ≤ y) = P ({ω ∈ Ω : x < X(ω) ≤ y})

= P ({ω ∈ Ω : X(ω) ≤ y} \ {ω ∈ Ω : X(ω) ≤ x})
= P ({ω ∈ Ω : X(ω) ≤ y}) − P ({ω ∈ Ω : X(ω) ≤ x})
= P (X ≤ y) − P (X ≤ x)
Quanto precede mostra che se conosciamo la funzione FX (x) := P (X ≤ x), x ∈ R,

possiamo facilmente calcolare la probabilità di eventi associati a X. Per questa ragione
alla funzione FX si dà un nome particolare.
Definizione 2.1.7 (Funzione di ripartizione) Sia X una variabile aleatoria definita su

uno spazio di probabilità (Ω, F , P ). Si chiama funzione di ripartizione di X la funzione
FX : R → [0, 1] definita per ogni x ∈ R come FX (x) := P (X ≤ x).
Esempio 2.1.8 (Segue Esempio 2.1.1) Sia X la variabile aleatoria che indica il numero
di teste ottenute in un lancio di tre monete non truccate dell’Esempio 2.1.1. Calcoliamo
e rappresentiamo graficamente FX (x) = P (X ≤ x). Innanzi tutto notiamo che X assume
solo i valori 0, 1, 2 e 3. Quindi se x < 0 allora FX (x) = P (X ≤ x) = 0. Se x = 0
abbiamo che FX (0) = P (X = 0) = P ({(0, 0, 0)}) = 1/8, mentre se 0 < x < 1 abbiamo
che FX (x) = P (X ≤ x) = P (X ≤ 0) = 1/8, perché la variabile aleatoria X è più piccola
o uguale ad un numero in (0, 1) se e solo se è più piccola o uguale a 0. Se x = 1 abbiamo
che FX (1) = P (X ≤ 1) = P (X = 0) + P (X = 1) = (1/8) + (3/8) = 1/2, mentre se
1 < x < 2 abbiamo che FX (x) = P (X ≤ x) = P (X ≤ 1) = 1/2. Analogamente, otteniamo
FX (x) = 7/8 se 2 ≤ x < 3. Infine, se x ≥ 3 allora FX (x) = P (X ≤ x) = 1 semplicemente
perché certamente X ≤ 3. In definitiva:


 0 se x < 0


 1
 8 se 0 ≤ x < 1

FX (x) = 12 se 1 ≤ x < 2



 7
se 2 ≤ x < 3

 8
1 se x ≥ 3
Il grafico di FX è rappresentato in Figura 2.1 (a).
Esempio 2.1.9 (Segue Esempio 2.1.4) Sia T la variabile aleatoria che indica il tempo
di rottura di un certo componente elettronico che abbiamo visto nell’Esempio 2.1.4. Allora
FT (t) = P (T ≤ t) = 0 se t < 0 mentre FT (t) = 1 − e−µt se t ≥ 0. In definitiva
(
0 se t < 0
FT (t) = −µt
1−e se t ≥ 0
La funzione di ripartizione di una variabile aleatoria X gode di alcune proprietà:

2.1. VARIABILI ALEATORIE 31
(a) (b)
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 2 4 6 8 10
Figura 2.1: (a) f.d.r. FX dell’Esempio 2.1.8, (b) f.d.r. FT dell’Esempio 2.1.9
Proposizione 2.1.10 Sia X una variabile aleatoria definita su di uno spazio di probabilità
(Ω, F , P ) e sia FX (x) = P (X ≤ x) la sua funzione di ripartizione. Allora
1. FX è una funzione monotona non decrescente;
2. FX è continua da destra, cioè limx↓x0 FX (x) = FX (x0 ), ∀x0 ∈ R;
3. limx→−∞ FX (x) = 0 e limx→+∞ FX (x) = 1.
Dimostrazione Si veda [1] o si provi a dimostrare per esercizio almeno la 1..
Nota* 2.1.11 Le proprietà 1., 2. e 3. della Proposizione 2.1.10 sono importanti perché
si può dimostrare (cosa che noi non faremo) che data una funzione F che le soddisfa,
è possibile costruire uno spazio di probabilità (Ω, F , P ) e una variabile aleatoria X su
(Ω, F , P ) che ha F come funzione di ripartizione. (Vedere Esempio 2.1.9). Potremo quindi
parlare di “variabile aleatoria X con funzione di ripartizione F ” senza dover esplicitamente
costruire lo spazio di probabilità dove X è definita.
La precedente osservazione giustifica la seguente
Definizione* 2.1.12 Una funzione F : R → R è detta funzione di distribuzione su R se

soddisfa le seguenti condizioni
1. F è funzione monotona non decrescente;
2. F (x) è continua da destra ∀x ∈ R;
3. limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1.

La funzione di ripartizione di una variabile aleatoria è importante sia da un punto di vista

applicativo sia da un punto di vista teorico. Per le applicazioni si può osservare che, se
FX è nota, da essa si possono calcolare facilmente probabilità collegate ad X. Si veda ad
esempio l’esercizio seguente:
Esercizio 2.1.13 Sia X una variabile aleatoria definita su di uno spazio di probabilità
(Ω, F , P ) e sia FX la sua funzione di ripartizione. Mostrare che:
1. P (X > x) = 1 − FX (x) per ogni x ∈ R;
2. P (x < X ≤ y) = FX (y) − FX (x) per ogni x, y ∈ R tali che x ≤ y;
3∗ P (X < x) = limy↑x FX (y);
4. P (X = x) = FX (x) − limy↑x FX (y).
Per quanto riguarda la teoria, le variabili aleatorie possono essere classificate a seconda
di alcune proprietà delle loro funzioni di ripartizione. In generale la classificazione com-
pleta è piuttosto complessa e richiede strumenti matematici sofisticati. Noi introdurremo
solamente le due classi di variabili aleatorie più importanti per le applicazioni a questo
livello elementare, cioè le variabili aleatorie discrete e quelle assolutamente continue.
2.2 Variabili aleatorie discrete

Definizione 2.2.1 (Variabili aleatorie discrete) La variabile aleatoria X definita su
uno spazio di probabilità (Ω, F , P ) è una variabile aleatoria discreta se assume, con pro-
babilità uno, valori in un insieme S al più numerabile (P (X ∈ S) = 1).
Esempi di variabili aleatorie discrete sono: il numero di volte che bisogna lanciare una
moneta prima di ottenere testa, il numero di successi in una sequenza di prove di Bernoulli,
il numero di teste che si ottengono lanciando tre monete (cfr. Esempio 2.1.1). Per una
variabile discreta è possibile definire una densità discreta nel modo seguente:
Definizione 2.2.2 Sia X una variabile aleatoria discreta su uno spazio di probabilità
(Ω, F , P ). Allora la funzione pX (x) := P (X = x) si chiama densità discreta della variabile
aleatoria X.
Si noti che, se pX è la densità di una variabile aleatoria discreta X, allora pX (x) = 0 tranne
che per una quantità al più numerabile di x ∈ R.
Esempio 2.2.3 (Segue Esempio 2.1.1) Sia X il numero di teste che si ottengono lan-
ciando tre volte una moneta equa. Sappiamo quindi che X può assumere solo i valori 0, 1, 2
e 3. Inoltre P (X = 0) = P ({(0, 0, 0)} = 1/8, P (X = 1) = P ({(1, 0, 0), (0, 1, 0), (0, 0, 1)}) =
2.2. VARIABILI ALEATORIE DISCRETE 33
3/8, P (X = 2) = P ({(1, 1, 0), (1, 0, 1), (0, 1, 1)}) = 3/8 e P (X = 3) = P ({(1, 1, 1)}) = 1/8.
Quindi 
1
 8 se x ∈ {0, 3}

pX (x) = P (X = x) = 83 se x ∈ {1, 2}


0 se x ∈/ {0, 1, 2, 3}
Per rappresentare graficamente l’andamento di questa densità usiamo un diagramma a
barre. Un diagramma a barre è costruito disegnando in corrispondenza di ogni valore xk in
S una barra perpendicolare all’asse delle ascisse di lunghezza uguale alla densità pX (xk ),
come in Figura 2.2. 0.375
0.125
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Figura 2.2: Densità pX dell’Esempio 2.2.3
Se pX è la densità di X allora valgono le seguenti proprietà:
Proposizione 2.2.4 Sia pX la densità di una variabile aleatoria discreta X che assume,
con probabilità uno, valori in S = {xk : k ∈ I} (I ⊂ Z). Allora
1. 0 ≤ pX (x) ≤ 1 per ogni x ∈ R e pX (x) = 0 per ogni x 6∈ S;
P
2. k∈I pX (xk ) = 1;
3. se FX è la funzione di ripartizione di X allora

X
FX (x) = pX (xk ) ∀x ∈ R
k: xk ≤x
4. Se i punti di S possono essere numerati in modo tale che xh < xk se h < k, allora
pX (xk ) = FX (xk ) − FX (xk−1 ), ∀k ∈ I;
5. se B ⊂ R allora X
P (X ∈ B) = pX (xk )
k: xk ∈B
Dimostrazione
1. Ovvio, ricordando che pX (x) = P (X = x).
2. Infatti, per definizione di S abbiamo che P (X ∈ S) = 1

!
[ X X
1 = P (X ∈ S) = P {X = xk } = P (X = xk ) = pX (xk )
k∈I k∈I k∈I
3. Ricordando che FX (x) = P (X ≤ x) e che P (X ∈ S) = 1, allora

!
[
FX (x) =P (X ≤ x) = P (X ∈ (−∞, x] ∩ S) = P {X = xk }
k: xk ≤x
X X
= P (X = xk ) = pX (xk ).
k: xk ≤x k: xk ≤x
4. Ricordiamo che dal punto 2. dell’Esercizio 2.1.13 segue che FX (xk ) − FX (xk−1 ) =
P (xk−1 < X ≤ xk ). Ma, se i punti di S sono numerati in modo tale che xh < xk se
h < k allora P (xk−1 < X ≤ xk ) = P (X = xk ), da cui: FX (xk ) − FX (xk−1 ) = P (X =
xk ) = pX (xk ).
5. Poiché P (X ∈ S) = 1, allora
!
[ X
P (X ∈ B) = P (X ∈ B ∩ S) = P {X = xk } = P (X = xk ) =
k: xk ∈B∩S k: xk ∈capS
X
= p(xk )
k: xk ∈B
I punti 3. e 4. della precedente proposizione mostrano come sia possibile ottenere dalla
densità di una variabile aleatoria discreta la sua funzione di ripartizione e viceversa. In
particolare ci dicono che se i punti di S possono essere numerati in modo tale che xh < xk
se h < k, allora la funzione di ripartizione di una variabile aleatoria discreta è una funzione
“a gradini”, che i gradini sono situati nei punti dell’insieme S e che l’altezza del gradino
corrispondente al punto xk ∈ S è proprio pX (xk ).
Esercizio 2.2.5 Capire il significato della Proposizione 2.2.4 verificandola per la variabile
aleatoria dell’Esempio 2.1.1.
Il punto 5. della Proposizione 2.2.4 ci fa capire a cosa serve la densità discreta: ci permette
di calcolare la probabilità che l’evento {X ∈ B} si verifichi effettuando una semplice
operazione algebrica e senza sapere altro sulla variabile aleatoria X.
2.2. VARIABILI ALEATORIE DISCRETE 35
Nota* 2.2.6 In realtà, nel seguito considereremo solamente variabili aleatorie discrete
che assumono, con probabilità uno, valori in un insieme S che può essere rappresentato nel
seguente modo: S = {xk : k ∈ I} con xh < xk se h < k e I ⊂ Z. Per esempio, questa
rappresentazione di S non è data se S è l’insieme Q dei numeri razionali, mentre vale se
S non ha punti di accumulazione. Se S ammette questa forma, sarà facile rappresentare
graficamente la densità (mediante un diagramma a barre) e la funzione di ripartizione.
Nota 2.2.7 Un punto che ci interessa evidenziare è la motivazione euristica della parola
“densità” utilizzata nel contesto delle variabili aleatorie discrete. Supponiamo che pX sia la
densità di una variabile aleatoria discreta X: questo significa che pX attribuisce un numero
pX (x) ≥ 0 ad ogni x ∈ R; in particolare questo numero sarà non nullo solo per una quantità
al più numerabile di punti S := {xk : k ∈ I} ⊂ R con I ⊂ Z. Un modo interessante di
visualizzare questa situazione è immaginare i punti di S come punti materiali su una retta
attribuendo al generico punto xk la massa mk := pX (xk ). In questo modo otteniamo una
distribuzione di masse discrete sulla retta e pX è proprio la densità di massa. Questa
osservazione sarà particolarmente utile in seguito.
Esempio 2.2.8 Consideriamo i lanci successivi di una moneta equilibrata fino a quando
non otteniamo testa. Sia X il numero di volte, inclusa l’ultima, che la moneta viene
lanciata. Calcoliamo P (X = k) per k ∈ N. A tal fine consideriamo per k = 1, 2, . . . gli
eventi Ek = “al k–esimo lancio otteniamo una testa” e osserviamo che questi eventi sono
indipendenti con P (Ek ) = 1/2 per k = 1, 2, . . . essendo la moneta lanciata equilibrata. Per
calcolare P (X = 1) osserviamo che X = 1 se e solo se al primo lancio otteniamo una testa,
da cui segue che P (X = 1) = P (E1 ) = 1/2. Per P (X = 2) osserviamo che X = 2 se e solo
se al primo lancio ottengo una croce ed al secondo lancio otteniamo una testa, quindi {X =
2} = E1c ∩ E2 , da cui P (X = 2) = P (E1c ∩ E2 ) = P (E1c )P (E2 ) = 1/4. Il ragionamento fatto
sopra per k = 2 si estende facilmente a ogni k ≥ 2 nel modo seguente: X = k se e solo se
abbiamo lanciato k volte la moneta ottenendo croce nei primi k −1 lanci e testa nel k–esimo
lancio. Pertanto, P (X = k) = P (E1c ∩· · ·∩Ek−1
c
∩Ek ) = P (E1c )·· · ··P (Ek−1
c
)P (Ek ) = 1/2k .
Inoltre,
+∞
X +∞
X 1
P (X ∈ N) = P (X = k) = =1
2k
k=1 k=1
Concludiamo che X è una variabile aleatoria discreta a valori in N e la sua densità è

(
1
k se x ∈ N
pX (x) = 2
0 altrove
Se vogliamo ora ad esempio calcolare la probabilità che siano necessari più di 3 lanci per
ottenere la prima testa basta utilizzare il punto 5. della Proposizione 2.2.4:
X +∞
X +∞ +∞
1 1 X 1 1 X 1 1
P (X > 3) = pX (k) = k
= 3 k−3
= 3 k
= 3
k>3 k=4
2 2 k=4 2 2 k=1 2 2
Nota* 2.2.9 Prima di vedere alcuni esempi importanti di densità discrete, torniamo un
momento ai punti 1. e 2. della Proposizione 2.2.4. Una domanda naturale è la seguente:
una funzione reale p(·), diversa da zero su un insieme al più numerabile S = {xk : k ∈ I}
(I ⊂ Z), che verifica le proprietà 1. e 2 della Proposizione 2.2.4, può essere sempre vista
come densità di una variabile aleatoria discreta? Più precisamente, è sempre possibile
costruire uno spazio di probabilità (Ω, F , P ) ed una variabile aleatoria X su di esso che
ha p(·) come densità, cioè tale che pX (x) = p(x)? La risposta è affermativa. Infatti basta
prendere Ω = S, F = P(S) e P l’unica misura di probabilità su S tale che P ({xk }) =
p(xk ) con k ∈ I, come mostrato nella Sezione 1.4. È immediato, quindi, verificare che la
variabile aleatoria discreta X(ω) = ω, per ogni ω ∈ Ω, ha densità p(·).
La precedente osservazione ci permetterà di parlare di variabili aleatorie assegnandone la
densità, senza costruire esplicitamente lo spazio di probabilità dove X è definita e giustifica
la seguente definizione.
Definizione* 2.2.10 Sia S = {xk : k ∈ I} ⊂ R con I ⊂ Z. Una funzione p : R → R è

una densità discreta su S se
1. 0 ≤ p(x) ≤ 1 per ogni x ∈ R e p(x) = 0 per ogni x 6∈ S;
P
2. k∈I p(xk ) = 1.
2.3 Esempi di densità discrete notevoli

Vediamo ora in dettaglio alcuni esempi di densità discrete che sono importanti per le
applicazioni.
2.3.1 Densità binomiale e bernoulliana

Consideriamo di nuovo le prove di Bernoulli definite nella Sezione 1.5.3. In quella sezione
avevamo visto che se p ∈ (0, 1) è la probabilità di ottenere il successo in una singola prova
di Bernoulli, la probabilità di ottenere k successi in n prove (k ≤ n) è

n k
p (1 − p)n−k
k
Definiamo ora la variabile aleatoria X come “il numero di successi ottenuti in n prove di
Bernoulli”. Si vede subito che X può assumere solo i valori 0, 1, . . . , n ed è quindi una
variabile aleatoria discreta. Inoltre, per quanto ricordato, la sua densità è
(
n k
k
p (1 − p)n−k se k ∈ {0, 1, . . . , n}
pX (k) = P (X = k) =
0 se k 6∈ {0, 1, . . . , n}
che prende il nome di densità binomiale di parametri n e p. Equivalentemente si dice che X

è una variabile aleatoria binomiale di parametri n e p o ancora X ∼ Bi(n, p). La Figura 2.3
densità Bi(10, 0.5) funzione di ripartizione Bi(10, 0.5)
0.25
1.0
0.20
0.8
0.15
0.6
0.10
0.4
0.05
0.2
0.00
0.0
0 2 4 6 8 10 0 2 4 6 8 10
Figura 2.3: Bi(10, 0.5)
fornisce il diagramma a barre della densità ed il grafico della funzione di ripartizione di una
variabile aleatoria X ∼ Bi(10, 0.5), mentre la Figura 2.4 mostra, mediante un diagramma
a barre, l’andamento delle densità Bi(10, 0.2) e Bi(10, 0.8).
Sia X ∼ Bi(n, p); se n = 1 questa variabile rappresenta il numero di successi in una sola
prova con probabilità di successo p, cioè X assume solo i valori 0 e 1, e la densità di X è
pX (k) = pk (1 − p)1−k se k ∈ {0, 1} e pX (k) = 0 se k 6∈ {0, 1}, cioè

1 − p se k = 0

pX (k) = p se k = 1


0 se k 6∈ {0, 1}
Questa densità prende il nome di densità bernoulliana di parametro p; equivalentemente si

dice che X è una bernoulliana di parametro p o ancora X ∼ Be(p).
Per ragioni di comodità si dice che la variabile aleatoria costante X ≡ 1, cioè la variabile
aleatoria che vale sempre 1, è bernoulliana di parametro 1 e che la variabile aleatoria
costante X ≡ 0, cioè la variabile aleatoria che vale sempre 0, è bernoulliana di parametro 0.
Esempio 2.3.1 Riempiendo a caso una schedina di totocalcio, qual è la probabilità di fare
almeno 12?
Su una schedina del totocalcio sono elencate 14 partite e ogni partita può avere tre
risultati “1”, “2” o “X”, ad indicare rispettivamente la vittoria della squadra ospitante,
della squadra ospite o la parità. La probabilità di azzeccare una singola partita, scrivendo
a caso uno dei simboli 1, 2 o X, è -almeno in prima approssimazione- uguale ad 1/3.
Inoltre l’aver azzeccato o meno il risultato di una certa partita non influenza la capacità di
azzeccare le altre. Possiamo quindi schematizzare il nostro esperimento aleatorio con una
(a) (b)
0.30
0.30
0.25
0.25
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0 2 4 6 8 10 0 2 4 6 8 10
Figura 2.4: (a)Bi(10, 0.2), (b)Bi(10, 0.8)
successione di n = 14 prove di Bernoulli, con probabilità di successo nella singola prova

p = 1/3. Sia Y il numero di partite azzeccate; allora Y ∼ Bi(14, 1/3) e
14
X 14 k 14−k
X 14 1 2 393
P (Y ≥ 12) = pY (k) = = ' 0.00008
k=12 k=12
k 3 3 4782969
Esercizio 2.3.2 Supponiamo che da un’urna contenente r biglie rosse e b biglie bianche
estraiamo a caso una biglia, prendiamo nota del suo colore e la reinseriamo nell’urna.
Quindi, ripetiamo questa procedura n ≥ 1 volte e sia X il numero di biglie rosse estratte
nelle n estrazioni. Verificare che X ∼ Bi(n, r/(r + b)).
2.3.2 Densità Geometrica

Supponiamo di avere un’apparecchiatura non soggetta ad usura ed inizialmente funzionan-
te, ma che si può guastare per motivi contingenti. Supponiamo di controllare il funziona-
mento dell’apparecchiatura agli istanti 1,2,. . . . Sia X l’istante in cui l’apparecchiatura si
guasta. Vogliamo vedere se è possibile costruire un modello probabilistico per X. A tal fine
osserviamo che se controlliamo l’apparecchiatura al tempo t = k e la troviamo funzionante,
la probabilità che l’apparecchiatura sia ancora funzionante al tempo t = k + 1 è la stessa
di quella di trovarla funzionante al tempo t = 1; infatti, stiamo semplicemente cercando la
probabilità che si guasti in un intervallo di tempo unitario, che è costante per l’ipotizzata
assenza di usura. In formule:
P (X > k + 1|X > k) = P (X > 1), k = 1, 2, . . . .

La precedente identità ci permette di determinare la densità di X se conosciamo q :=

P (X > 1). Infatti:
P (X > k + 1, X > k) P (X > k + 1)

q = P (X > 1) = =
P (X > k) P (X > k)
da cui P (X > k + 1) = qP (X > k), k = 1, 2, . . . . Quindi
P (X > 2) = qP (X > 1) = q 2
P (X > 3) = qP (X > 2) = q 3
..
.
P (X > k + 1) = qP (X > k) = q k+1
Segue che FX (k) = 1 − P (X > k) = 1 − q k e per il punto 4. della Proposizione 2.2.4
P (X = k) = FX (k) − FX (k − 1) = q k−1 − q k = q k−1 (1 − q)
Se ora chiamiamo p := 1 − q = P (X ≤ 1) intensità di guasto, possiamo scrivere
P (X = k) = p(1 − p)k−1 , k = 1, 2, . . .
Notiamo che
+∞
X +∞
X +∞
X 1
P (X ∈ N) = P (X = k) = p(1 − p)k−1 = p (1 − p)k = p =1
k=1 k=1 k=0
1 − (1 − p)
Quindi X è una variabile aleatoria discreta a valori in N con densità

(
p(1 − p)k−1 se k = 1, 2, . . .
PX (k) =
0 altrove
Questa densità prende il nome di densità geometrica di parametro p. Una variabile aleatoria
con questa densità è detta variabile geometrica di parametro p e si scrive X ∼ Geom(p).
Esempio 2.3.3 Supponiamo di eseguire una successione di prove di Bernoulli, con proba-
bilità di successo nella singola prova pari a p ∈ (0, 1). Sia X il numero di prove necessarie
per osservare il primo successo, inclusa l’ultima. Verificare che X ha densità geometrica di
parametro p.
2.3.3 Densità di Poisson come limite di densità binomiale

Consideriamo il centralino di un numero verde. Questo in genere è costituito da un certo
numero di linee alle chiamate delle quali rispondono degli operatori. Sia ora X il numero di
chiamate che arrivano ad un certo operatore in un’ora. In un modello piuttosto semplificato
possiamo pensare ad un grande numero n di utenti ognuno dei quali ha una probabilità
molto piccola p ∈ (0, 1) di chiamare il numero verde in questione per mettersi in contatto
con l’operatore. Se assumiamo che i singoli utenti si mettono in contatto con l’operatore
indipendentemente uno dall’altro otteniamo che X ∼ Bi(n, p), dove n è un numero molto
grande e p un numero molto piccolo. Se il numero verde è organizzato razionalmente il
numero delle linee è commisurato al bacino di utenza, in modo tale che vi sia un’alta
probabilità di trovare il numero verde libero. Una condizione perché ciò accada è che
λ := np sia un numero fissato e non eccessivamente grande. In questo caso possiamo
scrivere X ∼ Bi(n, λ/n), cioè
k n−k
n λ λ
P (X = k) = 1−
k n n
Per capire cosa succede a P (X = k) se n è grande osserviamo che
k n−k k n−k
n λ λ n! λ λ
1− = 1−
k n n (n − k)!k! n n
−k k n
n! λ λ λ
= 1− 1−
(n − k)!nk n k! n
ma
n!
lim =1
n→+∞ (n − k)!nk
come rapporto di polinomi di grado k,

−k
λ
lim 1 − =1
n→+∞ n
e n
λ
lim 1 − = e−λ
n→∞ n
come ben noto dal corso di analisi. Segue che
λk −λ
P (X = k) ' e , k = 0, 1 . . . , n, λ = np (2.3.1)
k!
Tenendo conto di quanto detto sopra, per λ > 0 introduciamo la densità
 −λ k
e λ
se k ∈ {0, 1, 2, . . . }
p(k) := k!
0 se k 6∈ {0, 1, 2, . . . }
che prende il nome di densità di Poisson di parametro λ. Una variabile aleatoria con questa
densità è detta variabile di Poisson di parametro λ e si scrive X ∼ P(λ).
Esercizio 2.3.4 Verificare che la densità di Poisson di parametro λ è una densità, cioè
che verifica la Definizione 2.2.10.
Esempio 2.3.5 Il numero di automobili X che attraversano la porta di un casello auto-

stradale in un minuto è una variabile aleatoria di Poisson di parametro 3.2. La probabilità
che in un minuto non passi nessuna automobile è
P (X = 0) = e−3.2 ' 0.041.
La probabilità che ne passino più di 2 è
P (X > 2) = 1 − P (X ≤ 2) = 1 − [pX (0) + pX (1) + pX (2)]

−3.2 3.22
=1−e × 1 + 3.2 + ≈ 0.6200963.
2!
Nota 2.3.6 La formula (2.3.1) oltre che per introdurre la distribuzione di Poisson può
essere utilizzata per calcolare valori approssimati di P (X = k) quando X ∼ Bi(n, p) con
n grande e p piccolo in quanto evita il calcolo di coefficienti binomiali.
Esempio 2.3.7 Un computer ha probabilità p = 10−3 di ricevere un carattere errato. Sia

X il numero di errori in un messaggio di 1000 caratteri. Per calcolare la probabilità che il
computer riceva più di un errore in una trasmissione di 1000 caratteri, osserviamo che se
gli errori avvengono indipendentemente, allora X ∼ Bi(1000, 10−3). Usando l’approssima-
zione di Poisson con λ = np = 1000 · 10−3 = 1, otteniamo P (X > 1) = 1 − P (X ≤ 1) =
1 − e−1 × 10 /0! − e−1 × 11 /1! ' 0.2642411. Effettuando il calcolo esatto abbiamo
P (X > 1) = 1 − P (X = 0) − P (X = 1)

1000 −3 0 −3 1000 1000
=1− (10 ) (1 − 10 ) − (10−3 )1 (1 − 10−3 )999
0 1
' 0.2642410.
2.3.4 Densità ipergeometrica

Siamo ora interessati a contare il numero totale X di biglie rosse ottenute su n estrazioni
senza rimpiazzo da un’urna che ne contiene r rosse e b bianche. Ovviamente X è un numero
intero e si intuisce subito che X è più piccolo del numero di estrazioni n e anche del numero
di biglie rosse contenute nell’urna r; in definitiva X è più piccolo del minimo n ∧ r tra n ed
r. Inoltre X è non negativo, ma se il numero delle biglie bianche b è inferiore a quello delle
estrazioni n allora necessariamente verranno estratte n − b biglie rosse e quindi X ≥ n − b.
Abbiamo che X è più grande del massimo 0 ∨(n−b) tra 0 ed (n−b). In generale X assume
valori in S := {0 ∨ (n − b), 0 ∨ (n − b) + 1, . . . , n ∧ r}. Fissato k ∈ S, possiamo calcolare
P (X = k) come casi favorevoli su casi possibili. Ci sono r+b n
modi di scegliere n biglie
r
tra r + b. Tra questi ci sono k modi di scegliere le k biglie rosse tra le r disponibili e per
ciascuna
di queste scelte, le rimanenti n − k biglie possono essere scelte fra le b bianche in
b
n−k
modi. In definitiva:
 r b
 (k)(n−k) se k ∈ {0 ∨ (n − b), . . . , n ∧ r}
pX (k) = P (X = k) = (r+b
n )
0 se k 6∈ {0 ∨ (n − b), . . . , n ∧ r}
La densità pX è detta densità ipergeometrica di parametri (b + r, r, n) e una variabile

aleatoria con questa densità è detta variabile aleatoria ipergeometrica di parametri (b +
r, r, n) e si scrive X ∼ Iperg(b + r, r, n).
Esempio 2.3.8 Il 5% di un lotto di 100 fusibili è soggetto a controllo casuale prima di

essere immesso sul mercato. Se un fusibile non brucia ad un determinato amperaggio
l’intero lotto viene mandato indietro. Se il lotto contiene 10 fusibili difettosi, qual è la
probabilità che il lotto sia rispedito indietro?
Il lotto è rispedito indietro se almeno un fusibile sui 5 (= 5% dei 100) scelti a caso per il
controllo non brucia ad un determinato amperaggio. I 5 fusibili da controllare sono estratti
senza rimpiazzo dal lotto di 100 pezzi costituito da 90 fusibili funzionanti e 10 difettosi.
Pertanto, la variabile aleatoria X che conta il numero di fusibili difettosi su 5 ha densità
ipergeometrica di parametri (100, 10, 5):
10
90
k 5−k
P (X = k) = 100
k = 0, . . . , 5
5
P (“il lotto è rispedito indietro”) = P (X ≥ 1) = 1 − P (X = 0)

10 90
0
=1− 100
5 = 1 − 0.5838 = 0.4162
5
Nota* 2.3.9 Supponiamo di estrarre le n biglie dall’urna contenente r + b biglie in se-

quenza. Sia Ek , k = 1, . . . , n l’evento “estraggo una biglia rossa la k-esima volta”. Per
calcolare P (Ek ) come casi favorevoli su casi possibili questa volta dobbiamo distinguere
l’ordine. Ci sono (r + b)(r + b − 1) · · · · · (r + b − n + 1) modi di estrarre in sequenza
le n biglie tra r + b disponibili. Tra questi quelli in cui la k-esima biglia è rossa sono
r(r + b − 1)(r + b − 2) · · · · · (r + b − n + 1). Per convincersene basta osservare che posso
scegliere la biglia rossa al k-esimo posto tra le r diponibili in r modi, poi posso scegliere le
altre n−1 biglie tra le rimanenti r +b−1 in (r +b−1)(r +b−1−1)·· · ··[r +b−1−(n−1)+1]
modi. Quindi
r(r + b − 1)(r + b − 2) · · · · · (r + b − n + 1) r
P (Ek ) = =
(r + b)(r + b − 1) · · · · · (r + b − n + 1) r+b
Dichiariamo ora di ottenere un “successo” quando viene estratta una biglia rossa e un
“fallimento” quando viene estratta una biglia bianca. In questo modo, analogamente a
quanto fatto per le prove di Bernoulli, possiamo pensare all’estrazione sequenziale dall’urna
come ad una successione di prove, in cui la probabilità di ottenere un successo nella k-esima
prova è p = r/(r + b). La differenza sostanziale tra queste prove e quelle di Bernoulli è che
questa volta le prove non sono indipendenti. Infatti la probabilità di ottenere un successo
alla seconda prova se abbiamo ottenuto un successo alla prima è differente dalla probabilità
di ottenere un successo alla seconda prova se non abbiamo ottenuto un successo alla prima.
Questo perché nel primo caso stiamo estraendo da un’urna contenente r + b − 1 biglie di cui
r − 1 rosse e b bianche, mentre nel secondo caso stiamo estraendo da un’urna contenente
r + b − 1 biglie di cui r rosse e b − 1 bianche. Comunque, la dipendenza tra prove si attenua
se il numero delle biglie presenti nell’urna r + b è grande. Infatti ad esempio:
P (E2 |E1 ) r−1 r+b

= · →1
P (E2 ) r+b−1 r
se r + b tende opportunamente a +∞ (per esempio in modo tale che r/(r + b) → θ ∈ (0, 1)).
Quindi, se r + b è grande, allora P (E2 |E1 ) ' P (E2 ). In altri termini, se vi sono molte biglie
nell’urna, rimpiazzare o non rimpiazzare le biglie ad ogni successiva estrazione non modi-
fica in modo significativo il risultato. Quanto fin qui detto in parte spiega euristicamente
il fatto che per r + b grande, qualche volta, potremo approssimare la densità ipergeome-
trica Iperg(b + r, r, n) con la densità binomiale Bi(n, r/(r + b)). Un’esemplificazione di
questo fatto è in Figura 2.52 che rappresenta l’andamento della densità ipergeometrica
all’aumentare di r + b rispetto alla densità Bi(10, r/(r + b)).
Esercizio* 2.3.10 C’è qualche legame fra la soluzione dell’Esercizio 2.3.2 e la scelta della
densità Bi(n, r/(r + b)) nell’approssimazione della legge ipergeometrica di parametri (b +
r, r, n)?
Esercizio* 2.3.11 Dimostrare che, fissato n, se r + b → +∞ e r/(r + b) → θ ∈ (0, 1), i

valori della densità ipergeometrica di parametri (b+r, r, n) tendono ai corrispondenti valori
della densità binomiale di parametri (n, θ).
0.4
Bi(10,0.75)
Ipg(40,30,10)
Ipg(20,15,10)
0.3
0.2
0.1
0
0 2 4 6 8 10
Figura 2.5: Densità ipergeometrica (Ipg) e binomiale (Bi) a confronto
2
In Figura 2.5 gli 11 valori (isolati) in ordinata delle densità sono stati congiunti mediante spezzate
Nota 2.3.12 Il lettore avrà già rilevato che le densità delle variabili aleatorie sopra pre-
sentate coincidono con alcuni degli esempi di modelli di probabilità su spazi finiti o nume-
rabili presentate nell’Esempio 1.4.3 della Sezione 1.4. Quanto presentato in questa sezione
è quindi rivolto anche a mostrare in quali situazioni tali modelli probabilistici vengono
adottati.
2.4 Variabili aleatorie assolutamente continue

Un concetto in un certo senso opposto a quello di variabile aleatoria discreta, anche se
poi come vedremo operativamente analogo, è quello di variabile aleatoria assolutamente
continua.
Definizione 2.4.1 (Variabili aleatorie assolutamente continue) La variabile aleato-

ria X definita su di uno spazio di probabilità (Ω, F , P ) è una variabile aleatoria assolu-
tamente continua se esiste una funzione fX : R → R+ integrabile, tale che la funzione di
ripartizione FX di X si può scrivere come
Z x
FX (x) = fX (s) ds (2.4.1)
−∞
fX prende il nome di densità di X.

Dalla definizione data qui sopra si vede subito che FX è una funzione continua, quindi se X è
una variabile aleatoria assolutamente continua, per l’Esercizio 2.1.13, P (X = x) = FX (x)−
limy↑x FX (y) = 0 per ogni x ∈ R! In questo senso le variabili aleatorie assolutamente
continue sono molto differenti dalle variabili aleatorie discrete.
Esercizio 2.4.2 Si dimostri che se X è variabile aleatoria assolutamente continua con

funzione di ripartizione FX , allora
P (X < x) = FX (x) ∀x ∈ R
Esempio 2.4.3 (Segue Esempio 2.1.4) Sia T la variabile aleatoria che rappresenta il
tempo di rottura dell’Esempio 2.1.4. Poiché avevamo visto nell’Esempio 2.1.9 che la
funzione di ripartizione di T è
(
0 se t < 0
FT (t) = −µt
1−e se t ≥ 0
ne segue che T è una variabile aleatoria assolutamente continua con densità

(
0 se t < 0
fT (t) :=
µe−µt se t ≥ 0
2.4. VARIABILI ALEATORIE ASSOLUTAMENTE CONTINUE 45
Infatti si ha che
Z (
t
0 se t < 0
fT (s) ds = Rt −µs −µt
−∞ 0
µe ds = 1 − e se t ≥ 0
Per le variabili aleatorie assolutamente continue e le loro densità valgono proprietà analoghe
a quelle delle variabili aleatorie discrete elencate nella Proposizione 2.2.4:
Proposizione 2.4.4 Se fX è la densità di una variabile aleatoria assolutamente continua

X allora
R
1. R fX (x) dx = 1;
2. se FX è la funzione di ripartizione di X allora fX (x) = FX0 (x) per tutti gli x ∈ R tali
che esiste FX0 (x);
3. se −∞ < a < b < +∞ allora

Z b
P (X ∈ (a, b)) = P (X ∈ (a, b]) = P (X ∈ [a, b)) = P (X ∈ [a, b]) = fX (x) dx
a
Dimostrazione
1. Abbiamo che
Z x Z
1 = lim FX (x) = lim fX (s) ds = fX (s) ds
x→+∞ x→+∞ −∞ R
2. È conseguenza del teorema fondamentale del calcolo.
3. Dal fatto che P (X = x) = 0 ∀x in R, segue che
P (X ∈ (a, b]) = P ({X ∈ (a, b)}∪{X = b}) = P (X ∈ (a, b))+P (X = b) = P (X ∈ (a, b))
Analogamente si dimostra che P (X ∈ (a, b)) = P (X ∈ [a, b)) = P (X ∈ [a, b]).

Consideriamo ora l’intervallo (a, b]. Allora
P (X ∈ (a, b]) = P ({X ∈ (−∞, b]} \ {X ∈ (−∞, a]})

= P ({X ∈ (−∞, b]}) − P ({X ∈ (−∞, a]})
Z b Z a
= FX (b) − FX (a) = fX (x) dx − fX (x) dx
−∞ −∞
Z b
= fX (x) dx
a
Il punto 2. della Proposizione 2.4.4 può essere rafforzato opportunamente nel modo
seguente:
Proposizione 2.4.5 Sia X una variabile aleatoria ed FX la sua funzione di ripartizione.

Se FX è continua ovunque, ed è derivabile con continuità per tutti gli x ∈ R eccetto al più
in un insieme finito di punti, B := {x1 , . . . , xn } ⊂ R, allora X è una variabile aleatoria
assolutamente continua e la funzione fX (x) = FX0 (x) per ogni x 6∈ B e definita in modo
arbitrario su B è una densità per X.
Questo risultato ci dà un metodo operativo per riconoscere alcune variabili aleatorie asso-
lutamente continue a partire dalla funzione di ripartizione e ci dice anche come calcolarne
la densità.
Nota* 2.4.6 Si noti che la Proposizione 2.4.5 ci dice di calcolare fX (x) come FX0 (x) per
ogni x ∈ R eccetto un numero finito di punti B e di assegnarla in modo arbitrario sull’in-
sieme B. Infatti il valore di fX (x) se x ∈ B non è importante: possiamo definire fX (x)
come vogliamo oppure non definirla affatto. Infatti nella Definizione
Rx 2.4.12 abbiamo visto
che f è la densità di X assolutamente continua se FX (x) = −∞ f (s) ds. Ma se g è un’altra
funzione tale che g(x) = f (x) per ogni x ∈ R eccetto che in un numero finito di punti, è
chiaro che Z x Z x
FX (x) = f (s) ds = g(s) ds
−∞ −∞
quindi sia f che g sono densità di X! Questa non univocità può sorprendere in un pri-
mo momento, ma è assolutamente inoffensiva dal punto di vista delle applicazioni. Essa
può essere risolta matematicamente, cosa che noi non faremo, dando una definizione più
generale del concetto di funzione.
Il punto 3. della Proposizione 2.4.4 può essere opportunamente rafforzato nel seguente:
Corollario 2.4.7 Sia X una variabile aleatoria assolutamente continua con densità fX e
B ⊂ R tale che B = B1 ∪ B2 ∪ . . . dove i Bk , k = 1, 2, . . . sono intervalli disgiunti. Allora
Z +∞ Z
X
P (X ∈ B) = fX (x) dx = fX (x) dx
B k=1 Bk
Esercizio* 2.4.8 Dimostrare il Corollario 2.4.7.
Nota* 2.4.9 Al lettore più attento verrà naturale chiedersi se il Corollario 2.4.7 possa
essere generalizzato ad un insieme arbitrario B, se cioè è vero che
Z
P (X ∈ B) = fX (x) dx
B
per ogni B ⊂ R. La risposta a questa domanda è non banale3 e fuori dalla portata di
questo corso. D’altro canto, chi ci garantisce che per un insieme arbitrario B, {X ∈ B}
sia un evento?
3
Dipende dalla teoria degli insiemi che stiamo usando!
2.5. ESEMPI DI DENSITÀ CONTINUE NOTEVOLI 47
L’annunciata similitudine operativa tra variabili aleatorie assolutamente continue e varia-

bili aleatorie discrete risiede proprio nel fatto che, se X è una variabile assolutamente
continua, allora P (X ∈ B) si calcola facendo l’integrale su B della densità, mentre, se X è
discreta, si calcola P (X ∈ B) facendo una somma sugli elementi di B (vedi punto 4. della
Proposizione 2.2.4). Ritroveremo questa similitudine anche più avanti.
Nota 2.4.10 Come abbiamo fatto nella Nota 2.2.7 ci interessa evidenziare la motivazione
euristica della parola “densità”. Supponiamo che fX sia la densità di una variabile aleatoria
assolutamente continua X, questo significa che fX attribuisce un numero fX (x) ad ogni x ∈
R. Analogamente a quanto fatto per le variabili aleatorie discrete, possiamo immaginare
l’asse reale come un materiale inomogeneo, in cui la densità di massa è fX , cioè la massa
del segmento infinitesimo (x, x + dx) è fX (x)dx.
Nota* 2.4.11 Anche in questo caso, prima di vedere alcuni esempi importanti di densità
di variabili aleatorie assolutamente continue, torniamo al punto 1. della Proposizione 2.4.4.
Analogamente al caso discreto, data una funzione integrabile f (x) ≥ 0 che verifica la pro-
prietà 1. della Proposizione 2.4.4 è possibile costruire uno spazio di probabilità (Ω, F , P )
ed una variabile aleatoria X su di esso che ha f (x) come densità, cioè tale che fX (x) = f (x).
Questo, come già osservato per le variabili aleatorie discrete, ci permetterà di parlare di
variabili aleatorie assegnandone la densità.
La precedente osservazione giustifica la seguente definizione.
Definizione* 2.4.12 Una funzione f : R → R è una densità su R se
1. f (x) è integrabile, f (x) ≥ 0 per ogni x ∈ R;

R
2. R f (x) dx = 1.
2.5 Esempi di densità continue notevoli

In questo paragrafo elenchiamo alcune delle densità continue più importanti per le appli-
cazioni.
2.5.1 Densità uniforme continua

Sia X un punto “scelto a caso” in (0, 1]. Ci chiediamo che tipo di variabile aleatoria sia X.
Ovviamente da un punto di vista formale la domanda è mal posta, ma tuttavia nella sua
accezione più immediata si può pensare che se un punto è scelto a caso in (0, 1] la probabilità
che questo sia più piccolo o uguale ad 1/2 sia 1/2. Questo perché (0, 1] = (0, 1/2] ∪ (1/2, 1],
P (X ∈ (0, 1/2]) = P (X ∈ (1/2, 1]) e P (X ∈ (0, 1/2]) + P (X ∈ (1/2, 1]) = 1
Possiamo ripetere il precedente ragionamento dividendo (0, 1] nei quattro intervalli (0, 1/4],
(1/4, 1/2], (1/2, 3/4], (3/4, 1] e affermare che la probabilità che X appartenga ad uno fissato
di essi sia 1/4. Questo implica anche che

1
P (X ≤ 1/4) = P (X ∈ (0, 1/4]) =
4
1
P (X ≤ 1/2) = P (X ∈ (0, 1/4]) + P (X ∈ (1/4, 1/2]) =
2
3
P (X ≤ 3/4) = P (X ∈ (0, 1/4]) + P (X ∈ (1/4, 1/2]) + P (X ∈ (1/2, 3/4]) =
4
Se si continua questo ragionamento, suddividendo (0, 1] in 8, 16, 32,. . . sottointervalli ci
si convince che P (X ≤ x) = x, per x ∈ (0, 1]. Inoltre, poiché X è un numero in (0, 1],
abbiamo che P (X ≤ x) = 0 se x < 0 e P (X ≤ x) = 1 se x ≥ 1. Ne segue che la funzione
di ripartizione di X è 

0 se x < 0
FX (x) = x se 0 ≤ x < 1


1 se x ≥ 1
che è funzione derivabile con continuità tranne nei punti 0 e 1. Segue dalla Proposizio-
ne 2.4.5 che X è una variabile aleatoria assolutamente continua e la sua densità si ottiene
derivando la funzione di ripartizione:


0 se x < 0
0
FX (x) = 1 se 0 < x < 1


0 se x > 1
Pertanto fX = 1(0,1) o anche fX = 1(0,1] . Tale densità è detta densità uniforme con-
tinua sull’intervallo (0, 1], la variabile aleatoria X è detta uniforme su (0, 1] e si scrive
X ∼ U(0, 1).
2.5.2 Densità esponenziale

La densità esponenziale è l’analogo continuo della densità geometrica. Supponiamo di
avere un’apparecchiatura non soggetta ad usura ed inizialmente funzionante, ma che si
può guastare per motivi contingenti. Sia T l’istante, in minuti secondi, in cui l’apparec-
chiatura si guasta. La probabilità che l’apparecchiatura sia ancora funzionante dopo s
secondi è P (T > s). Quindi, se s ≤ 0, allora P (T > s) = 1. Supponiamo ora s > 0.
Osserviamo che, se l’apparecchiatura è funzionante al tempo t > 0, allora la probabi-
lità che l’apparecchiatura sia ancora funzionante dopo s secondi, cioè al tempo t + s, è
P (T > s). Infatti, per l’assenza di usura, la probabilità che l’apparecchiatura non si guasti
nell’intervallo di tempo (t, t + s], se l’apparecchiatura funziona al tempo t, è uguale alla
probabilità che l’apparecchiatura non si guasti nell’intervallo di tempo (0, s]. In formule
P (T > t + s|T > t) = P (T > s). Ma allora
P (T > t + s, T > t) P (T > t + s)
P (T > s) = =
P (T > t) P (T > t)
e quindi P (T > t + s) = P (T > t)P (T > s). Se definiamo F̄ (t) := P (T > t), per ogni
t ≥ 0, abbiamo che
F̄ (t + s) = F̄ (t)F̄ (s) ∀ t, s > 0
Una funzione4 che verifica questa equazione funzionale è eαt , dove α ∈ R. Quindi P (T >
t) = eαt e P (T ≤ t) = 1 − eαt per t ≥ 0. Inoltre, poiché P (T ≤ t) ≤ 1, allora necessaria-
mente α ≤ 0 e, per evitare situazioni banali, α < 0. Quindi la funzione di ripartizione di
T è data da: (
0 se t < 0
FT (t) = −µt
1−e se t ≥ 0, µ>0
Sempre per la Proposizione 2.4.5 sappiamo che T è una variabile aleatoria assolutamente
continua e la sua densità si ottiene derivando la funzione di ripartizione:
(
0 se t < 0
FT0 (t) =
µe−µt se t > 0
Pertanto fT (t) = µe−µt 1[0,+∞) (t) è una densità per T . Questa densità è detta densità
esponenziale di parametro µ e la variabile aleatoria T è detta variabile esponenziale di
parametro µ. Si scrive anche T ∼ E(µ).
La Figura 2.6 mostra l’andamento di densità e funzione di ripartizione E(µ) al variare di
µ: al diminuire di µ aumenta la probabilità che la variabile aleatoria esponenziale assuma
valori grandi.
0.8
0.6 f.d.r. Ex(0.8)

dens Ex(0.8)
dens Ex(0.5)
0.4 f.d.r. Ex(0.5)
0.2
0
0 2 4 6 8 10
Figura 2.6: Densità e funzione di ripartizione E(µ)
4
In realtà l’unica funzione continua.
2.5.3 Densità gaussiana standard

In molte librerie dei più diffusi linguaggi di programmazione (C, Fortran, R) è disponibile
la “funzione degli errori” (“error function” o “error integral”) erf:
Z u
2 2
erf(u) = √ e−y dy
π 0
Tale funzione fornisce i valori di probabilità legate ad una particolare variabile aleatoria
assolutamente continua detta gaussiana standard. La variabile gaussiana fornisce un utile
modello probabilistico per gli errori che si commettono per esempio nei procedimenti di
misurazione. Il ruolo fondamentale in probabilità della densità gaussiana standard sarà
più chiaro quando verrà presentato il “Teorema centrale del limite”. Per ora limitiamoci a
definirla e a descriverne qualche proprietà.
Definizione 2.5.1 Una variabile aleatoria assolutamente continua Z definita su uno spa-
zio di probabilità (Ω, F , P ) è detta avere densità gaussiana standard (e scriveremo Z ∼
N (0, 1)) se ha densità
1 2
ϕ(x) = √ e−x /2 ∀x∈R
2π
Esercizio* 2.5.2 Dimostrare che ϕ è una densità di probabilità continua, cioè soddisfa le
proprietà 1. e 2. della Definizione 2.4.12.
Trovate in Figura 2.7 (a) il grafico della funzione ϕ che ha andamento a campana con punto
(a) (b)
0.4
1.0
0.8
0.3
0.6
0.2
0.2
0.4
0.1
0.2
0.0
0.0
-3 -2 -1 0 1 2 3 -3 -1 0 1 3
Figura 2.7: Densità (a) e funzione di ripartizione (b) N (0, 1)
di massimo in 0 ed è simmetrico rispetto all’asse delle ordinate (ovvero ϕ è funzione “pari”,

cioè ϕ(−z) = ϕ(z) ∀z > 0). In termini di ϕ, la probabilità dell’evento {−z < Z < z} è
Z z Z z Z z
1 −x2 /2 2 2
P (−z < Z < z) = ϕ(x)dx = √ e =√ e−x /2 dx
−z 2π −z 2π 0
√
Posto y = x/ 2 e operando il cambio di variabile nell’integrale si ottiene
Z √
2 z/ 2
2 √
P (−z < Z < z) = √ e−y dy = erf(z/ 2) ∀z > 0
π 0
Quindi la funzione erf fornisce la probabilità che una variabile aleatoria gaussiana standard
assuma valori in un intervallo simmetrico rispetto all’origine. Dal significato dell’operazione
di integrazione, segue che graficamente P (−z < Z < z) è rappresentata dall’area tra le
due linee tratteggiate in Figura 2.8.
-3 −z 0 z 3
Figura 2.8: P (−z < Z < z)
La funzione di ripartizione di una variabile aleatoria N (0, 1) rappresentata in Figura 2.7 (b)
viene indica di solito con Φ(z):
Z z
1 2
Φ(z) = √ e−x /2 dx
2π −∞
Non è possibile calcolare Φ analiticamente, ma troverete Φ tabulata in quasi tutti i libri di
probabilità. Tipicamente sono tabulati i valori di Φ(z) per z ≥ 0. Se z < 0, Φ(z) si può
ottenere usando la seguente formula
Φ(z) = 1 − Φ(−z) ∀z ∈ R (2.5.1)
La formula 2.5.1 deriva dalla simmetria di ϕ nel seguente modo:
Φ(z) = 1 − P (Z > z) = 1 − P (Z > z) − P (Z = z)

= 1 − P (Z ≥ z) = 1 − P (Z ≤ −z) = 1 − Φ(−z)
In particolare, per z = 3,
P (|Z| ≥ 3) = 1 − P (−3 ≤ Z ≤ 3) = 1 − [Φ(3) − Φ(−3)] = 2(1 − Φ(3)) = 0.0026
cioè Z ∼ N (0, 1) ha probabilità trascurabile di assumere valori all’esterno dell’intervallo

[−3, 3]. Tutte queste proprietà forniscono una parziale giustificazione al fatto che la densità
gaussiana venga usata come modello probabilistico per gli errori.
2.6 Funzioni di variabili aleatorie

Sappiamo che una variabile aleatoria va pensata come un numero casuale. Ora se X è
una variabile aleatoria e g : R → R è una funzione, allora Y := g(X) è ancora un numero
causale. Precisamente Y := g(X) è il numero che si ottiene applicando la funzione g al
numero casuale X. Per avere un esempio concreto, se X ∼ U(0, 1), allora Y := πX 2 indica
l’area di un cerchio per il quale la lunghezza del raggio è “scelta a caso” in (0, 1), ovvero Y
è l’area di un cerchio “scelto a caso” tra i cerchi di raggio più piccolo di 1. In questo caso
g(x) = πx2 .
È naturale ora chiedersi se Y = g(X) è una variabile aleatoria nel senso della Defini-
zione 2.1.2, cioè ci chiediamo se è sempre vero che, se X è una variabile aleatoria definita
su (Ω, F , P ), allora {ω ∈ Ω : g[X(ω)] ≤ x} ∈ F per ogni x ∈ R. Questo non è vero
in generale, ma nei casi importanti per le applicazioni che tratteremo è sempre vero. Per
esempio è vero se g è una funzione continua a tratti. Ci interesserà in particolare capire
se e come sia possibile determinare la densità della variabile aleatoria Y := g(X) a partire
da X. Prima di procedere vediamo qualche ulteriore esempio.
Esempio 2.6.1 In molti procedimenti industriali è routine monitorare il livello di danni o

fattori indesiderati. Per esempio rappresentiamo con X il numero di batteri in un campione
di liquido preso da un bacino di lavorazione alimentare. Se X supera un livello critico c, il
procedimento viene arrestato e si attua una procedura di rinnovo e pulizia del sistema di
depurazione. Definiamo (
1 se X ≥ c
Y :=
0 se X < c
Allora Y = 1 se e solo se il processo produttivo viene arrestato. La variabile aleatoria Y
è funzione della variabile aleatoria X e si può scrivere Y = g(X) dove g(x) = 1[c,+∞)(x).
Poiché Y assume solo i valori 0 e 1, Y è una variabile aleatoria di Bernoulli di parametro
p = P (Y = 1), con
X
P (Y = 1) = P (X ≥ c) = pX (k)
k≥c
Quindi
 P

P1 − k≥c pX (k) se h = 0
pY (h) = k≥c pX (k) se h = 1


0 se h ∈
6 {0, 1}
cioè la densità di Y è calcolabile a partire dalla densità di X.
Esempio 2.6.2 Sia T la variabile aleatoria che denota la temperatura in una stanza clima-
tizzata. Se T < a l’impianto di condizionamento riscalda. Se T > b refrigera. Altrimenti,
si spegne. Quindi lo stato dell’impianto di condizionamento, in funzione della temperatura,
può essere descritto mediante una variabile aleatoria S che assume valore 1 se l’impianto
refrigera, 0 se è spento e −1 se riscalda, cioè:


−1 se T < a

S= 0 se a ≤ T ≤ b


1 se T > b
Volendo calcolare per esempio la probabilità che l’impianto sia spento, cioè P (S = 0),
possiamo procedere nel seguente modo:
(P
pT (t) se T è discreta
P (S = 0) = P (a ≤ T ≤ b) = R b a≤t≤b
f (t)dt
a T
se T è assolutamente continua .
Quello che i precedenti esempi evidenziano è che se conosciamo la densità di una variabile
aleatoria X è possibile (in alcuni casi) determinare la densità di Y := g(X).
Per essere più specifici inizialmente supponiamo che X sia una variabile aleatoria di-
screta, con densità pX (x) e P (X ∈ S) = 1, dove S = {xk : k ∈ I}, I ⊂ Z. Sia g : S → R
e sia g(S) = {g(x) : x ∈ S}. Se definiamo Y := g(X), allora Y assume valori in g(S), in
particolare P (X ∈ S) = 1 implica che P (Y ∈ g(S)) = 1, cioè Y è una variabile aleatoria
discreta e la sua densità è nulla se y 6∈ g(S). Inoltre se y ∈ g(S) abbiamo
 
[ X
P (Y = y) = P (g(X) = y) = P  {X = xk } = P (X = xk ) =
k: g(xk )=y k: g(xk )=y
X
= pX (xk )
k: g(xk )=y
In definitiva
Proposizione 2.6.3 Sia X una variabile aleatoria discreta, con densità pX (x) e P (X ∈
S) = 1, dove S = {xk : k ∈ I}, I ⊂ Z. Sia g : S → R e sia g(S) = {g(x) : x ∈ S}.
Se definiamo Y := g(X), allora Y è una variabile aleatoria discreta a valori in g(S), cioè
P (Y ∈ g(S)) = 1, e la sua densità è
(P
k: g(xk )=y pX (xk ) se y ∈ g(S)
pY (y) =
0 se y 6∈ g(S)
Esempio 2.6.4 La probabilità di vincere giocando a una slot machine è p = 0.2 e per
partecipare a n giocate si paga una posta iniziale di n . Se si effettuano 10 giocate e ad
ogni giocata o si totalizza 0 o si vincono 2 , qual è la probabilità di vincere 4 (al netto
della posta iniziale)?
Siano X la variabile aleatoria che indica il numero di vittorie su 10 giocate e Y quella che
indica la vincita accumulata dopo 10 giocate. Allora X ∼ Bi(10, 0.2) e Y = 2X − 10.
Inoltre, la densità di probabilità di Y è
( 10 10+k 10−k
10+k 0.2 2 0.8 2 k = 0, ±2, ±4, ±6, ±8, ±10
pY (k) = 2
0 altrove
In particolare:

10 10+4 10−4 10
P (“vincere 4 ”) = P (Y = 4) = 10+4 0.2
2 × 0.8 2 = 0.27 × 0.83 ' 0.0008.
2
7
La Proposizione 2.6.3 afferma che, se X è una variabile aleatoria discreta, allora g(X) è
una variabile aleatoria discreta e la sua densità è univocamente determinata dalla densità
di X. Questo fatto implica, tra l’altro, che se X e W sono due variabili aleatorie discrete
che hanno la stessa densità, lo stesso vale per g(X) e g(W ). Inoltre la proposizione mostra
un metodo per calcolare la densità di g(X) a partire dalla densità di X.
Nel caso di variabili aleatorie assolutamente continue vale un risultato analogo, questa
volta però sotto ipotesi restrittive su g:
Proposizione 2.6.5 Sia Y = g(X), con X variabile aleatoria assolutamente continua con
densità fX . Supponiamo che esista un intervallo aperto S ⊂ R tale che: P (X ∈ S) = 1,
g sia differenziabile con continuità su S e g 0(x) 6= 0 per ogni x ∈ S. Sia g −1 la funzione
inversa di g e g(S) = {g(x) : x ∈ S}. Allora Y è una variabile aleatoria assolutamente
continua con densità data da
(
fX (g −1 (y))|(g −1)0 (y)| se y ∈ g(S)
fY (y) = (2.6.1)
0 se y 6∈ g(S)
Non vedremo la dimostrazione di questa proposizione in generale, ma osserviamo che nel
caso particolare in cui S = R = g(S) e g è crescente si ha:
Z g−1 (y) Z y
−1
FY (y) = P (g(X) ≤ y) = P (X ≤ g (y)) = fX (s) ds = fX (g −1(t))(g −1 )0 (t) dt
−∞ −∞
dove, nell’ultima uguaglianza, abbiamo utilizzato il cambiamento di variabile t = g(s).

Quindi
fY (y) = FY0 (y) = fX (g −1(y))(g −1)0 (y)
Esempio 2.6.6 (Densità uniforme su un intervallo) Sia X ∼ U(0, 1), α, β ∈ R e

g(x) := αx + β. Ci chiediamo che tipo di variabile aleatoria è Y := g(X) = αX + β.
Innanzi tutto osserviamo che se α = 0, allora Y ≡ β, cioè Y è la variabile aleatoria
degenere che vale sempre β. Se α 6= 0, possiamo utilizzare la Proposizione 2.6.5, infatti
in questo caso g 0(x) = α 6= 0, g −1 (y) = (y − β)/α e si ha |(g −1)0 (y)| = 1/|α|. Per la
Proposizione 2.6.5 Y è assolutamente continua e ha densità data da

y−β 1 1
fY (y) = fX 1g((0,1)) (y) = 1g(0,1) (y)
α |α| |α|
Se α > 0 allora g(0, 1) = (β, α + β). Infatti
y−β
y ∈ g(0, 1) ⇐⇒ g −1 (y) ∈ (0, 1) ⇐⇒ 0< <1 ⇐⇒ β <y <α+β
α
1
Quindi, fY (y) = 1(β,α+β) (y).
α
Osservando la definizione di Y si vede che Y si ottiene da X mediante una dilatazione di
fattore α seguita da una traslazione di ragione β. Questa trasformazione fa corrispondere
all’intervallo (0, 1) l’intervallo (β, α + β), quindi risulta intuitivo che se X è un numero
scelto a caso in (0, 1) allora Y è un numero scelto a caso in (β, α + β). Se ora a, b ∈ R con
a < b e poniamo β = a e α = b − a otteniamo che un numero scelto a caso in (a, b) è una
variabile aleatoria Y con densità
1
fY (y) = 1(a,b) (y) (2.6.2)
b−a
1
Se α < 0, analoghi ragionamenti portano a dire che fY (y) = −α 1(β+α,β) (y).
L’esempio precedente ci porta ad una generalizzazione della densità uniforme vista nel
Paragrafo 2.5.1. Una variabile aleatoria Y assolutamente continua è detta uniforme su
(a, b) se la sua densità è data da (2.6.2). La densità fY è detta densità uniforme su (a, b)
e si può scrivere Y ∼ U(a, b).
X −a
Esercizio 2.6.7 Mostrare che se X ∼ U(a, b), allora ∼ U(0, 1).
b−a
Esercizio* 2.6.8 Verificare che fY definita dalla (2.6.2) è una densità, cioè valgono 1. e
2. della Definizione 2.4.12.
Esercizio 2.6.9 Sia X ∼ U(a, b): determinare e disegnare FX .

Osserviamo che se X ∼ U(a, b), allora la probabilità che X cada in un intervallo [c, d] con
a ≤ c < d ≤ b è proporzionale alla lunghezza di [c, d] con costante di proporzionalità data
d−c
da (b − a)−1 , cioè P (c < Y < d) = .
b−a
Esempio 2.6.10 Sia X ∼ E(µ) e a > 0, allora Y = aX ∼ E( µa ). Infatti per la (2.6.1)
y 1 y
y 1 µ µ
−µ a
fY (y) = fX = µe 1(0,+∞) = e− a y 1(0,+∞) (y)
a a a a a
Nota 2.6.11 L’esempio precedente mostra che la famiglia delle variabili aleatorie espo-
nenziali è “chiusa” rispetto all’operazione di cambiamento di scala (passaggio da X ad aX
con a > 0).
Esempio 2.6.12 Sia X ∼ N (0, 1) e Y := X 2 . Vogliamo capire se Y è variabile aleatoria

assolutamente continua e, se la risposta è positiva, determinarne la densità. In questo caso
non possiamo applicare direttamente la Proposizione 2.6.5 in quanto S = R e g(x) = x2
non è biettiva. Procediamo direttamente a scrivere la funzione di ripartizione FY e vedere
se ammette densità. Osserviamo innanzi tutto che se y < 0 allora FY (y) = P (Y ≤ y) =
P (X 2 ≤ y) = 0 semplicemente perché X 2 ≥ 0. Se invece y ≥ 0 allora
√ √
FY (y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y) =
√ √ √ √
= P (X ≤ y) − P (X < − y) = FX ( y) − FX (− y)
Quindi per la Proposizione 2.4.5 abbiamo che se y > 0 allora
d √ d √ √ 1 √ 1
fY (y) = FY0 (y) = FX ( y) − FX (− y) = FX0 ( y) √ + FX0 (− y) √ =
dy dy 2 y 2 y
1 √ √ 1 √ √
= √ [FX0 ( y) + FX0 (− y)] = √ [fX ( y) + fX (− y)]
2 y 2 y
Sostituendo la densità gaussiana standard in questa formula otteniamo
e−y/2
fY (y) = √ .
y2π
In definitiva
e−y/2
fY (y) = √ 1(0,+∞) (y).
y2π
Una variabile aleatoria Y con questa densità è detta variabile aleatoria chi-quadrato con 1
grado di libertà e si scrive X ∼ χ2 (1).
Nota 2.6.13 Si noti che quanto visto sopra ci dice che per ogni variabile aleatoria X
assolutamente continua e con densità fX , allora Y := X 2 è assolutamente continua e si ha
1 √ √
fY (y) = √ [fX ( y) + fX (− y)]1(0,+∞) (y) (2.6.3)
2 y
Esempio 2.6.14 Siano X ∼ U(0, 1) e F (y) = (1 − e−µy )1(0,+∞) (y) con µ > 0 (F è
la funzione di ripartizione esponenziale di parametro µ). Introduciamo la funzione g :
(0, 1) → R definita da
− log(1 − x)
g(x) := ∀x ∈ (0, 1)
µ
Allora g è una funzione iniettiva tale che
g −1 (x) = 1 − e−µx = F (x) ∀x ∈ (0, ∞)
e Y := g(X) ∼ E(µ). Infatti, per la Proposizione 2.6.5 si ha che Y è assolutamente continua

e la sua densità è data da
fY (y) = fX (F (y))|F 0(y)|1g((0,1)) (y) = µe−µy 1(0,+∞) (y)
2.6.1 *Cenno alla simulazione di variabili aleatorie

L’Esempio 2.6.14 mostra la possibilità di rappresentare una variabile aleatoria esponenziale come una
trasformazione di una variabile aleatoria U(0, 1), mediante la funzione di ripartizione stessa. Un’importante
conseguenza di questo risultato è che per generare una variabile aleatoria E(µ) è sufficiente generare
U ∼ U(0, 1) e poi calcolare − log(1 − U )/µ. Tutto ciò è facilmente attuabile perchè nelle librerie dei
linguaggi di programmazione esistono routine che generano valori di variabili “pseudo-aleatorie” e uniformi
in (0, 1). Il risultato di rappresentare una variabile aleatoria come una trasformazione di una U(0, 1) non
riguarda soltanto le variabili aleatorie esponenziali, ma anche tutte le altre, siano esse discrete o continue.
Qui accenniamo soltanto al risultato per il caso delle variabili aleatorie che hanno funzione di ripartizione
F (x) strettamente crescente sull’insieme {x : 0 < F (x) < 1}. In tal caso, l’equazione F (x) = u ammette
un’unica soluzione per ogni u ∈ (0, 1), cioè x = F −1 (u).
Proposizione 2.6.15 (della trasformata integrale) Sia F una funzione di ripartizione strettamente
crescente sull’insieme {x : 0 < F (x) < 1} e F −1 la funzione definita da F (F −1 (u)) = u per ogni u ∈ (0, 1).
Se U ∼ U(0, 1) allora X = F −1 (U ) ha funzione di ripartizione F .
Dimostrazione Poiché F è funzione strettamente crescente su {x : 0 < F (x) < 1} e per ogni u ∈ (0, 1)
F (F −1 (u)) = u allora, per ogni u ∈ (0, 1) e per ogni x ∈ F −1 ((0, 1)) vale che F −1 (u) ≤ x se e solo se
u = F (F −1 (u)) ≤ F (x) e quindi
FX (x) = P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x)
Il precedente lemma dà una prima idea del perché la densità U(0, 1) giochi un ruolo chiave nelle simulazioni:
teoricamente, per generare una qualunque variabile aleatoria continua X avente funzione di ripartizione F
invertibile, potremmo procedere a generare U ∼ U(0, 1) e fare la trasformazione F −1 (U ). Praticamente,
questo metodo si applica soltanto nei casi in cui siamo in grado di determinare esplicitamente F −1 . Ma
questi casi sono pochi. Ad esempio, rimane fuori la variabile aleatoria gaussiana standard. Nei casi non
coperti dall’uso della trasformata integrale potremo procedere o con metodi generali alternativi e validi per
diverse famiglie di variabili aleatorie, o con metodi ad hoc che usano in modo pesante proprietà specifiche
delle variabili aleatorie da simulare. Il lettore interessato veda ad esempio [11].
Esercizio 2.6.16 Scrivete un programma in un linguaggio a voi noto per ottenere n = 100 simulazioni
dalla densità U(−2, 2).
Capitolo 3
Media varianza e momenti
Abbiamo visto nel Capitolo 2 che nella teoria assiomatica della probabilità i numeri causali
vengono modellizzati dalle variabili aleatorie. In questo capitolo vedremo come sia possibile
associare ad una variabile aleatoria alcune grandezze deterministiche, cioè alcuni numeri,
che ci daranno informazioni qualitative e quantitative sulla variabile aleatoria. Per chiarire
meglio la situazione facciamo subito un esempio.
Esempio 3.0.17 Supponiamo di giocare alla roulette puntando sul rosso1 . Sia X il gua-
dagno netto che otteniamo puntando 1 . Si vede subito che X è una variabile discreta,
che assume solo i due valori −1 (cioè abbiamo perso 1 ) e 1 (cioè abbiamo vinto 1 ), con
probabilità 19/37 e 18/37 rispettivamente. In particolare si vede che il gioco della roulette
è favorevole al banco, infatti la probabilità di vincere 1 è più piccola di quella perdere
1 . Supponiamo ora invece di giocare a testa e croce con un amico. Se Y è il guadagno
netto che otteniamo puntando 1 , allora anche in questo caso Y è una variabile discreta,
che assume solo i due valori −1 e 1, ma con probabilità 1/2 questa volta. In questo caso
la probabilità di vincere 1 è uguale alla probabilità di perderlo, quindi questo gioco è
in un certo senso più “giusto” della roulette, o come si dice è un gioco equo. Vedremo
che è possibile associare a ciascuna delle variabili aleatorie X e Y un numero, chiamato
media. Vedremo che la media di X è negativa (ad indicare che il guadagno netto medio al
gioco della roulette è un numero negativo) mentre quella di Y è nulla (ad indicare che il
guadagno netto medio a testa e croce è nullo).
3.1 Valore atteso (o media)

In questa sezione viene introdotta la nozione di media per variabili aleatorie discrete e asso-
lutamente continue. Avendo a disposizione strumenti matematici più avanzati si potrebbe
introdurre tale nozione per qualsiasi variabile aleatoria.
Per le variabili aleatorie discrete abbiamo:
1
Una roulette europea “onesta” è costituita da un congegno che seleziona casualmente un numero tra
37 disponibili, 18 dei quali sono rossi, 18 neri ed uno (lo “zero”) verde.
59
Definizione 3.1.1 Sia X una variabile aleatoria discreta a valori in S = {xk : k ∈ I} con
I ⊂ Z e sia pX la sua densità. Se
X
|xk |pX (xk ) < +∞
k∈I
si definisce media di X o valore atteso di X il numero

X
E(X) := xk pX (xk ),
k∈I
altrimenti si dice che X non ammette valore atteso.

Prima di procedere con gli esempi, facciamo qualche osservazione sulla definizione appena
data. Innanzi tutto osserviamo che se X è una variabile aleatoria discreta,Pnon è detto che
X abbia valore atteso. Questo dipende dalla convergenza della “serie” k∈I |xk |pX (xk ).
Ovviamente se X assume un numero finito di valori, cioè se I è un insieme finito, questa
serie diventa una somma finita che è sicuramente convergente e la media di X in questo
caso esiste. P
Osserviamo che se k∈I |xk |pX (xk ) < +∞, allora
P per un noto teorema dell’analisi
(convergenza assoluta ⇒ convergenza) segue che k∈I xk pX (xk ) converge. Quindi E(X)
è un numero finito. Il motivo per il quale si richiede la convergenza assoluta, invece della
semplice convergenza, è essenzialmente tecnico e non lo discuteremo in questo contesto.
Il valore atteso di una variabile aleatoria X è un oggetto legato alla densità pX di X
piuttosto che alla funzione che definisce la variabile aleatoria X. Questo significa che due
variabili aleatorie con la stessa densità hanno lo stesso valore atteso (oppure non hanno
valore atteso).
Se torniamo all’interpretazione della densità di una variabile aleatoria discreta, come
densità di massa, vista nella Nota 2.2.7, abbiamo che il valore atteso di X può essere visto
come il baricentro del sistema di masse descritto.
Esempio 3.1.2 (Segue Esempio 3.0.17) Calcoliamo i valori attesi di X ed Y . Per X

otteniamo
19 18 1
E(X) = −1 × +1× =− ,
37 37 37
mentre per Y abbiamo
1 1
E(Y ) = −1 × + 1 × = 0.
2 2
Esempio 3.1.3 Se X è uniforme su {1, . . . , n}, cioè pX (k) = 1/n per ogni k = 1, . . . , n,
allora
1 + ...+ n n(n + 1) n+1
E(X) = = =
n 2n 2
Esempio 3.1.4 Se X ∼ Be(p) allora
E(X) = 1 × p + 0 × (1 − p) = p
3.1. VALORE ATTESO (O MEDIA) 61
Esempio 3.1.5 Se X ∼ P(λ) allora la media esiste e vale:

∞
X ∞ ∞ ∞
λk X −λ λk X λk−1 X λk
E(X) = ke−λ = ke = e−λ λ = e−λ λ = e−λ λeλ = λ.
k=0
k! k=1
k! k=1
(k − 1)! k=0
k!
Per le variabili aleatorie assolutamente continue vale una definizione di valore atteso ana-
loga alla Definizione 3.1.1:
Definizione 3.1.6 Sia X una variabile aleatoria assolutamente continua e sia fX la sua
densità. Se Z
|x|fX (x) dx < +∞
R
si definisce media di X o valore atteso di X il numero

Z
E(X) := xfX (x) dx,
R
altrimenti si dice che X non ammette valore atteso.
Anche in questo caso valgono osservazioni analoghe a quelle fatte dopo la Definizione 3.1.1,
che ometteremo.
Esercizio 3.1.7 Fare le osservazioni che abbiamo omesso.
Esempio 3.1.8 Se X ∼ U(0, 1) allora la media esiste e vale:

Z 1
1
E(X) = x dx =
0 2
Esempio 3.1.9 Se X ∼ E(λ) allora la media esiste e vale:

Z +∞ Z +∞ Z +∞
d +∞ 1
E(X) = xλe −λx
dx = − x · e−λx dx = xe−λx 0 + e−λx dx =
0 0 dx 0 λ
Esempio 3.1.10 Se X ∼ N (0, 1) allora la media esiste e vale:

Z +∞
x x2
E(X) = √ e− 2 dx = 0
−∞ 2π
poiché la funzione integranda è dispari e l’insieme di integrazione è simmetrico.
Esercizio* 3.1.11 Si fornisca un esempio di variabile aleatoria X discreta che non ha

media finita.
Soluzione Sia p definita da

(
1
x(x+1)
se x ∈ {1, 2 . . .}
p(x) =
0 se x 6∈ {1, 2 . . .}
p è una densità, infatti p(x) ≥ 0 e

+∞
X ∞
X 1 X 1 1
+∞
p(x) = = − =1
x=1 x=1
x(x + 1) x=1 x x + 1
per la proprietà telescopica. Se quindi X è una variabile aleatoria di densità pX (x) = p(x),
allora
X+∞ +∞
X +∞
X
x 1
|x|pX (x) = = = +∞
x=1 x=1
x(x + 1) x=1 x + 1
3.1.1 Valore atteso di funzioni di variabili aleatorie

Sia X una variabile aleatoria, g una funzione reale e Y := g(X). Nella Sezione 2.6 abbiamo
studiato la densità di Y . Qui ci poniamo il problema di calcolare E(Y ). Supponiamo per
un momento che X sia discreta, allora medianteP la Proposizione 2.6.3, possiamo calcolare
la densità pY di Y e poi affermare che E(Y ) = y ypY (y). In realtà se siamo interessati
solamente a E(Y ) e non alla densità di Y, possiamo evitare di determinare esplicitamente
pY . Vale infatti la seguente proposizione:
P in S = {xk : k ∈
Proposizione 3.1.12 Siano X una variabile aleatoria discreta a valori
I} con I ⊂ Z e densità pX , g una funzione reale e Y := g(X). Se k∈I |g(xk )|pX (xk ) <
+∞, allora Y ammette valore atteso e
X
E(Y ) = g(xk )pX (xk ). (3.1.1)
k∈I
Siano X una variabile aleatoria assolutamente continuaR con densità fX e g una funzione
reale tale che Y := g(X) è una variabile aleatoria. Se R |g(x)|fX (x) dx < +∞, allora Y
ammette valore atteso e Z
E(Y ) = g(x)fX (x) dx. (3.1.2)
R
Non dimostriamo questa proposizione, ma illustriamone il suo senso con qualche esempio.
√
Esempio 3.1.13 Siano X ∼ U(−1, 1) e Y = X 2 . Allora fY (y) = 1/(2 y)1(0,1) (y) (per
ottenerla si applichi la formula in (2.6.3)) e quindi
Z 1
1 1
E(Y ) = y √ dy = .
0 2 y 3
3.1. VALORE ATTESO (O MEDIA) 63
Con maggior economia di calcoli possiamo arrivare allo stesso risultato applicando la
Proposizione 3.1.12: Z 1 Z
21 2 1 2 1
E(Y ) = x dx = x dx = .
−1 2 2 0 3
3.1.2 Proprietà del valore atteso

Nella seguente proposizione elenchiamo alcune proprietà che discendono direttamente dalla
definizione di valore atteso.
Proposizione 3.1.14 Sia X una variabile aleatoria definita sullo spazio di probabilità
(Ω, F , P ).
1. Se P (X = c) = 1 allora E(X) = c.
2. Se X è una variabile aleatoria e B ⊂ R tale che {X ∈ B} ∈ F allora E(1B (X)) =
P (X ∈ B).
3. Se X è una variabile aleatoria tale che E(X) esiste e α è una costante, allora
E(αX) = α E(X).
4. Se X è una variabile aleatoria, g e h sono funzioni tali che E(g(X)) ed E(h(X))
esistono, allora E(g(X) + h(X)) = E(g(X)) + E(h(X)).
5. Se X è una variabile aleatoria tale che P (X ≥ 0) = 1 e E(X) esiste, allora E(X) ≥ 0.
Se in aggiunta E(X) = 0 allora P (X = 0) = 1.
6. Se a, b ∈ R sono tali che P (a ≤ X ≤ b) = 1, allora a ≤ E(X) ≤ b.
7. Siano g e h funzioni tali che E(g(X)) ed E(h(X)) esistono. Se P (h(X) ≥ g(X)) = 1,
allora E(h(X)) ≥ E(g(X)).
Dimostrazione
1. Se P (X = c) = 1, allora E(X) = c · P (X = c) = c.
2. Sia Y := 1B (X). Allora Y ∼ Be(p) con p = P (Y = 1) = P (X ∈ B) e quindi
E(Y ) = P (X ∈ B).
3. Supponiamo ad esempio che X sia assolutamente continua. Allora per la Proposizio-
ne 3.1.12 vale che:
Z Z
E(αX) = αxfX (x) dx = α xfX (x) dx = α E(X).
R R
La dimostrazione nel caso discreto procede in modo analogo.

4. La dimostrazione di questo punto è del tutto analoga a quella del punto precedente
e viene lasciata al lettore per esercizio.
5. Supponiamo X discreta. Poiché P (X ≥ 0) = 1, allora pX (x) = 0 per ogni x < 0 da

cui: X
E(X) = xk pX (xk ) ≥ 0.
k: xk ≥0
Il caso continuo si tratta analogamente.

Tralasciamo la dimostrazione della seconda parte perché più delicata.
6. Innanzi tutto osserviamo che se P (a ≤ X ≤ b) = 1, allora dalla definizione di valore

atteso segue che sicuramente esiste E(X). Poi osserviamo che P (X − a ≥ 0) = 1 e
che per le proprietà 5. 4. e 1. si ha 0 ≤ E(X − a) = E(X) + E(−a) = E(X) − a, cioè
E(X) ≥ a. Per ottenere E(X) ≤ b basta osservare che P (b − X ≥ 0) = 1 e ripetere
il ragionamento.
7. La dimostrazione procede analogamente al punto 6. ed è lasciata al lettore per

esercizio.
La proprietà 1. della Proposizione 3.1.14 ci dice che il valore atteso di una costante è la
costante stessa; questa proprietà è talvolta chiamata proprietà di coerenza del valore atteso.
La proprietà 2. sottolinea un ovvio legame tra valore atteso e probabilità. Le proprietà
3. e 4. ci dicono come si comporta il valore atteso quando si effettuano operazioni lineari
sulla variabile aleatoria sottostante, queste proprietà sono dette proprietà di linearità del
valore atteso. La proprietà 5. è detta positività del valore atteso. La proprietà 6. prende
il nome di internalità del valore atteso.
Nota 3.1.15 Tutte le proprietà del valore atteso enunciate nella Proposizione 3.1.14 val-
gono sia nel caso discreto che nel caso assolutamente continuo, cioè in tutti i casi per cui
in questo corso abbiamo definito il valore atteso. Questo ci autorizzerà nel seguito ad ap-
plicarle a tutte le variabili aleatorie che prenderemo in considerazione senza ulteriormente
specificare di quale natura sia la loro funzione di ripartizione.
3.2 Varianza
Abbiamo visto nella sezione precedente che, in alcuni casi, è possibile associare a una varia-
bile aleatoria una grandezza deterministica che abbiamo chiamato valore atteso. Tuttavia
la media della variabile aleatoria non riassume tutte le proprietà qualitative di una varia-
bile aleatoria, nel senso che ci sono variabili aleatorie che hanno la stessa media ma che
sono qualitativamente molto differenti.
Esempio 3.2.1 (Segue Esempio 3.0.17) Supponiamo ancora di giocare a testa e croce
con un amico. Sia ora Z il guadagno netto che otteniamo puntando 1000 : Z è una
variabile discreta che assume solo i due valori −1000 e 1000 con probabilità 1/2. Anche in
questo caso il gioco è equo, cioè E(Z) = 0. Ma questo gioco è molto più rischioso rispetto
a puntare 1 come nell’Esempio 3.0.17. Eppure E(Y ) = E(Z) = 0.
3.2. VARIANZA 65
La differenza fondamentale fra Y e Z, rispettivamente degli Esempi 3.0.17 e 3.2.1, è che

mentre Y assume valori vicini alla propria media, Z assume valori piuttosto lontani da
E(Z); E(Y ) rappresenta meglio Y di quanto non faccia E(Z) per Z.
Il ragionamento appena fatto ci porta a considerare la distanza tra una variabile alea-
toria X e la sua media |X − E(X)|. Un oggetto matematicamente più facile da studiare è
però la distanza al quadrato [X − E(X)]2 ; questa è ancora una variabile aleatoria, che in
alcuni casi ammette valore atteso.
Definizione 3.2.2 Sia X una variabile aleatoria discreta o assolutamente continua, tale
che esista E(X). Se inoltre esiste E((X − E(X))2 ), allora si pone
Var(X) := E((X − E(X))2 )

p
e Var(X) si chiama varianza di X. La radice quadrata della varianza Var(X) prende il
nome di deviazione standard di X.
Vale per la (3.1.1) che se XPè una variabile aleatoria discreta con densità pX e media
E(X) = µ allora Var(X) = k (xk − µ)2 pX (xk ); mentre, da (3.1.2) deduciamo che se X
è una variabile
R aleatoria assolutamente continua con densità fX e media E(X) = µ allora
Var(X) = (x − µ)2 fX (x) dx.
Esempio 3.2.3 (Seguono Esempi 3.0.17 e 3.2.1) Sia Y il guadagno netto che si ha
giocando a testa e croce puntando 1 e Z quello che si ha puntando 1000 . Allora
P (Y = −1) = P (Y = 1) = P (Z = 1000) = P (Z = −1000) = 1/2 ed E(Y ) = E(Z) = 0.
Per quanto riguarda la varianza di Y si ha
X 1 1
Var(Y ) = E((Y − E(Y ))2 ) = E(Y 2 ) = k 2 pY (k) = (−1)2 × + 12 × = 1,
2 2
k∈{−1,1}
mentre per quella di Z si ha

X 1 1
Var(Z) = E((Z − E(Z))2 ) = E(Z 2 ) = k 2 pZ (k) = (−103 )2 × + (103 )2 × = 106 .
2 2
k∈{−103 ,103 }
Come già anticipato, Var(Z) è (molto) più grande di Var(Y ) ad indicare che Z si discosta
da E(Z) (molto) più di quanto non faccia Y da E(Y ).
Esercizio 3.2.4 Calcolare la varianza della variabile aleatoria X dell’Esempio 3.0.17.
3.2.1 Proprietà della varianza

La seguente proposizione fornisce alcune proprietà elementari della varianza.
Proposizione 3.2.5 Sia X una variabile aleatoria, allora

1. Var(X) = 0 se e solo se P (X = c) = 1 per qualche costante c. In questo caso

c = E(X).
2. Se X ammette varianza ed α ∈ R allora Var(αX) = α2 Var(X).
3. Se X ammette varianza e β ∈ R allora Var(X + β) = Var(X).
4. Se X ammette varianza allora X 2 ammette media e Var(X) = E(X 2 ) − E(X)2 .
Dimostrazione Utilizzeremo le proprietà della media contenute nella Proposizione 3.1.14.
1. Se P (X = c) = 1 allora E(X) = c e Var(X) = E((c − c)2 ) = E(0) = 0. Viceversa,

se Var(X) = E((X − E(X))2 ) = 0, poiché P (X − E(X))2 ≥ 0) = 1 allora P ((X −
E(X))2 = 0) = 1 che è possibile solo se P (X = E(X)) = 1.
2. Poiché E(αX) = α E(X) allora
Var(αX) = E((αX − E(αX))2) = E((αX − α E(X))2 )

= E(α2 (X − E(X))2 ) = α2 E((X − E(X))2 ) = α2 Var(X).
3. Osserviamo che per la linearità del valore atteso E(X + β) = E(X) + β, quindi
Var(X + β) = E((X + β − E(X + β))2 )

= E((X + β − E(X) − β)2 )
= E((X − E(X))2 )
= Var(X).
4. Se X ammette varianza allora
E(X 2 ) = E((X − E(X) + E(X))2 )

≤ E(2(X − E(X))2 + 2 E(X)2 )
= 2 E((X − E(X))2 ) + 2 E(X)2
= 2 Var(X) + 2 E(X)2 < +∞
Quindi X 2 ammette media. Inoltre:
Var(X) = E((X − E(X))2 )

= E(X 2 − 2X E(X) + E(X)2 )
= E(X 2 ) − 2 E(X E(X)) + E(E(X)2 )
= E(X 2 ) − 2 E(X)2 + E(X)2
= E(X 2 ) − E(X)2 .
3.2. VARIANZA 67
Commentiamo brevemente la proposizione appena dimostrata. Il punto 1. afferma che le

uniche variabili aleatorie con varianza nulla sono le costanti. Questo è in pieno accordo con
il concetto intuitivo di varianza come misura di quanto una variabile aleatoria si discosta
dalla propria media. Il punto 2. ci dice che la varianza è quadratica (mentre la media
è lineare). Il punto 3. mostra come la varianza sia invariante per traslazioni. Infatti
sommando ad una variabile aleatoria un numero, cioè traslandola, anche la media viene
traslata dello stesso numero e lo scostamento della variabile dalla sua media non cambia.
Il punto 4. mostra una formula molto utile nelle applicazioni e negli esercizi per calcolare
la varianza.
A titolo d’esempio calcoliamo la varianza di alcune delle variabili aleatorie precedente-
mente introdotte.
Esempio 3.2.6 Se X è variabile aleatoria uniforme discreta su {1, . . . , n} sappiamo che

E(X) = (n + 1)/2 e
n
X k2 n(n + 1)(2n + 1) (n + 1)(2n + 1)
E(X 2 ) = = =
n 6n 6
k=1
(n + 1)(2n + 1) n + 1 2 n2 − 1
Var(X) = − =
6 2 12
Esempio 3.2.7 Se X ∼ P(λ) sappiamo che E(X) = λ e
+∞
X −λ k +∞
X −λ k +∞
X X+∞
2 2e λ 2e λ e−λ λk e−λ λh+1
E(X ) = k = k = k = (h + 1) =
k=0
k! k=1
k! k=1
(k − 1)! h=0 h!
+∞
X X e−λ λh +∞X e−λ λh +∞
e−λ λh
=λ (h + 1) =λ h +λ = λ E(X) + λ = λ2 + λ.
h! h! h!
h=0 h=0 h=0
Segue che Var(X) = E(X 2 ) − E(X)2 = λ.
Esercizio 3.2.8 Mostrare che, se X ha densità binomiale di parametri n e p, E(X) = np

e Var(X) = np(1 − p).
Esempio 3.2.9 Se U ∼ U(0, 1) sappiamo che E(U) = 1/2; inoltre

Z 1
2 1
E(U ) = u2 du = .
0 3
Segue che Var(U) = E(U 2 ) − E(U)2 = 1/3 − 1/4 = 1/12.
Se X ∼ U(a, b), allora X = (b − a)U + a, dove U ∼ U(0, 1) (si veda Esempio 2.6.6) e
b−a a+b
E(X) = (b − a) E(U) + a = +a=
2 2
2
(b − a)
Var(X) = Var((b − a)U + a) =
12
Esempio 3.2.10 Se X ∼ E(λ) sappiamo che E(X) = 1/λ e

Z +∞ Z +∞
2 2 −λx d
E(X ) = x λe dx = − x2 e−λx dx
0 dx
Z +∞ 0
+∞ 2 2
= − x2 e−λx 0 + 2 xe−λx dx = E(X) = 2 .
0 λ λ
Segue che Var(X) = E(X 2 ) − E(X)2 = 2/λ2 − 1/λ2 = 1/λ2 .
Esempio 3.2.11 Se Z ∼ N (0, 1) sappiamo che E(Z) = 0, quindi

Z +∞ Z +∞
2 1 2
2 − z2 1 d z2
Var(Z) = E(Z ) = √ z e dz = − √ z e− 2 dz =
2π −∞ 2π −∞ dz

2 +∞
Z +∞
1 − z2 1 z2
= − √ ze +√ e− 2 dz = 1.
2π −∞ 2π −∞
3.3 Disuguaglianza di Chebychev

La successiva importante disuguaglianza, nota come disuguaglianza di Chebychev, precisa
in che senso una variabile X con varianza “piccola” è concentrata intorno alla sua media.
Proposizione 3.3.1 (Disuguaglianza di Chebychev) Sia X una variabile aleatoria che

ammette media e varianza. Allora per ogni > 0:
Var(X)
P (|X − E(X)| > ) ≤ .
2
Dimostrazione Osserviamo che o |X − E(X)| ≤ oppure |X − E(X)| > ; quindi
1(−∞,] (|X − E(X)|) + 1(,+∞)(|X − E(X)|) ≡ 1, da cui
Var(X) = E((X − E(X))2 )

= E((X − E(X))2 1(−∞,] (|X − E(X)|)) + E((X − E(X))2 1(,+∞)(|X − E(X)|)
≥ E((X − E(X))2 1(,+∞) (|X − E(X)|)
≥ E(2 1(,+∞) (|X − E(X)|))
= 2 P (|X − E(X)| > ).
Esercizio 3.3.2 Dimostrare che se X è una variabile aleatoria positiva tale che la k-esima
potenza X k ammette media per un intero positivo k, allora vale che
E(X k )
P (X > ) ≤ ∀ > 0.
k
Questa disuguaglianza è nota con il nome di Disuguaglianza di Markov.
3.4. STANDARDIZZAZIONE DI UNA VARIABILE ALEATORIA 69
3.4 Standardizzazione di una variabile aleatoria

In questa sezione ci occuperemo di una particolare trasformazione affine di una variabile
aleatoria, detta standardizzazione.
Sia X una variabile aleatoria non costante che ammette media E(X) = m e varianza
Var(X) = σ 2 . Poiché X non è costante Var(X) > 0. Consideriamo la variabile aleatoria
Y ottenuta mediante la seguente trasformazione affine di X:
X −m
Y := (3.4.1)
σ
dove σ è la deviazione standard di X. Segue dalle Proposizioni 3.1.14 e 3.2.5 che Y ammette
media e varianza finite. Inoltre segue dalla linearità della media che

X −m E(X) − m
E(Y ) = E = = 0,
σ σ
mentre, dalle proprietà della varianza otteniamo che

X −m Var(X − m) Var(X)
Var(X) = Var = 2
= = 1.
σ σ σ2
Quindi, qualunque siano la media e la varianza di X ci siamo ricondotti a una variabile

aleatoria Y con media uguale a 0 (diremo che è centrata) e varianza uguale a 1. Per questo
motivo Y è detta standardizzata della variabile X e l’operazione che trasforma la variabile
X nella corrispondente variabile Y è detta standardizzazione. Inoltre la funzione di riparti-
zione FX della variabile X è legata alla fuzione di ripartizione FY della sua standardizzata
Y dalla semplice relazione

X −m t−m t−m
FX (t) = P (X ≤ t) = P ≤ = FY .
σ σ σ
L’operazione di standardizzazione gioca un ruolo fondamentale nel teorema di De Moivre

Laplace e nel Teorema centrale del limite che vedremo più avanti.
3.5 Densità gaussiana N (µ, σ 2)

Siano Z ∼ N (0, 1), σ > 0 e µ ∈ R. Consideriamo la variabile aleatoria X = σZ + µ. Segue
dalle proprietà di media e varianza che
E(X) = σ E(Z) + µ = µ
e
Var(X) = σ 2 Var(Z) = σ 2 .
Inoltre, grazie alla Proposizione 2.6.5, X è una variabile aleatoria assolutamente continua
con densità
( 2 )
x−µ 1 1 1 x−µ
fX (x) = ϕ =√ exp − , ∀x ∈ R (3.5.1)
σ σ 2πσ 2 2 σ
dove ϕ rappresenta la densità gaussiana standard.
Definizione 3.5.1 Una variabile aleatoria assolutamente continua X con densità (3.5.1)
è detta gaussiana di parametri µ e σ 2 e si indica X ∼ N (µ, σ 2).
Deduciamo dagli ultimi calcoli fatti che i due parametri di una variabile aleatoria N (µ, σ 2)
hanno una precisa interpretazione: µ è la media e σ 2 la varianza. Quindi, come messo in
evidenza nella Figura 3.1, µ è un polo di riferimento e σ un indice della concentrazione (o
dispersione) della densità N (µ, σ 2) intorno a µ.
0.5
N (−1, 0.5)
N (0, 1)
0.4
N (0, 2)
0.3
0.2
0.1
0.0
−4 −2 0 2 4
Figura 3.1: Grafico delle densità di probabilità N (0, 1), N (0, 2) e N (−1, 0.5)
Esercizio 3.5.2 Sia X ∼ N (µ, σ 2). Mostrare che Y = (X − µ)/σ ∼ N (0, 1). Cioè
la standardizzata di una variabile aleatoria gaussiana è una variabile aleatoria gaussiana
standard.
Esercizio 3.5.3 Sia X ∼ N (µ, σ 2 ) e sia FX la sua funzione di ripartizione. Mostrare che
FX (x) = Φ((x − µ)/σ), ∀x ∈ R
dove Φ è la funzione di ripartizione della densità gaussiana standard.
3.6 Approssimazione gaussiana della funzione di ri-

partizione binomiale
Un risultato2 molto importante della teoria delle probabilità è il teorema di De Moivre-
Laplace. Questo teorema afferma che, se standardizziamo una variabile aleatoria con den-
2
Questa sezione è in parte tratta da [13]
3.6. APPROSSIMAZIONE GAUSSIANA DELLA FUNZIONE DI RIPARTIZIONE BINOMIALE71
sità binomiale di parametri n e p, la funzione di ripartizione della variabile cosı̀ ottenuta

converge, per n → +∞ e p fissato, alla funzione di ripartizione di una variabile aleatoria
gaussiana standard. Vedremo nell’ultimo capitolo che questo risultato è un caso particolare
del Teorema centrale del limite, ma la sua formulazione e dimostrazione è stata fornita in
modo indipendente e molto tempo prima. Diamo qui di seguito l’enunciato del teorema di
De Moivre-Laplace e ne illustriamo il suo utilizzo con un esempio. Ricordiamo che n prove
di Bernoulli sono n esperimenti, con due possibili risultati, successo e insuccesso, i risultati
di ciascuna prove sono eventi tra loro indipendenti e infine in ogni singola prova è uguale
la probabilità che si verifichi il successo. (Vedi fine Capitolo 1).
Teorema 3.6.1 (di De Moivre-Laplace) Sia Sn il numero di successi in n prove di

Bernoulli, in ognuna delle quali il successo ha probabilità p ∈ (0, 1). Allora, per ogni a < b,
!
Sn − np
P a< p ≤ b → Φ(b) − Φ(a), per n → +∞,
np(1 − p)
dove Φ è la funzione di ripartizione di una gaussiana standard.

p
Nota 3.6.2 La variabile (Sn − np)/ np(1 − p) è la standardizzata di una variabile alea-
toria binomiale. Infatti, come abbiamo già visto nel Capitolo 2, Sn ha densità pbinomiale
di parametri n e p e, come vi si è chiesto di verificare nell’Esercizio 3.2.8, np e np(1 − p)
sono, rispettivamente, la sua media e la sua deviazione standard.
Nota 3.6.3 Si noti che abbiamo due possibili approssimazioni per le probabilità collegate
ad una densità binomiale. Possiamo utilizzare una approssimazione di Poisson se n è
“grande” e p è “piccolo”, mentre si può vedere che vale un’approssimazione gaussiana se
n è “grande” e p è “lontano” dai valori estremi 0 e 1. Esistono varie “ricette” per stabilire
quanto n deve essere grande e p lontano da 0 e da 1. Per esempio, l’approssimazione
gaussiana è buona se np > 5 e n(1 − p) > 5, oppure per np(1 − p) ≥ 10.
Esempio 3.6.4 Calcolare in modo approssimato la probabilità di ottenere in 100 lanci di

una moneta equa un numero di teste compreso fra 45 e 55 (inclusi).
Sia S100 la variabile aleatoria che conta il numero di teste nei 100 lanci. Allora S100 ∼
Bi(100, 1/2) e la probabilità richiesta è
P (45 ≤ S100 ≤ 55) = P (44 < S100 ≤ 55)

 
100 100 100
44 − S100 − 2 55 −
=P q 2 < q ≤ q 2 
100
4
100 × 14 100
4

55 − 50 44 − 50
'Φ −Φ
5 5
= Φ (1) − Φ (−1.2)
= Φ (1) + Φ (1.2) − 1 ' 0.841345 + 0.884930 − 1 ' 0.726275.
D’altra parte, poiché S100 è variabile aleatoria discreta con funzione di ripartizione costante
a tratti sull’intervallo [k, k + 1), per k = 0, . . . , 100, allora:
P (45 ≤ S100 ≤ 55) = P (44 < S100 ≤ 55)

= P (S100 ≤ 55) − P (S100 ≤ 44)
= P (S100 ≤ 55.5) − P (S100 ≤ 44.5)

55.5 − 50 44.5 − 50
'Φ −Φ
5 5
= Φ (1.1) − Φ (−1.1)
= 2Φ (1.1) − 1 ' 2 × 0.864334 − 1 ' 0.728668.
Nell’ultima equazione per calcolare un valore approssimato di P (45 ≤ S100 ≤ 55) =

P (S100 ≤ 55) − P (S100 ≤ 44), abbiamo apportato una correzione di continuità sostituendo
a 55 il valore 55+0.5 e a 44 il valore 44+0.5. Calcolando ora esattamente P (45 ≤ S100 ≤ 55)
mediante la densità binomiale, otteniamo che P (45 ≤ S100 ≤ 55) = 0.728747. Quindi, sen-
za la correzione di continuità l’approssimazione gaussiana produce un errore in percentuale
pari a (0.728747 − 0.726275)/0.728747 ' 0.34%, mentre, con la correzione di continuità,
l’errore è (0.728747 − 0.728668)/0.728747 ' 0.011%: l’introduzione della correzione di
continuità ha ridotto l’errore di approssimazione di un fattore 31.
In generale, se n è grande e Sn ∼ Bi(n, p), con p ∈ (0, 1), la correzione di continuità si
apporta nel seguente modo:
!
r + 0.5 − np
P (Sn ≤ r) ' Φ p
np(1 − p)
per ogni r = 0, 1, . . . .
Supponiamo ora di lanciare 100 monete con trucco p = 1/5 e sia S100 il numero di teste
su 100 lanci. Allora E(S100 ) = 100/5 = 20 e Var(S100 ) = 100 × (4 × 5 × 5) = 16 e

S100 − 20
P (16 ≤ S100 ≤ 24) = P (15 < S100 ≤ 24) = P −1.25 ≤ ≤1
4
' Φ(1) + Φ(1.25) − 1 ' 0.841345 + 0.894350 − 1 ' 0.735695.
Con la correzione di continuità abbiamo:
P (16 ≤ S100 ≤ 24) = P (S100 ≤ 24.5) − P (S100 ≤ 15.5)

S100 − 20 S100 − 20
=P ≤ 1.125 − P ≤ −1.125
4 4
' 2Φ(1.125) − 1 ' 0.739411
Si noti che P (16 ≤ S100 ≤ 24) vale esattamente 0.7401413. In questo caso, l’errore in
percentuale è pari a (0.7401413 − 0.735695)/0.7401413 ' 0.6% senza la correzione di conti-
nuità e (0.7401413 − 0.739411)/0.7401413 ' 0.1% con la correzione di continuità. Notiamo
3.7. *MOMENTI E FUNZIONE GENERATRICE DEI MOMENTI 73
che con la correzione di continuità l’approssimazione è migliorata ma di misura inferiore

rispetto al caso della moneta equa. D’altro canto l’errore relativo di approssimazione è
comunque più alto rispetto al caso della moneta equa.
Infine, trovate in Figura 3.2 il grafico della funzione di ripartizione gaussiana standard
Φ e della standardizzata di una variabile aleatoria S20 ∼ Bi(20, 0.5), a confronto.
1.0
Φ(x)
Sn −n/2
fdr di p
n/4
0.8
0.6
0.4
0.2
0.0
−4 −2 0 2 4
p
Figura 3.2: Fdr di (Sn − np)/ np(1 − p) e Φ a confronto per n = 20 e p = 0.5
3.7 *Momenti e funzione generatrice dei momenti

Nella Sezione 3.3 abbiamo visto come trarre informazioni sulla variabile aleatoria X co-
noscendo E(X) ed E(X 2 ), per esempio usando la disuguaglianza di Chebychev. Poi, nel-
l’Esercizio 3.3.2 è stato preso in considerazione il numero E(X k ). In generale si possono
trarre maggiori informazioni conoscendo E(X k ) per k = 1, 2, . . . . Non indagheremo questo
punto a fondo, ma data l’importanza diamo la seguente definizione
Definizione 3.7.1 Sia X una variabile aleatoria assolutamente continua o discreta tale
che |X|k ammetta valore atteso. Allora il numero E(X k ) è detto momento k-esimo o
momento di ordine k della variabile aleatoria X.
Secondo questa definizione la media di una variabile aleatoria è il suo momento primo,
mentre la varianza è la differenza tra il suo momento secondo ed il suo momento primo al
quadrato.
Proposizione 3.7.2 Sia X una variabile aleatoria che ammette momento k-esimo, per
qualche k ≥ 2. Allora X ammette momento h-esimo per ogni 1 ≤ h < k.
Dimostrazione Sappiamo per ipotesi che E(|X|k ) è un numero finito, allora

E(|X|k ) = E(|X|k [1[0,1] (|X|) + 1(1,+∞) (|X|)]) = E(|X|k 1[0,1] (|X|)) + E(|X|k 1(1,+∞) (|X|)) ≥
≥ E(|X|k 1(1,+∞) (|X|)) = E(|X| · |X|k−11(1,+∞) (|X|)) ≥ E(|X|k−11(1,+∞) (|X|)).
Quindi |X|k−11(1,+∞) (|X|) ha media finita. Poiché |X k | = |X|k−11[0,1] (|X|)+|X|k−11(1,+∞) (|X|)
e |X|k−11[0,1] (|X|) ≤ 1, segue che anche |X|k ha media finita. Risulta cosı̀ dimostrato che
se esiste il momento k-esimo esiste anche il momento (k − 1)-esimo. Per concludere basta
iterare il procedimento.
Esercizio 3.7.3 Mostrare che una variabile aleatoria gaussiana standard ammette mo-
menti di ogni ordine; quindi verificare che quelli di ordine dispari sono nulli.
Più in generale, mostrare che se X è una variabile aleatoria simmetrica (cioè X e −X
hanno la stessa funzione di ripartizione) ed ammette momento di ordine n, allora tutti i
momenti di ordine dispari E(X 2k+1 ) con 2k + 1 ≤ n sono nulli.
Esercizio 3.7.4 Sia X una variabile aleatoria assolutamente continua con densità
(
0 x<1
fX (x) = −4
3x x≥1
Mostrare che X ammette momenti primo e secondo ma non ammette momento terzo.
Uno strumento molto utile nel calcolo dei momenti di una variabile aleatoria, quindi anche
nel calcolo di media e varianza, è la funzione generatrice dei momenti :
Definizione 3.7.5 Sia X una variabile aleatoria per la quale esiste un intervallo aperto
O contenente lo 0 tale che etX ammette media per ogni t in O. Allora la funzione
mX (t) := E(etX )
definita (almeno) per ogni t ∈ O è detta funzione generatrice dei momenti di X.
Nota 3.7.6 La funzione generatrice dei momenti di una variabile aleatoria X coincide con
la trasformata di Laplace della densità di probabilità di X.
Esercizio 3.7.7 Sia X ∼ N (µ, σ 2). Mostrare che la funzione generatrice dei momenti di
X è
2 2
mX (t) = eµt+σ t /2 .
per ogni t ∈ R.
Il nome di funzione generatrice dei momenti è dovuto alla seguente proprietà di mX .
Proposizione 3.7.8 Sia X una variabile aleatoria che ammette funzione generatrice dei
momenti mX . Allora esistono tutti i momenti di X e
E(X) = m0X (0), E(X 2 ) = m00X (0), . . . .
3.7. *MOMENTI E FUNZIONE GENERATRICE DEI MOMENTI 75
Non dimostreremo questa proposizione, ma per ricordarla meglio conviene tenere presente
la seguente dimostrazione formale:

0 d tX d tX
mX (t) = E(e ) = E e = E(XetX )
dt dt
quindi m0X (0) = E(X). Lo stesso ragionamento si può ripetere per i momenti successivi.
Esercizio 3.7.9 Calcolare il momento quarto di una variabile aleatoria X avente densità
gaussiana standard.
Capitolo 4
Vettori Aleatori
4.1 Variabili aleatorie indipendenti

Nel Capitolo 2 abbiamo introdotto la variabile aleatoria per modellare il concetto di numero
casuale. Spesso nelle applicazioni accade che sia necessario considerare simultaneamente
più variabili aleatorie definite sullo stesso spazio campione, cioè relative ad uno stesso
esperimento aleatorio. Per esempio possiamo pensare di essere interessati alla misurazione
di altezza e peso degli individui di una certa popolazione, oppure siamo interessati ai tempi
di vita dei componenti che costituiscono un’apparecchiatura complessa. È importante
quindi conoscere il comportamento congiunto di più variabili aleatorie. Cosa significa fare
ciò dal punto di vista probabilistico?
Esempio 4.1.1 Consideriamo l’esperimento aleatorio consistente nel lanciare dieci volte
due monete equilibrate. Sia X il numero di teste nei dieci lanci della prima moneta e
Y quello nella seconda. L’evento {X = 5} è costituito da tutte le possibili sequenze dei
dieci lanci delle due monete compatibili con il fatto che la prima moneta abbia mostrato
esattamente cinque volte testa. Analogamente, {Y ≤ 8} è l’evento che si verifica se la
seconda moneta ha mostrato testa al più otto volte. Considerare contemporaneamente il
verificarsi di questi due eventi (cioè l’intersezione) riguarda il comportamento congiunto
delle due variabili aleatorie e scriveremo:
{X = 5, Y ≤ 8} = {ω : X(ω) = 5} ∩ {ω : Y (ω) ≤ 8}.
D’ora in avanti si userà questa notazione per indicare intersezione di eventi espressi in
termini di variabili aleatorie. In questo caso è chiaro che gli eventi {X = 5} e {Y ≤ 8}
sono indipendenti secondo la Definizione 1.5.18 e quindi
P (X = 5, Y ≤ 8) = P (X = 5)P (Y ≤ 8).
Il conto procede considerando che X ∼ Bi(10, 1/2) e Y ∼ Bi(10, 1/2). Allo stesso modo
si prova che
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B)
77
per ogni A, B ⊂ {0, 1, . . . , 10} e le due probabilità a secondo membro si calcolano facilmente
ricorrendo alla densità binomiale.
Sia ora Z la v.a. che indica il numero totale di teste nei lanci di entrambe le monete.
Allora Z ∼ Bi(20, 1/2) ma, evidentemente, gli eventi {Z ≤ 8} e {X = 5} non sono
indipendenti: ad esempio sull’insieme {ω : X(ω) = 5} Z non può assumere valori inferiori
a 5. Questo fatto implica che per calcolare P (X = 5, Z ≤ 8) non è sufficiente conoscere
le densità di X e di Z, ma è necessario analizzare più a fondo il loro comportamento
congiunto. Comunque, in questo caso il calcolo è facile:
P (X = 5, Z ≤ 8) = P ({ω : X(ω) = 5, Z(ω) ≤ 8}) = P ({ω : X(ω) = 5, Y (ω) ≤ 3})

= P (X = 5, Y ≤ 3) = pX (5)FY (3) ' 0.0423
D’altro canto si noti che
P (X = 5)P (Z ≤ 8) = pX (5)FZ (8) ' 0.06194 6= 0.0423 = P (X = 5, Z ≤ 8).
Appare naturale chiamare le variabili aleatorie X e Y indipendenti in quanto generano

eventi indipendenti. Se X, Y sono indipendenti, tutte le probabilità che riguardano la
coppia si deducono dalle densità delle singole variabili, cioè se pX e pY rappresentano le
densità di X e Y , rispettivamente, allora
(
10 10 1
x y 220
x, y = 0, 1, . . . , 10
P (X = x, Y = y) = pX (x)pY (y) =
0 altrove.
Diversamente, per la coppia (X, Z), la sola conoscenza di pX e pZ non porta direttamente
a quella di P (X = x, Z = z).
La seguente definizione di indipendenza fra variabili aleatorie formalizza ed estende i con-
cetti introdotti con l’Esempio 4.1.1. Come nel caso bidimensionale, anche nel caso di un
numero qualunque n di variabili aleatorie X1 , . . . , Xn definite sullo stesso spazio di proba-
bilità (Ω, F , P ), useremo la scrittura {X1 ∈ B1 , . . . , Xn ∈ Bn } per indicare l’intersezione
degli eventi {ω ∈ Ω : X1 (ω) ∈ B1 }, . . . , {ω ∈ Ω : Xn (ω) ∈ Bn }:
{X1 ∈ B1 , . . . , Xn ∈ Bn } = {ω ∈ Ω : X1 (ω) ∈ B1 } ∩ · · · ∩ {ω ∈ Ω : Xn (ω) ∈ Bn }.
Definizione 4.1.2 Siano X1 , . . . , Xn n variabili aleatorie definite sullo stesso spazio di

probabilità (Ω, F , P ). Diciamo che sono indipendenti se
P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P (X1 ∈ B1 ) · · · P (Xn ∈ Bn ) (4.1.1)
per ogni scelta di domini regolari1 B1 , . . . , Bn ⊂ R.

1
Gli insiemi B1 , . . . , Bn che dobbiamo considerare sono solo quelli ottenuti con un numero al più infinito
numerabile di operazioni fra intervalli.
4.1. VARIABILI ALEATORIE INDIPENDENTI 79
Si può verificare che le variabili aleatorie X, Y dell’Esempio 4.1.1 sono indipendenti secondo
la Definizione 4.1.2.
Nota 4.1.3 Nell’equazione (4.1.1) prendiamo Bi = (−∞, xi ] per ogni i = 1, . . . , n con

xi ∈ R. Allora (4.1.1) diventa
P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn ) (4.1.2)
In altri termini, se le variabili aleatorie sono indipendenti, allora vale (4.1.2). In realtà,
vale anche il viceversa, cioè
Proposizione 4.1.4 Le variabili aleatorie X1 , . . . , Xn sono indipendenti se e solo se per

ogni scelta di x1 , . . . , xn ∈ R vale (4.1.2).
Nota 4.1.5 Siano X1 , . . . , Xn variabili aleatorie discrete indipendenti con densità rispet-
tivamente pX1 , . . . , pXn . Allora, prendendo B1 = {x1 }, . . . , Bn = {xn } in (4.1.1) risulta
che
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) · · · P (Xn = xn ), ∀xi ∈ R, ∀i = 1, . . . , n . (4.1.3)
Anche in questo caso vale il viceversa:
Proposizione 4.1.6 Le variabili aleatorie discrete X1 , . . . , Xn sono indipendenti se e solo

se vale (4.1.3).
Rivisitiamo alla luce di quanto ora introdotto l’esperimento di n prove di Bernoulli.
Esempio 4.1.7 Sia (Ω, F , P ) lo spazio di n prove di Bernoulli di parametro p e siano

X1 , . . . , Xn le variabili aleatorie definite su questo spazio da:
Xi (ω) = ai , ∀ω := (a1 , . . . , an ) ∈ Ω = {0, 1}n , ∀i = 1, . . . , n.
È immediato verificare che X1 , . . . , Xn sono indipendenti. Infatti, Xi ∼ Be(p) e

Pn Pn
P (X1 = a1 , . . . , Xn = an ) = p i=1 ai (1 − p)n− i=1 ai
Yn
= pai (1 − p)1−ai = P (X1 = a1 ) · · · P (Xn = an )
i=1
Esempio 4.1.8 Siano S e T due variabili aleatorie che descrivono i tempi di guasto, in
minuti secondi, di due componenti elettronici. Supponiamo che il modello probabilistico
assegnato sia il seguente: la probabilità che il primo componente funzioni nei primi s
secondi e il secondo nei primi t secondi (per ogni s ≥ 0 e t ≥ 0) sia
Z +∞ Z +∞
P (S > s, T > t) = µ2 e−µ(u+v) du dv.
s t
Segue che per ogni s > 0:

Z +∞ Z +∞ Z +∞
−µu −µv
P (S > s) = P (S > s, T > 0) = µe du µe dv = µe−µu du = e−µs .
s 0 s
Analogamente, P (T > t) = e−µt e quindi:
P (S > s, T > t) = P (S > s)P (T > t)
cioè, gli eventi {S > s} e {T > t} sono indipendenti. Ma allora anche gli eventi comple-
mentari {S ≤ s} e {T ≤ t} sono indipendenti, da cui:
P (S ≤ s, T ≤ t) = [1 − P (S > s)][1 − P (T > t)] =

Z s Z t
−µu
= FS (s)FT (t) = µe du µe−µv dv (4.1.4)
0 0
Deduciamo da (4.1.4) che S e T sono indipendenti.
4.2 Vettori aleatori

È opportuno a questo punto introdurre alcune definizioni in cui ritroviamo gli oggetti
considerati nella sezione precedente.
Definizione 4.2.1 (Vettore aleatorio) Sia (Ω, F , P ) uno spazio di probabilità. Un vet-
tore aleatorio n–dimensionale è una funzione vettoriale X := (X1 , . . . , Xn ), X : Ω → Rn
tale che ogni Xi (per i = 1, . . . , n) è una variabile aleatoria.
Esempio 4.2.2 (Continuazione degli Esempi 4.1.1 e 4.1.8) Le coppie (X, Y ), (X, Z)
considerate nell’Esempio 4.1.1 e (S, T ) nell’Esempio 4.1.8 sono vettori aleatori bidimensio-
nali.
Discutendo della nozione di indipendenza, nell’equazione (4.1.2), abbiamo considerato
probabilità della forma:
P (X1 ≤ x1 , . . . , Xn ≤ xn ) ∀xi ∈ R e i = 1, . . . , n (4.2.1)
La precedente, per n = 1, definisce la funzione di ripartizione di una variabile aleatoria.

La considerazione di (4.2.1) per n qualsiasi, al variare di xi in R per i = 1 . . . , n, porta a
introdurre la funzione di ripartizione di vettori aleatori:
Definizione 4.2.3 (Funzione di ripartizione multidimensionale) Sia X = (X1 , . . . , Xn )

un vettore aleatorio n–dimensionale definito su uno spazio di probabilità (Ω, F , P ). Si chia-
ma funzione di ripartizione di X (o funzione di ripartizione congiunta di X1 , . . . , Xn )
la funzione FX = F(X1 ,...,Xn ) : Rn → [0, 1] definita per ogni (x1 , . . . , xn ) ∈ Rn come
F(X1 ,...,Xn ) (x1 , . . . , xn ) := P (X1 ≤ x1 , . . . , Xn ≤ xn ).
4.2. VETTORI ALEATORI 81
La funzione di ripartizione di un vettore aleatorio gode di alcune proprietà analoghe a

quelle della funzione di ripartizione di una variabile aleatoria (cfr. Proposizione 2.1.10).
Dato un vettore aleatorio X = (X1 , . . . , Xn ) è interessante vedere che legame c’è tra
FX e le funzioni di ripartizione FX1 , . . . , FXn delle componenti che spesso vengono chiamate
funzioni di ripartizione marginali.
Proposizione 4.2.4 Sia X = (X1 , . . . , Xn ) un vettore aleatorio che ha funzione di ripar-

tizione FX e sia x = (x1 , . . . , xn ). Allora per ogni k = 1, . . . , n, limxk →−∞ FX (x) = 0,
mentre
lim FX (x) = P (X1 ≤ x1 , . . . , Xk−1 ≤ xk−1 , Xk+1 ≤ xk+1 , . . . , Xn ≤ xn )
xk →+∞
= F(X1 ,...,Xk−1 ,Xk+1 ,...Xn ) (x1 , . . . , xk−1 , xk+1 , . . . , xn )

Esercizio 4.2.5 Dimostrare la Proposizione 4.2.4.
La precedente proposizione ci dice che se xk → +∞, FX (x) converge alla funzione di
ripartizione del vettore aleatorio (n − 1)–dimensionale (X1 , . . . , Xk−1 , Xk+1, . . . , Xn ) che si
ottiene da X eliminando la k–esima componente.
Nel caso di un vettore aleatorio bidimensionale (X, Y ) che ha funzione di ripartizione
FX,Y , la Proposizione 4.2.4 afferma che:
lim FX,Y (x, y) = P (Y ≤ y) = FY (y)
x→+∞
lim FX,Y (x, y) = P (X ≤ x) = FX (x)

y→+∞
Nel caso di un vettore aleatorio n–dimensionale, applicando iterativamente la Proposizio-

ne 4.2.4, si ottiene che per ogni x ∈ R e per ogni i = 1, . . . , n
FXi (x) = n lim FX (x1 , . . . , xi−1 , x, xi+1 , . . . , xn )
xj →+∞o
∀j6=i
Quindi dalla funzione di ripartizione congiunta siamo in grado di calcolare tutte le funzioni
di ripartizione marginali. Ma il viceversa è falso, come mostra il seguente esempio.
Esempio 4.2.6 Siano (X1 , Y1 ) un vettore aleatorio con funzione di ripartizione



0 x<0oy<0
−y −x −x
FX1 ,Y1 (x, y) = e (1 − e − x) − (1 + x)e + 1 0 ≤ x ≤ y

 −x
e (1 − e−y − y) − (1 + y)e−y + 1 x > y ≥ 0
e (X2 , Y2 ) un vettore aleatorio con funzione di ripartizione

FX2 ,Y2 (x, y) = 1 + (1 + x)e−x (e−y (1 + y) − 1) − e−y (1 + y) 1(0,∞) (x)1(0,∞) (y)
Verificate che le funzioni di ripartizione marginali di FX1 ,Y1 e FX2 ,Y2 coincidono e sono date
da
FXi (x) = FYi (x) = (1 − (1 + x)e−x )1(0,∞) (x), i = 1, 2 .
Riusciamo a ricostruire la funzione di ripartizione congiunta dalle marginali nel caso di

variabili aleatorie indipendenti.
Alla luce della definizione appena introdotta, possiamo rienunciare la Proposizione 4.1.4
nel seguente modo
Proposizione 4.2.7 Le componenti di un vettore aleatorio X = (X1 , . . . , Xn ) sono indi-

pendenti se e solo se la funzione di ripartizione di X coincide con il prodotto delle funzioni
di ripartizione marginali, cioè
FX = FX1 FX2 · · · FXn .
Esempio 4.2.8 (Continuazione dell’Esempio 4.1.8) Le variabili aleatorie S e T che

rappresentano i tempi di guasto dei componenti elettronici dell’Esempio 4.1.8 hanno fun-
zione di ripartizione congiunta
FS,T (s, t) = (1 − e−µs )(1 − e−µt )1(0,+∞)×(0,+∞) (s, t) = FS (s)FT (t)

e S e T sono indipendenti.
Per esempi significativi di vettori aleatori con componenti non indipendenti rimandiamo alle
prossime sezioni. Seguendo lo schema del caso unidimensionale, di seguito considereremo
le due classi di vettori aleatori discreti e assolutamente continui.
4.3 Vettori aleatori discreti

Definizione 4.3.1 (Vettori aleatori discreti) Un vettore aleatorio X n-dimensionale
è discreto se le sue componenti X1 , . . . , Xn sono variabili aleatorie discrete.
Esempi di vettori aleatori discreti sono i vettori (X, Y ) e (X, Z) dell’Esempio 4.1.1.
Per un vettore aleatorio discreto è possibile definire una densità discreta nel modo
seguente:
Definizione 4.3.2 Sia X una vettore aleatorio discreto su di uno spazio di probabilità
(Ω, F , P ). La funzione pX (x) := P (X1 = x1 , . . . , Xn = xn ), dove x = (x1 , . . . , xn ), si
chiama densità discreta del vettore aleatorio X (o densità congiunta di X1 , . . . Xn ).
Si noti che se pX è la densità di un vettore aleatorio discreto X allora pX (x) = 0 tranne
che per una quantità al più numerabile di x ∈ Rn .
Esempio 4.3.3 (Densità multinomiale) Supponiamo che una popolazione contenga og-
getti di k ≥ 2 tipi diversi e cheP la proporzione degli oggetti di tipo i nella popolazione sia
pi per i = 1, . . . , k (pi > 0, ki=1 pi = 1). Inoltre, supponiamo che n oggetti siano scelti
a caso dalla popolazione con reimmissione. Sia Xi il numero di oggetti di tipo i estratti,
per i = 1, . . . , k e sia X il vettore aleatorio che ha componenti X1 , . . . , Xk . Allora il vet-
tore aleatorio X è discreto, la somma delle sue componenti è pari al numero di estrazioni
(X1 + · · · + Xk = n) e la sua densità è detta multinomiale di parametri n, p1 , . . . , pk .
4.3. VETTORI ALEATORI DISCRETI 83
Per scrivere esplicitamente la densità, possiamo pensare di estrarre gli elementi dalla
popolazione uno alla volta. Poiché le n scelte sono indipendenti, la probabilità che la
sequenza delle n estrazioni contenga n1 elementi di tipo 1,. . . , nk elementi di tipo k (in un
ordine prefissato) è pn1 1 · · · pnk k . Inoltre, il numero di modi differenti in cui l’ordine degli n
oggetti può essere specificato è pari al numero di partizioni ordinate di classe (n1 , . . . , nk ),
cioè
n n!
:= .
n1 . . . nk n1 ! × n2 ! × · · · × nk !
Segue che la probabilità di ottenere esattamente n1 elementi di tipo 1, . . . , nk elementi di
tipo k è

n
P (X1 = n1 , . . . , Xk = nk ) = pn1 · · · pnk k , n1 , . . . , nk = 0, . . . , n e n1 +· · ·+nk = n
n1 . . . nk 1
Si osservi che per k = 2 X si riduce al vettore (X1 , n − X1 ) e X1 ∼ Bi(n, p1 ).
Se pX è la densità di X allora valgono proprietà analoghe a quelle della densità discreta
unidimensionale (cfr. Proposizione 2.2.4). Per definire queste proprietà penseremo Rn
dotato delle consuete operazioni di somma e prodotto per uno scalare e della seguente
relazione di ordine parziale “≤”: se x, y ∈ Rn , allora x ≤ y se e solo se xk ≤ yk per ogni
k = 1, . . . , n.
Proposizione 4.3.4 Sia pX la densità di un vettore aleatorio n–dimensionale X che as-

sume valori in un insieme al più numerabile S con probabilità 1 (i.e. P (X ∈ S) = 1).
Allora
1. 0 ≤ pX (x) ≤ 1 per ogni x ∈ Rn e pX (x) = 0 per ogni x 6∈ S;
P
2. x∈S pX (x) = 1;
3. se FX è la funzione di ripartizione di X allora

X
FX (x) = pX (y) ∀x ∈ Rn ;
y∈S: y≤x
4. se B ⊂ Rn allora X
P (X ∈ B) = pX (x).
x∈B∩S
Dimostrazione La dimostrazione è analoga a quella della Proposizione 2.2.4 e viene

lasciata per esercizio al lettore.
Un’applicazione particolarmente importante del punto 4. della Proposizione 4.3.4 riguarda
il calcolo delle densità delle componenti Xi del vettore aleatorio discreto X dette densità
marginali. Supponiamo che X = (X1 , . . . , Xn ) sia un vettore aleatorio n–dimensionale a
valori in S con densità pX . Vogliamo calcolare la densità di X1 . A tal fine osserviamo che
pX1 (x1 ) = P (X1 = x1 ) = P (X1 = x1 , X2 ∈ R, . . . , Xn ∈ R) = P (X ∈ B)
dove B := {x1 } × Rn−1 ; quindi

X X
pX1 (x1 ) = pX (x) = pX (x1 , x2 , . . . , xn ).
x∈B∩S x2 ,...,xn
Esercizio 4.3.5 Fornire l’espressione della densità marginale della generica componente
Xi del vettore X.
Esercizio 4.3.6 Fornire l’espressione della densità congiunta delle prime due componenti
X1 e X2 del vettore X.
Alla luce delle definizioni ora introdotte, rienunciamo la Proposizione 4.1.6 nei seguenti
termini:
Proposizione 4.3.7 Le componenti di un vettore aleatorio discreto X = (X1 , . . . , Xn ) so-

no indipendenti se e solo se la densità di X coincide con il prodotto delle densità marginali
pX1 , . . . , pXn di X1 , . . . , Xn , rispettivamente, cioè
pX = pX1 · · · pXn . (4.3.1)
Esempio 4.3.9 (Continuazione dell’Esempio 4.1.1) Il vettore aleatorio (X, Y ) del-

l’Esempio 4.1.1 soddisfa l’equazione (4.3.1).
4.4 Vettori aleatori assolutamente continui

In questa sezione introduciamo l’analogo multidimensionale del concetto di variabile alea-
toria assolutamente continua.
Definizione 4.4.1 (Vettori aleatori assolutamente continui) Un vettore aleatorio X

n–dimensionale è assolutamente continuo se esiste una funzione fX : Rn → R+ integrabile,
tale che la funzione di ripartizione FX di X si può scrivere come
Z x1 Z xn
FX (x) = ... fX (s1 , . . . , sn ) dsn · · · ds1 ∀x = (x1 . . . , xn )
−∞ −∞
fX prende il nome di densità del vettore aleatorio aleatorio assolutamente continuo X (o

densità congiunta di X1 , . . . , Xn ).
Per i vettori aleatori assolutamente continui e le loro densità valgono proprietà analoghe
a quelle delle variabili aleatorie assolutamente continue date nella Proposizione 2.4.4:
Proposizione 4.4.2 Sia fX la densità di un vettore aleatorio n–dimensionale assoluta-

mente continuo X. Allora
4.4. VETTORI ALEATORI ASSOLUTAMENTE CONTINUI 85
1. Z
fX (x1 , . . . , xn ) dx1 · · · dxn = 1.
Rn
2. Se FX è la funzione di ripartizione di X allora

∂ n FX (x)
= fX (x)
∂x1 · · · ∂xn
per tutti gli x ∈ Rn tali che esiste la derivata parziale al primo membro;
3. se B ⊂ Rn è un “dominio regolare” allora
Z
P (X ∈ B) = fX (x1 , . . . , xn ) dx1 · · · dxn
B
Dimostrazione La dimostrazione è analoga a quella della Proposizione 2.4.4 e viene

lasciata come esercizio.
Proposizione 4.4.3 Se fX è la densità di un vettore aleatorio n–dimensionale assolu-

tamente continuo X = (X1 , . . . , Xn ) allora Xi è una variabile aleatoria assolutamente
continua e la sua densità è
Z
fXi (xi ) = fX (s1 , . . . , si−1 , xi , si+1 , . . . , sn ) ds1 · · · dsi−1 dsi+1 · · · dsn .
Rn−1
Dimostrazione Per semplicità di notazioni, consideriamo il caso i = 1. Bisogna dimo-

strare che Z x Z
FX1 (x) = fX (s1 , . . . , sn ) ds2 · · · dsn ds1
−∞ Rn−1
che è vero in quanto, se B := (−∞, x]×Rn−1 , allora per il punto 3. della Proposizione 4.4.2
abbiamo:
Z x Z
fX (s1 , · · · , sn ) ds2 . . . dsn ds1 = P (X ∈ B) =
−∞ Rn−1
= P (X1 ≤ x, X2 ∈ R, . . . , Xn ∈ R) = P (X1 ≤ x) = FX1 (x)
Le densità delle componenti di un vettore assolutamente continuo sono dette densità

marginali.
Esempio 4.4.4 (Densità uniforme sul cerchio) [Tratto da [1] ] Siano (X, Y ) le coor-
dinate di un punto “scelto a caso” nel cerchio C di raggio r: C = {(x, y) ∈ R2 : x2 + y 2 ≤
r 2 }. Questo significa che il vettore aleatorio (X, Y ) è assolutamente continuo con densità
costante su C e nulla al di fuori di C:
(
a (x, y) ∈ C
fX,Y (x, y) =
0 altrove.
Dalla proprietà 1. della Proposizione 4.4.2 segue che il valore della costante a deve essere
tale che Z
a dx dy = 1
C
cioè a è il reciproco dell’area del cerchio C: a = 1/(πr 2). Pertanto, se (X, Y ) è un punto
“scelto a caso” nel cerchio C, allora (X, Y ) è un vettore aleatorio assolutamente continuo
con densità
1
fX,Y (x, y) = 2 1C (x, y) .
πr
Calcoliamo ora le densità marginali fX , fY . Sia x ∈ (−r, r). Allora
q
r 2 − x2
−r 0 x r
q
− r 2 − x2
Z Z √
r 2 −x2
1 1 2 √ 2
fX (x) = 1C (x, y)dy = √
dy = r − x2 .
R πr 2 − r 2 −x2 πr 2 r2π
Se invece x 6∈ (−r, r) allora fX (x) = 0. In definitiva,
2 √
fX (x) = r 2 − x2 1(−r,r) (x) .
r2π
Per motivi di simmetria vale anche che
2 p 2
fY (y) = r − y 2 1(−r,r) (y) .
r2 π
Esercizio 4.4.5 (Continuazione dell’Esempio 4.1.8) Siano S, T i tempi di guasto ri-
spettivamente del primo e del secondo componente introdotti nell’Esempio 4.1.8. Calcolare
la probabilità che il primo componente si guasti prima del secondo.
(S, T ) è un vettore aleatorio bidimensionale a componenti indipendenti e continuo di
densità
fS,T (s, t) = µ2 eµ(s+t) 1(0,+∞)×(0,+∞) (s, t) .
4.5. FUNZIONI DI VETTORI ALEATORI 87
La probabilità richiesta è
P (S < T ) = P ((S, T ) ∈ A)
dove A = {(s, t) ∈ (0, +∞) × (0, +∞) : s < t}. Quindi:
Z Z +∞ Z +∞ Z +∞
2 −µs −µt 1
P (S < T ) = fS,T (s, t) ds dt = µ e e dt ds = µ e−2µs ds = .
A 0 s 0 2
Notiamo che la funzione di densità congiunta del vettore (S, T ) verifica la condizione:
fS,T (s, t) = fS (s)fT (t) per ogni s, t > 0. Questo fatto è comune a tutti i vettori aleatori
assolutamente continui a componenti indipendenti. Si può infatti dimostrare la seguente
proposizione.
Proposizione 4.4.6 Le componenti di un vettore aleatorio assolutamente continuo sono

indipendenti se e solo se ammettono una densità congiunta che può essere scritta come
prodotto delle densità marginali.
4.5 Funzioni di vettori aleatori

Siano X = (X1 , . . . , Xn ) un vettore aleatorio n–dimensionale e g = (g1 , . . . , gm ) : Rn → Rm
una funzione vettoriale. Sia inoltre Y := g(X). Allora Y ha componenti
Y1 = g1 (X1 , . . . , Xn )
Y2 = g2 (X1 , . . . , Xn )
..
.
Ym = gm (X1 , . . . , Xn ) .
Ci chiediamo: Y è un vettore aleatorio?

Come nel caso unidimensionale, se X è vettore assolutamente continuo, allora sono
necessarie alcune ipotesi sulla regolarità di g affinché Y sia vettore aleatorio, per esempio
g continua a tratti.
In questa sezione ci occupiamo di determinare, quando è possibile, la densità di Y
a partire da quella di X. In particolare, determiniamo la densità di somme di variabili
aleatorie, a partire dalla loro densità congiunta. Al solito, trattiamo separatamente le
funzioni di vettori aleatori discreti e assolutamente continui.
4.5.1 Funzioni di vettori aleatori discreti

Sia X un vettore aleatorio discreto con densità pX (x) e P (X ∈ S) = 1, con S al più
numerabile. Consideriamo g : S → Rm e Y := g(X). Y è chiaramente un vettore
aleatorio discreto a valori in g(S) = {y = g(x), x ∈ S}, cioè P (Y ∈ g(S)) = 1.
Per determinare la densità pY di Y osserviamo che per ogni y ∈ Rm :

 
[
pY (y) = P (Y = y) = P (g(X) = y) = P  {X = x}
x∈S: g(x)=y
X X
= P (X = x) = pX (x) .
x∈S: g(x)=y x∈S: g(x)=y
Si noti che se y 6∈ g(S), la somma non contiene termini e si intende pY (y) = 0. Rimane
cosı̀ dimostrata la seguente proposizione.
Proposizione 4.5.1 Sia X un vettore aleatorio discreto con densità pX (x) e P (X ∈
S) = 1 e sia g : S → Rm . Allora Y := g(X) è un vettore aleatorio discreto tale che
P (Y ∈ g(S)) = 1 e la densità di Y è
X
pY (y) = pX (x) (4.5.1)
x∈S: g(x)=y
Somme di variabili aleatorie discrete. In questo paragrafo deriviamo dalla Proposi-

zione 4.5.1 una formula per densità di somme di variabili aleatorie discrete, nota la loro
densità congiunta. Per maggiore semplicità espositiva, studiamo la somma di due varia-
bili aleatorie, X1 + X2 . Il risultato si estende per ricorrenza alla somma di n variabili
X1 + · · · + Xn .
Sia (X1 , X2 ) un vettore aleatorio discreto con densità pX1 ,X2 (x1 , x2 ) e sia Y la variabile
aleatoria somma data da Y = X1 + X2 .
Segue dalla formula (4.5.1) che
X X
pX1 +X2 (y) = pX1 ,X2 (x1 , x2 ) = pX1 ,X2 (y − x2 , x2 ) .
x1 ,x2 : x1 +x2 =y x2
In particolare, se X1 , X2 sono indipendenti allora

X
pX1 +X2 (y) = pX1 (y − x2 )pX2 (x2 ) .
x2
Esempio 4.5.2 (Somma di variabili aleatorie di Poisson indipendenti)

Siano X1 , X2 variabili aleatorie indipendenti con densità di Poisson di parameri λ1 , λ2 ,
rispettivamente (Xi ∼ P(λi ) , i = 1, 2). La loro somma X1 + X2 è una variabile aleatoria
discreta che assume i valori 0, 1, . . . e per ogni k = 0, 1, . . . abbiamo
k
X k
X
P (X1 + X2 = k) = pX1 ,X2 (k − j, j) = pX1 (k − j)pX2 (j)
j=0 j=0
k
X k
−λ1 λ1k−j −λ2 λj2 e−(λ1 +λ2 ) X k k−j j
= e e = λ λ2
j=0
(k − j)! j! k! j=0
j 1
−(λ1 +λ2 ) (λ1 + λ 2 )k

=e .
k!
Quindi X1 + X2 ∼ P(λ1 + λ2 ).
Iterando il procedimento ora visto otteniamo che se X1 , . . . , Xn sono variabili aleatorie
indipendenti con X1 ∼ P(λ1 ), . . . , Xn ∼ P(λn ), allora X1 + · · · + Xn ∼ P(λ1 + · · · + λn ).
Esercizio 4.5.3 (Variabile binomiale come somma di bernoulliane indipendenti)

Siano X1 , . . . , Xn n variabili aleatorie indipendenti con densità di Bernoulli di parametro
p ∈ (0, 1). Dimostrate che X1 + · · · + Xn ∼ Bi(n, p).
Esercizio 4.5.4 Siano X1 , . . . , Xk variabili aleatorie indipendenti con X1 ∼ Bi(n1 , p), . . . ,

Xk ∼ Bin(nk , p), p ∈ (0, 1). Dimostrate che X1 + · · · + Xk ∼ Bi(n1 + · · · + nk , p).
Trasformazioni affini di vettori aleatori discreti Siano A una matrice n × n in-

vertibile, b un vettore colonna di dimensione n (b ∈ Rn ), X un vettore aleatorio discreto
n-dimensionale di densità pX e Y = AX + b. (I vettori X, e di conseguenza Y , qui vanno
intesi come vettori colonna.)
Per calcolare la densità di Y applichiamo (4.5.1) alla trasformazione biunivoca di Rn
in Rn : g(x) = Ax + b con inversa g −1 (y) = A−1 (y − b). Poiché g è biunivoca otteniamo
pY (y) = P (Y = y) = pX (A−1 (y − b)).
4.5.2 Funzioni di vettori aleatori assolutamente continui

Ci occupiamo ora di funzioni di vettori aleatori assolutamente continui. Siano X un
vettore aleatorio n-dimensionale assolutamente continuo con densità fX e Y = g(X),
con g : Rn → Rm . Come sopra accennato e diversamente dal caso di funzioni di vettori
aleatori discreti, non è detto che, applicando una funzione qualsiasi g a un vettore aleatorio
assolutamente continuo X, la funzione g(X) sia ancora un vettore aleatorio. Perché Y
sia un vettore aleatorio, g deve soddisfare opportune condizioni di regolarità, per esempio
g continua a tratti.
Se Y = g(X) è un vettore aleatorio, per calcolare la funzione di ripartizione di Y è
sufficiente osservare che FY (y) = P (Y ≤ y) = P (X) ≤ y) e applicare il punto 3. della
Proposizione 4.4.22 . In questo modo riusciamo a esprimere FY (y) in funzione della densità
di X come:
Z
FY (y) = P (X ∈ A) = fX (x) dx con A := {x : g(x) ≤ y} (4.5.2)
A
Nel prossimo paragrafo useremo l’equazione (4.5.2) per studiare la somma di variabili
aleatorie.
2
Ricordate che “≤” è la seguente relazione di ordine parziale: se x, y ∈ Rm , allora x ≤ y se e solo se
xk ≤ yk per ogni k = 1, . . . , m
Somme di variabili aleatorie: caso di un vettore assolutamente continuo. Sia

(X1 , X2 ) un vettore aleatorio assolutamente continuo con densità fX1 ,X2 . L’equazione (4.5.2)
applicata alla funzione g(x1 , x2 ) = x1 +x2 fornisce per la funzione di ripartizione di X1 +X2 :
Z
FX1 +X2 (y) = fX1 ,X2 (x1 , x2 ) dx1 dx2
{(x1 ,x2 ): x1 +x2 ≤y}
Z ∞ Z y−x1
= fX1 ,X2 (x1 , x2 ) dx1 dx2
Z−∞
y −∞
Z ∞
= fX1 ,X2 (x1 , x2 − x1 ) dx1 dx2
−∞ −∞
Quindi, X1 + X2 è una variabile aleatoria assolutamente continua e ha densità

Z +∞
fX1 +X2 (y) = fX1 ,X2 (x1 , y − x1 ) dx1 .
−∞
Inoltre, se X1 , X2 sono indipendenti allora

Z +∞
fX1 +X2 (y) = fX1 (x1 )fX2 (y − x1 ) dx1 (4.5.3)
−∞
Calcoliamo ora le densità delle somme di alcune variabili aleatorie indipendenti assolu-
tamente continue.
Esempio 4.5.5 (Somme di variabili aleatorie gaussiane indipendenti) Cominciamo

sommando due variabili aleatorie Z1 , Z2 gaussiane indipendenti e a media nulla, cioè
Z1 ∼ N (0, σ12) e Z2 ∼ N (0, σ22). Segue dalla (4.5.3) che
Z +∞ 2 (y−x)2
1 − x2− 2
fZ1 +Z2 (y) = e 1 2σ2 dx
2σ
−∞ 2πσ σ
1 2
y2
Z +∞
1 −
2(σ 2 +σ 2 )
1 (x−ν)2
− 2τ
=p e 1 2 √ e dx
2π(σ12 + σ22 ) −∞ 2πτ
dove
yσ12 σ12 σ22

ν := e τ :=
σ12 + σ22 σ12 + σ22
D’altro canto Z +∞
1 (x−ν)2
√ e− 2τ dx = 1
−∞ 2πτ
Quindi
y2
1 −
2(σ 2 +σ 2 )
fZ1 +Z2 (y) = p e 1 2
2π(σ12 + σ22 )
cioè Z1 + Z2 ∼ N (0, σ12 + σ22 ).

Siano ora X1 , X2 due variabili aleatorie indipendenti con X1 ∼ N (µ1 , σ12 ) e X2 ∼
N (µ2, σ22 ). Allora X1 + X2 ha la stessa densità di (Z1 + Z2 ) + (µ1 + µ2 ), che è trasformazio-
ne lineare della variabile aleatoria gaussiana Z1 + Z2 , come abbiamo appena dimostrato.
Quindi: X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 ).
Iterando il procedimento ora visto otteniamo che se X1 , . . . , Xn sono variabili Pn alea-
2
torie
Pindipendenti
P e gaussiane con Xi ∼ N (µi, σi ), ∀ i = 1, . . . , n, allora i=1 Xi ∼
N ( ni=1 µi , ni=1 σi2 ). In breve: la somma di variabili aleatorie gaussiane indipendenti è
gaussiana di parametri la somma dei parametri.
Esempio 4.5.6 Siano X1 , X2 due variabili aleatorie indipendenti entrambe con densità
esponenziale di parametro µ > 0. Calcoliamo la densità di X1 + X2 .
Applicando (4.5.3) abbiamo:
(R y
0
µe−µu µe−µ(y−u) du = µ2 e−µy y se y > 0
fX1 +X2 (y) =
0 se y ≤ 0 .
Procedendo per induzione su n si può dimostrare che se X1 , . . . , Xn sono variabili aleatorie

indipendenti tali che Xi ∼ E(µ) ∀ i = 1, . . . , n, allora la densità di X1 + · · · + Xn è
µn
fX1 +···+Xn (x) = xn−1 e−µx 1(0,+∞) (x) (4.5.4)
(n − 1)!
Definizione 4.5.7 La densità (4.5.4) è detta densità Gamma di parametri n e µ e scri-

veremo Γ(n, µ).
Concludiamo questa sezione con la seguente proposizione sulle funzioni biunivoche
di vettori aleatori assolutamente continui. Essa è l’analogo della Proposizione 2.6.5 per
funzioni di variabili aleatorie assolutamente continue.
Proposizione 4.5.8 Siano U e V due insiemi aperti di Rn e sia g un’applicazione biunivo-

ca da U su V differenziabile con continuità insieme alla sua inversa g −1 . Sia X un vettore
aleatorio n–dimensionale assolutamente continuo con densità fX e tale che P (X ∈ U) = 1.
Allora Y := g(X) è un vettore aleatorio assolutamente continuo con densità data da

fY (y) = 1V (y)fX [g −1 (y)] det J (g −1 (y)) (4.5.5)
dove J (g −1 (y)) indica la matrice jacobiana associata alla funzione g −1 calcolata in y:

 ∂g−1 ∂g1−1 ∂g1−1

1
∂y1 ∂y2
... ∂yn
 ∂g2−1 ∂g2−1 ∂g2−1 
 ... 
J (g −1 ) = 
 ..
∂y1 ∂y2
..
∂yn 
.. 
 . . ... . 
∂gn
−1
∂gn
−1
∂gn
−1
∂y1 ∂y2
... ∂yn
Esercizio 4.5.9 Dimostrare la precedente Proposizione per il caso di un vettore bidimen-

sionale (X1 , X2 ) per cui U = V = R2 . (Usare l’Equazione 4.5.2).
Esercizio 4.5.10 Il lettore scriva la formula (4.5.5) per n = 1 e la confronti con la formula
(2.6.1) fornita nel caso di variabili aleatorie assolutamente continue.
Esempio 4.5.11 (Trasformazioni affini di vettori aleatori assolutamente continui.)

Siano A una matrice n × n invertibile, b un vettore colonna di Rn , X un vettore aleatorio
(colonna) assolutamente continuo n-dimensionale di densità fX e Y = AX + b.
Per calcolare la densità di Y possiamo applicare (4.5.5) alla trasformazione biunivoca
di Rn in Rn : g(x) = Ax + b con inversa g −1 (y) = A−1 (y − b). Infatti tutte le ipotesi
della Proposizione 4.5.8 sono soddisfatte e la densità fY di Y = AX + b risulta
fY (y) = fX (A−1(y − b))| det(A−1 )| (4.5.6)
Esercizio 4.5.12 Siano X1 , X2 due variabili aleatorie indipendenti e uniformi sull’inter-

vallo (0, 1) e siano Y1 = X1 + X2 e Y2 = X1 − X2 . Verificate che il vettore aleatorio (Y1 , Y2 )
è uniforme sul quadrato di vertici (0, 0), (1, 1), (2, 0), (1, −1).
4.6 *Vettori aleatori indipendenti

Siano X1 , . . . , Xn n variabili aleatorie indipendenti. Fissato m < n, consideriamo due funzioni g : Rm →
Rk , h : Rn−m → Rl tali che W = g(X1 , . . . , Xm ) e Z = h(Xm+1 , . . . , Xn ) sono ancora vettori aleatori.
È facile mostrare che gli eventi esprimibili in termini di W e quelli esprimibili in termini di Z sono
indipendenti in quanto i primi dipendono soltanto da X1 , . . . , Xm e i secondi soltanto da Xm+1 , . . . , Xn
che sono gruppi di variabili tra di loro tutte indipendenti. Per i vettori aleatori W , Z vale quindi che
P (W ∈ A, Z ∈ B) = P (W ∈ A)P (Z ∈ B)
per ogni scelta di domini regolari A ⊂ Rk e B ⊂ Rl .

Alla luce di quanto fin qui detto, appare naturale la seguente definizione di vettori aleatori indipendenti:
Definizione 4.6.1 Siano X1 , . . . , Xn n vettori aleatori definiti sullo stesso spazio di probabilità (Ω, F , P )
di dimensione rispettivamente m1 , . . . , mn . Diciamo che sono indipendenti se
P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P (X1 ∈ B1 ) · · · P (Xn ∈ Bn ) (4.6.1)
per ogni scelta di domini regolari B1 ∈ Rm1 , . . . , Bn ⊂ Rmn .
Per funzioni vettoriali di vettori aleatori indipendenti, si può inoltre dimostrare la seguente proposizione.
Proposizione 4.6.2 Siano X1 , . . . , Xn vettori aleatori indipendenti di dimensione rispettivamente m1 , . . . , mn

e siano g1 , . . . , gn delle funzioni definite da g1 : Rm1 → Rk1 , . . . , gn : Rmn → Rkn . Allora i vettori aleatori
Y1 = g1 (X1 ), . . . , Yn = gn (Xn ) sono indipendenti.
4.7. VALORE ATTESO DI FUNZIONI DI VETTORI ALEATORI 93
4.7 Valore atteso di funzioni di vettori aleatori

Sia X un vettore n–dimensionale, g : Rn → R una funzione a valori reali tale che Y =
g(X) è una variabile aleatoria. Analogamente al caso di funzioni di variabili aleatorie,
possiamo calcolare E(Y ) evitando di determinare esplicitamente la densità di Y . Infatti la
Proposizione 3.1.12 si estende al caso di variabili aleatorie definite come funzioni di vettori
aleatori nel seguente modo:
Proposizione 4.7.1 Sia X un vettore aleatorio discreto che assume P
valori in S e ha den-
n
sità pX . Siano g : R → R e Y := g(X) una variabile aleatoria. Se x∈S |g(x)|pX (x) <
+∞, allora Y ammette valore atteso e
X
E(Y ) = g(x)pX (x). (4.7.1)
x∈S
Sia X un vettore aleatorio assolutamente

R continuo con densità fX , g : Rn → R e Y = g(X)
una variabile aleatoria. Se Rn |g(x1 · · · xn )|fX (x1 , . . . , xn ) dx1 · · · dxn < +∞, allora Y
ammette valore atteso e
Z
E(Y ) = g(x1 · · · xn )fX (x1 , . . . , xn ) dx1 · · · dxn . (4.7.2)
Rn
Due interessanti applicazioni della precedente proposizione riguardano il calcolo di media
e varianza della somma di variabili aleatorie.
Corollario 4.7.2 Siano X1 e X2 variabili aleatorie definite sul medesimo spazio di proba-
bilità e che ammettono media. Allora anche X1 + X2 ammette media e
E(X1 + X2 ) = E(X1 ) + E(X2 ).
Dimostrazione Supponiamo che il vettore aleatorio (X1 , X2 ) sia assolutamente continuo
con densità di probabilità fX1 ,X2 . Dalla disuguagliaza triangolare: |x + y| ≤ |x| + |y|
discende
Z Z Z
|x + y|fX1,X2 (x, y) dx dy ≤ |x|fX1 ,X2 (x, y) dx dy + |y|fX1,X2 (x, y) dx dy
R2Z Z R2 R2
= |x|fX1 (x) dx + |y|fX2 (y) dy < +∞

R R
e quindi X1 + X2 ammette media. Applicando ora la Proposizione 4.7.1 a g(x, y) = x + y

risulta:
Z
E(X1 + X2 ) = (x + y)fX1 ,X2 (x, y) dx dy
2
ZR Z Z Z
= x fX1 ,X2 (x, y) dy dx + y fX1 ,X2 (x, y) dx dy
ZR R
Z R R
= xfX1 (x) dx + yfX2 (y) dy = E(X1 ) + E(X2 ).

R R
La dimostrazione procede analogamente se X1 e X2 sono variabili aleatorie discrete.
Nota 4.7.3 È importante osservare che la media di X1 +X2 dipende soltanto dalle densità
marginali del vettore aleatorio (X1 , X2 ). In generale, la media della somma di n ≥ 2
variabili aleatorie X1 , . . . , Xn è data dalla somma delle n medie:
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ). (4.7.3)
Corollario 4.7.4 Siano X1 e X2 variabili aleatorie indipendenti e che ammettono media.

Allora anche X1 X2 ammette media e
E(X1 X2 ) = E(X1 ) E(X2 ).
Dimostrazione Supponiamo che X1 e X2 siano continue con densità rispettivamente fX1

e fX2 . Allora:
Z Z Z Z
|xy|fX1 (x)fX2 (y) dx dy = |x|fX1 (x) dx · |y|fX2 (y) dy < +∞
R R R R
e E(X1 X2 ) esiste per la Proposizione 4.7.1 applicata alla funzione g(x, y) = xy. Inoltre,
dalla Proposizione 4.7.1 discende che:
Z Z Z Z
E(X1 X2 ) = xyfX1 (x)fX2 (y) dx dy = xfX1 (x) dx · yfX2 (y) dy = E(X1 ) E(X2 ).
R R R R
Nota 4.7.5 Iterando il procedimento nella dimostrazione del Corollario 4.7.4 è immediato
verificare cheQse X1 , . . . , Xn sono n variabili
Qnaleatorie Q
indipendenti che ammettono media
n
allora anche i=1 Xi ammette media e E( i=1 Xi ) = ni=1 E(Xi ).
Occupiamoci ora del problema del calcolo della varianza della somma di variabili aleatorie.
Corollario 4.7.6 Se X1 e X2 hanno varianza (finita), rispettivamente Var(X1 ) e Var(X2 ),

allora anche X1 + X2 ha varianza finita e
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2 E[(X1 − E(X1 ))(X2 − E(X2 ))]. (4.7.4)
Inoltre, se X1 , X2 sono indipendenti allora
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) (4.7.5)
Dimostrazione Poiché ((X1 + X2 ) − E(X1 + X2 ))2 = [(X1 − E(X1 )) + (X2 − E(X2 ))]2 ≤
2[(X1 − E(X1 ))2 + (X2 − E(X2 ))2 ], allora Var(X1 + X2 ) = E[((X1 + X2 ) − E(X1 + X2 ))2 ] =
E[((X1 − E(X1 )) + (X2 − E(X2 )))2 ] ≤ 2[E(X1 − E(X1 ))2 + E(X2 − E(X2 ))2 ] = 2(Var(X1 ) +
Var(X2 )). Quindi se X1 e X2 ammettono varianza, anche X1 + X2 la ammette.
Var(X1 + X2 ) = E[((X1 − E(X1 )) + (X2 − E(X2 )))2 ]

= E[(X1 − E(X1 ))2 + (X2 − E(X2 ))2 + 2(X1 − E(X1 ))(X2 − E(X2 ))]
= E[(X1 − E(X1 ))2 ] + E[(X2 − E(X2 ))2 ] + 2 E[(X1 − E(X1 ))(X2 − E(X2 ))]
4.8. COVARIANZA, COEFFICIENTE DI CORRELAZIONE 95
[dove l’ultima eguaglianza deriva dal Corollario 4.7.2 applicato alla somma delle variabili
(X1 − E(X1 ))2 , (X2 − E(X2 ))2 e (X1 − E(X1 ))(X2 − E(X2 ))]
= Var(X1 ) + Var(X2 ) + 2 E[(X1 − E(X1 ))(X2 − E(X2 ))].

Per completare la dimostrazione, basta notare che se X1 , X2 sono indipendenti, allora,
per la Proposizione 4.6.2, anche X1 − E(X1 ), X2 − E(X2 ) sono indipendenti e E[(X1 −
E(X1 ))(X2 − E(X2 ))] = 0 in virtù del Corollario 4.7.4.
Esercizio 4.7.7 Si dimostri che la varianza della somma di n variabili aleatorie X1 , . . . , Xn

è data da:
n
X n−1 X
X n
Var(X1 + · · · + Xn ) = Var(Xi ) + 2 E[(Xi − E(Xi ))(Xj − E(Xj ))] (4.7.6)
i=1 i=1 j=i+1
Esempio 4.7.8 Sia X ∼ Bi(n, p). Sappiamo dall’Esercizio 4.5.4 che la variabile aleatoria
X ha la stessa densità della somma di n variabili aleatorie –chiamiamole X1 , . . . , Xn –
indipendenti con densità di Bernoulli di parametro p. Allora ritroviamo
n
! n n
X X X
E(X) = E Xi = E(Xi ) = p = np [per il Corollario 4.7.2]
i=1 i=1 i=1
n
! n n
X X X
Var(X) = Var Xi = Var(Xi ) = p(1 − p) = np(1 − p),
i=1 i=1 i=1
dove l’ultima eguaglianza deriva dall’indipendenza fra le X1 , . . . , Xn e dall’equazione (4.7.6).
4.8 Covarianza, Coefficiente di correlazione

Abbiamo visto che se X1 , . . . , Xn sono variabili aleatorie con varianza finita allora:
n
X n−1 X
X n
Var(X1 + · · · + Xn ) = Var(Xi ) + 2 E[(Xi − E(Xi ))(Xj − E(Xj ))]
i=1 i=1 j=i+1
Gli addendi nell’ultima sommatoria sono di per sè rilevanti in probabilità. Quindi intro-
duciamo la seguente
Definizione 4.8.1 Siano X1 , X2 due variabili aleatorie definite sul medesimo spazio di
probabilità e che ammettono varianza. Si definisce covarianza di X1 , X2 il numero
Cov(X1 , X2 ) = E[(X1 − E(X1 ))(X2 − E(X2 ))] .
Se 0 < Var(X1 ), 0 < Var(X2 ), si definisce coefficiente di correlazione di X1 , X2 il numero:
Cov(X1 , X2 )
ρX1 ,X2 = p .
Var(X1 ) Var(X2 )
Osserviamo che la covarianza di X1 e X2 è ben definita per variabili aleatorie X1 , X2 con

varianza finita. Infatti, sappiamo dal Corollario 4.7.6 che se X1 , X2 hanno varianza finita,
anche la varianza di X1 + X2 è finita ed è data da
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2 Cov(X1 , X2 )
Segue che necessariamente anche Cov(X1 , X2 ) è un numero (finito).

Covarianza e coefficiente di correlazione godono delle proprietà elencate nella seguente
proposizione.
Proposizione 4.8.2 Siano X1 , X2 , X3 variabili aleatorie con varianza finita e a, b ∈ R.

Allora
1. Cov(X1 , X2 ) = Cov(X2 , X1 );
2. Cov(aX1 , X2 ) = a Cov(X1 , X2 );
3. Cov(X1 + X2 , X3 ) = Cov(X1 , X3 ) + Cov(X2 , X3 );
4. Cov(X1 , X2 ) = E(X1 X2 ) − E(X1 ) E(X2 );
5. se X1 , X2 sono indipendenti allora Cov(X1 , X2 ) = 0;
6. |ρX1 ,X2 | ≤ 1 e |ρX1 ,X2 | = 1 se e solo se esistono a, b ∈ R tali che P (X2 = aX1 +b) = 1.
Inoltre in tal caso:
Cov(X1 , X2 ) E(X1 ) Cov(X1 , X2 )
a= e b = E(X2 ) − .
Var(X1 ) Var(X1 )
Dimostrazione Le proprietà 1.–5. seguono immediatamente dalle proprietà della media

e la dimostrazione viene lasciata per esercizio al lettore.
La dimostrazione della proprietà 6. è mutuata da [12], pag. 329 e si basa sulle proprietà
della varianza. Siano σ12 , σ22 le varianze di X1 , X2 , rispettivamente. Allora

X1 X2 Var(X1 ) Var(X2 ) X1 X2
0 ≤ Var + = + + 2 Cov ,
σ1 σ2 σ12 σ22 σ1 σ2
σ2 σ2 Cov (X1 , X2 )
= 12 + 22 + 2 [per il punto 2.]
σ1 σ2 σ1 σ2
= 2(1 + ρX1 ,X2 )
da cui otteniamo
ρX1 ,X2 ≥ −1 .
Inoltre,

X1 X2 Var(X1 ) Var(X2 ) Cov (X1 , X2 )
0 ≤ Var − = 2
+ 2
−2 = 2(1 − ρX1 ,X2 )
σ1 σ2 σ1 σ2 σ1 σ2
e quindi
ρX1 ,X2 ≤ 1 .
Per dimostrare la seconda parte della proprietà 6., osserviamo che ρX1 ,X2 = 1 se e solo se
Var (X1 /σ1 − X2 /σ2 ) = 0. Segue quindi dalle proprietà della varianza che

X1 X2 E(X1 ) E(X2 )
ρX1 ,X2 = 1 se e solo se P − = − = 1.
σ1 σ2 σ1 σ2
Inoltre, ρX1 ,X2 = 1 se e solo se Cov(X1 , X2 ) = σ1 σ2 e quindi ρX1 ,X2 = 1 se e solo se
Cov(X1 , X2 )
X2 = E(X2 ) + (X1 − E(X1 ))
σ12
Invece, per ρX1 ,X2 = −1 valgono le seguenti equivalenze che compleano la dimostrazione:
ρX1 ,X2 = −1 se e solo se Cov(X1 , X2 ) = −σ1 σ2 se e solo se Var (X1 /σ1 + X2 /σ2 ) = 0 se e
solo se P (X1 /σ1 + X2 /σ2 = E(X1 )/σ1 + E(X2 )/σ2 ) = 1 se e solo se
Cov(X1 , X2 )
X2 = E(X2 ) + (X1 − E(X1 )) .
σ12
Nota 4.8.3 Il punto 6. della proposizione precedente illustra un noto risultato della teoria
della regressione lineare: esiste un legame di tipo lineare fra le variabili aleatorie X1 e
X2 (cioè X2 = aX1 + b) se e solo se ρ(X1 , X2 ) = ±1, inoltre ρ(X1 , X2 ) = −1 implica
Cov(X1 , X2 ) < 0 e a < 0 mentre ρ(X1 , X2 ) = 1 implica Cov(X1 , X2 ) > 0 e a > 0.
Nota 4.8.4 La proprietà 5. non può essere invertita come mostra il seguente controesem-
pio:
Esempio 4.8.5 Sia X1 una variabile aleatoria discreta con densità uniforme su {−1, 0, 1}
e sia X2 = X12 . Allora E(X1 ) = 0 in quanto X1 è una variabile aleatoria simmetrica e
E(X1 X2 ) = E(X13 ) = (−1)3 /3 + 13 /3 = 0, da cui Cov(X1 , X2 ) = 0. Ma, chiaramente, X1 e
X2 non sono indipendenti.
Esercizio 4.8.6 Dimostrate che Cov(X, a) = 0 e Cov(X + a, Y ) = Cov(X, Y ) per ogni

a ∈ R.
Esercizio 4.8.7 Siano X1 , . . . , Xm e Y1 , . . . , Yn variabili aleatorie che ammettono varianza

e a1 , . . . , am , b1 , . . . , bn ∈ R. Dimostrate che
m n
! m X
n
X X X
Cov ai Xi , bj Yj = ai bj Cov(Xi , Yj ) .
i=1 j=1 i=1 j=1
Esempio* 4.8.8 Da un’urna contenente b biglie bianche e r rosse, si estraggono n biglie senza rimpiazzo
e X rappresenta il numero di biglie bianche pescate. Allora X ha densità ipergeometrica X ∼ Iperg(b +
r, r, n):  b r
 (k)(n−k) k = 0 ∨ (n − r), . . . , b ∧ n
pX (k) = (b+r
n )
0 altrove.
Per calcolare media e varianza di X possiamo procedere analiticamente, calcolando esplicitamente
b∧n b
r
b∧n b
r

X k k n−k 2
X k2 k n−k
E(X) = b+r
e E(X ) = b+r
.
k=0∨(n−r) n k=0∨(n−r) n
Il conto è fattibile, e il lettore appassionato di proprietà dei coefficienti binomiali è invitato ad eseguirlo
come esercizio. Noi daremo qui un procedimento più “probabilistico”.
Supponiamo che le biglie siano estratte sequenzialmente e definiamo le variabili X1 , . . . , Xn come
(
1 se la i–esima biglia è bianca
Xi =
0 se la i–sima biglia è rossa,
ovviamente X = X1 + · · · + Xn . Per calcolare E(X) osserviamo che:
E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ),
quindi ci basterà calcolare E(X1 ), . . . , E(Xn ). Poiché ognuna delle variabili Xi assume solo i valori 0 e 1
(le Xi sono cioè variabili di Bernoulli) abbiamo che E(Xk ) = P (Xk = 1), e ci siamo ricondotti a calcolare
P (Xk = 1). A tal fine pensiamo di numerare le b + r biglie contenute nell’urna in modo tale che le biglie
numerate con i numeri 1, . . . , b siano bianche e quelle numerate con i numeri b + 1, . . . , b + r siano rosse. In
questo senso possiamo pensare ad ogni risultato del nostro esperimento aleatorio di n estrazioni di biglie
dall’urna, come a un punto nello spazio degli eventi elementari
Ω := {(x1 , x2 , . . . , xn ) : xi = 1, . . . , b + r, ∀i = 1, . . . , n, e xi 6= xj se i 6= j} .
Chiaramente ogni sequenza di biglie ha la stessa probabilità di essere estratta, cioè Ω è uno spazio equi-
probabile finito, e le probabilità possono essere calcolate come casi favorevoli su casi possibili. Per i casi
possibili si ha
|Ω| = (b + r)(b + r − 1) · · · · · (b + r − n + 1)
in quanto la prima biglia può essere scelta in b + r modi e, per ogni scelta della prima, la seconda seconda
può essere scelta in b + r − 1 modi etc. Per i casi favorevoli all’evento Xi = 1, osserviamo che questo
si verifica se e solo se l’i–esima biglia pescata è bianca. Quindi fissiamo l’i–esima biglia in b modi, e poi
fissiamo le rimanenti n − 1 biglie in (b + r − 1) · · · · · (b + r − n + 1) modi. In definitiva:
b(b + r − 1)(b + r − 2) · · · · · (b + r − n + 1) b
P (Xi = 1) = = .
(b + r)(b + r − 1) · · · · · (b + r − n + 1) b+r
Segue che E(Xi ) = b/(b + r) per ogni i = 1, . . . , n da cui E(X) = nb/(b + r).
Il risultato P (X1 = 1) = P (X2 = 1) = · · · = P (Xn = 1) è in un certo senso stupefacente; si
potrebbe infatti pensare che poiché l’estrazione dall’urna della prima biglia modifica il contenuto dell’urna,
la probabilità che alla seconda estrazione venga estratta una biglia bianca debba essere necessariamente
differente dalla probabilità di ottenere bianca alla prima estrazione. Cosı̀ non è e il lettore che non si
fidasse della precedente deduzione è invitato a calcolare P (X2 = 1) mediante la formula delle probabilità
totali:
P (X2 = 1) = P (X2 = 1|X1 = 0)P (X1 = 0) + P (X2 = 1|X1 = 1)P (X1 = 1).
Per quanto riguarda la varianza di X osserviamo che

n
X X
Var(X) = Var(X1 + · · · + Xn ) = Var(Xi ) + Cov(Xi , Xj ).
i=1 i6=j
Poiché Xi ∼ Be(b/(b + r)) si ha

b b
Var(Xi ) = 1− .
b+r b+r
Ci rimane ora da calcolare Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi ) E(Xj ) per i 6= j. Poiché Xi Xj 6= 0 se e solo
se Xi = 1 e Xj = 1 e in tal caso Xi Xj = 1, allora E(Xi Xj ) = P (Xi = 1, Xj = 1). Contiamo ora i casi
favorevoli all’evento “l’i–esima e la j–esima biglia sono bianche”. Abbiamo b modi di scegliere l’i–esima
biglia, per ognuno dei quali ne abbiamo b − 1 di scegliere la j–esima. Possiamo disporre le rimanenti
b + r − 2 in (b + r − 2) · · · · · (b + r − n + 1) modi. In definitiva:
b(b − 1)(b + r − 2)(b + r − 3) · · · · · (b + r − n + 1)
P (Xi = 1, Xj = 1) =
(b + r)(b + r − 1) · · · · · (b + r − n + 1)
b(b − 1)
=
(b + r)(b + r − 1)
e
b(b − 1) b2
Cov(Xi , Xj ) = − .
(b + r)(b + r − 1) (b + r)2
Quindi

nb b b(b − 1) b2
Var(X) = 1− + (n2 − n) −
b+r b+r (b + r)(b + r − 1) (b + r)2

nbr n−1
= 1− .
(b + r)2 b+r−1
4.8.1 Matrice di covarianza

Siano X1 , . . . , Xn n variabili aleatorie che ammettono varianza. Per ciascuna coppia
(Xi , Xj ), (i 6= j) calcoliamo la covarianza Cov(Xi , Xj ) e organizziamo tutte le covarianze
in una matrice.
Definizione 4.8.9 Sia X = (X1 , . . . , Xn ) un vettore aleatorio n–dimensionale tale che

siano definite Var(X1 ), . . . , Var(Xn ). Si chiama matrice di covarianza di X la matrice
n × n CX = (cij )i,j=1,...,n il cui elemento di posto (i, j) è cij = Cov(Xi , Xj ).
Proposizione 4.8.10 Sia CX la matrice di covarianza di un vettore aleatorio X. Allora

1. CX è una matrice simmetrica e semidefinita positiva3.
2. Se A = (aij )i,j è una matrice m × n e b è un vettore di dimensione m allora la
matrice di covarianza di Y = AX + b è
CY = ACX AT (4.8.1)
3
Una matrice B n × n è semidefinita positiva se ∀ x ∈ Rn non identicamente nullo xT Bx ≥ 0.
Dimostrazione
1. CX è una matrice simmetrica in quanto cij = Cov(Xi , Xj ) = Cov(Xj , Xi ) = cji.
Sia λ = (λ1 , . . . , λn )T un vettore di Rn . Allora, per i = 1, . . . , m e j = 1, . . . , n:
n Xn n X n
!
X X
λT CX λ = λi λj cij = E λi λj (Xi − E(Xi ))(Xj − E(Xj ))
i=1 j=1 i=1 j=1
n
!
X
=E λi (Xi − E(Xi ))2 ≥0.
i=1
2. Se le componenti di X hanno varianza finita, allora anche le componenti di

Y = AX + b hanno varianza finita e quindi ha senso considerarne la matrice di covarianza
CY . Sia e
cij l’elemento di posto (i, j) di CY . Allora
n n
! n X
n
X X X
cij = Cov(Yi, Yj ) = Cov
e aik Xk + bi , ajl Xl + bj = aik ajl Cov(Xk , Xl )
k=1 l=1 k=1 l=1
T
è l’elemento di posto i, j della matrice ACX A .
Esempio* 4.8.11 (Continuazione dell’Esempio 4.8.8) Sia (X1 , . . . , Xn ) il vettore introdotto nell’E-
sempio 4.8.8. Allora, la matrice di covarianza di (X1 , . . . , Xn ) è
 1 1 1 
1 − b+r−1 − b+r−1 · · · − b+r−1
br − 1 1 1
− b+r−1 1
· · · − b+r−1 
 b+r−1 
C= ·  . 
(b + r)2  .. 
1 1 1
− b+r−1 − b+r−1 − b+r−1 ··· 1
La matrice di covarianza sarà particolarmente utile nella Sezione 4.10 dedicata ai vettori
gaussiani.
4.9 *Funzione generatrice dei momenti

La nozione di funzione generatrice dei momenti che abbiamo visto nel caso di variabili aleatorie può essere
data anche per vettori aleatori n–dimensionali, (X1 , . . . , Xn ).
Definizione 4.9.1 Sia X = (X1 , . . . , Xn ) un vettore aleatorio per il quale esiste un “rettangolo” aperto
di Rn J = J1 × · · · × Jn contenente 0 = (0, . . . , 0) tale che et1 X1 +···+tn Xn ammette media per ogni t =
(t1 , . . . , tn ) in J. Allora la funzione
mX (t) := E(et1 X1 +···+tn Xn )
definita (almeno) per ogni t ∈ I è detta funzione generatrice dei momenti di X.
Da mX si possono ottenere le funzioni generatrici marginali di X1 , . . . , Xn , mX1 , . . .,mXn . Infatti,

mX (t1 , 0, . . . , 0) = E(et1 X1 ) = mX1 (t1 ) e, analogamente, mX (0, . . . , 0, ti , 0, . . . , 0) = E(eti Xi ) = mXi (ti ).
Non enunceremo qui altre proprietà delle funzioni generatrici dei momenti di vettori aleatori. Ricor-
diamo solamente due fondamentali risultati: il primo stabilisce una corrispondenza biunivoca fra funzioni
di ripartizione e funzioni generatrici dei momenti, il secondo caratterizza la nozione di indipendenza tra
variabili aleatorie mediante la funzione generatrice dei momenti.
4.9. *FUNZIONE GENERATRICE DEI MOMENTI 101
Proposizione 4.9.2 Siano X e Y due vettori aleatori che ammettono funzione generatrice dei momenti
mX , mY , rispettivamente e siano FX la funzione di ripartizione di X e FY quella di Y . Allora FX = FY
se e solo se mX = mY .
Proposizione 4.9.3 Sia X = (X1 , . . . , Xn ) un vettore aleatorio che ammette funzione generatrice dei
momenti mX e siano mXi le funzioni generatrici dei momenti marginali. Allora le componenti di X sono
indipendenti se e solo se mX = mX1 . . . mXn .
Esercizio 4.9.4 Siano X, Y due variabili aleatorie indipendenti che hanno funzione generatrice dei mo-
menti mX , mY , rispettivamente. Dimostrate che la somma X +Y ammette anche essa funzione generatrice
dei momenti ed è data da mX+Y (s) = mX (s)mY (s).
4.10 Vettori gaussiani

Le variabili aleatorie gaussiane o normali costituiscono probabilmente la più importante
famiglia di variabili aleatorie che abbiamo incontrato nel corso. La loro importanza risiede
nel fatto che, come vedremo nella Sezione 4.11.2 sul Teorema del limite centrale, la densità
normale è in un certo senso una “densità naturale universale” e può essere osservata in
vari campi delle scienze naturali.
In questa sezione, estendiamo la nozione di variabili aleatorie gaussiane al caso dei
vettori aleatori.
Analogamente al caso undimensionale, iniziamo introducendo la nozione di vettore
normale standard o gaussiano standard multivariato. In quanto segue, i vettori saranno
vettori colonna e “T ” indicherà l’operazione di trasposizione di matrici.
Definizione 4.10.1 Il vettore aleatorio Z = (Z1 , Z2 , . . . , Zn )T è gaussiano standard n–

dimensionale, o n–variato, se le variabili aleatorie Z1 , Z2 , . . . , Zn sono variabili aleatorie
gaussiane standard indipendenti.
Un vettore aleatorio Z = (Z1 , Z2 , . . . , Zn )T gaussiano standard n-dimensionale è quindi
assolutamente continuo ed ha densità
1 − 12 n
P 2
k=1 zk .
fZ (z1 , z2 , . . . , zn ) = n e
(2π) 2
Infatti segue dall’indipendenza delle Z1 , . . . , Zn che

1 2
z1 1 2
zn 1 − 21 n
P 2
fZ (z1 , z2 , . . . , zn ) = fZ1 (z1 ) · · · · · fZn (zn ) = √ e− 2 · · · · · √ e− 2 = n e
k=1 zk .
2π 2π (2π) 2
Nota 4.10.2 Otteniamo facilmente il vettore delle medie e la matrice di covarianza di

un vettore gaussiano standard n-dimensionale Z, osservando che, per definizione, le n
componenti di Z sono indipendenti e gaussiane standard. Quindi il vettore delle medie di
Z è il vettore nullo e la matrice di covarianza di Z è la matrice identità di dimensione n,
I.
Definiamo un vettore aleatorio gaussiano X n-dimensionale come funzione lineare di un
vettore gaussiano standard Z.
Definizione 4.10.3 Un vettore aleatorio n–dimensionale X è gaussiano (o gaussiano n–

dimensionale o normale) se esistono una matrice A n × m, µ ∈ Rn e un vettore gaussiano
standard m–dimensionale Z, tali che X = AZ + µ.
Calcoliamo il vettore delle medie e la matrice di covarianze di X. Se X = AZ + µ con
Z ∼ N (0, I), segue dalla linearità della media che E(X) = A E(Z) + µ = 0 + µ = µ.
Invece, in virtù del punto 2. della Proposizione 4.8.10, la covarianza di X è data da
AIAT = AAT . Notate che AAT è simmetrica e semidefinita positiva, come deve essere
ogni matrice di covarianza.
4.10. VETTORI GAUSSIANI 103
Nota 4.10.4 La Definizione 4.10.3 è estremamente concisa in quanto abbiamo utilizzato

il linguaggio delle matrici. Poiché, alle volte, questa semplicità formale può nasconderne
il significato, riscriviamo quanto detto nella Definizione 4.10.3 utilizzando il linguaggio
delle coordinate: (X1 , X2 , . . . , Xn ) è gaussiano se esistono delle costanti ah k , bh ∈ R, per
h = 1, 2, . . . , n e k = 1, 2, . . . , m tali che
X1 = a1 1 Z1 + a1 2 Z2 + · · · + a1 m Zm + µ1
X2 = a2 1 Z1 + a2 2 Z2 + · · · + a2 m Zm + µ2
..
.
Xn = an 1 Z1 + an 2 Z2 + · · · + an m Zm + µn
dove Z1 , Z2 , . . . , Zm sono variabili aleatorie gaussiane standard indipendenti.
Nota 4.10.5 Osserviamo che nella definizione di vettore aleatorio gaussiano n-dimensionale
nessuna restrizione è posta nella scelta della matrice A e del vettore µ. Per esempio la
matrice A potrebbe avere prima riga nulla, cioè a1 k = 0 ∀k, e seconda riga con componenti
tutte diverse da zero. Se questo è il caso, allora la prima componente X1 è una costante
cioè X1 = µ1 , mentre X2 = a2 1 Z1 + a2 2 Z2 + · · · + a2 m Zm + µ2 è una variabile aleato-
ria assolutamente continua e gaussiana in quanto somma di variabili aleatorie gaussiane
indipendenti (cfr. Esempio 4.5.5).
È quindi chiaro che non sempre un vettore gaussiano n-dimesionale ha densità di pro-
babilità fX su Rn . Altrimenti tutte le sue componenti sarebbero assolutamente continue
come stabilito nella Proposizione 4.4.3.
Tuttavia, in alcuni casi, un vettore gaussiano n-dimensionale X ha densità in Rn .
Consideriamo, per esempio, il caso di una matrice A quadrata, n × n invertibile, Z
gaussiano standard n-dimensionale e X = AZ + µ. Se A è invertibile, il vettore aleatorio
gaussiano X è una trasformazione affine di Rn in sé e segue dall’Esempio 4.5.11 che X è
assolutamente continuo con densità
1 1 1 T
fX (x) = fZ (A−1x − A−1 µ) e− 2 [A (x−µ)] [A (x−µ)] =
−1 −1
= n
| det(A)| (2π) 2 | det(A)|
1 1 T T −1 −1 1 1 T T −1
= n e− 2 (x−µ) (A ) A (x−µ) = n e− 2 (x−µ) (AA ) (x−µ) .
(2π) 2 | det(A)| (2π) 2 | det(A)|
Osservando che det(AAT ) = det(A)2 , otteniamo che la densità di X ∼ N (µ, AAT ) è
1 1 T (AAT )−1 (x−µ)
fX (x) = p n
e− 2 (x−µ) (4.10.1)
(2π) det(AAT )
Notate che la densità (4.10.1) dipende soltanto dal vettore delle medie µ e dalla matrice
di covarianza C := AAT che in questo caso è simmetrica e definita positiva. 4
4
Cioè tale che ∀ x ∈ Rn non identicamente nullo xT Cx > 0.
In realtà questo non è l’unico caso in cui c’è una densità su Rn . Infatti si può dimostrare
il seguente risultato per A non necessariamente quadrata:
Proposizione 4.10.6 Un vettore gaussiano X = AZ + µ ha densità su Rn se e solo se

la matrice di covarianza C = AAT è non singolare. In questo caso la densità è data da
1 1 T
e− 2 (x−µ) C (x−µ) .
−1
fX (x) = p n
(4.10.2)
(2π) det(C)
Nota 4.10.7 Si può dire di più: supponiamo che X sia un vettore aleatorio assolutamente
continuo che ha densità data in (4.10.2) con C matrice simmetrica e definita positiva.
Allora è possibile estrarre la radice di C, cioè esiste una matrice invertibile A tale che
C = AAT . Sia ora Z = A−1 (X − µ). Per calcolare la densità di Z usiamo ancora la
formula nell’equazione (4.5.6) da cui otteniamo
| det(A)| 1 T T −1
fZ (z) = fX (Az + µ)| det(A)| = p n
e− 2 (Az+µ−µ) (AA ) (Az+µ−µ)
(2π) det(AAT )
1 1 T
=p n
e− 2 z z
(2π)
cioè Z è gaussiano standard; inoltre chiaramente X = AZ + µ. Questo ci dice che se
abbiamo un vettore aleatorio n-dimensionale assolutamente continuo con densità (4.10.2),
dove µ ∈ Rn e C è una matrice simmetrica e definita positiva, allora X è un vettore
gaussiano di media µ e matrice di covarianza C.
Nel prossimo esempio, sviluppiamo la densità gaussiana bivariata per esteso.
Esempio 4.10.8 (Densità 2gaussiana bivariata) Sia X = (X1 , X2 ) gaussiano con

ma-
σ1 σ1 2 µ1
trice di covarianza C = con σ12 σ22 > 0 e vettore delle medie µ = . La
σ1 2 σ22 µ2
matrice C è invertibile se e solo se det(C) > 0, cioè

σ12 2
2 2 2 2
det(C) = σ1 σ2 − σ1 2 σ1 2 = σ1 σ2 1 − 2 2 = σ12 σ22 (1 − ρ21 2 ) > 0
σ1 σ2
dove ρ1 2 è il coefficiente di correlazione tra X1 e X2 (quindi ρ21 2 6= 1); inoltre,
2
−1 1 σ2 −σ1 2
C = 2 2
σ1 σ2 (1 − ρ21 2 ) −σ1 2 σ12
e
(x − µ)T C −1 (x − µ) =
2
1 σ2 −σ1 2 x1 − µ1
= 2 2 (x1 − µ1 , x2 − µ2 ) =
σ1 σ2 (1 − ρ21 2 ) −σ1 2 σ12 x2 − µ2
" 2 2 #
1 x1 − µ1 x1 − µ1 x2 − µ2 x2 − µ2
= − 2ρ1 2 + .
1 − ρ21 2 σ1 σ1 σ2 σ2
4.10. VETTORI GAUSSIANI 105
Segue che la densità gaussiana bivariata è

»“ ”2 “ ”“ ” “ ”2 –
x1 −µ1 x1 −µ1 x2 −µ2 x −µ
1 − 1
2(1−ρ2 ) σ1
−2ρ1 2 σ1 σ2
+ 2σ 2
fX1 X2 (x1 , x2 ) = p e 12 2
.
2πσ1 σ2 1− ρ21 2
Concludiamo la sezione fornendo alcune delle principali proprietà dei vettori aleatori
gaussiani.
Proposizione 4.10.9 Sia X = AZ + µ un vettore gaussiano n–dimensionale, e sia C =

AAT la matrice di covarianza di X. Allora valgono le seguenti proprietà.
1. Se cii > 0 allora la componente i-esima Xi è gaussiana con Xi ∼ N (µi, cii ). Se invece
cii = 0, allora P (Xi = µi ) = 1.
2. Se G è una matrice k × n, e h ∈ Rk allora Y := GX + h è gaussiano con vettore
delle medie Gµ + h e matrice di covarianza GCGT .
3. Se X1 , . . . , Xn sono scorrelate allora sono anche indipendenti.
Dimostrazione
1. Per quanto discusso nella Nota 4.10.4, ogni Xi si può esprimere come combinazione
lineare di variabili aleatorie gaussiane indipendenti più una costante. Segue da quanto
svolto nell’Esempio 4.5.5 che anche Xi è gaussiana o costante.
2. GX + h = G(AZ + µ) + h = (GA)Z + (Gµ + h). (Notate che possiamo ottenere

il risultato 1. anche da 2. per particolari scelte di G e h).
3. Dimostriamo questo punto nel caso in cui la matrice di covarianza sia invertibile
e quindi X abbia densità su Rn . Se X1 , . . . , Xn sono scorrelate la matrice di covarianza
C di X è una matrice diagonale e la diagonale è costituita dalle varianze σ12 , . . . , σn2 di
X1 , . . . , Xn . Allora la densità di X è
1 1 T C −1 (x−µ)
fX (x) = p n
e− 2 (x−µ)
(2π) det(C)
1 − 12
Pn
i=1 (
xi −µi 2
)
=p e σi
(2π)n σ12 · · · σn2

Yn
1 x −µ
− 21 ( iσ i )2
= p
2
e i
i=1 2πσ i
Yn
= fXi (xi ),
i=1
e quindi le Xi sono indipendenti.

Esercizio 4.10.10 Sia X = (X1 , . . . , Xn )T un vettore gaussiano con vettore delle medie
µ e matrice di covarianza C. Mostrare che, per ogni scelta di a1 , . . . an numeri reali di
cui almeno uno diverso da 0, a1 X1 + · · · + an Xn è una variabile aleatoria assolutamente
continua gaussiana e determinarne i parametri.
Esercizio 4.10.11 Sia X = (X1 , . . . , Xn )T un vettore gaussiano con vettore delle medie µ
e matrice di covarianza C. Usando la proprietà 2. della Proposizione 4.10.9, mostrare che
ogni vettore aleatorio (Xi , Xj ) (i 6= j) estratto da X è un vettore gaussiano bidimensionale
e determinarne i parametri.
Esercizio 4.10.12 Sia X = (X1 , . . . , Xn )T un vettore gaussiano con vettore delle medie
µ e matrice di covarianza C. Mostrare che se Xi , Xj sono scorrelate, allora sono anche
indipendenti.
4.11 Teoremi limite per somme di variabili aleatorie

4.11.1 Legge dei grandi numeri
Lanciamo un numero elevato n di volte una moneta (cioè consideriamo un esperimento
ripetibile infinite volte) e consideriamo la frequenza relativa di testa negli n lanci:
X1 + · · · + Xn
n
dove Xi vale 1 se il risultato della i–esima prova è testa, 0 altrimenti. Se la moneta non è
truccata ci aspettiamo che, salvo in casi eccezionali, questa frequenza sia sempre più vicina
ad 1/2, al crescere di n. Tale risultato è confermato dalla “Legge dei grandi numeri”. Si
parla di Legge debole dei grandi numeri e di Legge forte dei grandi numeri. La prima è
una conseguenza immediata della diseguaglianza di Chebychev:
Proposizione 4.11.1 (Legge debole dei grandi numeri) Sia X1 , X2 , . . . una succes-
sione di variabili aleatorie indipendenti ed identicamente distribuite (i.i.d.) con media µ e
varianza σ 2 finite. Sia Sn = X1 + · · · + Xn . Allora, per ogni > 0

Sn

lim P − µ > = 0.
n→∞ n
Dimostrazione Poiché le Xi sono i.i.d. allora
Var(Sn ) = n Var(X1 ) = nσ 2
da cui
Sn 1 2 σ2
Var( ) = 2 nσ =
n n n
4.11. TEOREMI LIMITE PER SOMME DI VARIABILI ALEATORIE 107
Sn
E( ) = µ.
n
Segue dalla diseguaglianza di Chebychev che per ogni > 0

Sn σ2
P
− µ > ≤ 2 → 0 (n → +∞)
n n
Date n variabili aleatorie X1 , . . . , Xn si chiama media campionaria di X1 , . . . , Xn la quan-

tità (X1 + · · · + Xn )/n e la si indica
con
X̄n . Equivalentemente, la Legge debole dei grandi

numeri afferma che P X̄n − µ ≤ → 1 per n → +∞; quindi, essa mette in evidenza
che, pur partendo da un esperimento aleatorio costituito da prove ripetute del quale poco
si può predire ad ogni prova (le prove sono indipendenti), facendo le medie di tali prove si
ottiene un esperimento il cui risultato può essere predetto con un elevato grado di certezza.
In realtà vale un risultato “più forte” la cui dimostrazione è più laboriosa.
Proposizione 4.11.2 Sia X1 , X2 , . . . una successione di variabili aleatorie i.i.d. con media
finita µ. Allora
Sn (ω)
P ({ω : lim = µ}) = 1.
n→+∞ n
In pratica la legge forte applicata all’esempio dei lanci di una moneta dice che per “quasi
tutte” le successioni di risultati X1 , X2 , . . . la frequenza relativa di testa Sn /n converge al
trucco p della moneta.
Esempio 4.11.3 (Metodo di integrazione Monte Carlo) Sia h una funzione conti-
R1
nua su [0, 1]. Vogliamo calcolare in modo approssimato 0 h(x) dx. Esistono molte formule
di quadratura, ma la tecnica Monte Carlo è una delle più semplici. Inoltre, anche se può
non risultare il miglior metodo per funzioni su [0, 1], si estende facilmente e diventa com-
petitiva nel caso di integrali multidimensionali. Infatti, nei metodi numerici “tradizionali”,
l’errore di approssimazione dipende dalla dimensione, mentre ciò non accade nel caso del
metodo Monte Carlo. I generatori di numeri casuali in ogni libreria di sistema producono
valori le cui proprietà si avvicinano alle realizzazioni di variabili aleatorie i.i.d. con densità
uniforme su (0,1) e rendono implementabile il metodo Monte Carlo basato sul seguente
corollario alla Legge forte dei grandi numeri:
R1
Corollario 4.11.4 Sia h una funzione su [0, 1] con 0 |h(x)| dx < +∞. Siano U1 , U2 , . . .
variabili aleatorie i.i.d. con densità uniforme su [0, 1]. Allora
n Z 1 !
1X
P I1n := h(Uj ) → h(x) dx, n → +∞ = 1
n j=1 0
Dimostrazione È sufficiente osservare che le variabili aleatorie h(U1 ), h(U2 ), . . . sono i.i.d.
R1
con media finita 0 h(x) dx ed applicare la Legge forte dei grandi numeri.
R1
Il metodo Monte Carlo consiste nell’approssimare 0 h(x) dx con I1n per n “grande”.. Per
ogni n fissato, la bontà dell’approssimazione può essere valutata tramite
n
! R1 R1
1X h 2
(x) dx − ( h(x) dx)2
Var(I1n ) = Var h(Uj ) = 0 0
.
n j=1 n
Al fine di ridurre la varianza, il metodo delle “variabili antitetiche” approssima il valore

dell’integrale mediante
n
1 X
I2n := (h(Ui ) + h(1 − Ui )).
2n i=1
Esercizio 4.11.5 1. Mostrare che

Z 1
P lim I2n = h(x) dx = 1.
n→+∞ 0
2. Calcolare Var(I2n ).
3. Dedurre che Var(I2n ) ≤ Var(I1n ).
4.11.2 Teorema centrale del limite

Consideriamo n variabili aleatorie X1 , . . . , Xn i.i.d. con media µ e varianza σ 2 , entrambe
finite. Abbiamo visto nella precedente sezione che per n “grande”, la media campionaria
X̄n approssima in un opportuno senso la media µ:
X̄n ' µ.
2

Se inoltre X1 , . . . , Xn sono gaussiane, allora è immediato verificare che X̄n ∼ N µ, σn ,
e quindi siamo in grado di valutare probabilisticamente la “dispersione” dei valori assunti
da X̄n intorno a µ: ad esempio, osservando che
√
n(X̄n − µ)
∼ N (0, 1),
σ
otteniamo
√ √ √
n n n
P |X̄n − µ| ≤ δ = Φ δ −Φ − δ = 2Φ δ −1
σ σ σ
che si calcola usando le tavole della ripartizione gaussiana standard.
In questa sezione presenteremo una versione semplice del Teorema centrale del limite (o
Teorema del limite centrale) il cui significato euristico è il seguente: la media campionaria
di un numero n, sufficientemente grande, di variabili aleatorie i.i.d., di media µ e varianza
σ 2 finite ha una funzione di ripartizione che è approssimativamente gaussiana di media µ
e varianza σ 2 /n.
4.11. TEOREMI LIMITE PER SOMME DI VARIABILI ALEATORIE 109
Teorema 4.11.6 Sia X1 , X2 , . . . una successione di variabili aleatorie i.i.d. con media µ
e varianza σ 2 , con 0 < σ 2 < +∞. Allora per ogni x ∈ R:
√ Z x
n(X̄n − µ) 1 −u2
lim P ≤x = √ e 2 du = Φ(x). (4.11.1)
n→+∞ σ −∞ 2π
Il teorema può essere interpretato nel modo seguente: pur √ di prendere un numero elevato
di variabili nella successione, la funzione di ripartizione di n(X̄n − µ)/σ, cioè della stan-
dardizzata della media campionaria X̄n , è approssimabile con quella gaussiana standard.
Quindi, per quanto visto sulle standardizzate di variabili aleatorie gaussiane, approssima-
tivamente X̄n ha funzione di ripartizione gaussiana di media µ e varianza σ 2 /n. La bontà
dell’approssimazione dipende dal numero di variabili aleatorie sommate e dalla forma della
funzione di ripartizione delle variabili aleatorie di cui si fa la media.
Equivalentemente, l’enunciato del teorema centrale del limite può essere dato in termini
di somme di variabili aleatorie i.i.d.. Infatti
√ √
√ n( n(X̄n − µ)) Sn − nµ
n(X̄n − µ)/σ = √ = √
nσ nσ
cioè la stardardizzata di X̄n coincide con quella di Sn . Quindi, sotto le ipotesi del teorema
centrale del limite:
Z x
Sn − nµ 1 −u2
lim P √ ≤x = √ e 2 du = Φ(x).
n→+∞ nσ −∞ 2π
Poiché diverse variabili aleatorie di uso comune si possono rappresentare come somma di
numerose variabili i.i.d., allora il teorema centrale del limite può essere usato per appros-
simare le vere funzioni di ripartizione di queste variabili. Ad esempio, gli errori di misura
si possono rappresentare come somma di un numero elevato di singoli termini (errori ele-
mentari), ciascuno dei quali è dovuto ad una causa, non dipendente dalle altre. Quali
che siano le funzioni di ripartizione degli errori elementari, le peculiarità di queste non si
manifestano nella somma di un gran numero di termini e la funzione di ripartizione della
somma è vicina alla funzione di ripartizione gaussiana.
Seguono alcuni esempi di applicazione del teorema centrale del limite.
Esempio 4.11.7 Nel Capitolo 3 abbiamo discusso la possibilità di approssimare la fun-

zione di ripartizione binomiale con quella gaussiana, sulla base del Teorema 3.6.1 di De
Moivre Laplace. Effettivamente, il Teorema 3.6.1 di De Moivre Laplace è un caso parti-
colare del teorema centrale del limite. In realtà esso rappresenta una prima versione del
teorema centrale del limite. Infatti, una variabile aleatoria binomiale Bi(n, p) ha la stessa
densità della somma di n variabili aleatorie i.i.d.di Bernoulli di parametro p ∈ (0, 1).
Rimandiamo all’Esempio 3.6.4 per la discussione sulla bontà della approssimazione.
Invece, per quanto concerne la correzione di continuità, può essere utile ricordare qui come
si apporta nel caso di una somma di variabili aleatorie indipendenti a valori interi (ma non
necessariamente bernoulliane).
Se X1 , . . . , Xn sono variabili aleatorie

Pn i.i.d. discrete e a valori interi con comune media
2
µ e comune varianza σ > 0, Sn = j=1 Xj ed n è grande, la correzione di continuità si
apporta nel seguente modo:

r + 0.5 − nµ
P (Sn ≤ r) ' Φ √ ,
nσ 2
per ogni r intero.
Esempio 4.11.8 Sia X una variabile aleatoria di Poisson di parametro λ = 100. Calcolare
un valore approssimato di P (X < 110).
La variabile aleatoria X ∼ P(100) ha la stessa densità della somma di 100 variabili
aleatorie Y1 , . . . , Y100 i.i.d.∼ P(1); queste variabili aleatorie sono discrete a valori interi e
hanno media e varianza pari a 1. Quindi, per il teorema centrale del limite, la fdr P(100)
si può approssimare con la fdr N (100, 100). Inoltre, l’approssimazione è migliore con la
correzione di continuità. In particolare:
100
!
X
P (X < 110) = P (X ≤ 109) = P Yj ≤ 109 =
j=1
100
!
X
=P Yj ≤ 109.5 =
j=1
P100 !
j=1 Yj − 100 109.5 − 100 109.5 − 100
P ≤ 'Φ ' 0.8289
10 10 10
Senza la correzione di continuità, un valore approssimato di P (X < 110) è dato da

Φ ((109 − 100)/10) ' 0.8159. (Il valore esatto di P (X < 110) è 0.82944.)
Esempio 4.11.9 P Siano U1 , . . . , U147 variabili aleatorie indipendenti e uniformi sull’inter-

vallo (0, 2) e S = 147 j=1 Uj . Calcolare un valore approssimato di P (S < 161).
In quanto somma di variabili aleatorie i.i.d. assolutamente continue, anche S è assolu-
tamente continua da cui P (S < 161) = P (S ≤ 161). Inoltre E(S) = 147 × E(U1 ) = 147
e Var(S) = 147 Var(U1 ) = 147/3 √ = 49. Per il teorema centrale del limite, la funzione
di ripartizione di√ (S − E(S))/ Var S converge a Φ. Quindi, P (S < 161) = FS (161) '
Φ (161 − 147)/ 49 = Φ(2) ' 0.9772. (Qui non serve la correzione di continuità perché
S è già continua...)
Appendice A
Richiami di analisi matematica
La presente appendice ha il solo scopo di richiamare alcune nozioni di teoria degli insiemi,
algebra lineare e analisi. Per le dimostrazioni si rimanda a [10, Volumi 1 e 2].
A.1 Richiami di teoria degli insiemi

Dato un insieme Ω siano A, B e C sottoinsiemi di Ω; ∅ rappresenta l’insieme vuoto.
Definizione A.1.1 Ac : L’insieme complementare di A (rispetto a Ω) è l’insieme di tutti

gli elementi che sono in Ω ma non in A;
Vale che (Ac )c = A: il complementare del complementare di A è A;
A ∪ B : L’ unione di A e B è l’insieme degli elementi che appartengono o ad A o a B o

ad entrambi;
A ∩ B : L’ intersezione di A e B è l’insieme degli elementi che appartengono sia ad A che

a B;
A \ B = A ∩ B c : La differenza di B da A è l’insieme degli elementi di A che non

appartengono a B;
A 4 B = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B) : La differenza simmetrica di A e B è
l’insieme costituito dagli elementi di A che non appartengono a B e da quelli di B
che non appartengono ad A. Cioè l’insieme degli elementi che appartengono ad A o
a B ma non ad entrambi.
Le operazioni insiemistiche di unione, intersezione e complemento godono delle proprietà
elencate in Tabella A.1:
A-1
A-2 APPENDICE A. RICHIAMI DI ANALISI MATEMATICA
Proprietà unione intersezione

commutativa A∪B =B∪A A∩B = B∩A
associativa A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C
distributiva A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
di inclusione A ⊆ B se e solo se A ∪ B = B A ⊆ B se e solo se A ∩ B = A
A∪Ω=Ω A∩Ω= A
A∪∅=A A∩∅ =∅
A∪A=A A∩A= A
A ∪ Ac = Ω A ∩ Ac = ∅
Leggi di De Morgan (A ∪ B)c = Ac ∩ B c (A ∩ B)c = Ac ∪ B c
Tabella A.1: Alcune proprietà di unione, intersezione e complemento
A.2 Alcuni limiti notevoli

Il numero e limx→+∞ (1 + λx )x = eλ ∀λ ∈ R
A.3 Calcolo integrale

A.3.1 Proprietà dell’integrale
1. Linearità dell’operatore integrale Siano f e g due funzioni definite R su [a, b] ed ivi
integrabili.
R Allora
R cf + g è integrabile su [a, b] per ogni c ∈ R e (cf (x) + g(x))dx =
c f (x)dx + g(x)dx.
2. Monotonia Siano f e g dueR funzioni definite

R su [a, b] ed ivi integrabili. Se f (x) ≤ g(x)
per ogni x ∈ [a, b], allora f (x)dx ≤ g(x)dx.
3. Se Rf (x) è una funzione

Ra pari (f (x) = f (−x) ∀x ≥ 0) integrabile su [−a, a], allora
a
−a
f (x)dx = 2 0 f (x)dx.
5. Se Rf (x) è una funzione dispari (f (x) = −f (−x) ∀x ≥ 0) integrabile su [−a, a], allora
a
−a
f (x)dx = 0;
Rb
6. Se a = b allora a
f (x)dx = 0.
A.3.2 Regole di integrazione

Integrazione per parti
Z b Z b
0
f (x)g (x)dx = f (b)g(b) − f (a)g(a) − f 0 (x)g(x)dx
a a
A.3. CALCOLO INTEGRALE A-3
f è detto fattore finito e g 0(x)dx fattore differenziale. Per brevità spesso si usa f (x)g(x)]ba =
f (b)g(b) − f (a)g(a)
Integrazione per sostituzione Se f (x) è una funzione continua su [a, b] e ϕ(x) è una
funzione continua, derivabile con continuità e invertibile, allora
Z d Z ϕ−1 (d)
f (x)dx = f (ϕ(x))ϕ0 (x)dx
c ϕ−1 (c)
per ogni a ≤ c < d ≤ b
A.3.3 Alcuni integrali immediati

Utilizzando il metodo di integrazione per parti o per sostituzione si verifichi che:
Z b
dx = b − a ∀ − ∞ < a < b < +∞ (A.3.1)
a
Z b
1
e−λx dx = (e−λa − e−λb ) ∀a < b < +∞ e λ 6= 0 (A.3.2)
a λ
Z +∞
1
in particolare, se λ > 0, allora e−λx dx =
0 λ
Z b
e−λa 1 e−λb 1
xe−λx dx = (a + ) − (b + ) ∀λ>0 (A.3.3)
a λ λ λ λ
R +∞
in particolare 0 xe−λx dx = λ12
Z +∞
2
x2 e−λx dx = ∀λ>0 (A.3.4)
0 λ3
Z b
1
2
dx = arctan(b) − arctan(a) (A.3.5)
a (1 + x )
R +∞ 1
in particolare −∞ (1+x 2 ) dx = 1
Z +∞
1 −x2
√ xe 2 dx = 0 (NB: la funzione integranda è dispari)
−∞ 2π
(A.3.6)
Z +∞ Z +∞
1 x2 1 x2
√ x2 e− 2 dx = 2 √ x2 e− 2 dx = 1 (A.3.7)
−∞ 2π 0 2π
Dimostriamo ora che Z +∞
1 x2
√ e− 2 dx = 1 (A.3.8)
−∞ 2π
Si osservi che è equivalente verificare che

Z +∞ 1 x2
2
√ e− 2 dx = 1
−∞ 2π
Procediamo nel seguente modo:
Z +∞ 1 2 2 Z +∞ Z +∞ 1 x2 +y2
− x2
√ e dx = e− 2 dxdy
−∞ 2π −∞ −∞ 2π
e in coordinate polari (x = ρ cos(θ), y = ρ sin(θ))

Z +∞ Z 2π
1 − ρ2
= e 2 ρdθdρ
0 0 2π
Z +∞ Z 2π
2
− ρ2 1
= e ρ dθ dρ
0 0 2π
2 +∞
− ρ2
= −e =1
0
A.4 Successioni e serie

Somma dei primi numeri naturali e dei loro quadrati
n
X n
X
n(n + 1) n(n + 1)(2n + 1)
j= j2 =
j=1
2 j=1
6
Serie telescopiche, Serie di Mengoli

∞
X n
X
Serie telescopica: (ak − ak+1 ) = lim (ak − ak+1 ) = lim (a0 − an+1 )
n→+∞ n→+∞
k=0 k=0
X∞ ∞
X
1 1 1 1
Serie di Mengoli: = − = lim (1 − )=1
k=1
n(n + 1) k=0 n n + 1 n→+∞ n+1
Serie geometrica Si ha
n
X 1 − q n+1
qj q 6= 1
j=0
1−q
da cui derivano per la serie geometrica di ragione q ∈ (0, 1) i seguenti risultati:


1
+∞
X = 1−q
 se |q| < 1
q j = +∞ se q ≥ 1


j=0
indeterminata altrimenti
A.4. SUCCESSIONI E SERIE A-5
Serie esponenziale
+∞ n
X x
= ex ∀x∈R
n=0
n!
Derivazione e serie
P+∞
Teorema A.4.1 Consideriamo la serie di funzioni n=1 fn (x) e supponiamo che per
ogni
P+∞ n ≥ 1 la funzione fn sia derivabile sull’intervallo
P+∞ 0 aperto (a, b), con derivata f 0 . Se
Pf+∞
n=1 n (x) converge in (a, b) e la serie n=1 fn (x) converge uniformemente su (a, b), al-
lora n=1 fn (x) e derivabile su (a, b) e la derivata della serie coincide con la serie delle
derivate.
P
Esempio A.4.2 Calcoliamo il valore delle serie +∞ x=1 x(1 − p)
x−1
per p ∈ (0, 1)
∞
X X∞ X∞
x−1 d x d
x(1 − p) = (−1)(1 − p) = (−1) (1 − p)x
x=1 x=1
dp dp x=1

d 1 1
=− −1 = 2
dp 1 − (1 − p) p
Appendice B
Calcolo combinatorio
B.1 Introduzione
Il calcolo combinatorio è costituito da una serie di tecniche che consentono di contare il
numero di elementi di un dato insieme senza enumerarli esplicitamente. L’importanza che
le tecniche di calcolo combinatorio hanno per il calcolo delle probabilità risiede nel fatto
che nel caso di spazi equiprobabili finiti, il problema di calcolare la probabilità di un dato
evento viene ridotto al conteggio dei modi in cui si può verificare l’evento.
B.2 Disposizioni e permutazioni

Sia E un insieme finito o collezione di oggetti e |E| la cardinalità di E. Supponiamo che
|E| > 0.
Definizione B.2.1 Si chiamano disposizioni senza ripetizione (o semplici) di E di classe

(o ordine) r ≤ |E| le r–uple ordinate di elementi di E senza ripetizioni. In particolare, le
disposizioni senza ripetizione di ordine |E| sono dette permutazioni.
Si chiamano disposizioni con ripetizione di E di classe r, con r ∈ N, le stringhe di r
elementi di E.
La definizione dice che le disposizioni semplici di classe r ≤ |E| sono
{(a1 , . . . , ar ) : ak ∈ E, ah 6= ak ∀ h 6= k, h, k = 1, . . . , r} ,
mentre le disposizioni con ripetizione di classe r ∈ N di E sono
{(a1 , . . . , ar ) : ak ∈ E, k = 1, . . . , r} .
Esempio B.2.2 Sia E = {a, b, c}, allora |E| = 3 e:
1. le disposizioni senza ripetizione di classe 2 di E sono (a, b), (a, c), (b, a), (b, c), (c, a),
(c, b);
B-7
B-8 APPENDICE B. CALCOLO COMBINATORIO
2. le disposizioni con ripetizione di classe 2 di E sono (a, a), (a, b), (a, c), (b, a), (b, b),
(b, c), (c, a), (c, b), (c, c);
3. le permutazioni (o disposizioni senza ripetizione di classe 3) di E sono (a, b, c), (a, c, b),
(b, a, c), (b, c, a), (c, a, b) e (c, b, a).
Nell’esempio B.2.2 possiamo contare direttamente quante sono le disposizioni di un dato

ordine semplicemente elencandole. Le cose invece si complicano se aumenta la cardinalità
dell’insieme.
Esempio B.2.3 Elencare tutte le disposizioni con o senza ripetizione di ordine 4 e tutte
le permutazioni di E = {a, b, c, d, e}.
Da qui la necessità di contare senza elencare. Per le disposizioni semplici vale la seguente
proposizione:
Proposizione B.2.4 Il numero (n)r di disposizioni senza ripetizione di ordine r ≤ n di

un insieme di n elementi è dato da
(n)r = n(n − 1) · · · (n − r + 1).
Dimostrazione Per elencare le disposizioni semplici, possiamo procedere nel seguente

modo: la prima posizione della stringa può essere occupata da uno qualsiasi degli n elementi
disponibili. Per ogni scelta della prima posizione, rimangono n − 1 elementi diversi fra cui
scegliere per la seconda (perché non posso scegliere lo stesso elemento). Mentre, per il terzo
elemento abbiamo n − 2 scelte per ognuna delle n(n − 1)1 scelte delle prime 2 posizioni e
cosı̀ via. Infine, fissata una fra le n(n − 1) · · · (n − (r − 2)) possibili scelte per le prime r − 1
posizioni, per l’r-esimo elemento abbiamo soltanto n − r + 1 scelte. In totale otteniamo
n(n − 1)(n − 2) · · · (n − r + 1) possibili scelte.
Dalla proposizione precedente (prendendo n = r) discende direttamente:
Corollario B.2.5 Il numero P (n) di permutazioni di un insieme di n elementi è dato da:
P (n) = n(n − 1) · · · 2 · 1.
Risulta comoda la seguente notazione:
Definizione B.2.6 Se n ∈ N indichiamo con il simbolo n!, ( fattoriale) il numero:
n! := n(n − 1) · · · 2 · 1;
poniamo inoltre 0! := 1.
1
È ovvio che se il primo elemento può essere scelto in n modi ed il secondo può essere scelto in n − 1
modi per ciascuno dei modi con il quale scelgo il primo, ottengo n(n − 1) modi di scegliere primo e secondo
elemento.
B.3. COMBINAZIONI B-9
Con la precedente definizione otteniamo:

n!
(n)r = e P (n) = n!
(n − r)!
Per quanto riguarda le disposizioni con ripetizione la cosa è ancora più semplice:
Proposizione B.2.7 Le disposizioni con ripetizione di ordine r di un insieme di n ele-

menti son nr .
Esempio B.2.8 Dimostrare la Proposizione B.2.7.
B.3 Combinazioni
Definizione B.3.1 Sia E un insieme finito. Ogni sottoinsieme di E di cardinalità r ≤ |E|
è detto combinazione di classe r di E.
La definzione afferma che le combinazioni di un insieme E sono
{F : F ⊂ E}.
Esempio B.3.2 Se E = {a, b, c}, allora
1. le combinazioni di E di classe 2 sono {a, b}, {a, c}, {b, c};
2. la combinazione di E di classe 3 è {a, b, c} = E.
Per contare il numero di combinazioni di classe r di n elementi, basta osservare che ogni
fissata combinazione dà luogo a r! disposizioni semplici di classe r. Quindi se C(n, r) indica
il numero di combinazioni di classe r di un insieme di n elementi, allora

n! n
(n)r = r!C(n, r) da cui C(n, r) = =
r!(n − r)! r

Il simbolo nr è detto coefficiente binomiale e si legge n sopra r. Abbiamo dimostrato che:
Proposizione B.3.3 Il numero di combinazioni di classe r di n elementi è

n
C(n, r) =
r
Esempio B.3.4

8 8! 8·7 5 5! 5!
= = = 28 = = = 1.
2 2!6! 2·1 0 0!5! 1 · 5!
Esempio B.3.5 In quanti modi si possono estrarre 10 carte da un mazzo di 40?
Dato un insieme E costituito dalle 40 carte, ogni presa di 10 carte corrisponde a un
sottoinsieme di cardinalità 10, quindi il numero cercato è 40
10
= 847660528.
B-10 APPENDICE B. CALCOLO COMBINATORIO
B.4 Esercizi
Esercizio B.4.1 Dimostrare che n
X n
= 2n
k=0
k
senza usare la formula del binomio di Newton.
Esercizio B.4.2 Verificare che

n n
= .
r n−r
Esercizio B.4.3 In quanti modi 7 persone possono disporsi
(a) su 7 sedie allineate?
(b) Attorno ad un tavolo circolare?
Soluzione
(a) Sono i modi di ordinare 7 oggetti (permutazioni), cioè 7!.
(b) Se consideriamo i posti intorno al tavolo numerati, allora si hanno 7! modi di seder-
si. Se però consideriamo che la posizione relativa delle persone rispetto al tavolo è
ininfluente, cioè consideriamo due configurazioni equivalenti se si ottengono median-
te una rotazione “rigida” attorno al tavolo, si vede che il numero di configurazioni
possibili diventano: 7!/7 = 6!.
Esercizio B.4.4 Quante parole di lunghezza ≤ 10 si possono formare con un alfabeto

binario.
Soluzione Con un alfabeto binario si possono formare 2 parole di lunghezza 1, 2 × 2 = 22
parole di lunghezza 2, . . . , 2n parole di lunghezza n (cfr. Proposizione B.2.7). In definitiva
ci sono
211 − 1
2 + 22 + · · · + 210 = − 1 = 2(210 − 1) = 2046.
2−1
parole di lunghezza minore od uguale a 10.
Esercizio B.4.5 Le tessere del domino sono marcate con 2 numeri. Le tessere sono sim-
metriche (cioè le coppie non sono ordinate). Quante sono le tessere che si ottengono
utilizzando i numeri 1, . . . , n?

Soluzione Le tessere del domino con i due numeri differenti sono n2 ; quelle in cui i due
numeri sono uguali sono n, in totale sono n2 + n.
Bibliografia
[1] Baldi, P. (1998) Calcolo delle probabilità e statistica, Mc Graw Hill Italia.
[2] Baldi, P. Giuliano R., Ladelli, L. (1995) Laboratorio di Statistica e Probabilità, problemi
svolti, Mc Graw Hill Italia.
[3] Bramanti, M. (1998) Calcolo delle probabilità e statistica, Progetto Leonardo Bologna.
[4] Dachuna-Castelle, D. (1998) La scienza del caso, Edizioni Dedalo, Bari.
[5] Dall’Aglio, G. (1987) Calcolo delle Probabilità, Zanichelli, Bologna.
[6] Feller, W. (1950) An Introduction to Probability Theory and Its Applications, volume 1.
John Wiley & Sons.
[7] de Finetti, B. (1970). Teoria delle probabilità. Vol. 1. Einaudi, Torino. (Disponibile
nella versione inglese Theory of probability, Wiley, New York.)
[8] Gnedenko, B.D. (1968) The Theory of Probability, Chelsea.
[9] Hsu, H. Probabilità, variabili casuali e processi stocastici, Schaum’s n. 93. Mc Graw
Hill Italia, 1998.
[10] Pagani, C.D. e Salsa, S. (1992) Analisi Matematica Vol. 1 e 2 Masson, Milano.
[11] Robert, C.P. e Casella, G. (1999) Monte Carlo Statistical Methods Springer, New
York.
[12] Ross, S.M. (2002) Calcolo delle probabilità Apogeo.
[13] Roussas, G.G. (1997) A Course in Mathematical Statistics, Academic Press.
105

2006 Calcolo Delle Probabilita

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

2006 Calcolo Delle Probabilita

Caricato da

Copyright:

Formati disponibili

Politecnico di Milano

Esercizi di Calcolo delle Probabilità cod. 061195

3 Media varianza e momenti 39

1.1 Spazi di probabilità

10. (A ∪ B)c ∩ C = (Ac ∩ C) ∪ (B c ∩ C)

12. (A ∪ B)c ∩ C = C \ [C ∩ (A ∪ B)]

1.2 Proprietà della probabilità

Esercizio 1.2.3 Si risponda alle seguenti domande giustificandole in modo opportuno:

4. Siano P (A) = 3/4 e P (B) = 3/8. Si verifichi che 1/8 ≤ P (A ∩ B) ≤ 3/8.

5. Si dimostri in generale la diseguaglianza di Bonferroni:

1.3 Spazi finiti

1.3.1 Spazi di probabilità uniforme

Esercizio 1.3.9 Scegliendo a caso 5 lettere dall’alfabeto italiano (costituito da 21),

1. Qual è la probabilità di ottenere su 10 lanci della pallina la seguente sequenza (ordinata) di

Esercizio 1.3.23 In quanti modi 7 persone possono disporsi

1.4 Probabilità condizionata e indipendenza

Esercizio 1.4.10 (Esercizio 46 pag. 59 in [7]) Il 5% degli abitanti di un paese ha la pressione

Esercizio 1.4.11 Ho programmato di partire dopodomani per le vacanze. Ma, è annunciato

1. Calcolare la probabilità che il transistor bruci dopo 5 minuti di test.

1.4.3 Affidabilità di un sistema

Esercizio 1.4.24 Qual è l’affidabilità di un sistema formato da tre componenti in serie A1 , A2 , A3

Figura 1.1: Sistema Esercizio 1.4.23

Figura 1.2: Sistema S2

1.5 Soluzioni di alcuni esercizi del Capitolo 1

Figura 1.3: Sistema S3

Figura 1.4: Sistema S4

1. P (Ac ) = 1 − P (A) = 0.6;

2. P (A ∩ B c ) = P (A \ (A ∩ B)) = P (A) − P (A ∩ B) = 0.4 − 0.35 = 0.05;

3. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − [P (A ∩ B) + P (A ∩ C) + P (B ∩ C)] + P (A ∩ B ∩ C) =

4. P (Ac ∩ B c ∩ C c ) = P ((A ∪ B ∪ C)c ) = 1 − 0.55 = 0.45.

A ⊂ A ∪ B ⇒ P (A) ≤ P (A ∪ B) e B ⊂ A ∪ B ⇒ P (B) ≤ P (A ∪ B), da cui otteniamo

max{P (A), P (B)} ≤ P (A ∪ B) ≤ P (A) + P (B)

P in (1.1) è una probabilità su (Ω, P(Ω)) se

Pn da i) e da ii) che necessariamente c > 0: se fosse c = 0 allora P ({k}) = 0 ∀k e

da cui, in virtù della condizione iii):

che 4 · 5 · 19 · 18 · 17 · 16 · 15 rappresenta il numero di casi favorevoli all’evento A. In definitiva, la

Nota 2 Assegnare ad ogni evento elementare (a1 , . . . , a160 ) ∈ Ω probabilità

Esercizio 1.4.1 Poiché P (R) = 0.1, P (F ) = 0.05 e P (R ∩ F ) = 0.03, allora

Per la formula di Bayes:

P (R1 |T1 )P (T1 ) 0.91(1 − 0.45) 1001

(5) P (R0 ∩ T1 ∪ R1 ∩ T0 ) = P (R0 ∩ T1 ) + P (R1 ∩ T0 )

(b) La probabilità cercata è P (B1 ∩ B2 ∩ B3 ) + P (N1 ∩ N2 + N3 ) = 1/56 + 5/14 = 21/56 = 3/8 =

Esercizio 1.4.5 Lo schema di riferimento è quello del campionamento senza reimmissione e in

Esercizio 1.4.6 Poichè la probabilità di scegliere la busta contenente la promessa di pagamento è

Esercizio 1.4.7 Sia

2. P (N1 |N2 ) = P (N2P|N(N1 )P

Esercizio 1.4.12 Definiamo i seguenti eventi: Ci =“Camillo sceglie il percorso i-esimo” e

2. Dobbiamo calcolare P (C1c |T c ) c

P (T c |C1 )P (C1 ) (1 − P (T |C1 ))P (C1 ) (1 − 1/2) · (1/6) 70

Ω = {(p1, p2), (p1, d2), (d1, p2), (d1, d2)}

P (L) = P (L | D)P (D) + P (L | U )P (U ) = 0.25 · 0.30 + 0.25 · 0.70 = 0.25 = P (L | D)

(1a) P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 0.5 + 0.4 − 0.65 = 0.25

P (C ∩ A) P (C ∩ A|B)P (B) + P (C ∩ A|B c )P (B c )

2. Bisogna calcolare P (O|T1 ). Per la formula di Bayes

P (T1 |O)P (O) 1· 1 5

3. Bisogna calcolare P (T2 |T1 ). Utilizzando la definizione di probabilità condizionata e la

P (T1 ∩ T2 ) P (T1 ∩ T2 |O)P (O) + P (T1 ∩ T2 |A)P (A)

P (A ∩ B|E)P (E) αβp

Calcoliamo ora P (A ∩ B) applicando la formula delle probabilità totali:

P (A ∩ B) = P (A ∩ B|E)P (E) + P (A ∩ B|E c )P (E c ) = αβp + P (A ∩ B|E c )P (E c )

Per calcolare P (A ∩ B|E c ) ragioniamo nel seguente modo.

P (A ∩ B|E c ) = 1 − P ((A ∩ B)c |E c ) = 1 − P (Ac ∪ B c |E c ) = 1 − P (Ac |E c ) − P (B c |E c ) + P (Ac ∩ B c |E c )

Questo ci permette di concludere che:

P (A ∩ B) = P (A ∩ B|E)P (E) + P (A ∩ B|E c )P (E c ) = αβp + (1 − α)(1 − β)(1 − p)