Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Capitolo 2
Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo si è sviluppato
teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei
fenomeni collettivi, diventando presupposto essenziale della teoria della statistica. La
teoria delle probabilità è una disciplina matematica astratta e altamente formalizzata pur
conservando il suo originale e rilevante contenuto empirico; in questa esposizione ci
limiteremo a esporre gli aspetti essenziali per la comprensione degli argomenti trattati
nel seguito.
Si evidenzia che il termine esperimento va qui inteso in senso lato. Infatti comprende
giochi di sorte (come il lancio di una moneta, l’estrazione di un numero al lotto,
l’estrazione di una numero alla roulette), esperimenti di laboratorio (come il test di
durata di un pneumatico, la somministrazione di un principio attivo ad un insieme di
cavie o il numero massimo di battiti cardiaci di un paziente durante un test di sforzo),
misurazioni fisiche (come la temperatura minima di domani in una certa stazione
meteorologica o l’intensità di una certa scossa di terremoto) fenomeni economici e
sociali (come il numero di computer prodotti da un’impresa del settore, il PIL italiano
fra 5 anni, il numero di imprese che falliranno in Inghilterra nel prossimo anno o il ROE
di un impresa nel prossimo esercizio) e più in generale tutte le prove, operazioni,
attività o fenomeni il cui esito non è prevedibile con certezza.
1
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Alcuni esempi
Se l'esperimento casuale consiste nel lancio di una MONETA a due facce, lo spazio
campionario è dato da
Ω = {T, C}
dove T è il punto campionario testa e C è il punto campionario croce.
In questo esempio si è assunto (come si fa di solito) che gli unici risultati possibili siano
T e C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si
ipotizza che anche questo risultato sia possibile, allora lo spazio campionario di questo
esperimento casuale è
Ω = {T, C, B},
dove B è il punto campionario “moneta in equilibrio sul bordo”.
Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale
sia l’esito di una operazione di finanziamento di una banca ad una impresa cliente, i cui
risultati possibili sono la restituzione o meno del finanziamento concesso da parte
dell’impresa. In tal caso infatti lo spazio campionario Ω è dato da
Ω = {R, NR},
dove R è il punto campionario finanziamento restituito e NR il punto campionario
finanziamento non restituito.
Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio
campionario è dato da
Ω = {1, 2, …, 90},
costituito, come è ovvio, da tutti i numeri interi da 1 a 90.
Analogamente se l'esperimento casuale consiste nell'estrazione di un numero alla
roulette, lo spazio campionario è dato da
Ω = {0, 1, 2, …, 36}.
Se l'esperimento casuale consiste nel contare il numero di difetti (ad esempio dei nodi)
in una matassa di filato da 100 metri, lo spazio campionario è dato da
2
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Ω = {0, 1, 2, …}.
cioè da tutti i numeri interi non negativi, dato che il numero di difetti è un numero intero
e non è possibile stabilire a priori il numero massimo.
Una situazione analoga si ha se l’esperimento casuale consiste nel contare il numero di
accessi ad un certo sito internet nell’arco di un anno oppure nel contare il numero
massimo di battiti cardiaci durante un test di sforzo.
Se l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio
campionario è costituito da
Ω = [0, +∞),
cioè tutti i numeri reali non negativi, dato che la durata è un numero che non può essere
negativo. Una considerazione analoga vale per l’intensità di una scossa di terremoto,
dato che questa, se misurata si scala RICHTER, sarà un numero non negativo (0 se non
c’è stata nessuna scossa).
Se l'esperimento casuale consiste nel valutare il ROE di un’impresa nel prossimo
esercizio, lo spazio campionario è costituito da
Ω = (–∞, +∞)
dato che il ROE di un’impresa può essere un qualsiasi numero reale.
Se l'esperimento casuale consiste nel misurare la temperatura (in gradi centigradi) in
una certa stazione meteorologica, lo spazio campionario è costituito da
Ω = [–273, +∞),
dato che secondo la fisica la temperatura non può scendere sotto lo 0 assoluto (circa –
273 °C).
3
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
4
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Alcuni esempi
Se l'esperimento casuale consiste nel lancio di una moneta a due facce, sono eventi:
{T}, {C}, Ω = {T, C}, ø. Questi sono anche gli unici eventi che possono essere definiti
nell’esperimento casuale indicato. {T} e {C} sono eventi elementari in quanto costituiti
da un solo punto campionario; Ω è l’evento certo (infatti è certo che dal lancio venga T
o C); gli eventi {BABBO} oppure {CANE, GATTO} sono impossibili e possono essere
rappresentati, come tutti gli eventi impossibili, col simbolo ø. In questo esperimento
casuale implicitamente abbiamo escluso che la moneta possa rimanere in equilibrio sul
bordo. Quindi anche l’evento {B} è impossibile e può essere indicato con ø.
Se invece nell’esperimento della moneta a due facce è possibile che la moneta rimanga
in equilibrio sul bordo allora sono eventi: {T}, {C}, {B}, {T, C}, {T, B}, {C, B}, Ω =
{T, C, B}, ø; questi sono anche gli unici eventi che possono essere definiti in questo
esperimento casuale. {T}, {C} e {B} sono eventi elementari, mentre {T, C} non è più
l’evento certo (infatti non è certo che venga T o C, dato che è possibile che la moneta
rimanga sul B); {B} non è più impossibile mentre rimangono impossibili (e quindi
identificabili con col simbolo ø) gli eventi {BABBO} e {CANE, GATTO}. Se nel lancio
viene B allora si realizzano tutti gli eventi che contengono B ({B}, {C, B}, {T, B} ed
ovviamente Ω), mentre non si realizzano tutti quelli che non lo contengono ({C}, {T},
{T, C} ed ovviamente ø).
Una situazione simile a quella del lancio della moneta si ha nel caso in cui l'esperimento
casuale sia l’esito di una operazione di finanziamento di una banca ad una impresa
cliente. [Lo studente provi per conto proprio a scrivere gli eventi che possono essere
costruiti in questo caso, indicando quali sono quelli che si verificano se l’esito è NR]
Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, costruire l’elenco
di tutti gli eventi possibili è un’operazione lunghissima (e anche inutile!). Siccome lo
spazio campionario contiene un numero finito di punti campionari tutti i sottoinsiemi
possibili di Ω sono eventi, ivi compresi Ω stesso e ø. Ad esempio {33}, {99}, { 10 },
{55, 58}, {–3, 2.5} {99, 5}, {numeri pari}, {numeri divisibili per 10}, {numeri reali},
sono tutti eventi. Fra questi {99}, { 10 } e {–3, 2.5} sono impossibili e possono essere
indicati con ø; gli altri sono invece possibili (ivi compreso {99, 5}: se infatti viene fuori
il 5 questo evento si realizza); {numeri reali} è certo e può essere indicato con Ω. Se
viene estratto il 30 allora si verificano tutti gli eventi che contengono il 30 (ad esempio
5
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
si verificano {numeri pari}, {numeri divisibili per 10}, {30, 60, 90} e, naturalmente, Ω)
mentre non si verificano quelli che non lo contengono (ad esempio non si verificano
{dispari}, {numeri divisibili per 7}, {11, 22, 33} e, naturalmente, ø).
Se l'esperimento casuale consiste nel contare il numero di difetti in una matassa di filato
da 100 metri, costruire l’elenco di tutti gli eventi possibili è un’operazione impossibile,
dato che Ω contiene una infinità numerabile di punti campionari. Anche in questo caso,
comunque, tutti i sottoinsiemi di Ω sono eventi. Ad esempio sono eventi possibili {0},
{33}, {99}, {55, 58}, {99, 5}, {numeri pari}, {numeri divisibili per 10}; {numeri
reali}, {numeri non negativi} coincidono con l’evento certo Ω; sono invece impossibili
{ 10 }, {–8}, {–3, 2.5}, {numeri negativi} che possono essere quindi indicati con ø.
Se l'esperimento casuale consiste nel test di durata di un pneumatico, allora non tutti i
sottoinsiemi di Ω sono eventi ma soltanto quelli ammissibili; tuttavia, come indicato,
quelli ai quali si è comunemente interessati sono tutti ammissibili. Sono allora eventi
possibili {0}, {33}, { 10 }, {3/4, 58}, [3,9), (–∞, 5), {numeri divisibili per 10};
{numeri reali}, {numeri non negativi} coincidono con l’evento certo Ω; sono invece
impossibili {–55}, [–2,–1] che possono essere quindi indicati con ø.
[Lo studente provi per conto proprio a sviluppare in modo analogo ai precedenti altri
esempi di esperimenti casuali]
E’ chiaro che poiché lo spazio campionario Ω contiene solo i risultati possibili, e poiché
gli eventi sono sottoinsiemi di Ω, è conveniente “ripulire” gli eventi dai punti
campionari impossibili quando li contengono. Per definizione tutti i risultati possibili
devono essere inclusi; tutto il resto è impossibile.
6
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Relazione di uguaglianza. Due eventi A e B sono uguali sse contengono gli stessi punti
campionari, ovvero sse contemporaneamente
A ⊆ Be B ⊆ A
7
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
A
B
A B A B
E2
8
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
I palati matematici più fini, noteranno che una volta introdotte le operazioni di
negazione ed intersezione si potrebbe fare a meno d'introdurre le due ulteriori
operazioni di unione e di differenza. Infatti queste due operazioni possono essere
definite a partire dalle precedenti nel modo seguente [lo studente verifichi tali relazioni
utilizzando i diagrammi di Venn]:
A ∪ B = (A ∩ B )
A − B = (A ∩ B )
che contiene tutti i punti campionari che appartengono ad almeno uno dei k eventi
considerati.
A questo punto possiamo elencare una serie di proprietà di facile dimostrazione che
conseguono dalle operazioni introdotte. Lo studente è invitato a dimostrarle utilizzando
i diagrammi di Venn (il simbolo ⇒ rappresenta la relazione di implicazione).
A⊆B ⇒ A∩B=A
A ⊆ B⇒ A ∪ B = B
9
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
φ =Ω
Ω=ø
ø⊆A⊆Ω
A∩ø=ø
A∩Ω=A
A∪ø=A
A∪Ω=Ω
A∩ A =ø
A∪ A=Ω
A ⊆ (A ∪ B)
(A ∩ B) ⊆ A
B ⊆ (A ∪ B)
(A ∩ B) ⊆ B
A∩B=B∩A (proprietà commutativa)
A∪B=B∪A (proprietà commutativa)
A1 ∩ A2 ∩ A3 = (A1 ∩ A2) ∩ A3 = A1 ∩ (A2 ∩ A3) (proprietà associativa)
A1 ∪ A2 ∪ A3 = (A1 ∪ A2) ∪ A3 = A1 ∪ (A2 ∪ A3) (proprietà associativa)
A1 ∩ (A2 ∪ A3) = (A1 ∩ A2) ∪ (A1 ∩ A3) (proprietà distributiva)
A1 ∪ (A2 ∩ A3) = (A1 ∪ A2) ∩ (A1 ∪ A3) (proprietà distributiva)
k k
A ∪ ( I Ai) = I (A ∪ Ai)
i=1 i=1
Dopo aver elencato relazioni ed operazioni della teoria degli insiemi utili per operare
sugli eventi, utilizziamo ora la teoria degli insiemi anche per definire il concetto
importante di incompatibilità fra eventi. Due eventi A e B sono incompatibili se la loro
intersezione è l’evento impossibile, cioè
10
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
A ∩ B = ø.
In pratica ciò significa o che i due eventi che non hanno punti campionari in comune,
oppure che hanno qualche punto in comune che però è impossibile (e quindi è come se
non l’avessero).
Un altro concetto importante (e nel quale di nuovo si sfrutta la teoria degli insiemi)
quando si opera sugli eventi è quello di condizionamento. Questo è utile quando si
vuol analizzare un certo evento A (l’evento condizionato) avendo a disposizione una
certa informazione B (l’evento condizionante). Per fare un esempio, nel lotto l’uscita
alla seconda estrazione del 5 nel caso in cui (informazione) alla prima estrazione sia
uscito il 90.
L'evento A | B (A condizionatamente ad B o, più semplicemente, A dato B) riguarda
l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si
sottolinea che l’espressione assumendo verificato non significa necessariamente che B
si è verificato, ma solo che noi si ragiona come se si fosse verificato (si ragiona cioè
sulla base dell’informazione a disposizione). Il condizionamento degli eventi si risolve
in pratica in una sorta di ridefinizione dello spazio campionario nel modo seguente.
Ω
11
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Infine un ultimo importante concetto: quello di algebra. Poiché tale concetto non è di
semplice comprensione, facciamolo precedere da alcune considerazioni intuitive.
Nelle pagine precedenti, dopo avere dato la definizione di evento abbiamo analizzato
alcuni esempi. Abbiamo visto che quando lo spazio campionario Ω è composto da pochi
punti campionari è semplice costruire la “lista” di tutti gli eventi: basta fare l’elenco di
tutti i sottoinsiemi di Ω. Se invece Ω è composto da un numero sempre finito ma
abbastanza elevato punti campionari, esplicitare tale “lista” è un’operazione alquanto
“tediosa”. Operazione che risulta addirittura impossibile se Ω è costituito da un numero
infinito di punti campionari. D’altra parte, abbiamo notato che esplicitare l’”insiemone”
di tutti gli eventi, talvolta chiamato spazio degli eventi, non è un’operazione molto
utile. Quello che invece è importante è stato, seppure implicitamente, evidenziato dopo:
operare sugli eventi con le operazioni della teoria degli insiemi produce come risultato
altri eventi. In altri termini è importante operare in un insieme chiuso. Possiamo
sintetizzare tutto ciò nel modo seguente: lo spazio degli eventi (facile da esplicitare solo
in casi particolarmente semplici) è un insieme chiuso rispetto alle operazioni di
negazione e di intersezione (e quindi anche rispetto all’unione e alla differenza che
possono essere derivate dalle precedenti).
Esplicitiamo ora questo concetto in modo più rigoroso. Un’algebra è un insieme chiuso
rispetto alle operazioni di negazione e di intersezione fra insiemi (e quindi anche
rispetto a quelle di unione e differenza che possono essere definite a partire dalle
precedenti): ciò significa che se prendiamo elementi appartenenti all’insieme, allora
anche il risultato delle operazioni di negazione e di intersezione fatte su di essi
appartengono all’insieme. Più in particolare, se l’insieme è chiuso rispetto ad un numero
finito di operazioni, si parla di algebra di Boole o, più semplicemente, di algebra; se il
sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di
Boole completa o, più semplicemente, di σ-algebra.
Nella successiva esposizione si assumerà che dato un esperimento casuale e lo spazio
campionario Ω ad esso relativo, gli eventi che possono essere costruiti a partire da Ω
12
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
formino una σ-algebra A. Quindi lo spazio degli eventi A sarà una σ-algebra e il
risultato di un numero finito o infinito numerabile di operazioni fatte su eventi (elementi
di A) sarà ancora un evento (elemento di A).
Tornando a una distinzione fatta in precedenza, se Ω è costituito da un numero finito
oppure da un’infinità numerabile di elementi allora A contiene tutti i possibili
sottoinsiemi di Ω; se invece Ω è costituito da un’infinità non numerabile di elementi
allora A contiene solo i sottoinsiemi “ammissibili” di Ω.
Dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la
σ-algebra generata da Ω, è detta spazio misurabile.
2. La probabilità
Ognuno di noi ha in testa una idea, almeno vaga, del concetto di probabilità. Per
introdurre il concetto di probabilità partiamo proprio da questa idea intuitiva. Se
volessimo spiegare il concetto con parole semplici, potremmo dire che la probabilità di
un evento A è il grado di certezza, su una scala da 0 ad 1, attribuito al verificarsi di tale
evento: più è la probabilità è vicina a 1 più è sicuro che A si verifichi; più la probabilità
è vicina a 0 meno è sicuro che A si verifichi.
13
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La
prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che
tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non
si può definire un concetto utilizzando se stesso).
Altre due critiche, decisamente più rilevanti dal punto di vista pratico, riguardano
l’operatività della definizione: non sono affatto rare le situazioni reali nelle quali non è
possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili; inoltre,
anche nelle situazioni in cui si può effettuare una tale enumerazione, non è infrequente
la circostanza in cui non tutti i casi sono ugualmente possibili.
Per superare questi inconvenienti è stata introdotta la seguente definizione di
probabilità.
La probabilità, secondo questa definizione, può essere quindi intesa come una sorta di
idealizzazione della frequenza relativa che verrà introdotta nel contesto della statistica
descrittiva. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non
siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano
la frequenza relativa di un evento come misura approssimata (per n finito) della
probabilità.
Anche alla definizione frequentista sono state rivolte critiche di varia natura. Anzitutto
quella relativa al limite irraggiungibile (+∞) imposto al numero delle prove; ma a tale
critica si risponde accettando la frequenza relativa di un numero finito (ma
sufficientemente elevato) di prove come misura approssimata della probabilità. Più
problematiche sono la critica relativa alla ripetibilità delle prove (esperimento) in
situazioni invariate e, soprattutto, quella che fa riferimento alle situazioni reali, e non
14
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
sono affatto infrequenti, nelle quali non è possibile procedere all’effettuazione di alcuna
prova.
Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla
definizione classica e alla definizione frequentista di probabilità è la definizione
seguente.
Anche alla definizione soggettiva di probabilità sono state rivolte critiche: la prima
riguarda proprio la soggettività insita nella definizione; la seconda è relativa alla
difficoltà di tradurre in un valore numerico il grado di fiducia.
Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa
in senso condizionato, cioè condizionatamente all’informazione dell’individuo
(razionale). Pertanto, anche se apparentemente due individui diversi attribuiscono una
diversa misura di probabilità ad uno stesso evento, gli stessi individui si riferiscono a
due diversi eventi essendo diversa l’informazione sulla base del quale formulano il
proprio grado di fiducia.
Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura
di probabilità si perviene, come detto, attraverso l’attivazione di un processo
relativamente semplice (almeno sul piano concettuale) che è quello di porre l’individuo
di fronte ad una operazione di scommessa.
Le tre definizioni introdotte, cui si può far ricorso per ottenere una valutazione
numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle
probabilità. A tal fine infatti è sufficiente una definizione di carattere più formale che
invece di stabilire come attribuire i valori di probabilità nei casi concreti, fissa
semplicemente le regole che la probabilità deve rispettare. A questa definizione
15
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
assiomatica si farà riferimento negli sviluppi teorici che seguono, mentre le tre
definizioni non assiomatiche saranno utilizzate in alcuni esempi.
16
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Si evidenzia infine che tutte e tre le definizioni non assiomatiche soddisfano le regole
della definizione assiomatica di probabilità.
In conclusione un’ultima notazione. Alla fine della sezione 2 abbiamo detto che dato un
esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la σ-
algebra generata da Ω, è detta spazio misurabile. Se a questa coppia aggiungiamo la
(funzione) probabilità otteniamo la tripletta (Ω, A, P(.)) detta spazio probabilistico.
17
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
3. La probabilità condizionata
In pratica, allora, P(A | B) non è altro che P(A ∩ B) riproporzionato sulla base di P(B)
(la probabilità dell’evento condizionante).
Si può dimostrare [si invita lo studente a provare per conto proprio] che la probabilità
condizionata è una vera e propria probabilità, cioè è una funzione
P(. | B): A → [0,1]
A a P(A | B)
che soddisfa gli assiomi di probabilità 1, 2, 3 di cui alla definizione 8. Infatti
18
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
P(A | B) ≥ 0
P(B | B) = 1
P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B)
se A1 ed A2 sono incompatibili.
Valgono inoltre
A1 ⊆ A2 ⇒ P (A1 | B) ≤ P (A2 | B)
P( A1 | B) = 1 – P(A1 | B)
P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B) – P(A1 ∩ A2 | B)
Si evidenzia che le regole della probabilità valgono per l’evento a sinistra del | (l’evento
condizionato), mentre l’evento condizionante, l’informazione, è “tenuto fermo”.
E’ ovvio che se il ruolo dei due eventi è invertito rispetto alla definizione, cioè siamo
interessati ad B avendo A come informazione (con P(A) > 0), allora basta scambiare i
due eventi nella definizione per ricavare P(B | A):
P (B ∩ A)
P(B | A) = .
P ( A)
19
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
dove fra le altre cose si sfrutta il fatto che (B ∩ A) e (B ∩ A ) sono incompatibili (lo
studente è invitato a verificare ciò utilizzando i diagrammi di Venn) e la formula
delle probabilità composte.
3. La terza è nota come formula di Bayes ed è data da
P(B | A)P( A)
P(A | B) = .
P (B )
Tale formula può essere ricavata immediatamente dalla formula delle probabilità
composte. Si sottolinea che nella pratica il denominatore P(B) è spesso calcolato a
partire da P(B | A), P(B | A ), P(A) e P( A ) utilizzando la formula della probabilità
marginale.
Sulla base delle considerazioni precedenti possiamo ora discutere più in dettaglio
l’utilizzo pratico della probabilità condizionata. E’ banale osservare (ma spesso gli
studenti se lo dimenticano!) che la formula nella definizione di probabilità condizionata
è una uguaglianza: quindi dati due elementi (qualsiasi!) della stessa il terzo può essere
ricavato. Di conseguenza tale definizione può essere utilizzata in tre modi:
1. Uso “diretto”. E’ l’utilizzo più immediato: sapendo P(B) e P(A ∩ B) si ricava P(A |
B) utilizzando direttamente la definizione.
2. Uso “indiretto” via principio delle probabilità composte: sapendo la probabilità
condizionata P(B | A) e quella marginale P(A), si vuol ricavare la probabilità
dell’intersezione P(A ∩ B). In questo caso la definizione è utilizzata indirettamente
perché si ricava la probabilità dell’intersezione in funzione della probabilità
condizionata.
3. Uso “indiretto” via formula di Bayes: sapendo le probabilità condizionate P(B | A) e
P(B | A ) e quella marginale P(A) (da cui si ricava anche e P(B | A )), si vuol ottenere
P(A | B). In questo caso la definizione è utilizzata indirettamente perché si ricava
una probabilità condizionata in funzione di altre probabilità.
Alcune delle relazioni precedenti possono essere estese anche a più di 2 eventi.
1. Il formula delle probabilità composte può riguardare anche un numero qualsiasi di
eventi A1, A2, A3, … Si avrà allora
P(A1 ∩ A2 ∩ … ∩ Ak) = P(A1) P(A2 | A1) P(A3 | A1 ∩ A2) ... P(Ak | A1 ∩ … ∩ Ak–1),
20
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Anche questa formula può essere dimostrata sfruttando le proprietà delle operazioni
fra eventi e della probabilità. I passaggi sono i seguenti:
k k k
P(B) = P(B ∩ Ω) = P[B ∩ ( U Ai)] = P[ U (B ∩ Ai)] = ∑ P(B ∩ A )i
i=1 i=1 i=1
k
= ∑ P(B | A ) P(A ), i i
i=1
dove fra le altre cose si sfrutta il fatto che i (B ∩ Ai) sono fra loro incompatibili.
3. Analogamente alla formula della probabilità marginale, anche la formula di Bayes
può essere estesa ad una generica partizione A1, A2, ..., Ak di Ω. In tale caso la
formula di Bayes è una semplice riscrittura di quella vista in precedenza:
P(B | Ai )P( Ai )
P(Ai | B) = ,
P (B )
21
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
dove normalmente P(B) è ricavato sulla base della formula della probabilità
marginale precedente.
Precisiamo che da un punto di vista pratico la formula di Bayes assume una
rilevanza particolare quando i k eventi Ai possono essere interpretati come possibili
“cause” dell'evento B. In tale contesto: P(Ai | B) è detta probabilità a posteriori
della causa Ai; P(Ai) è detta probabilità a priori della stessa causa e P(B | Ai) è detta
verosimiglianza dell'evento B.
La formula di Bayes esprime in maniera molto semplice il processo di
apprendimento dall'esperienza in contesti non deterministici. Della realtà si possiede
una conoscenza probabilistica, che viene espressa in termini di probabilità (a priori)
P(Ai); queste probabilità si trasformano, al verificarsi dell'evento B (acquisizione di
ulteriore informazione), nelle probabilità (a posteriori) P(Ai | B). Come molte volte
ripetuto, infatti, le probabilità condizionate si usano per riassegnare le probabilità
agli eventi una volta che siano state acquisite ulteriori informazioni relative ad una
realizzazione parziale di un esperimento casuale.
Ω
A1 A3 A4
A2
A
A5
Fig. 4 - Partizione dello spazio campionario Ω in cinque eventi A1, A2, A3, A4 ed A5
possibili cause dell’evento B.
22
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
P(A | B) = P(A).
E’ ragionevole definire questa situazione come indipendenza, e più in particolare A
indipendente da B.
D’altra parte se ciò accade, sostituendo tale relazione nella formula di Bayes per P(B |
A) si ottiene immediatamente
P(B | A) = P(B),
ovvero che B è indipendente da A. Questo significa che la relazione di indipendenza fra
due eventi è biunivoca, cioè se c’è in un senso c’è anche nell’altro: di conseguenza si
può parlare non solo di indipendenza di un evento da un altro ma di indipendenza fra
due eventi.
Inoltre se la relazione P(A | B) = P(A) si sostituisce nella formula delle probabilità
composte si ricava subito che
P(A ∩ B) = P(A) P(B),
che esprime quindi la formula delle probabilità composte per eventi indipendenti.
Riassumendo allora possiamo dare la seguente definizione.
23
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Si sottolinea che le prime tre relazioni (indipendenze doppie) non implicano la quarta
(indipendenza tripla). Così come la quarta relazione non implica le prime tre.
4. Variabili casuali
Definizione 11: Definizione di variabile casuale. Dato uno spazio probabilistico (Ω,
A, P(.)), una variabile casuale è una funzione che ad ogni punto
campionario associa un numero reale, in simboli
X: Ω → R
ω a X(ω),
che soddisfa la seguente proprietà: ogni insieme del tipo
{ω ∈Ω: X(ω) ≤ x}
è un evento, cioè un elemento di A.
24
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Alcuni esempi
Consideriamo l’esempio della moneta a due facce in cui Ω = {T, C}. Come v.c.
possiamo considerare quella che trasforma T in 1 e C in 0, cioè
X(T) = 1
X(C) = 0.
Consideriamo l’esempio dell’urna con 10 palline numerate da 1 a 10. In tal caso Ω =
{1, 2, 3, 4, 5, 6, 7, 8, 9, }. Come v.c. possiamo considerare quella che associa
ad ogni pallina il numero riportato sulla stessa, cioè
X( con numero i) = i.
Potrebbe però accadere, nello spesso esempio, di non essere interessati al numero in sé,
ma solo a distinguere fra pari e dispari. In tal caso potremmo considerare la v.c.
X( con numero pari) = 1
X( con numero dispari) = 0.
Come ulteriore esempio consideriamo una certa popolazione di N imprese industriali.
Poiché ciascuna impresa è identificata dalla sua ragione sociale, lo spazio campionario è
dato da Ω = {ω1, …, ωN}, dove ωi è la ragione sociale della impresa i. Se di tali imprese
interessa studiare la redditività, ad esempio misurata dall’indice ROE, possiamo
considerare la v.c. X che associa a ciascuna impresa il suo ROE, cioè
X(ω) = ROE dell’impresa ω.
Aggiungiamo che in questi casi per indicare la v.c. considerata si utilizza l’espressione
abbreviata “X è la v.c. ROE”, intendendo “X è la v.c. che associa a ciascuna impresa il
suo ROE”.
Nella stessa situazione delle N imprese potremmo considerare la v.c. ragione sociale,
distinguendo, ad esempio, fra società di persone, società di capitali e società
cooperativa. In tal caso potremmo utilizzare la v.c. X strutturata nel modo seguente:
X(ω) = 1 se ω è una società di persone
X(ω) = 2 se ω è una società di persone
X(ω) = 3 se ω è una società cooperativa
25
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Anche in questo caso per indicare la v.c. considerata si utilizza l’espressione abbreviata
“X è la v.c. natura giuridica”, intendendo “X è la v.c. che associa a ciascuna impresa un
opportuno codice che identifica la sua natura giuridica”.
Anche se ai fini di un’analisi corretta abbiamo insistito molto sull’aspetto che la v.c.
trasforma i punti campionari in numeri in modo da conservare la probabilità prima
definita sugli eventi, ben presto ci dimenticheremo di tale probabilità e, più in generale,
dello spazio probabilistico (Ω, A, P(.)) che sta “a monte” di ogni v.c. Spesso lo spazio
probabilistico sarà semplicemente sottinteso senza esplicitarlo (questo però non vuol
dire che non c’è!).
Per questo motivo è bene allora avere un’immagine facilmente comprensibile e
immediata di cos’è una v.c., con l’avvertenza che tale immagine deve aiutare a capire
cos’è una v.c. ma non deve sostituire la definizione rigorosa. Possiamo allora pensare
una v.c. come un oggetto casuale, cioè un qualcosa di cui non possiamo sapere con
certezza cosa verrà fuori ma, al massimo, possiamo descrivere cosa può venire fuori e
con quale probabilità. Per avere qualche esempio pensiamo al numero estratto al lotto,
alla quotazione di un titolo azionario fra un mese, al voto che prenderemo all’esame di
statistica: tutti esempi di oggetti casuali, cioè di fenomeni di cui non si conosce con
certezza il risultato (data la presenza del caso) ma, al massimo,
1. quali risultati si possono avere;
2. con che probabilità ciascun risultato può venire fuori.
Vedremo questo più in dettaglio nella prossima sezione.
Riassumendo, allora, la variabile casuale serve a due scopi: primo a trasformare i punti
campionari in numeri; secondo a trasferire ai numeri (ma è più corretto dire ai
sottoinsiemi di R) la probabilità prima definita sugli elementi di A. Per identificare una
variabile casuale dobbiamo allora indicare due cose (tenerlo sempre ben presente!):
1. quali valori può assumere;
2. come la probabilità è distribuita su tali valori.
26
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Relativamente ai valori che la variabile casuale può assumere, come ovvio questi
cambiano da caso a caso, e in seguito ne vedremo numerosi esempi. Tuttavia, per motivi
che vedremo in seguito, vengono distinte in discrete e continue. Una v.c. si dice:
a. discreta, se può assumere un numero finito oppure un'infinità numerabile di valori;
b. continua, se può assumere un insieme continuo (e quindi non numerabile) di valori.
27
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
possibile ricavare la probabilità che X assuma valori in un qualsiasi intervallo (x1, x2].
Infatti
P(x1 < X ≤ x2) = P(X ≤ x2) – P(X ≤ x1) = F(x2) – F(x1).
Definizione 13: Definizione di funzione di massa (di probabilità). Sia X una v.c.
discreta che assume valori, ordinati in senso crescente, x1, …, xk
(eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori).
La funzione di massa di X è la funzione
f(x) = P(X = x).
Tale funzione vale quindi
f(xi) = P(X = xi)
se i = 1, …, k, mentre vale 0 per gli altri valori di x.
La funzione di massa di una v.c. discreta, quindi, è semplicemente P(X = x), cioè la
probabilità che X sia uguale ad x: solo per brevità è indicata con f(x), ma dobbiamo
sempre pensare che suo significato è, appunto, P(X = x). Come indicato nella
definizione, tale probabilità sarà maggiore di 0 solo per i valori x che la v.c. può
assumere, mentre sarà 0 per tutti gli altri valori di x.
28
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
29
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Definizione 14: Definizione di funzione di densità (di probabilità). Sia X una v.c.
continua che assume valori nell’intervallo (a, b) (eventualmente a può
essere –∞ e b +∞). La funzione di densità di X è la funzione
P( x < X ≤ x + dx ) 1
f(x) = lim .
dx→0 dx
A questo punto riassumiamo quanto visto finora. Prima abbiamo definito il concetto di
variabile casuale; successivamente abbiamo affermato che una variabile casuale si
identifica dando: i valori che questa può assumere e come la probabilità si distribuisce
su questi valori. Infine abbiamo detto che quest’ultima cosa, cioè la distribuzione della
probabilità sulle x, può essere data in tre modi diversi: funzione di ripartizione, funzione
di massa e funzione di densità. Ciascuna con pregi e difetti. Rimane una cosa da vedere:
che i diversi modi di indicare la distribuzione di una v.c. sono fra loro equivalenti. E’
chiaro che deve essere così: preso un esperimento campionario, la probabilità è
distribuita sugli eventi in un solo modo. Pertanto funzione di ripartizione – funzione di
massa (per v.c. discrete) e funzione di ripartizione – funzione di densità (per v.c.
continue) sono fra loro strettamente collegate: si può passare dall’una all’altra a seconda
di quello che fa comodo e di quello che interessa. Insieme a questa equivalenza fra le
diverse funzioni illustreremo anche alcune proprietà importanti delle stesse.
Consideriamo prima il caso discreto. Sia X una v.c. discreta che assume valori, ordinati
in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità
numerabile di valori). Allora per ricavare la funzione di massa dalla funzione di
ripartizione e viceversa possiamo utilizzare le seguenti 2 relazioni:
1
Poiché dx può essere anche negativo, in tale caso il numeratore è da intendere come P(x + dx < X ≤ x ) .
30
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
La verifica delle due relazioni è immediata. La prima si ricava dal fatto che
f(xi) = P(X = xi) = P(X ≤ xi) – P(X ≤ xi–1);
la seconda dal fatto che
i i
F(xi) = P(X ≤ xi) = ∑ P(X = xj) = ∑ f(xj).
j=1 j=1
Consideriamo ora il caso continuo. Sia X una v.c. continua che assume valori
nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞). Allora per ricavare la
funzione di densità dalla funzione di ripartizione e viceversa possiamo utilizzare le
seguenti 2 relazioni:
f(x) = F’(x);
x
F(x) = ∫ f(y) dy.
a
Anche in questo caso la verifica delle due relazioni (ricordando un po’ di matematica!)
è immediata. Infatti ricordando la definizione di derivata e il fatto che P(x1 < X ≤ x2) =
F(x2) – F(x1) si ottiene
P(x < X ≤ x + dx ) F ( x + dx ) − F ( x )
f(x) = lim = lim = F’(x)
dx→0 dx dx→0 dx
e di conseguenza anche l’altra in base al teorema fondamentale del calcolo integrale.
31
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
1. La funzione di massa essendo una probabilità gode ovviamente delle proprietà della
probabilità; in particolare 0 ≤ f(xi) ≤ 1
k
2. ∑ f(xi) = 1.
i=1
1. f(x) ≥ 0
b
2. ∫a f(x) dx = 1
Infine è opportuno esplicitare due formule utili per ricavare la probabilità che X
appartenga ad un dato intervallo, distinguendo a seconda che vogliamo ricavare quanto
interessa dalla funzione di ripartizione oppure dalla funzione di massa o dalla funzione
di densità. Tali relazioni si ricavano facilmente dalle formule precedenti.
1. Se X è una v.c. discreta allora
k
P(xh ≤ X ≤ xk) = F(xk) – F(xh–1) = ∑ f(x ).
i
i=h
32
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Esempio
Nel lancio di una moneta onesta gli unici risultati possibili sono testa (T) e croce (C),
entrambi con probabilità 1/2. Consideriamo allora la v.c. che associa 1 a T e 0 a C.
Poiché le probabilità si conservano nel passare dai punti campionari ai numeri, la
funzione di massa di questa v.c. è data da
1 / 2 se x = 0
f(x) = 1 / 2 se x = 1
0 altrimenti
da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a
farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate
in Fig. 5.
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-1 -0.5 0 0.5 1 1.5 2 -1 -0.5 0 0.5 1 1.5 2
Fig. 5– Funzione di massa e funzione di ripartizione per la v.c. 0/1 nel lancio di una
moneta onesta.
Esempio
Nel lancio di un dado onesto gli unici risultati possibili sono le facce puntinate da 1 a 6
puntini, ciascuna con probabilità 1/6. Consideriamo allora la v.c. che associa a ciascuna
faccia il numero dei puntini. Poiché le probabilità si conservano nel passare dai punti
campionari ai numeri, allora la funzione di massa di questa v.c. è data da
1 / 6 se x = 1,2,3,4,5,6
f(x) =
0 altrimenti
33
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-2 0 2 4 6 8 10 -2 0 2 4 6 8 10
Fig. 6 – Funzione di massa e funzione di ripartizione per la v.c. “numero di puntini” nel
lancio del dado onesto.
Nelle due sezioni precedenti, prima abbiamo definito una v.c. e successivamente
abbiamo analizzato alcuni modi di rappresentare la distribuzione della v.c.
Riepiloghiamo. Un esperimento casuale è un fenomeno il cui risultato non è prevedibile
con certezza, ovvero è frutto del caso: esso genera gli eventi con una certa probabilità.
La v.c. trasforma i risultati dell’esperimento casuale in numeri; ma poiché tali risultati
sono frutto del caso, anche i valori che la v.c. assume sono frutto del caso. Ne possiamo
conoscere il valore solo dopo che l’esperimento è stato effettuato, ma prima il massimo
che possiamo sapere sono: i valori che questa assume e con quale probabilità.
Conoscere queste due cose significa conoscere completamente la v.c.; infatti la
distribuzione identifica la v.c., nel senso che ne descrive completamente il massimo che
della v.c. possiamo conoscere: il suo comportamento probabilistico.
Per particolari esigenze, si può tuttavia essere interessati non alla distribuzione della v.c.
considerata, ma più semplicemente a delle sintesi della stessa. Può, cioè, risultare utile,
descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad
34
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
A questo scopo, come riferimento per questa sezione supporremo che X sia:
• o una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk
(eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori) con
funzione di massa f(x);
• oppure una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a
può essere –∞ e b +∞) con funzione di densità f(x).
Ci sono vari modi di costruire indici caratteristici di una variabile casuale. Uno fra i più
utilizzati è quello di procedere al calcolo di uno o più valori attesi (momenti) della v.c.
Definizione 13:Definizione di valore atteso (momento). Sia X una v.c. con funzione di
massa o funzione di densità f(x) e sia g(X) una trasformazione di X. Il
valore atteso di g(X) è dato da
k
∑ g ( xi ) f ( xi ) se la v.c. è discreta
E[g(X)] = ib=1 .
g ( x ) f (x )dx se la v.c. è continua
∫
a
35
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una
costante è uguale alla costante stessa”.
La verifica di tale proprietà è del tutto simile nei casi discreto e continuo ed pressoché
immediata ricordando che la sommatoria della funzione di massa e l’integrale della
funzione di densità sono sempre 1 (si veda sez. 0).
Nel discreto:
k k
E(k) = ∑ k f(x ) = k ∑ f(x ) = k;
i i
i=1 i=1
nel continuo:
b b
E(k) = ∫ k f(x) dx = k ∫ f(x) dx = k.
a a
In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una
costante per g è uguale alla costante per il valore atteso di g”.
36
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Tale proprietà deriva da quella analoga di omogeneità di cui godono sia la sommatoria
che l’integrale: come si può verificare facilmente osservando i seguenti passaggi, sono
del tutto simili.
Nel discreto:
k k
E[c g(X)] = ∑ c g(x ) f(x ) = c ∑g(x ) f(x ) = c E[g(X)];
i i i i
i=1 i=1
nel continuo:
b b
E[c g(X)] = ∫ c g(x) f(x) dx = c ∫ g(x) f(x) dx = c E[g(X)].
a a
In parole tale proprietà può essere ricordata con la frase “il valore atteso di una somma è
uguale alla somma dei valori attesi”.
Tale proprietà deriva da quella analoga di additività di cui godono sia la sommatoria
che l’integrale.
Nel discreto:
k k k
E[g1(X) + g2(X)] = ∑ [g1(x ) + g2(x )] f(x ) = ∑g1(x ) f(x ) + ∑ g1(x ) f(x )
i i i i i i i
i=1 i=1 i=1
= E[g1(X)] + E[g2(X)];
nel continuo:
b b b
E[g1(X) + g2(X)] = ∫ [g1(x) + g2(x)] f(x) dx = ∫ g1(x) f(x) dx + ∫ g1(x) f(x) dx
a a a
= E[g1(X)] + E[g2(X)].
Proprietà di linearità. Siano c1 e c2 due costanti, g1(.) e g2(.) due funzioni. Allora
E[c1 g1(X) + c2 g2(X)] = c1 E[g1(X)] + c2 E[g2(X)].
37
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
In parole tale proprietà può essere ricordata con la frase “il valore atteso di una
combinazione lineare è uguale alla combinazione lineare dei valori attesi”. [Lo studente
provi a dimostrarla direttamente servendosi delle proprietà della sommatoria e
dell’integrale]
Se si pone g(X) = Xr, per r = 0, 1, 2,..., si ottiene il momento r-mo dall’origine, definito
da
k r
∑ xi f ( xi ) nel discreto
µr = E(Xr) = bi =1 .
x r f ( x)dx nel continuo
∫
a
Per r = 0 si ottiene µ0, il momento dall’origine di ordine 0. Tale momento non è però
interessante, dato che risulta sempre uguale ad 1. Infatti µ0 = E(X0) = E(1) = 1,
ricordando che il valore atteso di una costante è la costante stessa.
38
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Se si pone g(X) = (X – µ)r, per r = 0, 1, 2,..., dove µ = E(X), si ottiene il momento r-mo
centrale, definito da
k
∑ ( xi − µ ) f ( xi ) nel discreto
r
µ r = E[(X – µ)r] = ib=1 .
( x − µ )r f ( x)dx nel continuo
∫
a
Oltre a µ 0 , il momento centrale di ordine 0 (che risulta sempre 1 per gli stessi motivi di
µ0), non è interessante neppure µ1 , il momento centrale primo. Infatti questo risulta
sempre uguale a 0, come è facile verificare:
µ1 = E(X – µ) = E(X) – µ = µ – µ = 0.
La trasformazione g(X) = X – µ rappresenta una traslazione dell’origine nel punto medio
µ ed è spesso detta variabile scarto. Qualunque variabile casuale scarto ha, pertanto,
sempre valore atteso 0.
σ= σ2 = [ ]
E ( X − µ )2 ,
che prende il nome di scostamento quadratico medio o deviazione standard.
39
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Essendo la media e la varianza gli indici caratteristici più utilizzati per sintetizzare in
un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale X, si
incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla
varianza di particolari trasformazioni di X. Una delle trasformazioni di maggiore
interesse è la trasformazione lineare (cambiamento del sistema di riferimento che si
risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è
espressa la variabile):
Y = a + bX.
µY = a + bµX σ Y2 = b2 σ X2
cioè, “la media di una trasformazione lineare è uguale alla trasformazione lineare della
media originaria”, mentre “la varianza di una trasformazione lineare è pari alla varianza
originaria per il quadrato del coefficiente angolare della trasformazione”. Tali proprietà
possono essere dimostrate sfruttando le proprietà dell’operatore valore atteso nel modo
seguente
µ = E(Y) = E(a + bX) = a + bE(X) = a + b µX
Y
r
X −µ 2 2
Se si pone g(X) = per r = 0, 1, 2,..., dove µ = E(X) e σ = E[(X – µ) ], si
σ
ottiene il momento r-mo standardizzato, definito da
k x − µ r
X − µ r ∑ σ
i f ( xi ) nel discreto
i =1
µ r = E = b r .
σ x − µ
∫ σ
f ( x)dx nel continuo
a
40
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
σ σ σ
X −µ
La trasformazione g(X) = , (che come si può vedere facilmente è una
σ
trasformazione lineare: basta porre a = –µ/σ e b = 1/σ) è detta standardizzazione ed è
interessante in quanto oltre a procedere alla traslazione nel punto medio µ utilizza come
“nuova unità di misura” il valore assunto dalla deviazione standard σ.
µ 3 = E =
[ ]
X − µ 3 E ( X − µ )3
=
µ3
σ σ3 σ3
µ 4 = E =
[ ]
X − µ 4 E ( X − µ )4 µ
= 44
σ
4
σ σ
che misura la curtosi, cioè l’appiattimento rispetto alla distribuzione normale (che verrà
analizzata nelle pagine successive) della distribuzione della v.c. X, ed è di solito
indicato con γ2.
Come esempio per il calcolo di indici caratteristici della distribuzione di una v.c.
casuale consideriamo i due esempio discussi al termine della sez. precedente: la moneta
onesta e il dado onesto.
41
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Esempio
Dalla funzione di massa relativa all’esito di una moneta onesta (codificata in 0/1) si
ricava:
E(X) = 0×0.5 + 1×0.5 = 0.5
E(X2) = 02×0.5 + 12×0.5 = 0.5
V(X) = E(X2) – E(X)2 = 0.5 – 0.52 = 0.25
γ3 =
[
E ( X − µ )3 ] = [(0 – 0.5) ×0.5 + (1 – 0.5) ×0.5]/(0.5) = 0
3 3 3
3
σ
γ4 =
[
E ( X − µ )4 ]= [(0 – 0.5) ×0.5 + (1 – 0.5) ×0.5]/(0.5) = 1
4 4 4
4
σ
Esempio
γ3 =
[
E ( X − µ )3 ] = [(1 – 3.5) ×1/6 + … + (6 – 3.5) ×1/6]/(2.91 6)
3 3 3/2
=0
3
σ
γ4 =
[
E ( X − µ )4 ]= [(1 – 3.5) ×1/6 + … + (6 – 3.5) ×1/6]/(2.91 6)
4 4 4/2
= 1.7314
4
σ
I momenti non sono tuttavia l’unico modo di sintetizzare la distribuzione di una v.c.
Molto utilizzati, soprattutto a livello applicato, sono anche i quantili.
Definizione 15: Definizione di quantile. Sia X una v.c. con funzione di ripartizione
F(x). Il p-mo quantile, con 0 < p < 1, è il valore Q(p) che lascia a
sinistra una probabilità p, cioè tale che
P[X ≤ Q(p)] = p.
42
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Facciamo osservare che P[X ≤ Q(p)] = p poteva essere scritto anche mediante la
funzione di ripartizione, cioè F[Q(p)] = p. Il p-mo quantile, quindi, lascia a sinistra una
probabilità p e a destra una probabilità (1 – p). Tuttavia mentre per le v.c. continue è
possibile operare la suddivisione con una proporzione esatta p di casi a sinistra ed una
proporzione (1– p) esatta di casi a destra di Q(p), ciò non è sempre possibile per le v.c.
discrete. Infatti, per le v.c. discrete la funzione di ripartizione varia “a scatti”, cosicché
scelto un p, può accadere, che non esista alcun valore x per il quale F(x) = p. In tal caso
il quantile viene allora individuato in corrispondenza del valore Q(p) nel quale si
riscontra il salto della funzione di ripartizione da un valore inferiore a p ad un valore
superiore a p. Inoltre, sempre per le variabili casuali discrete può accadere che la
relazione F(x) = p valga per un intervallo di valori di x, in questo caso per convenzione
si prende come quantile la semisomma degli estremi dell’intervallo.
Un altro indice caratteristico è la moda, indicata spesso con Mo. La moda di una
distribuzione è il valore della modalità cui corrisponde la probabilità (nel caso discreto)
o la densità di probabilità (nel caso continuo) più elevata. Quando il massimo non è
unico si parla di distribuzioni plurimodali, concetto questo che può essere esteso anche
43
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
a situazioni in cui si considerano non solo il massimo assoluto (della probabilità o della
densità di probabilità) ma anche i massimi relativi (massimi locali).
Nelle pagine precedenti sono state introdotte le variabili casuali. Dato uno spazio
probabilistico (Ω, A, P(.)), una variabile casuale è un modo di trasformare ciascun
punto campionario in un numero reale “conservando sui numeri” la probabilità definita
sugli eventi di A. Successivamente abbiamo descritto la distribuzione di una v.c., che
fornisce una rappresentazione completa della v.c. stessa nel senso che la identifica
completamente, e abbiamo visto alcuni indici caratteristici di una distribuzione.
Per la precisione le v.c. viste in precedenza sono v.c. semplici, nel senso che ad ogni
punto campionario è associato un solo numero reale. Talvolta, però, è opportuno
associare ad ogni punto campionario non un solo numero ma più numeri. Per rendersi
conto di ciò basta pensare ad un esempio già visto in precedenza.
Consideriamo una certa popolazione di N imprese industriali. Ciascuna impresa è
identificata dalla sua ragione sociale per cui lo spazio campionario è dato da Ω = {ω1,
…, ωN}, dove ωi è la ragione sociale della impresa i. Se di tali imprese interessa
soltanto studiare la redditività, ad esempio misurata dall’indice ROE, possiamo
considerare soltanto la v.c. X che associa a ciascuna impresa il suo ROE. In breve “X è
la v.c. ROE”. D’altra parte assai spesso oltre all’analisi di una variabile in sé, è
interessante studiare tale variabile congiuntamente ad altre, per vedere se tra queste ci
sono relazioni, descriverle e valutarne l’importanza. Può essere allora opportuno
associare a ciascuna impresa non solo il suo ROE, ma anche altre grandezze: ad
esempio altri indici di bilancio (indici di rotazione, di indebitamento, di solvibilità,
ecc.), addirittura ciascuna voce del bilancio, il settore merceologico, l’età dell’impresa,
la provincia di residenza, la ragione sociale, ecc. In tale caso dobbiamo considerare più
v.c. contemporaneamente e ricorrere ad un’analisi multidimensionale o multivariata,
cioè a più variabili.
Tale analisi può essere sviluppata con un ordine degli argomenti simile a quello visto
per le v.c. semplici. Poiché i concetti di base sono gli stessi visti per le v.c. semplici,
molte considerazioni sono analoghe ed eviteremo di ripeterle. Per semplicità, inoltre,
44
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
L’estensione del concetto di v.c. al caso multivariato non presenta difficoltà di ordine
logico. Si tratta, infatti, di definire una funzione che associa a ciascun punto
campionario non più un numero ma una k-upla (k ≥ 2) ordinata di numeri reali.
Si consideri ora il caso k = 2. La v.c. (X1, X2) è una v.c. doppia; per semplificare la
simbologia la identificheremo con (X, Y). Una v.c. doppia (X, Y), allora, è una funzione
che ad ogni punto campionario associa una coppia ordinata di numeri reali, cioè
(X, Y): Ω → R2
ω a (X(ω), Y(ω)),
che soddisfa la proprietà che ogni insieme del tipo {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, dove (x,
y) è un qualsiasi elemento di R2, è un evento, cioè un elemento di A.
45
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Anche per identificare una v.c. doppia (e più in generale una v.c. multipla) occorre
indicare
1. quali valori può assumere;
2. come la probabilità è distribuita su tali valori.
Relativamente a come la probabilità è distribuita sui valori assunti dalla v.c., anche in
questo caso può essere definita mediante la funzione di ripartizione, la funzione di
massa (se discreta) o la funzione di densità (se continua).
Anche in questo caso possiamo notare che la funzione di ripartizione rappresenta (non a
caso) la probabilità degli eventi {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, di cui alla definizione di
v.c. doppia; in altri termini P(X ≤ x, Y ≤ y) è la scrittura abbreviata per P{ω∈Ω: X(ω) ≤
x, Y(ω) ≤ y}. Infatti, come indicato dallo spazio probabilistico sugli eventi è definita una
probabilità. Poiché, come esplicitato nella definizione di v.c., quello in oggetto è un
evento, su di esso è data una probabilità che tramite la funzione di ripartizione è
trasferita a certi sottoinsiemi di R2.
Anche la funzione di massa per la v.c. discreta (X, Y) può essere definita in modo
analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. discreta le cui componenti
assumono valori, ordinati in senso crescente, rispettivamente x1, …, xh e y1, …, yk, (h e k
possono eventualmente essere +∞ ), allora la funzione di massa di (X, Y) è la funzione
f(x, y) = P(X = x, Y = y),
46
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Infine anche la funzione di densità per la v.c. continua (X, Y) può essere definita in
modo analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. continua le cui
componenti assumono valori rispettivamente nell’intervallo (a1, b1) e (a2, b2)
(eventualmente a1 e/o a2 possono essere –∞, b1 e/o b2 +∞), allora la funzione di densità
di (X, Y) è la funzione
P( x < X ≤ x + dx, y < Y ≤ y + dy )
f ( x, y) = lim .
dx ,dy →0 dxdy
Si osserva che il numeratore del limite esprime la probabilità che la v.c. doppia (X, Y) si
trovi in un rettangolino di lati dx - dy.
Analogamente alle v.c. semplici, anche per le v.c. multiple, funzione di ripartizione e
funzione di massa (per le v.c. discrete) e funzione di ripartizione e funzione di densità
(per le v.c. continue) sono equivalenti, nel senso che è possibile da una ricavare l’altra e
viceversa. Infatti:
• per le v.c. discrete
i j
F(xi, yj) = ∑∑ f(xu, yv)
u=1v=1
f(xi, yj) = F(xi, yj) – F(xi, yj–1) – F(xi–1, yj) + F(xi–1, yj–1)
• per le v.c. continue
xy
F(x, y) = ∫∫ f(u, v) du dv
a1a2
∂2
f ( x, y) = F(x, y)
∂ x∂ y
47
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
distinguerle da quella doppia, le v.c. semplici componenti sono anche dette v.c.
marginali e le distribuzioni corrispondenti sono dette distribuzioni marginali.
cioè la funzione di ripartizione vale 1 quando tutti gli argomenti tendono a +∞;
lim F(x, y) = 0 lim F(x, y) = 0
x→−∞ y →−∞
cioè la funzione di ripartizione vale 0 se uno qualsiasi degli argomenti tende a –∞;
lim F(x, y) = F(y) lim F(x, y) = F(x)
x→+∞ y →+∞
cioè la funzione di ripartizione “perde l’altra componente” quando uno solo fra x o y
tende a +∞. Quest’ultima proprietà è assai utile: significa che per ricavare la
funzione di ripartizione di una v.c. marginale (ad es. X) occorre fare il limite della
funzione di ripartizione della v.c. doppia per l’altra variabile (nell’es. Y) che tende
a + infinito.
3. è monotona non decrescente rispetto a tutti gli argomenti
4. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente
continua (continua e derivabile quasi ovunque) rispetto a tutti gli argomenti nel caso
continuo.
1. La funzione di massa essendo una probabilità gode delle proprietà della probabilità;
in particolare 0 ≤ f(x, y) ≤ 1
h k
2. ∑∑ f(xi, yj) = 1
i=1 j =1
h k
3. ∑ f ( x i, y ) = f ( y ) ∑ f ( x , y j) = f ( x )
i=1 j=1
48
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Quest’ultima proprietà è assai utile: per ricavare la funzione di massa di una v.c.
marginale (ad es. X) basta sommare la funzione di massa della v.c. doppia rispetto
all’altra variabile (nell’es. Y).
1. f(x, y) ≥ 0
b1 b2
2. ∫∫ f(x, y) dx dy = 1
a1 a2
b1 b2
3. ∫ f(x, y) dx = f(y) ∫ f(x, y) dy = f(x)
a1 a2
Di nuovo questa proprietà è utile per ricavare la funzione di densità di una v.c.
marginale (ad es. X): basta integrare la funzione di densità della v.c. doppia rispetto
all’altra variabile (nell’es. Y).
Finora abbiamo sviluppato i concetti introdotti per le v.c. multiple in modo parallelo a
quanto fatto per le v.c. semplici, in modo da facilitare la comprensione e la
memorizzazione degli stessi. D’altra parte abbiamo detto all’inizio che le v.c. multiple
sono utili in particolare per lo studio delle relazioni fra le variabili che compongono una
v.c. multipla. Il concetto che segue, quello di variabile casuale condizionata, va
proprio in questa direzione. [A questo riguardo si invita lo studente a rivedere quanto
detto nelle sezioni precedenti riguardo alla probabilità condizionata]
Sia (X, Y) una v.c. doppia. Spesso risulta interessante analizzare una delle variabili (ad
es. Y) per certi particolari valori dell’altra variabile (nell’es. X). Infatti può accadere che
sia il “comportamento” di una ad “influenzare” l’altra; tale influenza può essere studiata
analizzando la distribuzione di una variabile per diversi valori dell’altra: in termini
intuitivi, se la distribuzione rimane “sostanzialmente stabile” è chiaro che ci sarà poca
influenza; se invece “differisce in modo significativo” allora il legame risulta evidente.
Tenendo presente la definzione di probabilità condizionata di cui alle sezioni
precedenti, la v.c. (Y | X = x) (che si legge “Y condizionata a X = x” oppure “Y dato X =
x”) ha una distribuzione definita da
49
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
f ( x, y )
f ( y | x) =
f ( x)
dove:
• f(x, y) è la funzione di massa (se entrambe le v.c. sono discrete) oppure la funzione
di densità (se entrambe le v.c. sono continue) della v.c. doppia;
• f(x) è la funzione di massa (se X è discreta) oppure la funzione di densità (se X è
continua) della v.c. semplice X;
• la risultante f(y | x) sarà una funzione di massa se Y è una v.c. discreta e una
funzione di densità se Y è una v.c. continua.
In modo analogo è definita la v.c. condizionata (X | Y = y): basta invertire il ruolo delle
due variabili nella definizione data [si invita lo studente a farlo per conto proprio].
50
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
51
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Risulta facile verificare che tutti i momenti misti µr0 e µ0s sono i corrispondenti
momenti delle variabili casuali marginali X ed Y; infatti, si ha, ad esempio:
µr0 = E(Xr Y0) = E(Xr)
e analogamente per µ0s. Questo significa che i momenti misti rispetto all’origine in cui r
oppure s sono 0, sono i corrispondenti momenti della v.c. marginale: quindi possono
essere calcolati da questa e per gli stessi valgono le regole date per i momenti delle v.c.
semplici.
Il momento misto dall’origine più significativo quello di ordine 1-1
µ11 = E(XY)
cioè il valore atteso del prodotto fra X e Y.
e analogamente per µ 0 s .
Particolarmente interessante risulta invece il momento misto di ordine 1-1 centrale:
µ 11 = E[(X − µX) (Y − µY)].
Tale momento misto è detto covarianza ed è spesso indicato con σXY, con Cov(X, Y) o
con C(X, Y).
Si evidenzia che, per come è definita, la covarianza è “simmetrica” rispetto agli
argomenti, cioè C(X, Y) = C(Y, X). Si fa notare anche che C(X, X) = V(X), cioè la
covarianza fra X e se stesso è la varianza di X.
La covarianza è un indice assoluto di correlazione (o di concordanza) tra le due
componenti e può assumere valore positivo, negativo o nullo.
La covarianza risulta positiva quando X e Y variano tendenzialmente nella stessa
direzione, cioè al crescere della X tende a crescere anche Y e al diminuire della X tende
a diminuire anche Y. In questo caso si ha che a scarti positivi (negativi) (X – µX)
52
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
r s
X − µX Y − µY
Ponendo g(X, Y) = , per r, s = 0, 1, 2,…, si ha
σX σY
X − µ
r
Y − µY
s
µ rs = E X
σ X σY
che viene detto momento misto di ordine r-s standardizzato.
Il momento misto standardizzato più significativo è quello di ordine 1-1,
53
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
X − µ X Y − µ Y σ XY
µ 11 = E = .
σ X σ Y σ X σ Y
Tale momento misto è usualmente detto coefficiente di correlazione ed è indicato
anche con ρ, con ρXY, o con Corr(X, Y). Come la covarianza anche il coefficiente di
correlazione è “simmetrico” rispetto ai suoi argomenti, cioè Corr(X, Y) = Corr(Y, X),
mentre Corr(X, X) è ovviamente 1.
Anche il coefficiente di correlazione, come la covarianza, è un indice di correlazione
(o di concordanza), anche se relativo (la covarianza è invece un indice di correlazione
assoluto). Infatti, poiché come indicato parlando della covarianza, vale la relazione –σX
σY ≤ σXY ≤ σX σY, allora
σ XY
ρXY = ∈ [–1, 1],
σ XσY
ovvero il coefficiente di correlazione è sempre compreso fra –1 e +1. In pratica, quindi,
il coefficiente di correlazione è una specie di “covarianza relativizzata” in modo che il
suo valore sia compreso fra –1 ed 1 (invece che fra –σX σY e σX σY). Si fa notare che il
segno di ρXY è ovviamente il segno di σXY, cioè il segno del coefficiente di correlazione
dipende dal segno della covarianza.
Si può dimostrare che ρXY = ±1 (ovvero σXY = ± σX σY) solo quando le due v.c. X ed Y
sono linearmente dipendenti cioè quando esistono due costanti a e b tali che Y = a +
bX. In questo caso il segno di ρXY è lo stesso di b, il coefficiente angolare della retta.
Quando ρXY < 0 (che equivale a σXY < 0) si dice che X e Y sono correlati
negativamente (o inversamente), cioè all’aumentare di uno l’altro tende a diminuire (e
viceversa); quando ρXY > 0 (che equivale a σXY < 0) si dice che X e Y sono correlati
positivamente (o direttamente), cioè all’aumentare di uno anche l’altro tende ad
aumentare; quando invece ρXY = 0 si dice che X e Y sono incorrelati (o linearmente
indipendenti).
Si evidenzia che l’incorrelazione è una forma molto particolare di mancanza di
associazione tra variabili e non esclude affatto la presenza di un possibile legame di
natura diversa tra le due componenti X ed Y della v.c. doppia. Infatti potrebbe sussistere
tra le due componenti un legame funzionale molto stretto, ad es. Y = a + bX2, e risultare
ρXY = 0.
54
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
b1b2 b1 b1
= ∫∫ (x − µX) (y − µY) f(x) f(y) dxdy = ∫ (x − µX) f(x) dx ∫ (y − µY) f(y) dy = µ 10 µ 01 = 0
a1a2 a1 a1
55
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Per concludere questa sezione occorre fare qualche ulteriore considerazione sulle v.c.
multiple X = (X1, …, Xk), dove k può essere anche maggiore di 2. Inizialmente abbiamo
dato la definizione di v.c. multipla per una generica v.c. k-dimensionale; tuttavia per
evitare l’eccessiva complessità formale che il caso generale comporta abbiamo limitato
l’analisi alle v.c. doppie. A questo punto possiamo affermare che le definizioni e i
concetti dati possono essere facilmente estesi al caso generale a prezzo, ripetiamo, di
una maggiore complessità delle formule: funzione di ripartizione, funzione di massa,
funzione di densità, proprietà di queste funzioni e relazioni fra queste funzioni, v.c.
condizionate, indipendenza fra v.c., momenti possono essere tutti estesi al caso
generale.
[Lo studente interessato può andarsi a vedere uno dei testi di utile consultazione a
supporto di questo corso]
Per quanto ci riguarda ci limiteremo ad alcune considerazioni aggiuntive non
immediatamente evidenti da quanto detto finora ma che risulteranno utili nel seguito.
• Il concetto di condizionamento è essenzialmente analogo a quello visto per le v.c.
doppie. Nel caso generale, però, possiamo addirittura pensare di condizionare un
sottoinsieme di v.c. ad un altro sottoinsieme di v.c. nell’ambito delle k v.c.
componenti la v.c. multipla.
• Il concetto di indipendenza fra k v.c. anche se del tutto analogo a quello delle v.c.
doppie merita di essere esplicitato. k v.c. (X1, …, Xk) sono indipendenti se la
funzione di massa o di densità della v.c. multipla è uguale al prodotto delle funzioni
di massa o di densità delle v.c. marginali, cioè
k
f(x1, …, xk) = f(x1) … f(xk) = ∏ f(xi).
i=1
56
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
k k 2 k
( )
V ∑ ci X i = ∑ ci V X i + ∑∑ ci c j C X i , X j
( )
i =1 i =1 i =1 j ≠i
Di nuovo: La prima dice che “il valore atteso di una combinazione lineare è uguale
alla combinazione lineare dei valori attesi”; la seconda che “la varianza di una
combinazione lineare è una particolare combinazione lineare delle varianze e delle
covarianze”.
Ovviamente se le v.c. sono tutte fra loro incorrelate (cioè C(Xi, Xj) = 0 per ogni i ≠
j) la prima rimane inalterata e la seconda diviene
k k
V ∑ ci X i = ∑ ci2V ( X i ) .
i =1 i =1
8.1.1. Bernoulli
57
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
p x q1− x per x = 0 ,1
f(x; p) =
0 altrimenti
dove p∈ [0,1] e q = 1 – p.
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
La v.c. di Bernoulli assume quindi due soli valori: X = 1, con probabilità p; X = 0, con
probabilità q. La probabilità di ottenere una qualsiasi altra x è invece 0. Per questo
motivo, il modello di Bernoulli è utilizzato per rappresentare tutti gli esperimenti
casuali di tipo dicotomico, che cioè possono originare due soli risultati fra loro
esclusivi: sì/no, vero/falso, successo/insuccesso, fallito/non fallito, sano/malato, ecc. Il
risultato che interessa è identificato con 1 e l’altro con 0. Per comodità, tuttavia, spesso
ci si riferisce ad 1 come SUCCESSO e a 0 come INSUCCESSO.
L’esperimento tipico spesso associato al modello di Bernoulli è quello dell’urna con una
proporzione p di palline BIANCHE e q = 1 – p di palline NON BIANCHE, del quale
58
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Per questa v.c. è assai semplice determinare il valore dei principali indici caratteristici:
E(X) = p
V(X) = pq
Tale risultato si ricava facilmente dai valori attesi di cui alle pagine precedenti. Infatti
E(X) = 1 p + 0 q = p
E(X2) = 12 p + 02 q = p
V(X) = E(X2) – E(X) 2 = p – p2 = p(1 – p) = pq
8.1.2. Binomiale
0.50 0.50
0.40 0.40
0.30 0.30
0.20 0.20
0.10 0.10
0.00 0.00
-2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12
59
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
1.20
1.20
1.00
1.00
0.80
0.80
0.60
0.60
0.40
0.40
0.20
0.20
0.00
0.00
-2 0 2 4 6 8 10 12
-2 0 2 4 6 8 10 12
La v.c. binomiale può assumere allora solo valori interi da 0 a n, mentre la probabilità di
ottenere una qualsiasi altra x è 0.
Anche la distribuzione binomiale, come quella di Bernoulli, è utilizzata in caso di
esperimenti dicotomici del tipo SUCCESSO/INSUCCESSO (1/0) e di nuovo
l’esperimento tipico è quello dell’urna con una proporzione p di palline BIANCHE e q
= 1 – p di palline NON BIANCHE.
A differenza del caso Bernoulliano, tuttavia, si effettuano n prove indipendenti (cioè
nelle stesse condizioni) delle quali si è interessati a determinare la probabilità di
ottenere x SUCCESSI (e ovviamente n – x INSUCCESSI). L'interpretazione della
formula della funzione di massa della v.c binomiale è allora immediata: la probabilità di
una specifica successione di x successi e (n – x) insuccessi è pari (formula delle
probabilità composte per eventi indipendenti) a
p ⋅ pK p q ⋅ q K q = p x q n− x ;
1424 31 424 3
x volte ( n − x ) volte
non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,
tali probabilità dovranno essere sommate (formula delle probabilità totali per eventi
incompatibili) tante volte quante sono le permutazioni di n oggetti di cui x ed
n
(n – x) sono uguali tra loro, appunto (si veda appendice).
x
Da quanto detto risultano due importanti relazioni della binomiale con la Bernoulli.
60
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
1. Se n = 1 allora Bi(n = 1, p) = Be(p), dato che su una sola prova la somma dei
SUCCESSI è 1 se nella prova vene fuori SUCCESSO e 0 se viene fuori
INSUCCESSO.
2. Poiché, come detto, le n estrazioni sono indipendenti, è ovvio che ciascuna
estrazione è esattamente una prova di Bernoulli. Quindi se Xi è la v.c. risultato della
i-ma prova, allora Xi ~ Be(p). D’altra parte, ciascuna Xi sarà 0 (se INSUCCESSO) o
1 (se SUCCESSO) e quindi la somma delle Xi sarà semplicemente la somma degli 1,
ovvero la somma dei SUCCESSI che però, per quanto visto in questa sezione, ha
una distribuzione binomiale. Riassumendo, allora
n
Xi ~ Be(p) indipendenti i = 1, …, n ⇒ X = ∑ Xi ~ Bi(n, p),
i=1
che può essere ricordato con la frase “la somma di n Bernoulli indipendenti è una
binomiale”. Se utile, inoltre, tale relazione può essere utilizzata anche nel modo
seguente: una binomiale può essere sempre rappresentata come somma di tante
Bernoulli indipendenti.
n n n
V(X) = V( ∑ Xi) = ∑ V(Xi) = ∑ pq = npq.
i=1 i=1 i=1
Strettamente collegata alla v.c. binomiale è la v.c. binomiale relativa. Come detto, X ~
Bi(n, p) rappresenta il numero di successi in n prove di Bernoulli indipendenti ciascuna
con probabilità p. Tuttavia accade spesso di essere interessati non al numero di successi
X X
ma alla proporzione di successi Y = . In tal caso si dice che Y = ha una
n n
61
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Esempio
Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p
= 1 – p = 0.5, si vuol determinare la probabilità che in una famiglia con 4 figli vi sia: a.
almeno un maschio; b. almeno un maschio ed una femmina.
Indichiamo con X la v.c. numero di maschi. Allora X ~ Bi(n = 4, p) (n è pari a 4, il
numero di figli).
a. Il procedimento più breve è far riferimento all’evento complementare, cioè
P(almeno un maschio) = P(X ≥ 1) = 1 – P(X = 0),
dato che il numero di maschi è un intero non negativo. D’altra parte
62
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
4
P(X = 0) = 0.5 0 0.5 4−0 = 0.0625,
0
per cui
P(X ≥ 1) = 1 – 0.0625 = 0.9375
b. “almeno un maschio ed una femmina” significa che il numero dei maschi deve
essere almeno 1 (ovviamente) e non più di 3 (per permettere che almeno 1 sia una
femmina):
P(almeno un maschio ed una femmina) = P(1 ≤ X ≤ 3) = P(X = 1) + P(X = 2) + P(X = 3)
4 4 4
= 0.51 0.5 4−1 + 0.5 2 0.5 4−2 + 0.53 0.5 4−3 = 0.25 + 0.375 + 0.25 = 0.875
1 2 3
Esempio
In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo
predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore
all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il numero
minimo di cavie da sottoporre ad esperimento.
Sia X la v.c. numero di cavie sopravvissute. Allora X ~ Bi(n, p = 0.4) (la probabilità di
SUCCESSO = cavia sopravvissuta in una prova è 1 – 0.6 = 0.4). Il problema da
risolvere è determinare il più piccolo n (numero di cavie da sottoporre ad esperimento)
capace di soddisfare la disuguaglianza
P(X ≥ 2) > 0.8.
Questo problema si risolve procedendo per tentativi sul valore di n, tenendo però conto
che, come è facile intuire, la probabilità al primo membro cresce al crescere di n (infatti
più cavie si utilizzano più è probabile che almeno 2 sopravvivano). Proviamo a partire
da un valore tentativo n (ma andrebbe bene un n qualsiasi) “facendo finta” che 2 (il
numero minimo di cavie sopravvissute) sia anche il valore atteso. Allora dalla formula
di E(X) si ottiene n = 2/0.4 = 5. Se n fosse 5 allora
5 5 1 5−1
P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 0.4 0 0.6 5−0 – 0.4 0.6 = 0.66304,
0 1
che come si nota è inferiore a 0.8. n = 5 è allora troppo piccolo. Proviamo n = 6:
6 6 1 6−1
P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 0.4 0 0.6 6−0 – 0.4 0.6 = 0.76672.
0 1
63
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
8.1.3. Ipergeometrica
La v.c. ipergeometrica può assumere allora solo valori interi compresi fra un certo
minimo, dato da max{0, n – (N – K)} e un certo massimo, dato da min{n, K}.
64
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
che la probabilità di estrarre un certo colore alle estrazioni successive è legato ai colori
estratti in precedenza. In questa situazione la probabilità di estrarre esattamente x
BIANCHE è data dalla funzione di massa della ipergeometrica, come si può facilmente
verificare mediante le formule del calcolo combinatorio. L’interpretazione
dell’estrazione dall’urna senza reimmissione consente anche di spiegare facilmente il
motivo per il quale x è compreso fra max{0, n – (N – K)} e min{n, K}. Che x deve
essere compreso fra 0 ed n è ovvio. D’altra parte se n – (N – K) > 0, cioè il numero di
estrazioni n è maggiore del numero di NON BIANCHE (N – K), nella peggiore delle
ipotesi si pescano tutte le (N – K) NON BIANCHE, ma le rimanenti n – (N – K) estratte
devono essere per forza BIANCHE; se invece n < K, cioè il numero di estrazioni n è
minore del numero di BIANCHE K, nella migliore delle ipotesi si pescano tutte le K
BIANCHE, ma le rimanenti devono essere per forza NON BIANCHE.
La principale proprietà della distribuzione Ipergeometrica è data dalla sua relazione con
la distribuzione Binomiale. Oltre alla analogia delle situazioni alle quali le due
distribuzioni possono essere applicate, infatti, si può dimostrare che per N
sufficientemente grande la distribuzione Ipergeometrica può essere approssimata con la
Binomiale, cioè:
K
IG(n, N, K) ≈ Bi(n, p = ).
N
Anche senza dimostrazioni si può intuire la correttezza di tale relazione se si pensa che
per N “grande”, anche in caso di reimmissione la probabilità di estrarre la stessa unità è
prossima a 0.
65
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
8.1.4. Poisson
dove, λ ≥ 0.
0.45 0.45
0.40 0.40
0.35 0.35
0.30 0.30
0.25 0.25
0.20 0.20
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
-2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12
1.20 1.20
1.00 1.00
0.80 0.80
0.60 0.60
0.40 0.40
0.20 0.20
0.00 0.00
-2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12
La v.c. di Poisson può assumere allora solo valori interi da 0 a +∞, mentre la probabilità
di ottenere una qualsiasi altra x è 0.
Si può dimostrare che i principali indici caratteristici della v.c. di Poisson sono:
E(X) = λ
V(X) = λ,
66
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Una proprietà importante della distribuzione di Poisson è l’additività: se X1, ..., Xk sono
v.c. Poisson indipendenti, allora la loro somma è ancora Poisson con parametro pari alla
somma dei parametri delle singole Poisson; in simboli
k k
Xi ~ Po(λi) indipendenti i = 1, …, k ⇒ X = ∑ Xi ~ Po( ∑ λi).
i=1 i=1
Una seconda proprietà interessante della distribuzione di Poisson è data dalla sua
relazione con la distribuzione Binomiale. Si può infatti dimostrare che per n
sufficientemente grande e p sufficientemente prossima 0 allora
Bi(n, p) ≈ Po(λ = np).
Strettamente collegata alla v.c. di Poisson è la v.c. Poisson relativa. Ipotizzando che il
numero di volte in cui un certo evento accade, diciamo X, sia distribuito secondo una
Poisson, può accadere di essere interessati non a tale numero di volte ma alla
X X
proporzione di volte Y = . In tal caso si dice che Y = ha una distribuzione
n n
Poisson relativa (da interpretare come “Poisson relativizzata”) con parametri n e λ:
X
Y= ~ PoRe(n, λ).
n
La v.c. Y assumerà quindi valori 0, 1/n, 2/n, 3/n, … Anche se si può farlo non ne
scriviamo la funzione di massa in quanto non è molto utile: come per la Binomiale
relativa, tutti i conti che interessano possono essere infatti effettuati lavorando non sulla
proporzione di volte Y ma sul numero di volte X. Ad esempio se interessa la probabilità
che la proporzione di volte sia compresa in un certo intervallo [c1, c2] abbiamo
67
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
X
P(c1 ≤ Y ≤ c2) = P(c1≤ ≤ c2) = P(nc1 ≤ X ≤ nc2).
n
Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X
numero di volte.
I principali indici caratteristici della Poisson relativa, invece si ricavano facilmente da
quelli della Poisson utilizzando le proprietà dei valori attesi:
λ λ
E(Y) = V(Y) =
n n2
Infatti:
X 1 1
E(Y) = E( ) = E(X) = λ
n n n
X 1 1
V(Y) = V( ) = 2 V(X) = 2 λ
n n n
68
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
8.2.1. Normale
69
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
1 1 x − µ 2
f(x; µ, σ2) = exp −
2πσ 2 2 σ
0.25
0.2
0.15
0.1
0.05
0
-4 -2 0 2 4 6 8 10 12 14
1.2
0.8
0.6
0.4
0.2
0
-4 -2 0 2 4 6 8 10 12 14
70
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Attraverso uno studio di funzione si controlla facilmente che la funzione di densità della
v.c. normale ha un andamento “a campana” con le seguenti caratteristiche: ha massimo
in x = µ; è simmetrica rispetto a tale punto di massimo; ha due flessi in corrispondenza
dei punti µ – σ e µ + σ; per x → ± ∞ (le code) la densità f(x) tende asintoticamente a 0.
Nell’ambito delle v.c. normali, come vedremo assume un ruolo particolare la v.c.
Normale standard. La v.c. X ha una distribuzione Normale standard se X ~ N(0, 1),
cioè se è Normale con µ = 0 e σ2 = 1. La sua funzione di densità è quindi la stessa
riportata sopra in cui al posto di µ e di σ si pone rispettivamente 0 e 1.
Si può dimostrare che i principali indici caratteristici della v.c. normale sono dati da
E(X) = µ
V(X) = σ2
γ1 = 0
γ2 = 3
Qualche commento.
Primo: valore atteso e varianza di una v.c. normale coincidono con i due parametri della
distribuzione (la simbologia non è scelta caso!). Notare anche che la varianza non
dipende dal valore atteso, al contrario di molte di quelle viste finora (Bernoulli,
Binomiale, Poisson, Ipergeometrica).
Secondo: l’indice di asimmetria γ1 risulta pari a 0: un risultato del tutto ovvio visto che
la funzione di densità della v.c. normale è simmetrica. Si ricorda a questo proposito che
tale indice assume risulta negativo in caso di asimmetria a sinistra, mentre risulta
positivo in caso di asimmetria a destra della funzione di densità (cfr. Fig. 11).
Terzo: l’indice di curtosi γ2 risulta pari a 3. Mentre l’asimmetria è un concetto definito
in termini assoluti, la curtosi è concetto relativo; infatti, una distribuzione è platicurtica
o leptocurtica solo con si fa riferimento alla distribuzione normale. Poiché quest’ultima
v.c. ha un indice di curtosi pari a 3, si dice platicurtica la distribuzione con γ2 < 3 e
leptocurtica la distribuzione con γ2 > 3 (cfr. Fig. 11).
71
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Asimmetria positiva
Asimmetria negativa
γ1 > 0
γ1 < 0
µ Me Mo Mo Me µ
Distribuzione leptocurtica
γ2 > 3normale
Distribuzione
γ2 = 3
Distribuzione platicurtica
γ2 < 3
72
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Nella sezione sui momenti abbiamo evidenziato che se X è una v.c. con media µ e
varianza σ2, allora qualsiasi sia la forma della sua distribuzione si ha che
X −µ X −µ
E =0 V = 1.
σ σ
Tuttavia nel caso particolare in cui la v.c. oltre ad avere media µ e varianza σ2 sia anche
Normale, si può dimostrare che anche la v.c. standardizzata ha una distribuzione
Normale, ovviamente con media 0 e varianza 1. In simboli
X −µ
X ~ N(µ, σ2) ⇒ Z = ~ N(0, 1).
σ
Poiché i valori della funzione di ripartizione della Normale standard sono stati tabulati
(o possono essere calcolati con un computer attraverso particolari algoritmi: anche
Excel ne ha uno) il calcolo della probabilità che una v.c. Normale standard assuma
valori in un certo intervallo (z1, z2] può essere fatto nel modo seguente:
P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1),
dove le probabilità P(Z ≤ z2) e P(Z ≤ z2) sono appunto i valori della funzione di
ripartizione della Normale standard in z1 e z1 che possono essere letti nella tavola.
Come ulteriore aiuto per il calcolo delle probabilità di cui sopra, si fa notare che la
simmetria rispetto a 0 della funzione di densità della Normale standard implica
P(Z ≤ – z) = 1 – P(Z ≤ z)
(si invita lo studente a evidenziare graficamente questa proprietà). Questo comporta
che, nel caso in cui si ricorra alle tavole, la tabulazione per valori di z ≥ 0 è sufficiente
anche per calcolare valori probabilità per z negative.
In base alla logica seguita, il calcolo della probabilità che una generica v.c. Normale
assuma valori in un certo intervallo (x1, x2] può essere ricondotto a quello della v.c.
Normale standard nel modo seguente:
x − µ X − µ x2 − µ
P(x1 < X ≤ x2) = P 1 < ≤ = P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1)
σ σ σ
x1 − µ x2 − µ X −µ
dove z1 = e z2 = sono calcolati e Z = ha come detto una
σ σ σ
distribuzione N(0, 1).
Si ricorda anche che se X è una v.c. continua allora P(X = x) = 0 per ogni x. Di
conseguenza se nell’esempio di cui sopra avessimo calcolato probabilità che X assuma
73
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
valori in [x1, x2], oppure in (x1, x2) o ancora in [x1, x2) avremmo ottenuto lo stesso
identico risultato.
Come detto ad inizio sezione, la distribuzione Normale è importante perché sotto certe
condizioni approssima bene molte distribuzioni. Ad esempio, relativamente alle
distribuzioni analizzate si dimostra che: 2
• per n sufficientemente grande, la distribuzione Binomiale può essere bene
approssimata dalla distribuzione normale con la stessa media e la stessa varianza
della Binomiale, cioè
Bi(n, p) ≈ N(µ = np, σ2 = npq)
• per λ sufficientemente grande, la distribuzione di Poisson può essere bene
approssimata dalla distribuzione Normale con la stessa media e la stessa varianza
della Poisson, cioè
Po(λ) ≈ N(µ = λ, σ2 = λ)
• per n sufficientemente grande, la distribuzione χ2 (che vedremo successivamente)
può essere approssimata abbastanza bene dalla distribuzione normale con la stessa
media e la stessa varianza della χ2, cioè
χ n2 ≈ N(µ = n, σ2 = 2n)
2
Si fa notare che molte delle approssimazioni riportate sono giustificabili via teorema limite centrale (si
veda sez. 9).
74
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
varianza sono Normali allora anche una qualsiasi combinazione lineare è Normale. In
simboli
k k k k
Xi ~ N(µi, σ i2 ) i = 1, …, k ⇒ ∑ ci Xi ~ N ∑ ci µ i , ∑ ci2σ i2 + ∑∑ ci c j σ ij ,
i =1
i=1 i =1 i =1 j ≠i
dove ci sono delle costanti e σ ij sono le covarianze fra la v.c. i-ma e j-ma. Si può notare
che rispetto alla proprietà del valore atteso e della varianza di una combinazione lineare,
k
in più c’è solo la Normalità di ∑ ci Xi, dato che media e varianza conseguono come
i=1
detto dalle proprietà dei valori attesi per v.c. multiple. E’ ovvio che, sempre nell’ipotesi
di normalità delle Xi, se le n v.c. sono fra loro incorrelate, cioè le σ ij sono tutte 0,
allora
k k k
∑ ci Xi ~ N ∑ ci µ i , ∑ ci2σ i2 .
i=1 i =1 i =1
Un altro caso particolare molto importante (cui faremo sovente riferimento in ambito
inferenziale) si ha quando le Xi oltre ad essere distribuite normalmente sono anche
indipendenti, con la stessa media µ e con la stessa varianza σ2. In questo caso,
sfruttando i risultati precedenti si dimostra facilmente che la distribuzione della media
aritmetica delle v.c. Xi ha la seguente distribuzione
1 n
X = ∑ X i ~ N(µ,σ2/n).
n i =1
σ2 per tutte le i.
Esempio
Sia X ~ N(µ = –2, σ2 = 0.25). Si vuol determinare il valore della costante c in modo da
soddisfare le relazioni:
a. P(X ≥ c) = 0.2;
b. P(–c ≤ X ≤ –1) = 0.5;
c. P(c1 ≤ X ≤ c2) = 0.95;
75
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
c − µ X − µ c2 − µ
= P 1 ≤ ≤ = P(–z ≤ Z ≤ z), da cui P(Z ≤ z) = 0.975 e quindi z =
σ σ σ
1.96. A questo punto si possono ricavare c1 = µ – σz = –2 – 0.5·1.96 = –2.98 e c2 =
µ + σz = –2 + 0.5·1.96 = –1.02.
Esempio
76
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Si chiede inoltre:
d. Quale valore dovrebbe assumere la costante c affinché la percentuale attesa di
lamine che si discosta da 10 mm per una quantità non superiore a c sia pari a 0.95;
e. come varierebbe la percentuale attesa di cui al punto d, relativamente al valore della
costante |c| trovato, nel caso in cui si avesse µ = 10.01.
X − µ 10.05 − 10
b. P(X > 10.05) = P > = P(Z > 2.5) = 1 – P(Z ≤ 2.5) = 0.00621
σ 0.02
X − µ 9.97 − 10 X − µ 10.03 − 10
c. P(X ≤ 9.97) + P(X ≥ 10.03) = P ≤ + P ≥ =
σ 0.02 σ 0.02
P(Z ≤ –1.5) + P(Z ≥ 1.5) = 2 P(Z ≥ 1.5) = 2 [1 – P(Z ≤ 1.5)] = 0.13361
− c X − 10 c
d. 0.95 = P(–c < X – 10 < c) = P < < = P(–z < Z < z) implica z =
σ σ σ
1.96, da cui c = σ z = 0.02٠1.96 = 0.0392
e. P(10 – 0.0392 < X < 10 + 0.0392) = P(9.9608 < X < 10.0392) =
9.9608 − 10.01 X − 10.01 10.0392 − 10.01
P < < = P( –2.46 < Z < 1.46) = P(Z <
0.02 0.02 0.02
1.46) – P(Z < –2.46) = 0.92785 – (1 – 0.99305) = 0.9209
77
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
+∞
Γ(α ) = ∫x
α −1 − x
e dx .
0
Valori particolari della funzione Gamma sono Γ(1) = 1, Γ(1/2) = π e Γ(n) = (n – 1)!
se n è un intero positivo. Inoltre si dimostra per induzione che vale la relazione Γ(α + 1)
= Γ(α).
La v.c. Gamma può assumere allora solo valori positivi. Si può dimostrare che i
principali momenti della distribuzione Gamma sono dati da
α α
E(X) = V(X) = .
β β2
In realtà, per quanto riguarda questo corso non utilizzeremo spesso la distribuzione
dove n è un intero positivo detto gradi di libertà (il significato di questa espressione
sarà chiarito nei capitoli successivi).
78
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14
La v.c. χ2 può allora assumere solo valori positivi. Anche in questo caso uno studio di
funzione evidenzia che questa funzione di densità: è monotona decrescente per n = 1 e n
= 2, mentre per n > 2 ha un massimo nel punto x = n – 2.
Infatti capita raramente di dover utilizzare la funzione di densità della χ2, mentre si
utilizzano assai più spesso le sue proprietà.
Z ~ N(0, 1) ⇒ Z2 ~ χ2(1).
La seconda è la proprietà di additività del Chi-quadrato: se X1, ..., Xk sono v.c. Chi-
quadrato indipendenti, allora la loro somma è ancora Chi-quadrato con gradi di libertà
pari alla somma dei gradi di liberta delle singole Chi-quadrato; in simboli
k k
Xi ~ χ2(ni) indipendenti i = 1, …, k ⇒ X = ∑ Xi ~ χ2( ∑ ni).
i=1 i=1
79
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Sulla base dei momenti della Gamma si ricava facilmente che i principali indici
caratteristici della v.c. Chi-quadrato sono:
E(X) = n
V(X) = 2n
Esempio
80
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
0.5
0.4
0.3
0.2
0.1
0
-6 -4 -2 0 2 4 6
Fig. 13 – Funzione di densità della v.c. X ~ T(n) (Blu: n = 1; Rosa: n = 3; Verde: n = 10;
Celeste: n = +∞ (ovvero N(0,1))).
La distribuzione T, introdotta dal chimico W.S. Gosset nel 1908 sotto lo pseudonimo di
"Student", può assumere allora qualsiasi valore reale. Anche in questo caso uno studio
di funzione è utile per evidenziare che funzione di densità ha un andamento a campana
con le seguenti caratteristiche: è simmetrica; ha un massimo nel punto x = 0; le code
tendono asintoticamente a 0.
Anche in questo caso, a meno di una esplicita necessità, si invita lo studente a non
memorizzare la funzione di densità. Infatti capita raramente di doverla utilizzare mentre
più spesso si utilizzano le sue proprietà.
81
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Si può infine dimostrare che i principali indici caratteristici della v.c. T sono:
E(X) = 0 per n ≥ 2 (non esiste per n < 2)
n
V(X) = per n ≥ 3 (non esiste per n < 3)
n−2
Esempio
82
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
n1 + n2 n1 / 2 n2 / 2
Γ 2 n1 n2 x n1 / 2−1
per x > 0
f(x; n) = n n
Γ 1 Γ 2 (n2 + n1 x )( n1+n2 ) / 2
2 2
0 altrimenti
dove n1 e n2 sono due interi positivi detti gradi di libertà.
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12
La v.c. F può allora assumere solo valori positivi. Anche in questo caso uno studio di
funzione evidenzia che questa funzione di densità ha una forma simile a quella della χ2.
Di nuovo, a meno di una esplicita necessità, si invita lo studente a non memorizzare
l’equazione della funzione di densità. Infatti capita raramente di doverla utilizzare,
mentre più spesso si utilizzano le sue proprietà.
X 1 / n1
X1 ~ χ2(n1), X2 ~ χ2(n2) indipendenti ⇒ X = ~ F(n1,n2).
X 2 / n2
Si noti che l'ordine dei gradi di libertà n1 ed n2 è fondamentale.
83
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Si può infine dimostrare che i principali indici caratteristici della v.c. F sono
n2 2n22 (n1 + n2 − 2)
E(X) = V(X) =
n2 − 2 n1 (n2 − 2)2 (n2 − 4)
Esempio
Sia X ~ F(7, 10). Si vogliono determinare i valori della costante c che soddisfano:
a. P(X ≤ c) = 0.95;
b. P(X ≤ c) = 0.01.
La funzione di densità della v.c. normale doppia o v.c. normale bivariata è data da
f(x, y; µX, µY, σX, σY, ρXY) =
x − µ
2
x − µX y − µY y − µY
2
1 1
X
exp− − 2 ρ XY +
2
2 πσ X σ Y 1 − ρ XY
2
2(1 − ρ XY ) σ X σX σY σY
84
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
X − µ X Y − µY σ XY
µ 11 = E = = ρ XY = ρ YX
σ X σY σ X σ Y
f ( x, y) 1 1 σX
f ( x | y) = = exp− − µ − ρ ( − µ )
f ( y) (
2πσ X2 1 − ρ XY
2
) (
2σ X2 1 − ρ XY
2
)
y Y XY
σY
y Y
f ( x, y) 1 1 σY
f ( y | x) = = exp− − µ − ρ ( − µ )
f ( x) (
2π σ Y2 1 − ρ XY
2
) (
2σ Y2 1 − ρ XY
2
)
y Y XY
σX
x X
che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni
condizionate.
Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni
condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal
coefficiente di correlazione. Se ρXY = ρYX = 0, le due variabili casuali componenti sono
indipendenti (cioè f(x, y) = f(x) f(y)) e le distribuzioni condizionate, per l’indipendenza,
non risentono più del condizionamento e risultano uguali alle distribuzioni marginali.
Nella Fig. 15 è riportata la forma della funzione di densità e le sezioni orizzontali e
verticali della variabile casuale normale doppia le cui componenti sono incorrelate
(indipendenti) ed hanno uguale varianza.
85
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Fig. 15 – Funzione di densità di una v.c. normale doppia con ρXY = ρYX = 0 e σ x2 = σ 2y =
σ2 .
Nella Fig. 16 sono riportate le sezioni orizzontali di variabili casuali normali doppie
incorrelate (ρXY = 0) con relazione diversa tra le varianze delle due distribuzioni
marginali.
Fig. 16 - Sezioni orizzontali di una variabile casuale normale doppia con ρXY = ρYX = 0
86
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
σ Y2 = 1.
87
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Nella Fig. 17 sono riportate le sezioni orizzontali di una variabile casuale normale
perfetta si ha solo quando ρXY = ρYX = 0 e σ X2 = σ Y2 . Se ρXY = ρYX = ±1, cioè se esiste
un legame lineare tra le due componenti, si avrà un completo schiacciamento della
distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro
desumibile immediatamente anche per via analitica e dal punto di vista logico; non ha
più senso, infatti, parlare di variabilità su due componenti essendo la variabilità dell’una
(ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la relazione
Y = a + bX).
88
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
p1 = P(ω1 ) = P( X = 1) = p x
p 2 = P(ω 2 ) = P(Y = 1) = p y
p3 = P(ω 3 ) = P[( X = 0) ∩ (Y = 0)] = 1 − p x − p y = q
si avrà
n!
f ( x, y ) = P[( X = x) ∩ (Y = y )] = p xx p yy q n− x − y
x! y!(n − x − y )!
px ⋅ p y
µ 11 = σ xy = σ yx = − n p x p y , µ 11 = ρ xy = ρ yx = −
(1 − p x ) (1 − p y )
py px
E (Y | x) = (n − x) , E ( X | y ) = (n − y )
1 − px 1− py
89
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
numero delle volte in cui, nelle n prove, si è presentato, rispettivamente il risultato ω1,
ω2, …, ωk. Il numero delle volte in cui si presenta il risultato ωk+1 non viene considerato
k
risultando il suo valore per differenza n − ∑ x i .
i =1
k
Se con p1 , p 2 , ... , p k , q = 1 − ∑ pi si indicano le probabilità dei risultati (punti
i =1
campionari) ω1, ω2, …, ωk+1, la funzione di massa di probabilità della variabile casuale
multinomiale è
k
n − ∑ xi
n! x
f ( x1 , x 2 , ..., x k ) = p1x1 ⋅ p 2x2 ... p k k q i =1
k
x1! x 2 ! ... x k ! n − ∑ xi !
i =1
k
dove x1, x2, …, xk = 0, 1, 2, …, n, con il vincolo ∑ xi ≤ n .
i =1
90
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Teorema 1: Teorema di Markov. Siano: X una v.c. con funzione di massa (se
discreta) o di probabilità (se continua) f(x); g(.) una funzione a valori
reali non negativa; e c una costante positiva. Allora
E [g ( X )]
P[g(X) ≥ c] ≤
c
91
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
1
P[| X – µ | ≤ kσ] ≥ 1 – .
k2
Il risultato sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori
che si collocano in un intorno della media di ampiezza ± kσ è sempre superiore ad
1
1− . Ovviamente la disuguaglianza assume significato solo per k > 1.
k2
La dimostrazione di questa disuguaglianza segue facilmente dal teorema di Markov
ponendo g(X) = X – µ, c = kσ , cosicché
Questo significa che siccome c può essere scelto piccolo a piacere, al crescere del
numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la
frequenza relativa di un evento X/n converge, in probabilità, alla probabilità p
dell’evento stesso.
X
Il teorema si dimostra applicando il teorema di Markov per g(X) = − p , da cui
n
X
2
E − p
X X
2 n pq
P − p ≥ c = P − p ≥ c 2 ≤ 2
= ;
n n c n c2
quindi
92
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
X pq
lim P − p ≥ c ≤ lim =0
n→ +∞ n n→+∞ n c 2
da cui segue
X
lim P − p < c = 1 .
n→+∞ n
Teorema 4: Teorema di Kolmogorov (legge forte dei grandi numeri). Sia X1, X2,
…, Xn, … una successione di v.c. indipendenti e identicamente
distribuite, di media µ finita. Allora per la variabile casuale
n
1
Xn =
n
∑ X i vale la relazione
i =1
P lim X n = µ = 1 .
n→+∞
Teorema 5: Legge debole dei grandi numeri. Sia X1, X2, …, Xn, … una successione
di v.c. indipendenti e identicamente distribuite, di media µ e varianza σ2
n
1
> 0 finite. Allora per la variabile casuale X n =
n
∑ Xi vale la relazione
i =1
( )
lim P X n − µ < c = 1 .
n→+∞
Sulla rilevanza operativa, tutt’altro che marginale, delle leggi dei grandi numeri si avrà
modo di soffermare l’attenzione successivamente.
93
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Teorema 6: Teorema del limite centrale. Sia X1, X2, …, Xn, … una successione di
v.c. indipendenti ed identicamente distribuite (i.i.d.) di media µ e
varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica
dei primi n elementi della successione)
n
1
Xn =
n
∑ Xi
i =1
L’implicazione più rilevante del teorema e che per n abbastanza grande la variabile
casuale X n può essere approssimata dalla distribuzione normale di media µ e varianza
σ2/n senza fare alcuna assunzione circa la forma della distribuzione delle Xi. La bontà
dell’approssimazione dipende, come è facile intuire, dal tipo di distribuzione delle Xi:
tanto più è “simile” a quella della Normale (simmetria, code “sottili” ecc.) tanto
migliore è l’approssimazione anche per n non troppo grandi.
In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in
cui non si richiede più che le variabili casuali della successione abbiano identica
distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi
generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) =
94
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Xn −µ
Zn =
σ /n
n n n
1 1 1
dove: X n =
n
∑ Xi , µ = n
∑ µi , σ 2 = n
∑ σ i2 .
i =1 i =1 i =1
Se fra gli n oggetti ve ne sono n1 (n1 ≤ n) uguali tra loro, n2 (n2 ≤ n) uguali tra loro, fino
h
a nh (nh ≤ n) uguali tra loro, con n = ∑ ni, e si vuol procedere alla determinazione del
i=1
numero dei gruppi diversi che possono essere formati, si dovrà tener conto del fatto che
lo scambio di posto fra due oggetti uguali non modifica il gruppo; ad esempio se i tre
oggetti sono A, A e B, si verifica, immediatamente che i possibili gruppi diversi sono
soltanto 3:
(A, A, B) (A, B, A) (B, A, A).
95
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Sono stati, cioè, eliminati dai 6 gruppi iniziali i 3 gruppi che comportavano uno scambio
di posto dello stesso oggetto A; il numero delle permutazioni in questo caso è dato da
3!
.
2! 1!
In generale il numero delle permutazioni di n oggetti, di cui n1 uguali tra loro, n2 uguali
tra loro, ... nh uguali tra loro, che vengono dette con ripetizione, proprio per il ripetersi
di alcuni oggetti, è dato da
h
n!
Pn1,n2 ,...,nh =
n1!n2!...nh!
dove n = ∑ ni
i=1
n! n
La quantità Pn1,n2 ,...,nh = = viene usualmente detta
n1!n2!...nh! n1 , n2 ,⋅ ⋅ ⋅ ⋅ ⋅, nh
96
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Dn,n = n! = Pn,
cioè le disposizioni di n elementi in classe n coincidono con le permutazioni di n
elementi.
Dnr,k = n k
in quanto ciascuno dei k posti può essere occupato da ciascuno degli n oggetti
(n n ...n = nk).
Se ci si propone di determinare i possibili gruppi che possono essere formati
prendendone k (senza ripetizione) dagli n dati in modo che ciascun gruppo differisca
dall'altro per almeno un elemento, il numero dei possibili gruppi, cioè delle
combinazioni di n elementi in classe k, si ottiene escludendo dal numero delle
disposizioni di classe k tutte quelle che differiscono tra loro solo per l'ordine degli
elementi, cioè
Dn , k n! n
Cn,k = = = ,
Pk k!(n − k)! k
n
dove rappresenta anche il k-esimo termine dello sviluppo del binomio di Newton
k
n
n
(a + b)n = ∑ k a k b n−k
k =1
e viene usualmente detto coefficiente binomiale. Si tratta, ovviamente, di una
particolarizzazione del polinomio di Leibniz per h = 2. Si noti inoltre che le
combinazioni di n elementi di classe k coincidono con le permutazioni con ripetizione
di n elementi dei quali k uguali tra loro ed (n – k) uguali tra loro
n n!
Cn,k = = = Pk,n – k
k k!(n − k)!
97
B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2
Metodi Statistici per l’impresa
Si riportano infine alcune relazioni di uguaglianza tra formule combinatorie utili nel
calcolo delle probabilità.
n n
=
k n − k
n + 1 n n
= + per n = 1, 2, … e k = 0, ± , ± 2, …
k k k − 1
− n n + k − 1
= (− 1)k
k k
98