Sei sulla pagina 1di 54

Nozioni elementari di

Probabilità

Docente: Prof. Paola Rinaldi


Probabilità
Quattro definizioni per l’attribuzione di valori alla
probabilità
1.Definizione classica
2.Definizione frequentistica
3.Definizione assiomatica
4.Definizione soggettivista
Definizione classica di Probabilità:
La probabilità di un evento è il rapporto fra il
numero di casi favorevoli (all’evento) e il numero di
casi possibili, purché questi siano tutti ugualmente
possibili.

- I casi sono quelli che abbiamo chiamato risultati


- I casi possibili sono la totalità dei risultati.
- I casi favorevoli sono i risultati che compongono
l’evento considerato
Il concetto classico di probabilità

•è un concetto applicabile quando si conoscono i


casi favorevoli ed i casi possibili, come nel caso
del lancio del dado

• si basa sull’ipotesi che tutti i casi dell’evento


siano equiprobabili.

•Ovviamente nella realtà non sempre si può avere


tale condizione, per cui risulta utile introdurre il
concetto di probabilità attraverso diverse
definizioni.
Definizione frequentistica (o statistica) di probabilità:

Si definisce probabilità frequentistica di un evento il numero che


esprime la frequenza relativa dell’evento calcolata su un numero
‘sufficientemente elevato’ di prove tutte fatte nelle stesse condizioni.
• La definizione frequentistica si basa sulla legge dei grandi numeri (o legge empirica del caso)
secondo cui, in un gran numero di prove fatte tutte nelle medesime condizioni, la frequenza
relativa dei successi tende al valore teorico della probabilità.
• Ciò fa pensare che in fenomeni in cui la probabilità classica non è applicabile è possibile
considerare la frequenza di eventi già accaduti e considerarla come probabilità di eventi futuri.
• Risulta subito evidente il limite di questa definizione: non si precisa quanto grande debba
essere il numero di prove e per di più è necessario ripetere le prove nelle medesime condizioni.
esempio
In un’urna ci sono palline bianche e palline nere, ma non si sa
quante siano.

Estraendo una pallina, qual è la probabilità che sia nera?


Per rispondere è necessario dapprima fare molte prove,
estraendo una pallina alla volta e rimettendola nell’urna.
Si supponga di aver fatto 100 prove e di aver estratto una pallina
nera per 15 volte.
Per determinare la probabilità che la pallina sia nera,
si calcola la frequenza relativa delle prove favorevoli,
ottenendo così un valore approssimato della probabilità.
La frequenza relativa è 15/100 =0,15.
Pertanto, la probabilità che la pallina estratta sia nera è circa del
15%.
Definizione soggettivistica della probabilità

Si definisce probabilità soggettiva di un evento la misura del grado di fiducia che


un individuo coerente assegna al verificarsi di un dato evento in base alle sue
conoscenze
esempio

Supponiamo di essere disposti a scommettere 1 contro 20 sul fatto che nel pomeriggio arrivi finalmente il sole:
attribuiamo cioè a tale evento una probabilità pari ad 1/21 (meno del 5%). E` come se ci trovassimo ad effettuare un
sorteggio da un'urna con 1 pallina rossa (evento positivo = sole) e 20 palline nere (eventi negativi = pioggia).
Stiamo dando implicitamente una valutazione di probabilità al realizzarsi dell'evento.
La frazione che esprime la probabilità ha numeratore uguale ad 1 che corrisponde a quanto si è disposto a
scommettere e denominatore pari a 21 corrisponde alla nostra puntata sommata alla puntata di un ipotetico sfidante.
Nonostante sia d’aiuto nella risoluzione di
problemi che non è possibile affrontare facendo
ricorso alla probabilità classica o frequentistica,
la probabilità soggettiva presenta due grossi
limiti:

•chi elabora la probabilità deve essere


“coerente”, cioè deve attribuire lo stesso valore
di probabilità a fenomeni simili, cosa non sempre
facile se il giudizio è viziato da valutazioni
personali;
•chi elabora la probabilità deve essere in
possesso del maggior numero di dati possibili:
più informazioni si hanno a disposizione, meglio
si può individuare il valore della probabilità.
• Il dominio della probabilità soggettiva appare incerto e arbitrario
.
• Allo stesso tempo si osserva che proprio questa

• è la definizione di probabilità a cui più spesso si ricorre


quotidianamente:

- Domani pioverà,
- In questo appello passerò l'esame ………
Definizione assiomatica di probabilità (Kolmogorov, 1933) :

non si preoccupa di stabilire “cosa sia” 
la probabilità, ma solo di definirla implicitamente 
tramite un insieme di assiomi
•Non è una nuova definizione operativa e non fornisce indicazioni su
come calcolare la probabilità ma risponde all’esigenza di individuare
gli assiomi su cui basare la teoria della probabilità e da cui poi far discendere
postulati e teoremi.

•E’ quindi un approccio matematico e rigoroso

•È quindi una teoria comune a tutte le definizioni di probabilità finora descritte


Esperimenti, Risultati, Eventi

Si chiama esperimento aleatorio un qualunque


processo o fenomeno, oggetto di osservazione,
che può dare luogo a più risultati, dei quali non
si può dire quale si verificherà prima che
l’esperimento sia compiuto.

La totalità dei risultati di un esperimento


aleatorio può essere considerato un insieme S
I risultati che hanno una data proprietà costituiscono
un sottoinsieme di S che chiamiamo evento.

L’insieme degli eventi, cioè l’insieme di tutti i


sottoinsiemi di S, costituisce lo spazio degli eventi.

Si chiama evento elementare un evento costituito da


un solo risultato.

All’insieme S di tutti i risultati si dà il nome di evento


certo.
All’insieme vuoto () si da il nome di evento
impossibile.

La somma di due eventi A e B (A+B) è l’evento


rappresentato dal risultato della operazione di unione
fra i corrispondenti insiemi.

Il prodotto di due eventi A e B (AB) è l’evento


rappresentato dal risultato dell’operazione di
intersezione fra i corrispondenti insiemi
(è la probabilità di A e B, cioè la probabilità che si verifichino entrambi)

Se AB= i due eventi si dicono incompatibili.


• Si definisce somma di due eventi A e B l'evento C
che consiste nel verificarsi dell'evento A o
dell'evento B o di entrambe. La probabilità
dell'evento C si scrive nel seguente modo:
P(A  B) = P(A + B)
 

• Si chiama prodotto di due eventi A e B l'evento C


che consiste nel verificarsi simultaneo degli eventi
A e B. La probabilità dell'evento C si indica nel
seguente modo:
P(AB)= P(A B)
(è la probabilità di A e B, cioè la probabilità che si verifichino entrambi)
• Due eventi A e B si dicono incompatibili ( o mutuamente esclusivi) se
il verificarsi dell’uno esclude il verificarsi dell’altro cioè se AB = Ø
e se P(AB)=0.

quindi la loro intersezione è l'evento impossibile A  B = , cioè è


impossibile che si verifichino entrambi.
Sono incompatibili un qualunque evento E ed il suo contrario Ec.
Oppure, nel lancio di un dado:
A =‘‘esce un numero pari’’ e B =‘‘esce un numero dispari’’.

• Due eventi A e B si dicono compatibili se il verificarsi dell’uno non


esclude il verificarsi dell’altro cioè se P(AB) ≠ Ø .

Ad esempio l'evento "rosso" è compatibile con l'evento "pari" alla roulette,


poiché fra i numeri rossi ce ne sono di pari
e di dispari e quindi “rosso e pari” è un evento possibile
Gli eventi compatibili ed incompatibili
costituiscono rispettivamente due insiemi
congiunti e due disgiunti.
La probabilità è un numero compreso tra 0 e 1 (estremi inclusi)
che viene associato ad ogni evento.
In particolare valgono i seguenti assiomi e proprietà:

1. Per ogni evento A, P[A]  0; (assioma di non negatività)

2. La probabilità dell’evento certo è P[S] = 1 (assioma di normalizzazione);

3. La probabilità dell’evento impossibile P(Ø) = 0

4. Se A e B sono due eventi incompatibili cioè se A  B =  allora

La probabilità della loro somma è data da P(A+B)=P(AUB) = P(A)+ P(B) (assioma di additività)

5. Se A e B sono due eventi compatibili, ((AB  0, AB  0) la probabilità della loro


somma è eguale alla somma delle probabilità dei due eventi diminuita della probabilità
dell'intersezione dei
due eventi e cioè P[A+B]= P[A] + P[B]  P[AB]
Cioè la probabilità che si verifichi A+ la probabilità che si verifichi B - la probabilità che si verifichino
entrambi

6. La probabilità dell’evento contrario a P( A ) è 1 – P(A)

7. Se tutti i risultati che compongono un evento B fanno parte anche di un altro evento A, è:

P[B]  P[A].
Probabilità condizionata, Probabilità composta

Probabilità condizionata P[A|B]:

è la probabilità che ha un evento qualsiasi A di manifestarsi, dopo che si è manifestato


un evento B, detto condizionante, cioè che lo condiziona.
Se B non si verifica l’evento A|B non è definito
In altri termini con P(A|B) si indica la probabilità dell'evento A condizionata dal vericarsi di
B, cioè la probabilità che ha A di verificarsi quando si sappia che B si è vericato.

P[ AB] P ( A  B )
P[ A | B ]  
P[ B] P[ B]
Osserviamo che per valutare P(A) si prende in considerazione l'universo U
degli eventi elementari;
Per valutare invece la probabilità di A condizionata a B l'universo U si riduce
al suo sottoinsieme B e quindi è in B che si debbono considerare gli eventi
elementari.
In sostanza, si valuta la probabilità di A subordinata all'ipotesi B.
L'informazione derivante dal verificarsi dell’evento B restringe l'universo U
a un suo sottoinsieme B.

A AB B
Analogamente si può calcolare la probabilità di
B condizionato ad A

P[ AB] A  B
P[ B | A]  
P[ A] P[ A]

La probabilità del prodotto di due eventi è:

P[ AB]  P( A  B)  P[ A]  P[ B | A]  P[ B]  P[ A | B ]
Eventi Indipendenti

Se risulta P[B|A] = P[B] si dice che B è indipendente da A.

Intuitivamente dire che B è indipendente da A significa dire


che il verificarsi di B non influisce sulla probabilità del verificarsi di A. In
altre parole la probabilità di B condizionata al verificarsi di A è uguale alla
probabilità di B (non condizionata)

Risulta quindi che A e B sono due eventi indipendenti se e


solo se:

P[AB]=P(AB)=P[A]P[B]
Variabili Aleatorie
Una variabile casuale
(o variabile aleatoria o variabile stocastica o random variable)
può essere pensata come il risultato numerico di un esperimento
quando questo non è prevedibile con certezza
(ossia non è deterministico).

Ad esempio, il risultato del lancio di un dado a sei facce può essere


matematicamente modellato come una variabile casuale che può
assumere uno dei sei possibili valori 1,2,3,4,5,6.               .
Le variabili aleatorie

• Una variabile aleatoria (o casuale) “X” è definita come una


quantità numerica che assume differenti valori “x” con un
probabilità specificata P(X=x)
             .
• Si distinguono due tipi di variabili aleatorie:
– Variabili aleatorie discrete
– Variabili aleatorie continue
   Distribuzione di probabilità
•E’ lo strumento per la conoscenza della v.a.

•è un modello matematico che collega i valori di una variabile alle probabilità che
tali valori possano essere osservati, è l’insieme di tutte le probabilità per quella
v.a.

•Le distribuzioni di probabilità vengono utilizzate per modellizzare il


comportamento di un fenomeno di interesse.

•In questo contesto la variabile di interesse è vista come una variabile casuale (o
variabile aleatoria, v.a.) la cui legge di probabilità descrive come i suoi valori
possono essere osservati.     .
Esistono due tipi di distribuzioni di probabilità:
1. distribuzioni continue: la variabile viene espressa su
un scala continua
2. distribuzioni discrete: la variabile viene misurata con
valori numerici interi

Formalmente le distribuzioni di probabilità vengono espresse da una legge


matematica detta

funzione di densità di probabilità (indicata con f(x))


per le distribuzioni continue

 funzione di probabilità (indicata con p (x))


(x) rispettivamente
per le distribuzioni discrete
La distribuzione potrà essere discreta o continua:
in un diagramma con ascisse x e ordinate la p(x) si avrà nel primo caso
-un insieme di righe
-nel secondo una curva continua, ed in questo secondo caso si ha a che fare
con la densità di probabilità

•Se la variabile x è discreta la sommatoria delle probabilità corrispondenti ai


valori assumibili vale 1,

•Se la variabile è continua è l’integrale della densità di probabilità esteso a tutto


l’intervallo entro cui x può variare ad essere uguale a 1.
Le variabili aleatorie continue e discrete possono essere caratterizzate anche attraverso la
Funzione di Distribuzione o Funzione di Ripartizione
È la funzione che associa a ciascun valore x la probabilità dell’evento «variabile casuale X assume valori minori o uguali a x» cioè non superiori ad x

Caratteristiche:

a. F() = 0, perché x <  è impossibile, quando l'argomento x della


funzione tende a -  la funzione di distribuzione tende a zero.
b. F(+) = 1, perché x  + è certo, quando l'argomento x tende a + la
funzione di distribuzione tende a uno
c. F è una funzione non decrescente, cioè se x1 < x2 è F(x1)  F(x2)
Funzione di distribuzione o ripartizione F(x) :caso discreto
variabile lancio del dado

x 1 2 3 4 5 6
P(x) 1/6 1/6 1/6 1/6 1/6 1/6
F(x) 1/6 2/6 3/6 4/6 5/6 6/6

• Costruire la F(x) significa costruire la progressiva somma delle frequenze relative


• Considerando ad esempio il 4/6 possiamo dire che attraverso questa F(x) del caso
discreto, la Probabilità che la v.a. x assuma valori  4 è esattamente = 4/6.

Graficamente

• F(x) discreta è un grafico a scala


• La x acquisisce valori 1,2,3,4,5,6, sulla base
delle frequenze cumulate delle probabilità
Funzione di distribuzione o ripartizione F(x): caso continuo
Per v.a. continue esiste una funzione che è la densità di probabilità f(x) che è legata alla F(x) :

• A cosa serve la legge di densità di Probabilità?


Serve per esprimere la legge di distribuzione delle variabili aleatorie

• Affinchè si possa parlare di densità di probabilità deve essere

E uguale a 1 significa 100% di probabilità


Proprietà della funzione di densità:

1.Una funzione di densità non può mai assumere valori negativi, ossia ciò assicura che
la probabilità X cada in un qualsiasi intervallo sia non-negativa.

2. L'area totale sottesa alla funzione è uguale a 1, ossia:

(in quanto quest'integrale rappresenta la probabilità dell'evento certo).. 


Momenti, valor medio, varianza

In una distribuzione di probabilità spesso interessa


individuare alcuni parametri, tra cui in particolare un
centro e un parametro che rappresenti la dispersione
attorno al centro.
Momento di ordine n:

M n ( x )  i xin P[ xi ]

È la media pesata della potenza ennesima della v.a.


con le probabilità come pesi,

Il centro di una distribuzione è individuato dal


momento del primo ordine, detto valore medio (v.m.):

M 1 ( x )   ( x )  i xi P[ xi ]
Si chiama scarto di una v.a. la differenza fra la v.
stessa e il suo v.m., xi(x).
Lo scarto è una nuova v.a. e si deduce subito che il
suo v.m. è nullo.
Si chiama varianza di una distribuzione di probabilità il
momento del secondo ordine del suo scarto:
 2 ( x )  i [ xi   ( x )]2 P[ xi ]

La varianza è un indice di dispersione.


Viene indicata con σ2 (dove σ è la deviazione standard).
:
• Tutti gli addendi sono essenzialmente positivi, quindi la
varianza è sempre positiva e diversa da 0 ed è uguale a 0 solo se
xi, è una costante (cioè solo se la variabile quantitativa osservata è
costante, cioè i dati osservati coincidono con un unico valore (la
media).

• E’ tanto più grande quanto più sono probabili scarti grandi, e può
essere quindi considerata una misura della dispersione della
distribuzione attorno al proprio v.m..

• La radice quadrata della varianza (x), presa col segno +, si


chiama scarto quadratico medio o deviazione standard.
Nel caso di variabili continue, la media e la
varianza sono definite come segue:

 

 ( x)   xf ( x)dx  2 ( x )   [ x   ( x )]2 f ( x )dx


 

x2

P[ x1  x  x2 ]   f ( x )dx
x1
• Il modo in cui si distribuisce la probabilità di una
variabile aleatoria dipende da molti fattori, e,
come vi sono infiniti possibili grafici di funzioni,
così si possono avere infinite modalità diverse per
le distribuzioni di probabilità.

• Tuttavia, risulta utile studiarne alcune perché


rappresentano modelli di distribuzione di
probabilità significativi e d'uso frequente per
descrivere il comportamenti delle variabili
aleatorie.
Distribuzione Uniforme
Si consideri una v.a. con densità di probabilità f(x)=k costante in un certo intervallo ab (a < b) e nulla all’esterno.
k a<x<b
f(x)=
o altrove
Per l’assioma di normalizzazione l’area limitata dalla curva di distribuzione deve essere =1, quindi analogamente
al caso discreto si avrà:

 b x x
1 1 xa
 kdx   kdx  1 ,
 a
da cui k
ba
F ( x)   f ( x)dx 

b  a a
dx 
ba

f(x) F(x)
1
ba

a b x a b x
• Per il valor medio e la varianza si ha:

b
1 ab
 
ba a
x dx 
2
,

b
2 1 2 (b  a ) 2
  
ba a
( x   ) dx 
12

• La variabile casuale uniforme


viene usata per fenomeni i quali
esiti hanno tutti la stessa
probabilità di verificarsi
Distribuzione Esponenziale
Una variabile aleatoria continua ha distribuzione esponenziale di parametro reale 
con  >0 se la sua densità di distribuzione è
La distribuzione esponenziale si presta a descrivere la
durata di vita di un fenomeno , l’invecchiamento
dei materiali in geaerale.
La distribuzione normale o di Gauss è la più comune tra le
distribuzioni di densità di probabilità per variabili continue. La sua
popolarità è dovuta all’enorme quantità di fenomeni fisici e non,
descritti mediante l’utilizzo di tale distribuzione .
• Curva a campana: quindi se un fenomeno si distribuisce secondo una curva normale le x si distribuiscono
con maggiore frequenza attorno al valore medio.

• E’ una curva asintotica : si incontra con l’asse x in  e 


• Ha il massimo per x=rispetto al quale la curva è simmetrica (simmetria assiale)

• La distanza tra la media ed il punto di flesso è pari a

• L’aerea sotto la curva è uguale a 1, dunque

• All’aumentare di  la curva si abbassa,


e la distanza tra la media ed il flesso aumenta

Al diminuire di la curva si alza e


la distanza tra la media ed il flesso si accorcia
• L’area della curva compresa tra determinati valori di sigma è:

• 0,683 tra µ – σ e µ + σ. In termini di probabilità 68,3%


• 0,955 tra µ – 2σ e µ + 2σ. In termini di probabilità 95,5%
• 0,997 tra µ – 3σ e µ + 3σ. In termini di probabilità 99,7%

• Quale è la probabilità che la v.a. x assuma valori compresi in un intervallo centrato su e
largo 6?
Cioè nell’intervallo ?
Si dimostra che tale probabilità sia uguale a 0,997 =99,7%, ossia quasi la certezza.
Nella statistica aziendale è molto comune fare riferimento all’intervallo  perché
rappresenta la quasi certezza.

• Se l’intervallo è centrato su su e largo rispettivamente  e  ,


La probabilità che l’evento cada tra  è 65%-66%, la probabilità che cada tra  è
circa il 95%.
• Se un fenomeno x su distribuisce secondo una curva normale
allora la sua densità di probabilità sarà la curva f(x)

• E la v.a. x si distribuirà secondo la curva normale con una certa media e una
certa 
 ~(µ,σ2)

• La variabile casuale normale è una delle più utilizzate in assoluto e i fenomeni


che può rappresentare sono davvero innumerevoli e viene usata nei campi più
dispariti. Un esempio è il settore economico e finanziario per la valutazione del
rischio
Importanza della Distribuzione Normale

La famiglia della distribuzioni di probabilità normali ha


un'importante proprietà :
il teorema del limite centrale che riguarda la
distribuzione della somma o della media campionaria di
un campione. Siccome media e somma dei dati
differiscono tra loro per una costante moltiplicativa,
d'ora in poi quello che si dirà riferito alla media varrà
sostanzialmente anche per la somma, tenendo conto di
alcuni aggiustamenti di costanti moltiplicative.
• Teorema del Limite Centrale:
Si consideri una variabile aleatoria X con una densità di
forma qualsiasi (non è quindi detto sia normale) con media
 e varianza 2
Si costituisca l’insieme delle somme di gruppi di n dei suoi
valori (si avrà S1 di n valori, S2 di altri n valori…..).
L’insieme di S1, S2…. costituisce una variabile aleatoria che
tende in distribuzione alla normale con media n  e varianza
n 2, al tendere di n all’infinito.
Ancora….se invece della somma si esegue il valore medio
si dimostra che la distribuzione campionaria delle medie
(valori medi di ogni gruppo M1,M2….), oltre alla
distribuzione approssimativamente normale, ha la stessa
media  delle variabili mediate e varianza inferiore pari a
2/n, quindi è meno dispersa.

Il valore medio è quindi quello stesso della popolazione da


cui sono prelevati i campioni e la deviazione standard è
quella della popolazione diviso la radice di n,
Il teorema centrale ci spiega il perché la stragrande
maggioranza dei fenomeni tenda ad una distribuzione
normale e giustifica in parte la popolarità del modello
“normale” nella descrizione di molti fenomeni.

Quando la variabilità di un fenomeno può essere


pensata come la somma di varie cause indipendenti con
stessa media e stessa varianza, allora si può applicare il
teorema del limite centrale e affermare che la media
campionaria ha una distribuzione normale (anche nel
caso in cui le variabili casuali abbiano diversa
distribuzione).
Esempio
Si consideri una popolazione di lanci di dadi,
generata lanciando un dado un infinitamente
grande numero di volte.

Si estraggano campioni di n = 5 misurazioni


dalla popolazione lanciando cinque volte un dado
e si prenda nota delle cinque osservazioni,
come indicato nella seguente tabella:

Compare un risultato interessante:


benché i valori della popolazione {1, 2,
3, 4, 5, 6} siano equiprobabili e perciò
posseggano una distribuzione di
probabilità che è perfettamente
orizzontale, la distribuzione delle
medie
campionarie scelta dalla popolazione
possiede una distribuzione con un
addensamento al centro e una densità
• se si ripete l'esperimento per un campione più grande,
si noterà che la distribuzione delle medie campionarie
tende ad avvicinarsi sempre più alla forma di una
campana, via via che n cresce.

• Il teorema centrale limite è importante perché spiega il


motivo per cui molte misurazioni tendono a possedere
approssimativamente una distribuzione normale.

Potrebbero piacerti anche