Sei sulla pagina 1di 32

P t 5

Parte 5
IIntroduzione alla probabilità e alle 
t d i ll b bilità ll
distribuzioni di variabili casuali 

Chap 5-1
Contenuti
 Introduzione al concetto e alla misura della 
probabilità
 Impostazione frequentista della probabilità
 Variabili casuali e modelli per variabili casuali
Variabili casuali e modelli per variabili casuali
 Distribuzione Normale
 Distribuzione Normale Standardizzata
 Tavole della distribuzione normale standardizzata

Chap 5-2
La variabilità, l’incertezza e la probabilità
LLa variabilità
i bilità presentet in
i molti lti fenomeni
f i collettivi
ll tti i di interesse
i t d ll
delle
scienze naturali, sociali, economiche, ingegneristiche, e di altri ambiti
applicativi
pp ((ovvero la p
possibilità di osservare manifestazioni o esiti diversi
di tali fenomeni), genera incertezza nel loro studio e nell’assumere
decisioni legate alla loro manifestazione.
Ad esempio, il direttore marketing di una azienda è interessato a studiare le
intenzioni di acquisto da parte dei consumatori di un nuovo prodotto nei
prossimi 12 mesi ((incertezza legata
p g alla studio di comportamenti
p futuri
variabili).
Il responsabile del processo di controllo della qualità di una azienda è interessato
a valutare la proporzione
propor ione di pezzi
pe i difettosi che caratterizza
caratteri a in generale il
processo di produzione sulla base delle informazioni tratte dall’osservazione di
un campione (incertezza legata alla disponibilità di informazioni parziali e
variabili).
)
Lo studio della probabilità diventa uno strumento importante
nell’ambito dell’analisi statistica
statisti a per poter studiare
st diare i fenomeni di
interesse e assumere decisioni anche in condizioni di incertezza.
Chap 5-3
Concetti di base e misura della probabilità
La prova è un esperimento aleatorio
La prova soggetto ad incertezza nel senso che ha
due o piùù possibili risultati (es.
( lancio del
dado)
Per evento si intende uno dei possibili
p
L’evento risultati della prova (es. numero 2 del
dado)
La probabilità è un numero associato al
La probabilità verificarsi di un evento nel senso che
misura il grado di incertezza sul
verificarsi
f d un evento
di

La probabilità è un numero che varia tra i valori 0 e 1, estremi inclusi.


A
Associamo
i il valore
l zero a un evento che
h non ha
h nessuna possibilità
ibili à di
verificarsi (evento impossibile) e il valore uno a un evento che si
verificherà sicuramente ((evento certo). ) La p probabilità ppuò essere
espressa in termini percentuali e in questo caso varierà tra 0 e 100.
Chap 5-4
Impostazione frequentista della probabilità
Storicamente si sono affermati tre diversi approcci e interpretazioni
del concetto di probabilità:
 Impostazione classica
 Impostazione frequentista
 Soggettivista
Ci soffermeremo in particolare sull’impostazione frequentista,
particolarmente appropriata per lo studio di fenomeni collettivi di nostro
interesse. Tale impostazione considera la seguente definizione di
probabilità:
Dato un esperimento ben specificato e perfettamente ripetibile, sia E un
evento tra quelli possibili, e indichiamo con fn(E) il numero di volte che E si è
verificato
f in una serie di d n esperimenti ripetuti tutti nelle ll medesime
d
condizioni (cioè la frequenza assoluta di E). Allora, la probabilità di E che
indicheremo con Pr(E) è il limite cui tende la frequenza relativa dell’evento
al crescere del numero n di esperimenti.
Chap 5-5
Esempio
Consideriamo come prova il lancio di una moneta e l’evento “Testa”. Consideriamo una
sequenza di prove di numerosità crescente,
crescente ipotizziamo degli esiti delle prove,
prove calcoliamo la
distribuzione di frequenza e rappresentiamo graficamente la frequenza relativa %
dell’evento “testa” al crescere del numero di lanci.

n =1 n =50

n =10
10 n =100
100

All’aumentare del numero di lanci 
la frequenza relativa dell’evento 
“testa”
testa  tende alla probabilità 
tende alla probabilità
dell’evento (50%) 
Chap 5-6
Variabili casuali
TTorniamo
i all’analisi
ll’ li i statistica
t ti ti deid i fenomeni
f i collettivi
ll tti i di nostro
t interesse
i t e
vediamo come utilizzare la probabilità per studiare tali fenomeni e
assumere decisioni in condizioni di incertezza. In p particolare p
poniamoci
nella situazione in cui i dati di cui disponiamo sono derivati da un campione
di osservazioni.
Riprendiamo
Ri di l’
l’esempio
i dello
d ll studio
di sulla
ll corrosione
i d i materiali
dei i li in
i cuii è stato
selezionato casualmente un campione di 55 pezzi di diverse leghe metalliche.
L’estrazione casuale di ciascun pezzo di lega su cui si osserva una serie di variabili
(perdita di peso, materiale dichiarato, superficie pezzo, …) rappresenta una prova
che genera per ciascuna variabile un possibile evento (la modalità della variabile).

Chap 5-7
Nell’analisi descrittiva del campione abbiamo calcolato per ciascuna
variabile le frequenze relative corrispondenti alle varie modalità. Ad
esempio per la variabile “Superficie del pezzo” abbiamo calcolato che il
49.1% del campione presenta una superficie compresa tra 20.01 e 30 cm.
Superficie pezzo  Frequenze 
(cm2) N relative %
10.01 – 20.00 3 5.5
20.01 – 30.00 27 49.1
30.01 – 40.00 14 25.4
40.01 – 50.01 8 14.5
50.01 – 60.00 3 5.5
Totale 55 100

Per i ricercatori potrebbe essere di interesse valutare qual è la probabilità


che estraendo a caso un pezzo di lega dalla popolazione virtualmente
infinita dei pezzi prodotti, questo abbia una superficie compresa tra 20.01 e
30 cm. La classe di valori (20.01‐30.00) rappresenta l’evento di cui siamo
interessati a calcolare la probabilità.
probabilità

Chap 5-8
Il concetto di frequenza relativa è quindi riferito all’osservazione, alla
misurazione di una variabile in un insieme di unità statistiche.
statistiche
La frequenza relativa (semplice e quindi variabile da 0 a 1, oppure % e
quindi variabile da 0 a 100) misura quante volte (sul totale delle unità
statistiche) una data modalità di una variabile statistica si è manifestata in
un insieme osservato di unità statistiche.
La probabilità è una estensione del concetto di frequenza.
La probabilità (variabile da 0 a 1 oppure espressa in % e quindi variabile da
0 a 100) misura il grado in cui può manifestarsi una data modalità o evento
di una variabile nell’intera popolazione di interesse non osservata.

Insieme di unità  Popolazione 
statistiche osservate non osservata
L’interesse è nello studio di una  L’interesse è nello studio di una 
data variabile statistica e della sua  data variabile casuale e della sua 
di t ib i
distribuzione di frequenza. 
di f di t ib i
distribuzione di probabilità. 
di b bilità

Chap 5-9
Per un campione è importante caratterizzare la distribuzione di una
variabile quantitativa con statistiche campionarie ovvero misure di
tendenza centrale (es. media) e misure di variabilità (es. varianza e
deviazione standard). Analogamente la distribuzione di probabilità sarà
caratterizzata da parametri ovvero misure di tendenza centrale (es. valore
atteso o media) e misure di variabilità (es. varianza e deviazione standard)

Misure Parametri di Statistiche


popolazione campionarie
Media  x
Varianza  2
S2
Deviazione  S
standard

Chap 5-10
Modelli per variabili casuali
La nostra attenzione si sposta dallo studio della distribuzione di frequenza
di una variabile allo studio della sua distribuzione di probabilità.
Con particolare riferimento alle variabili quantitative, le distribuzioni di
probabilità possono essere illimitate. In letteratura sono stati proposti
alcuni
l i modelli
d lli teorici
t i i per variabili
i bili casualili quantitative
tit ti discrete
di t e continue
ti
che approssimano le distribuzioni osservate di molti fenomeni reali.
Se per una data variabile possiamo ipotizzare un andamento distributivo
riconducibile ad una dato modello teorico, possiamo utilizzare tale modello
ad esempio per calcolare le probabilità associate a particolari valori o a
determinati intervalli di interesse.
Tra i modelli per variabili casuali discrete: Binomiale, Ipergeometrica,
Poisson, …
Tra i modelli per variabili casuali continue: Uniforme, Esponenziale,
Normale, …
Chap 5-11
Modelli per variabili casuali continue
Un istogramma
g o p
poligono
g calcolati sui dati osservati di una variabile
quantitativa continua, possono quindi essere considerati come delle
approssimazioni di modelli teorici di distribuzione, rappresentabili
graficamente con curve continue.
g
Se l’istogramma è costruito riportando come ordinate le densità di frequenza
(ovvero il rapporto tra la frequenza di una classe e la sua ampiezza), l’area di
ciascun
i rettangolo
tt l rappresenterà
t à la
l frequenza
f di una data
d t classe.
l
Analogamente, in un modello teorico la curva continua descrive l’andamento
della funzione di densità di probabilità.
probabilità L
L’area
area sottesa alla curva
corrispondente ad un dato intervallo rappresenterà la probabilità di osservare
un valore compreso in quell’intervallo di valori.
Densità di  Densità di 
frequenza probabilità

a b a b
Frequenza di osservazioni con  Probabilità di osservare un valore 
valori compresi tra ‘a’ e ‘b’ compreso tra ‘a’ e ‘b’ Chap 5-12
Una funzione di densità di probabilità continua è un modello
che definisce analiticamente come si distribuiscono i valori
assunti da una variabile casuale continua.
Quando si dispone di un’espressione matematica adatta alla
rappresentazione di un fenomeno continuo, siamo in grado di
calcolare la probabilità che la variabile casuale assuma valori
compresi in particolari intervalli di interesse.
interesse
I modelli continui hanno importanti applicazioni in ingegneria,
fi i economia
fisica, i e nelle
ll scienze
i sociali.
i li

Chap 5-13
La distribuzione Normale
La distribuzione normale (o distribuzione Gaussiana) è la
distrib ione continua
distribuzione contin a più utilizzata
tili ata in statistica.
statistica
La distribuzione normale è importante in statistica in particolare
i quanto:
in t
 diversi fenomeni continui sembrano seguire, almeno
approssimativamente una distribuzione normale;
approssimativamente,
 può essere utilizzata per approssimare numerose distribuzioni
di probabilità discrete;
 è alla base dell’inferenza statistica classica in virtù del
teorema del limite centrale.

Chap 5-14
Utilizzeremo il simbolo f(x) per denotare l’espressione matematica
della funzione di densità di probabilità di una variabile casuale X.
Nel caso della distribuzione normale la funzione di densità di
probabilità normale è data dalla seguente espressione:

1  (1/ 2)[( Xx   ) /  ]2
f ( Xx )  e
2

dove  e = costante matematica approssimata da 2.71828
pp
 = costante matematica approssimata da 3.14159
µ = valore atteso (media) della variabile X nella popolazione
= deviazione standard della variabile X nella popolazione
σ = deviazione standard della variabile X nella popolazione
x = valori assunti dalla variabile X, ‐<x<+

Chap 5-15
La distribuzione normale ha una forma campanulare e simmetrica.
Le misure di tendenza centrale (media,
(media mediana,
mediana moda) coincidono.
coincidono

f(x)

σ
x
μ
Notiamo che, essendo e e  delle costanti matematiche, le probabilità
di una distribuzione normale dipendono soltanto dai valori assunti dai
due parametri µ (valore atteso, media) e
σ (deviazione standard).
Specificando particolari combinazioni
di µ e σ, otteniamo differenti
di ib i i di probabilità
distribuzioni b bili à normali.
li
Chap 5-16
Molte variabili statistiche che osserviamo nella realtà hanno una
distribuzione con caratteristiche simili a quelle della distribuzione
normale.
Consideriamo ad esempio lo spessore misurato in centimetri di 10.000
10 000
rondelle di ottone prodotte da una grande società metallurgica. La
variabile continua di interesse, lo spessore delle rondelle, si
distribuisce approssimativamente come una normale.
Densità di 
frequenza
q

Spessore (cm)
Sfruttando il modello teorico normale potremmo calcolare la probabilità
associata a qqualsiasi intervallo di interesse. Per esempio
p p potremmo calcolare
la probabilità di osservare una rondella con superficie compresa nell’intervallo
(0.192, 0.194), o con superficie ≤ 0.0188, … .
Chap 5-17
La distribuzione Normale standardizzata
Poiché esiste un numero infinito di combinazioni dei parametri µ e σ,
per poter rispondere a quesiti relativi a una qualsiasi distribuzione
normale introduciamo una formula di trasformazione dei valori della
normale,
variabile, chiamata standardizzazione, che consente di trasformare
una generica variabile casuale normale in una variabile casuale
normale standardizzata con valore atteso pari a 0 e deviazione
standard pari a 1.
Per la distribuzione normale standardizzata sono state derivate delle
tavole che consentono di calcolare la probabilità associata a qualsiasi
intervallo e viceversa.
La standardizzazione è data dalla seguente trasformazione della
variabile X nella nuova variabile Z:
X 
Z

Chap 5-18
f(x) f(z)

σ 1
x z
μ 0

Esempio

Se la variabile X si distribuisce come una normale con media pari a 100 e


deviazione standard pari a 50, il valore della variabile standardizzata Z per
x=200 è:
200  100
z  2.0
50

100 200 X (μ = 100,


100 σ = 50)
0 2.0 Z (μ = 0, σ = 1)
Chap 5-19
Le tavole della distribuzione Normale standardizzata standardizzata

Chap 5-20
Le tavole della distribuzione Normale standardizzata standardizzata
Le tavole della distribuzione normale standardizzata forniscono la
probabilità di osservare un valore di Z inferiore o uguale a un dato
valore di interesse.
Le colonne della tavola corrispondono alla 
Esempio seconda cifra decimale di z

Pr(Z < 2.00) = ? z 0 00


0.00 00.01
01 0.02
0 02 …
0.0
Le righe della tavola 0.1
identificano la parte
intera di z e la prima Il valore che leggiamo 
cifra decimale . all’incrocio
all incrocio della riga e della 
della riga e della
.
2.0 .9772 colonna rapresenta la 
. probabilità di osservare un 
0 9772
0.9772 valore inferiore o uguale a z
valore inferiore o uguale a z
2.0

P (Z < 2.00)
Pr(Z 2 00) = 0.9772
0 9772
0 2.00 Z
Chap 5-21
Esempio
Sia X la variabile “tempo
tempo impiegato per scaricare un file di immagine da
internet”. Supponiamo che X sia distribuita come una normale di media
8.0 secondi e deviazione standard pari a 5.0 secondi. Vogliamo
determinare la probabilità Pr(X ≤ 8.6).
X  8. 6  8
Z   0.12
 5
μ=8 μ=0
σ = 10 σ=1

8 8.6 x 0 0.12 z
Pr(X ≤ 8.6) Pr(Z ≤ 0.12)

Chap 5-22
Dalla tavola della distribuzione 
normale standardizzata:
normale standardizzata:
Pr(X ≤ 8.6)=Pr(Z ≤ 0.12)=0.5478

z .00
00 .01
01 .02
02 0 5478
0.5478
0.0 .5000 .5040 .5080

0.1 .5398 .5438 .5478


0.2 .5793 .5832 .5871
z
0 3 .6179
0.3 6179 .6217
6217 .6255
6255 0 00
0.00
0.12

Chap 5-23
Esempio
Riprendendo l’esempio precedente vogliamo determinare la probabilità
Pr(X > 8.6).

x
8.0
8.6
Pr(X > 8.6)= Pr (Z > 0.12) = 1.0 - Pr (Z ≤ 0.12) = 1.0 - 0.5478 = 0.4522
0.5478
1.0 1.0 - 0.5478 =
0.4522

z z
0 0
0.12 0.12 Chap 5-24
Esempio
Riprendendo l’esempio precedente vogliamo determinare la probabilità
Pr(8< X ≤ 8.6).

X  88
Z  0
 5
X   8.6  8
Z   0.12
 5
8 8.6 x
0 0.12 z

Pr(8 < X ≤ 8.6) = Pr(0 < Z ≤ 0.12)

Chap 5-25
Dalla tavola della distribuzione 
normale standardizzata:

z .00 .01 .02


0.0 .5000 .5040 .5080 0.0478
0 5000
0.5000
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871

0 3 .6179
0.3 6179 .6217
6217 .6255
6255 z
0.00
0.12
Pr(8 < X ≤ 8.6) = Pr (0 < Z ≤ 0.12)
= Pr ((Z ≤ 0.
0.12)) – Pr(Z
( ≤ 0)
= 0.5478 - 0.5000 = 0.0478 Chap 5-26
Esempio
Riprendendo ll’esempio
esempio precedente vogliamo determinare la probabilità
Pr(7.4 ≤ X < 8).

X  7.4  8
Z   0.12
 5
X   88
Z  0
 5 x
8.0
7.4

Pr(7.4 ≤ X < 8)= Pr(-0.12 ≤ Z < 0) 0.0478


La distribuzione normale è 
La distribuzione normale è
simmetrica, per cui questa 
probabilità è uguale a quella trovata 
nell’esercizio precedente 
ll’ ii d
Pr(0 < Z ≤ 0.12) = 0.0478
x
Pr(7.4 ≤ X < 8) = 0.0478 7.4 8.0
z
-0.12 0
Chap 5-27
Le tavole della distribuzione normale standardizzata possono essere
utilizzate anche per risolvere il problema inverso. Data una certa
probabilità individuare il valore di Z.
Esempio
Riprendiamo l’esempio precedente dove X è la variabile “tempo
impiegato
p g per scaricare un file di immagine
p g da internet”. Supponiamo
pp che
X sia distribuita come una normale di media 8.0 secondi e deviazione
standard pari a 5.0 secondi. Vogliamo determinare il valore di X tale per
cui il 20% dei download dei file di immagini registri un tempo inferiore a
tale valore.

0.2000

? 88.00 x
? 0 z
Chap 5-28
Dalla tavola della distribuzione 
normale standardizzata:

z … .03 .04 .05


0 2000
0.2000
-0.9 … .1762 .1736 .1711

-0.8 … .2033 .2005 .1977


? 8.0 x
-0.7
07 … .2327
2327 .2296
2296 .2266
2266 -0.84
0 84 0 z

X 
Z X    Z
 0.2000
x  8.0  ( 0.84)5.0  3.80
Il 20% dei download di file di
immagini impiega meno di 3 3.8
8 33.80
80 88.00 x
secondi. -0.84 0 z
Chap 5-29
Abbiamo visto come possiamo utilizzare il modello teorico normale per
calcolare la probabilità associata a qualsiasi intervallo di interesse o per
risolvere il problema inverso.
Vediamo adesso un
un’altra
altra applicazione utile del modello teorico normale.
In una distribuzione normale:

f(x) μ ± 1σ corrisponde ad una 
probabilità pari circa a 68.26%,
ovvero include circa il 68 26% dei 
ovvero include circa il 68.26% dei
valori
σ σ

x
μ-1σ μ μ+1σ
68 26%
68.26%
Chap 5-30
μ ± 2σ include circa il 95.4% dei valori di X
μ ± 3σ include circa il 99.7%
circa il 99.7% dei valori di X
dei valori di X

2σ 2σ 3σ 3σ
μ x μ x

95.44% 99.73%
Da queste proprietà discendono le Regole empiriche per distribuzioni
tendenzialmente normali e per grandi campioni.
Se possiamo ipotizzare per una data variabile un andamento
approssimabile alla distribuzione normale e conosciamo media
campionaria
i i e deviazione
d i i standard
t d d campionaria
i i possiamo
i d d
dedurre:
Nell’intervallo x   è compreso circa il 68% delle unità statistiche
Nell’intervallo
Nell intervallo x  2 è compreso circa il 95.4% delle unità statistiche
è compreso circa il 95 4% delle unità statistiche
Nell’intervallo x  3 è compreso circa il 99.7% delle unità statistiche
Chap 5-31
Esempio
In una popolazione di 150 utenti di un servizio sono state calcolate la media
aritmetica e la deviazione standard per la variabile età distribuita in modo
tendenzialmente normale:

media aritmetica = 55 anni


deviazione standard = 8 anni

Basandoci sulle regole empiriche possiamo dedurre:

circa il 68% dei soggetti ha un’età compresa tra 47 e 63 anni [(55‐8, 55+8])
circa il 95.4% dei soggetti ha un’età compresa tra 39 e 71 anni [(55‐16,55+16)]
circa il 99.7% dei soggetti ha un
un’età
età compresa tra 31 e 79 anni [(55
[(55‐24,55+24)]
24,55+24)]

Chap 5-32

Potrebbero piacerti anche