Sei sulla pagina 1di 49

La variabile statistica

A.Albertella - Politecnico di Milano


Richiami

• La teoria della probabilità e della statistica sono alla base del trattamento dei
dati osservati in qualsiasi esperimento e ne permettono un’interpretazione
corretta

• E’ impossibile descrivere il risultato di un esperimento con una variabile


deterministica. Alla domanda “quale risultato ci si aspetta” si può rispondere
ipotizzando una gamma di possibili valori e un ordine di priorità, che è
espressa mediante un numero reale tra 0 e 1 prende il nome di probabilità.


Richiami

• La probabilità è logicamente autosu ciente: ci sono alcune regole e le


risposte ai problemi seguono logicamente dalle regole

• In statistica invece si applica la probabilità per trarre conclusioni dai dati.

ffi
Richiami

• Esempio di probabilità

Hai una moneta non truccata (uguale probabilità di testa o croce). La lanci 100
volte. Qual è la probabilità di ottenere 60 o più teste? C'è solo una risposta ed
esistono formule per calcolarla. (il processo casuale è completamente noto,
l’obiettivo è trovare la probabilità di un determinato risultato derivante dal
processo casuale)

• Esempio di statistica

Hai una moneta di provenienza sconosciuta. Per veri care se è non truccata si
lancia 100 volte e si conta il numero di teste (supponiamo che si contino 60 teste).
(il risultato è noto e l'obiettivo è quello di comprendere il processo casuale
sconosciuto).

Definizione assiomatica di probabilità
assiomi

• P(S) = 1, la probabilità dei possibili risultati di un evento vale 1

• P(A) ≥ 0 ∀A ∈ E (insieme di tutti i possibili sottoinsiemi di S)

• P(A ∪ B) = P(A) + P(B) se A ∩ B = Φ

• se valgono questi assiomi è de nita una distribuzione di probabilità

fi
Teoremi sulle distribuzioni di probabilità
teorema della probabilità totale

• La probabilità dell’unione di due eventi è pari alla somma della loro probabilità
meno la probabilità della loro intersezione

• P(E1 ∪ E2) = P(E1) + P(E2) − P(E1 ∩ E2)


Teoremi sulle distribuzioni di probabilità
la probabilità condizionata

• Si de nisce probabilità dell’evento A condizionata all’evento B (cioè la probabilità che


si veri chi A posto che sia accaduto B)

P(A ∩ B) P(AB)
• P(A | B) = =

P(B) P(B)
• DEF: si dice che un evento A è stocasticamente indipendente da B se
P(A | B) = P(A) (se A e B sono indipendenti il veri carsi di B non ha in uenza
sull’evento A)

• Condizione necessaria e su ciente a nché A e B siano indipendenti è che


P(AB) = P(A)P(B)
fi
fi
ffi
ffi
Teoremi sulle distribuzioni di probabilità
teorema della probabilità totale o assoluta

• Siano E1, E2, …, En un insieme di eventi disgiunti


(Ei ∩ Ej = Φ ∀i, j i ≠ j) tali da formare una partizione di S
(S = ∪ni=1 Ei) si può dimostrare che:

• dato B dipendente da tutti gli E1, E2, …, En si ha


P(B) = P(B | Ei)P(Ei)
i=1
Teoremi sulle distribuzioni di probabilità
teorema della probabilità totale o assoluta ESEMPIO 2

• Una classe ha 50 studenti, tra questi 20 sono maschi (M) e 25 hanno gli occhi scuri (B).
Scegliendo uno studente della classe a caso in che intervallo varia la probabilità che sia
un maschio o che abbia gli occhi scuri?

• SOLUZIONE: si deve calcolare P(M ∪ B) = P(M) + P(B) − P(M ∩ B)

20 25
• P(M) = 50 , P(B) = 50 ⟶ P(M) + P(B) = 0.9

• il massimo si ha quando l’intersezione è vuota (tutti i maschi non hanno occhi scuri), il minimo
20
si ha quando tutti i maschi hanno gli scuri quindi P(M ∩ B) = = 0.4

50
• risposta corretta: 0.5 ≤ p ≤ 0.9

Variabile casuale 1D
caso mono-dimensionale

• una variabile casuale è una


“funzione” de nita su uno spazio
di probabilità che associa allo
spazio degli eventi un numero
reale

• assegna un numero ad ogni


realizzazione di un certo evento

• X:S→ℜ
fi
Variabile casuale 1D

• La variabile casuale è completamente de nita da una delle seguenti funzioni:

• la funzione di distribuzione

• la funzione densità di probabilità


Variabile casuale 1D
funzione di distribuzione

∫−∞
FX(x) =: P(X ≤ x) = fX(t)

P(c ≤ x ≤ d) = P(c < x < d)


= P(c ≤ x < d) = P(c < x ≤ d) =

= FX(d) − FX(c)
Variabile casuale 1D
funzione densità di probabilità

• f(x0) = F′(x0) è la funzione densità di probabilità della variabile casuale.

• Se è nota xla densità di probabilità si può ricavare la funzione di distribuzione:

∫−∞
F(x) = f(t)dt

+∞

∫−∞
Vale inoltre sempre la condizione di normalizzazione 1 = f(x)dx


b

• ∫
f(x)dx = F(b) − F(a) = P(a ≤ x ≤ b)
a

Variabile casuale 1D
osservazioni

• Dato un evento E e l’insieme di tutti i possibili risultati: per descrivere


completamente l’evento si dovrebbe dare la probabilità di ciascun possibile
risultato (e di tutte le possibili combinazioni)

• Se è data la funzione di distribuzione o la funzione densità di probabilità della


variabile casuale associa all’evento E si è in grado di calcolare la probabilità di
tutte le sue realizzazioni

• La funzione di distribuzione è de nita sia per le variabili continue che discrete

• La funzione densità di probabilità è de nita per le variabili casuali continue

• Per le variabili discrete si ha una distribuzione (discreta) di probabilità

fi
fi
La variabile statistica

• Con la variabile casuale si rappresenta l’insieme dei possibili risultati di un


esperimento (non deterministico); se questo esperimento viene ripetuto N
volte i risultati delle ripetizioni possono essere organizzati opportunamente.

• Si veri ca che i risultati tendono a distribuirsi maggiormente là dove la


funzione densità di probabilità f(x) è maggiore ⟶ si confronta “frequenza”
con probabilità


fi
La variabile statistica

• Per esempio: esperimento = lancio di una moneta per 10 volte, i 10 risultati


conviene rappresentarli (senza considerare l’ordine) in una forma sintetica
N1 = numero di volte che è uscita TESTA
N2 = numero di volte che è uscita CROCE

• N1 + N2 = 10
La variabile statistica

• Se per mezzo della variabile casuale si vuole rappresentare l’insieme dei


possibili risultati di un esperimento non deterministico, altrettanto importante
sarà organizzare i dati che risultano dalle e ettive ripetizioni di tale
esperimento

• DEF: La variabile statistica (a una dimensione) è una tabella a due righe di


valori numerici; gli elementi della prima riga sono i valori argomentali della
variabile statistica, gli elementi della seconda sono le frequenze assolute

• Ogni de nizione e ogni proprietà delle variabili casuali (in particolare per le
variabili casuali discrete) vale anche per le variabili statistiche, poiché
formalmente le due variabili coincidono
fi
La variabile statistica

• DEF: si dice VARIABILE STATISTICA (a 1 dimensione) una tabella a due righe


di valori numerici; gli elementi della prima riga sono detti valori argomentali, gli
elementi della seconda (che devono essere numeri interi, positivi o nulli) sono

{N1 N2 ⋯ Nn
x1 x2 ⋯ xn
chiamati frequenze assolute X=

• DEF: si de nisce frequenza relativa di un valore argomentale xi il numero


Ni
fi = che rappresenta la percentuale di individui caratterizzati dal valore xi
N
fi
La variabile statistica

• La variabile statistica può essere descritta con la forma X = {f1 f2 ⋯ fn

x1 x2 ⋯ xn

n ∑i Ni

Osservando che fi = = 1 e che fi ≥ 0 si de nisce formalmente
• N
i=1
una distribuzione di probabilità concentrata sui valori {x1, x2, ⋯, xn} ponendo
P(X = xi) = fi

• grazie a quest’ultima relazione si può a ermare che le variabili statistiche sono


formalmente identi cabili con le variabili casuali
fi
ff
La variabile statistica

• Nel caso della variabile casuale i numeri pi associati ai valori xi misurano un


grado di possibilità che il risultato dell’esperimento che si sta descrivendo
assuma il valore xi

• Nel caso della variabile statistica fi registra il fatto che su N ripetizioni


dell’esperimento si sono ottenuti Ni risultati con il valore xi

• OSS: la probabilità è un ente de nito assiomaticamente a priori, la frequenza


è un indice che misura risultati empirici, de nito a posteriori in base a
esperimenti già e ettuati
ff
fi
La variabile statistica
funzione cumulativa di frequenza

• Nel caso di variabili statistiche la funzione di distribuzione F(x) prende il nome


di funzione cumulativa di frequenza e rappresenta la percentuale di elementi
della popolazione il cui valore argomentale xi risulta minore o uguale a x:
∑i Ni

F(x) = fi = ∀i per cui xi ≤ x

i
N

• F(x) è una funzione a gradini, crescente, compresa tra 0 e 1, con salti fi in


corrispondenza dei valori xi
La variabile statistica

• A una variabile casuale (con distribuzione nota) è possibile associare una


variabile statistica.

• Per esempio la variabile casuale “lancio di una moneta non truccata” è


descritta da {T, C} → {0,1} P(0) = 1/2 P(1) = 1/2

• La variabile statistica che descrive l’esperimento “lancio 100 volte di una

{46 54
0 1
moneta” è descritta da X = (frequenze assolute) oppure da

{0.46 0.54
0 1
X= (frequenze relative)
La variabile statistica
La variabile statistica

• Variabile casuale discreta e variabile statistica si comportano in modo


formalmente identico una volta che si sia istituita una corrispondenza tra
“frequenze” e “probabilità”.

• La variabile statistica è il riordino di una popolazione di valori {x1, …, xN}


ottenuti ripetendo N volte l’esperimento stocastico di cui una certa variabile X
descrive il comportamento aleatorio.

• In questo caso si dirà che {x1, …, xN} costituisce un campione di tipo


bernoulliano (ipotizzando che le ripetizioni dell’esperimento siano tali da non
in uenzarsi stocasticamente) tratto dalla variabile aleatoria X.
fl
Distribuzione di Bernoulli

• Si considera una variabile casuale discreta con solo due realizzazioni (per
esempio = 0,1):

• la distribuzione di Bernoulli (o bernoulliana) è una distribuzione di probabilità


su due soli valori detti anche fallimento e successo.

• E’ quindi descritta da un unico parametro p = probabilità di successo.

• P(X = 1) = probabilità successo = p

• P(X = 0) = probabilità fallimento = 1 − p
La variabile statistica
l’istogramma

• Non si può formalmente de nire un analogo


della funzione densità di probabilità per la
variabile statistica. (Per la variabile casuale
discreta si è de nita una distribuzione di
probabilità)

• Tuttavia si può trovare una corrispondenza


tra il gra co della distribuzione delle
frequenze (di N ripetizioni di un esperimento
descritto da una variabile casuale continua
X) e la funzione densità di probabilità della
variabile X
fi
fi
fi
La variabile statistica
l’istogramma

• Si considerino N ripetizioni di un esperimento descritto da una variabile


casuale continua X, i risultati tendono a concentrarsi là dove la densità di
probabilità è maggiore

• Fissato un intervallo [x0, x0 + Δx] si può confrontare la P(x0 ≤ X ≤ x0 + Δx)


con la percentuale dei risultati che cadono nello stesso intervallo
N(x0, Δx)
ΔF(x0) = dove N(x0, Δx) è il numero di elementi che hanno valori
N
argomentale nell’intervallo [x0, x0 + Δx]

• Questo confronto è valido se N è abbastanza grande


La variabile statistica
l’istogramma

• L’istogramma è il gra co della distribuzione delle


frequenze

• L’istogramma di una variabile statistica è costruito


mediante rettangoli adiacenti le cui basi sono gli
intervalli che de niscono le classi, non
necessariamente tutti uguali, e le altezze sono pari
al rapporto tra frequenza della classe e ampiezza
f0i
dell’intervallo che la de nisce h0i = (in
Δxi
questo modo l’area di ogni rettangolo è uguale alla
frequenza relativa della classe)
fi
fi
fi
La variabile statistica
l’istogramma
• L’istogramma è quindi una distribuzione
empirica e descrive un campionamento,
cioè il risultato di N ripetizioni di un
esperimento

• La funzione densità di probabilità (linea


rossa) descrive la distribuzione di
probabilità teorica di un evento

• Se gli intervalli su cui si costruisce


l’istogramma sono “piccoli” (sempre
avendo un certo numero di valori in ciascun
intervallo) e il numero delle ripetizioni
aumenta le due funzioni si avvicinano
La variabile statistica
l’istogramma

• In gura i dati di una variabile statistica sono organizzati in classi. I valori sono
compresi nell’intervallo [0.25, 2.25] e sono suddivisi in classi di ampiezza
uguale.

• Nel primo gra co (FREQUENZA) l’altezza di ogni rettangolo è il numero di dati


appartenenti alla classe

• Nel secondo gra co (DENSITA’) l’altezza di ogni rettangolo è data dalla


frequenza relativa divisa per l’ampiezza della classe. L’area complessiva è
uguale a 1.
fi
fi
fi
La variabile statistica
l’istogramma - esercizio

• Dati i seguenti 15 valori:

1, 1.1, 1.2, 1.3, 1.6, 1.6, 2.1, 2.2, 2.6, 2.7, 3.1, 3.2, 3.4, 3.8, 3.9, 3.9

• Si considerino classi uguali ampie 0.5 (partendo da zero) e si disegni


l’istogramma delle frequenze assolute e delle densità

• Si considerino le classi [0,1], [1,3], [3,4] e si disegni l’istogramma delle


frequenze assolute e delle densità.
La variabile statistica
l’istogramma - esercizio

• si osservi che l’istogramma delle


densità fornisce un risultato più
rappresentativo
La variabile statistica
l’istogramma - esempio

% si è ripetuta la misura di una distanza 30 volte nelle stesse condizioni;


% i risultati sono espressi in metri
dati = [1.19; 1.17; 1.24; 1.25; 1.20; 1.15; 1.18; 1.19; 1.20; 1.17; ...
1.22; 1.22; 1.18; 1.17; 1.18; 1.18; 1.21; 1.20; 1.16; 1.18; ...
1.18; 1.23; 1.20; 1.18; 1.24; 1.23; 1.21; 1.19; 1.19; 1.22]

N = length(dati); % numerosità
datisort = sort(dati); % dati ordinati in senso crescente

La variabile statistica
l’istogramma - esempio

%% per organizzare i dati in classi, si divide l'intervallo [min(X), max(X)]


% in sotto-intervalli di uguale ampiezza, per esempio = 1 cm

deltax = 0.01
x = min(dati):deltax:max(dati)

% n = hist(dati, x) raccoglie gli elementi del vettore "dati" in "x"


% intervalli, n è il numero di risultati in ciascun intervallo

fAssolute = hist(dati,x); % frequenze assolute


La variabile statistica
l’istogramma - esempio
La variabile statistica
l’istogramma - esempio

% frequenze relative = percentuali nei


singoli intervalli (ovviamente
% dipenderanno dall'ampiezza delle
classi)
fRelative = fAssolute/N

% La distribuzione di Frequenza
cumulativa è usata per determinare quanti
o quale percentuale di valori del campione
sono al di sotto (o uguali) ad un pre ssato
valore ;

fi
La variabile statistica
l’istogramma - esempio

L’esercizio è stato svolto in MATLAB.


su WeBeep: istogramma.

• Cosa succede se si considerano meno intervalli (—> di ampiezza maggiore)


• Cosa succede se si considerano intervalli di ampiezza minore

variabili casuali discrete e continue


key points

• una variabile casuale è una variabile che assume un certo valore numerico
determinato dal risultato di un fenomeno casuale

• una variabile casuale discreta assume un numero numerabile di valori; la


probabilità di ciascun valore di una variabile casuale discreta è un valore tra 0
e 1 e la somma di tutte le probabilità è uguale a 1

• una variabile casuale continua assume tutti i valori un certo intervallo reale; la
sua distribuzione di probabilità è una curva e la probabilità di un evento è
l’area sottesa da questa curva
variabili casuali discrete e continue
key points

• una variabile casuale è completamente de nita se è nota(*)

• o la sua FUNZIONE di DISTRIBUZIONE

• oppure la FUNZIONE DENSITA’ DI PROBABILITA’ (per le v.c. continue), la


sua DISTRIBUZIONE DI PROBABILITA’ (v.c. discrete)

• (*) dalla f.di distribuzione ⟶ f. densità/distribuzione di probabilità

• dalla f. densità/distribuzione di probabilità ⟶ f.di distribuzione


variabili casuali discrete e continue
Esercizio proposto 1

• Sia X una variabile casuale de nita sull’intervallo [0,2] con funzione densità
di probabilità fX(x) = cx 2

• quale è il valore di c?

• si calcoli F(x)

• si calcoli P(1 ≤ X ≤ 2)

fi
variabili casuali discrete e continue
Esercizio proposto 2

• Sia Y una variabile casuale de nita sull’intervallo [0,b] con funzione di


y2
distribuzione F(y) =

9
• quanto vale b?

• si trovi la funzione densità di probabilità fY(y)

fi
Variabile casuale funzione di un’altra
Misure dirette e indirette

• Una misura si dice diretta se si ottiene confrontando direttamente l’oggetto da


misurare e la relativa unità di misura (ad esempio misura con un
distanziometro delle dimensioni lineari di un oggetto)

• Una misura si dice indiretta se si ottiene attraverso elaborazioni matematiche


dei dati relativi ad altre grandezze misurabili direttamente (ad esempio
ricavare dalle dimensioni lineari la super cie dell’oggetto rilevato)
Variabile casuale funzione di un’altra

• Sia X la variabile casuale che rappresenta il lancio di un dado, si ha


P(X = numero pari) = 1/2 P(X = numero dispari) = 1/2

• Si consideri la corrispondenza
y = g(x) ; x pari → y = testa x dispari → y = croce

={
 testa  croce
• Si è costruita una nuova variabile casuale Y

1/2 1/2
• nota la corrispondenza y = g(x) si è de nita una nuova distribuzione di
probabilità sui valori di Y
Variabile casuale funzione di un’altra
caso continuo

• Sia X una variabile casuale continua e sia g:ℜ→ℜ y = g(x) una


funzione continua e di erenziabile

• E’ nota FX(x) e si vuole determinare la densità di probabilità della nuova variabile


casuale Y = g(X)

FY(y) = P(Y ≤ y) = P(g(X) ≤ y)

• si può dimostrare che:

fX(x)
fY(y) = con x = g −1(y)
| g′(x) |

ff
Variabile casuale funzione di un’altra
esempio: caso lineare

• Si ha X, FX(x) e la relazione y = g(x) = ax + b, si considera la nuova


variabile casuale Y = g(X) = aX + b

y−b y−b
• FY(y) = P(Y ≤ y) = P(aX + b ≤ y) = P(X ≤ a ) = FX( a )

fX(x) 1 y−b
fY(y) = = fX( )
| g′(x) | |a| a

Variabile casuale funzione di un’altra

• Sia X una variabile casuale con densità fX(x) e funzione di distribuzione


FX(x), è sempre possibile costruire una nuova variabile casuale Y de nita da
Y = FX(x) tale che quando x percorre l’intervallo di de nizione di X, y varia
sull’intervallo [0,1], si ha

fX(x)
fY(y) = d
= 1 cioè Y è uniformemente distribuita su [0,1]
• F (x)
dx X
La distribuzione uniforme (*)

La distribuzione uniforme su un intervallo [a, b]


attribuisce la stessa probabilità a tutti i punti
appartenenti all’intervallo [a, b].

1
f(x) = ∈ [a, b]

b−a

La probabilità su un intervallo qualunque contenuto in


[a, b] è proporzionale alla lunghezza dell’intervallo.

• parte del materiale è stato tratto da MIT OpenCourseWare https://ocw.mit.edu 18.05 Introduction
to Probability and Statistics Spring 2014

Potrebbero piacerti anche