Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Diagrammi ad albero
Esempio:
∑ P ( A|C k ) P (C k )
j=1
Variabile casuale: misurazione numerica degli esiti di un fenomeno casuale; spesso, la casualità risulta
dall’uso del campionamento casuale o di un esperimento randomizzato per raccogliere i dati. Si indica con
lettere maiuscole (finali dell’alfabeto), come X, la variabile “tout court”, mentre con lettere minuscole, come
x, i possibili valori che essa può assumere (o realizzazioni).
Esempio: X = {numero di teste in tre lanci di una moneta} , x = 2 (uno dei possibili valori).
Ad ogni possibile esito del fenomeno casuale, compete una probabilità di manifestarsi: quindi, la
distribuzione di probabilità di una variabile casuale elenca le sue possibili realizzazioni e le relative
probabilità.
Se una variabile casuale si manifesta con realizzazioni che sono esito di un’operazione di conteggio, essa è
detta variabile casuale discreta → assume un insieme di realizzazioni distinte.
- Per ogni x la probabilità P(x) cade fra 0 e 1;
- La somma delle probabilità per tutte le possibili realizzazioni x è pari a 1.
La distribuzione di probabilità si indica con P(X = x).
Anche le sintesi numeriche di una distribuzione di probabilità vengono indicate con il termine di parametri;
- La media della distribuzione di probabilità di una variabile casuale x sarà quel valore che, a lungo
termine, ci attendiamo per la media di quelle realizzazioni → essa prende il nome di valore atteso,
ed è indicato con E(x) – E sta per “expectation”; la media (valore atteso) è pari alla sommatoria delle
realizzazioni moltiplicate per le probabilità che competono loro:
μ=E ( x )=∑ x i P(x i) Il valore atteso deriva dal guadagno atteso (per una lunga serie di partite)
i
nel gioco d’azzardo; si dice che è un gioco è equo – non sbilanciato – quando il guadagno sia del
giocatore che del banco è pari a 0 (gioco a somma nulla); per gli esempi, guarda le slide 3-8 di
“probabilità, seconda parte”.
Proprietà dell’operatore E
a) Sia Y = g(X) una funzione di X, allora vale che E ( Y )=E [ g ( X ) ]=∑ g ( xi ) p(x i) → g(X) è una
i
variabile casuale generata, e la funzione g non impatta sulle probabilità di X;
b) E è un operatore lineare: dati a , b ϵ R , E ( aX +b )=aE ( X )+b ;
c) Date X , Y : E ( X +Y )= E ( X ) + E(Y ) ;
d) Data una costante c : E ( c )=c , poiché una costante non è casuale, ma determinata.
- Data una variabile casuale x, con media μ=E (x) , la varianza di x è il valore atteso della
funzione g ( X )=(X −μ)2 , pertanto:
σ 2 =Var ( X )=E [ ( X −μ )2 ] Proprietà dell’operatore Var
a) Var ( X )≥0 ;
b)
Var ( X )=E [ ( X−μ )2 ]=E ( X 2 + μ2−2 μX )=E ( X 2 )+ E ( μ2 )−2 μE ( X )=E ( X 2 ) + μ2−2 μ2=E ( X 2 )−μ2
;
c) dati a , b ϵ R , Var ( aX+ b )=a2 Var ( X ) .
Esempio
( x−3 )2 p ( x )= [ 12 ][
( 0−3 )2∗1 ( 1−3 )2∗2
+
12
+ ][
( 2−3 )2∗2
12
+¿
12
+
12 ] [
(3−3 )2∗2 ( 4−3 )2∗2
+
( 5−3 )2∗2
12 ][
+
( 6−3 )2
6
12 ][ ][
Var ( X )=E [ ( X −μ )2 ]=∑ ¿
x=0
.
Distribuzione binomiale
Si ha una distribuzione binomiale quando si è in presenza di una variabile casuale discreta data da una
forma funzionale chiusa, che restituisce una probabilità ad ogni possibile realizzazione.
Condizioni per una distribuzione binomiale
Definito n il numero di prove (ad esito dicotomico) e p la probabilità di successo in ogni prova:
1. Ciascuna delle n prove ha due esiti possibili: successo o insuccesso; ogni osservazione, pertanto, è
classificata in due eventi incompatibili ed esaustivi;
2. La probabilità di successo p è costante in ogni prova; pertanto, anche le probabilità di insuccesso
(1-p) risulterà costante;
3. Le n prove sono indipendenti l’una dall’altra: il risultato di una prova non dipende da ciò che si è
verificato nelle altre.
La variabile casuale binomiale X è il numero di successi in n prove.
()
n!
p (1− p) = n p (1−p) , x=0, 1, 2,… , n
x n−x x n− x
P (x )=
x ! ( n−x ) ! x
Questa formula è chiamata anche funzione di densità discreta.
Dimostrazione tramite esempio:
Quale è la probabilità che escano 3 teste in 5 lanci di una moneta? [n = 5, p = 0,5]
Abbiamo 5 prove indipendent con esito binario e probabilità di successo pari a 0,5 costante → condizioni
verificate.
P(X = 3) = p(3) = ?
- La probabilità della sequenza TTTCC è pari a: p∗p∗p∗( 1−p )∗( 1−p )= p3∗(1− p)2 ;
→ Pertanto, ()
p (3 )= 5 p3∗( 1− p ) =10 /32 . [Formula dimostrata]
3
2
Il grafico che si ottiene da una distribuzione binomiale è un grafico a bastoncini che ha come modalità
(sull’asse delle ascisse) il numero di successi possibili e, sull’asse delle ordinate, le rispettive probabilità.
Se p = 0,5 , la distribuzione è simmetrica indipendentemente dal numero n di prove: più p tende a 0,5 e n
cresce, più l’asimmetria si riduce – è approssimabile con una forma campanulare.
(guarda slide 29-31 per grafici)
Esistono delle formule per calcolare la media e la deviazione standard per una distribuzione binomiale che
dipendono esclusivamente dal numero delle prove n e dalla probabilità di successo p in ciascuna prova.
- La media di una distribuzione binomiale è pari a: μ=E ( X )=np ;
1− p
- La deviazione standard di una distribuzione binomiale è pari a: np ¿ .
σ =√ ¿
La formula riportata per la media ha intuitivamente senso: se la probabilità di successo è pari a p per
ciascuna prova, allora in n prove ci attendiamo (in totale) circa np successi; allo stesso modo possiamo
dimostrarla considerando Y B(1 , p) , ovvero una variabile casuale binomiale con numero di prove
pari a 1 – in questo caso la variabile prende il nome di variabile casuale di Bernoulli e segue una legge di
probabilità del tipo seguente: y P( y )
0 (1− p)
1 p
1
n
Posto quindi che X =∑ Y i (la variabile casuale X è un vettore binomiale: il numero di successi si
i=1
ottiene sommando), si ha:
( )
n n n
E ( X )=E ∑ Y i =∑ E ( Y i ) =∑ p=np
i=1 i=1 i=1
(dimostrato)
Analogamente si dimostra che Y B ( p ) implica Var ( Y )= p(1− p) ; sono però necessarie ulteriori
⇒
(∑ )
n
ipotesi per affermare che Var ( X )=Var Y i =np(1−p) , poiché Var è un operatore quadratico:
i=1
questo comporta la presenza dei doppi prodotti (covarianza), che si annullano solo nel caso di indipendenza
tra le variabili.
cioè (
P x−
∆x
2
∆
≤ X ≤x+ x
2 ) → di conseguenza, P ( X=x )=0 poiché nessun valore sarà
esattamente x.
La funzione di densità della variabile casuale continua X, definita in (t , T ) , è tale che:
1. f (x) ≥0 → (funzione deve essere nel primo o nel secondo quadrante);
T
2. ∫ f ( x ) dx=1 → (in questo modo si copre tutto lo spazio campionario).
t
Nota: l’istogramma è una rappresentazione dei dati campionari, la curva continua è una rappresentazione
grafica per la popolazione: la curva sovrapposta all’istogramma approssima, utilizzando i dati campionari, la
distribuzione di probabilità per la popolazione.
Distribuzione normale
Il modello di distribuzione normale è un modello continuo (di distribuzione di probabilità) con fondamentali
applicazioni nel campo delle scienze sociali ed economiche; è importante perché:
- Molti fenomeni si distribuiscono in modo normale;
- La distribuzione normale approssima molte distribuzioni discrete;
- Costituisce la base dell’inferenza statistica classica (teorema del limite centrale).
Una distribuzione normale è caratterizzata da una particolare curva di forma campanulare simmetrica, che
dipende da due soli parametri: la sua media μ e la sua deviazione standard σ; questa curva è descritta dalla
sua funzione di densità:
2
(x−μ )
1 2
f ( x )= e 2σ
σ √2 π
quindi trasformando i valori di una variabile casuale normale in z-score (sottraendo la media e dividendo
per la deviazione standard).
E ( Z )=E ( X−μ
σ ) 1 1 1 1
= E ( X−μ ) = [ E ( X ) −E ( μ ) ]= [ E ( X )−μ ] = [ μ−μ ]=0
σ σ σ σ
[( ) ]
2
X −μ
Var ( Z )=E { [ Z− E ( Z ) ] }=E ( Z 2 ) =E
1 1
E {[ X −μ ] }= 2 σ 2=1
2 2
= 2
σ σ σ
X =2 e1
Y =1 e2
X =2∩Y =1
e3
e4
e5
e6
e7
Definizione di funzione di probabilità congiunta: si chiama funzione di probabilità congiunta delle variabili
casuali discrete X e Y la funzione → p ( x , y )=P ( X=x ∩Y = y ) , che soddisfa due condizioni:
1. p (x , y )≥ 0 ;
2. ∑ ∑ p ( x , y ) =1.
x y
Per calcolare questa probabilità si considerano le intersezioni di tutti i valori di X e Y: si ottiene così una
tabella doppia con le probabilità marginali delle singole variabili ai margini (appunto).
Distribuzioni marginali: p ( x ) =∑ p ( x , y ) p ( y )=∑ p (x , y ) s
y x
Generalizzando:
p(x , y)
p ( x| y ) =
p( y)
Questa formula identifica una distribuzione di probabilità, e dunque:
E ( X|Y = y )=μ X ∨ y =∑ xp ( x , y )
x
Indipendenza
Definizione: due variabili casuali sono indipendenti se ( X =x) e ( Y = y ) ∀( x , y) sono indipendenti;
quindi:
P ( X=x ∩Y = y ) =P ( X=x ) P(Y = y )
cioè p ( x , y )= p ( x ) p( y ) .
- Più le variabili sono distanti dalla situazione di indipendenza, più c’è associazione.
Gli errori cui i campioni probabilistici sono più spesso soggetti sono:
- Errori di copertura: ◊ archivi sovracoperti (consistono di più unità di quelle realmente esistenti) o ◊
archivi sottocoperti (consistono di meno unità di quelle realmente esistenti); esempio: gli archivi
delle imprese si consolidano in un determinato periodo dell’anno (pertanto, nel resto del tempo, vi
può essere qualche fallimento/fusione non registrata);
- Mancate risposte: ◊ MRP (parziale), il soggetto non risponde ad alcune domande → si correggono
con tecniche di imputazione (ovvero si imputano all’unità in questione le risposte dell’unità più
simile); ◊ MRT (totale) → si correggono con modifiche dei pesi di riporto*;
- Errori di misura: ◊ formulazione errata delle domande; ◊ effetto “aureola” (si tenta di condizionare
positivamente l’unità); ◊ errore dei rispondenti (ad esempio, su domande temporali retrospettive);
- Errori campionari: dati dalle differenze da campione a campione dovute al caso.
Per questo motivo, i risultati delle indagini sono spesso corredati da affermazione sul margine di errore
o sulla precisione.
I metodi inferenziali utilizzano statistiche calcolate su dat campionari per elaborare decisioni o fare
previsioni su una popolazione: quanto è probabile che i risultati campionari siano vicini ai parametri
(=misure di sintesi) della popolazione?
Distribuzione campionaria: distribuzione di probabilità che serve a determinare quanto è probabile che una
statistica campionaria cada vicino al parametro della popolazione; ovvero, essa è la distribuzione di
probabilità che specifica le probabilità per i possibili valori che la statistica può assumere.
Chiarimento sulla terminologia:
- Distribuzione della popolazione: i valori dei suoi parametri sono fissi ma generalmente incogniti;
ossia, il parametro specifico della popolazione non varia ed è ciò su cui si fa inferenza; esempio:
proporzione di voti ricevuti da ciascun candidato (esito finale dello scrutinio);
- Distribuzione dei dati: distribuzione dei dati campionari (di un singolo campione); è la distribuzione
che si osserva nella pratica; le distribuzioni dei dati variano da un campione all’altro; esempio:
proporzione di voti ricevuti da ciascun candidato registrata in un singolo exit poll;
- Distribuzione campionaria: nell’ambito del campionamento casuale, fornisce le probabilità per tutti
i possibili valori della statistica; svela quanto una statistica campionaria cada vicino al parametro
incognito corrispondente; esempio: rispetto al campionamento di 3000 elettori in un exit poll, si
immaginino tutti i campioni distinti di 3000 elettori ottenibili; ciascuno di questi campioni esprime
una diversa proporzione di preferenza per ciascun candidato; se si costruisce la distribuzione di
frequenza di questi valori (proporzioni), si ottiene la distribuzione campionaria. Una distribuzione
campionaria, quindi, descrive anche la variabilità che si ha da campione a campione.
Qualunque statistica campionaria è una variabile numerica e ha una distribuzione campionaria.
Esempio: errori commessi nella battitura della stessa pagina di un documento da 4 impiegati.
μ = 2.5
σ = 1.12
μ X́ =2,5
Si può notare come le grandi sovrastime/sottostime siano meno frequenti; le stime formano una distribuzione campanulare.
Dimostrazione
1. X i ,i=1, … ,n iid μ , σ 2
2. S= X 1+ …+ X i +…+ X n
5.
6. Sia ( X 1 +…+ X i +…+ X n ) un campione casuale estratto da una popolazione con media μ e
varianza σ2:
1 1
- X́ = ( X 1 +…+ X i+…+X n) = S ;
n n
1 1
- E ( X́ ) =μ X́ = E ( S )= nμ=μ ;
n n
( )
2
1 1 1 σ
- Var ( X́ )=Var S = 2 Var ( S )= 2 n σ 2=
n n n n
σ
→ σ X́ = .
√n
( )
2
σ X́−μ
X́ N μ , → Z=
n σ
√n
Secondo caso: campionamento da una popolazione non normale
Con un n > 30, qualsiasi sia la distribuzione, si ha:
( )
2
σ
X́ → N μ ,
n
IL TEOREMA DEL LIMITE CENTRALE DESCRIVE LA FORMA ATTESA DELLA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA
Per un campione casuale di dimensione n estratto da una popolazione avente media μ e deviazione
standard σ, all’aumentare della dimensione campionaria n, la distribuzione della media campionaria x́ si
avvicina sempre di più ad una distribuzione approssimativamente normale.
L’elemento rilevante del teorema del limite centrale è che, qualunque sia la forma della distribuzione della
popolazione, la distribuzione della media campionaria si avvicina ad una distribuzione approssimativamente
normale (più è grande la dimensione campionaria, più è ben approssimata): la distribuzione della media
campionaria ha una forma approssimativamente a campana quando n è almeno pari a 30; più la
distribuzione della popolazione è asimmetrica, più n deve essere grande prima che la forma si avvicini a
quella normale.
σp =S
√
p(1− p)
n
pS → N p , ( p ( 1− p )
n )
quando n → ∞
⇓
p S− p
Z= N (0,1)
√ p (1− p)
n
Per la qualità dell’approssimazione, valgono le stesse considerazioni fatte per il teorema del limite centrale:
- Se p=1/2 → approssimazione buona anche per n piccolo;
- Se p≠ 1/2 → n deve essere tanto più grande quanto più p è diverso da q.
In pratica np(1− p)>10 oppure np e n ( 1− p ) entrambi ¿ 5 .
Intervalli di confidenza
Margine di errore: è un multiplo della deviazione standard della distribuzione campionaria della stima;
misura l’accuratezza della stima puntuale nello stimare un parametro.
Quindi, ricapitolando:
- X́ è uno stmatore di μ;
- μ è il parametro costante della popolazione; l’intervallo di stima è una variabile casuale perché
X́ è una variabile casuale;
- Una volta estratto il campione, X́ si realizza in x́ (singola stima);
- All’aumentare di n, la distribuzione di X́ tende a concentrarsi attorno a μ → conseguenze: (1) la
σ
deviazione standard si riduce, (2)
√n
l’intervallo si restringe, (3) la stima è più precisa.
In
sintesi:
La deviazione standard della media campionaria dipende da un parametro il cui valore ci è sconosciuto, cioè
σ quindi noi stimiamo σ con S.
⇒
√
n
∑ (x i− x́ )2
i=1
S=
n−1
↓
X́−μ
t n−1
S
√n
[con (n – 1) al denominatore ci garantiamo uno
stimatore che in media fornisce una stima corretta]
- Le fonti di incertezza in questo caso sono
tante;
- La standardizzazione non è più normale.
[0,025 è α/2]
Generalizzando, l’intervallo di confidenza per μ al 95%, con un campione di dimensione n è dato da:
S
i μ : X́ ±t n−1 ;0,025 ∙
√n
La distribuzione t di Student è similnormale: essa tende alla normale
al crescere di n.
Si può dire che si utilizza la t di Student per n < 30 e se σ è incognita;
per n > 30 si può tornare alla distribuzione normale.
(su slide Inferenza – seconda parte, costruzione di intervalli di confidenza con Phstat)
Prospetto di sintesi:
σ
In parallelo a i μ : X́ ± z α /2 ∙
:
√n
dato che ps N p ,(p ( 1− p )
n ⇒
)
Però, dato che p è incognito, dobbiamo stimarlo con
p(1− p)
allora i p : p S ± z α
2
n
p S
√
; ciò introduce un’ulteriore fonte di errore, ma
Ricorda: con p = 0,5 ci avviciniamo alla normale; così non avviene con p vicino a 0 oppure 1.
[Vedi file excel su intervalli di confidenza; esempi su intervalli di confidenza per proporzione da slide 38]
Stima puntuale
Stimatore: funzione di dati campionari utilizzata per stimare un parametro. Si chiama stimatore del
parametro θ ogni statistica T =t (X 1 , X 2 , … , X n ) utilizzata per stimare θ.