Analisi Dei Dati e Statistica II Parte Analisi Dei Dati e Statistica II Parte

lOMoARcPSD|11500446
Analisi dei dati e statistica II parte
Analisi dei dati e Statistica (Università degli Studi di Trento)
StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.

Scaricato da Sofia Digiuni (dsofia2013@libero.it)
lOMoARcPSD|11500446
II parte del corso
[guarda slide da 48 a 51, probabilità prima parte]
Diagrammi ad albero
Esempio:
Approccio bayesiano alla probabilità

L’evento A è l’effetto di k possibili cause, corrispondenti agli eventi C1 , Ci , Ck , … necessari e incompatibili;
uno soltanto di loro ha prodotto come effetto l’evento A.
Come si vede in figura, le cause non hanno intersezioni, ma la loro
unione crea lo spazio campionario.
← problema: nelle situazioni precedenti, le

probabilità degli eventi venivano determinate prima
degli esperimenti; ora la situazione è opposta, in quanto si conosce il
risultato dell’esperimento e si vuole calcolare la probabilità che sia dovuto ad una certa causa.
Soluzione: Ci con i=1 , … , k costituiscono una partizione di S. Quindi:

S=C 1 ∪ C2 ∪ …∪ C k
A= A ∩ S= A ∩ ( C 1 ∪ C2 ∪… ∪ C k ) =( A ∩C 1 ) ∪ ( A ∩C 2 ) ∪ … ∪( A ∩C k )
( A ∩C i) con i=1 , … , k sono eventi disgiunt.
Quindi, se A è uguale all’unione delle intersezioni tra A ed ogni evento Ci e le intersezioni sono tra loro
disgiunte, si ha che:
P ( A )=P ( A ∩C1 ) + P ( A ∩C 2 ) +…+ P ( A ∩C k )
⇒P ( A )=P ( A|C1 ) P ( C1 ) +…+ P ( A|Ck ) P(C k )
P (Ci ∩ A) P( A ∩C i)
ma per definizione P ( Ci| A ) = ⇒P ( C i| A )=
P( A) P(A )
P ( A|Ci ) P(C i)
⇒P ( C i| A )= k
∑ P ( A|C k ) P (C k )
j=1
Il verificarsi di A modifica la probabilità di Ci facendola

passare da P(C i) a P(C i∨A ) ; a determinare tale
modifica sono le probabilità probative.
(esempio slide 61-62)
Capitolo 6 – Distribuzione di probabilità
Variabile casuale: misurazione numerica degli esiti di un fenomeno casuale; spesso, la casualità risulta
dall’uso del campionamento casuale o di un esperimento randomizzato per raccogliere i dati. Si indica con
lettere maiuscole (finali dell’alfabeto), come X, la variabile “tout court”, mentre con lettere minuscole, come
x, i possibili valori che essa può assumere (o realizzazioni).
Esempio: X = {numero di teste in tre lanci di una moneta} , x = 2 (uno dei possibili valori).

lOMoARcPSD|11500446
Ad ogni possibile esito del fenomeno casuale, compete una probabilità di manifestarsi: quindi, la
distribuzione di probabilità di una variabile casuale elenca le sue possibili realizzazioni e le relative
probabilità.
Se una variabile casuale si manifesta con realizzazioni che sono esito di un’operazione di conteggio, essa è
detta variabile casuale discreta → assume un insieme di realizzazioni distinte.
- Per ogni x la probabilità P(x) cade fra 0 e 1;
- La somma delle probabilità per tutte le possibili realizzazioni x è pari a 1.
La distribuzione di probabilità si indica con P(X = x).
P(X = x) può essere rappresentata come grafico, tabella, formula.

Definizione formale: una variabile casuale è una funzione che associa ad ogni evento elementare di S uno
ed un solo numero reale.
a) X è una variabile casuale discreta se è definita in uno spazio campionario discreto (X può assumere
un numero finito o un infinità numerabile di valori);
b) X è una variabile casuale continua se è definita in uno spazio campionario continuo (X può
assumere tutti i valori di un intervallo [t;T]).
Data una variabile casuale discreta, p(x) = P(X = x) si chiama funzione di probabilità di X.
p ( x ) ≥ 0 , ∑ p x ( x )=1
x
Anche le sintesi numeriche di una distribuzione di probabilità vengono indicate con il termine di parametri;
- La media della distribuzione di probabilità di una variabile casuale x sarà quel valore che, a lungo
termine, ci attendiamo per la media di quelle realizzazioni → essa prende il nome di valore atteso,
ed è indicato con E(x) – E sta per “expectation”; la media (valore atteso) è pari alla sommatoria delle
realizzazioni moltiplicate per le probabilità che competono loro:
μ=E ( x )=∑ x i P(x i) Il valore atteso deriva dal guadagno atteso (per una lunga serie di partite)
i
nel gioco d’azzardo; si dice che è un gioco è equo – non sbilanciato – quando il guadagno sia del
giocatore che del banco è pari a 0 (gioco a somma nulla); per gli esempi, guarda le slide 3-8 di
“probabilità, seconda parte”.
Proprietà dell’operatore E
a) Sia Y = g(X) una funzione di X, allora vale che E ( Y )=E [ g ( X ) ]=∑ g ( xi ) p(x i) → g(X) è una
i
variabile casuale generata, e la funzione g non impatta sulle probabilità di X;
b) E è un operatore lineare: dati a , b ϵ R , E ( aX +b )=aE ( X )+b ;
c) Date X , Y : E ( X +Y )= E ( X ) + E(Y ) ;
d) Data una costante c : E ( c )=c , poiché una costante non è casuale, ma determinata.
- Data una variabile casuale x, con media μ=E (x) , la varianza di x è il valore atteso della
funzione g ( X )=(X −μ)2 , pertanto:
σ 2 =Var ( X )=E [ ( X −μ )2 ] Proprietà dell’operatore Var
a) Var ( X )≥0 ;
b)
Var ( X )=E [ ( X−μ )2 ]=E ( X 2 + μ2−2 μX )=E ( X 2 )+ E ( μ2 )−2 μE ( X )=E ( X 2 ) + μ2−2 μ2=E ( X 2 )−μ2

lOMoARcPSD|11500446
;
c) dati a , b ϵ R , Var ( aX+ b )=a2 Var ( X ) .
Esempio
- Si consideri il fenomeno: lancio di una moneta e di un dado regolari;

- Si prenda in esame la variabile X ={ punteggio del dado−¿ croci } .
Lo spazio campionario del fenomeno è S : {1T ; 2T ; 3T ; 4 T ; 5T ; 6 T ; 1C ; 2C ; 3 C ; 4 C ; 5 C ; 6 C } .

X ha dominio in S e codominio in R: associa ad ogni evento elementare e i ϵ S un numero x ϵ R .
In tale trasformazione, si conservano le probabilità associate agli eventi elementari ei :

P ( X=0 )=P ( 1∩C )=1/12 ; P ( X=1 ) =P ( 1 ∩T )+ P ( 2 ∩C )=2/12
P ( X=2 ) =P ( 2 ∩T )+P ( 3 ∩C )=2/12 P ( X=3 )=P (3 ∩T ) + P ( 4 ∩C )=2 /12
P ( X=4 ) =P ( 4 ∩T ) + P ( 5 ∩C )=2/12
P ( X=5 )=P (5 ∩T ) + P ( 6 ∩C ) =2/12 P ( X=6 )=P ( 6 ∩T )=1/12
6
- Si ha che: ∑ P ( X =i )=1 (come da definizione);
i=0
- La media della variabile casuale X è data da:
6
E ( X )=∑ xp ( x )=
x=0
( 0∗1
12 ) +(
1∗2
12 ) +(
2∗2
12 ) +(
3∗2
12 ) +(
4∗2
12 ) +(
5∗2
12 ) +(
12 ) 12
6∗1 36
= =3 ;
- La varianza della variabile casuale X è data da:
( x−3 )2 p ( x )= [ 12 ][
( 0−3 )2∗1 ( 1−3 )2∗2
+
12
+ ][
( 2−3 )2∗2
12
+¿
12
+
12 ] [
(3−3 )2∗2 ( 4−3 )2∗2
+
( 5−3 )2∗2
12 ][
+
( 6−3 )2
6
12 ][ ][
Var ( X )=E [ ( X −μ )2 ]=∑ ¿
x=0
.
(guarda slide 17-20, II parte, per un esempio con trasformazione lineare)
Distribuzione binomiale
Si ha una distribuzione binomiale quando si è in presenza di una variabile casuale discreta data da una
forma funzionale chiusa, che restituisce una probabilità ad ogni possibile realizzazione.
Condizioni per una distribuzione binomiale
Definito n il numero di prove (ad esito dicotomico) e p la probabilità di successo in ogni prova:
1. Ciascuna delle n prove ha due esiti possibili: successo o insuccesso; ogni osservazione, pertanto, è
classificata in due eventi incompatibili ed esaustivi;
2. La probabilità di successo p è costante in ogni prova; pertanto, anche le probabilità di insuccesso
(1-p) risulterà costante;
3. Le n prove sono indipendenti l’una dall’altra: il risultato di una prova non dipende da ciò che si è
verificato nelle altre.
La variabile casuale binomiale X è il numero di successi in n prove.

lOMoARcPSD|11500446
Probabilità per una distribuzione binomiale

In n prove indipendenti, la probabilità di ottenere esattamente x successi è pari a:
()
n!
p (1− p) = n p (1−p) , x=0, 1, 2,… , n
x n−x x n− x
P (x )=
x ! ( n−x ) ! x
Questa formula è chiamata anche funzione di densità discreta.
Dimostrazione tramite esempio:
Quale è la probabilità che escano 3 teste in 5 lanci di una moneta? [n = 5, p = 0,5]
Abbiamo 5 prove indipendent con esito binario e probabilità di successo pari a 0,5 costante → condizioni
verificate.
P(X = 3) = p(3) = ?
- La probabilità della sequenza TTTCC è pari a: p∗p∗p∗( 1−p )∗( 1−p )= p3∗(1− p)2 ;
- In quanti modi si può presentare la sequenza TTTCC? ()

C5,3 = 5
3
;
→ Pertanto, ()
p (3 )= 5 p3∗( 1− p ) =10 /32 . [Formula dimostrata]
3
2
Dunque, per identificare una variabile casuale binomiale è necessario conoscere:

- Numero di prove → n ;
- Probabilità di successo → p .
X ∼B (n , p)
dove il simbolo ∼ sta per “segue una legge di probabilità del tipo” o “si distribuisce come”.
Il grafico che si ottiene da una distribuzione binomiale è un grafico a bastoncini che ha come modalità
(sull’asse delle ascisse) il numero di successi possibili e, sull’asse delle ordinate, le rispettive probabilità.
Se p = 0,5 , la distribuzione è simmetrica indipendentemente dal numero n di prove: più p tende a 0,5 e n
cresce, più l’asimmetria si riduce – è approssimabile con una forma campanulare.
(guarda slide 29-31 per grafici)
Esistono delle formule per calcolare la media e la deviazione standard per una distribuzione binomiale che
dipendono esclusivamente dal numero delle prove n e dalla probabilità di successo p in ciascuna prova.
- La media di una distribuzione binomiale è pari a: μ=E ( X )=np ;
1− p
- La deviazione standard di una distribuzione binomiale è pari a: np ¿ .
σ =√ ¿
La formula riportata per la media ha intuitivamente senso: se la probabilità di successo è pari a p per
ciascuna prova, allora in n prove ci attendiamo (in totale) circa np successi; allo stesso modo possiamo
dimostrarla considerando Y B(1 , p) , ovvero una variabile casuale binomiale con numero di prove
pari a 1 – in questo caso la variabile prende il nome di variabile casuale di Bernoulli e segue una legge di
probabilità del tipo seguente: y P( y )
0 (1− p)
1 p
1
E ( Y )=∑ y p ( y )=[ 0∗( 1− p ) ]+ [ 1∗p ] =p=n ( ¿ 1 )∗p

y
In un vettore binomiale del tipo 0, 1,1, 0, 0,0, 1, 1 , i valori elencati corrispondono ad altrettante
variabili casuali bernoulliane di parametro p: le variabili sono indicate con Y i .
Y i iid B (p)
iid sta per identicamente distribuite ed indipendenti: non è detto che siano uguali, ma hanno la stessa
distribuzione di probabilità.

lOMoARcPSD|11500446
n
Posto quindi che X =∑ Y i (la variabile casuale X è un vettore binomiale: il numero di successi si
i=1
ottiene sommando), si ha:
( )
n n n
E ( X )=E ∑ Y i =∑ E ( Y i ) =∑ p=np
i=1 i=1 i=1
(dimostrato)
Analogamente si dimostra che Y B ( p ) implica Var ( Y )= p(1− p) ; sono però necessarie ulteriori
⇒
(∑ )
n
ipotesi per affermare che Var ( X )=Var Y i =np(1−p) , poiché Var è un operatore quadratico:
i=1
questo comporta la presenza dei doppi prodotti (covarianza), che si annullano solo nel caso di indipendenza
tra le variabili.
Variabile casuale contnua

Una variabile casuale è detta contnua quando i possibili valori che assume costituiscono un intervallo.
- La corrispondente distribuzione di probabilità è rappresentata da una curva che consente di
assegnare una probabilità ad ogni sottointervallo in cui i valori sono suddivisi; la probabilità che la
variabile casuale cada in un determinato intervallo è un numero tra 0 e 1, mentre che la probabilità
associata all’intervallo che contiene tutti i possibili valori di quella variabile è pari a 1.
- L’ampiezza delle classi è arbitraria, ma al crescere del numero degli intervalli (quindi al ridursi della
loro ampiezza) la forma dell’istogramma tende sempre di più ad approssimare una curva continua:
spingendo questo processo al limite, otteniamo y=f ( x) dove f (x) è la funzione di densità
di probabilità → per la funzione di densità f(x) l’area sottesa alla funzione è uguale, in
corrispondenza di un dato intervallo, alla probabilità che X assuma valori in quell’intervallo;
f ( x)∆ x è la probabilità che X assuma un valore nell’intervallo di centro x e di ampiezza ∆ x ,
cioè (
P x−
∆x
2
∆
≤ X ≤x+ x
2 ) → di conseguenza, P ( X=x )=0 poiché nessun valore sarà
esattamente x.
La funzione di densità della variabile casuale continua X, definita in (t , T ) , è tale che:
1. f (x) ≥0 → (funzione deve essere nel primo o nel secondo quadrante);
T
2. ∫ f ( x ) dx=1 → (in questo modo si copre tutto lo spazio campionario).
t
Nota: l’istogramma è una rappresentazione dei dati campionari, la curva continua è una rappresentazione
grafica per la popolazione: la curva sovrapposta all’istogramma approssima, utilizzando i dati campionari, la
distribuzione di probabilità per la popolazione.
Distribuzione normale
Il modello di distribuzione normale è un modello continuo (di distribuzione di probabilità) con fondamentali
applicazioni nel campo delle scienze sociali ed economiche; è importante perché:
- Molti fenomeni si distribuiscono in modo normale;
- La distribuzione normale approssima molte distribuzioni discrete;
- Costituisce la base dell’inferenza statistica classica (teorema del limite centrale).
Una distribuzione normale è caratterizzata da una particolare curva di forma campanulare simmetrica, che
dipende da due soli parametri: la sua media μ e la sua deviazione standard σ; questa curva è descritta dalla
sua funzione di densità:
2
(x−μ )
1 2
f ( x )= e 2σ
σ √2 π

lOMoARcPSD|11500446
dove e e π sono costanti, μ=E ( X ) è il valore atteso della popolazione, σ 2 =Var (X ) è la

varianza della popolazione e x ϵ (−∞;+ ∞ ) sono i valori assunti dalla variabile.
Si tratta di una funzione di tipo esponenziale con le seguenti caratteristiche:
- Ha una forma campanulare e simmetrica rispetto al valore x=μ ;
- μ , me e moda coincidono, quindi f (x) presenta un massimo in x=μ ;
- Presenta due flessi in x=σ [μ+ σ ] e in x=−σ [μ−σ ] ;
- f ( x)→0 per x → ± ∞ ;
- D: x ϵ(−∞; +∞) .
Se una variabile casuale continua X presenta una distribuzione normale, si scrive che:
X N ( μ , σ2)
Una distribuzione normale presenta ulteriori importanti proprietà:

- La probabilità degli intervalli μ ± σ , μ ± 2 σ , μ ± 3 σ è la stessa per ogni distribuzione normale e
vale rispettivamente 0.68 per il primo, 0.95 per il secondo e circa 0.997 per il terzo (percentuali
ricavabili dalle tavole);
- Ogni trasformazione lineare di una variabile casuale normale è ancora una variabile casuale
normale: X N ( μ ,σ 2 ) ,Y =aX +b , a , b ϵ R implica Y N ( aμ+b ; a2 σ 2) ;
⇒
- La somma di due o più variabili casuali normali indipendenti è ancora una variabile casuale normale
con media e varianza pari, rispettivamente, alla somma delle medie e alla somma delle varianze
delle due o più variabili casuali.
→ una variabile casuale normale segue pertanto i suoi valori di μ e σ2, quindi è univoca.
- Se μ varia, la funzione di densità risulta traslata; dati ad esempio μ1 ¿ μ2 < μ3 con σ 2 fissato,
si ha:
- Se σ2 varia, la funzione di densità si modifica nella forma; dati ad

2 2 2
esempio σ 1 < σ 2< σ 3 con μ fissato, si ha:
La densità normale è difficile da trattare poiché, essendo infinite le combinazioni di μ e σ 2, dovrebbero

esserci infinite tavole per calcolare le probabilità desiderate: pertanto, si opera una standardizzazione della
variabile.
X−μ
Se la variabile casuale X N (μ , σ 2 ) viene trasformata secondo la relazione Z = , allora la
σ
variabile casuale Z è tale che Z N (0, 1) : tale variabile
casuale è detta normale standardizzata e ha la seguente
−1 2
1 z
funzione di densità: f ( z )= e 2
,z ϵ R .
√2 π
La distribuzione normale standardizzata è una distribuzione
normale con media μ = 0 e deviazione standard σ = 1: si ottiene

lOMoARcPSD|11500446
quindi trasformando i valori di una variabile casuale normale in z-score (sottraendo la media e dividendo
per la deviazione standard).
Dimostrazione sull’operazione di standardizzazione
E ( Z )=E ( X−μ
σ ) 1 1 1 1
= E ( X−μ ) = [ E ( X ) −E ( μ ) ]= [ E ( X )−μ ] = [ μ−μ ]=0
σ σ σ σ
[( ) ]
2
X −μ
Var ( Z )=E { [ Z− E ( Z ) ] }=E ( Z 2 ) =E
1 1
E {[ X −μ ] }= 2 σ 2=1
2 2
= 2
σ σ σ
Variabili casuali doppie Spazio campionario

Realizzazioni X Y
Esempio: tre lanci di una moneta
possibili
Variabili:
e 1=T T T 3 0
e 2=T T C 2 1
e 3=T C T 2 2
e 4=T C C 1 1
e 5=C T T 2 1
e 6=C T C 1 2
e 7=C C T 1 1
e 8=C C C 0 0
X =numero di teste Y =numero di variazioni nella sequenza o
Possiamo calcolare le probabilità congiunte: ad esempio, P ( X=2 ∩Y =1 )=?
X =2 e1
Y =1 e2
X =2∩Y =1
e3
e4
e5
e6
e7
P ( X=2 ∩Y =1 )= p ( 2,1 )=2/ 8 e8
Definizione di funzione di probabilità congiunta: si chiama funzione di probabilità congiunta delle variabili
casuali discrete X e Y la funzione → p ( x , y )=P ( X=x ∩Y = y ) , che soddisfa due condizioni:
1. p (x , y )≥ 0 ;

lOMoARcPSD|11500446
2. ∑ ∑ p ( x , y ) =1.
x y
Per calcolare questa probabilità si considerano le intersezioni di tutti i valori di X e Y: si ottiene così una
tabella doppia con le probabilità marginali delle singole variabili ai margini (appunto).
Distribuzioni marginali: p ( x ) =∑ p ( x , y ) p ( y )=∑ p (x , y ) s
y x
Distribuzione condizionata di probabilità

Esempio: P ( x|Y =1 )=?
La colonna evidenziata è la probabilità congiunta p(x ,1) ; tuttavia, nel

caso di una probabilità condizionata, il totale di colonna dovrebbe essere
pari a 1 (qui è pari a un mezzo): è quindi chiaro che per ottenere la
probabilità condizionata è necessario dividere le probabilità congiunte per
la probabilità della condizione. Si ha quindi:
P ( X =x∨Y =1)
P ( x|Y =1 )=
P (Y =1)
Generalizzando:
p(x , y)
p ( x| y ) =
p( y)
Questa formula identifica una distribuzione di probabilità, e dunque:
E ( X|Y = y )=μ X ∨ y =∑ xp ( x , y )
x
Var ( X|Y = y )=E ( X |Y = y )−[E ( X|Y = y ) ]

2 2
Indipendenza
Definizione: due variabili casuali sono indipendenti se ( X =x) e ( Y = y ) ∀( x , y) sono indipendenti;
quindi:
P ( X=x ∩Y = y ) =P ( X=x ) P(Y = y )
cioè p ( x , y )= p ( x ) p( y ) .
- Più le variabili sono distanti dalla situazione di indipendenza, più c’è associazione.
Teorema del limite centrale

Sia data una successione di n variabili casuali X 1 , … , X i , … , X n reciprocamente indipendent (a due a
due), comunque distribuite (qualsiasi legge di probabilità valga), con medie μ1 ,… , μi , … , μ n e varianze
2 2 2
σ 1 , … , σ i , … , σ n finite.
Siano inoltre:
n
- S n=∑ X i : S n variabile casuale perché somma di variabili casuali;
i=1
n
- E ( S n )=∑ μ i : somma delle medie delle n variabili considerate;
i=1
n
- Var ( S n )=∑ σ 2i : somma delle varianze delle n variabili (c’è indipendenza).
i=1
Il teorema del limite centrale afferma che: al crescere di n, S n tende a distribuirsi come una variabile
Sn −E(Sn )
casuale normale: Zn= N (0, 1)
√ Var ( Sn )

lOMoARcPSD|11500446
(applicazione e approfondimento da slide 14, IV parte)
Capitolo 7 / 8 – Distribuzioni campionarie / Inferenza statstca
Elementi di inferenza statistica:

- Campionamento: nello studio di fenomeni collettivi, le unità osservate costituiscono spesso una
parte (campione) dell’insieme indagato (popolazione); trarre dalle caratteristiche del campione le
proprietà della popolazione significa fare inferenza induttiva;
- Campione: insieme delle unità osservate;
- Popolazione: insieme di ordine superiore da cui il campione è tratto; può essere (1) finita, se
consiste di una pluralità reale di elementi tutti osservabili, o (2) non finita, se consiste di un numero
virtualmente illimitato di elementi (es. numero di cellule).
Se non si riesce a trovare i dati sulla caratteristica di interesse su piattaforme note, si conduce un’indagine
campionaria: esse può essere (1) censuaria, se tutte le unità della popolazione sono osservate, o (2)
campionaria, se se ne osserva solo una parte. Il campione può essere:
- Probabilistico: quando, prima di selezionare il campione, sono note le probabilità di ciascuna unità
di essere inserita nel campione (e le unità vengono scelte sulla base di queste probabilità);
- Non probabilistico: quando le unità vengono incluse senza riguardo alle probabilità che esse
presentino; sono anche detti campioni di convenienza e non consentono l’estensione dei dati alla
popolazione poiché non rappresentativi; vantaggi: ridotto costo e maggiore velocità dell’indagine;
svantaggi: processo di selezione distorto (e scarsa accuratezza) e difficoltà nel generalizzare i risultati
(esempio: indagini via web → autoselezione delle unità).
Esempio: nelle elezioni presidenziali americane del 1948 (in cui si scontravano Dewey e Truman), i maggiori
istituti statistici americani davano come favorito vincitore Dewey: l’esito finale smentì le previsioni, in quanto
Truman si rivelò vincitore. La conduzione delle indagini era stata effettuata in questa maniera: gli istituti avevano
assegnato ad ogni intervistatore una percentuale prefissata di soggetti ed un’ulteriore percentuale di soggetti
appartenenti ad una specifica categoria (stabilite le percentuali di genere, per entrambi i generi gli intervistatori
erano obbligati ad intervistare un tot di persone in base a zona di residenza, età, carnagione, canone di affitto);
dopodichè gli intervistatori erano liberi di scegliere chi intervistare. Questa arbitrarietà concessa nel processo di
scelta introduce una distorsione dei risultati: gli intervistatori scelsero più repubblicani poiché più facili da
intervistare (più istruiti, più ricchi, residenti in zone più sicure); per questo è necessario che il processo di
selezione sia casuale (quindi imparziale).
Rappresentatività: requisito fondamentale affinché i dati campionari possano essere estesi alla popolazione
da cui il campione proviene; il campione sarà rappresentativo se formato con criterio casuale.
Nel caso di utilizzo di un campione probabilistico, si ha una procedura imparziale, ovvero al selezionatore
non è lasciato alcun margine di discrezione nella scelta delle unità; tuttavia esso presenta alcuni svantaggi,
come l’eccessivo costo e la poca praticità (per cui spesso si ricorre a disegni campionari più complessi come
il campionamento a grappoli a più stadi) e può presentare comunque degli errori.
Gli errori cui i campioni probabilistici sono più spesso soggetti sono:
- Errori di copertura: ◊ archivi sovracoperti (consistono di più unità di quelle realmente esistenti) o ◊
archivi sottocoperti (consistono di meno unità di quelle realmente esistenti); esempio: gli archivi
delle imprese si consolidano in un determinato periodo dell’anno (pertanto, nel resto del tempo, vi
può essere qualche fallimento/fusione non registrata);
- Mancate risposte: ◊ MRP (parziale), il soggetto non risponde ad alcune domande → si correggono
con tecniche di imputazione (ovvero si imputano all’unità in questione le risposte dell’unità più
simile); ◊ MRT (totale) → si correggono con modifiche dei pesi di riporto*;
- Errori di misura: ◊ formulazione errata delle domande; ◊ effetto “aureola” (si tenta di condizionare
positivamente l’unità); ◊ errore dei rispondenti (ad esempio, su domande temporali retrospettive);
- Errori campionari: dati dalle differenze da campione a campione dovute al caso.

lOMoARcPSD|11500446
Per questo motivo, i risultati delle indagini sono spesso corredati da affermazione sul margine di errore
o sulla precisione.
Un buon meccanismo di riproduzione di campionamento casuale è l’estrazione di palline da un urna: esso

permette anche di distinguere tra ◊ campionamento senza reimmissione (viola l’indipendenza delle prove) e
◊ campionamento con reimmissione.
In generale, in un campionamento casuale, la probabilità di ogni unità di essere selezionata e inclusa nel
n
campione è uguale per tutte e pari a , ovvero la dimensione del campione fratto la dimensione della
N
popolazione; in alcuni casi, tuttavia, è necessario utilizzare probabilità proporzionali alla dimensione delle
unità (esempio: aziende più piccole sono meno rilevanti e hanno meno probabilità di essere incluse in
un’indagine rispetto ad aziende più grandi).
I metodi inferenziali utilizzano statistiche calcolate su dat campionari per elaborare decisioni o fare
previsioni su una popolazione: quanto è probabile che i risultati campionari siano vicini ai parametri
(=misure di sintesi) della popolazione?
Distribuzione campionaria: distribuzione di probabilità che serve a determinare quanto è probabile che una
statistica campionaria cada vicino al parametro della popolazione; ovvero, essa è la distribuzione di
probabilità che specifica le probabilità per i possibili valori che la statistica può assumere.
Chiarimento sulla terminologia:
- Distribuzione della popolazione: i valori dei suoi parametri sono fissi ma generalmente incogniti;
ossia, il parametro specifico della popolazione non varia ed è ciò su cui si fa inferenza; esempio:
proporzione di voti ricevuti da ciascun candidato (esito finale dello scrutinio);
- Distribuzione dei dati: distribuzione dei dati campionari (di un singolo campione); è la distribuzione
che si osserva nella pratica; le distribuzioni dei dati variano da un campione all’altro; esempio:
proporzione di voti ricevuti da ciascun candidato registrata in un singolo exit poll;
- Distribuzione campionaria: nell’ambito del campionamento casuale, fornisce le probabilità per tutti
i possibili valori della statistica; svela quanto una statistica campionaria cada vicino al parametro
incognito corrispondente; esempio: rispetto al campionamento di 3000 elettori in un exit poll, si
immaginino tutti i campioni distinti di 3000 elettori ottenibili; ciascuno di questi campioni esprime
una diversa proporzione di preferenza per ciascun candidato; se si costruisce la distribuzione di
frequenza di questi valori (proporzioni), si ottiene la distribuzione campionaria. Una distribuzione
campionaria, quindi, descrive anche la variabilità che si ha da campione a campione.
Qualunque statistica campionaria è una variabile numerica e ha una distribuzione campionaria.
Distribuzione della media campionaria

I parametri della popolazione si indicano con le lettere greche: μ, σ, … ;
le corrispondenti statistiche campionarie si indicano invece con X́ ,
S ,….
X́ è una variabile casuale.
Esempio: errori commessi nella battitura della stessa pagina di un documento da 4 impiegati.
μ = 2.5
σ = 1.12

lOMoARcPSD|11500446
μ X́ =2,5
Si può notare come le grandi sovrastime/sottostime siano meno frequenti; le stime formano una distribuzione campanulare.
→ Campionamento senza ripetizione - μ X́ =2,5
→ Campionamento in blocco - μ X́ =2,5
MEDIA E DEVIAZIONE STANDARD DELLA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA

Per un campione casuale di n estratto da una popolazione avente media μ e deviazione standard σ, la
distribuzione della media campionaria x́ ha tendenza centrale definita dalla media della popolazione μ
(media della popolazione = media della distribuzione della media campionaria) e variabilità definita dalla
σ
deviazione standard della distribuzione campionaria che è uguale a .
√n
Il modo in cui X́ varia da campione a campione è espresso statisticamente da σ X́ che, nel caso di
σ
campionamento con ripetizione, vale implica n↑ , σ X́ ↓ .
√n ⇒
σ
approssima anche il caso senza ripetizione, se N >> n.
√n
[Esempio importante slide: da 31 a 34]
Dimostrazione
1. X i ,i=1, … ,n iid μ , σ 2
2. S= X 1+ …+ X i +…+ X n
3. S è una variabile casuale implica si può calcolare E ( S ) , Var ( S)

⇒
4. E ( S )=E ( X 1+ …+ X i +…+ X n )=E ( X 1 ) +…+ E ( X i )+ …+ E ( X n )=μ+ μ+ …+ μ=nμ

lOMoARcPSD|11500446
5.
Var ( S )=Var ( X 1 +…+ X i+…+X n ) =Var ( X 1 ) +…+Var ( X i ) +…+Var ( X n ) =σ +σ + …+σ =n σ implica σ S =√ n

2 2 2 2
⇒
6. Sia ( X 1 +…+ X i +…+ X n ) un campione casuale estratto da una popolazione con media μ e
varianza σ2:
1 1
- X́ = ( X 1 +…+ X i+…+X n) = S ;
n n
1 1
- E ( X́ ) =μ X́ = E ( S )= nμ=μ ;
n n
( )
2
1 1 1 σ
- Var ( X́ )=Var S = 2 Var ( S )= 2 n σ 2=
n n n n
σ
→ σ X́ = .
√n
Forma della distribuzione di X́
Primo caso: campionamento da una popolazione N(μ, σ2)
( )
2
σ X́−μ
X́ N μ , → Z=
n σ
√n
Secondo caso: campionamento da una popolazione non normale
Con un n > 30, qualsiasi sia la distribuzione, si ha:
( )
2
σ
X́ → N μ ,
n
Caso a) Urna con tre tipi di palline;

Caso b) Lancio del dado;
Caso c) Urna con palline numerate 2, 4, 6 con
probabilità rispettive 1/4, 1/4, 1/2.
IL TEOREMA DEL LIMITE CENTRALE DESCRIVE LA FORMA ATTESA DELLA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA

lOMoARcPSD|11500446
Per un campione casuale di dimensione n estratto da una popolazione avente media μ e deviazione
standard σ, all’aumentare della dimensione campionaria n, la distribuzione della media campionaria x́ si
avvicina sempre di più ad una distribuzione approssimativamente normale.
L’elemento rilevante del teorema del limite centrale è che, qualunque sia la forma della distribuzione della
popolazione, la distribuzione della media campionaria si avvicina ad una distribuzione approssimativamente
normale (più è grande la dimensione campionaria, più è ben approssimata): la distribuzione della media
campionaria ha una forma approssimativamente a campana quando n è almeno pari a 30; più la
distribuzione della popolazione è asimmetrica, più n deve essere grande prima che la forma si avvicini a
quella normale.
Distribuzione della proporzione campionaria

Si consideri una variabile binaria, rispetto alla quale ogni unità della popolazione è classificata come:
i= {nonpossiede la caratteristica diinteresse
possiede la caratteristica diinteresse
Esempio: in un campione di n = 5 individui, 3 preferiscono la marca A, mentre 2 non la preferiscono:
1, 0, 1, 1, 0
1+1+1+0+0
X i=¿ =0,60
5
- La media campionaria è n ;
1
X́= ∑ ¿
n i=1
- 0,60 è anche la proporzione campionaria degli individui che preferiscono la marca A.
[Quindi, la proporzione campionaria è la proporzione di unità (in un campione) che competono ad una
particolare categoria della variabile – che presentano, quindi, un determinato attributo.]
La proporzione campionaria è uguale a:
X numero di successi
pS = =
n dimensione campionaria
Nota bene: così come X́ è stimatore corretto per μ (media della popolazione), pS è stimatore
corretto per la proporzione incognita p della popolazione.

σ
In analogia con σ X́ = , la deviazione standard per
√n
pS vale:
σp =S
√
p(1− p)
n
Forma della distribuzione della proporzione campionaria
pS → N p , ( p ( 1− p )
n )
quando n → ∞
⇓
p S− p
Z= N (0,1)
√ p (1− p)
n
Per la qualità dell’approssimazione, valgono le stesse considerazioni fatte per il teorema del limite centrale:
- Se p=1/2 → approssimazione buona anche per n piccolo;
- Se p≠ 1/2 → n deve essere tanto più grande quanto più p è diverso da q.
In pratica np(1− p)>10 oppure np e n ( 1− p ) entrambi ¿ 5 .

lOMoARcPSD|11500446
(guarda slide da 25 a 34)
Intervalli di confidenza
Esistono due possibili tipologie di stime:

- Stima puntuale: singolo numero, che rappresenta la nostra scelta migliore per un parametro;
esempio: una media campionaria x́ è una stima puntuale di μ; è possibile trovarla adoperando
un’appropriata statistica campionaria.
Ci sono degli elementi che rendono una determinata stima migliore rispetto ad un’altra; in
particolare, esistono due proprietà desiderabili (per gli stimatori puntuali):
1. Un buon stimatore ha una distribuzione campionaria il cui centro coincide con il valore del
parametro: definiamo centro la media (valore atteso) della distribuzione campionaria; uno
stimatore che gode di questa proprietà (come la media campionaria) è detto non distorto;
2. Un buon stimatore ha una deviazione standard piccola rispetto a quella di altri stimatori:
ovvero, questo stimatore tende a cadere più vicino al parametro; esempio: quando si vuole
stimare il centro di una distribuzione normale, la media campionaria ha una deviazione
standard più piccola della mediana campionaria, dunque è uno stimatore migliore.
- Stima intervallare: intervallo di valori entro il quale si ritiene cada il valore del parametro; esempio:
si ha nel caso in cui si consideri la distribuzione campionaria.
Una stima puntuale, tuttavia, di per sé non è sufficiente poiché non ci
dive quanto vicina sia verosimilmente la stima rispetto al valore del
parametro; una stima intervallare è più utile, in quando essa
incorpora un margine di errore, pertanto aiuta a quantificare
l’accuratezza della stima puntuale.
Le stime intervallari contengono il parametro con un certo grado di
confidenza, pertanto prendono il nome di intervalli di confidenza.
Intervallo di confidenza: intervallo che contiene i valori più credibili per il parametro;
Livello di confidenza: probabilità che l’intervallo prodotto contenga il parametro; esempio: se si ha un livello
di confidenza di 0.95, si parla di intervallo di confidenza al 95%.
La chiave della costruzione di un intervallo di confidenza è la distribuzione campionaria della stima

puntuale: questa distribuzione descrive la probabilità che la stima puntuale cada entro una qualsiasi
distanza dal parametro.
Intervallo di confidenza per μ (σ noto)

Ad esempio, nella costruzione dell’intervallo di stima per il parametro μ, si può essere molto precisi se si
conosce la distribuzione di X́ ; infatti:

lOMoARcPSD|11500446
(qui cambia il segno)
Margine di errore: è un multiplo della deviazione standard della distribuzione campionaria della stima;
misura l’accuratezza della stima puntuale nello stimare un parametro.
Ciò significa che, se si estraggono tutti i possibili campioni

di dimensione n dalla popolazione data e se ne calcola la
media, (1 – α)% degli intervalli include μ e il restante α%
non la include.
Quindi, ricapitolando:
- X́ è uno stmatore di μ;
- μ è il parametro costante della popolazione; l’intervallo di stima è una variabile casuale perché
X́ è una variabile casuale;
- Una volta estratto il campione, X́ si realizza in x́ (singola stima);
- All’aumentare di n, la distribuzione di X́ tende a concentrarsi attorno a μ → conseguenze: (1) la
σ
deviazione standard si riduce, (2)
√n
l’intervallo si restringe, (3) la stima è più precisa.
In
sintesi:

lOMoARcPSD|11500446
(Slide 21-22 esercizi facsimile esame)

Intervallo di confidenza per μ (σ incognito)
La deviazione standard della media campionaria dipende da un parametro il cui valore ci è sconosciuto, cioè
σ quindi noi stimiamo σ con S.
⇒
√
n
∑ (x i− x́ )2
i=1
S=
n−1
↓
X́−μ
t n−1
S
√n
[con (n – 1) al denominatore ci garantiamo uno
stimatore che in media fornisce una stima corretta]
- Le fonti di incertezza in questo caso sono
tante;
- La standardizzazione non è più normale.
Gradi di libertà: indicati dal pedice di t.
[0,025 è α/2]
Generalizzando, l’intervallo di confidenza per μ al 95%, con un campione di dimensione n è dato da:
S
i μ : X́ ±t n−1 ;0,025 ∙
√n
La distribuzione t di Student è similnormale: essa tende alla normale
al crescere di n.
Si può dire che si utilizza la t di Student per n < 30 e se σ è incognita;
per n > 30 si può tornare alla distribuzione normale.

lOMoARcPSD|11500446
Proprietà della t di Student:

- Distribuzione molto simile a N, in quanto di forma campanulare simmetrica;
- t è maggiormente dispersa (più piatta) attorno alla media rispetto ad N, dato che S → σ introduce
incertezza maggiore; in altri termini, t “ha più area” nelle code e meno nella parte centrale rispetto
a Z; al crescere di n, t tende sempre di più alla normale N;
- mentre esiste una sola Z, esiste una famiglia di distribuzioni t tabulate secondo i gradi di libertà.
(su slide Inferenza – seconda parte, costruzione di intervalli di confidenza con Phstat)
Prospetto di sintesi:
Intervalli di confidenza per una proporzione
σ
In parallelo a i μ : X́ ± z α /2 ∙
:
√n
dato che ps N p ,(p ( 1− p )
n ⇒
)
Però, dato che p è incognito, dobbiamo stimarlo con
p(1− p)
allora i p : p S ± z α
2
n
p S
√
; ciò introduce un’ulteriore fonte di errore, ma
per n grande vale che: i p: pS± z α

2 √ p S ( 1− pS )
n
Ricorda: con p = 0,5 ci avviciniamo alla normale; così non avviene con p vicino a 0 oppure 1.
[Vedi file excel su intervalli di confidenza; esempi su intervalli di confidenza per proporzione da slide 38]
Stima puntuale
Stimatore: funzione di dati campionari utilizzata per stimare un parametro. Si chiama stimatore del
parametro θ ogni statistica T =t (X 1 , X 2 , … , X n ) utilizzata per stimare θ.
Proprietà degli stimatori

T è uno stimatore corretto di θ se:
- E(T) = θ (“in media ci azzecca”);
Uno stimatore T non corretto è distorto e vale che: B(T) = E(T) – θ , dove B(T) è la distorsione.

lOMoARcPSD|11500446

Analisi Dei Dati e Statistica II Parte Analisi Dei Dati e Statistica II Parte

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisi Dei Dati e Statistica II Parte Analisi Dei Dati e Statistica II Parte

Caricato da

Copyright:

Formati disponibili

lOMoARcPSD|11500446

Analisi dei dati e statistica II parte

Analisi dei dati e Statistica (Università degli Studi di Trento)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.

II parte del corso

[guarda slide da 48 a 51, probabilità prima parte]

Approccio bayesiano alla probabilità

← problema: nelle situazioni precedenti, le

Soluzione: Ci con i=1 , … , k costituiscono una partizione di S. Quindi:

Il verificarsi di A modifica la probabilità di Ci facendola

(esempio slide 61-62)

Capitolo 6 – Distribuzione di probabilità

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

P(X = x) può essere rappresentata come grafico, tabella, formula.

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

- Si consideri il fenomeno: lancio di una moneta e di un dado regolari;

Lo spazio campionario del fenomeno è S : {1T ; 2T ; 3T ; 4 T ; 5T ; 6 T ; 1C ; 2C ; 3 C ; 4 C ; 5 C ; 6 C } .

In tale trasformazione, si conservano le probabilità associate agli eventi elementari ei :

- La varianza della variabile casuale X è data da:

(guarda slide 17-20, II parte, per un esempio con trasformazione lineare)

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Probabilità per una distribuzione binomiale

- In quanti modi si può presentare la sequenza TTTCC? ()

Dunque, per identificare una variabile casuale binomiale è necessario conoscere:

E ( Y )=∑ y p ( y )=[ 0∗( 1− p ) ]+ [ 1∗p ] =p=n ( ¿ 1 )∗p

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Variabile casuale contnua

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

dove e e π sono costanti, μ=E ( X ) è il valore atteso della popolazione, σ 2 =Var (X ) è la

Una distribuzione normale presenta ulteriori importanti proprietà:

- Se σ2 varia, la funzione di densità si modifica nella forma; dati ad

La densità normale è difficile da trattare poiché, essendo infinite le combinazioni di μ e σ 2, dovrebbero

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Dimostrazione sull’operazione di standardizzazione

Variabili casuali doppie Spazio campionario

Possiamo calcolare le probabilità congiunte: ad esempio, P ( X=2 ∩Y =1 )=?

P ( X=2 ∩Y =1 )= p ( 2,1 )=2/ 8 e8

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Distribuzione condizionata di probabilità

La colonna evidenziata è la probabilità congiunta p(x ,1) ; tuttavia, nel

Var ( X|Y = y )=E ( X |Y = y )−[E ( X|Y = y ) ]

Teorema del limite centrale

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

(applicazione e approfondimento da slide 14, IV parte)

Capitolo 7 / 8 – Distribuzioni campionarie / Inferenza statstca

Elementi di inferenza statistica:

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Un buon meccanismo di riproduzione di campionamento casuale è l’estrazione di palline da un urna: esso

Distribuzione della media campionaria

X́ è una variabile casuale.

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

→ Campionamento senza ripetizione - μ X́ =2,5

→ Campionamento in blocco - μ X́ =2,5

MEDIA E DEVIAZIONE STANDARD DELLA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA

3. S è una variabile casuale implica si può calcolare E ( S ) , Var ( S)

4. E ( S )=E ( X 1+ …+ X i +…+ X n )=E ( X 1 ) +…+ E ( X i )+ …+ E ( X n )=μ+ μ+ …+ μ=nμ

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Var ( S )=Var ( X 1 +…+ X i+…+X n ) =Var ( X 1 ) +…+Var ( X i ) +…+Var ( X n ) =σ +σ + …+σ =n σ implica σ S =√ n

Forma della distribuzione di X́

Primo caso: campionamento da una popolazione N(μ, σ2)

Caso a) Urna con tre tipi di palline;

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Distribuzione della proporzione campionaria