Statistica I

STATISTICA
INTRODUZIONE
La statistica è una disciplina che fa parte delle scienze sociali. Nel corso dei secoli si sono date
numerose definizioni di questa disciplina: è il metodo della ricerca empirica. Infatti la statistica esiste
perché vi è la necessità di osservare, raccogliere e studiare i fenomeni empirici. La statistica sfrutta le
informazioni raccolte fino ad un determinato momento, cercando di studiare ciò che potrebbe esserne
l’andamento e l’evoluzione. Fa una sorta di indagine predittiva sul contesto che sta studiando. I dati
raccolti fino ad un determinato momento sono detti campioni, ovvero un’immagine parziale di un
fenomeno magari complesso. Una popolazione è l’insieme dei casi individuali in cui si manifesta il
fenomeno oggetto di studio. Un campione è un sottoinsieme della popolazione ottenuto mediante un
processo di selezione con l’obiettivo di studiare le caratteristiche della popolazione. Ad esempio la
popolazione della facoltà di Scienze bancarie è costituita dai 250 studenti iscritti, mentre i 100 studenti
che hanno risposto al sondaggio sono un campione. Tuttavia non si può sapere con esattezza se il
campione scelto rappresenti per intero la popolazione che si vuole studiare: per questo è importante il
principio della rappresentatività di un campione rispetto alla popolazione. Tanto più è grande la
dimensione campionaria, quanto più essa è rappresentativa della popolazione. Con N si indica la
dimensione della popolazione, con n quella del campione. Ciascun soggetto del campione è un’unità
specifica, e si indica con h, ovvero un’unità statistica. Ma cosa si intende per rilevazione? Per avere un
campione devo avere un dataset, ovvero una misurazione. Possono intervenire anche delle variabili,
"Quante
vo l t e accese?"
quantitative o qualitative. Le variabili quantitative sono discrete (rappresentabili con un numero
->
naturale) e continue (come il tempo, la velocità: tuttavia non si possono misurare con una precisione
assoluta, ed è per questo che in alcuni casi la statistica lavora su valori sbagliati). Le variabili
qualitative sono legate ai giudizi: sono misure soggettive non riconducibili ad uno strumento condiviso
da tutti. Vi sono aspetti di naturagainae
e
sconnessa (sempre qualitativi, ma nominali), ad esempio il colore

scelto per indossare una maglietta. Indicheremo un carattere, ovvero una variabile, con X: questo
carattere potrà assumere un certo numero di modalità (ad esempio il numero di colori: x , x , x , …, I 23
x ) con cui posso osservare il fenomeno. Se voglio classificare ed etichettare i vari soggetti, si parla di
n
spoglio di una variabile statistica). La frequenza assoluta è il numero di volte con cui si ripete una
certa modalità. Per un insieme di n unità statistiche, le osservazioni di una generica variabile X sulle n
unità vengono chiamate serie; se X è raggruppata in classi, parliamo di seriazioni. La sommatoria
delle frequenze assolute ci restituisce la popolazione. Sapendo la definizione di frequenza assoluta, ci
esce facile trovare la frequenza relativa, che è data dal rapporto fra la frequenza di una
determinata modalità e la popolazione totale.
n E,fi
k
fi Y =En
↳i
N = =
= 1
=
[ frequenze re l a t i va
La sommatoria delle frequenze relative deve essere uguale a 1. Ma perché accade questo?
Po p o l a z i o n e
=
Ei Eri r =
= e
=
È anche bene ricordarsi che la sommatoria di una somma è pari alla somma delle sommatorie.
(a 6
+
i)
=
Ea (6 i)
=
+
x ka
=
b,
+
FUNZIONE DI RIPARTIZIONE
La funzione è un luogo di punti definito dalla coppia (xjj
, y ).
fo r m e LE
TO E
i4*;
E
4
:( -
0, 0)
+
SE
FUNZIONE DI RETRO-RIPARTIZIONE
Sono TOT E mi?n;

LE
- L modalità
prese in considerazione
GRAFICI
In statistica di usano tantissimo i grafici.
Nel grafico a barre troviamo sull’asse x le modalità e sull’asse y

le frequenze relative: si parla di caratteri qualitativi. Devo
seguire o invertire l’ordine con il quale le etichette vengono
posizionate.
Nell’istogramma a bastoncino troviamo sull’asse x il

numero dei clienti e sull’asse y il numero di prodotti finiti.
L’altezza dei bastoncini è pari alla frequenza relativa: si
insiste sulla frequenza relativa della variabile discreta.
La vera rappresentazione è la rappresentazione delle variabili

continue, dal momento che il dato che raccolgo da una variabile
continua è complicato. Per essere raccolte e rappresentate, le
variabili continue hanno bisogno di un’approssimazione.
Ci sono tre tipi di classe:
1) —| - >
setra(... i)
chiuso - *
2) |— -> cao - (*: ...)

ander
3) |—| co(...*i1...)
->
In questo grafico l’ampiezza delle classi è costante.
Tuttavia se l’ampiezza delle classi non è costante, alcune cose

cambiano: bisogna calcolare dunque la densità di frequenza.
dj nsFarciere
=
All’interno di una tabella, le coppie di variabili sono dette record. Eseguendo lo spoglio di una
variabile, prendo in considerazione solamente quella variabile (è la compressione dell’informazione,
e questo è lo scopo della statistica, ovvero estrapolare informazioni da realtà complesse cercando però
di minimizzare la perdita di informazioni).
INDICI DI POSIZIONE
I primi indici di posizione che studiamo sono le medie, che chiamiamo α(X). α è una generica
applicazione che ha per oggetto una variabile statistica (X potrebbe essere una variabile ordinale,
nominale, discreta, ecc…). α è tale che ciò che è contenuto in X è ricondotto in BIL UN SOw E L E M E N TO
.7D
La prima proprietà è l’internalità (un indice di posizione deve essere tra il minimo e il massimo: la
media dell’età dei ragazzi tra 19 e 21 anni non può essere 18 o 23). La seconda proprietà è la
proprietà moltiplicativa (proporzionalità): α(cX)=cα(Χ). Infine vi è la monotonicità: se ho una
classe divisa in due sezioni, posso dire che l’indice α di una sezione è maggiore o uguale a quello
dell’altra sezione. Data una variabile statistica X, si definisce moda, oppure Mo(X), della variabile
statistica X la modalità a cui è associata la maggiore frequenza o la classe a cui è associata la
maggiore densità di frequenza. I percentili, o quartile, di ordine p è una grandezza (x ) con 0<p<1 e
che permette allo sperimentatore di dividere in due parti una popolazione, una prima misura che è
composta da p è una seconda parte complementare a p. Chiameremo dunque percentuale di ordine p la
modalità o classe che occupa la posizione p-esima di una distribuzione ordinata di valori (non si
fa riferimento alla densità di frequenza, ma solo la frequenza). Il percentile è applicabile se è solo se
la modalità è ordinabile (non possono essere applicati ai colori ad esempio). Si definisce percentile di
ordine p di una variabile statistica X quella grandezza tale da soddisfare congiuntamente quanti segue:
FE L F W N a LQ N E BI R B A R T I Z LO N E F 7
te
1O
.
E F O N ZQ e m O
-A
-ridqzizianaReTor
z
Lande
6on
Lseae
87a
La prima condizione ci dice che la funzione di
mavalore
m e d i awo ripartizione fino a x (variabile che non conosco
e
ancora) deve essere almeno pari a p. La seconda

condizione è che la funzione di retro-ripartizione
sia almeno uguale a 1-p. Per specifici valori di p ci
sono determinati termini da utilizzare:
Il grafico di box plot, o box and whiskers plot,

fa leva su sull’individuazione di specifici valori
quantilici: il valore mediano (che sta in mezzo
alla scatola), il terzo quartile (il trattino alto), il
primo quartile (il trattino basso). Dal terzo
quartile parte il massimo, dal primo quartile il
minimo.
Il range inter-quartilico è la differenza tra il terzo quartile e il primo quartile (è l’altezza del box).
Bisogna poi chiedersi se il minimo è maggiore della differenza tra il primo quartile e il range
inter-quartilico moltiplicato per 1,5: se il punto è più alto del minimo, allora bisogna riposizionare il
minimo allocandolo a quell’operazione lì; sennò no. Ci si chiede poi se anche il massimo è maggiore
della somma del terzo quartile e il range inter-quartilico moltiplicato per 1,5: se il punto è più
basso del massimo, allora bisogna riposizionare il massimo, sennò no. Tutti i valori di una
distribuzione che soddisfano il valore contrario a queste disuguaglianze (ovvero che stanno sopra o
sotto gli estremi) prendono il nome di outlier.
A | D = 2 significa che io voglio sapere qualcosa di A (non tutto) quando D=2. n_i. (dove il punto viene
sostituito con il numero della colonna) è il totale complessivo delle righe; n_.j (dove il punto viene
sostituito con il numero della riga) è il totale complessivo delle colonne.
MEDIE ANALITICHE
Prima non abbiamo parlato di medie analitiche perché la moda e i percentili venivano calcolati
lavorando solo sulle frequenze. Si consideri una variabile X o una sua trasformazione g(X), se ha a che
fare con variabili statistiche non negative o trasformazioni g(X) su sopporto R+, allora si definisce
media potenziata di ordine r di X o di g(x):
In quanto funzione di ordine r, ciò che fa cambiare

L
-
la media è r (ovvero la variabile indipendente). La

funzione è definita per qualunque r GIR.
ARIABILE
- >
>
>
jer -
=
rEs aritmetic=
Ein:
I
Etem:
trasfor mazione
*A WARIABILE ·
r 2
=
= mesi
autoretice=
>
ro n d i o n e c re s c e n te
ëï
di
4c o n t i n u i t e I IDECIE
in questo caso parliamo di media geometrica,
-Minagize * ->
che ha come argomento il produttorio di quelle
che sono le modalità della variabile X elevate
alla N.
->ë ·
-
saritmo di un prodotto e uguale alla se
fo r m e
log.
-egy==log =rilog
Tuttavia è più utilizzata la potenza r-esima della media potenziata di ordine r, ovvero:
che ci restituisce i momenti dall’origine di ordine r. Quando r=1, M (X) viene chiamata media pr
aritmetica. M(X ) è la media aritmetica dei quadrati della variabile.

2
Se si vuole fare la media aritmetica delle classi, c’è una convenzione: bisogna sostituire ciascuna .classe
con il punto centrale (se una classe è 1–|5, là si sostituisce con 3)
e
posto t rova re
Max
Fa c e n d o
sono d ue
e ditat
L'esponenziale di
M((n(x))
->
↓ ↓
minimo massime
M(X) è un operatore lineare e, essendo lineare, questo

significa che la media aritmetica di una combinazione
lineare coincide con la combinazione lineare della media.
Quando abbiamo una distribuzione in classi, dobbiamo trovare il valore centrale: x

max+min
= 2
=>
M(x) rc.m
=
Frequenza relativa all'inter no di una classe
M(xi) ..m =
La media è un punto di equilibrio, e questo viene dimostrato in questi calcoli:
8: (:- yi 0
=
?E(- ifi -
0i) ( ifi)
=
-
(0fi) 0
=
0
=
n(x)
=
L’unico parametro che pone pari a 0 la somma degli scarti della media aritmetica è la media
aritmetica stessa.
*
--
è come dire: qual è l’indice di posizione che rende minima
la sommatoria del quadrato degli scarti. θ è un valore
intermedio rispetto alle osservazioni minima e
massima: una parte delle osservazioni sono minori di θ e
danno scarti negativi, le restanti sono maggiori di θ e
danno scarti positivi. La somma degli scarti positivi è
uguale alla somma degli scarti negativi.
La media è interna, nel senso che è maggiore o uguale all’osservazione più piccola e minore o uguale
all’osservazione più grande.
(i 8fi
E,2.(i)(x: 0!E(=i
-
df: 0)fi
=
per
* t rova re
in mano e s e re
i raterame: 0
=
-
=
-
0
=
60
d e r i va t e
↳e seconda
UE. (ti-olfi
E: =
ci 0
=
20
Il minimo della media del quadrato degli scarti rispetto all’indice θ si trova solo per θ=µ (media
aritmetica). La media aritmetica è un indice di posizione in cui la perdita d’informazione è minima se si
applica la formula quadratica. Nella mediana la perdita d’informazione è maggiore.
INDICI DI DISPERSIONE
Sono i principali ingredienti per la costruzione di misure di rischio d’investimento. Si introduca la
funzione scarto, ovvero g(X,θ)= |X - θ|, ovvero la differenza in modulo di una variabile statistica da
un indice di posizione θ. L’indice di dispersione di ordine r della funzione scarto è:
-
L’indice di dispersione è la media potenziata di ordine

= > r della funzione scarto. L’ordine r sarà definito solo per
favori positivi (0, + ). &
Segue che gli indici di dispersione non possono mai essere negativi: essendo l’argomento un
modulo, l’indice di dispersione è positivo sempre. È una funzione c re s c e n te
Faremo largo uso di un indice di dispersione dove r=2 (così si leva il modulo) e θ=µ, dove:
DenionE
STANDARD X
TRASFORMAZIONE
DI
-
>
=ûëï
>Svilu p p o in quadrato
mean aix -
autorato dem
l est
-Var(x) 0
Var(X) è un operatore che assume solo grandezze positive e nulle. Non è un operatore lineare:
Var(Y), cioè la varianza di una trasformazione lineare di una variabile X, non è la trasformazione
lineare della varianza Y.
- ~
I vo r = a 6+
+
Var(x) = non un o p e r a to re LNEARE
La media della potenza r-esima dello in modulo dalla media si chiama momento centrale di ordine r:
↳- jar(m =)] m51x m]
= -
>
La varianza di una combinazione lineare non dipende
solo dalla varianza delle singole componenti.
La media del prodotto degli scarti di due variabili
~ ~
T
(in questo caso C e Z) prende il nome di covarianza
(Cov).
RAGGMPD6 =
. Con può essere anche negativa
Come faccio a confrontare la dispersione di due panieri espressi con due unità
di misura differenti (ad esempio € e $)? Bisogna relativizzare l’indice di
dispersione: a questo serve il coefficiente di variazione (CV), che è definito dal
rapporto tra lo scarto quadratico medio di una variabile statistica e la sua media.
TABELLA A DOPPIA ENTRATA
La tabella a doppia entrata viene usata

per studiare i fenomeni bivariati.
Mij
L
I n u m e ro della colonna
numero della rice
La somma delle frequenze di riga dà la frequenza marginale di riga: n_i.; la somma delle frequenze di
colonna dà la frequenza marginale di colonna: n_.j. La somma complessiva è N Znij. =
n_ij è un esempio di frequenza congiunta.

TEOREMA DELLA MEDIA A DUE STADI
La media delle medie condizionate, ovvero M[M(X|Y)], deve coincidere con la media della
variabile condizionata, M(Y): spesso viene chiamata media a due stadi. X è detta variabile
condizionante.
.
TEOREMA DELLA SCOMPOSIZIONE DELLA VARIANZA
Si consideri la variabile statistica (quantitativa) Y. La varianza della variabile condizionata Y è
scomponibile in due parti: la media delle varianze condizionate e la varianza delle medie
condizionate.
>
õœõõ
FUNZIONE DI REGRESSIONE
Per capire la funzione di regressione bisogna partire da una tabella a doppia entrata e si deve calcolare
la varianza delle medie condizionate e la media delle varianze (questi due sono i fattori fondamentali
da cui dipende la funzione di regressione). La funzione di regressione è il luogo dei punti passanti
PER le medie condizionate. La varianza delle medie condizionate diventa punto di informazione di
quel luogo di punti passante per le medie. La funzione di regressione indica un buon modello se
descrive in maniera corretta la dipendenza di Y da X.
Una misura della capacità delle medie condizionate di rappresentare
il fenomeno bivariato è dato dal rapporto di correlazione:
Il valore del rapporto di correlazione è compreso tra 0 e 1: infatti la varianza delle medie
condizionate non può essere maggiore della varianza complessiva. Dunque il rapporto di correlazione
è dato da un numero che indica la misura in termini percentuali. Più il rapporto percentuale è alto più
esiste una buona correlazione (e quindi più la funzione di regressione rappresenta un buon modello).
In una distribuzione degenere M[Var(Y|X)]=0 e Var[M(Y|X)]=Var(Y), e quindi η=1. η=1 quando ad
ogni Y corrisponde una ed una sola X.
Dato un insieme di variabili statistiche {Y, X}, dove X è l’insieme delle variabili esplicative, ovvero di
variabili che determinano Y, posso studiare la propensione a Y. La funzione f che lega X e Y non è di
così facile individuazione (e spesso si tratta semplicemente di un’approssimazione). Una volta raccolti i
dati, sfrutto la matematica e faccio lo sviluppo in serie di Taylor, approssimando il comportamento nel
punto sperimentale.
f
>i c o e f f i c i e n te sono l'in cogn ita n on
poiché conosco
Se si immagina f in uno spazio 3D e si prende un punto, in cui vi passa un piano tangente, che è
esattamente lo sviluppo in serie di Taylor. Noi cerchiamo di approssimare la funzione f tramite un
modello lineare nei parametri.
e
,
eFa c c i o Finta che
ag, a, . . . , ayt?
- via un solo parametro uguale 0,
-
- E re
Io ora è uguale A
Utilizzando il metodo dei minimi quadrati trovo la retta di regressione che interpola i punti che sono
riportati nel dataset, minimizzando la devianza residua
D e re
y min
z(yi (a ant)).fi
=
a
=
ani
+
- +
.a
e
= .
I Eosae da
dan
-D
e
-
I Ez)2(yi (a
Fz)2xi(yi
-
-
a
+
(a ant))fi
+
)).fi
x 0
=
=
0
-
120 6 (r(x) ar(x) 0 18 4(y) a t)
=
a
- - -
-
= =
=
M(xy) -
a.(x) -
2)
a,(x 0
=
ân M(x4) m)(m(y)(o(x,y)
=
-
=
(r(x))2 var(x)
=
M(x
3)
4res E
-
=> bat y at
=
an a =
-
a M(y) au(x)
=
-
4(xy)
Daty antican
=
=
M(x2)
Quanto più i residui sono più piccoli, tanto più il modello interpolante non è lontano da ciò che avrei
dovuto descrivere: se questa grandezza è piccola, anche il quadrato è piccolo. Facendo la somma
ottengo la quota di informazione non descritta dal modello, ovvero la varianza residua. Si introduce
un indice capace di dirci in termini percentuali quanto sia grande la quota di varianza residua rispetto
alla varianza complessiva.
Y si trova sostituendo i valori della x con i valori dati nel database. Il valore che troviamo è l’ordinata
del punto della retta che passa TRA i punti del grafico.
T
Y:
6,4917
8, 1436
8,1436
9,7956
9,7956
9,7956
13,0994
13,0994
·
L var(y -
y) Mr(y 4)
=
-
LA SCOMPOSIZIONE DELLA VARIANZA DI UN MODELLO DI REGRESSIONE
La varianza di Y può essere vista come la somma della varianza dei valori interpolati e della
varianza dei residui.
(1) ( sviluppo in autorato
~ 7
v
=
-0
↳. e ste n d a. In t e r m i nn
e o to,
M(T) M(1)
=
1
0
=
=) Essendoca,M(Y-y) 0
=
L’INDICE DI ADATTAMENTO
Se vale la scomposizione della varianza di un modello di regressione (dunque se c’è il termine modo),
allora la bontà di adattamento di un modello di regressione si esprime con l’indice di adattamento (o
indice di determinazione).
Boor
rober to
-
L cat i vo
Modello
=>
e -
=
e
vrärces
=
La somma del quadrato dei residui mi dà la devianza residua.
> ELEVO TU TTO AL QUADRATO

In genere si ha dipendenza in media quando η è maggiore di zero: quando la varianza delle medie
2
condizionate non è pari a 0. Se la varianza delle medie condizionate è pari a 0, non c’è correlazione.
Dunque c’è indipendenza se tutte le medie condizionate sono diverse tra loro.
-Var(n)ly)) ho ceaendenza
(m(x(y) Mx
=
Affinché non ci sia correlazione C(x,y) M(xy) n)=)n(t) =

-
0,00
=
20n(xy) n(=)r(-)
=
=
92 0
=
LA CONNESSIONE
Esiste connessione quando NON esiste indipendenza stocastica, e dunque, se due o più variabili sono
indipendenti in senso stocastico, allora NON esiste connessione. Non c’è un modello che consenta di
legare due fenomeni quando vi è indipendenza stocastica. Due variabili sono indipendenti in senso
stocastico se le frequenze congiunte (n_ij) si dicono fattorizzabili, e quindi quando sono esprimibili
come il prodotto delle frequenze marginali diviso per N.
*3 =
-2 18
=
*TRIBUZIONE Dece
-> FREQUENZE
*TRIBUZIONE DE
Re l a t i ve Di
3
requenze re l a t i ve
*
Dj
⑰33.1 0,33
= 5.1 0,25
=
ÓÚõ.
.
1 0,5 7
=
0,75
⑰5.1 =
Ad esempio l’esito che si ottiene dal lancio di due dadi è un evento indipendente in senso stocastico: la
probabilità che escano 2 e 4 è data dal prodotto tra le probabilità che i numeri escano su ciascun dado
(in questo caso la probabilità che escano 2 e 4 è 1/36, ovvero 1/6 x 1/6). Dunque due eventi sono
indipendenti in senso stocastico quando il verificarsi dell’uno non modifica la probabilità
dell’altro.
L’estrazione senza remissione mi consente una connessione (gli eventi sono dipendenti); l’estrazione con
remissione mi consente l’indipendenza stocastica (gli eventi sono indipendenti in senso stocastico).
Per stabilire quanto due variabili siano connesse, si usa l’indice χ ,ovvero l’indice di Pearson: 2
L 3 IUILUPPO I QUADRATO
Non è una C r iT U R A
Nor malizzata:VA DA 01 +
↳X 0
I
DIVISO T U TO PER
Ri. .j
for matoria a tutto

1 applico la doppia
- ~
- -
=- 1 -
2
(quando
P ER F ET
Mai M quanto ogni y ha sola
una
per
~, una
e re l a z i o n e
univoce), allore
=1
↳x =
Vi è tuttavia un massimo valore di χ^2, e lo si trova sfruttando le proprietà delle serie:

i
=>
Lavora (come model
Linomeròa
sempre, anche
*
con c a r a t te r i qualitation in
righe ↳) questo è perche

utilizza e Frequenze
Se invece decido di tenere conto del numero di colonne:
-
n
->
=>
x =N(n -
1) maxy
=
e[min((n -1),(k -)]] -
per c a l c o l a re
maxy
Eniinco
1) Se esiste indipendenza stocatisca, non esiste dipendenza in media:
Var [M(y(x)) Var(M(y(x)
->h a indipendena in medit =
y 0, ovvero == 0.
= =
Var(Y)
-Var(r(y/x)] (My (i) m):mi
= -
-Var(n(y(x)] 0
= ==
My(ri) My
=
-> MEDIE CO NDIZIO NATE:
M E DA
Della marginale
Se due variabili sono indipendenti in senso stocastico, allora My(xi) My =
2) Se esiste indipendenza stocastica, allora non c’è incorrelazione (la covarianza è uguale a 0)
Se due variabili sono indipendenti in senso stocastico, allora Cor(x,y) 4(xy) 4(=)n(t) =
0 =
=
poicCor(x,y) 0
=
3e
=
=
cia" )
=
Dunque, il tutto si può riassumere così:
1) se c’è indipendenza stocastica, c’è indipendenza in media;
2) se c’è indipendenza stocastica, c’è incorrelazione;
3) se c’è indipendenza in media, c’è incorrelazione;
4) se c’è incorrelazione, c’è dipendenza in media;
5) se c’è indipendenza in media, c’è connessione.
IL CALCOLO DELLA PROBABILITÀ

La probabilità P è la misura del verificarsi di uno specifico evento aleatorio, E, ovvero è la misura
P(E): in genere la probabilità è un numero compreso tra 0 e 1, ovvero una percentuale compresa tra
0% e 100%. Se lancio una moneta, ho il 50% di probabilità che esca testa e il 50% che esca croce.
Non ho mai visto una moneta fermarsi in verticale, questo perché la probabilità di questo evento tende
a 0. Dunque di una moneta ho tre possibili eventi: testa, croce e che casa sul taglio. Tuttavia il fatto
che la moneta cada sul taglio non è un evento impossibile, ma un evento a misura nulla (con una
bassa probabilità): dopo un’infinità di lanci, posso dire che l’evento può avvenire, ma non riesco ad
osservarlo, e dunque gli associo una probabilità pari a 0. Un evento aleatorio è un evento per il quale
posso elencare le possibile sfaccettature del suo verificarsi: non posso prevenire cosa accadrà, ma
posso associare una misura a ciascuna sfaccettatura. Quando gioco ad un gioco d’azzardo, la
probabilità che io perda i soldi che ho speso per parteciparvi è pari a 1 (il fatto che io abbia speso soldi
è un evento certo). La vincita invece è misurata dalla probabilità. Dunque è una misura che a volta è
oggettiva e a volte è soggettiva. Gli eventi osservabili possono essere elementari, ω (la probabilità che
esca 2) o insiemi di eventi (la probabilità che esca un numero pari: se esce o 2 o 4 o 6, ecc..: WAil
La probabilità che escano 2 e 4 è data da ti. La probabilità che esca almeno 2 è I.
l
L’insieme di tutti i possibili eventi aleatori è detto Ω: nel lancio di un dado Ω è testa, croce o sul taglio.
Mi interessa studiare la probabilità degli eventi aleatori sottoinsiemi di Ω: vice
Sono stati formulati i seguenti postulati:
3 non dà e nve re negativa
-0
↳probabilità dell'unione
di due eve n t i disgiunti
(e
con intersezione pari ad
* (E) =
= 3 + =
5
L incompatibili: o t te n e re le le impossibile,
5 5
(= 1 0 =
C e n e re 20
ei: +
j=I
↳non è
>p(z) jI
=
1
=
-
↳) B OONEME AE
COME SI CALCOLA P(E)

Ci sono tre possibili approcci, ma ci concentriamo sul primo:
1) Approccio classico: si consideri un esperimento e si assuma che Ω abbia dimensione (cardinalità)
finita e che ogni evento sia equiprobabile. P(E) si calcola come il rapporto tra il numero di casi
favorevoli allo scommettitore e il numero di casi possibili:
Noi studiamo l’utilizzo dello schema dell’urna.

2) Approccio frequentista: dato un esperimento, se Ω ha dimensione infinita e se l’evento è ripetibile
all’inedito, allora P(E) si calcola così:
Questo approccio è spesso utilizzato in ambito finanziario e assicurativo
3) Approccio Bayesiano, o soggettivista: la probabilità di un evento è data dal prezzo che un

individuo coerente è disposto a spendere per poi avere di ritorno un certo importo monetario che copra
il rischio che ha corso giocando.
EVENTI CONDIZIONATI ED EVENTI INDIPENDENTI

Se si vuole calcolare la probabilità di A dopo il verificarsi di B, allora si vuole sapere la probabilità
che dopo B compaia anche A.
È come se io guardassi quante volte il segno "-" si manifesti sia per IntesaSanPaolo che per Generali.
i
Se vale ciò, siamo in una
> situazione di indipendenza
stocastica tra A e B.
p(3)
=>
= Questo è il caso dell’estrazione dall’urna con remissione.
IL FATTORIALE DI UN NUMERO INTERO

Il fattoriale di un numero interno n (n!) è la permutazione semplice: n! n(n n)(n z)...
=
- -
1
Il fattoriale del numero 0 è per convenzione posto uguale a 1.
IL COEFFICIENTE BINOMIALE
(E) (n su x) serve per calcolare in quanti modi posso allocare x unità in una sequenza di lunghezza n
in modo tale che le varie combinazioni siamo differenti per composizione.
(2) =
=
1x)!
Se devo porre 1 pallina rossa su tre caselle affinché siamo diverse, allora (I) - =
-
-)!
3
= 3
=
B L 0,6
= ROSSO = 0,4
Qual è la probabilità che su 5 estrazioni mi escano non più di 2 palline rosse?

Pr(x 2) Pr)(x 0)u(x 1)u(x 2)) (8) e,,.06 (2)e06 (i) -0,6
=
= = = = =
+ +
0,58256
=
=pyxy E(E).e( e)
-
=
-
=
Genericamente la scrittura è pryx my (2).e(r e) con

-
man m soccer
-
= =
La probabilità che su 5 estrazioni si abbiano più di 2 palline rosse è Pr(x) = 1 -
Pr(x z)
x 1
= -
0,68256 0,31744
=
La probabilità che su 5 estrazioni si abbia almeno 1 pallina rossa è Er(E)e(r e)

-
Pr(x v)
- =
-
↳avvero n-Pr(x 0) =
1
= -
(8) a,n -0,6 0,92224

=
Pr(x 24) 1
=
-
Prix 5)
=
1
=
-
(I) an.0,6 0,e8976=
LE VARIABILI CASUALI
La definizione di variabile casuale si rifà al gioco del dado: quando lanciamo un dado, siamo interessati
al risultato che il dado restituisce. Bisogna ragionare su ciò che capita prima del manifestarsi del
risultato, ovvero la fase di rotolamento, dove agisce l’incertezza del risultato. Nel momento in cui
decido di investire i miei soldi, nel momento in cui ho investito non so con certezza se guadagnerò o
perderò. Nella fase prima del risultato certo, agisce un meccanismo aleatorio. Una variabile casuale X
è una funzione avente dominio in Ω e che associa ad ogni evento aleatorio E un numero x reale; inoltre
associa ad x la probabilità dell’evento E. È una funzione di eventi (insiemi), e quindi ha come dominio
gli insiemi degli eventi elementari. Dipende dai possibili eventi definiti dalla faccia del dado. X:l >R
L’insieme Ω è suddiviso in partizioni, ovvero sottoinsiemi che tra loro sono in compatibili e tali per
cui la loro unione restituisce Ω.
Ogni variabile casuale è caratterizzata da una funzione di ripartizione
L gli
guarda esempi sobre
poche può
~e
LE VARIABILI CASUALI DISCRETE
Una variabile casuale si dice discreta se i valori X costituiscono un insieme finito o numerabile.
rimano frequenze
alle -
-> Re l a t i ve
4 - 1
Gli eventi dicotomici sono quelli per cui la loro probabilità è o 0 o 1.

È possibile attribuire ad ogni variabile casuale discreta un valore attuale (=valore medio del lancio di
un dado ad esempio) di X di ordine r:
Si può calcolare la varianza di eventi equiprobabili: Var(x) E(x) E = -
erectation
=
e() -
[e())
⑳
TIDE
Tutto ciò è descritto dal Modello Uniforme Discreto: w(k) x -
X si distribuisce come una variabile uniforme discreta che dipende dal parametro k:
La variabile casuale di Bernoulli serve per descrivere l’accadimento aleatorio di un evento di tipo
dicotomico. Dipende da un parametro diverso, π, che descrive la probabilità di successo nel gioco di
vincere. Il modello bernoulliano è Be) ~
2 au =0 x 0
=
be(x 0,π) (r x)
=
=
= -
e(x,x)Var(x) =(x3) [E(x))=E(x) 0./

x
=
-
=
-
x) +1 π
=
quaw0x 1
=
f(x 1,π)
=
=
π
=
0 + π
π(1 x)
-
π - x = -
Var(x)v
=
I I
&
0,5
e
I
e
a numore
Economico sensoco!E(x) =
-
x( x) -
y+
+
Se la media è maggiore di zero, il gioco è più che equo per i giocatori (gioco sapendo che il gioco è a
mio favore); se la media è minore di zero il gioco è meno che equo per i giocatori (gioco sapendo che il
gioco è a mio sfavore). Il gioco è equo quando il valore medio è pari a 0: l’eventuale vincita viene
ricompensata dalle eventuali perdite che subito se continuò a giocare, ovvero quando y ( 4) =
=
-
x,y?y (r 33
-
-=
i 0,2
=
=
= = = = 4
Quando gioco, perdo x con p(x;π)=1; guadagno y-x con p(x;π)= π.

Teoricamente il valore equo si trova così: =(=) = (y =) =
+
1
-
π
+
+
(y z)π x)
(1
x + -
x
-
1 i
+
0
=
y =
NERO PROVE un gioco REMONE

in =
DI in CON
d i v i n c e re
probabilità ad ogni te n t a t i vo
Vi è poi il modello binomiale:

T =
x -
Bin(n,i)
pr
↓>
di p e rd e re le
a l t revo l t e
x rappresenta il massimo numero di successi su n prove.
↳
(
vinco SEMPRE
↳i pr a vo c e re a vo l t e
perda s e m p re
>Pr ai VINCERE (X) non si

più a vo l t e
Quante volte mi aspetto che esca 2 in 5 lanci del dado? e(2,5,π) (2)()"(1
=
-
5)
1 -
F(x) P(x
=
)
x) > pr UNCERE
almeno due
vo l t e
Questo modello viene usato quando gli avvenimenti succedono in modo indipendente in senso
stocastico (i.i.d: indipendent and identically distribueted). La variabile casuale binomiale, presa come
estensione della variabile casuale bernoulliana, può essere interpretata come somma di n variabili
aleatorie i.i.d. bernoulliane (ad ogni tentativo posso vincere con probabilità π).
=
E(i) E.E(xi) r =
=
* nx
=
-var(i) EVar(xi) E = =
+( x) -
nx
=
(x π) -
L posto q u e sto
fa re poicti vari ab i l i
le sono 1.1.1.
LE VARIABILI CASUALI CONTINUE

Per le variabili casuali continue, i possibili insiemi di eventi elementari sono non numerabili poiché il
dominio è continuo: la rappresentazione avviene tramite la funzione di ripartizione. Ora parliamo della
probabilità di un semintervallo:
RIPARTIZIONE
DIFFERENZA
↑in
s up
e or te
Prima si ragionava sulla differenza di

così
pr
le
come SOMMA sommatoria, odia sulla differenza di integrali.
-delle di U .C .
UNA
1, Screte
A
= an o
-
dn xo al limite
=
-
eso
La densità di un punto non è la probabilità di quel punto.
- -> poiche la probabilità n e l singolo p u n to èG
Ciò che prima era la probabilità in un punto è ora riconducibile alla funzione di densità in un infinitesimo
dell’interno di quel punto: ciò che prima era la funzione di probabilità, ora diventa la funzione di densità.
Ciò che prima era la media nel punto x, ora diventa la media del dominio a cui il punto x appartiene.
La definizione della funzione di ripartizione non cambia, ma la differenza principale è che la probabilità
fino ad un punto non è la somma delle probabilità, ma il calcolo integrale.
IL MODELLO UNIFORME NEL CASO CONTINUO

La variabile casuale continua X avrà disposizione uniforme sul dominio (a, b) quando la sua funzione di
densità sarà definita da 1/a-b.
=X -
v(a,b) auenso
Q u an d oa b 1
-f(xi0,y)
x xx 1 0x
f(xix,) 1
=
0
=
= = =
=
=
sette
- WALOR DELLA U.C .

FUNZIONE Al 12 81 50TO
> densite non Di a
-FinitA
-0
-> Isa ad
octe(f(y)dy+( ady +(()dy 0

=
3a
+
=
0
+
1
=
-(daxyd aa =a =
=
2 ((a)(+ a))bee
=
IL MODELLO GAUSSIANO, O NORMALE
x -
n(n, 62) auaso
-1: 1R(
-
0, 0)
+
È una funzione simmetrica: il punto modale è anche la mediana (il quantile 50% è anche la mediana: c’è
il 50% prima e dopo la moda).
>tuttavia a una
pic,m i t i c a
Quanto più σ (scarto quadratico medio) è piccolo, tanto più la curva è schiacciata. L’area grigia è l’area
che voglio calcolare nell’intervallo compreso tra meno infinito e 1: la funzione di densità è strettamente
correlata alla funzione di ripartizione (che è continua e monotona crescente nelle v.c. continue).
C. . .Eso
RIPARTIRIONE
F I AT
9, M
= M. CHEDO D
interes
-
Lavorare con le variabili casuali continue è tuttavia complesso: posso però trovare la variabile casuale
standardizzata (Z), partendo dalla variabile casuale gaussiana X, avente sempre come caratteristiche
E(Z)=0 e Var(Z)=1 xwn(n,82), zkoz
i )
=
== (0,1). ~n
I to s E R E R E ZEG.
-4( zz)-
1
= -
0(zz)
44( zz) b(zz)
-
+ 1
=
LA LEGGE DEI GRANDI NUMERI

La successione di n variabili casuali continue indipendenti ed identicamente distribuite, se E(X)=µ e
Var(X)=σ^2, obbedisce alla legge debole dei grandi numeri:
↳ some Eventi n e t to r i
π
-a
Sacanports
=
=I(xi)
M
=(*) E(i)) =
=
=((xi)) =(xi) 2m m
=
= = =
Var(*) Var (2,

i) Var (2 i) [Varxi=so (I)
= = = =
>pin n e grande, dun
i Var
sine è precise
La media della media campionaria coincide con la media del singolo

IL TEOREMA DEL LIMITE CENTRALE (LTC)
Sia X_n una successione di n variabili casuali i.i.dcon E(X_i)=µ è 0<Var(X_i)=σ^2< +infinito. Il
teorema ci dice che la media, se confrontata con il parametro media della singola realizzazione e divisa
per V , converge in distribuzione alla v.c. gaussiana.
*
In pratica ci dice che, più a lungo osservo un gioco e più a lungo studio la sua media, più la variabile
aleatoria che descrive il gioco converge ad una distribuzione normale.
media campionaria standardizzate
~>
~ Al crescere di n in distribuzione
D, l’oggetto converge alla
variabile gaussiana
è standardizzata Z ~ N(0,1)
La C
a cer to quadratico delle
Media
var neon
delle campionare
CampionariA
. p iccolo
pin e
è la
più stima è precise
> più s.q.m è piccolo, poi la stima è precisa. Inoltre,

quanto poi cresce la dimensione campionaria,
tanto più la precisione della stima aumenta.
>
Funzione di ripar tizione delle V.C . Gangiant ITENDERDIZE E
te
La de-standardizzazione porta a questo risultato, ed è l’operazione

inversa della standardizzazione, con la quale si ottiene E 2 =
Lu
In-
GLI INDICI DI FORMA > AnconaBin YO O PER CA R A B I QUANTITATIVE
Per giudicare se una distribuzione differisce dall’andamento di una gaussiana, gli indici di forma sono
molto ultimi. Si dice simmetrica una distribuzione tale che 𝜇 = 𝑀𝑒(X) =𝑀𝑜(X).
Un
essere
può negativo, 1:
1R(-0, 0)
+
& as imme t ria comune

più
> d'ETRIBUZIONE d i METRICA
3 DISTRIBUZIONE VERDO DEXTRA
- piccolo
più si
Me(x), crE E più p i ccol o Mo(X)
> 'E u n a maggior dispersione Di D a t i
& sonA NORMALE
Lovvero (82)
Indipendent. MODELLO BinoMiaE
> eve n t .
·
·
p a l l i nn
e e re =
prja imoca n c
estrazion (?) ()(-) =
Pr
(a in
c a ke centrazion (â)()") (** (8) = -
=
Pr
(1 estrazione
o
ve re
pr =
)).(-).(-)
((2)(-)(- 0,076s
=
↳ e modello binomiale 1 0,00768

=
pr(xx10) (29 E(e)(0,00 6s)(n

- =
6s)-
x
(100
-
-
=
=
+ +
(- - + =
+ -
0,00 +
Siccome il calcolo è molto complesso, standardizzo la variabile

Siccome z= x-m,
-
d evo t rove re print E(f) Var
=
(1):
Nel modello binomitle:
E(x) nπ
=
100.0,00768
=
Var(x) ni(1 i) 100.0,00t6s/1

=
-
=
-
0,00 6s)
+
Liz =
X -
100.0,00768
x 10
=
100.0,00758(1-0,00768)
I Pryz
100.0,00768
Priz 10,58)
10
Pr 7522]
-
=> z =
=
10,5 1
= - - =
1 -
0(-0,55) =
0
100.0,00758(1-0,00768)

Statistica I

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Statistica I

Caricato da

Copyright:

Formati disponibili

STATISTICA

sconnessa (sempre qualitativi, ma nominali), ad esempio il colore

Sono TOT E mi?n;

Nel grafico a barre troviamo sull’asse x le modalità e sull’asse y

Nell’istogramma a bastoncino troviamo sull’asse x il

La vera rappresentazione è la rappresentazione delle variabili

2) |— -> cao - (*: ...)

In questo grafico l’ampiezza delle classi è costante.

Tuttavia se l’ampiezza delle classi non è costante, alcune cose

ancora) deve essere almeno pari a p. La seconda

Il grafico di box plot, o box and whiskers plot,

In quanto funzione di ordine r, ciò che fa cambiare

la media è r (ovvero la variabile indipendente). La

aritmetica. M(X ) è la media aritmetica dei quadrati della variabile.

M(X) è un operatore lineare e, essendo lineare, questo

Quando abbiamo una distribuzione in classi, dobbiamo trovare il valore centrale: x

Frequenza relativa all'inter no di una classe

L’indice di dispersione è la media potenziata di ordine

Var(x) = non un o p e r a to re LNEARE

. Con può essere anche negativa

TABELLA A DOPPIA ENTRATA

La tabella a doppia entrata viene usata

numero della rice

n_ij è un esempio di frequenza congiunta.

(1) ( sviluppo in autorato

La somma del quadrato dei residui mi dà la devianza residua.

> ELEVO TU TTO AL QUADRATO

Affinché non ci sia correlazione C(x,y) M(xy) n)=)n(t) =

for matoria a tutto

Vi è tuttavia un massimo valore di χ^2, e lo si trova sfruttando le proprietà delle serie:

righe ↳) questo è perche

Se invece decido di tenere conto del numero di colonne:

Se due variabili sono indipendenti in senso stocastico, allora My(xi) My =

IL CALCOLO DELLA PROBABILITÀ

COME SI CALCOLA P(E)

Noi studiamo l’utilizzo dello schema dell’urna.

Questo approccio è spesso utilizzato in ambito finanziario e assicurativo

3) Approccio Bayesiano, o soggettivista: la probabilità di un evento è data dal prezzo che un

EVENTI CONDIZIONATI ED EVENTI INDIPENDENTI

= Questo è il caso dell’estrazione dall’urna con remissione.

IL FATTORIALE DI UN NUMERO INTERO

Il fattoriale del numero 0 è per convenzione posto uguale a 1.

Qual è la probabilità che su 5 estrazioni mi escano non più di 2 palline rosse?

Genericamente la scrittura è pryx my (2).e(r e) con

La probabilità che su 5 estrazioni si abbiano più di 2 palline rosse è Pr(x) = 1 -

La probabilità che su 5 estrazioni si abbia almeno 1 pallina rossa è Er(E)e(r e)

(8) a,n -0,6 0,92224

(I) an.0,6 0,e8976=

Gli eventi dicotomici sono quelli per cui la loro probabilità è o 0 o 1.

Tutto ciò è descritto dal Modello Uniforme Discreto: w(k) x -

e(x,x)Var(x) =(x3) [E(x))=E(x) 0./

Quando gioco, perdo x con p(x;π)=1; guadagno y-x con p(x;π)= π.

NERO PROVE un gioco REMONE

Vi è poi il modello binomiale:

>Pr ai VINCERE (X) non si

LE VARIABILI CASUALI CONTINUE

Prima si ragionava sulla differenza di

La densità di un punto non è la probabilità di quel punto.

- -> poiche la probabilità n e l singolo p u n to èG

IL MODELLO UNIFORME NEL CASO CONTINUO

- WALOR DELLA U.C .

> densite non Di a

octe(f(y)dy+( ady +(()dy 0

n(n, 62) auaso