Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUZIONE
La statistica è una disciplina che fa parte delle scienze sociali. Nel corso dei secoli si sono date
numerose definizioni di questa disciplina: è il metodo della ricerca empirica. Infatti la statistica esiste
perché vi è la necessità di osservare, raccogliere e studiare i fenomeni empirici. La statistica sfrutta le
informazioni raccolte fino ad un determinato momento, cercando di studiare ciò che potrebbe esserne
l’andamento e l’evoluzione. Fa una sorta di indagine predittiva sul contesto che sta studiando. I dati
raccolti fino ad un determinato momento sono detti campioni, ovvero un’immagine parziale di un
fenomeno magari complesso. Una popolazione è l’insieme dei casi individuali in cui si manifesta il
fenomeno oggetto di studio. Un campione è un sottoinsieme della popolazione ottenuto mediante un
processo di selezione con l’obiettivo di studiare le caratteristiche della popolazione. Ad esempio la
popolazione della facoltà di Scienze bancarie è costituita dai 250 studenti iscritti, mentre i 100 studenti
che hanno risposto al sondaggio sono un campione. Tuttavia non si può sapere con esattezza se il
campione scelto rappresenti per intero la popolazione che si vuole studiare: per questo è importante il
principio della rappresentatività di un campione rispetto alla popolazione. Tanto più è grande la
dimensione campionaria, quanto più essa è rappresentativa della popolazione. Con N si indica la
dimensione della popolazione, con n quella del campione. Ciascun soggetto del campione è un’unità
specifica, e si indica con h, ovvero un’unità statistica. Ma cosa si intende per rilevazione? Per avere un
campione devo avere un dataset, ovvero una misurazione. Possono intervenire anche delle variabili,
"Quante
vo l t e accese?"
quantitative o qualitative. Le variabili quantitative sono discrete (rappresentabili con un numero
->
naturale) e continue (come il tempo, la velocità: tuttavia non si possono misurare con una precisione
assoluta, ed è per questo che in alcuni casi la statistica lavora su valori sbagliati). Le variabili
qualitative sono legate ai giudizi: sono misure soggettive non riconducibili ad uno strumento condiviso
da tutti. Vi sono aspetti di naturagainae
e
x ) con cui posso osservare il fenomeno. Se voglio classificare ed etichettare i vari soggetti, si parla di
n
spoglio di una variabile statistica). La frequenza assoluta è il numero di volte con cui si ripete una
certa modalità. Per un insieme di n unità statistiche, le osservazioni di una generica variabile X sulle n
unità vengono chiamate serie; se X è raggruppata in classi, parliamo di seriazioni. La sommatoria
delle frequenze assolute ci restituisce la popolazione. Sapendo la definizione di frequenza assoluta, ci
esce facile trovare la frequenza relativa, che è data dal rapporto fra la frequenza di una
determinata modalità e la popolazione totale.
n E,fi
k
fi Y =En
↳i
N = =
= 1
=
[ frequenze re l a t i va
La sommatoria delle frequenze relative deve essere uguale a 1. Ma perché accade questo?
Po p o l a z i o n e
=
Ei Eri r =
= e
=
È anche bene ricordarsi che la sommatoria di una somma è pari alla somma delle sommatorie.
(a 6
+
i)
=
Ea (6 i)
=
+
x ka
=
b,
+
FUNZIONE DI RIPARTIZIONE
La funzione è un luogo di punti definito dalla coppia (xjj
, y ).
fo r m e LE
TO E
i4*;
E
4
:( -
0, 0)
+
SE
FUNZIONE DI RETRO-RIPARTIZIONE
- L modalità
prese in considerazione
GRAFICI
In statistica di usano tantissimo i grafici.
setra(... i)
chiuso - *
3) |—| co(...*i1...)
->
All’interno di una tabella, le coppie di variabili sono dette record. Eseguendo lo spoglio di una
variabile, prendo in considerazione solamente quella variabile (è la compressione dell’informazione,
e questo è lo scopo della statistica, ovvero estrapolare informazioni da realtà complesse cercando però
di minimizzare la perdita di informazioni).
INDICI DI POSIZIONE
I primi indici di posizione che studiamo sono le medie, che chiamiamo α(X). α è una generica
applicazione che ha per oggetto una variabile statistica (X potrebbe essere una variabile ordinale,
nominale, discreta, ecc…). α è tale che ciò che è contenuto in X è ricondotto in BIL UN SOw E L E M E N TO
.7D
La prima proprietà è l’internalità (un indice di posizione deve essere tra il minimo e il massimo: la
media dell’età dei ragazzi tra 19 e 21 anni non può essere 18 o 23). La seconda proprietà è la
proprietà moltiplicativa (proporzionalità): α(cX)=cα(Χ). Infine vi è la monotonicità: se ho una
classe divisa in due sezioni, posso dire che l’indice α di una sezione è maggiore o uguale a quello
dell’altra sezione. Data una variabile statistica X, si definisce moda, oppure Mo(X), della variabile
statistica X la modalità a cui è associata la maggiore frequenza o la classe a cui è associata la
maggiore densità di frequenza. I percentili, o quartile, di ordine p è una grandezza (x ) con 0<p<1 e
che permette allo sperimentatore di dividere in due parti una popolazione, una prima misura che è
composta da p è una seconda parte complementare a p. Chiameremo dunque percentuale di ordine p la
modalità o classe che occupa la posizione p-esima di una distribuzione ordinata di valori (non si
fa riferimento alla densità di frequenza, ma solo la frequenza). Il percentile è applicabile se è solo se
la modalità è ordinabile (non possono essere applicati ai colori ad esempio). Si definisce percentile di
ordine p di una variabile statistica X quella grandezza tale da soddisfare congiuntamente quanti segue:
FE L F W N a LQ N E BI R B A R T I Z LO N E F 7
te
1O
.
E F O N ZQ e m O
-A
-ridqzizianaReTor
z
Lande
6on
Lseae
87a
La prima condizione ci dice che la funzione di
mavalore
m e d i awo ripartizione fino a x (variabile che non conosco
e
MEDIE ANALITICHE
Prima non abbiamo parlato di medie analitiche perché la moda e i percentili venivano calcolati
lavorando solo sulle frequenze. Si consideri una variabile X o una sua trasformazione g(X), se ha a che
fare con variabili statistiche non negative o trasformazioni g(X) su sopporto R+, allora si definisce
media potenziata di ordine r di X o di g(x):
jer -
=
rEs aritmetic=
Ein:
I
Etem:
trasfor mazione
*A WARIABILE ·
r 2
=
= mesi
autoretice=
>
ro n d i o n e c re s c e n te
ëï
di
4c o n t i n u i t e I IDECIE
in questo caso parliamo di media geometrica,
-Minagize * ->
che ha come argomento il produttorio di quelle
che sono le modalità della variabile X elevate
alla N.
->ë ·
-
saritmo di un prodotto e uguale alla se
fo r m e
log.
-egy==log =rilog
Tuttavia è più utilizzata la potenza r-esima della media potenziata di ordine r, ovvero:
che ci restituisce i momenti dall’origine di ordine r. Quando r=1, M (X) viene chiamata media pr
Se si vuole fare la media aritmetica delle classi, c’è una convenzione: bisogna sostituire ciascuna .classe
con il punto centrale (se una classe è 1–|5, là si sostituisce con 3)
e
posto t rova re
Max
Fa c e n d o
sono d ue
e ditat
L'esponenziale di
M((n(x))
->
↓ ↓
minimo massime
=>
M(x) rc.m
=
M(xi) ..m =
La media è un punto di equilibrio, e questo viene dimostrato in questi calcoli:
8: (:- yi 0
=
?E(- ifi -
0i) ( ifi)
=
-
(0fi) 0
=
0
=
n(x)
=
L’unico parametro che pone pari a 0 la somma degli scarti della media aritmetica è la media
aritmetica stessa.
*
--
è come dire: qual è l’indice di posizione che rende minima
la sommatoria del quadrato degli scarti. θ è un valore
intermedio rispetto alle osservazioni minima e
massima: una parte delle osservazioni sono minori di θ e
danno scarti negativi, le restanti sono maggiori di θ e
danno scarti positivi. La somma degli scarti positivi è
uguale alla somma degli scarti negativi.
La media è interna, nel senso che è maggiore o uguale all’osservazione più piccola e minore o uguale
all’osservazione più grande.
(i 8fi
E,2.(i)(x: 0!E(=i
-
df: 0)fi
=
per
* t rova re
in mano e s e re
i raterame: 0
=
-
=
-
0
=
60
d e r i va t e
↳e seconda
UE. (ti-olfi
E: =
ci 0
=
20
Il minimo della media del quadrato degli scarti rispetto all’indice θ si trova solo per θ=µ (media
aritmetica). La media aritmetica è un indice di posizione in cui la perdita d’informazione è minima se si
applica la formula quadratica. Nella mediana la perdita d’informazione è maggiore.
INDICI DI DISPERSIONE
Sono i principali ingredienti per la costruzione di misure di rischio d’investimento. Si introduca la
funzione scarto, ovvero g(X,θ)= |X - θ|, ovvero la differenza in modulo di una variabile statistica da
un indice di posizione θ. L’indice di dispersione di ordine r della funzione scarto è:
-
Segue che gli indici di dispersione non possono mai essere negativi: essendo l’argomento un
modulo, l’indice di dispersione è positivo sempre. È una funzione c re s c e n te
Faremo largo uso di un indice di dispersione dove r=2 (così si leva il modulo) e θ=µ, dove:
DenionE
STANDARD X
TRASFORMAZIONE
DI
-
>
=ûëï
>Svilu p p o in quadrato
mean aix -
autorato dem
l est
-Var(x) 0
Var(X) è un operatore che assume solo grandezze positive e nulle. Non è un operatore lineare:
Var(Y), cioè la varianza di una trasformazione lineare di una variabile X, non è la trasformazione
lineare della varianza Y.
- ~
I vo r = a 6+
+
La media della potenza r-esima dello in modulo dalla media si chiama momento centrale di ordine r:
↳- jar(m =)] m51x m]
= -
>
La varianza di una combinazione lineare non dipende
solo dalla varianza delle singole componenti.
La media del prodotto degli scarti di due variabili
~ ~
T
(in questo caso C e Z) prende il nome di covarianza
(Cov).
RAGGMPD6 =
Come faccio a confrontare la dispersione di due panieri espressi con due unità
di misura differenti (ad esempio € e $)? Bisogna relativizzare l’indice di
dispersione: a questo serve il coefficiente di variazione (CV), che è definito dal
rapporto tra lo scarto quadratico medio di una variabile statistica e la sua media.
L
I n u m e ro della colonna
La somma delle frequenze di riga dà la frequenza marginale di riga: n_i.; la somma delle frequenze di
colonna dà la frequenza marginale di colonna: n_.j. La somma complessiva è N Znij. =
.
TEOREMA DELLA SCOMPOSIZIONE DELLA VARIANZA
Si consideri la variabile statistica (quantitativa) Y. La varianza della variabile condizionata Y è
scomponibile in due parti: la media delle varianze condizionate e la varianza delle medie
condizionate.
>
õœõõ
FUNZIONE DI REGRESSIONE
Per capire la funzione di regressione bisogna partire da una tabella a doppia entrata e si deve calcolare
la varianza delle medie condizionate e la media delle varianze (questi due sono i fattori fondamentali
da cui dipende la funzione di regressione). La funzione di regressione è il luogo dei punti passanti
PER le medie condizionate. La varianza delle medie condizionate diventa punto di informazione di
quel luogo di punti passante per le medie. La funzione di regressione indica un buon modello se
descrive in maniera corretta la dipendenza di Y da X.
Una misura della capacità delle medie condizionate di rappresentare
il fenomeno bivariato è dato dal rapporto di correlazione:
Il valore del rapporto di correlazione è compreso tra 0 e 1: infatti la varianza delle medie
condizionate non può essere maggiore della varianza complessiva. Dunque il rapporto di correlazione
è dato da un numero che indica la misura in termini percentuali. Più il rapporto percentuale è alto più
esiste una buona correlazione (e quindi più la funzione di regressione rappresenta un buon modello).
In una distribuzione degenere M[Var(Y|X)]=0 e Var[M(Y|X)]=Var(Y), e quindi η=1. η=1 quando ad
ogni Y corrisponde una ed una sola X.
Dato un insieme di variabili statistiche {Y, X}, dove X è l’insieme delle variabili esplicative, ovvero di
variabili che determinano Y, posso studiare la propensione a Y. La funzione f che lega X e Y non è di
così facile individuazione (e spesso si tratta semplicemente di un’approssimazione). Una volta raccolti i
dati, sfrutto la matematica e faccio lo sviluppo in serie di Taylor, approssimando il comportamento nel
punto sperimentale.
f
>i c o e f f i c i e n te sono l'in cogn ita n on
poiché conosco
Se si immagina f in uno spazio 3D e si prende un punto, in cui vi passa un piano tangente, che è
esattamente lo sviluppo in serie di Taylor. Noi cerchiamo di approssimare la funzione f tramite un
modello lineare nei parametri.
e
,
eFa c c i o Finta che
ag, a, . . . , ayt?
- via un solo parametro uguale 0,
-
- E re
Io ora è uguale A
Utilizzando il metodo dei minimi quadrati trovo la retta di regressione che interpola i punti che sono
riportati nel dataset, minimizzando la devianza residua
D e re
y min
z(yi (a ant)).fi
=
a
=
ani
+
- +
.a
e
= .
I Eosae da
dan
-D
e
-
I Ez)2(yi (a
Fz)2xi(yi
-
-
a
+
(a ant))fi
+
)).fi
x 0
=
=
0
-
120 6 (r(x) ar(x) 0 18 4(y) a t)
=
a
- - -
-
= =
=
M(xy) -
a.(x) -
2)
a,(x 0
=
ân M(x4) m)(m(y)(o(x,y)
=
-
=
(r(x))2 var(x)
=
M(x
3)
4res E
-
=> bat y at
=
an a =
-
a M(y) au(x)
=
-
4(xy)
Daty antican
=
=
M(x2)
Quanto più i residui sono più piccoli, tanto più il modello interpolante non è lontano da ciò che avrei
dovuto descrivere: se questa grandezza è piccola, anche il quadrato è piccolo. Facendo la somma
ottengo la quota di informazione non descritta dal modello, ovvero la varianza residua. Si introduce
un indice capace di dirci in termini percentuali quanto sia grande la quota di varianza residua rispetto
alla varianza complessiva.
Y si trova sostituendo i valori della x con i valori dati nel database. Il valore che troviamo è l’ordinata
del punto della retta che passa TRA i punti del grafico.
T
Y:
6,4917
8, 1436
8,1436
9,7956
9,7956
9,7956
13,0994
13,0994
·
L var(y -
y) Mr(y 4)
=
-
LA SCOMPOSIZIONE DELLA VARIANZA DI UN MODELLO DI REGRESSIONE
La varianza di Y può essere vista come la somma della varianza dei valori interpolati e della
varianza dei residui.
~ 7
v
=
-0
↳. e ste n d a. In t e r m i nn
e o to,
M(T) M(1)
=
1
0
=
=) Essendoca,M(Y-y) 0
=
L’INDICE DI ADATTAMENTO
Se vale la scomposizione della varianza di un modello di regressione (dunque se c’è il termine modo),
allora la bontà di adattamento di un modello di regressione si esprime con l’indice di adattamento (o
indice di determinazione).
Boor
rober to
-
L cat i vo
Modello
=>
e -
=
e
vrärces
=
condizionate non è pari a 0. Se la varianza delle medie condizionate è pari a 0, non c’è correlazione.
Dunque c’è indipendenza se tutte le medie condizionate sono diverse tra loro.
-Var(n)ly)) ho ceaendenza
(m(x(y) Mx
=
0,00
=
20n(xy) n(=)r(-)
=
=
92 0
=
LA CONNESSIONE
Esiste connessione quando NON esiste indipendenza stocastica, e dunque, se due o più variabili sono
indipendenti in senso stocastico, allora NON esiste connessione. Non c’è un modello che consenta di
legare due fenomeni quando vi è indipendenza stocastica. Due variabili sono indipendenti in senso
stocastico se le frequenze congiunte (n_ij) si dicono fattorizzabili, e quindi quando sono esprimibili
come il prodotto delle frequenze marginali diviso per N.
*3 =
-2 18
=
*TRIBUZIONE Dece
-> FREQUENZE
*TRIBUZIONE DE
Re l a t i ve Di
3
requenze re l a t i ve
*
Dj
⑰33.1 0,33
= 5.1 0,25
=
ÓÚõ.
.
1 0,5 7
=
0,75
⑰5.1 =
Ad esempio l’esito che si ottiene dal lancio di due dadi è un evento indipendente in senso stocastico: la
probabilità che escano 2 e 4 è data dal prodotto tra le probabilità che i numeri escano su ciascun dado
(in questo caso la probabilità che escano 2 e 4 è 1/36, ovvero 1/6 x 1/6). Dunque due eventi sono
indipendenti in senso stocastico quando il verificarsi dell’uno non modifica la probabilità
dell’altro.
L’estrazione senza remissione mi consente una connessione (gli eventi sono dipendenti); l’estrazione con
remissione mi consente l’indipendenza stocastica (gli eventi sono indipendenti in senso stocastico).
Per stabilire quanto due variabili siano connesse, si usa l’indice χ ,ovvero l’indice di Pearson: 2
L 3 IUILUPPO I QUADRATO
Non è una C r iT U R A
Nor malizzata:VA DA 01 +
↳X 0
I
DIVISO T U TO PER
Ri. .j
- ~
- -
=- 1 -
2
(quando
P ER F ET
Mai M quanto ogni y ha sola
una
per
~, una
e re l a z i o n e
univoce), allore
=1
↳x =
=>
Lavora (come model
Linomeròa
sempre, anche
*
con c a r a t te r i qualitation in
-
n
->
=>
x =N(n -
1) maxy
=
e[min((n -1),(k -)]] -
per c a l c o l a re
maxy
Eniinco
1) Se esiste indipendenza stocatisca, non esiste dipendenza in media:
Var [M(y(x)) Var(M(y(x)
->h a indipendena in medit =
y 0, ovvero == 0.
= =
Var(Y)
-Var(r(y/x)] (My (i) m):mi
= -
-Var(n(y(x)] 0
= ==
My(ri) My
=
-> MEDIE CO NDIZIO NATE:
M E DA
Della marginale
2) Se esiste indipendenza stocastica, allora non c’è incorrelazione (la covarianza è uguale a 0)
Se due variabili sono indipendenti in senso stocastico, allora Cor(x,y) 4(xy) 4(=)n(t) =
0 =
=
poicCor(x,y) 0
=
3e
=
=
cia" )
=
Dunque, il tutto si può riassumere così:
1) se c’è indipendenza stocastica, c’è indipendenza in media;
2) se c’è indipendenza stocastica, c’è incorrelazione;
3) se c’è indipendenza in media, c’è incorrelazione;
4) se c’è incorrelazione, c’è dipendenza in media;
5) se c’è indipendenza in media, c’è connessione.
L’insieme di tutti i possibili eventi aleatori è detto Ω: nel lancio di un dado Ω è testa, croce o sul taglio.
Mi interessa studiare la probabilità degli eventi aleatori sottoinsiemi di Ω: vice
Sono stati formulati i seguenti postulati:
3 non dà e nve re negativa
-0
↳probabilità dell'unione
di due eve n t i disgiunti
(e
con intersezione pari ad
* (E) =
= 3 + =
5
L incompatibili: o t te n e re le le impossibile,
5 5
(= 1 0 =
C e n e re 20
ei: +
j=I
↳non è
>p(z) jI
=
1
=
-
↳) B OONEME AE
È come se io guardassi quante volte il segno "-" si manifesti sia per IntesaSanPaolo che per Generali.
i
Se vale ciò, siamo in una
> situazione di indipendenza
stocastica tra A e B.
p(3)
=>
IL COEFFICIENTE BINOMIALE
(E) (n su x) serve per calcolare in quanti modi posso allocare x unità in una sequenza di lunghezza n
in modo tale che le varie combinazioni siamo differenti per composizione.
(2) =
=
1x)!
Se devo porre 1 pallina rossa su tre caselle affinché siamo diverse, allora (I) - =
-
-)!
3
= 3
=
B L 0,6
= ROSSO = 0,4
=pyxy E(E).e( e)
-
=
-
=
man m soccer
-
= =
Pr(x z)
x 1
= -
0,68256 0,31744
=
Pr(x v)
- =
-
↳avvero n-Pr(x 0) =
1
= -
Pr(x 24) 1
=
-
Prix 5)
=
1
=
-
LE VARIABILI CASUALI
La definizione di variabile casuale si rifà al gioco del dado: quando lanciamo un dado, siamo interessati
al risultato che il dado restituisce. Bisogna ragionare su ciò che capita prima del manifestarsi del
risultato, ovvero la fase di rotolamento, dove agisce l’incertezza del risultato. Nel momento in cui
decido di investire i miei soldi, nel momento in cui ho investito non so con certezza se guadagnerò o
perderò. Nella fase prima del risultato certo, agisce un meccanismo aleatorio. Una variabile casuale X
è una funzione avente dominio in Ω e che associa ad ogni evento aleatorio E un numero x reale; inoltre
associa ad x la probabilità dell’evento E. È una funzione di eventi (insiemi), e quindi ha come dominio
gli insiemi degli eventi elementari. Dipende dai possibili eventi definiti dalla faccia del dado. X:l >R
L’insieme Ω è suddiviso in partizioni, ovvero sottoinsiemi che tra loro sono in compatibili e tali per
cui la loro unione restituisce Ω.
Ogni variabile casuale è caratterizzata da una funzione di ripartizione
L gli
guarda esempi sobre
poche può
~e
LE VARIABILI CASUALI DISCRETE
Una variabile casuale si dice discreta se i valori X costituiscono un insieme finito o numerabile.
rimano frequenze
alle -
-> Re l a t i ve
4 - 1
erectation
=
e() -
[e())
⑳
TIDE
X si distribuisce come una variabile uniforme discreta che dipende dal parametro k:
La variabile casuale di Bernoulli serve per descrivere l’accadimento aleatorio di un evento di tipo
dicotomico. Dipende da un parametro diverso, π, che descrive la probabilità di successo nel gioco di
vincere. Il modello bernoulliano è Be) ~
2 au =0 x 0
=
be(x 0,π) (r x)
=
=
= -
x) +1 π
=
quaw0x 1
=
f(x 1,π)
=
=
π
=
0 + π
π(1 x)
-
π - x = -
Var(x)v
=
I I
&
0,5
e
I
e
a numore
Economico sensoco!E(x) =
-
x( x) -
y+
+
Se la media è maggiore di zero, il gioco è più che equo per i giocatori (gioco sapendo che il gioco è a
mio favore); se la media è minore di zero il gioco è meno che equo per i giocatori (gioco sapendo che il
gioco è a mio sfavore). Il gioco è equo quando il valore medio è pari a 0: l’eventuale vincita viene
ricompensata dalle eventuali perdite che subito se continuò a giocare, ovvero quando y ( 4) =
=
-
x,y?y (r 33
-
-=
i 0,2
=
=
= = = = 4
1
-
π
+
+
(y z)π x)
(1
x + -
x
-
1 i
+
0
=
y =
d i v i n c e re
probabilità ad ogni te n t a t i vo
x -
Bin(n,i)
pr
↓>
di p e rd e re le
a l t revo l t e
x rappresenta il massimo numero di successi su n prove.
↳
(
vinco SEMPRE
↳i pr a vo c e re a vo l t e
perda s e m p re
Quante volte mi aspetto che esca 2 in 5 lanci del dado? e(2,5,π) (2)()"(1
=
-
5)
1 -
F(x) P(x
=
)
x) > pr UNCERE
almeno due
vo l t e
Questo modello viene usato quando gli avvenimenti succedono in modo indipendente in senso
stocastico (i.i.d: indipendent and identically distribueted). La variabile casuale binomiale, presa come
estensione della variabile casuale bernoulliana, può essere interpretata come somma di n variabili
aleatorie i.i.d. bernoulliane (ad ogni tentativo posso vincere con probabilità π).
=
E(i) E.E(xi) r =
=
* nx
=
-var(i) EVar(xi) E = =
+( x) -
nx
=
(x π) -
L posto q u e sto
fa re poicti vari ab i l i
le sono 1.1.1.
RIPARTIZIONE
DIFFERENZA
↑in
s up
e or te
1, Screte
A
= an o
-
dn xo al limite
=
-
eso
Ciò che prima era la probabilità in un punto è ora riconducibile alla funzione di densità in un infinitesimo
dell’interno di quel punto: ciò che prima era la funzione di probabilità, ora diventa la funzione di densità.
Ciò che prima era la media nel punto x, ora diventa la media del dominio a cui il punto x appartiene.
La definizione della funzione di ripartizione non cambia, ma la differenza principale è che la probabilità
fino ad un punto non è la somma delle probabilità, ma il calcolo integrale.
Q u an d oa b 1
-f(xi0,y)
x xx 1 0x
f(xix,) 1
=
0
=
= = =
=
=
sette
-FinitA
-0
-> Isa ad
3a
+
=
0
+
1
=
-(daxyd aa =a =
=
2 ((a)(+ a))bee
=
IL MODELLO GAUSSIANO, O NORMALE
x -
-1: 1R(
-
0, 0)
+
È una funzione simmetrica: il punto modale è anche la mediana (il quantile 50% è anche la mediana: c’è
il 50% prima e dopo la moda).
>tuttavia a una
pic,m i t i c a
Quanto più σ (scarto quadratico medio) è piccolo, tanto più la curva è schiacciata. L’area grigia è l’area
che voglio calcolare nell’intervallo compreso tra meno infinito e 1: la funzione di densità è strettamente
correlata alla funzione di ripartizione (che è continua e monotona crescente nelle v.c. continue).
C. . .Eso
RIPARTIRIONE
F I AT
9, M
= M. CHEDO D
interes
-
Lavorare con le variabili casuali continue è tuttavia complesso: posso però trovare la variabile casuale
standardizzata (Z), partendo dalla variabile casuale gaussiana X, avente sempre come caratteristiche
E(Z)=0 e Var(Z)=1 xwn(n,82), zkoz
i )
=
== (0,1). ~n
I to s E R E R E ZEG.
-4( zz)-
1
= -
0(zz)
44( zz) b(zz)
-
+ 1
=
↳ some Eventi n e t to r i
π
-a
Sacanports
=
=I(xi)
M
=(*) E(i)) =
=
=((xi)) =(xi) 2m m
=
= = =
In pratica ci dice che, più a lungo osservo un gioco e più a lungo studio la sua media, più la variabile
aleatoria che descrive il gioco converge ad una distribuzione normale.
media campionaria standardizzate
~>
~ Al crescere di n in distribuzione
D, l’oggetto converge alla
variabile gaussiana
è standardizzata Z ~ N(0,1)
La C
a cer to quadratico delle
Media
var neon
delle campionare
CampionariA
. p iccolo
pin e
è la
più stima è precise
>
Funzione di ripar tizione delle V.C . Gangiant ITENDERDIZE E
te
Lu
In-
Per giudicare se una distribuzione differisce dall’andamento di una gaussiana, gli indici di forma sono
molto ultimi. Si dice simmetrica una distribuzione tale che 𝜇 = 𝑀𝑒(X) =𝑀𝑜(X).
Un
essere
può negativo, 1:
1R(-0, 0)
+
- piccolo
più si
Me(x), crE E più p i ccol o Mo(X)
> 'E u n a maggior dispersione Di D a t i
Lovvero (82)
Indipendent. MODELLO BinoMiaE
> eve n t .
·
·
p a l l i nn
e e re =
prja imoca n c
estrazion (?) ()(-) =
Pr
(a in
c a ke centrazion (â)()") (** (8) = -
=
Pr
(1 estrazione
o
ve re
pr =
)).(-).(-)
((2)(-)(- 0,076s
=
6s)-
x
(100
-
-
=
=
+ +
(- - + =
+ -
0,00 +
E(x) nπ
=
100.0,00768
=
0,00 6s)
+
Liz =
X -
100.0,00768
x 10
=
100.0,00758(1-0,00768)
I Pryz
100.0,00768
Priz 10,58)
10
Pr 7522]
-
=> z =
=
10,5 1
= - - =
1 -
0(-0,55) =
0
100.0,00758(1-0,00768)