Sei sulla pagina 1di 28

STATISTICA 2021/2022

La statistica è la disciplina che elabora i principi e le metodologie che presiedono al processo di


rilevazione e raccolta dei dati, alla rappresentazione sintetica e alla interpretazione dei dati stessi e,
laddove ve ne siano le condizioni, alla generalizzazione delle evidenze osservate.
STATISTICA DESCRITTIVA
Popolazione (collettivo statistico o universo): molteplicità, insieme di casi individuali, in cui si
manifesta il fenomeno oggetto di studio.
Soggetti (unità statistiche): caso individuale componente del collettivo statistico oggetto di studio
Si chiama modalità del carattere i diversi modi con cui questo si manifesta nelle unità statistiche del
collettivo.
Si chiama carattere ogni aspetto elementare, ogni caratteristica oggetto di rilevazione nelle unità
statistiche del collettivo.
Caratteri:
 Qualitativi (mutabili):
 Sconnessi (non ordinali o con scale nominali):
o Dicotomici (due).
o Politonici (più di due).
 Con modalità ordinabili (ordinali o con scale ordinali):
o Rettilinei (in ordine crescente).
o Ciclici (es. mese di nascita).
 Quantitativi (variabili):
 Discreti.
 Continui (entrambi possono essere ciclici).

I caratteri sono di due tipi: qualitativi e quantitativi. I primi hanno modalità costituite da singole
parole o da espressioni verbali; i secondi hanno come modalità dei numeri.
Le modalità dei caratteri qualitativi possono essere sconnesse oppure ordinabili.
Si parla di caratteri sconnessi quando le modalità non presentano un ordine naturale. I caratteri
sconnessi possono distinguersi in dicotomici, quando possono assumere due sole modalità e
politomici, quando assumono un numero finito di modalità distinte.
Si parla di caratteri qualitativi a modalità ordinabili quando le modalità presentano un ordine
naturale. I caratteri qualitativi a modalità ordinabili si distinguono in rettilinei, se possiedono una
modalità iniziale e una finale e ciclici, se non hanno vere e proprie modalità iniziali e finali.
I caratteri quantitativi si dicono discreti se le loro modalità sono quantità distinte, individuabili ed
elencabili. Si dicono continui quando possono assumere tutti i valori di un certo intervallo di numeri
reali.

Fasi di un’indagine statistica


L’indagine statistica si compone da:
 Rilevazione dei dati
 Lettura dei dati
 Classificazione dei dati (distribuzioni statistiche)
 Elaborazione dei dati

Rilevazione dei dati


 Questionario
 Rilevazione/indagine: totale (censimento) oppure parziale (indagine campionaria).

Lettura dei dati: matrice dei dati


Unità statistiche (casi) Sesso Età
1 M 22
2 F 21
3 F 24
15 M 25

NOTAZIONE: N= numero di unità statistiche nella popolazione

Distribuzione disaggregata semplice: x1; x2….xi…..xn


Distribuzione disaggregata doppia: x1; x2….xi…..xn
y1; y2….yi….yn

Classificazione (spoglio) dei dati: distribuzioni statistiche


DISTRIBUZIONE DI FREQUENZE ASSOLUTE (SEMPLICI)
Per frequenza si intende il numero di volte che una data modalità si presenta nel collettivo statistico.
K= numero di modalità
Modalità carattere Numeri di soggetti con quella
modalità di carattere
x1 n1
x2 n2
xi ni
xK nk
N

DISTRIBUZIONE DI FREQUENZE RELATIVE (SEMPLICE) E PERCENTUALE (SEMPLICE)


Modalità carattere Numeri di soggetti con quella Frequenze Frequenze percentuali
modalità di carattere Relative
x1 n1 f1=n1/N p1=f1X100
x2 n2 f2=n2/N p2=f2X100
xi ni fi=ni/N pi=fiX100
xK nk fk=nk/N pk=fkX100
N 1 100

DISTRIBUZIONE IN CLASSI (usualmente per caratteri quantitativi)


Valore centrale Classi Ampiezza classe Densità di frequenza Densità di
assoluta frequenza relativa

DISTRIBUZIONE DI QUANTITA’ (caratteri quantitativi trasferibili)


Quantità di caratteri= numero di caratteri complessivo
Elaborazione dei dati
FREQUENZE CUMULATE E RETROCUMULATE (per caratteri ordinali o quantitativi)
Modalità Frequenze cumulate Frequenze cumulate Frequenze retrocumulate
assolute relative assolute
x1 n1 N1= n1 F1=N1/N N1=N
x2 n2 N2=n1+n2 F2=N2/N N2=nk+…..+n2
xi ni Ni=n1…+ni Fi=Ni/N Nk-1=nk+nk-1
xk nk Nk=N Fk=Nk/N Nk=nk
Frequenze cumulate percentuali Pi=FX100

FUNZIONE DI RIPARTIZIONE (per caratteri quantitativi)


DEF: Si dice funzione di ripartizione la funzione F(X) che associa ad ogni x appartenente a R la
proporzione (frequenza relativa) di unità statistiche con valore del carattere minore o uguale a x
Distribuzione di frequenza:
x1 n1 f1
x2 n2 f2
xk nk fk
F(x1)= proporzione di unità statistiche con valore del carattere x≤ x1=f1

F(X)= 0 per x<x1


F1 per x1≤x<x2
F2 per x2≤x<x3
1 per x≥xk

Distribuzione in classi:

Utilizzo dei segmenti di retta all’interno delle classi nell’ipotesi di uniforme distribuzione
all’interno delle classi.
F(X)= fi-1+(fi/d1)(x-ci-1)

ISTOGRAMMA DI FREQUENZA (caratteri qualitativi, distribuzioni in classi)

Si chiama istogramma di frequenza la rappresnetazione grafica che si ottiene ponendo sull’asse


delle ascisse gli estremi di classe c0,c1….ck e disegnando per ogni classe un rettangolo avente per
base il segmento dell’asse delle ascisse di estremi ci-1 e ci e per altezza la densità di frequenza
ni/di.

ISTOGRAMMA DI FREQUENZA
densità di frequenza assoluta
o relativa= altezza

frequenza
relativa= base

Problemi con l’istogramma di frequenza: bisogna individuare le classi nel caso che non siano già
state decise.
Chiusura delle classi in casi particolari:
 Classi di età (istat)
12-14 [12-15)
15-20 [15-21)
21-28 [21-29)
 Classi di statura (istat)
165-170 [164,5-170,5)
171-175 [170,5-175,5)
176-180 [175,5-180,5)
 Classi con caratteri discreti
1-10 0,5-10,5
11-20 10,5-20,5
21-30 20,5-30,5

La Media
La media è un indice di localizzazione (o di tendenza centrale).
N.B. Non esiste solo una media!!!
La media aritmetica è uno strumento fondamentale della statistica: oltre a essere una costante
sintesi, il riassunto dei dati di una distribuzione, essa entra in gioco nella definizione di altre
grandezze, come gli indici di variabilità, e nell’ambito del calcolo delle probabilità, sotto la veste di
valore atteso.
Lo scarto o scostamento è la differenza tra il singolo termine della distribuzione e la media
aritmetica: x1- μ
La media aritmetica presenta le proprietà di seguito indicate:
1. È interna, essendo compresa tra il minimo e il massimo dei termini della distribuzione:
x1≤μ≤xn.
2. La somma dei termini della distribuzione è uguale alla media aritmetica moltiplicata per il
N
numero delle unità: ∑ xi=¿ ¿N μ. In altre parole, la media aritmetica rispecchia il criterio
i=1
di invarianza per la funzione matematica “somma dei termini”.
N
3. La somma algebrica degli scarti della media aritmetica è nulla: ∑ xi−μ=0
i=1
4. La somma dei quadrati degli scarti dei termini della distribuzione da una costante c’è
minima quando c è uguale alla media aritmetica:

5. Se si trasformano i termini x1,x2…,xn secondo la funzione yi= a+bxi, con i=1,2…,N, con a e b
costanti qualsiasi la media aritmetica μy dei termini originati dalla medesima
trasformazione, ossia μy=a+bμx. Tale proprietà è chiamata proprietà di linearità e implica
come casi particolari, ponendo nella funzione di trasformazione b=1, nel primo caso e a=0
nel secondo. La proprietà di traslatività: se si aggiunge o si sottrae una costante a ai termini
della distribuzione, la media aritmetica della nuova distribuzione è uguale alla media
aritmetica della distribuzione iniziale aumentata o diminuita della quantità a. La proprietà
di omogeneità: se i termini della distribuzione sono moltiplicati per la costante b, la media
aritmetica della nuova distribuzione è b volte la media aritmetica della distribuzione
iniziale.
6. Se un collettivo statistico di N unità è suddiviso in L sottoinsiemi disgiunti aventi numerosità
N1, N2…., NL e medie aritmetiche μ 1, μ2…., μL, la media aritmetica del collettivo può
essere calcolata nel modo seguente:
μ= (μ1*N1+ μ2*N2+…. μL*NL)/ (N1+N2……+NL).
Con riferimento a questa proprietà, si dice che la media aritmetica è assiociativa.

Media aritmetica:
distribuzione disaggregata:
N
1
μ= (x1+x2……+xn) oppure μ= ∑ xi
N i=1

distribuzione di frequenze:
K
μ= (x1*n1+x2*n2+…..xk*nk) oppure μ= ∑ xi∗fi
i=1

Distribuzione ponderata (o pesata): simbolo wk


K K
μ=∑ xi∗wi oppure ∑ wi
i=1 i=1

Media aritmetica approssimata valida nel caso di uniforme distribuzione nelle classi

Media geometrica: per caratteri positivi


La media geometrica è l’invariante rispetto al prodotto.
Possiamo utilizzare la media geometrica quando siamo in presenza di fenomeni moltiplicativi,
ovvero quando ha senso fare il prodotto.
La media geometrica presenta le proprietà di seguito indicate:
1. È interna, essendo compresa tra il minimo e il massimo dei termini della distribuzione
2. Il prodotto dei termini della distribuzione è uguale alla media geometrica elevata alla N. Ciò
significa che μg soddisfa il criterio di invarianza se come operazione matematica f() si
assume il prodotto dei termini della distribuzione.
3. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini
della distribuzione da cui si ricava:

4. La media aritmetica gode della proprietà associativa.

per distribuzioni disaggregate

per distribuzioni di frequenze

Media armonica: per caratteri con valori o tutti positivi o tutti negativi (diversi da 0).
La media armonica è l’invariante rispetto alla somma dei reciproci.
La media armonica presenta le proprietà di seguito indicate:
1. È interna, essendo compresa tra il minimo e il massimo dei termini della distribuzione:
x1≤μa≤xn.
2. La somma dei reciproci dei termini della distribuzione è uguale al reciproco della media
N
1 N
armonica moltiplicandolo per il numero delle unità: ∑ =
i=1 xi μa
Ciò vuol dire che μa soddisfa il criterio di invarianza se come operazione matematica f() si
assume la somma dei reciproci dei termini della distribuzione.
3. La media armonica gode della proprietà di omogeneità: se tutti i termini della distribuzione
sono moltiplicati per una costante b diversa da 0, la media armonica dei termini così
trasformati è b volte la media armonica dei termini originari.
4. La media armonica gode della proprietà associativa.

Distribuzioni disaggregate

Distribuzioni di frequenze

Media di potenza:
media di potenza di ordine r, dove r è un numero intero (scegliendo diversi valori di r si ottengono
medie diverse).
Per distribuzioni disaggregate

Per distribuzioni di frequenze

r=-1 media armonica


r=0 media geometrica (come limite per r0)

r=1 media aritmetica

r=2 media quadratica (usata per lo studio delle variabilità di una distribuzione)

r=3 media cubica (usata per lo studio della simmetria)

r=4 media di potenza di 4°ordine (usata nello studio dell’appiattimento, ovvero curtosi, di una
distribuzione)

MEDIE LASCHE: per caratteri quantitativi


 Mediana (media di posizione)
 Quantili (media di posizione)
 Moda

Mediana
La mediana è quel valore che lascia a destra e a sinistra lo stesso numero di unità statistiche.
Mediana quando N è dispari: x(N+1 /2)
Mediana quando N è pari:1/2 [x(N/2) + x(N/2 +1)]

La mediana presenta le seguenti proprietà:


1. È interna, essendo compresa tra il minimo e il massimo dei termini della distribuzione
2. È il valore che minimizza la somma dei valori assoluti degli scarti:
3. Se si trasformano i dati secondo la funzione yi= a+bxi, la mediana dei dati così trasformati,
my, è legata a quella dei dati iniziali, mx, dalla relazione: my= a+bmx.
Tale proprietà è chiamata di linearità e implica come casi particolari, ponendo nella
funzione di trasformazione b=1, nel primo caso, e a=0 nel secondo caso.
La proprietà di traslatività: se si aggiunge o si sottrae una costante a ai termini della
distribuzione, la mediana della nuova distribuzione è uguale alla mediana della
distribuzione iniziale aumentata o diminuita della quantità a.
La proprietà di omogeneità: se i termini della distribuzione sono moltiplicati per la costante
b, la mediana della nuova distribuzione è b volte la mediana della distribuzione iniziale.

Moda
La moda è la modalità con la frequenza massima.
Con due frequenze massime vi è la distribuzione bimodale.
Classe modale= classe con densità massima.

Quantili (o frattili)
 Quartili: valori che dividono la distribuzione in 4 parti uguali (sono 3).
 Decili: valori che dividono la distribuzione in 10 parti uguali (sono 9).
 Centili: valori che dividono la distribuzione in 100 parti uguali (sono 99).
In generale si parla di alfa-quantili, per 0≤alfa<1.

VARIABILITA’ E INDICI DI VARIABILITA’


Scostamenti medi
Data la distribuzione disaggregata si chiama scostamento semplice medio la media aritmetica degli
N
1
scarti della media presi in valore assoluto: Sμ= ∑ xi−μ
N i=1

Scostamento quadratico medio o derivazione standard


Data la distribuzione statistica disaggregata, si chiama scostamento medio quadratico la media
quadratica dei quadrati:

La seguente formula può essere espressa anche in una formula alternativa, chiamata formula
operativa:

Varianza
N
1
La varianza è la media aritmetica dei quadrati degli scarti: σ = ∑ ¿ ¿
2
N i=1
La varianza non è una vera e propria misura di variabilità: a differenza dello scarto quadratico
medio, essa non è espressa nella stessa unità di misura del carattere, ma nel quadrato di tale unità di
misura.
Differenze medie
Si chiama differenza semplice media della distribuzione la media aritmetica delle differenze in
valore assoluto, xi-xj, tra le N/N-1 coppie di termini della distribuzione:

Indice poco utilizzato perché richiede molti calcoli

Intervalli di variazione:
 Campo di variazione (range): c= x(N) – x(1) ovvero x max – x min.
 Differenza interquartile: q= q3 – q1.

Indici relativi (o percentuali):


Coefficiente di variazione: σ/ μ
Questi indici si ottengono come rapporto tra un indice di variabilità e uno di posizione.
Si utilizzano solo per caratteri a valori positivi.
Si utilizzano per confrontare la variabilità di distribuzioni con diverse unità di misura, o con diversi
ordini di grandezza.

Momenti: per caratteri quantitativi.


Momenti di ordine r dall’origine A.
N

Aμr= ∑ ¿¿ Ʃ con i=1 a N di (xi-A) per distribuzioni disaggregate


r

i=1
Ci sono 2 casi particolari:
N
A=0 ovvero momenti dall’origine: μr=∑ xi che è uguale alla media aritmetica.
r

i=1
N
 A=μ dove è la media aritmetica: μr= ∑ ¿¿
i=1

ASIMMETRIA
Simmetria: considerando una distribuzione di frequenze, la distribuzione si dice simmetrica se per
ciascuna coppia le modalità sono equidistanti dalla mediana e hanno la stessa frequenza.
Una distribuzione simmetrica ha le seguenti proprietà:
1. La media aritmetica coincide con la mediana.
Nelle distribuzioni simmetriche e unimodali la media aritmetica=mediana=moda.
2. La somma degli scarti dalla media aritmetica elevati a una potenza dispari è uguale a 0.
3. Il primo e il terzo quartile hanno la stessa distanza dalla mediana.

Indici per misurare l’asimmetria:


μ−m
 α1= questo indice è nullo in caso di simmetria; tende ad assumere valori positivi se la
σ
distribuzione presenta asimmetria positiva e valori negativi nel caso di asimmetria
negativa.
1
 Indice di Fisher: α2= ¿ tende ad assumere valori positivi se la distribuzione presenta
σ3
asimmetria positiva e valori negativi nel caso di asimmetria negativa. (momento centrale di
ordine 3/ (scarto quadratico medio)3)
(q 3−m )−(m−q 1)
 Indice di asimmetria basato sui quantili: α3= . Questo indice è nullo in
(q 3−m)+(m−q 1)
caso di simmetria; tende ad assumere valori positivi se la distribuzione presenta
asimmetria positiva e valori negativi nel caso di asimmetria negativa.

CURTOSI (O APPIATTIMENTO): caratteri quantitativi


Platicurtica (iponormalità): se è più schiacciata della distribuzione normale. γ<0
Leptocurtica (ipernormalita): se è più alta della distribuzione normale. γ>0

Indice di curtosi di Fisher: distribuzione di frequenze


1
γ= ¿.
σ4

NUMERI INDICI: APPLICAZIONE DELLE MEDIE


 Numeri indici a base fissa
 Numeri indici a base mobile
 Variazioni relative

Numeri indici a base fissa


Siano a1, a2,…ak le densità di un dato fenomeno nei tempi 1, 2,….k.
Allora, si chiamano numeri indici a base fissa i rapporti tra queste quantità e una di esse. Se come
base si assume il tempo h i numeri indici con base h sono espressi da: hIk= ak/ah.

Numeri indici a base mobile


Siano a1, a2,…ak le densità di un dato fenomeno nei tempi 1, 2,….k.
Si chiamano numeri indici a base mobile: ik=ak/ak-1.

Variazioni relative
k-1Hk=(ak-ak-1)/ak-1
Variazioni relative medie
Data una serie storica, fissati due tempi, h e t, con h<t siano ih+1, ih+2….it i numeri indici a base
mobile riferiti ai tempi h+1, h+2,….t. Allora la variazione relativa media dal tempo h al tempo t è
data da:

Questa formula può essere anche scritta nella forma equivalente:

Numeri indici complessi


Indice di Carli (1764): media aritmetica semplice

dove k è il numero dei beni.

Indice di Lespeyres (1864): media pesata con la spesa al tempo base (sovrastima inflazione)
Indice di Paasche (1874): media armonica pesata con la spesa al tempo t (sottostima inflazione)

Indice di Fisher: IF: √IL*IP

DIPENDENZA E INDIPENDENZA
Consideriamo due caratteri congiuntamente. Consideriamo tabelle di frequenze a doppia entrata
(tabelle di contingenza).
Relativamente ad una tabella di contingenza a due entrate diciamo che c’è indipendenza tra X e Y
se : nij= (ni0*noj)/N.
Se in una tabella abbiamo nij= (ni0*noj)/N, allora tutte le distribuzioni condizionate relative per riga
sono uguali tra loro (anche tutte le distribuzioni condizionate relative per colonna)
In una tabella a doppia entrata le 3 condizioni seguenti sono equivalenti:
1. nij/ni0=n0j/N ovvero le distribuzioni condizionate relative di y date x=xi sono uguali tra loro e
uguale alla distribuzione marginale relativa di y.
2. nij= (ni0*noj)/N.
3. nij/n0j=ni0/N ovvero le distribuzioni condizionate relative di x dato y=yj sono uguali tra loro e
uguali alla distribuzione marginale relativa di x.
X e y giocano un ruolo simmetrico nel concetto di indipendenza.
Se non ci sono queste condizioni c’è indipendenza.

Indice di dipendenza chi-quadrato di Pearson

Dove n^ij= (ni0*n0j)/N sono le frequenze teoriche sotto l’ipotesi di indipendenza tra x e y.
2=0 se e solo se c’è indipendenza.
2>0 se e solo se c’è dipendenza.

Altro indice: =√ 2/ N


Indice di Cramer

Questo indice varia tra 0 e 1, ovvero 0≤C≤1.


Se l’indice è uguale a 1 si ha perfetta dipendenza tra X e Y.

COVARIANZA:
N
1
σxy = ∑ ( xi−μx )( yi−μy)
N i=1
N
Codevianza: Cxy: ∑ (xi−μx)( yi−μy)
i=1
Indice di legame lineare tra i due termini.
Formula operativa covarianza:

COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS


La covarianza è un indice di legame lineare tra x e y non normalizzato.
Disuguaglianza di Couchy – Schwarz: -xy ≤ xy ≤ xy
Cxy
Il coefficiente di correlazione lineare è dato da:
√ Dx∗Dy
Questo coefficiente assume valori compresi tra -1 e 1.

MEDIA ARITMETICA DELLA SOMMA DI PIU’ VARIABILI


N
1
z= ∑ μ 1+ μ2+ …+ μs
N i=1
MEDIA ARITMETICA DEL PRODOTTO DI DUE VARIABILI
N
1
z= ∑ μx∗μy +σ
N i=1
VARIANZA DELLA SOMMA DI DUE VARIABILI
2 2 2
σ z=σ x +σ y +2 σxy

INTERPOLAZIONE STATISTICA CON IL METODO DEI MINIMI QUADRATI (Legendre – Gauss)


Scegliamo una famiglia di funzioni e per selezionare una funzione tra le infinite funzioni:
Y=f(x); bo, b1…bs
Decidiamo di spiegare y con x con una retta f(x; bo, b1)= bo+b1x. Vogliamo trovare bo e b1 che
N
minimizzano Sq. Sq=∑ ( yi−bo−b 1 xi) .
2

i=1
Per trovare l’unico punto di stazionarietà di Sq consideriamo il sistema di derivate parziali

{
∂ Sq
=0
∂ bo
seguente:
∂ Sq
=0
∂b1
b0=y-b1x (intercetta minimi quadrati)
σxy
b1= 2 (coefficiente angolare minimi quadrati)
σ x

La retta dei minimi quadrati passa per il baricentro della distribuzione.


La retta dei minimi quadrati sono 2, ovvero l’interpolare di Y su X è diverso da X su Y.

Nel caso di funzioni lineari (nei parametri) si procede in modo simile:


Y=a+b√ x z=√ x Y=a+bz

Indice di determinazione (nel caso della retta):


yi-y=(yi-y^i)(y^i+y)
n
Devianza totale: Dy=∑ ( yi−μy )
2

i=1
n
Devianza spiegata: Dsl=∑ ( y −μy )
i 2

i=1
n
Devianza residua: Drl=∑ ( yi− y )
i 2

i=1
Si può dimostrare che Dy=Dsl+Drl.
Dsl Drl
Indice di determinazione: R2= oppure1−
Dy Dy
2
Con 0 ≤ R ≤ 1
R2 =0 quando la retta dei minimi quadrati è parallela all’asse delle x.
R2 =1 quando tutti i punti della distribuzione sono sulla retta dei minimi quadrati.

La retta minimi quadrati per distribuzioni di frequenze in tabelle a doppia entrata.


Nel caso generale si ha:
σxy
b0= y – b1x b1= 2
σ x
S t
1 1
x= ∑ xi∗¿ 0 y= ∑ yj∗n 0 j
N i=1 N j=1
s t
1 1
σ x= ∑ x i ∗¿ 0−μ x
2 2 2
σ y = ∑ y j2∗n 0 j−μ x 2
2
N i=1 N j=1
s t
1 σxy
σxy = ∑ ∑ xi∗yj∗nij−μxμy r=
N i=1 j =1 σx∗σy

PROBABILITA’
Appendice B – Calcolo combinatorio
 Permutazioni semplici
 Disposizioni semplici
 Combinazioni semplici
 Disposizioni con ripetizione

Permutazioni semplici
Le permutazioni di n oggetti sono un caso particolare delle disposizioni semplici.
Pn= n! ovvero: n*(n-1)*(n-2)….2*1
n! si chiama n fattoriale
0!=1. n!=n*(n-1)!

Disposizioni semplici
n!
Il numero di disposizioni di lunghezza m di n oggetti, Dm,n dove m≤n è pari a Dm,n=
( n−m) !
Pn
ovvero
Pn−m

Disposizioni con ripetizione


Il numero D(r)n,m di disposizioni con ripetizione di lunghezza m e di n tipi di oggetti è pari a D (r)n,m=
nm .
Combinazioni semplici
Il numero Cn,m di combinazioni semplici, di dimensione m e di n elementi è pari a Cn,m=
n!
m!∗( n−m ) !

Elementi della probabilità


Esperimento aleatorio
Evento elementare ()
Spazio campionario ():
  è composto di un numero finito di eventi elementari;  è discreto
  è composto di un numero infinito numerabile di eventi elementari;  è discreto
  è composto di un numero infinito non numerabile di eventi elementari;  è continuo
La teoria della probabilità è basata sulla teoria degli insiemi. 0≤ probabilità ≤1.
La probabilità è una funzione d’insieme. Il dominio della funzione è composto dai sottoinsiemi di 
Dato uno spazio campionario , A una famiglia di sottoinsiemi di , si dice un’algebra se:
 Ω∈A
 Se A ∈ A , allora A ∈ A
 Se A1 e A2 ∈ A , allora A1 ⋃ A 2 ∈ A
Un evento è un sottoinsieme di Ω che appartiene a A

Assiomi di Kolmogorov
Dato uno spazio campionario Ω e una -algebra, si dice funzione di probabilità una funzione
d’insieme a valori reali definita su A che soddisfa le seguenti 3 condizioni.
 P(Ω )=1
 P( A )≥0, ∀ A ∈ A
 P ( A1 ∪ A 2 ∪ …. )= P(A1)+P(A2)+… per ogni successione di eventi in A a due a due disgiunti.
La terna [Ω , A , P( ¿)] si chiama spazio di probabilità.

Teoremi della probabilità


 La probabilità dell’insieme vuoto è pari a 0
 Per ogni A ∈ A P ( A )=1−P ( A )
 Per ogni A ∈ A si ha che P(A)≤1
 Se A⊆B, allora P(A) ≤ P(B)
 Legge della somma: Se A1 e A2 sono due eventi di A , allora
P (A1 ∪ A2)= P(A1)+P(A2) – P(A1 ∩ A2)

Probabilità condizionata
Se A e B sono due eventi dello spazio campionario Ω e P(A)>0, la probabilità condizionata di B dato
P( A ∩ B)
A è: P( B A )=
P( A)
Proprietà della probabilità condizionata, per un dato evento A con P(A)>0:
 P(Ω A)=1
 P( B A )≥0 per ogni B.
 Data una successione di eventi B1, B2… a due a due disgiunti, si ha che:
P ( B1 ∪ B 2∪…A)= P (B1 A)+P(B2 A)+…

Parallelo con i tre assiomi di Kolmogorov, quindi la probabilità condizionate godono delle stesse
proprietà delle probabilità di Kolmogorov.
Legge del prodotto: dati due eventi A e B.
P ( A ∩ B)
Se P(B) >0 P(A B)= → P ( A ∩ B ) =P ( A B )∗P (B)
P(B)
P ( A ∩B)
Se P(A) >0 P(B A)= → P ( A ∩ B ) =P ( B A )∗P ( A )
P( A)
Se P(A)>0 e P(B)>0 allora valgono sia la prima sia la seconda.

Un insieme di K eventi c1, c2,… ck


Costituisce una partizione di Ω se:
ci ∩cj=∅ per ogni i≠ j
c1 ∪ c 2… . ∪ck =Ω
N.B. c1, c2,…, ck si chiamano atomi della partizione

K
Formula delle probabilità totali: P(A)= ∑ P ( A/cj )∗P ( cj )
j=1
Formula di Bayes
Dato un evento A e un insieme di eventi c1, c2… ck tali che c1∪c 2∪… . ck =Ω e ci ∩cj=∅ si ha che
P ( A /ci )∗P( ci)
∕ A ¿= K
per un dato ci: P(ci
∑ P ( A /cj )∗P ( cj )
j=1

Indipendenza: Dato uno spazio di probabilità (Ω , A , P ), due eventi si dicono indipendenti se:
P(A∩ B ¿=P( A)∗P( B)
Proposizione: Se P(A)>0 e P(B)>0, allora le tre condizioni seguenti sono equivalenti:
a) P(A∩ B ¿=P( A)∗P(B)
b) P(B ∕ A ¿=P( B)
c) P(A ∕ B ¿=P( A)

VARIABILI CASUALI
Dato uno spazio di probabilità (Ω , A , P ), una variabile casuale, indicata con X(ω), oppure con X, è
una funzione che associa ad ogni evento elementare ω di Ω un numero reale X(ω)=X, tale che
l’insieme { ω : X ( ω ) ≤r } appartiene ad A , per ogni numero reale r.
La conseguenza del fatto che ∀ r ∈ R { ω : X ( ω ) ≤ r } ∈ A è che possiamo calcolare tutte le probabilità
del tipo P (X ≤ r)= P{ ω : X ( ω ) ≤r } e quindi possiamo calcolare tutte le probabilità di interesse, ad
esempio, P(a<X≤b) P(X≤b) – P(x≤a). a<b
Per una variabile casuale X, si chiama funzione di ripartizione la funzione F x (X)=P(X≤x)
N.B. Fx (X): R →[0,1]
N.B. La funzione di ripartizione esiste per ogni variabile casuale.

Proprietà della funzione di ripartizione


 lim F ( X )=0
x→−∞
lim F ( X ) =1
x→+∞
 F(X) è non decrescente cioè per ogni a e b con a<b, F(a)≤F(b)
 F(X) è continua a destra, cioè lim ¿
+¿
h → 0 F ( x+ h) =F ( X ) ¿
Per calcolare probabilità del tipo P(a<x≤b) possiamo ricorrere alla funzione di ripartizione
P(a<x≤b)= P(x≤b) – P(x≤a)= F(b) – F(a).
Variabili casuali discrete
Dato (Ω , A , P ), una variabile casuale X(ω): Ω → R si dice discreta se può assumere un numero
finito o infinito numerabile di valori x1, x2,…xn.
Per una variabile discreta, l’insieme delle probabilità f(xi)=P(X=xi) si chiama funzione di probabilità
ed ha le seguenti proprietà:
 f(xi)≥0
 ∑ f ( x 1 )=1
xi
Per una variabile casuale x discreta la funzione di ripartizione F(X) è una funzione costante a tratti
data da F(X)=P(X≤x)=∑ f ( xi )

Distribuzione uniforme discreta


Una variabile casuale x ha distribuzione uniforme discreta negli interi 1, 2,…n se la sua funzione di
1
probabilità è data da f(x)= .
n

Distribuzione di Bernulli
Una variabile casuale x ha distribuzione bernulliana se la sua funzione di probabilità è data da:

{
f ( x )= p se x =1
1− p se x=0
Dove 0<p<1 X Bernulliana (p)
N.B. Si chiama prova Bernulliana un esperimento dicotomico che può terminare con “successo” o
“insuccesso “

Distribuzione binomiale
Una variabile causale discreta x ha distribuzione binomiale se la sua funzione di probabilità è data
n! x n− x
da: f(x)= p (1− p)
x ! ( n−x ) !
Dove n è un numero naturale e 0<p<1 X Binomiale (n, p)
Proprietà:

()
N

∑ f ( x )=1 dove f(x)= nx p x (1− p)n −x


x=0
N.B. Questa ultima formula è uguale a quella prima
Sviluppo del binomio di Newton
N
2 2 n
()
(a+ b) =a +b + 2ab .(a+b) =∑ n ai b n−1
2

i=0 i

Variabili casuali continue


Una variabile casuale x con funzione di ripartizione F(X) si dice continua se esiste una funzione f(x)
x

tale che F(X)= ∫ f ( t ) dt dove la funzione f(x) si chiama funzione di densità di probabilità.
−∞
La funzione di densità è una funzione:
 f(x)≥0

 ∫ f ( x)dx=1
−∞
Per una variabile continua le probabilità si possono calcolare così:
b a b

P(a<x≤b)= F(b) – F(a)= ∫ f ( x ) dx− ∫ f ( x ) dx=∫ f (x) dx


−∞ −∞ a
Per una variabile casuale x continua:
 F(X) è continua
 F(X) è differenziabile dove la f(x) è continua

Distribuzione uniforme continua


Una variabile casuale X continua ha distribuzione uniforme (rettangolare) se la sua densità è data

{
1
a≤ x ≤ b
da: f ( x ) = b−a dove a<b
0 altrove
x
x−a
F(X)= P(X≤x)= ∫ f (t) dt=
−∞ b−a

Una variabile casuale X continua ha distribuzione normale (o gaussiana) se la sua densità è data
1
da: f ( x )= exp ¿¿ dove −∞ < μ< ∞ e σ 2 >0. X N ( μ , σ 2)
√ 2 π σ2
La distribuzione normale con μ=0 e σ 2=1 si chiama distribuzione normale standard e ha densità:
2
−x
1
f ( x )= e 2 X N ( 0,1)
√2 π
Proprietà densità:

 ∫ f ( x ) dx=1
−∞
 f ( x ) è simmetrica attorno a μ
 f(x) è crescente in (−∞ , μ ) e decrescente in ( μ , ∞)
 f(x) ha punti di flesso in μ−σ e μ+ σ
 f(x) è concava (verso il basso) in μ−σ , μ+ σ e convessa altrove
 f(x) ha come asintoto l’asse delle x

Media o valore atteso


Si chiama media o valore atteso della variabile casuale X la quantità:
E(x)= ∑ xf ( x) se X è discreta
x

E(x)= ∫ xf ( x ) dx se X è continua
−∞

Teorema: Sia X una variabile casuale e sia y=g(x) una variabile casuale ottenuta da X per mezzo
della funzione g(). Allora il valore atteso di y=g(x) è dato da:
E(x)= ∑ g ( x ) f ( x ) se X è discreta
x

E(x)= ∫ g(x )f ( x ) dx se X è continua


−∞

Varianza
Per una variabile casuale X con valore atteso μ=E(x), la varianza di X, indicata con σ 2 o conVar (x), è
il valore atteso di (x−μ ¿2 ovvero:
E(x)= ∑ ¿¿
x

E(x)= ∫ ¿ ¿
−∞

Proprietà varianza
 Var (x) ≥0
 Var (x)=0 se e solo se X è una variabile casuale degenere (che assume un solo valore)
 √ Var (X )=σ si chiama deviazione standard o scarto quadratico medio

Formula operativa varianza: ∑ x f ( X ) −μ → E ( x ) −¿


2 2 2

Per una variabile casuale X, si chiama momento non centrato (o momento dall’origine) di ordine r
la quantità: μr=E ( x r )
Si chiama momento centrato di ordine r la quantità μ r=E ¿
N.B. μ 1=E ( x )che è uguale alla media, ovvero al valore atteso
μ 2=E ¿ ovvero la varianza
Si dice moda di una variabile casuale discreta il valore della x a cui corrisponde massima
probabilità.
Si dice moda di una variabile casuale continua il valore della x a cui corrisponde massima densità.

Teoremi:
n+1
 Sia X una variabile casuale con distribuzione uniforme discreta. Allora E(x)= Var(x)=
2
n2−1
12
 Sia X una variabile casuale discreta con distribuzione di Bernoulli. Allora E(x)=p
Var(x)=p(1-p)
 Sia X una variabile casuale discreta con distribuzione binomiale. Allora E(x)=n*p
Var(x)=n*p (1-p)
 Sia X una variabile casuale continua con distribuzione rettangolare (uniforme continua).
a+b
Allora E(x)= Var(x)=¿ ¿
2
 Sia X una variabile casuale continua con distribuzione normale di parametri μ e σ 2 .
Allora E(x)= μ Var(x)= σ 2.

Proprietà valore atteso e varianza


 Proprietà di linearità del valore atteso: per una variabile casuale X e due valori reali a e b,
E(a+bx)= a+b*E(x). Se g(x) non è una trasformazione lineare non è vero che E(g(x))= g(E(x)).
Se g(x) è convessa, E (g(x))≥g(E(x)); Se g(x) è concava E (g(x))≤g(E(x))
 Sia X una variabile casuale, c1 e c2 costanti reali e g1(x) e g2(x) funzioni da R a R allora:
E[c1g1(x)+c2g2(x)] = c1E[g1(x)] + c2E[g2(x)]
 Sia X una variabile casuale e siano g1(x) e g2(x) due funzioni da R a R tali che g1(x)≤g2(x).
Allora E (g1(x))≤E (g2(x)).
 Sia X una variabile casuale e siano a e b costanti reali. Allora Var (a+b)= b 2Var(x)

Variabile casuale standardizzata


x−μ 1 μ
Se X è una variabile casuale con E(x)= μ e Var (x)= σ 2 . Allora y= = x− si chiama variabile
σ σ σ
standardizzata di X.
Per Y si ha che E(y)=0 e Var(y)=1
N.B. X può avere qualsiasi distribuzione.
x−μ
Se X ha distribuzione normale, allora y=
σ

Disuguaglianza di Morkov
Sia X una variabile casuale e sia g(x) una funzione a valori non negativi. Allora
E[ g( x )]
P [g ( x) ≥ δ] ≤
δ

Disuguaglianza di Chebyshev
1
Sia X una variabile casuale con E(x) = μ e Var (x)= σ 2 allora P[ ( x−μ ) ≥ kσ ] ≤
k2
1
N.B. Analogamente il complemento di questa disuguaglianza dice che P[ ( x−μ ) ≤ kσ ] ≥1− 2
k

Variabili casuali doppie o multiple


Dato uno spazio di probabilità (Ω , A , P ), si chiama variabile casuale doppia una funzione (X,Y) che
associa ad ogni evento elementare ϖ ∈ Ω la coppia di numeri reali (x,y) dove x=X(ϖ ) e y=Y(ϖ ¿, tale
per ogni r e s reali, l’insieme { ϖ : X ( ϖ ) ≤ r , y ( ϖ ) ≤ s } ∈ A , allora per questi insiemi conosciamo la
probabilità, ovvero possiamo calcolare P(x≤r, y≤s).
Siano X e Y due variabili casuali definite su (Ω , A , P ) allora la funzione di ripartizione congiunta di x
e y è definita da Fxy(xy)= P(X≤x, Y≤y)
Una variabile casuale doppia (x, y) si dice discreta se può assumere un numero finito o infinito
numerabile di valori (x, y).
Per una variabile casuale doppia (x, y) la funzione di probabilità congiunta è data da
f(x, y)= P(X=x, Y=y ). Per questa si ha che:
f(x, y)≥0;
∑ ∑ f ( x , y )=1
x y

Per un fissato x con fx(x)>0, la funzione di probabilità condizionata di y dato X=x è data da:
P ( X =x , Y = y )
f(y/x)= P(Y=y/X=x)=
P ( X =x)
Proprietà:
f(y/x)≥0

()
∑ f yx =1
y
N.B. f(x, y)= f(y/x)*f(x)
Le variabili casuali discrete X e Y si dicono indipendenti se P(X=x, Y=y) =P(X=x)*P(Y=y) ovvero se
f(x,y) = f(x)*f(y) cioè se gli eventi { X =x } e { Y = y } sono indipendenti per ogni scelta di valori x e y.
Proposizione: per tutti gli x e y per cui f(x)>0 e f(y)>0, le seguenti condizioni sono equivalenti:
 f(y/x)=f(y)
 f(x,y)=f(x)*f(y)
 f(x/y)=f(x)
VARIABILI CASUALI MULTIPLE DISCRETE
Funzione di probabilità congiunta f(x1, x2,…, xn)=P(X1=x1, X2=x2….,Xn=xn)
 f(x1,….,xn)≥0
 ∑ … ∑ f ( x 1 … xn )=1
x1 xn

Siano x1, …xn variabili casuali discrete allora si dicono indipendenti se: f(x1…,xn)=f(x1)*….*f(xn)
N.B. Queste definizioni si possono estendere alle variabili casuali continue

Valore atteso di una funzione di una variabile casuale doppia


Siano X e Y due variabili casuali discrete con funzione di probabilità congiunta f(x,y) e sia g(x,y) una
funzione a valori reali definita su R2.
Allora z=g(x,y) è una variabile casuale con valore atteso E(z)= E(g(x,y))= ∑ zf (z) il quale si può
z

anche calcolare come E(z)= E(g(x,y))= ∑ ∑ g ( x , y )∗f (x , y )


x y

Covarianza
Siano X e Y due variabili casuali con funzione di probabilità congiunta f(x,y). Si chiama covarianza la
quantità: σxy =COV ( x , y )=E [( x−μx )∗( y −μy )] dove μx e μy sono le medie di X e Y.
Per variabili casuali discrete: COV (x,y)=∑ ∑ ( x −μx )∗( y−μy )∗f ( x , y )
x y
Formula operativa: COV(x,y)= E(x*y) – E(x)*E(y)

Teorema: se X e Y sono variabili casuali indipendenti allora E(x*y) = E(x)*E(y)


Quindi se X e Y sono indipendenti, allora COV (x,y)=0

Siano X e Y due variabili casuali discrete con funzione di probabilità congiunta f(x,y). Si chiama
Cov (x , y )
coefficiente di correlazione lineare di Bravais il rapporto: Corr(x,y)= ρxy=
√ Var x∗√Var y
La covarianza e il coefficiente di correlazione sono misure di legame lineare tra X e Y:

{
¿ 0 correlazione negativa
¿ 0 X e Y sono incorrelate
¿ 0 correlazione positiva

Teorema: per due variabili casuali X e Y si ha che:


|ρxy|≤1
|ρxy|=1 se e solo se esiste una relazione lineare perfetta tra X e Y, ovvero se y=a+bx (con
probabilità 1), per un qualche a e b

Combinazioni lineari di variabili casuali


Sia X1, X2…Xn n variabili casuali discrete con funzione di probabilità congiunta f(x1,…,xn) e sia g(x1,
…,xn) una funzione a valori reali definita su R N . Allora il valore atteso della variabile casuale
z=g(x1,..xn) è dato da E(z)= E(g(x1,…,xn))= ∑ zf ( z) e questo può essere calcolato anche con:
z

E(z)= ∑ … … ∑ g ( x 1… xn )∗f (x 1 , … , xn)


x1 xn
Teorema: Siano X1, X2,…,Xn n variabili casuali e siano a1,….,an n costanti reali allora:
N N
E(∑ ai∗Xi=∑ ai∗E( xi)
i=1 i=1

Teorema: Siano X1, X2,…,Xn n variabili casuali e siano a1,….,an n costanti reali allora:
N N
Var (∑ ai∗xi ¿=∑ ai ∗Var ( xi ) + ∑ ∑ a 1∗aj∗Cov (xi , xj)¿
2

i=1 i=1 i j

Corollario: Se X1,…Xn sono variabili casuali a due a due incorrelate allora:


N N
Var (∑ ai∗xi ¿=∑ ai ∗Var ( xi ) ¿
2

i=1 i=1

Combinazioni lineari di variabili casuali normali


Siano X1,…,Xn n variabili casuali indipendenti con distribuzione normale di media μi e varianza σ i 2
e siano a1,…an costanti reali allora W=a1*x1,…,an*xn ha distribuzione normale ovvero: W N ¿)

Media aritmetica
Se X1,…Xn sono variabili casuali indipendenti e identicamente distribuite (i.i.d.) con media μ e
σ2
varianza σ allora E( X n ¿=μ e Var( X n ¿=
2
n

Legge debole dei grandi numeri


Sia X1, X2,…Xn una successione di variabili casuali indipendenti e identicamente distribuite con
N
1
E(xi)= μ e Var (xi)= σ 2 e sia, per n=1, 2,.., X n= ∑ xi allora, per ogni ε > 0 ,
n i=1
lim P(| X n−μ|¿≥ ε )=0 ¿ ovvero lim P(| X n−μ|¿¿ ε)=1¿
n→∞ n→∞

Formulazione di bernoulli della legge debole dei grandi numeri


lim P(|Rn− p|¿¿ ε )=1 ¿
n→∞

Teorema del limite centrale


Siano X1, X2,..Xn n variabili casuali indipendenti e identicamente distribuite con media E(xi)= μ e
N
1
varianza Var(xi) =σ Sia Sn= x1,x2,..xn la loro somma, sia X n= ∑ xi la loro media aritmetica, e
2
n i=1
X n−E ( X n)
sia Zn= allora per ogni z appartenente ad R
√Var (X n)
lim P
n→∞ (
X n−E ( X n )
√ Var ( X n ) )
≤ Z =ϕ ( z ) dove ϕ ( z ) è la funzione di ripartizione della normale standard

N(0,1). Nelle applicazioni questo ci permette di affermare che per n abbastanza grande
σ2
ha ≈ N (0,1), ovvero X n ≈ N ( μ , )
n

Approssimazione della binomiale alla normale

{
N
1 1p
Se Y Binomiale( n , p) possiamo scriverla come Y = ∑
n i=1
xi dove Xi=
0 1− p
Quindi possiamo applicare il teorema del limite centrale ad Y (se n è abbastanza grande):
P( Y −np
√ Var (1− p) )
≤ Z =ϕ ( z ) →
Y −np
√ np( 1− p)
≈ N ( 0,1 ) ovvero Y ≈ N ¿

INFERENZA STATISTICA
 Stima puntuale
 Intervalli di confidenza (stima intervallare)
 Verifica di ipotesi
Popolazione
 Normale (gaussiana)
 Dicotomica

Stima puntuale
Stima della media di una popolazione normale
X= carattere di interesse; X si distribuisce normalmente nella popolazione.
Assumiamo che σ 2 sia noto e che μ sia incognito
x1,x2,..xn misure del carattere sugli n soggetti
N
1
x n= ∑ xi media (aritmetica) campionaria; consideriamo x n una stima di μ
n i =1
Per valutare la bontà della nostra procedura di stima dobbiamo studiare la distribuzione della
media aritmetica.
Il nostro modello per il campione estratto è dato da X1,…Xn variabili casuali indipendenti e
identicamente distribuite come N( μ , σ 2). Consideriamo i valori osservati x1,…xn come realizzazione
delle variabili casuali X1,…,Xn.
N
1
Quindi X n= ∑ Xi è una variabile casuale e possiamo vedere x n come una realizzazione della
n i=1
variabile casuale X n . Noi chiameremo X n stimatore di μ e x n stima di μ.
Le nostre conoscenze probabilistiche ci permettono di dire che:
E(X ¿ n)¿= μ (si dice che X n è uno stimatore “corretto” di μ)
2 2
σ σ
Var ( X n ) = → lim =0
n x →∞ n

Per la LDGN, nlim P(| X n−μ|¿¿ ε)=0 ¿ (si dice che X n è uno stimatore “consistente” di μ.
→∞

Proprietà degli stimatori


Siano date X1, X2,…,Xn n variabili casuali indipendenti ed identicamente distribuite con densità (o
funzione di probabilità) f(x; θ ) dove θ è un parametro incognito.
Si dice statistica (campionaria) una qualsiasi funzione delle variabili casuali X1,…Xn che non
dipende dal parametro incognito θ .
Il valore di una statistica è completamente noto se si conosce il valore della variabile casuale
X1..,Xn. Uno stimatore T di θ è una statistica, ovvero una funzione della variabile casuale X1,..,Xn
cioè T=t(x1…xn). Il valore assunto dallo stimatore in corrispondenza del particolare campione
osservato si chiama stima.

Si dice che uno stimatore T è corretto (non distorto) per θ se E(T)= θ per ogni θ .
Se E(T)≠ θ si dice che T è distorto. La differenza D(T)=E(T) – θ si chiama distorsione.

L’errore quadratico medio di uno stimatore T del parametro θ è la quantità MSE= E¿


MSE: Mean Square Error.
L’MSE è in relazione con la varianza Var (T) e con la sua distorsione.
Quindi MSE(T)= Var(T) + (θ−E(T )¿2 ovvero MSE (T)= Var (T) + [D(T)¿2

Dati due stimatori T1 e T2 di θ , si dice che T1 è più efficiente di T2 se MSE(T1)<MSE(T2) per ogni
possibile valore di θ con la disuguaglianza in senso stretto per almeno un valore di θ

La consistenza è una proprietà asintotica, cioè per n → ∞, ovvero considerando una numerosità
campionaria crescente.
Si dice che uno stimatore Tn=tn(X1,..Xn) (dove n è la numerosità campionaria) è consistente (in
senso debole) per θ se ∀ ε >0 , lim P (|Tn−θ|<ε ) =1 per qualsiasi valore di θ
n→∞
N.B. Per la LDGN, X n è uno stimatore consistente della media μ.

Si dice che uno stimatore Tn= tn(X1,…Xn) è asintoticamente corretto per θ se nlim E ( Tn )=θ
→∞

Stima della varianza di una popolazione normale


Siano X1,…,Xn n variabili casuali indipendenti ed identicamente distribuite con densità N ( μ , σ 2) e
siano μ e σ 2incogniti. Si vuole stimare σ 2. Possiamo considerare gli stimatori (statistiche):
n
1
σ^ = ∑ ¿ ¿
2
n i=1
n
1
2
S= ∑¿¿
n−1 i=1

Distribuzione chi-quadrato Χr 2 (con r gradi di libertà) (per variabili casuali continue a valori
positivi)
Proprietà:
 Se Y Χr 2, allora E(Y) =r e Var (Y)=2r
 Se X N(0,1), allora Y= Χ 12
 Se X1…, Xn sono n variabili casuali indipendenti ed identicamente distribuite come N(0,1)
n
allora Y=∑ Xi Χn
2 2

i=1
 Se X1 Χn 1 e X 2 Χn2 2 allora X1+x2 Χn 1+n 22
2

 Se Y Χn2, allora possiamo scrivere y come la somma delle variabili casuali “normali
standard al quadrato”, ovvero come Y=X1+…Xn dove Xi sono variabili casuali indipendenti
ed identicamente distribuite come Χ 2 , con E(Xi)=1 Var(Xi)=2. Per il TLC, se n è abbastanza
grande Y≈ N(n, 2n).

Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come N( μ , σ 2), allora
n
xi−μ
Zi= N ( 0,1 ) e Y =∑ ¿ ¿ ha distribuzione Χn2 , ovvero Y Χn2
σ i=1

Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come N( μ , σ 2), allora
2
S (n−1) 2
2
Χ n−1 Con questo risultato possiamo vedere che E( S2)= σ 2
σ
Ovvero che S2è uno strumento non distorto per σ 2
2σ4
Inoltre Var ( S2)= MSE( S2)= Var( S2)
n−1
Sulla base di questo si vede che S2è anche uno stimatore consistente di σ 2.

Stima della probabilità di successo (proporzione) in una popolazione dicotomica


X= 0
{ 1
P= proporzione di soggetti con X=1
n
1
P=frequenza relativa campionaria= ∑ xi
^
n i=1
Vogliamo stimare P con ^ P . Per valutare la bontà di questa operazione dobbiamo studiare la
^
distribuzione di P , e per questo dobbiamo assumere un modello probabilistico per il campione.
Modello per il campione: x1,…,xn n. variabili casuali indipendenti e identicamente distribuite come
Bernoulliane di parametro p.
Se il campione è stato estratto in modo casuale, possiamo assumere che il nostro campione x1,
…,xn sia una realizzazione delle variabili casuali X1,…,Xn. Quindi, possiamo assumere che la
n
1
frequenza relativa campionaria ^
P= ∑ Xi
n i=1
Sulla base della distribuzione di ^P , possiamo vedere che: E( ^ P )=P. Quindi ^ P è uno stimatore non
P(1−P)
distorto per P. Per la varianza si ha: Var( ^ P ¿= . MSE( ^P )=Var( ^
P ), ovvero ^
P è uno stimatore
n
consistente di P.

Intervalli di confidenza (stima intervallare)


Siano X1,…Xn n variabili casuali indipendenti e identicamente distribuite con densità (o funzione di
probabilità) f(x, θ ) dove θ ∈Θ è un parametro incognito che appartiene allo spazio parametrico Θ .
Siano L1= g1(X1,…,Xn) e L2= g2(X1,…,Xn) due statistiche campionarie tali che L1=L2 (L1 si chiama
limite inferiore e L2 limite superiore) e P( L 1< θ< L2)=1-α dove 1-α si chiama coefficiente di fiducia
(confidenza). Allora, l’intervallo aleatorio (L1, L2) si chiama stimatore per θ di un livello (1-α
)100%.
N.B. (L1, L2) stimatore intervallare; (l1, l2) stima intervallare (intervallo di confidenza)
Usualmente α è pari a 0,10; 0,05 oppure 0,01 e quindi si considerano intervalli di confidenza di
livello 90%, 95% e 99%.

Intervallo di confidenza per la media di una popolazione normale


Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come N( μ , σ 2) e siano
n
1 σ2
σ noto e μ incognito. Sappiamo che per qualsiasi valore di μ: X = ∑ xi N ( μ , ) e quindi:
2
n i=1 n
X−μ
N (0,1)←

√ questa quantità non è una statistica e si chiama quantità pivot.


2
σ
n

√ √
2 2
Per un fissato valore di α : P( X −z 1− α σ < μ< X + z 1− α σ ¿=1−α
2 n 2 n


2
Notiamo che l’ampiezza dell’intervallo è pari a: A=L2-L1= 2z1- α σ
2 n

Distribuzione tr di Student (con r gradi di libertà)


Proprietà:
 f(x) è simmetrica attorno allo zero, unimodale sullo zero
 per r→ ∞ , la distribuzione tr di Student si avvicina alla distribuzione normale N(0,1).
 Se X N ( 0,1 ) e Y Χ 2 r e inoltre x è indipendente da y allora t tr
 Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come N( μ , σ 2)
allora t tn−1

Intervallo di confidenza per la media di una popolazione normale (piccoli campioni)


Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come N( μ , σ 2) e siano
σ e μ incogniti. Vogliamo ottenere un intervallo di confidenza per μ.
2

Sappiamo che per qualsiasi valore di σ 2 e μ:


X−μ
tn−1←

√ questa quantità non è una statistica e si chiama quantità pivot.


2
S
n

√ √
2 2
Per un fissato valore di α : P( X −z 1− α S < μ< X+ z 1− α S ¿=1−α
2 n 2 n


2
Notiamo che l’ampiezza dell’intervallo è pari a: A=L2-L1= 2z1- α S
2 n
Intervallo di confidenza per la varianza σ di una popolazione normale con μ incognito
2

Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come N( μ , σ 2) e siano


2 2
σ e μ incogniti. Vogliamo ottenere un intervallo di confidenza per σ .
Sappiamo che per qualsiasi valore di σ 2 e μ:
S 2 (n−1) 2 2
2
Χ n−1→ non è una statistica perche σ è incognito e si chiama quantità pivot
σ
S 2 (n−1) 2 S 2 (n−1)
<σ < ¿=1−α
Per un fissato valore di α : P( 2 α 2 α
Χ 1− Χ
2 2

Intervallo di confidenza per la proporzione in una popolazione dicotomica (grandi campioni)


Se X1,…Xn sono n variabili casuali indipendenti e identicamente distribuite come Bernoulliane di

{
probabilità p con fxi(x)=
p x=1
1− p x=0
dove p appartiene (0,1)
Vogliamo ottenere un intervallo di confidenza per p. Sappiamo che un’estensione del TLC, per n
^p − p
grande, per qualsiasi valore di p:
√ ^p −¿ ¿ ¿ ¿


Per un fissato valore di α : P( ^p−z 1− α
2
^p ( 1− p )
n √
< p < ^p + z 1−
α ^p ( 1− p )
2 n

Potrebbero piacerti anche