Sei sulla pagina 1di 39

!"#$%&'#()*+,--%&+#.

/%*/0*1,++,"#
+,&',*2#*/.!&%.*#"*%+,",-#.*%*3#"."4.
+/.''%*56*7*.0.0*865598658

Statistica [30001]

formule e principali definizioni


tavole statistiche
30001 - Statistica

Statistica 1

La statistica si occupa dello studio di come trarre conclusioni su una popolazione quando le
informazioni sono state ottenute da un campione. Lo studio della statistica è necessario non per fare
affermazioni sul campione quanto, piuttosto, per trarre conclusioni sull’intera popolazione.
Si suddivide il campo statistico in statistica descrittiva e inferenza statistica. La prima comprende
metodi grafici e numerici che sono usati per sintetizzare ed elaborare dati in modo da trasformarli in
informazioni; la seconda fornisce le basi per le previsioni e per le stime che consentono di
trasformare le informazioni in conoscenza. Entrambe sono usate per trasformare i dati in
conoscenza che permette di migliorare i processi decisionali.

Unità statistica: unità elementare su cui vengono osservati i caratteri oggetto di studio.
Popolazione (di unità statistiche): è l’insieme completo di tutte le unità oggetto di studio. La
dimensione della popolazione, N, può essere molto grande o addirittura infinita.
Campione: è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione indicata
con n. 2
Campionamento casuale semplice: è il procedimento usato per selezionare un campione di n
oggetti da una popolazione, in modo tale che ciascuna unità della popolazione sia scelta
rigorosamente a caso e abbia la stessa opportunità di essere scelta. Ogni possibile campione di
dimensione assegnata n, inoltre, deve avere la stessa possibilità di essere selezionato. Il campione
ottenuto con questo metodo è noto come campione casuale3 .
Carattere: variabile ritenuta di interesse statistico (es.: colore dei capelli).
Modalità: manifestazione del carattere (es.: castano, biondo, moro, ecc.). Le modalità di un
carattere devono essere:
1) incompatibili (non sovrapposte): una stessa unità non può essere relazionata con più modalità;
2) esaustive: le modalità elencate devono rappresentare tutti i possibili modi di essere del
carattere, così che tutte le unità statistiche del collettivo possono essere classificate.
Parametro: è una caratteristica specifica della popolazione.
Statistica: è una caratteristica specifica del campione4.
Statistica univariata: analizza un carattere alla volta.
Statistica bivariata: analizza congiuntamente due caratteri alla volta.
Statistica multivariata: analizza congiuntamente più caratteri contemporaneamente.

Variabili categoriche: generano risposte che appartengono a gruppi o a categorie. Es: Si/No,
Nazionale/Internazionale, Accordo/Indifferente/Disaccordo, ecc.
Variabili numeriche: comprendono sia le variabili discrete sia quelle continue.
• Discreta: può (ma non necessariamente) avere un numero finito di valori; il
tipo più comune di variabile discreta genera risposto che provengono da un
processo di conteggio.
• Continua: può assumere un qualunque valore all’interno di un determinato
intervallo di numeri reali e, di solito, è originata da un processo di
misurazione (non da conteggio)5.
Scala nominale: livello inferiore di misurazione dei dati in cui la codifica è scelta per pura
convenienza. I valori assunti dalle variabili nominali sono etichette che descrivono le categorie o le
classi di risposta: a ogni risposta viene assegnato arbitrariamente un codice numerico privo di
significato (es.: 1.maschio/2.femmina, 1.si/2.no).
Scala ordinale: indica un ordine gerarchico degli elementi e, allo stesso modo dei dati nominali, i
valori assunti sono delle etichette che descrivono le risposte. (es.: 1.molto insoddisfatto/
2.abbastanza insoddisfatto/3.indifferente/4.abbastanza soddisfatto/5.molto soddisfatto).
1
30001 - Statistica

Scala ad intervallo: indica l’ordine e la distanza da un’origine arbitraria misurata con una
determinata unità di misura: i valori sono cioè ottenuti in relazione a un punto di riferimento
prefissato (es.: temperatura).
Scala di rapporto: si indica sia un ordine sia la distanza da un’origine assoluta (lo zero) e il
rapporto tra due misure, in questo caso, assume un significato numerico ben preciso (es.: reddito).
Gerarchia tra le scale: s.nominale ! s.ordinale ! s.di intervallo ! s.di rapporti6 .
Distribuzione di frequenze (caso variabili categoriche): è una tabella per organizzare i dati. La
colonna di sinistra (che contiene le modalità o classi di misura) comprende tutte le possibili risposte
relative alla variabile oggetto di studio, la colonna di destra contiene l’elenco delle frequenze
(numero di osservazioni) per ogni classe. Essa permette di sintetizzare i dati grezzi7.
A. DATI CATEGORICI: diagrammi a barre (ortogrammi, l’altezza dei rettangoli corrisponde
alla frequenza della modalità), diagrammi a torta.
B. VARIABILI NUMERICHE
Distribuzione di frequenze (caso variabili numeriche): è una tabella che riassume i dati elencando
le classi di intervallo nella colonna di sinistra e il numero di osservazioni in ogni classe nella
colonna di destra. È necessario tuttavia decidere il numero e l’ampiezza delle classi. Se il carattere è
continuo la corrispondente distribuzione di frequenze deve necessariamente essere rappresentata
per classi. Una distribuzione di frequenze per una variabile quantitativa continua è una lista o una
tabella contenente intervalli di numeri (classi) e le corrispondenti frequenze (assolute o relative)
con cui i dati appartengono alle classi. Esistono 3 regole:
1. Determinare k, il numero delle classi di intervallo.
2. Le classi di intervallo possono avere la stessa ampiezza w:
(ValoreMAX ! ValoreMIN )
w = Ampiezza dell'intervallo = dove w è per convenzione intero.
k
3. Le classi di intervallo devono essere collettivamente esaustive e mutualmente esclusive
(senza sovrapposizioni). I limiti (o estremi) di ciascuna classe devono essere definiti
chiaramente. La scelta degli estremi delle classi è soggettiva, ma deve favorire una chiara
comprensione e interpretazione dei dati.
Se selezioniamo troppe poche classi, determiniamo una perdita di informazioni sulle caratteristiche
della distribuzione. Al contrario, se selezioniamo troppe classi, potremmo scoprire che alcune non
contengono osservazioni o hanno una frequenza molto bassa col risultato di disperdere i valori e di
alterare la vera forma della distribuzione8.
Densità: d = f w
Distribuzioni delle frequenze relative: è ottenuta dividendo ciascuna frequenza per il numero
complessivo di osservazioni; moltiplicano la proporzione risultante per 100% si ottiene la
distribuzione delle frequenze percentuali9 .
Distribuzione delle frequenze cumulate: contiene il numero totale di osservazioni con valori
minori del limite superiore di ciascuna classe. La distribuzione di frequenze cumulate si ottiene
sommando alla frequenza della classe corrente la frequenza di tutte le classi precedenti. In una
distribuzione delle frequenze cumulate si cumulano le frequenze relative (se si cumulano le
frequenze percentuali si ottiene la distribuzione delle frequenze percentuali cumulate)10.
Istogramma: è un grafico composto da rettangoli verticali adiacenti costruiti su una linea
orizzontale sulla quale sono delimitate le stesse classi di intervallo individuate nella distribuzione di
frequenza. L’area del rettangolo è proporzionale al numero di osservazioni della classe
corrispondente se le classi hanno tutte la stessa ampiezza. È naturalmente l’altezza di ciascun
rettangolo a essere proporzionale al numero di osservazioni della classe11 . La forma di un
istogramma rivela se i dati sono distribuiti simmetricamente rispetto al loro valore centrale
(semisomma del valore massimo e del valore minimo). In alcuni istogrammi il valore centrale
divide il grafico in due “immagini speculari” in modo tale che la parte sinistra è praticamente
identica alla parte destra.

2
30001 - Statistica

• Simmetria: la forma di un istogramma si dice simmetrica se le osservazioni sono bilanciate o


distribuite in modo approssimativamente regolare intorno al centro dell’istogramma.
• Asimmetria: una distribuzione è asimmetrica o obliqua, se le osservazioni non sono distribuite
in modo simmetrico rispetto al valore centrale della distribuzione. Una distribuzione obliqua a
destra (asimmetria positiva) ha una coda che si estende verso destra, nella direzione dei valori
positivi. Una distribuzione obliqua a sinistra (asimmetria negativa) ha una coda che si estende
verso sinistra, nella direzione dei valori negativi12.
Grafico per serie storiche: rappresenta una serie di dati rilevati in istanti di tempo diversi. Se si
considera l’asse orizzontale come asse temporale e si pongono sull’asse verticale le quantità
numeriche oggetto della misurazione, si otterrò ogni osservazione, un punto sul piano cartesiano. Il
grafico si ottiene congiungendo i vari punti con una spezzata13.
Ogiva, anche chiamata curva delle frequenze cumulate, è una spezzata che rappresenta la
distribuzione delle frequenze percentuali cumulate. Infatti unisce i punti che rappresentano le
percentuali cumulate di osservazioni con valori minori del limite superiore di ciascuna classe14 .
Diagramma ramo-foglia (stram-and-leaf display) è un metodo di analisi esplorativa dei dati
alternato all’istogramma. I dati sono raggruppati secondo le loro cifre più significative (i rami),
mentre le cifre meno significative di ogni osservazione (le foglie) sono elencate a destra di ogni
ramo, separatamente e in ordine non decrescente15 .
Diagramma di Pareto: è un diagramma a barre che rappresenta le frequenze delle cause di
difettosità. La barra più a sinistra indica la causa più frequente e le barre più a destra indicano le
cause con frequenze decrescenti. Il diagramma di Pareto è usato per separare le “poche cause
rilevanti” dalle “numerose cause insignificanti”. Da qui deriva la Legge dell’80-20, che postula il
fatto che l’80% delle difettosità è prodotto dal 20% delle cause di difettosità16.
Statistica bivariata: si pongono in relazione due variabili (X e Y). Si utilizzano tabelle a doppia
(tabelle di contingenza per evidenziare eventuali relazioni tra variabili quantitative) entrata per
condensare e organizzare i dati. La rappresentazione grafica consiste in un diagramma a
dispersione, per studiare le possibili relazioni tra due variabili quantitative17 .
Diagramma di dispersione: possiamo preparare un diagramma di dispersione associando un punto
del piano cartesiano a ogni coppia di valori che costituiscono un’osservazione congiunta delle due
variabili. Il diagramma di dispersione fornisce una descrizione dei dati, in particolare evidenza:
• I possibili valori di ogni variabile;
• La distribuzione dei dati all’interno dei valori possibili;
• L’eventuale relazione tra le due variabili;
• La presenza di eventuali valori anomali (o outlier) 18.
Tabella a doppia entrata: elenca la frequenza delle osservazioni per ogni combinazione di classi di
misura di due variabili. Il numero di celle è determinato dalla combinazione di tutte le possibili
classi per ognuna delle due variabili. Una tabella con r righe e c colonne viene indicata come tabella
r x c. Quando le due variabili sono entrambe qualitative si parla di tabella di contingenza. I valori
nel margine destro delle righe e nel margine inferiore di ogni colonna costituiscono le distribuzioni
marginali: rappresentano infatti le distribuzioni di frequenza di ognuna delle due variabili
considerate nella tabella di contingenza19.
Paradosso di Simpson: situazione in cui una relazione tra due fenomeni viene apparentemente
modificata o persino invertita dai dati in possesso a causa di altri fenomeni non presi in
considerazione nell'analisi. I dati disaggregati forniscono una stima diversa da quella generale.

3
30001 - Statistica

DESCRIZIONE NUMERICA DEI DATI


Le misure di tendenza centrale forniscono informazioni quantitative sull’osservazione “tipica” dei
dati. Queste sono in genere calcolate a partire da dati campionari invece che dalla popolazione.
Media aritmetica: la media di un insieme di dati è la somma dei valori di tutte le osservazioni
divisa per il numero di osservazioni. Sei i dati si riferiscono all’intera popolazione, la media della
popolazione, !, è un parametro dato da:
N

!x i
x1 + x2 + ! + x N
µ= i =1
=
N N
con N=dimensione della popolazione e " (simbolo di sommatoria) da intendere come “la somma
di”. Se i dati provengono da un campione, allora la media campionaria, x , è una statistica data da:
n

!x x1 + x2 + ! + xn
i
x= i =1
= con n=dimensione del campione20 .
n n
La media come sintesi è tanto migliore quanto i valori sono più prossimi tra loro. Nel caso di
distribuzione per classi, si usa il valore centrale della classe come valore rappresentativo di ciascuna
di esse. Il valore centrale (vc) è la media tra l’estremo superiore e l’estremo inferiore della classe.
La media aritmetica è l’indice di sintesi più opportuno quando si considerano misure affette da
errori accidentali che si compensano. Essa è sensibile ai dati, e se alcuni sono molto elevati
(outliers) si preferisce impiegare la mediana che non è influenzata dai valori estremi.
Valor medio: somma delle misure rilevate e relativa ripartizione per il numero delle rilevazioni
effettuate21.
Internalità di Cauchy: la media deve essere compresa tra i valori estremi (massimo e minimo)
della variabile22.
Mediana: è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente
(o non crescente). Se n, la dimensione del campione, è un numero dispari, la mediana è
l’osservazione centrale; se n è un numero pari, la mediana si ottiene dalla media delle due
osservazioni centrali. Più in generale, si potrebbe dire che la mediana si trova nella
Posizione 0,50 (n+1) della sequenza ordinata.23
‣ Considerazioni sulla media.
La mediana (Me) è la modalità che occupa la posizione centrale della successione ordinata di
valori o modalità. La mediana (Me) è la modalità che divide l’insieme ordinato delle modalità in
due gruppi di uguale numerosità. Il primo dei due gruppi definiti dalla mediana comprende le
modalità che sono al più uguali a Me mentre il secondo gruppo comprende le modalità che sono
almeno uguali a Me. In pratica ordino i valori in ordine crescente e considero il valore che occupa
la posizione centrale ossia che spacca esattamente in due l’insieme considerato. Nel caso in cui N
sia dispari, la mediana corrisponde al valore centrale della serie di rilevazioni, nel caso in cui N
sia pari abbiamo due mediane: se il carattere è quantitativa, tuttavia, la mediana è la media dei due
valori mediani trovati24.
Date le frequenze: x : w = (0,5 # fmin) : (fmax # fmin)
Moda: dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste, è la modalità
che si presenta il maggior numero di volte25.

La decisione sulla scelta appropriata della misura da scegliere, tra media, mediana e moda, per
rappresentare la tendenza centrale dei dati è legata al contesto considerato. Un fattore che influenza
questa scelta è il tipo di dati, categorici o numerici. La media è in genere calcolata per descrivere i
dati numerici e non è possibile calcolarla per quelli categorici. La moda, tuttavia, può non
rappresentare il vero centro di un insieme numerico di dati, per questo, nelle applicazioni aziendali,
la moda è usata meno frequentemente sia della media sia della mediana.
4
30001 - Statistica

Un atro fattore da considerare è la presenza di valori anomali e quando ciò si verifica si devono
cercare le possibili cause. Anzitutto si deve verificare la presenza di eventuali errori nella fase di
inserimento dei dati. La media sarà maggiore in presenza di outlier con valori molto elevati e sarà
minore in presenza di outlier con valori molto bassi. Anche se la media è influenzata dagli outlier,
in molte situazioni, alcune sue proprietà la rendono più significativa rispetto alla mediana.
La media e la mediana di una distribuzione simmetrica sono uguali, poiché le osservazioni sono
distribuite in modo speculare intorno al valore centrale. La media delle distribuzioni oblique a
destra è più grande della mediana, la media delle distribuzioni oblique a sinistra è più piccola della
mediana. Una possibile fonte di asimmetria è la presenza di outlier: osservazioni eccezionalmente
elevate che tendono a fare aumentare la media, determinando così un’asimmetria positiva. Allo
stesso modo, se ci sono delle osservazioni eccezionalmente piccole nei dati, il valore della media
diminuisce, determinando così una distribuzione obliqua a sinistra. A volte l’asimmetria è
semplicemente intrinseca alla distribuzione: se l’asimmetria è zero o vicina a zero, la distribuzione è
simmetrica o approssimativamente simmetrica, un valore negativo dell’asimmetrica indica che la
distribuzione è obliqua a sinistra e un valore positivo dell’asimmetria indica che la distribuzione è
obliqua a destra26.
Una misura di tendenza centrale, da sola, non fornisce una descrizione completa o sufficiente dei
dati. A questo scopo si introducono “i cinque numeri di sintesi” per valutare la variabilità e la
dispersione delle osservazioni rispetto alla media: campo di variazione, differenza interquartile,
varianza, scarto quadratico medio e coefficiente di variazione.
Campo di variazione, o range, è la differenza tra il massimo e il minimo dei valori osservati. Più è
grande la variabilità dei dati rispetto al centro della distribuzione, più sarà grande il campo di
variazione27. Poiché il campo di variazione prende in considerazione solo il massimo e il minimo,
non è una misura soddisfacente dal momento che può essere influenzata da outlier. Per evitare ciò si
scartano i valori più estremi e si trova il campo di variazione dei valori rimanenti.
Differenza interquartile: misura la variabilità del 50% centrale dei dati: in una sequenza di
osservazioni ordinate in modo non decrescente, è la differenza tra l’osservazione Q3, terzo quartile
(o 75-esimo percentile) e l’osservazione Q1, primo quartile (o 25-esimo percentile).
Differenza interquartile = Q3 ! Q1
Si nota che i quartili, come i percentili, sono delle misure di tendenza non centrale e, come la
mediana, si ottengono a partire dalle frequenze cumulate delle osservazioni. In particolare, Q1,
primo quartile, si trova nella posizione 0.25(n+1) della sequenza di osservazioni ordinata in modo
non decrescente, mentre Q3, terzo quartile si trova nella posizione 0.75(n+1) della sequenza
ordinata28.
La differenza interquartile (IQR) è l’ampiezza che misura quanto è variabile la nostra statistica: se
IQR è basso si ha poca o nulla variabilità; se IQR è alto la variabilità è elevata. Anche la differenza
interquartile è dotati di unità di misura, che possono renderla fuorviante in contesto di
determinazione della variabilità di due caratteri con diversa unità di misura.
Allo stesso modo si calcolano i percentili, semplicemente considerando l’osservazione che, in una
sequenza ordinata in modo non decrescente, occupa la posizione corrispondente a una certa
percentuale di frequenze cumulate. Per accumuli di una generica quantità di frequenze in una
sequenza ordinata, si parlerà di quantili.
I cinque numeri di sintesi si riferiscono a cinque misure descrittive: il minimo, il primo quartile, la
mediana, il terzo quartile e il massimo: Minimo ! Q1 ! Mediana ! Q3 ! Massimo 29.
Varianza: la varianza della popolazione, !2, è la somma delle differenze, al quadrato, tra ciascuna
osservazione e la media della popolazione, divisa per la dimensione della popolazione N. La
varianza campionaria, s2, è invece la somma delle differenze, al quadrato, tra ciascuna osservazione
e la media del campione, divisa per la dimensione del campione, n, meno 1.

5
30001 - Statistica

N n n
# n 2 & n

# (xi " µ )2 # xi2 " (xi ! x )2 % " xi ( n " f ) (m


i i ! x )2
!2 = i =1
= i =1
" µ2 s2 = i =1
= % i =1 ! x 2 ( ) = i =1

N N n !1 % n ( n !1 n !1
%$ ('
La particolarità della varianza campionaria è che al dividendo si trova (n#1) e non n. Gli statistici
hanno dimostrato che, se la varianza della popolazione è incognita, la varianza campionaria ne è
uno stimatore migliore quando il suo denominatore è (n#1) anziché n30. Quanto è minima la
varianza o lo s.q.m., tanto i dati sono concentrati (più omogenei quindi meno variabili). Quanto
maggiore è la varianza, tanto i dati sono dispersi (meno omogenei quindi più variabili).
Scarto quadratico medio: anche per lo scarto quadratico medio (o deviazione standard), esistono
due tipi di indice. Lo scarto quadratico medio della popolazione, $, è la radice quadrata (con segno
positivo) della varianza della popolazione, così come lo scarto quadratico medio campionario, s, è
la radice quadrata della varianza campionaria31 .
N n

# (xi " µ )2 " (x i ! x )2


! = !2 = i =1
s = s2 = i =1

N n
Disuguaglianza di Chebychev. Il matematico russo %&'()*+, -./0/+1 234567/ determinò, per
ogni insieme di dati, indipendentemente dalla forma della distribuzione, degli intervalli che
contengono una percentuale minima di osservazioni.
Per ogni popolazione con media !, scarto quadratico medio $ e k >1, la percentuale di osservazioni
che appartengono all’intervallo ( µ ! k" ; µ + k" ) è:
" 1%
almeno 100 $1 ! 2 ' %
# k &
dove k rappresenta il fattore moltiplicativo dello scarto quadratico medio.
Se k=1,5, percentuali di osservazioni pari a 55,6%, se k=2 75%, se k=3 89%.
Il vantaggio della disuguaglianza di Chebychev sta nella sua applicabilità a ogni popolazione,
tuttavia è proprio questa sua caratteristica che ne costituisce anche il principale svantaggio. Per
molte popolazioni la percentuale di valori che cade in uno qualunque degli intervalli specificati è
molto più alta di quella minima garantita dalla disuguaglianza di Chebychev. Molte popolazioni
reali, specie se molto numerose, presentano distribuzioni approssimativamente simmetriche, con
forma campanulare e gran parte delle osservazioni concentrate intorno alla media32 .
Regola empirica. Per molte popolazioni di grandi dimensioni, la regola empirica fornisce una
valutazione della percentuale approssimata di osservazioni il cui scostamento, in più o in meno
dalla media, è par al massimo a una, due o tre volte lo scarto quadratico medio:
• Approssimativamente il 68% delle osservazioni sono nell’intervallo "±1!.
• Approssimativamente il 95% delle osservazioni sono nell’intervallo "±2!.
• Quasi tutte le osservazioni (99,73%) sono nell’intervallo "±3!33.
Coefficiente di variazione (CV): è una misura di variabilità relativa che esprime lo scarto
quadratico medio come una percentuale della media (purché la media non sia nulla). Anche in
questo contesto si differenzia il coefficiente di variazione della popolazione dal coefficiente di
variazione campionario.
! s
CV = " 100% con µ # 0 CV = ! 100% con x " 0
µ µ
Il confronto della variabilità basato sullo scarto quadratico medio potrebbe essere ingannevole. Il
coefficiente di variazione supera questo problema, poiché è un numero puro e non dipende dalla
scala di misura della popolazione34.
6
30001 - Statistica

!w x i i
w1 x1 + w2 x2 + ! + wn xn
Media ponderata: x = i =1
= , dove wi=peso dell’i-esima posizione35.
n
w1 + w2 + w3
!w i
i =1

Media e varianza approssimate per dati raggruppati. Supponendo che i dati siano raggruppati in
K classi, con frequenze fK, se con mK indichiamo i valori centrali di ogni classe (semisomma egli
estremi), la media e la varianza della popolazione per dati raggruppati sono calcolati come36 :
K K K K

! fi mi # fi ( mi " µ ) ! fi mi " f (m ! x)
2 2
K K i i
N = ! fi ! µ = i =1
!! 2 = i =1
n = ! fi ! x = i =1
! s2 = i =1
.
i =1 N N i =1 n n !1
Se il diagramma di dispersione era uno strumento grafico per descrivere la relazione tra due
variabili, così la covarianza e il coefficiente di correlazione lineare sono strumenti numerici per
descrivere una relazione lineare e misurarne la direzione.
Covarianza (Cov): è una misura della relazione lineare tra due variabili. Un valore positivo indica
una relazione diretta o positiva e un valore negativo indica una relazione inversa o negativa. Nel
caso della covarianza della popolazione xi e yi sono i valori osservati e "x e "y sono le medie delle
popolazioni e N è la dimensione della popolazione. Nella covarianza campionaria si utilizzando le
medie campionari x e y e n (dimensione del campione) 37:
N
$ N '
# (xi " µ x )(yi " µ y ) & " xi yi ) n
Cov(X,Y ) = ! xy = i =1
Cov(X,Y ) = ! xy = & i =1 # µx µy ) *
N & N ) n #1
&% )(
N
# N &
" (xi ! x )(yi ! y ) % ! xi yi ( n
Cov(X,Y ) = sxy = i =1
Cov(X,Y ) = Sxy = % i =1 " x x yy ( )
n !1 % N ( n "1
%$ ('

Disuguaglianza di Cauchy-Schwartz: !" X " Y # " XY # +" X " Y


Coefficiente di correlazione lineare: è calcolato dividendo la covarianza per il prodotto degli scarti
quadratici medi delle due variabili. Mentre il valore della covarianza dipende dall’unità di misura
delle variabili, il coefficiente di correlazione lineare è l’indice più opportuno a valutare l’intensità
della relazione tra due variabile poiché fornisce sia la direzione sia l’intensità della relazione. La
covarianza e il corrispondente coefficiente di correlazione hanno lo stesso segno.
Cov(X,Y ) Cov(X,Y ) 2
!= r= , con r >
" x" y sx sy n

Il valore del coefficiente lineare varia tra #1 e +1. Quanto più r è vicino a +1, tanto più i punti che
rappresentano le osservazioni sono vicini a una retta crescente, che indica una relazione positiva.
Quanto più r è vicino a #1, tanto più i punti che rappresentano le osservazioni sono vicini a una
retta decrescente, che indica una relazione lineare negativa. Quando r=0, non c’è alcuna relazione
lineare tra x e y, ma non necessariamente ciò implica la mancanza di un qualsiasi tipo di relazione38 .
Relazioni lineari. I modelli economici usano specifiche relazioni funzionali per indicare l’effetto su
una variabile dipendente, Y, risultante dai cambiamenti nella variabile indipendente, X. In molti casi
possiamo approssimare adeguatamente l’auspicata relazione funzionale con l’equazione lineare:
Y = !0 + !2 X

7
30001 - Statistica

Dove #0 è l’ordinata all’origine e #1 è la pendenza della retta, ossia la variazione di Y per ogni
variazione unitaria di X. Si deve cercare di trovare il “migliore” fra tutte le possibili equazioni
lineari, ovvero determinare in modo appropriato i coefficienti #0 e #1. Generalmente si usano delle
stime, b0 e b1, comunemente calcolate usando il metodo dei minimi quadrati.
Metodo dei minimi quadrati: è un procedimento che permette di selezionare la retta che “meglio”
si adatta a un insieme di punti osservati. La distanza di ciascun punto osservato dalla retta viene
definito residuo ed è indicato con ei. L’obiettivo è scegliere l’equazione lineare in modo da
minimizzare una certa funzione dei residui, sia positivi che negativi: questo implica la ricerca delle
migliori stime per i coefficienti #0 e #1. Nel metodo dei minimi quadrati bisogna prestare molta
attenzione ai valori anomali, i quali possono avere notevole influenza sulla retta, tanto da poterne
cambiare l’orientamento.
La retta ottenuta con il metodo dei minimi quadrati, basata su dati campionari è detta retta di
regressione ed è data da:
ŷ = b0 + b1 x
Dove b1 è la pendenza della retta, ossia la variazione di y per ogni variazione unitaria di x:
Cov(X,Y ) sy
b1 = 2
=r
sx sx
b0 è l’ordinata all’origine: b0 = y ! b1 x 39.

8
30001 - Statistica

CENNI DI PROBABILITÀ40

Numero aleatorio: Sia (8,F,P) uno spazio di probabilità. Una variabile aleatoria X è una funzione
X: 8 " R che è Borel-misurabile, cioè che #x$R l’insieme degli esiti Ax= {X9x} ={:$8:X(:)
9x}$F.
Numeri aleatori discreti: un numero aleatorio definito X:8"R in uno spazio misurabile (8,F) è
detto discreto se ha solo un numero finito di valori x1,x2,...,xn $R oppure, al più, un’infinità
numerabile. Se P è una misura di probabilità di X su (8,F) allora è vero che !P(X(")=xs)=1.
$ ! Proprietà di F(x) nel caso discreto:
1. lim F(x) = 0 lim F(x) = 1
x!"# x!+#

2. F(x) è non decrescente (cresce o è costante) e continua da destra: lim F(x) = F(a)
x!a +
3. P(x = xk ) = Pk = F(xk ) = lim F(x)
x! xk"
Funzione di probabilità: si dice funzione di distribuzione (o funzione delle probabilità cumulate)
della variabile casuale X, la funzione F(x) definita dalla relazione F(x)=P(X 9 x), dove x rappresenta
un numero reale qualunque, P(X 9 x) misura la probabilità con cui la variabile casuale X può
assumere un valore inferiore od uguale al numero reale x.
Numeri aleatori continui: dato (8,F,P) uno spazio misurabile e X un numero aleatorio su 8, allora
x
X è continuo se esiste f:R"R+ integrabile tale chela funzione di ripartizione F(X) = # f (t)dt .
!"

$ ! Proprietà di F(x) nel caso discreto:


1. lim F(x) = 0 lim F(x) = 1
x!"# x!+#

2. F(x) è non decrescente (cresce o è costante) e continua #x$R.


b
P(a ! X ! b) = "a
f (x)dx = F(b) # F(a)
3. P(X ! a) = F(a)
P(X > a) = 1 # F(a)
4. F è derivabile se f è continua;
5. f (x)dx ! P ( x " X " x + dx )
!## #"### $
massa di probabilità
x
Funzione di densità di probabilità. L’integrale #
!"
f (t)dt definito nell’intervallo (#;;x] è la
densità di probabilità di X.
Essa rappresenta la probabilità con cui una variabile casuale continua X assume valori all’interno
P ( x ! X ! x + dx )
dell’intervallo infinitesimo x\x+dx: = f (x)
dx
DISTRIBUZIONI PRINCIPALI
! n$
Distribuzione Binomiale: X ! Bin(P, n) ! P(X = k) = # & p k (1 ' p)n ' k
" k%
< E(X ) = np < < < VAR(X ) = np(1 ! p)

Gaussiana-Normale: si divide in due casi: 2


1 " x2
A.Standard: X ! N(0,1) ! f (x) = e
2!
< < E(X)=0 (funzione dispari: Area perfettamente compensata) < < VAR(X)=1
(x# m) 2

( )
1 #
B.Generalizzata: X ! N m, ! 2 ! f (x) = e 2! 2
! 2"
< < E(X)=m< < < < < < < < < < < VAR(X)=$2
9
30001 - Statistica

% ! x s ps nel caso discreto


' s
Valore atteso di un numero aleatorio: E(X) = & +#
'( $"# xf (x)dx nel caso continuo
dove ps=P(X=xs) e f(x)dx%P(x&X&x+dx)
Proprietà di linearità del valore atteso: E(aX+b)=aE(x)+b
Varianza e deviazione standard di un numero aleatorio.

Varianza: ! 2 (X) = E #( X " µ1 ) % . Deviazione standard: ! (X) := ! 2 (X) = E #( X " µ1 ) %


2 2
$ & $ &
Proprietà della varianza:
1. {[X#E(X)]2}=E(X2)#[E(X)]2 ! VAR(X)=E(X2)#[E(X)]2.
2. La varianza NON è lineare (ci sono dei quadrati): VAR(aX+b)=a2VAR(X).
Covarianza tra due componenti di un vettore aleatorio. Siano X e Y due variabili aleatorie
definite sul medesimo spazio di probabilità e che ammettono varianza. Si definisce covarianza di X,
Y il numero: COV(X, Y) = E [ X ! E(X)] "# Y ! E ( Y ) $% = E(XY) ! E(X)E(Y)
La covarianza è un indice assoluto di concordanza tra le due componenti. Si tratta di un indice che
misura l’associazione tra le due componenti X e Y e potrà assumere valore positivo, negativo o
nullo.
Correlazione lineare tra componenti:
• Se COV(X,Y)>0 le componenti X e Y si dicono positivamente corretate;
• Se COV(X,Y)<0, le componenti X e Y si dicono negativamente correlate;
• Se COV(X,Y)=0 ! E(XY)=E(X)E(Y), le componenti Xe Y si dicono incorrelate;
Coefficiente di correlazione lineare di Bravais: normalizza la covarianza dividendo per $(X)$(Y).
Se Var(X)>0 e Var(Y)>0, si definisce coefficiente di correlazione di X e Y il numero
Cov(X, Y)
! = ! (X, Y) = :#19=91.
" (X)" (Y)
Il coefficiente di correlazione è un indice relativo di concordanza: esso varia tra #1 e 1 quando le
due componenti X e Y sono linearmente indipendenti. L’indice di correlazione è quindi un indice di
dipendenza o meglio interdipendenza lineare.
*
La distribuzione normale può essere utilizzata per approssimare la distribuzione binomiale. La
regola pratica afferma che la distribuzione normale fornisce una buona approssimazione della
distribuzione binomiale quando np(1'p)>9.
Con n grande, Z è molto ben approssimata dalla distribuzione normale standard e possiamo
calcolare la probabilità con la formula:
X ! E(X) X ! np # a " np b " np &
Dato che Z = = , allora: P(a ! X ! b) ! P % !Z! (.
Var(X) np(1 ! p) $ np(1 " p) np(1 " p) '
Usando un’estensione diretta dell’approssimazione normale alla distribuzione binomiale è possibile
calcolare le probabilità associate a frequenze relative e percentuali. La variabile aleatoria
proporzione può essere calcolata dividendo il numero di successi, per la dimensione del campione.
X
P=
n
Trasformando linearmente le variabili aleatorie, la media e la varianza di P sono:
p(1 " p) 41
µ= p !2 = .
n
* * *
10
30001 - Statistica

INFERENZA STATISTICA
Campionamento casuale semplice è caratterizzato dal fatto che le unità vengono estratte una ad
una, rimuovendo dalla popolazione la singola unità estratta, e attribuendo, di volta in volta, la stessa
probabilità di essere estratte alle unità rimanenti. Il c.c.s. risulta il modo più naturale e più utilizzato
per estrarre informazioni da una popolazione. Inoltre riveste una straordinaria importanza poiché
interviene nell’ambito della costruzione di altri campioni più complessi e perché costituisce il
termine di paragone per misurare l’efficienza relativa di tecniche di altri tipi di campionamento.
Distribuzioni campionarie: data una popolazione, si consideri una sua caratteristica, ad esempio la
media !. Estratto dalla popolazione un campione, per fare inferenza sulla caratteristica si dovrà
scegliere una statistica campionaria: la media campionaria X . L’inferenza è basata sul fatto che
ogni campione casuale determina un diverso valore x della media e quindi ognuno di essi può
essere visto come una realizzazione della variabile aleatoria. La distribuzione campionaria di questa
statistica è la distribuzione delle medie campionarie ottenute su tutti i possibili campioni, della
stessa ampiezza, estratti dalla popolazione.
Media campionaria. Siano X1, X2,...Xn le variabili aleatorie che rappresentano un campione
casuale della popolazione. La quantità:
1 n
X = ! Xi
n i =1
definisce la media campionaria di dette variabili aleatorie.
La media della distribuzione delle medie campionarie coincide con la media della popolazione. Se
da una popolazione vengono estratti, in modo ripetuto e indipendente, dei campioni di n
osservazioni casuali e indipendenti, allora, man mano che il numero di elementi del campione
aumenta, la media delle medie campionarie tende alla vera media della popolazione.
"1 n % 1 ( n + 1 n 1
E(X) = E $ ! Xi ' = E * ! Xi - = ! E ( Xi ) = . n . µ = µ
# n i =1 & n ) i =1 , n i =1 n
Se la popolazione è molto grande in confronto alle dimensioni del campione, le distribuzioni delle
singole componenti del campione casuale sono approssimativamente indipendenti tra loro.
"1 n % 1 " n % n
1 )2
Var(X) = Var $ ! Xi ' = 2 Var $ ! Xi ' = ! Var ( Xi ) = 2 ( n ( ) 2 =
# n i =1 & n # i =1 & i =1 n n
La varianza della distribuzione campionaria di X diminuisce all’aumentare dell’ampiezza di n del
campione, questo significa che più grande è il campione, meno dispersa è la distribuzione
campionaria. Campioni più grandi determinano una maggiore certezza nell’inferenza sulla media
della popolazione; infatti, con campioni più grandi si possono ottenere più informazioni sulla
popolazione e sulle sue caratteristiche. Lo scarto quadratico medio della varianza campionaria è
detto standard error ed è dato da:
!
!X =
n
Se l’ampiezza del campione n non è sufficientemente piccola rispetto alla dimensione della
popolazione N (n/N > 0,05), le componenti del campione casuale non risultano indipendenti tra
loro. Poiché ogni unità della popolazione non può essere inclusa più di una volta nel campione, la
probabilità che un particolare elemento del campione sia la seconda osservazione dipende dalla
prima osservazione. Si avrà che la varianza della media campionaria necessiti di una correzione:
!2 N # n
Var(X) = "
n N #1
Il termine moltiplicativo (N#n)/(N#1) è detto fattore di correzione per popolazioni finite e ricorre
nel caso di non reimmissione dell’osservazione nella popolazione dopo la sua estrazione.
11
30001 - Statistica

Media campionaria
Se X%N(",!2), si può dimostrare che anche la media campionaria ha una distribuzione di tipo
normale: Xc%N(", !2/n). Ma anche quando la popolazione non è normale si può assumere, con
buona approssimazione, la normalità di Xc. Se n è sufficientemente grande (n > 25), e la
distribuzione di X nella popolazione non è eccessivamente asimmetrica, si può generalmente
assumere l’approssimativa normalità di Xc. Lo stesso si può assumere nel caso di campionamento
senza reimmissione da popolazione finita, purché – oltre a un valore di n – il rapporto n/N sia
relativamente basso (n/N90,05), cosa che accade praticamente in ogni campione reale42 .
La standardizzazione della media campionaria è la variabile aleatoria Z:
X!µ X!µ
Z= =
"X "
n
Le caratteristiche della distribuzione della media campionaria Xc di n osservazioni provenienti da
una popolazione con media ! e varianza $2 attengono alla media della distribuzione, ossia, il valore
atteso della distribuzione è uguale alla media della popolazione:
E(X) = µ
La deviazione standard, anche chiamata standard error è:
! ! N #n
!X = , se (n > 5%&N) invece: ! X = "
n n N #1
Inoltre, se sappiamo che la popolazione è distribuita normalmente, e quindi anche Xc lo è, la
variabile Z è distribuita normalmente con media 0 e varianza 1.

TEOREMA DEL LIMITE CENTRALE


Sia dato un insieme di n variabili aleatorie X1, X2,...Xn, indipendenti e identicamente distribuite
(i.i.d.) con media ! e varianza $2 e siano X e Xc rispettivamente la loro somma e la loro media. Il
teorema del limite centrale afferma che, al crescere di n, la distribuzione di Z è
approssimativamente normale standard:
X ! µ X X ! nµ
Z= = ! N(0,1)
"X n" 2
Con campioni di ampiezza n>25, si approssima la distribuzione a quella della normale standard.

• Intervalli di accettazione.
Un intervallo di accettazione è un intervallo entro il quale, se si conoscono media e varianza della
popolazione, la media campionaria ha ottime probabilità di trovarsi. Se la media campionaria
appartiene a questo intervallo, allora possiamo accettare la conclusione che il campione casuale
provenga dalla popolazione con la media e la varianza considerate. Dal teorema del limite
centrale (t.l.c.) sappiamo che la distribuzione delle medie campionarie è spesso
approssimativamente normale e, quindi, gli intervalli di accettazione basati sulla distribuzione
normale hanno molte applicazioni.
I.A. = µ ± z! 2" X
Con z#/2 si indica il quantile di ordine 1#?/2 della variabile aleatoria normale standard, che lascia
nella coda destra la probabilità ?/2. La probabilità che la media campionaria Xc sia compresa
nell’intervallo precedente è 1#?.

12
30001 - Statistica

Proporzione campionaria
Sia X il numero di successi in un campione di n osservazioni estratte da una popolazione
bernoulliana con parametro p. Il parametro rappresenta la proporzione delle unità della popolazione
che possiedono la caratteristica oggetto di studio. Si definisce proporzione campionaria il rapporto:
! X
P=
n
X è la somma di n variabili bernoulliane indipendenti, ognuna con probabilità di successo p. Come
conseguenza, Pc è la media di n variabili indipendenti e identicamente distribuite e si potranno
applicare i risultati ottenuti precedentemente per la media. Utilizzando il t.l.c. si può affermare che
la distribuzione di probabilità di Pc è approssimativamente normale.
! ! X$ 1
( )
E(X) = np ! E P = E # & = E(X) = p
" n% n

" X% 1 p(1 ( p)
Var(X) = np(1 ! p) ! ! P2! = Var $ ' = 2 Var ( X ) =
# n& n n
p(1 " p)
La deviazione standard di Pc viene anche chiamata standard error: ! P! = .
n
Se il campione ha un’ampiezza elevata, ossia np(1#p) > 9, la variabile aleatoria Z è
approssimativamente distribuita come una normale standard.
!
P! p
Z=
" P!
Poiché la proporzione campionaria Pc non è altro che una media campionaria, lo standard error
diminuisce al crescere dell’ampiezza campionaria e quindi la distribuzione diventa molto meno
dispersa.

Varianza campionaria.
Sia X1, X2,...Xn un campione casuale di osservazioni estratto da una popolazione. La quantità:
1 n
S2 = " (Xi ! X)2
n ! 1 i =1
è detta varianza campionaria e la sua radice quadrata, S, è detta deviazione standard campionaria.
La media della varianza campionaria differisce dalla varianza della popolazione per un fattore
diverso da 1; tale fattore è tuttavia prossimo a 1 per molti campionamenti reali, con n>25 e
n/N90,05. Se si vuole l’eguaglianza fra la media della statistica e il parametro !2, basta utilizzare
nel caso del campione da v.a., la cd. Varianza campionaria corretta, ottenuta ponendo a
denominatore della devianza campionaria (n#1) in luogo di n.
n

" (x i ! x )2
s2 = i =1

n !1
La varianza della popolazione è il valore atteso: ! 2 = E #$( X " µ ) %& .
2

Con l’ipotesi di normalità della popolazione, si può dimostrare che la varianza campionaria e la
varianza della popolazione sono collegate attraverso una distribuzione di probabilità conosciuta
come distribuzione chi-quadrato.
Distribuzione !2: dato un campione casuale di n osservazioni, estratte da una popolazione normale
con varianza $2 , che presenta varianza campionaria S2, si dimostra che

13
30001 - Statistica

(n ! 1)S 2 # (X i ! X)2
= i =1

"2 "2
Si può inoltre dimostrare che la distribuzione chi-quadrato con n#1 gradi di libertà è la somma di
n#1 distribuzioni normali standard indipendenti elevate al quadrato. Ogni distribuzione della
famiglia chi-quadrato è caratterizzata da un parametro, il numero di gradi di libertà, indicato con v.
# (n ! 1)S 2 & (n ! 1)
E !( )2
v = v ! E%
$ " 2 (
'
= n !1 )
" 2 ( )
E S2 = n ! 1 ) E S2 = " 2 ( )
# (n ! 1)S 2 & (n ! 1)2 2" 4
( )
Var ! v2 = 2v ! Var %
$ " 2 ('
= 2 ( n ! 1) )
"4
Var ( S ) = 2 ( n ! 1) ) Var ( S ) =
2 2

( n ! 1)
Statistica. Un insieme n di variabili aleatorie X1, X2,...Xn costituiscono un campione casuale della
v.a. X se esse sono indipendenti e identicamente distribuita con la medesima legge di X: si chiama
statistica qualunque variabile aleatoria T=t(X1, X2,...Xn)43.
Stimatore: dato un campione X1, X2,...Xn di variabili aleatorie con legge dipendente dal parametro
(, chiameremo stimatore di h(() una statistica T che sia una funzione t(X1, X2,...Xn) del campione
dato. Diremo inoltre che T è uno stimatore non distorto se E((T)= h(() (dove E( indica che l’attesa
è calcolata supponendo che il parametro sconosciuto abbia valore (44. La distorsione (o bias) di ( è
definita come differenza E(()'(. Uno stimatore è definito asintoticamente non distorto se E(()'(
!
diminuisce all’aumentare dell’ampiezza del campione lim ( E(# ) $ # ) = 0 . Efficienza=minor varianza.
n!"

Stima: si parla di stima quando vi è il problema di identificare il valore assunto da un certo


parametro – o da più parametri – di un esperimento casuale, fra i numerosi e tipicamente infiniti
valori ammissibili per lo stesso parametro. Si distinguono la stima puntuale dalla stima per
intervallo. Quando la stima di h(() viene effettuata con un solo valore dello stimatore T si parla di
stima puntuale di h(()45.
Stima per intervalli. La stima puntuale di h($) resta una risposta piuttosto grossolana al problema
di determinare una ragionevole approssimazione del valore vero incognito. In particolare è evidente
che il valore stimato non sarà mai uguale al valore vero h((), e che la teoria della stima puntuale non
permette di valutare neanche probabilisticamente l’entità della differenza fra i due valori. A questa
necessità risponde invece la teoria della stima per intervalli: in pratica si rinuncia a stimare h(() con
un solo valore di uno stimatore aleatorio, e si preferisce determinare – sempre a partire dai valori del
campione di misure – i due estremi aleatori di un intero intervallo prefissando in maniera opportuna
il valore della probabilità dell’evento “l’intervallo contiene h(()”. La differenza principale sta nel
fatto che, mentre la probabilità di ottenere il valore vero con una stima puntuale è sempre nulla, la
probabilità che un intervallo con estremi aleatori contenga h($) è diversa da zero e in generale può
anche essere calcolata46 .
Intervallo di confidenza [T1;T2] di livello !: intervallo avente come estremi le due variabili
aleatorie T1=t1(X1, X2,...Xn) e T2=t2(X1, X2,...Xn):
P! = {T1 " h (! ) " T2 } = 1 # $ (1 % #: livello di confidenza)
Uno stimatore per intervallo per un parametro di una popolazione è una funzione delle variabili
campionarie: determina gli estremi di un intervallo di valori che verosimilmente contiene il
parametro da stimare. La stima corrispondente viene chiamata stima per intervallo.
Per un # fissato l’intervallo di fiducia non è unico. In particolare ci sono molti modi in cui si può
ripartire la probabilità # che l’intervallo non contenga h((). In genere, però, si preferisce scegliere
T1 e T2 in modo che:
"
P! {h (! ) < T1 } = P! {T2 < h (! )} =
2
14
30001 - Statistica

cioè si suddivide # in due parti eguali, in modo che le probabilità che i due estremi siano entrambi
troppo grandi o troppo piccoli valgano #/2. Con questa precisazione in generale (ma non sempre) gli
estremi dell’intervallo di fiducia assumono la forma simmetrica T ± &, dove il valore centrale T è un
opportuno stimatore di h(() e 2& è l’ampiezza aleatoria dell’intervallo [T%& , T+&]. Naturalmente,
per un dato campione, l’ampiezza dell’intervallo di fiducia dipende dalla scelta del valore di #.
Tipicamente si scelgono valori piccoli di # (p.e. 0.05 oppure 0.01), in modo che la probabilità 1 % #
che l’intervallo contenga il valore vero sia corrispondentemente grande (ad esempio 0.95 oppure
0.99). È abbastanza intuitivo quindi che al diminuire di #, cioè richiedendo che la probabilità 1 % #
che l’intervallo contenga il valore vero aumenti, l’intervallo di fiducia debba allargarsi47 .
Distribuzione standardizzata della media campionaria.
S consideri un campione casuale di n osservazioni estratto da una popolazione normale con media '.
Sino Xc e S rispettivamente la media e la deviazione standard campionarie. La variabile:
X!µ
T=
S
n
segue la distribuzione t di Student con (n%1) gradi di libertà.
La funzione di densità della distribuzione t di Student ha una maggior variabilità (esplicita una
varianza maggiore) rispetto alla distribuzione normale standard, conseguenza dell’incertezza
ulteriore causata dalla sostituzione della devianza standard della popolazione con il suo stimatore
puntuale. All’aumentare dei gradi di libertà, la distribuzione t di Student diventa sempre più simile
alla normale standard. Per un numero di gradi di libertà sufficientemente elevato (g.d.l. > 30), le
distribuzioni t di Student e la normale sono virtualmente identiche: la prima tende alla seconda.
La variabile aleatoria che segue la distribuzione t di Student con v gradi di libertà sarà indicata con
Tv. Il fattore di affidabilità tv, )/2, è il valore per il quale:
( )
P Tv > t v, ! 2 = ! 2 48

Intervalli di confidenza per la proporzione (grandi campioni). Sia pc la proporzione di “successi”


in un campione casuale di n osservazioni estratto da una popolazione con proporzioni di successo p.
Se n è sufficientemente grande da poter ritenere ragionevole np(1%p)>9, un intervallo di confidenza
per la proporzione della popolazione, a livello 100(1%#)%, è data da:
! ! ! !
! p (1 ! p ) ! p (1 ! p )
p ! z" 2 < p < p + z" 2
n n
Gli intervalli di confidenza per la proporzione della popolazione sono centrati nella proporzione
campionaria. Inoltre si può notare che, a parità di altre condizioni, più è grande l’ampiezza del
campione, n, più è piccolo l’intervallo di confidenza49.
!2 nota !2 NON nota

X!µ X!µ
Z= # n T= " n
MEDIA " S
" ME= z! 2 "n wIC=2ME ME= t n !1, " 2
S
n
(
1 ! " = P X ! z" 2 #n < µ < X + z" 2 #n ) (
1 ! " = P x ! t n !1, " 2
S
n < µ < x + t n !1, " 2
S
n )
Se np (1 ! p ) > 9 , la v.a. Z segue la distribuzione normale.
! ! !
P! p p (1 " p )
PROPORZIONE Z= ME = z! 2
p (1 ! p ) n
n

15
30001 - Statistica

NOTE DI CHIUSURA

1 NEWBOLD, P. - CARLSON, W.L. - THORNE, B. Statistica, 2° ed. Pearson - Prentice Hall, 2010.
2 ibid. 1.2, p.3( ( ( Lez.I ( ( 08.09.2011.
3 ibidem( ( ( ( Lez.II ( ( 09.09.2011.
4 ibid. 1.2, p.4( ( ( ( “
5 ibid. 2.1, p.10( ( ( ( “
6 ibid. 2.1, p.11( ( ( ( “
7 ibid. 2.2, p.13( ( ( ( “
8 ibid. 2.4, p.23s( ( ( Lez.III( ( 12.09.2011.
9 ibid. 2.4, p.25( ( ( ( “
10 ibidem(( ( ( ( “
11 ibid. 2.4, p.27( ( ( ( “
12 ibid. 2.4, p.27-28(( ( Lez. IV( ( 15.09.2011.
13 ibid. 2.3, p.20( ( ( ( “
14 ibid. 2.4, p.27( ( ( ( “
15 ibid. 2.4, p.29( ( ( ( “
16 ibid. 2.2, p.16( ( ( ( “
17 ibid. 2.5, p.31( ( ( ( “
18 ibid. 2.5, p.32( ( ( ( “
19 ibid. 2.5, p.33-34(( ( ( “
20 ibid. 3.1, p.59-60(( ( Lez. V( ( 19.09.2011.
21 appunti( ( ( ( ( “
22 appunti( ( ( ( ( “
23 ibid. 3.1, p.60( ( ( Lez. VII( ( 26.09.2011.
24 slides (L5 19-28) e appunti(( ( “
25 ibid. 3.1, p.60( ( ( Lez. VI( ( 22.09.2011.
26 ibid. 3.1, p.61-62(( ( Lez. VII( ( 26.09.2011.(
27ibid. 3.2, p.65 ( ( ( Lez. VIII(( 29.09.2011.
28 ibid. 3.2, p.65( ( ( ( “
29 ibid. 3.2, p.66( ( ( ( “
30 ibid. 3.2, p.67( ( ( ( “
31 ibidem(( ( ( ( “
32 ibid. 3.2, p.69( ( ( Lez. IX( ( 03.10.2011.(
33 ibid. 3.2, p.70( ( ( ( “( ( (
34 ibid. 3.2, p.70-71(( ( “
35 ibid. 3.3, p.73( ( ( ( “
36 ibid. 3.3, p.75-76(( ( “
37 ibid. 3.4, p.78( ( ( Lez. X( ( 06.10.2011.
38 ibid. 3.4, p.78-79(( ( “
39 ibid. 3.5, p.83-84(( ( “
40 da appunti di Matematica - Modulo 2 (Applicata) del primo anno di corso.

41 NEWBOLD, P. - CARLSON, W.L. - THORNE, B. Statistica, 2° ed. Pearson - Prentice Hall, 2010. §6.4, pp.231-234.

42 FROSINI, B.V., Introduzione alla statistica. La Nuova Italia Scientifica. Roma, 1995. p.305.

43 Nicola Cufaro Petroni, Dispensa di Statistica (con elementi di probabilità). Università degli Studi di Bari. Facoltà di SMFN. A.A.

2004/2005. [.pdf] p.96.


44 ibidem

45 ibidem

46 ibid., p.98

47 ibid., p.98-99.

48 NEWBOLD, P. - CARLSON, W.L. - THORNE, B. Statistica, 2° ed. Pearson - Prentice Hall, 2010. §6.4, pp.316-319.

49 ibid., p.322-323.

16
30001 - Statistica ! Capitolo 8

FORMULARIO DI STATISTICA

STIMATORE: variabile aleatoria funzione delle variabili campionarie: i suoi valori forniscono
approssimazioni per il parametro non noto.
()
STIMATORE NON DISTORTO: E !ˆ = ! dove !ˆ è uno stimatore non distorto di ! .
()
DISTORSIONE: la distorsione (o bias) di !ˆ , D !ˆ , è definito come differenza tra la sua media e ! .
! ! () ()
D !ˆ = E !ˆ " ! La distorsione di uno stimatore non distorto vale 0.
( ) ( )
STIMATORE EFFICIENTE: !ˆ1 è più efficiente di !ˆ2 se Var !ˆ1 < Var !ˆ2 .
Var (!ˆ ) 2
L’efficienza relativa è data da: E.R. =
Var (!ˆ )
! ! !
1

INTERVALLI DI CONFIDENZA PER LA MEDIA: VARIANZA NOTA


DISTRIBUZIONE Normale:
X!µ
Z=
" n
# #
IC : x ! z" 2 < µ < x + z" 2
n n
#
Ampiezza : w = 2 ! ME = 2 ! z" 2
n

INTERVALLI DI CONFIDENZA PER LA MEDIA: VARIANZA NON NOTA


DISTRIBUZIONE t di Student
con (n!1) g.d.l.:
X!µ
T=
S n
S S
IC : x ! t "n !1 < µ < x + t "n !1
2
n 2
n

INTERVALLI DI CONFIDENZA PER LA PROPORZIONE (GRANDI CAMPIONI)


DISTRIBUZIONE Normale:
P̂ ! p̂
Z=
p̂(1 ! p̂) n

p̂ (1 ! p̂ ) p̂ (1 ! p̂ )
IC : p̂ ! z" 2 < p < p̂ + z" 2
n n

17
30001 - Statistica ! Capitolo 9

INTERVALLI DI CONFIDENZA PER LA DIFFERENZA TRA MEDIE: CAMPIONI DIPENDENTI


DISTRIBUZIONE t di Student
con (n!1) g.d.l.:
X!µ
T=
S n

"( )
n
2
di ! d ! di
sd = d = i=1n
n !1
Sd S
IC : d ! t "n !1 < µd < d + t "n !1 d
2
n 2
n

INTERVALLI DI CONFIDENZA PER LA DIFFERENZA TRA MEDIE: CAMPIONI INDIPENDENTI,


VARIANZE NOTE
DISTRIBUZIONE Normale:

Z=
( X + Y ) ! (µ X ! µY )
" X2 " Y2
+
n X nY

# X2 # Y2 # X2 # Y2
IC : ( x ! y ) ! z" 2 + < µ X ! µY < ( x ! y ) + z" 2 +
n X nY n X nY

INTERVALLI DI CONFIDENZA PER LA DIFFERENZA TRA MEDIE: CAMPIONI INDIPENDENTI,


VARIANZE NON NOTE
DISTRIBUZIONE t di Student con (nx+ny!2) g.d.l.:

Varianza campionaria ponderata: T=


( X + Y ) ! (µ X ! µY )
( nX ! 1) SX2 + ( nY ! 1) SY2 "
1 1%
s 2 ( n ! 1) s
= X
2
X + ( nY ! 1) s 2
Y
n X + nY ! 2 $# n +
nY '&
n X + nY ! 2
p
!###### "###### X
$
1 1
Sp +
n X nY

s 2p s 2p s 2p s 2p
IC : (x ! y ) ! t n X + nY ! 2
" 2 + < µ X ! µY < ( x ! y ) + t n X + nY ! 2
" 2 +
nX nY nX nY

AMPIEZZA CAMPIONARIA PER LA STIMA DELLA MEDIA

(z ) " #
2
2
!

n= 2

( ME )2

AMPIEZZA CAMPIONARIA PER LA STIMA DELLA POPOLAZIONE

( )
2
0, 25 ! z"
n= 2

( ME ) 2

18
30001 - Statistica ! Capitolo 10

VERIFICA DI IPOTESI: PROBABILITÀ DI PRENDERE DIVERSE DECISIONI SU H0 IN BASE ALLO STATO DI NATURA

DECISIONI SULL’IPOTESI Stato di natura


NULLA Ipotesi nulla vera Ipotesi nulla falsa

Decisione corretta ERRORE DI SECONDO TIPO


Non rifiuto H0
Probabilità: 1!" Probabilità: #

ERRORE DI PRIMO TIPO Decisione corretta


Rifiuto H0 Probabilità: " Probabilità: 1!#
(livello di significatività) (potenza del test)
IPOTESI NULLA (H0): ipotesi che viene considerata vera o meno di ottenere prove evidenti della validità del suo
contrario. È un’affermazione di tipo conservativo. Accettare H0 significa non apportare cambiamento alcuno.
IPOTESI ALTERNATIVA (H1): ipotesi contro la quale viene verificata l’ipotesi nulla e che viene considerata vera se l’ipotesi
nulla è considerata falsa. Affermazione di alternativa progressista rispetto a quanto è sempre stato: accettare H1 implica
accettare un cambiamento che possa anche implicare costi da sostenere.
IPOTESI ALTERNATIVA UNILATERALE: ipotesi alternativa che considera tutti i possibili valori del parametro della
popolazione a destra oppure a sinistra (maggiori/minori) rispetto a quelli specificati dall’ipotesi nulla.
IPOTESI ALTERNATIVA BILATERALE: ipotesi alternativa che considera tutti i possibili valori del parametro della
popolazione diversi dal valore specificato dall’ipotesi nulla semplice.
ERRORE DI PRIMO TIPO: errore commesso quando si rifiuta un’ipotesi nulla vera. L’errore di primo tipo è più grave in
quanto può portarmi a fare cambiamenti e a dover sostenere costi che non dovrei fare.
ERRORE DI SECONDO TIPO: errore commesso quando non si rifiuta un’ipotesi nulla falsa.
LIVELLO DI SIGNIFICATIVITÀ: probabilità di rifiutare un’ipotesi nulla quando è vera. A volte viene espresso in termini
percentuali, cosicché un test con livello di significatività ! viene anche indicato come test con l.d.s. 100 !!%.
POTENZA: probabilità di rifiutare un’ipotesi nulla quando falsa.
P-VALUE: definiamo il livello di significatività osservato la probabilità di ottenere un valore della statistica test uguale o
più estremo del valore osservato, calcolata pensando vera l’ipotesi nulla. Il p-value è perciò il livello di significatività al
quale l’ipotesi nulla può essere rifiutata.
Se p ! value < " # rifiuto H 0 Se p ! value " # $ accetto H 0

VERIFICA DI IPOTESI SULLA MEDIA: VARIANZA NOTA

" H 0 : µ ! µ0 x ! µ0
① # ! si rifiuta H 0 se > z#
$ H1 : µ > µ0 " n
$ x ! µ0 '
( ) (
p ! value : P X " x H 0 : µ = µ0 = P Z " z p = P & Z "
%
)
# n )(

" H 0 : µ ! µ0 x ! µ0
②" # ! si rifiuta H 0 se < !z#
$ H1 : µ < µ0 " n
$ x ! µ0 '
( )
p ! value : P Z " !z p = P & Z "
% # n )(

" H 0 : µ = µ0 x ! µ0 x ! µ0
③ # ! si rifiuta H 0 se < !z# o > +z#
$ H1 : µ ! µ0 " n " n
$ X ! µ0 x ! µ0 '
p ! value : P & # ) = 2P Z # z p 2 ( )
% " n " n (
19
30001 - Statistica ! Capitolo 10

VERIFICA DI IPOTESI SULLA MEDIA: VARIANZA NON NOTA

DISTRIBUZIONE t di Student
con (n!1) g.d.l.:
X!µ
T=
S n
" H 0 : µ ! µ0 x ! µ0
① # ! si rifiuta H 0 se > t"n !1
$ H1 : µ > µ0 S n

" H 0 : µ ! µ0 x ! µ0
②! # ! si rifiuta H 0 se < !t"n !1
$ H1 : µ < µ0 S n

" H 0 : µ = µ0 x ! µ0 x ! µ0
③ # ! si rifiuta H 0 se < !t"n !12 o > +t"n !12
$ H1 : µ ! µ0 S n S n

VERIFICA DI IPOTESI SULLA PROPORZIONE (GRANDI CAMPIONI)

DISTRIBUZIONE Normale:
P̂ ! p̂0
Z=
p̂(1 ! p̂) n
" H 0 : p ! p0 p̂ ! p0
① # ! si rifiuta H 0 se > z"
$ H 1 : p > p0 p0 (1 ! p0 ) n

" H 0 : µ ! µ0 p̂ ! p0
②! # ! si rifiuta H 0 se < !z"
$ H1 : µ < µ0 p0 (1 ! p0 ) n

" H 0 : µ = µ0 p̂ ! p0 p̂ ! p0
③ # ! si rifiuta H 0 se < !z" 2 o > z" 2
$ H1 : µ ! µ0 p0 (1 ! p0 ) n p0 (1 ! p0 ) n

POTENZA DI UN TEST

potenza = 1 ! "
" H 0 : µ ! µ0 % x # µ *(
#
$ H1 : µ > µ0
( &
)
! = P X " xc µ = µ * = P ' Z " c
$ n *)

20
30001 - Statistica ! Capitolo 11

VERIFICA DI IPOTESI SULLA DIFFERENZA TRA LE MEDIE: CAMPIONI DIPENDENTI

DISTRIBUZIONE t di Student
con (n!1) g.d.l.:
X!µ
T=
S n
# H 0 : µ X ! µY " d0 d ! d0
① $ !! si rifiuta H 0 se > t"n !1
% H 1 : µ X ! µY > d0 sd n

# H 0 : µ X ! µY " d0 d ! d0
②! $ !! si rifiuta H 0 se < !t"n !1
% H 1 : µ X ! µY < d0 sd n

# H 0 : µ X ! µY = d0 d ! d0 d ! d0
③ $ !! si rifiuta H 0 se < !t"n !1 o > t"n !1
% H 1 : µ X ! µY " d0 sd n sd n

VERIFICA DI IPOTESI SULLA DIFFERENZA TRA LE MEDIE: CAMPIONI INDIPENDENTI, VARIANZE NOTE

DISTRIBUZIONE Normale:

Z=
( X + Y ) ! (µ X ! µY )
" X2 " Y2
+
n X nY
# H 0 : µ X ! µY " d0 x ! y ! d0
① $ !! si rifiuta H 0 se > z#
% H 1 : µ X ! µY > d0 " X2 " Y2
+
n X nY

# H 0 : µ X ! µY " d0 x ! y ! d0
②! $ !! si rifiuta H 0 se < !z#
% H 1 : µ X ! µY < d0 " X2 " Y2
+
n X nY

# H 0 : µ X ! µY = d0 x ! y ! d0 x ! y ! d0
③ $ !! si rifiuta H 0 se < !z# 2 o > z# 2
% H 1 : µ X ! µY " d0 " 2
" 2
" X2 " Y2
X
+ Y
+
n X nY n X nY

21
30001 - Statistica ! Capitolo 11

VERIFICA DI IPOTESI SULLA DIFFERENZA TRA LE MEDIE: CAMPIONI INDIPENDENTI, VARIANZE NON
NOTE E UGUALI

DISTRIBUZIONE t di Student con (nx+ny!2) g.d.l.:

Varianza campionaria ponderata: T=


( X + Y ) ! (µ X ! µY )
( nX ! 1) SX2 + ( nY ! 1) SY2 "
1 1%
s 2 ( n ! 1) s
= X
+ ( nY ! 1) s
2
X
2
Y
n X + nY ! 2 $# n +
nY '&
n X + nY ! 2
p
!###### "###### X
$
1 1
Sp +
n X nY

# H 0 : µ X ! µY " d0 x ! y ! d0
① $ !! si rifiuta H 0 se > t "nX + nY ! 2
% H 1 : µ X ! µY > d0 s 2
s 2
p
+ p

n X nY

# H 0 : µ X ! µY " d0 x ! y ! d0
②! $ !! si rifiuta H 0 se < !t "nX + nY ! 2
% H 1 : µ X ! µY < d0 s 2
s 2
p
+ p

n X nY

# H 0 : µ X ! µY = d0 x ! y ! d0 x ! y ! d0
③ $ !! si rifiuta H 0 se < !t "nX + nY ! 2 o > t "nX + nY ! 2
% H 1 : µ X ! µY " d0 s 2
s 2
s 2
s 2
p
+ p p
+ p

n X nY n X nY

22
30001 - Statistica ! Capitolo 12

ANALISI DELLA CORRELAZIONE


DISTRIBUZIONE t di Student
Stima del coefficiente di correlazione con (n!2) g.d.l.:
n r (n ! 2)
" ( x ! x )( y ! y ) "x y ! n#x #y T=
r̂ =
s XY
=
i i
= i =1
i i
(1 ! r )
2

s X sY
"( x ! x ) ( y ! y )
i
2
i
2
"x 2
i ! nx 2 # "y 2
i ! ny 2

#H 0 : ! " 0 r (n ! 2)
① $ !! ! si rifiuta H 0 se > t"n ! 2
% H1 : ! > 0 (1 ! r )
2

#H 0 : ! " 0 r (n ! 2)
②! $ !! ! si rifiuta H 0 se < !t"n ! 2
% H1 : ! < 0 (1 ! r )
2

#H 0 : ! = 0 r (n ! 2) r (n ! 2)
③ $ !! ! si rifiuta H 0 se < !t"n !22 o > t"n !22
% H1 : ! " 0 (1 ! r )
2
(1 ! r )
2

2
Regola pratica: r >
n

MODELLO DI REGRESSIONE LINEARE SEMPLICE


"$$$$$$$$$
retta di regressione #

Y! = ! 0 + !1 ! X + E
%
variabile variabile componente di
dipendente indipendente errore aleatorio

Assunzioni del modello di regressione semplice:


• I termini di errore sono indipendenti da X: E ( ! i ) = 0
• I termini di errore sono variabili aleatorie con media 0 e varianza costante. E (! ) = "
2 2

(! , ! ) = 0 (vd. covarianza).
i

• I termini di errore sono non correlati tra loro (omoschedasticità) E i j

Il modello di regressione stimato è yi = b0 + b1 xi + ei dove:


- b0 e b1 sono le stime dei coefficienti:
b0 = y ! b1 x
n
# &
"( x i ! x ) ( yi ! y )
s XY n % (x ! x ) ( sy
b1 = i =1
= = "% n i ( = rXY )
( )
n
s X2
"( x ! x) i =1 % ( sX
%$ " xi ! x
2
i ('
i =1 i =1

- ei è la differenza tra il valore osservato di Y e il valore previsto sulla retta di regressione.


ei = yi ! ŷi = yi ! ( b0 + b1 xi )
Applicando il metodo dei minimi quadrati, la somma dei quadrati degli errori viene minimizzata: i
coefficienti b0 e b1 sono scelti in modo che SSE sia minima.
n n
SSE = ! ei2 = ! #$ yi " ( b0 + b1 xi ) %&
2

i =1 i =1

23
30001 - Statistica ! Capitolo 12

SCOMPOSIZIONE DELLA DEVIANZA TOTALE


L’analisi della varianza (ANOVA) ci permette di individuare misure che indicano quanto
efficacemente la variabile X spieghi il comportamento di Y. Per la retta di regressione ottenuta con
il metodo dei minimi quadrati, si ottiene scomponendo la devianza totale di Y in una componente
spiegata dal modello e in una componente di errore (o residua).
SST = SSR + SSE
!#"#$ !#"SSTSSR#$ !#"
SSE#$
n n n

" ( yi ! y ) = " ( ŷi ! y ) + " ( yi ! ŷi )


2 2

i =1 i =1 i =1
n
TOTAL SUM OF SQUARES:! ! SST = " ( yi ! y )
i =1

REGRESSION SUM OF SQUARES:! rappresenta la devianza spiegata dal coefficiente angolare della retta di regressione.
n n
SSR = " ( ŷi ! y ) = b12 " ( xi ! x )
2 2

i =1 i =1

La variabilità spiegata dalla regressione dipende direttamente dall’entità del coefficiente b1 dalla dispersione dei dati
relativi alla variabile dipendente X.
ERROR SUM OF SQUARES: !! fornisce un’indicazione dell’incertezza associata al modello di regressione.
n n n
SSE = & "# yi ! ( b0 + b1 xi ) $% = & ( yi ! ŷi ) = & ei2
2 2

i =1 i =1 i =1

COEFFICIENTE DI DETERMINAZIONE R2

Valori più elevati di SSR indicano una retta di regressione che meglio approssima i dati osservati. Al massimo grado di
approssimazione si avrà SST=SSR, con SSE=0. Il coefficiente di determinazione è definito come:
SSR SSE
R2 = = !1
SST SST
L’indice varia tra 0 e 1 e valori più elevati indicano una migliore bontà del modello: tuttavia valori elevati di R2 possono
risultare o da piccoli valori di SSE o da valori elevai di SST o da entrambi.
R2 rappresenta la porzione di variabilità di Y che è spiegata dalla variabilità di X. Esso permette di valutare la bontà di
adattamento dei dati al modello teorico.
2
SXY
R2 = r! 2
=
Pearson SX2 SY2

STIMA DELLA VARIANZA DEL MODELLO


n

"e 2
i
SSE
!ˆ 2 = se2 = i =1
=
n#2 n#2

24
30001 - Statistica ! Capitolo 12

VARIANZA DELLO STIMATORE DEI MINIMI QUADRATI PER !1 E !0


se2 se2
sb21 = =
n
( n ! 1) sX2
"( x i ! x)
i =1
"1 x2 % 2
s =$ +
2
se
# n ( n ! 1) s '&
b0 2
X

Dimostrazione:
!#" = 0 #$

b1 =
s XY
=
" ( x ! x )( y ! y ) =
i i " ( xi ! x ) yi + " ( xi ! x ) y =
"( x ! x ) y
i i

"( x ! x ) "( x ! x) "( x ! x )


2 2 2
s X2 i i i

& " ( xi ! x ) ) 1 Var ( % i ) , e2 Se2


Var ( b1 ) = Var ( # ( $ + $ x + % ) += #Var [ $ 0 + $1 xi + % i ] = = =
(' " ( xi ! x ) "( x ! x) "( x ! x) "( x ! x) "( x ! x)
2 0 1 i i 2 2 2 2
+* i i i i

TEST DI IPOTESI SU !1
DISTRIBUZIONE t di Student
con (n!2) g.d.l.:
b1 ! "1
T=
sb1
#% H 0 : !1 " !1* b1 ! "1
① $ ! ! si rifiuta H 0 se > t#n ! 2
&% H 1 : !1 > !1
*
sb1

#% H 0 : !1 " !1* b1 ! "1


②! $ ! ! si rifiuta H 0 se < !t#n ! 2
&% H 1 : !1 < ! *
1
sb1
#% H 0 : !1 = !1* b1 ! "1 b ! "1
③ $ ! ! si rifiuta H 0 se < !t#n !22 o 1 > t#n !22
%& H 1 : !1 " !1* sb1 sb1

INTERVALLO DI CONFIDENZA PER !1


IC : b1 ! t"n !22 # sb1 < $1 < b1 + t"n !22 # sb1

COEFFICIENTE BETA FINANZIARIO


Il rischio si più distinguere in rischio diversificabile e rischio non diversificabile. Il coefficiente beta
per un particolare titolo è il coefficiente di regressione della retta ottenuta quando si vogliono
spiegare i rendimenti di tale titolo in funzione del rendimento del mercato, misurato con un indice
più generale (ad esempio lo S&P 500). Questo coefficiente indica quanto siano reattivi i rendimenti
di un particolare titolo rispetto ai rendimenti complessivi del mercato.
• Rendimenti di un titolo seguono fedelmente il mercato: !=1
• Rendimenti di un titolo più reattivi del mercato (titolo aggressivo): !>1
• Rendimenti di un titolo meno reattivi rispetto al mercato (titolo difensivo): !<1

25
30001 - Statistica ! Capitolo 12

INTERVALLI DI CONFIDENZA PER LA PREVISIONE DEL SINGOLO VALORE E DEL VALOR MEDIO

1. Previsione di yn+1 in corrispondenza all’osservazione xn+1, con livello di confidenza 100(1!")%


% (
' 1 ( x " x )2 *
IC : ŷn +1 ± t!n "22 # '1 + + n n +1 * # se
' n 2 *
'& $ ( xi " x ) *
i =1 )
2. Previsione della media condizionata E(Yn+1 | xn+1) in corrispondenza all’osservazione xn+1:
% (
' 1 ( x " x )2 *
IC : ŷn +1 ± t!n "22 # ' + n n +1 * # se
'n 2 *
'& $ ( xi " x ) *
i =1 )
La previsione sul singolo valore è sempre più incerto della previsione sulla media: Var(1.)>Var(2.).
Il modello si regge bene finché mi muovo nell’ambito di x con cui ho xn+1. Se infatti xn+1 è molto
maggiore di x , il modello restituisce previsioni distorte. La valutazione dei residui è un modo per
dire, ex post, se il modello lavora bene.

26
30001 - Statistica ! Capitolo 13

STATISTICA TEST CHI-QUADRATO


Se l’ipotesi nulla è vera e il campione è abbastanza grande da determinare frequenze attese almeno
uguali a 5 per ogni categoria, si costruisce la statistica test:

!2 = $ i
K
(O " Ei )
i =1 E
!i
n# pi

dove Oi sono le frequenze osservate e Ei le frequenze attese sotto H0 valida.

TEST SULLA BONTÀ DI ADATTAMENTO


DISTRIBUZIONE chi-quadrato
con (K!1) g.d.l.:

!2 = #
K
(Oi " Ei )
i =1 Ei
!2 =0 se le osservazioni derivano dalla distribuzione considerata. Quanto maggiore è !2, tanto
maggiori sono le discrepanze dei valori osservati e quelli attesi. Ho bisogno di:
- n elevato;
- npi "5: (c’è molta arbitrarietà in come abbiamo impostato la verifica d’ipotesi sull’adattamento. Devo quindi trovare
classi sufficientemente numerose senza “sminuzzare” troppo le caratteristiche).
- H0 vera.
Un test sulla bontà di adattamento, con livello di significatività #, sotto H0, contro l’alternativa che
le probabilità specificate non siano corrette, è basata sulla regola di decisione:
K
(Oi ! Ei ) > # 2
si rifiuta H 0 se " Ei
K !1,$
i =1

TEST DI INDIPENDENZA PER TABELLE DI CONTINGENZA


DISTRIBUZIONE chi-quadrato
con (r!1)(c!1) g.d.l.:

(O )
2
r c " Eij
! = ##
2 ij

i =1 j =1 Eij

(O )
2
%# H 0 : pij = pi! ! p! j r c ! Eij
' ( i, j ) !! "" > # (r2 !1)(c!1), $
ij
$ si rifiuta H 0 se
%& H 1 : pij " pi! ! p! j i =1 j =1 Eij

Ri C j
Dove Eij è la stima del numero atteso di osservazioni in ciascuna cella sotto H0: ! Eij = .
n

27
30001 - Statistica ! Capitolo 15

MODELLI DI REGRESSIONE MULTIPLA CON K VARIABILI INDIPENDENTI


yi = ! 0 + !1 x1i + ! 2 x2i + ! + ! K xKi + " i
STIMATO: ŷi = b0 + b1 x1i + b2 x2i + ! + bK xKi + ei

IPOTESI STANDARD PER IL MODELLO DI REGRESSIONE


Dato il modello teorico di regressione multipla e supponendo di disporre di n osservazioni, si
ritengono soddisfatte le seguenti ipotesi standard:
1. Le xji sono costanti o realizzazioni di una variabile aleatoria Xj, indipendenti dalle componenti
aleatorie di errore !i. In quest’ultimo caso l’inferenza è svolta condizionatamente ai valori
osservati delle xji.
2. Il valore atteso della variabile aleatoria Y è una funzione lineare delle variabili indipendenti Xj.
3. I termini di errore sono variabili aleatorie con media 0 e varianza costante "2. La seconda
condizione viene chiamata omoschedasticità. E(!i)=0 e E(!i2)= "2.
4. Gli errori aleatori, !i, sono non correlati tra di loro e quindi: E(!i!j)=0.
5. Non è possibile trovare un insieme di coefficienti, tutti non nulli, tali che:
c0 + c1 x1i + c2 x2i + ! + cK xKi = 0 questa proprietà afferma che non esiste relazione lineare tra Xj.

STIMA DELLA VARIANZA DEL MODELLO


n

!e SSE
2
i
se2 = i =1
=
n " K "1 n " K "1
dove k rappresenta il numero di variabili indipendenti del modello.

COEFFICIENTE DI DETERMINAZIONE CORRETTO (AGGIUSTATO)


SSE
( n ! K !1)
2
R
adj = 1! SST
( n !1)

Si utilizza questo indice per bilanciare la riduzione, anche se minima, della somma dei quadrati
degli errori che di determina con l’aggiunta di variabili esplicative non rilevanti. Esso fornisce un
migliore strumento per confrontare modelli di regressione multipla con un numero diverso di
variabili indipendenti.
Il coefficiente di correlazione multipla è il coefficiente di correlazione tra il valore previsto e il
valore osservato della variabile dipendente:
( )
R = r Yˆ ,Y = R 2
ed è pari alla radice quadrata del coefficiente di determinazione. Si utilizza R come un’altra misura
della relazione lineare tra la variabile dipendente e le variabili indipendenti.

28
30001 - Statistica ! Capitolo 14

INTERVALLO DI CONFIDENZA SU SINGOLI COEFFICIENTI DELLA REGRESSIONE MULTIPLA

DISTRIBUZIONE t di Student
Stimatore della varianza del coefficiente bj: con (n!K!1) g.d.l.:
bj ! " j
se2 Tb j =
sb2j = sb j
( n ! 1) sx2 j
(1 ! r )
2
x1 x2

IC : b j ! t "n ! K !1sb j < # j < b j + t "n ! K !1sb j


2 2

VERIFICA DI IPOTESI PER I SINGOLI COEFFICIENTI DI REGRESSIONE

#% H 0 : ! j " ! * bj ! " *
① $ ! si rifiuta H 0 se > t#n ! K !1
&% 1
H : ! j > ! *
sb j

#% H 0 : ! j " ! * bj ! " *
②! $ ! si rifiuta H 0 se < !t#n ! K !1
&% H 1 : ! j < !
*
sb j

#% H 0 : ! j = ! * bj ! " * bj ! " *
③ $ ! si rifiuta H 0 se < !t#n !2K !1 o > +t#n !2K !1
&% 1
H : ! j " ! *
sb j sb j

VERIFICA DI IPOTESI PER TUTTI COEFFICIENTI DI REGRESSIONE


DISTRIBUZIONE F di Fisher
con K g.d.l. al numeratore,
e (n!K!1) g.d.l. Al denominatore:
SSR K MSR
F= = 2
SSE ( n ! K ! 1) se

# H 0 : !1 = ! 2 = ! ! K = 0 MSR
$ si rifiuta H 0 se > F!K , n " K "1
% H 1 : almeno un ! j " 0 se2

TEST F VS. TEST t

Si può dimostrare che i test F e t forniscono esattamente le stesse conclusioni al riguardo del test di
ipotesi per la singola variabile. Inoltre, il valore della statistica T per il coefficiente bj è uguale alla
radice quadrata della statistica test F corrispondente:
tb j = FX j dove FXj è la statistica F quando la variabile Xj è esclusa dal modello e, quindi, R=1.

PREVISIONI

Supponendo che valga il modello teorico yi = ! 0 + !1 x1i + ! 2 x2i + ! + ! K xKi + " i e che siano valide
le ipotesi standard di regressione, data una nuova osservazione x1,n +1 , x2,n +1 ,..., xK ,n +1 , la migliore
stima non distorta per ŷn +1 è: ŷn +1 = b0 + b1 x1,n +1 + b2 x2,n +1 + ! + bK xK ,n +1 .

29
30001 - Statistica ! Capitolo 15

MULTICOLLINEARITÀ

Se tra due o più variabili indipendenti esiste una forte correlazione ed esse contribuiscono a fornire
informazioni ridondanti, il modello risulta non parsimonioso. Non vengono apportate informazioni
aggiuntive al modello, ma si può indurre a stime più instabili e a segni dei coefficienti non concordi
con le aspettative.
Quando il modello di regressione comprende molte variabili indipendenti, i forti legami tra le
variabili determinano la multicollinearità. A ciò non si può ovviare facilmente e lo svantaggio è
quello di avere dei dati non molto informativi sui parametri che ci interessano.

INDICATORI DI MULTICOLLINEARITÀ:
1. Bisogna analizzare la matrice di correlazione delle variabili indipendenti per scoprire se queste siano tra
loro correlate.
2. I coefficienti di regressione sono molto diversi, anche dal punto di vista del segno, da quelli che ci si
potrebbe attendere secondo le teorie economiche o l’esperienza.
3. Verificare la presenza di un gruppo di variabili indipendenti che, considerate congiuntamente, hanno una
forte influenza sulla variabile dipendente, mentre quando sono considerate singolarmente, tramite la
verifica di ipotesi, sono tutte statisticamente non significative. Le statistiche T di tutti i coefficienti sono
basse, indicando l’assenza di influenze sulla risposta, ma il valore della statistica F del modello indica
la sua significatività statistica.
4. Considerare la regressione delle singole variabili indipendenti su tutte le altre variabili indipendenti del
modello: in questo modo si possono scoprire casi più complessi di multicollinearità.
5. Vi sono forti correlazioni tra coppie di variabili indipendenti o forti relazioni di dipendenza lineare tra
una o più variabili indipendenti e le altre (o si verificano entrambi i casi).

CORREZIONI PER EVITARE LA MULTICOLLINEARITÀ:


1. Eliminare una o più variabili indipendenti correlate tra loro (può causare una distorsione nella stima dei
coefficienti).
2. Cambiare la specificazione del modello, comprendendo una nuova variabile indipendente che sia
funzione di alcune variabili indipendenti tra loro correlate.
3. Cercare di ottenere nuovi dati che non determinino una forte correlazione tra le variabili indipendenti.
Se nessuna delle correzioni suggerite funziona, è probabile che il modello non sia adeguato allo scopo per il
quale era stato costruito.

30
Tavola 1 –– Funzione di ripartizione della variabile casuale normale standardizzata

I z

)(z)

0 z

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Tavola 2 –– Percentili della variabile casuale Chi-quadrato

f(x)

D
F n ,D
2
x

D
n
0.995 0.990 0.975 0.950 0.900 0.100 0.050 0.025 0.010 0.005
1 0.04393 0.03157 0.03982 0.02393 0.0158 2.71 3.84 5.02 6.63 7.88
2 0.0100 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.21 10.60
3 0.072 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.34 12.84
4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.14 13.28 14.86
5 0.412 0.554 0.831 1.145 1.61 9.24 11.07 12.83 15.09 16.75
6 0.676 0.872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55
7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.64
28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67
40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
50 27.99 29.71 32.36 34.76 37.69 63.17 67.50 71.42 76.15 79.49
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
70 43.28 45.44 48.76 51.74 55.33 85.53 90.53 95.02 100.4 104.2
80 51.17 53.54 57.15 60.39 64.28 96.58 101.9 106.6 112.3 116.3
90 59.20 61.75 65.65 69.13 73.29 107.6 113.2 118.1 124.1 128.3
100 67.33 70.06 74.22 77.93 82.36 118.5 124.3 129.6 135.8 140.2
Tavole statistiche 425

Tavola 3 –– Percentili della variabile casuale t di Student

f(t)

D
tn ,D t

D
n
0.100 0.050 0.025 0.010 0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
30 1.310 1.697 2.042 2.457 2.750
40 1.303 1.684 2.021 2.423 2.704
50 1.299 1.676 2.009 2.403 2.678
60 1.296 1.671 2.000 2.390 2.660
70 1.294 1.667 1.994 2.381 2.648
80 1.292 1.664 1.990 2.374 2.639
90 1.291 1.662 1.987 2.368 2.632
100 1.290 1.660 1.984 2.364 2.626
120 1.289 1.658 1.980 2.358 2.617
f 1.282 1.645 1.960 2.326 2.576
Tavola 4 –– Percentili della variabile casuale F di Fisher
f x

D
Fn1 , n2 ,D x

D 0.10
Denom
. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’
1 39.8 49.5 53.5 55.8 57.2 58.2 58.9 59.4 59.8 60.1 60.7 61.2 61.7 62.0 62.2 62.5 62.7 63.0 63.3

2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49

3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13

4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76

5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.11

6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72

7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47

8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29

9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16

10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06

11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97

12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90

13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85

14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80

15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76

16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72

17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69

18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66

19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63

20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61

21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59

22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57

23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55

24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53

25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52

26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50

27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49

28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48

29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47

30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46

40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38

60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29

120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19

’ 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00
Tavole statistiche 427

Tavola 4 –– Percentili della variabile casuale F di Fisher


f x

D
Fn1 , n2 ,D x

D 0.05
Denom
. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’

1 161. 199. 215. 224. 230. 234. 236. 238. 240. 241. 243. 246. 248. 249. 250. 251. 252. 253. 254.

2 18.5 19.0 19.1 19.2 19.3 19.3 19.3 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5

3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53

4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63

5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.37

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67

7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23

8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93

9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40

12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30

13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21

14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13

15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01

17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96

18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92

19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84

21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81

22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78

23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76

24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73

25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71

26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69

27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67

28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65

29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39

120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25

’ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Tavola 4 –– Percentili della variabile casuale F di Fisher
f x

D
Fn1 , n2 ,D x

D 0.25

Denom. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’

1 647.8 799.5 864.2 899.6 921.9 937.1 948.2 956.7 963.3 968.7 976.7 984.9 993.1 997.3 1001.4 1005.6 1009.8 1014.0 1018.3

2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.47 39.47 39.48 39.49 39.50

3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90

4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26

5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02

6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85

7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14

8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67

9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33

10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08

11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88

12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.73

13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60

14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49

15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40

16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32

17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25

18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.45 2.38 2.32 2.26 2.19

19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13

20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09

21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04

22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.15 2.08 2.00

23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97

24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94

25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91

26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88

27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85

28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83

29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81

30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79

40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64

60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48

120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.95 1.82 1.76 1.69 1.61 1.53 1.43 1.31

’ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
Tavole statistiche 429

Tavola 4 –– Percentili della variabile casuale F di Fisher


f x

D
Fn1 , n2 ,D x

D 0.01
Denom
. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’

1 4052 5000 5403 5625 5764 5859 5928 5981 6023 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366

2 98.5 99.0 99.1 99.2 99.3 99.3 99.3 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5

3 34.1 30.8 29.4 28.7 28.2 27.9 27.6 27.4 27.3 27.2 27.0 26.8 26.6 26.6 26.5 26.4 26.3 26.2 26.1

4 21.2 18.0 16.6 15.9 15.5 15.2 14.9 14.8 14.6 14.5 14.3 14.2 14.0 13.9 13.8 13.7 13.6 13.5 13.4

5 16.2 13.2 12.0 11.3 10.9 10.6 10.4 10.2 10.1 10.0 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02

6 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88

7 12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65

8 11.2 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86

9 10.5 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31

10 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91

11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60

12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36

13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.67 3.59 3.51 3.43 3.34 3.26 3.17

14 8.86 6.52 5.56 5.04 4.70 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00

15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.90 3.81 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87

16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.85 2.75

17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.84 2.75 2.65

18 8.29 6.01 5.09 4.58 4.25 4.02 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57

19 8.19 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.93 2.84 2.76 2.67 2.58 2.49

20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.70 2.61 2.52 2.42

21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36

22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31

23 7.88 5.66 4.77 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26

24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21

25 7.77 5.57 4.68 4.18 3.86 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17

26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.82 2.66 2.59 2.50 2.42 2.33 2.23 2.13

27 7.68 5.49 4.60 4.11 3.79 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10

28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06

29 7.60 5.42 4.54 4.05 3.73 3.50 3.33 3.20 3.09 3.01 2.87 2.73 2.57 2.50 2.41 2.33 2.23 2.14 2.03

30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01

40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.67 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.81

60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60

120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.04 1.95 1.86 1.76 1.66 1.53 1.38

’ 6.64 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.19 2.04 1.88 1.79 1.70 1.59 1.47 1.33 1.00