Sei sulla pagina 1di 59

Modello Lineare II

Brooks, Capitolo 3
Walter Distaso
Universit`a di Messina
w.distaso@imperial.ac.uk
Outline
Ancora sui test di ipotesi
Test Uni-direzionali (one-side)
Gli Intervalli di Condenza
Regressione Lineare Multipla
Stimatori OLS
Il test F
Bont`a di adattamento ai dati
Hedge Funds Returns Replication
Test unidirezionali

Qualche volta possiamo avere informazioni a priori, mediante


le quali ad esempio, ci aspettiamo che > 0.5 piuttosto che
< 0.5. In questo caso, dovremmo utilizzare un test one-side:
H
0
: = 0.5
H
1
: > 0.5

O potremmo avere che


H
0
: = 0.5
H
1
: < 0.5
Regione di Riuto di un test bidirezionale
Regione di riuto di un test unidirezionale (coda destra)
Regione di riuto di un test unidirezionale (coda sinistra)
Informazioni sulla distribuzione normale e sulla t

Dovreste essere familiari con la distribuzione normale e la sua


forma a campana.

Possiamo costruire una variabile normale standardizzata con


media zero e varianza unitaria, sottraendo dalla variabile
normale la sua media e dividendo per la sua standard
deviation.

Esiste, comunque, una relazione particolare tra la t e la


distribuzione normale standard.

Entrambe sono simmetriche e centrate sullo zero.

La distribuzione t ha un altro parametro, denito gradi di


libert`a. Avremo sempre a disposizione questa informazione.
A cosa somiglia la distribuzione t?
Comparare la distribuzione t con la distribuzione normale

Una distribuzione t con un numero di gradi di libert`a innito `e


una normale standard, cio`e t

= N(0, 1).

Esempi dalle tavole statistiche:


Livello di signicativit`a N(0,1) t(40) t(4)
50% 0 0 0
5% 1.64 1.68 2.13
2.5% 1.96 2.02 2.78
0.5% 2.57 2.70 4.60

La ragione per cui si usa la distribuzione t piuttosto che la


normale standard `e che dobbiamo stimare
2
, la varianza del
termine di errore.
Gli Intervalli di Condenza usati per testare ipotesi
Un esempio del loro utilizzo:

Stimiamo un parametro e diciamo che il suo valore `e 0.93, e


lintervallo di condenza al 95% `e (0.77,1.09).

Ci`o signica che con una percentuale pari al 95%, lintervallo


contiene il vero (ma sconosciuto) valore di .

Gli intervalli di condenza sono quasi sempre bidirezionali,


sebbene in teoria `e possibile costruire intervalli unidirezionali.
Come implementare un test di ipotesi utilizzando gli
intervalli di condenza I
1. Calcolate ,

e SE( ), SE(

) nel solito modo.


2. Scegliete un livello di signicativit`a, , (solitamente si sceglie
il 5%).
Ci`o `e equivalente alla scelta di un (1 ) 100% livello di
condenza, cio`e un livello di signicativit`a pari al 5% =un
intervallo di condenza al 95%.
3. Usate le tavole t per trovare il valore critico appropriato che
avr`a ancora T 2 gradi di libert`a.
4. Lintervallo di condenza `e dato da
(

t
T2;
SE(

),

+ t
T2;
SE(

))
5. Implementate il test: se il valore ipotizzato di (

) giace al
di fuori dellintervallo di condenza, allora rigettate lipotesi
nulla secondo cui =

, altrimenti non la rigettate.


Intervalli di condenza Versus Test di signicativit`a

Notate che lapproccio legato ai Test di signicativit`a e agli


intervalli di condenza portano allo stesso risultato.

Sotto il primo approccio (Test di signicativit`a) noi non


rigettiamo H
0
secondo cui =

se la statistica test si trova


allinterno della regione di accettazione, cio`e se
t
T2;

SE(

)
t
T2;

Scrivendo in modo alternativo, non rigettiamo se


t
T2;
SE(

t
T2;
SE(

t
T2;
SE(



+ t
T2;
SE(

Ma questa `e la regola da rispettare con il secondo approccio


(Intervalli di Condenza).
Gli errori che si possono commettere utilizzando il test di
ipotesi

Se rigettiamo lipotesi nulla al 5%, diciamo che il risultato del


test `e statisticamente signicativo.

Ci sono due possibili errori che possiamo commettere:


1. Rigettare H
0
quando eettivamente era vera. Tale errore `e
chiamato di prima specie.
2. Non rigettare H
0
quando eettivamente era falsa. Questo `e
lerrore di seconda specie.
Risultati nei test di ipotesi
Il Trade-o tra errore di prima e di seconda specie - I

La probabilit`a di commettere lerrore del I tipo `e solo , il


livello di signicativit`a o dimensione del test da voi scelto.

Cosa accade se riduciamo la dimensione del test (ad esempio,


passiamo dal 5% all1%?
Riduciamo la possibilit`a di commettere errori del I tipo....
= ma riduciamo anche la probabilit`a di rigettare lipotesi
nulla, incrementando la probabilit`a di commettere un errore
del II tipo.
Il Trade-o tra errori di prima e seconda specie - II

Quindi esiste sempre un trade-o tra errori di prima e seconda


specie quando si sceglie il livello di signicativit`a. Lunico
modo che abbiamo per ridurre la probabilit`a di entrambi `e
aumentare la dimensione campionaria.
Passare dal modello semplice a quello multiplo

Prima, abbiamo usato il modello


y
t
= +x
t
+ u
t
, t = 1, . . . , T

Ma cosa accadrebbe se la nostra (y) dipende da pi` u variabili


indipendenti?

ad esempio, i rendimenti dei titoli potrebbero dipendere da


molti fattori.

mercato

SMB

HML
Regressione multipla e intercetta

Ora possiamo scrivere


y
t
=
1
+
2
x
2t
+. . . +
k
x
kt
+ u
t
, t = 1, . . . , T

x
1
si riferisce allintercetta, rappresentata da una colonna
composta da 1 di ampiezza T.


1
sostituisce come coeciente dellintercetta.
Modi diversi per rappresentare il modello di regressione
lineare multiplo

Per ogni t
y
1
=
1
+
2
x
21
+. . . +
k
x
k1
+ u
1
y
2
=
1
+
2
x
22
+. . . +
k
x
k2
+ u
2
.
.
. =
.
.
.
y
T
=
1
+
2
x
2T
+. . . +
k
x
kT
+ u
T

Possiamo esprimere questo sistema di equazioni in maniera


compatta con le matrici.
La forma matriciale
_
_
_
_
_
y
1
y
2
.
.
.
y
T
_
_
_
_
_
. .
y
[T1]
=
_
_
_
_
_
_
_
1 x
21
. . . x
k1
1 x
22
. . . x
k2
.
.
.
.
.
.
.
.
.
.
.
.
1 x
2T
. . . x
kT
_
_
_
_
_
_
_
. .
X
[Tk]
_
_
_

1
.
.
.

k
_
_
_
. .

[k1]
+
_
_
_
_
_
u
1
u
2
.
.
.
u
T
_
_
_
_
_
. .
u
[T1]
y
[T1]
= X
[T1]
+ u
[T1]
Somma dei residui al quadrato

Precedentemente, abbiamo preso la somma dei residui al


quadrato e abbiamo minimizzato rispetto a e .

Facciamo lo stesso qui e minimizziamo


u

u = (u
1
u
2
. . . u
T
)
_
_
_
_
_
u
1
u
2
.
.
.
u
T
_
_
_
_
_
=

u
2
t
rispetto a .
Derivare gli stimatori OLS I

vogliamo trovare

che minimizza
L = (y X)

(y X)
Lultimo termine sopra pu`o essere scritto come
y

y y

X +

X
= y

y 2

y +

La condizione del primo ordine per un minimo impone che la


derivata prima deve essere uguale a zero. Quindi, calcoliamo
la drivata prima
L

= 2X

y + 2X

X.
Derivare gli stimatori OLS II
Lo stimatore OLS

`e quel valore di , tale per cui
L

= 0,
cio`e
2X

y 2X

= 0
e quindi

= (X

X)
1
X

y.
Assunzioni del modello lineare I
1. Linearit`a
La variabile y dipende in maniera lineare dai regressori, cio`e
y = X + u.
2. Rango pieno
La matrice T k X ha rango pari a k.
Ci`o signica che nessuna colonna di X `e una combinazione
lineare di altre colonne.
Questa `e la condizione di identicazione che permette di
stimare leetto specico di ogni singola variabile indipendente
sulla nostra y.
(cio`e, se diciamo x
2
= 3x
3
non riusciremmo a distinguere
leetto di x
2
da quello di x
3
).
3. E(u
t
) = 0, t.
4. cov(u
t
, X) = 0

, t.
5. Errori Sferici
Assunzioni del modello lineare II

var(u
t
) =
2
(chiamato anche omoschedasticit`a) e

cov(u
t
, u
s
) = 0 per tutte le t = s (chiamato anche non
autocorrelazione).
Utilizzando lapproccio matriciale, possiamo scrivere
E(uu

) =
2
I,
dove I `e una matrice Identit`a di dimensione T T .
6. Regressori Nonstocastici
Abbiamo bisogno di regressori che sano ssi tra campioni
estratti ripetutamente dalla popolazione
7. Errori normali

u N(0,
2
I).
Propriet`a degli stimatori OLS
Se valgono tutte le assunzioni riportate sopra allora

= + (X

X)
1
X

u
e
E(

) = , var(

) =
2
(X

X)
1
.
Inne, abbiamo

N(,
2
(X

X)
1
).
Test Multivariati

N(,
2
(X

X)
1
)
implica che
_

[1k]
_
var
_

__
1
[kk]
_


_
[k1]

2
k
.
Questo costituisce la base dei test multivariati.
Calcolare gli Standard Errors per i modelli di regressione
multipla I

Nella prima lezione, per stimare la varianza dellerrore,


2
,
abbiamo utilizzato
s
2
=

u
2
t
T 2
.

Ora, usiamo
s
2
=

u
2
t
T k
=
RSS
T k
.

Sappiamo che
var
_

_
=
2
_
X

X
_
[kk]
1
che pu`o essere stimato da
s
2
_
X

X
_
1
Testare ipotesi multiple: il test F

Usiamo il test t per testare singole ipotesi, cio`e ipotesi che


coinvolgono solo un coeciente. Ma cosa accadrebbe se
volessimo testare pi` u di un coeciente in maniera simultanea?

Dobbiamo usare il test F. Il test F `e legato a due diverse


regressioni.

La regressione non ristretta, in cui i coeciente sono


determinati liberamente utilizzando i dati, come abbiamo
fatto prima.

La regressione ristretta, in cui i coecienti sono soggetti a


restrizioni, cio`e tali restrizioni sono imposte su alcuni .
Il test F: Regressioni ristrette e non

Esempio. La regressione generale `e


y
t
=
1
+
2
x
2t
+
3
x
3t
+
4
x
4t
+ u
t
. (1)

Vogliamo testare la restrizione secondo cui


3
+
4
= 1 (la
teoria ci suggerisce che questa potrebbe essere unipotesi
interessante da investigare). La regressione non ristretta `e (1)
sopra, ma qual `e la regressione ristretta?

Sostituiamo la restrizione (
3
+
4
= 1) nella regressione, in
modo da imporla direttamente sui dati

3
+
4
= 1 =
4
= 1
3
Il test F: determinare la regressione ristretta

Scrivendo diversamente abbiamo


y
t
=
1
+
2
x
2t
+
3
x
3t
+ (1
3
)x
4t
+ u
t
y
t
=
1
+
2
x
2t
+
3
x
3t
+ x
4t

3
x
4t
+ u
t
y
t
x
4t
=
1
+
2
x
2t
+
3
(x
3t
x
4t
) + u
t

Questa `e la regressione ristretta. La stimiamo creando due


nuove variabili
P
t
= y
t
x
4t
Q
t
= x
3t
x
4t
.

quindi stimiamo
P
t
=
1
+
2
x
2t
+
3
Q
t
+ u
t
.
Calcolare la statistica F

La statistica test `e data da


RRSS URSS
URSS
T k
m
Dove
URSS = RSS dalla regressione non ristretta
RRSS = RSS dalla regressione ristretta
m = numero di restrizioni
La distribuzione F

Sotto lipotesi nulla, la statistica test segue la distribuzione F,


che ha 2 gradi di libert`a, m e T k, rispettivamente.

Lordine dei gradi di libert`a `e importante.

La distribuzione F ha solo valori positivi e non `e simmetrica.


Quindi rigettiamo lipotesi nulla solo se la statistica test > del
valore critico F.
Determinare il numero di restrizioni in un test F

Esempi
Ipotesi H
0
Restrizioni, m

1
+
2
= 2 1

1
= 1 e
3
= 1 2

2
= 0,
3
= 0 e
4
= 0 3
Signicativit`a della regressione con la statistica F

Se il modello `e
y
t
=
1
+
2
x
2t
+
3
x
3t
+
4
x
4t
+ u
t
allora lipotesi nulla
H
0
:
2
= 0,
3
= 0,
4
= 0
`e testata dalla statistica F Interpretation.

Lipotesi alternativa `e sempre la negazione dellipotesi nulla.


Cosa non possiamo testare con il test F

Con questa procedura, possiamo testare solo ipotesi lineari sui


parametri.

Ipotesi come
H
0
:
2

3
= 2
o
H
0
:
2
2
= 3
non possono essere testate.
Bont`a di adattamento ai dati

Vogliamo avere un indicatore sintetico che ci dica se e in che


misura la nostra regressione tta bene i dati.

La statistica pi` u comunemente utilizzata `e conosciuta come


R
2
. LR
2
pu`o essere denito come il quadrato del coeciente
di correlazione tra y e y.

Oppure in maniera alternativa, ricordando che noi siamo


interessati a spiegare la variabilit`a di y rispetto al suo valore
medio, y, cio`e la devianza totale, TSS:
TSS =

(y
t
y)
2

Possiamo dividere TSS in due parti, una spiegata dal nostro


modello (conosciuta come devianza spiegata, ESS) e laltra
non spiegata (lRSS).
Denire lR
2

TSS = ESS + RSS

(y
t
y)
2
=

( y
t
y)
2
+

u
2
t

La nostra statistica sulla bont`a di adattamento ai dati `e


R
2
=
ESS
TSS

Ma possiamo scrivere anche


R
2
=
ESS
TSS
=
TSS RSS
TSS
= 1
RSS
TSS

R
2
`e sempre compreso tra 0 e 1.
Il caso estremo R
2
= 0
Il caso estremo R
2
= 1
Problemi legati allR
2
1. R
2
`e denito in termini di variazione di y rispetto alla sua
media, cos` se un modello `e riparametrizzato e la variabile
dipendente varia, R
2
cambier`a.
2. R
2
non si riduce mai quando inseriamo nuovi regressori
allinterno della regressione, ad esempio, considerate:
Regressione 1: y
t
=
1
+
2
x
2t
+
3
x
3t
+ u
t
Regressione 2: y
t
=
1
+
2
x
2t
+
3
x
3t
+
4
x
4t
+ u
t
R
2
sar`a sempre pi` u alto per la seconda regressione in quanto il
numero di regressori `e maggiore.
R
2
aggiustato

Allo scopo di risolvere tali problemi, `e utile modicare lR


2
in
modo da considerare la perdita di gradi di libert`a dovuta
allinserimento di nuove variabili allinterno della regressione.
Questo `e conosciuto come R
2
, o R
2
aggiustato:
R
2
= 1
_
T 1
T k
_
1 R
2
_
_

Quindi se aggiungiamo un nuovo regressore, k cresce , R


2
aumenta e R
2
di conseguenza diminuir`a.

I problemi legati a tale criterio sono due:


1. Una regola soft
2. Nessuna distribuzione per R
2
Test per ipotesi Non-Nested I

Tutti i test di ipotesi discussi no ad ora rientrano nel


contesto dei modelli nested.

Ma cosa accadrebbe se volessimo comparare i seguenti


modelli?
Modello 1: y
t
=
1
+
2
x
2t
+ u
t
Modello 2: y
t
=
1
+
2
x
3t
+ v
t

Potremmo usare R
2
o R
2
aggiustato, ma cosa accadrebbe se
il numero delle variabili indipendenti fosse diverso tra i due
modelli?

Un approccio alternativo `e lencompassing test, basato su un


modello ibrido:
Modello 3: y
t
=
1
+
2
x
2t
+
3
x
3t
+ w
t
Test di ipotesi Non-Nested II

Ci sono 4 possibili risultati quando il Modello 3 `e stimato:


2
`e signicativo ma
3
non lo `e


3
`e signicativo ma
2
non lo `e


2
e
3
sono entrambi statisticamente signicativi

N`e
2
n`e
3
sono signicativi.

Problemi con lapproccio encompassing

Il modello Ibrido pu`o essere privo di signicato

potrebbe esserci unelevata correlazione tra x


2
e x
3
.

Utilizzo di un sistema metrico diverso?


A CAPM Framework
Fattore di rischio
Modelli
Interpretazione
Factor Exposures
Decomposizione rendimenti
Decomposizione rendimenti attesi
Problema di Replication
Confronto di Performance I
Confronto di Performance II
Un Esempio
Fondo dei Fondi
Riassumendo
Per approfondimenti
Alcuni links

Categorie: Link to Categories

Maggiori informazioni: Link

Link al paper: Link to paper