Sei sulla pagina 1di 8

Generalità sulla valutazione di metodi previsivi

Nicola Lunardon - nicola.lunardon@unimib.it

U7-2009 (Secondo piano)

Riferimenti
• An Introduction to Statistical Learning, paragrafi 2.1.5, 2.2

• An Introduction to Statistical Learning, capitolo 3 per ripasso sulla regressione lineare

Introduzione
Consideriamo il seguente esempio con variabile risposta continua

1
• Punti neri: diagramma di dispersione per le coppie (yi , xi ) di cui disponiamo, i = 1, ..., n = 200
La risposta è generata secondo la relazione

1
Y = x+ϵ
30
ϵ ∼ N (0, 1)

• Linea blu: vera relazione che lega la variabile risposta y alla variabile esplicativa x

• Linea arancione (Modello 0): relazione stimata con una retta di regressione derivante dal
modello

Y = β1 X + ϵ
Con i dati a disposizione βˆ1 = 0.02859(1/30 = 0.033)

• Linea verde (Modello 1): relazione stimata con una regressione polinomiale (spline con 12
nodi)
• Situazione irrealistica
– Conosciamo la vera relazione tra la risposta e l’esplicativa
– Quale modello scegliere ?
Confrontando le relazioni stimate dei due modelli con la linea blu → Modello 0
• Situazione reale
– Non conosciamo la vera relazione
– Quale modello scegliere?
Consideriamo il training mean squared error
n
X
−1
M SEtr = n (yi − yˆi )2
i=1

dove yˆi sono le previsioni che fornisce il modello


∗ Modello 0: M SEtr = 1.0426815
∗ Modello 1: M SEtr = 0.9978994
Supponiamo di disporre di altre n∗ = 200 coppie (yi∗ , x∗i ) non utilizzate per stimare i modelli.
Vediamo il diagramma dei nuovi dati e aggiungiamo le relazioni stimate in precedenza
Utilizziamo i modelli per prevedere yi∗ sulla base delle rispettive x∗i . Consideriamo il test mean
squared error:

n
X
∗ −1
M SEte = (n ) (yi∗ − yˆi∗ )2
i=1

dove yˆi∗ sono le previsioni che fornisce il modello (sulla base delle rispettive x∗i )

2
• Modello 0: M SEte = 1.0247233
• Modello 1: M SEte = 1.0304042

In sintesi
• L’indicazione che ci fornisce il M SEtr è di scegliere il Modello 1. Più il modello è flessibile e
più si adatterà ai dati → piùpiccolosaràMSEtr .

• L’indicazione che ci fornisce il M SEte è di scegliere il Modello 0. Questa è la quantità che è


ragionevole considerare in un contesto di previsione.

Problema: nella pratica si dispone di un solo insieme di dati. Come fare quindi per non basare la
propria scelta sul M SEtr ?

Metodi di valutazione
Training set - Test set
Una soluzione è quella di dividere l’insieme di dati a disposizione in due:

• Training set (insieme di stima): insieme di dati che verrà utilizzato per stimare i modelli

3
• Test set (insieme di verifica): insieme di dati che verrà utilizzato per valutare l’errore di
previsione.
Non vi è una regola precisa per determinare la proporzione di osservazioni che andranno a comporre
ciascuno degli insiemi. Dipende dalla complessità del problema (numero di variabili, numerosità
campionaria, . . . )
Consideriamo i dati presentati all’inzio e attuiamo la divisione casuale con proporzione: 75 % /25
%

• Modello 0: M SEte = 1.2172192


• Modello 1: M SEte = 1.2542386

La divisione è casuale, ma pur sempre arbitraria. Consideriamo un’altra divisione casuale

• Modello 0: M SEte = 0.7801636


• Modello 1: M SEte = 0.8689308

Convalida incrociata (Cross validation)


É metodo che permette di alleviare il problema dell’arbitrarietà della divisione in training set e test
set.
Operativamente:
• L’insieme di dati viene diviso in K parti (o K folds)
– Stima del modello su un training set basato unendo K − 1 parti
– Si fa la previsione sull’unico insieme che non ha fatto parte training set e si calcola l’errore
di previsione
• Si reiterano i due punti precedenti per K volte, ovvero fino a quando ciascuno dei K insiemi
ha svolto la funzione di test set
• La stima dell’errore di previsione è ottenuta come media aritmetica dei K errori di previsione

Per esempio, Supponiamo di avere un insieme di dati composto dalla variabile risposta, y , e una
esplicativa, x. L’insieme è composto da 15 unità

4
Di seguito si riportano gli identificativi delle unità che compongono ciascuno dei 7 folds con cui si è
deciso di strutturare la convalida incrociata.

A titolo di esempio, si riporta il training set quando il Fold 1 attua da test set.

Di seguito il test set associato al training set di cui sopra

Sulla scelta del numero di fold si possono fare considerazioni dettagliate; indicativamente si sceglie
il numero di fold valutando quanto oneroso è il processo di stima/verifica.
Quando K = n la K fold la cross validation prende il nome di leave one out cross validation. A
differenza di una K fold, con K < n, non c’è aleatorietà del processo, tuttavia è computazionalmente
intenso.
Ritornando all’esempio di partenza, si ha che con la leave one out cross validation

• Modello 0: M SEte = 1.0544348


• Modello 1: M SEte = 1.1378942

5
1 Il contesto della classificazione
Per valutare gli errori dei classificatori si fa ricorso a misure di perdita diverse rispetto agli scarti al
quadrato tra valori veri e previsti.
Spesso si utilizza l’errore di classificazione

Iw̸=x (x)
con IA(x) (x) funzione indicatrice che vale 1 se si verifica l’evento A(x) (che dipende da x).
In concreto, l’errore di classificazione quando si considera yi e la sua previsione yˆi è

Iyi ̸=yˆi (yˆi )


Al di là della misura di perdita considerata, i concetti e metodi esposti in precedenza rimangono
validi nel contesto di classificazione.

Sull’errore di previsione
Nel seguito ci ricondurremo al contesto di previsione di una variabile continua.
È opportuno fare la distinzione tra:

• Errore atteso di previsione condizionato


• Errore atteso di previsione

È bene richiamare quanto segue, le variabili esplicative si assumono fissate e la variabile risposta è
generata secondo la relazione

Y = γx + ϵ
con ϵ ∼ N (0, σ 2 )
La variabile risposta osservata per ciascuna unità, yi , è realizzazione di

Yi = γxi + ϵ
Disponiamo di coppie (yi , xi ), i = 1, ..., n, sulla base di tali coppie stimiamo il nostro modello e lo
indichiamo con M̂ .
La previsione restituita dal nostro modello sulla base di una nuova esplicativa x∗ è

yˆ∗ = M̂ (x∗ )

Errore atteso di previsione condizionato


In parole: è l’errore atteso dal nostro modello quando lo usiamo per prevedere una nuova osservazione
generata dalla relazione

Y ∗ = γx∗ + ϵ
In formule:
h i2
EY ∗ Y ∗ − M̂ (x∗ )

6
Nella relazione di cui sopra, il valore atteso è solamente rispetto a Y ∗ , ovvero considero il campione
utilizzato per stimare M̂ , ovvero (yi , xi ),i = 1, . . . , n, fissato.
L’errore atteso di previsione condizionato è la quantità a cui naturalmente siamo interessati. Una
volta che ho ottenuto il modello stimato M̂ lo uso per fare previsione.

Errore atteso di previsione


In parole: è l’errore atteso che ci attendiamo nel prevedere una nuova osservazione, y ∗ , generata
dalla relazione

Y ∗ = γx∗ + ϵ
quando il modello è stimato utilizzando un gran numero di nuovi campioni di dimensione n generati
dalla relazione

Yi = γxi + ϵ
In formula:
h i2
EY y ∗ − M̂ (x∗ : Y )

si è enfatizzata la dipendenza del modello stimato da Y


si noti che y ∗ è una realizzazione di Y ∗ ed è una quantità non aleatoria.
Nella relazione di cui sopra, il valore atteso è solamente rispetto a Y . Voglio valutare cosa succede
all’errore di previsione al variare dei campioni utilizzati per stimare il mio modello.

Cosa è possibile stimare


L’errore atteso di previsione condizionato è la quantità più di interesse nella pratica. Ciò che è
possibile realisticamente stimare è, però, l’errore atteso di previsione.
La logica porterebbe a dedurre che una K fold cross validation è:

• più adatta a stimare l’errore atteso di previsione quando il numero di fold è basso
se il numero di fold è basso, allora mi aspetto che gli insiemi di stima saranno molto
diversi rispetto all’insieme di stima composto dal campione intero e produrranno, quindi,
modelli stimati molto diversi da quello che si stima con l’intero insieme di dati
• più adatta a stimare l’errore atteso di previsione condizionato quando il numero di fold è alto

– se il numero di fold è elevato, allora mi aspetto che gli insiemi di stima saranno simili
rispetto all’insieme di stima composto dal campione intero e produrranno, quindi, modelli
stimati molto simili a quello che si stima con l’intero insieme di dati
– una leave one out cross validation dovrebbe essere la migliore stima dell’errore atteso di
previsione condizionato

Nella pratica, però, si è osservato che tutti i metodi tendono a stimare l’errore atteso di previsione.

7
Illustrazione
Consideriamo il calcolo teorico dell’errore atteso di previsione quando utilizziamo il Modello 0,
ovvero il modello di regressione lineare che postula la relazione Y = β1 X + ϵ
Sulla base del campione di cui disponiamo, (yi , xi ), i = 1, ..., n, il Modello 0 stimato è

M̂ = M̂ (z) = β̂1 z
dove β̂1 è la stima di β1 ottenuta con il metodo dei minimi quadrati
Pn
yi xi
β̂1 = Pi=1
n 2
i=1 xi
Vogliamo valutare
nh i2 o
EY y ∗ − M̂ (x∗ : Y )

quando

Y = γx + ϵ, ϵ ∼ N (0, σ 2 )
)
La coppia (y ,x rappresenta una nuova osservazione, sono quantità fissate
Nel seguito l’unica quantità stocastica è M̂ (x∗ ; Y ): va quindi pensata come variabile casuale. Questo
significa considerare lo stimatore β̂1 e non la stima
Pn
Yi xi
β̂1 = Pi=1 n 2
i=1 xi
Svolgiamo il quadrato
h i2
y ∗ − M̂ (x∗ ; Y ) = (y ∗ )2 + [M̂ (x∗ ; Y )]2 − 2M̂ (x∗ ; Y )y ∗

Calcoliamo il valore atteso

Potrebbero piacerti anche