Intro Prediction

Generalità sulla valutazione di metodi previsivi
Nicola Lunardon - nicola.lunardon@unimib.it
U7-2009 (Secondo piano)
Riferimenti
• An Introduction to Statistical Learning, paragrafi 2.1.5, 2.2
• An Introduction to Statistical Learning, capitolo 3 per ripasso sulla regressione lineare
Introduzione
Consideriamo il seguente esempio con variabile risposta continua
1
• Punti neri: diagramma di dispersione per le coppie (yi , xi ) di cui disponiamo, i = 1, ..., n = 200
La risposta è generata secondo la relazione
1
Y = x+ϵ
30
ϵ ∼ N (0, 1)
• Linea blu: vera relazione che lega la variabile risposta y alla variabile esplicativa x
• Linea arancione (Modello 0): relazione stimata con una retta di regressione derivante dal
modello
Y = β1 X + ϵ
Con i dati a disposizione βˆ1 = 0.02859(1/30 = 0.033)
• Linea verde (Modello 1): relazione stimata con una regressione polinomiale (spline con 12
nodi)
• Situazione irrealistica
– Conosciamo la vera relazione tra la risposta e l’esplicativa
– Quale modello scegliere ?
Confrontando le relazioni stimate dei due modelli con la linea blu → Modello 0
• Situazione reale
– Non conosciamo la vera relazione
– Quale modello scegliere?
Consideriamo il training mean squared error
n
X
−1
M SEtr = n (yi − yî )2
i=1
dove yî sono le previsioni che fornisce il modello

∗ Modello 0: M SEtr = 1.0426815
∗ Modello 1: M SEtr = 0.9978994
Supponiamo di disporre di altre n∗ = 200 coppie (yi∗ , x∗i ) non utilizzate per stimare i modelli.
Vediamo il diagramma dei nuovi dati e aggiungiamo le relazioni stimate in precedenza
Utilizziamo i modelli per prevedere yi∗ sulla base delle rispettive x∗i . Consideriamo il test mean
squared error:
∗
n
X
∗ −1
M SEte = (n ) (yi∗ − yî∗ )2
i=1
dove yî∗ sono le previsioni che fornisce il modello (sulla base delle rispettive x∗i )
2
• Modello 0: M SEte = 1.0247233
• Modello 1: M SEte = 1.0304042
In sintesi
• L’indicazione che ci fornisce il M SEtr è di scegliere il Modello 1. Più il modello è flessibile e
più si adatterà ai dati → piùpiccolosaràMSEtr .
• L’indicazione che ci fornisce il M SEte è di scegliere il Modello 0. Questa è la quantità che è

ragionevole considerare in un contesto di previsione.
Problema: nella pratica si dispone di un solo insieme di dati. Come fare quindi per non basare la
propria scelta sul M SEtr ?
Metodi di valutazione
Training set - Test set
Una soluzione è quella di dividere l’insieme di dati a disposizione in due:
• Training set (insieme di stima): insieme di dati che verrà utilizzato per stimare i modelli
3
• Test set (insieme di verifica): insieme di dati che verrà utilizzato per valutare l’errore di
previsione.
Non vi è una regola precisa per determinare la proporzione di osservazioni che andranno a comporre
ciascuno degli insiemi. Dipende dalla complessità del problema (numero di variabili, numerosità
campionaria, . . . )
Consideriamo i dati presentati all’inzio e attuiamo la divisione casuale con proporzione: 75 % /25
%
• Modello 0: M SEte = 1.2172192

• Modello 1: M SEte = 1.2542386
La divisione è casuale, ma pur sempre arbitraria. Consideriamo un’altra divisione casuale
• Modello 0: M SEte = 0.7801636

• Modello 1: M SEte = 0.8689308
Convalida incrociata (Cross validation)

É metodo che permette di alleviare il problema dell’arbitrarietà della divisione in training set e test
set.
Operativamente:
• L’insieme di dati viene diviso in K parti (o K folds)
– Stima del modello su un training set basato unendo K − 1 parti
– Si fa la previsione sull’unico insieme che non ha fatto parte training set e si calcola l’errore
di previsione
• Si reiterano i due punti precedenti per K volte, ovvero fino a quando ciascuno dei K insiemi
ha svolto la funzione di test set
• La stima dell’errore di previsione è ottenuta come media aritmetica dei K errori di previsione
Per esempio, Supponiamo di avere un insieme di dati composto dalla variabile risposta, y , e una
esplicativa, x. L’insieme è composto da 15 unità
4
Di seguito si riportano gli identificativi delle unità che compongono ciascuno dei 7 folds con cui si è
deciso di strutturare la convalida incrociata.
A titolo di esempio, si riporta il training set quando il Fold 1 attua da test set.
Di seguito il test set associato al training set di cui sopra
Sulla scelta del numero di fold si possono fare considerazioni dettagliate; indicativamente si sceglie
il numero di fold valutando quanto oneroso è il processo di stima/verifica.
Quando K = n la K fold la cross validation prende il nome di leave one out cross validation. A
differenza di una K fold, con K < n, non c’è aleatorietà del processo, tuttavia è computazionalmente
intenso.
Ritornando all’esempio di partenza, si ha che con la leave one out cross validation
• Modello 0: M SEte = 1.0544348

• Modello 1: M SEte = 1.1378942
5
1 Il contesto della classificazione
Per valutare gli errori dei classificatori si fa ricorso a misure di perdita diverse rispetto agli scarti al
quadrato tra valori veri e previsti.
Spesso si utilizza l’errore di classificazione
Iw̸=x (x)
con IA(x) (x) funzione indicatrice che vale 1 se si verifica l’evento A(x) (che dipende da x).
In concreto, l’errore di classificazione quando si considera yi e la sua previsione yî è
Iyi ̸=yî (yî )

Al di là della misura di perdita considerata, i concetti e metodi esposti in precedenza rimangono
validi nel contesto di classificazione.
Sull’errore di previsione
Nel seguito ci ricondurremo al contesto di previsione di una variabile continua.
È opportuno fare la distinzione tra:
• Errore atteso di previsione condizionato

• Errore atteso di previsione
È bene richiamare quanto segue, le variabili esplicative si assumono fissate e la variabile risposta è
generata secondo la relazione
Y = γx + ϵ
con ϵ ∼ N (0, σ 2 )
La variabile risposta osservata per ciascuna unità, yi , è realizzazione di
Yi = γxi + ϵ
Disponiamo di coppie (yi , xi ), i = 1, ..., n, sulla base di tali coppie stimiamo il nostro modello e lo
indichiamo con M̂ .
La previsione restituita dal nostro modello sulla base di una nuova esplicativa x∗ è
yˆ∗ = M̂ (x∗ )
Errore atteso di previsione condizionato

In parole: è l’errore atteso dal nostro modello quando lo usiamo per prevedere una nuova osservazione
generata dalla relazione
Y ∗ = γx∗ + ϵ
In formule:
h i2
EY ∗ Y ∗ − M̂ (x∗ )
6
Nella relazione di cui sopra, il valore atteso è solamente rispetto a Y ∗ , ovvero considero il campione
utilizzato per stimare M̂ , ovvero (yi , xi ),i = 1, . . . , n, fissato.
L’errore atteso di previsione condizionato è la quantità a cui naturalmente siamo interessati. Una
volta che ho ottenuto il modello stimato M̂ lo uso per fare previsione.
Errore atteso di previsione

In parole: è l’errore atteso che ci attendiamo nel prevedere una nuova osservazione, y ∗ , generata
dalla relazione
Y ∗ = γx∗ + ϵ
quando il modello è stimato utilizzando un gran numero di nuovi campioni di dimensione n generati
dalla relazione
Yi = γxi + ϵ
In formula:
h i2
EY y ∗ − M̂ (x∗ : Y )
si è enfatizzata la dipendenza del modello stimato da Y

si noti che y ∗ è una realizzazione di Y ∗ ed è una quantità non aleatoria.
Nella relazione di cui sopra, il valore atteso è solamente rispetto a Y . Voglio valutare cosa succede
all’errore di previsione al variare dei campioni utilizzati per stimare il mio modello.
Cosa è possibile stimare

L’errore atteso di previsione condizionato è la quantità più di interesse nella pratica. Ciò che è
possibile realisticamente stimare è, però, l’errore atteso di previsione.
La logica porterebbe a dedurre che una K fold cross validation è:
• più adatta a stimare l’errore atteso di previsione quando il numero di fold è basso
se il numero di fold è basso, allora mi aspetto che gli insiemi di stima saranno molto
diversi rispetto all’insieme di stima composto dal campione intero e produrranno, quindi,
modelli stimati molto diversi da quello che si stima con l’intero insieme di dati
• più adatta a stimare l’errore atteso di previsione condizionato quando il numero di fold è alto
– se il numero di fold è elevato, allora mi aspetto che gli insiemi di stima saranno simili
rispetto all’insieme di stima composto dal campione intero e produrranno, quindi, modelli
stimati molto simili a quello che si stima con l’intero insieme di dati
– una leave one out cross validation dovrebbe essere la migliore stima dell’errore atteso di
previsione condizionato
Nella pratica, però, si è osservato che tutti i metodi tendono a stimare l’errore atteso di previsione.
7
Illustrazione
Consideriamo il calcolo teorico dell’errore atteso di previsione quando utilizziamo il Modello 0,
ovvero il modello di regressione lineare che postula la relazione Y = β1 X + ϵ
Sulla base del campione di cui disponiamo, (yi , xi ), i = 1, ..., n, il Modello 0 stimato è
M̂ = M̂ (z) = β̂1 z
dove β̂1 è la stima di β1 ottenuta con il metodo dei minimi quadrati
Pn
yi xi
β̂1 = Pi=1
n 2
i=1 xi
Vogliamo valutare
nh i2 o
EY y ∗ − M̂ (x∗ : Y )
quando
Y = γx + ϵ, ϵ ∼ N (0, σ 2 )
)
La coppia (y ,x rappresenta una nuova osservazione, sono quantità fissate
Nel seguito l’unica quantità stocastica è M̂ (x∗ ; Y ): va quindi pensata come variabile casuale. Questo
significa considerare lo stimatore β̂1 e non la stima
Pn
Yi xi
β̂1 = Pi=1 n 2
i=1 xi
Svolgiamo il quadrato
h i2
y ∗ − M̂ (x∗ ; Y ) = (y ∗ )2 + [M̂ (x∗ ; Y )]2 − 2M̂ (x∗ ; Y )y ∗
Calcoliamo il valore atteso

Intro Prediction

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Intro Prediction

Caricato da

Copyright:

Formati disponibili

Generalità sulla valutazione di metodi previsivi

Nicola Lunardon - nicola.lunardon@unimib.it

U7-2009 (Secondo piano)

• An Introduction to Statistical Learning, capitolo 3 per ripasso sulla regressione lineare

dove yˆi sono le previsioni che fornisce il modello

• L’indicazione che ci fornisce il M SEte è di scegliere il Modello 0. Questa è la quantità che è

• Modello 0: M SEte = 1.2172192

La divisione è casuale, ma pur sempre arbitraria. Consideriamo un’altra divisione casuale

• Modello 0: M SEte = 0.7801636

Convalida incrociata (Cross validation)

Di seguito il test set associato al training set di cui sopra

• Modello 0: M SEte = 1.0544348

Iyi ̸=yˆi (yˆi )

• Errore atteso di previsione condizionato

Errore atteso di previsione condizionato

Errore atteso di previsione

si è enfatizzata la dipendenza del modello stimato da Y

Cosa è possibile stimare

Calcoliamo il valore atteso

Potrebbero piacerti anche