Sei sulla pagina 1di 45

I modelli lineari generalizzati per

la tariffazione nel ramo RCA

Giuseppina Bozzo
Giuseppina Bozzo
I modelli per l’analisi dei dati
I notevoli sviluppi tecnologici che hanno
caratterizzato gli ultimi decenni, hanno messo a
disposizione delle aziende una grande quantità di
dati.
Una delle grandi sfide per l’azienda, e in particolare
per una compagnia assicurativa, è quella di
elaborare questi dati, così da estrarne rilevanti
informazioni.
Per quanto riguarda l’analisi statistica, un maggiore numero di dati a disposizione
implica maggiore capacità di previsione. È da notare però che nei campioni di
dati a disposizione, sta aumentando anche il numero di variabili attraverso cui è
possibile descrivere il fenomeno.
Questa è una caratteristica di fondamentale importanza e necessita di modelli
avanzati in grado di sfruttare e di gestire il numero sempre maggiore di variabili
I modelli lineari generalizzati nel
ramo danni
 In ambito assicurativo, il flusso di dati in questione
riguarda le polizze assicurative che possono essere
descritte attraverso un vasto numero di variabili
numeriche e non. Si rende necessario perciò l’utilizzo di
modelli statistici.
 In particolare, facendo riferimento al ramo danni, ci
occuperemo dei modelli lineari generalizzati, utilizzati
per uno dei principali scopi di una compagnia
assicurativa danni: determinare il premio, ovvero il
corrispettivo in denaro, da richiedere al contraente
della polizza.
Alcuni richiami…
In diversi campi della ricerca, capita spesso di ritrovarsi a
studiare le relazioni presenti tra le variabili oggetto di
studio.
Formalizzando il problema, indichiamo con y la variabile
dipendente e con 𝑥1 , 𝑥2 , …, 𝑥𝑘 , le k variabili indipendenti,
dette anche regressori o variabili esplicative. Il modello
sarà:
𝑦 = 𝑓 𝑥1 , 𝑥2 , …, 𝑥𝑘 + 𝜀,
dove la variabile 𝜀, è un vettore aleatorio di variabili non
osservabili.
Le variabili esplicative
Le variabili esplicative rappresentano delle caratteristiche osservabili, che influiscono
sulla valutazione probabilistica delle variabili risposta.
Esistono due tipi di variabili esplicative:
 Variabili numeriche: hanno determinazioni numeriche, come ad esempio la
variabile “età dell’assicurato”;
 Variabili nominali: hanno determinazioni non numeriche, come ad esempio la
variabile “sesso dell’assicurato”.
Le variabili che hanno una determinazione numerica possono essere inserite
direttamente nel modello, mentre le variabili non numeriche devono essere
precedentemente codificate numericamente attraverso una variabile binaria 0-1.
Solitamente, una variabile nominale con ℓ modalità 𝑐1 , 𝑐2 , … , 𝑐𝑙 può essere codificata
con variabili indicatrici, dette variabili dummy.
Esempio. Sesso dell’assicurato (Maschio-Femmina)
Variabile dummy →
Il modello lineare
 Se nella fase di specificazione del modello, si ipotizza che la funzione f sia lineare, si
avrà il modello lineare di equazione:

dove

 Per completare la specificazione del modello è necessario effettuare le cosiddette


ipotesi fondamentali:

OMOSCHEDASTICITA’

 Inoltre, successivamente alla stima dei parametri, sarà necessario costruire intervalli di
confidenza e test d’ipotesi. Affinché questo possa avvenire, è necessario ipotizzare
che 𝜀~𝑁 0, 𝜎 2 𝐼
Dai modelli lineari ai modelli lineari
generalizzati (GLM)
 Dei modelli lineari, noti per la loro semplicità,
vengono criticati diversi aspetti, tra cui l’ipotesi di
omoschedasticità e l’ipotesi di normalità.
 Infatti, si assume che la distribuzione della variabile
risposta sia normale, ma spesso non si ha a che fare
con variabili di questa natura.

RESIDUI  Inoltre, la varianza del termine di errore e


quindi anche della variabile risposta è
stata posta costante, ma spesso si
riscontra empiricamente che ciò non è
vero.
I modelli lineari generalizzati
 Anche nei modelli lineari generalizzati è possibile mettere in relazione una
variabile risposta con un insieme di regressori. La novità, però, risiede nella
rimozione di quelle ipotesi che nei modelli lineari semplici risultavano necessarie.
 In particolare, l’ipotesi di normalità viene generalizzata, ipotizzando che la
variabile dipendente y appartenga alla « famiglia esponenziale» e che quindi
abbia la seguente funzione di densità:
𝑦𝜗 − 𝑏 𝜗
𝑓𝑦 𝑦, 𝜗, 𝜑 = 𝑒𝑥𝑝 + 𝑐 𝑦, 𝜑 ,
𝑎 𝜑
Dove 𝑎 𝜑 , 𝑏 𝜗 e 𝑐 𝑦, 𝜑 sono delle funzioni note, la cui scelta individua una
particolare distribuzione. Il parametro 𝜑 è detto parametro di dispersione,
poiché è legato alla varianza di y.
 E’ possibile dimostrare che 𝐸 𝑦𝑖 = 𝑏′ 𝜗𝑖 e 𝑉 𝑦𝑖 = 𝑎 𝜑 ∙ 𝑏′′ 𝜗𝑖 .

ETEROSCHEDASTICITA’
Un esempio…
Verifichiamo che la distribuzione di Poisson può essere vista come caso
particolare della famiglia esponenziale:

Posto ϑ = ln 𝜆 e 𝑦 = 𝑛, otteniamo:

Tale funzione di densità appartiene alla famiglia esponenziale con funzioni:


La relazione tra media e predittore
lineare
Nei modelli lineari 𝑦 = 𝑋𝛽 + 𝜀, calcolando la media sulla i-esima componente si ha:

LA MEDIA E’ UGUALE AL PREDITTORE LINEARE


Viceversa, nei GLM, come generalizzazione, si suppone che media e predittore
lineare siano legati dalla funzione invertibile h. Per cui:

LA MEDIA E’ FUNZIONE DEL PREDITTORE LINEARE


La funzione g è detta funzione link

LINK CANONICI
Alcune famiglie della classe
esponenziale
Diagnostica
I vettori dei parametri 𝛽 e 𝜑 vengono stimati con il metodo della massima
verosimiglianza. Questo permette di sfruttare le proprietà degli stimatori di massima
verosimiglianza. Sotto opportune ipotesi, infatti, questi stimatori risultano essere:
 asintoticamente normali
 asintoticamente non distorti: 𝐸 𝛽 = β
 asintoticamente pienamente efficienti: la matrice di varianze-covarianze coincide
con il reciproco della matrice d’informazione di Fisher 𝐼 𝛽

Sfruttando queste importanti proprietà degli stimatori MLE, è possibile ottenere


intervalli di confidenza per le stime del parametro 𝛽, ma anche test d’ipotesi sulla
validità dei parametri.
Validazione del modello
 Per misurare la bontà di adattamento del modello, si definisce la devianza, data da:

Dove 𝑙 𝜗 è la log-verosimiglianza del modello stimato, mentre 𝑙 𝜗 è la log-


verosimiglianza del modello saturo, ovvero il modello avente un numeri di parametri pari
alla dimensione del campione. Tanto più piccola è la devianza, tanto migliore sarà il
modello stimato.

 Inoltre, per quantificare la differenza tra i valori attesi e i valori reali, possiamo definire i
residui standardizzati di Pearson:

 Infine, riportiamo la definizione dell’ Akaike's information criterion (AIC):


k=numero dei parametri
L=massima verosimiglianza del modello stimato
Le assicurazioni contro i danni
Oggetto del contratto di «assicurazione contro i danni» è l’intervento dell’assicuratore nei
riguardi delle conseguenze di eventi dannosi o sinistri che possono colpire, in un fissato
periodo temporale, il rischio assicurato. (…)A fronte degli impegni aleatori assunti
dall’assicuratore, è richiesto al contraente il pagamento di un importo certo che prende il
nome di premio. (Daboni, 1989)
Nella tecnica attuariale esistono diverse
configurazioni di premio. Il punto di
partenza per la definizione del premio, è
il premio equo che corrisponde al valore
atteso del totale dei risarcimenti aleatori
a carico dell’impresa di assicurazione,
durante il periodo assicurato. Troviamo
poi il premio puro che comprende al suo
interno anche il cosiddetto caricamento
di sicurezza. L’ultima configurazione è il
premio di tariffa, pari alla somma tra
premio puro e caricamenti per spese,
destinati a coprire i costi di gestione.
La tariffazione nelle assicurazioni RCA
 Dal punto di vista teorico, è possibile rappresentare il risarcimento aleatorio totale X di
un generico assicurato in un certo periodo di riferimento, come:
N → numero aleatorio dei sinistri
𝑍𝑗 → importo aleatorio del danno arrecato dal j-esimo
sinistro

 Calcolare il premio significa determinare il valore atteso e la varianza della variabile X


ed applicarvi dei caricamenti (di sicurezza e di spese). Il modello classico prevede le
seguenti ipotesi:
● 𝑍𝑗 e N sono stocasticamente indipendenti
● 𝑍𝑗 sono indipendenti ed identicamente distribuite
 Calcolando il valore atteso del risarcimento aleatorio, si ottiene il premio equo, per il
quale è possibile verificare che:
E’ NECESSARIO
STIMARE
E[N] E E[Z]
La personalizzazione della tariffaria
 I portafogli assicurativi sono formati da un insieme di rischi fra loro eterogenei,
e tale eterogeneità è dovuta a fattori endogeni, insiti nella particolare natura
del rischio, ma anche a fattori esogeni tipicamente ambientali o socio-
economici. Mediante le tecniche di tariffazione l’assicuratore suddivide la
collettività di rischi in sottogruppi o classi, che presentano caratteristiche
analoghe, in modo da poter attribuire ai rischi appartenenti alla stessa classe,
la medesima base tecnica.
 La personalizzazione del premio può essere: a priori o a posteriori.
 Nella personalizzazione a priori, i premi sono differenziati in funzione di
caratteristiche dei rischi, osservabili al momento della conclusione del
contratto.
 Nella personalizzazione a posteriori, si cerca di ovviare all’eterogeneità
rimanente in seguito alla personalizzazione a priori, tenendo conto
dell’esperienza sulla sinistrosità di ciascun assicurato.
Le variabili tariffarie nella personalizzazione
del premio
 L’assicuratore individua dei sottogruppi di rischi analoghi, detti classi tariffarie
o classi di rischio, sulla base di variabili tariffarie, ovvero i fattori di rischio
selezionati. Esempi di fattori di rischio nell’ambito RCA sono:
I modelli tariffari
 Il modello tariffario consente di associare ad ogni classe il corrispondente premio,
grazie ad alcuni parametri da cui dipende, detti relatività. Una volta scelto il
modello tariffario e stimato le relatività è possibile ottenere la tariffa.
 Supponendo di aver selezionato due sole variabili tariffarie aventi rispettivamente I
e J modalità ciascuna. Il portafoglio sarà quindi suddiviso in 𝐼 × 𝐽 classi tariffarie e la
coppia 𝑖, 𝑗 identifica la classe in cui la prima variabile ha modalità i, mentre la
seconda ha modalità j.
 I modelli tariffari utilizzati sono:

MODELLO MOLTIPLICATIVO

MODELLO ADDITIVO

RELATIVITA’ PRIMA RELATIVITA’ SECONDA


COSTANTE
VARIABILE VARIABILE
I modelli di regressione lineare nei
processi di tariffazione del ramo danni
 I modelli di regressione lineare permettono di stimare il valore atteso di una variabile risposta
attraverso una combinazione lineare delle determinazioni delle variabili esplicative. Dopo
quanto visto in precedenza, si potrebbe pensare di applicare tali modelli per la
determinazione della tariffa.
 In realtà, per i processi di tariffazione, i modelli di regressione lineare possono risultare non
completamente adatti, in particolare per ciò che concerne la tariffazione nei rami danni.
 Il numero dei sinistri, infatti, segue una distribuzione di probabilità discreta e gli importi dei
danni provocati dai sinistri hanno come supporto la semiretta positiva, generalmente con
distribuzione asimmetrica positiva (IPOTESI DI NORMALITA’ NON SUPPORTATA)
 Inoltre, in molti casi, non è accettabile l’ipotesi di un legame lineare tra il valore atteso della
variabile risposta e le determinazioni delle variabili esplicative. Ad esempio, nei modelli
tariffari moltiplicativi tale struttura non è rispettata (LINK IDENTITA’ RISULTA RESTRITTIVO)

LM GLM
I GLM nei processi di tariffazione del ramo
danni
 In campo assicurativo i GLM sono impiegati per la definizione a priori della tariffa
e anche nella valutazione delle riserve tecniche.
 Contrariamente ai ML, infatti, si assume che la variabile risposta appartenga alla
famiglia esponenziale e quindi che possa essere una Poisson, una binomiale, etc.
 Inoltre, nel processo di tariffazione la funzione link indica come calcolare il
premio equo, in funzione delle caratteristiche delle variabili tariffarie. Quindi,
attraverso g si determina il modello tariffario. Ad esempio:
Modello per il numero di sinistri
 I dati disponibili per i diversi assicurati di un portafoglio sono:
● Determinazioni delle variabili esplicative
● Numeri dei sinistri che hanno colpito i rischi nel periodo di osservazione
● Tempi di esposizione, ovvero le esposizioni o rischi/anno
 Indichiamo con K il numero delle classi tariffarie in cui è ripartito il portafoglio, con 𝑛𝑘 il
numero degli assicurati nella classe k e con 𝑥𝑘 il vettore delle determinazioni delle variabili
esplicative comune ai rischi della classe
 Per l’i-esimo assicurato della classe k, indichiamo con 𝑚𝑘𝑖 il numero dei sinistri nel periodo di
osservazione e con 𝑡𝑘𝑖 l’esposizione. Nel contesto dei GLM, 𝑚𝑘𝑖 è il valore osservato del
numero aleatorio 𝑀𝑘𝑖 dei sinistri che colpiscono il rischio assicurato nel periodo di
osservazione.
 Siano 𝜂𝑘 = 𝑥𝑘 ′𝛽 e 𝜆𝑘 > 0 rispettivamente il predittore lineare e il numero atteso annuo di
sinistri per ciascun assicurato della classe k. Indicando con g la funzione link avremo:
Modello Poisson per il numero di sinistri
 Data la natura delle variabili aleatorie 𝑀𝑘𝑖 si assume solitamente:

Il parametro della distribuzione è il prodotto tra l’esposizione e il numero atteso annuo


di sinistri per un assicurato nella classe k.
 Partendo da questa ipotesi è possibile definire una distribuzione che appartiene alla
famiglia esponenziale, ma è necessario riparametrizzare, considerando, 𝜇𝑘𝑖 = 𝑡𝑘𝑖 𝜆𝑘 e
ln 𝜇𝑘𝑖 = 𝜗𝑖 .

 Per la speranza matematica, ricordando che 𝑔 𝜆𝑘 = 𝜂𝑘 , si ha:

 Scegliendo per il link g il logaritmo naturale, la sua funzione inversa sarà l’esponenziale
e quindi:

Dove, il termine ln 𝑡𝑘𝑖 viene interpretato come la determinazione di una variabile


aggiuntiva con effetto noto, ovvero come un termine di offset.
Modello per il costo medio dei sinistri
 Per la definizione di tali modelli è fondamentale disporre dei seguenti dati:
● le determinazioni delle variabili esplicative
● il numero di sinistri
● gli importi del costo, causati dai singoli sinistri o i danni totali per polizza.
 Bisogna notare, però, che spesso i dati a disposizione sono quelli dei risarcimenti che,
in caso di limitazioni di copertura (es. massimali, franchigia), differiscono dal danno
provocato
 Inoltre, i dati sono spesso relativi a sinistri non chiusi, per i quali il costo viene stimato
sommando il pagato e l’importo della riserva sinistri di inventario.
 È da aggiungere che , il numero di polizze sinistrate è molto ristretto, quindi i dati
disponibili sono pochi e gli importi di danno sono per la grande maggioranza di
importo contenuto; mentre quelli di importo particolarmente elevato sono un numero
ristretto.
 Tali problematiche rendono spesso le stime derivanti dai modelli per i danni meno
affidabili rispetto alle stime relative al numero di sinistri
Modello Gamma per il costo medio dei
sinistri
 Al fine di costruire il modello, indichiamo con 𝑚𝑘𝑖 il numero totale di sinistri che hanno
colpito una determinata classe tariffaria e con 𝐶𝑘𝑖 il danno aleatorio totale
 Il danno medio per sinistro per la i-esimo polizza sinistrata della classe k potrà essere
calcolata come:

 La distribuzione più utilizzata è la distribuzione gamma, che rientra a far parte della
famiglia esponenziale. È da notare che questa distribuzione ha come supporto 𝑅+ e
presenta asimmetria positiva. È possibile verificare che:

 Anche in questo caso, il link scelto è il logaritmo, necessario per fare in modo che il
modello sia moltiplicativo.
Applicazione: stima del
premio equo attraverso i
modelli lineari generalizzati
per il ramo RCA
Considerazioni preliminari
La costruzione di un GLM è preceduta da alcune importanti fasi:
 Raggruppamento Territoriale: negli ultimi anni le imprese di assicurazione utilizzano per
ogni CAP un coefficiente tariffario. Questo comporta una sovra parametrizzazione del
modello, con conseguenti problemi di significatività dei parametri e conseguente AIC
alto dato l’elevato numero di parametri. Inoltre, è naturale pensare che zone vicine
siano similmente rischiose. Per tale raggruppamento, quindi, utilizzeremo le tecniche di
cluster analysis, sfruttando delle variabili rappresentative del rischio, ma anche variabili
volte a tener conto della vicinanza territoriale.
 Selezione delle variabili: i modelli di regressione sono spesso utilizzati in situazioni in cui ci
sono numerose variabili esplicative potenzialmente influenti sulla valutazione della
variabile risposta. La costruzione di un modello con molte variabili comporta
l’introduzione di molti parametri, mentre una desiderabile proprietà di ogni modello
statistico è quella della parsimonia nel numero dei parametri. I procedimenti di
selezione delle variabili hanno l’obiettivo di determinare un sottoinsieme di variabili
esplicative significative, in modo che il modello stimato realizzi un buon adattamento ai
valori osservati, ma che dipenda da un numero relativamente basso di parametri.
Descrizione del database
 Il database è costituito da 570385 record:
 Le variabili considerate sono:
̶ PROVINCIA
̶ CLASSE BONUS-MALUS
̶ ETA’ DEL VEICOLO
̶ ETA’ DEL CONDUCENTE
 Le variabili numeriche che saranno modellate con i GLM:
̶ numero dei sinistri NO CARD
̶ costo NO CARD
MIN MAX MEDIA TOTALE
NUMERO SX 0 3 0,005 2’835
COSTO SX 0€ 1͘͘͘͘͘͘͘͘’200’500€ 12’694€ 35’690’078€

Ricordiamo che La CARD, ovvero la Convenzione tra gli Assicuratori per il Risarcimento Diretto, è la
convenzione tra le compagnie assicuratrici con lo scopo di regolamentare i rapporti tra esse nell'ambito
dell’ RC Auto. Consente al proprietario dell'auto che subisce un danno, causato da un incidente stradale,
di rivolgersi direttamente alla propria agenzia per ottenere il rimborso dei danni. Vi sarà poi una
compensazione tra le Imprese.
Analisi territoriali e cluster analysis
 La cluster analysis è una tecnica di analisi multivariata attraverso la quale è possibile
raggruppare le unità statistiche, in modo da minimizzare la “lontananza logica”
interna a ciascun gruppo e di massimizzare quella tra i gruppi. La “lontananza logica”
viene quantificata per mezzo di misure di similarità/dissimilarità definite tra le unità
statistiche.
 La regola in base alla quale si formano i gruppi dipende dal tipo di dati. Infatti, per
dati quantitativi si hanno misure di distanza, mentre per dati qualitativi si hanno misure
di associazione.

DISTANZA EUCLIDEA

 Le tecniche di cluster analysis possono essere gerarchiche e non gerarchiche. Queste


a sua volta possono essere di tipo aggregativo o divisivo.
 L’algoritmo che utilizzeremo per creare i gruppi è l’algoritmo di Ward, un algoritmo di
tipo gerarchico aggregativo, che mira a minimizzare la varianza all’interno dei gruppi.
Per tale motivo, questo algoritmo può essere utilizzato solo per variabili quantitative.
I cluster ottenuti
Nel database sono presenti le 110 provincie italiane. Si è scelto di
suddividerle in gruppi sulla base di tre variabili:
 Latitudine
VICINANZA TERRITORIALE
 Longitudine
 Quota danni media per provincia, definita come il rapporto tra il
costo e il numero dei veicoli.

I cluster vengono creati in modo iterativo con l’algoritmo di Ward. Tra i


diversi raggruppamenti ottenuti, è necessario scegliere quello più
appropriato. Per fare fronte a questa delicata scelta, si utilizza un criterio
di arresto noto come criterio di Elbow. In particolare, si stabilisce una
«soglia di aumento» della varianza spiegata (ev) e si sceglie il numero di
cluster che garantisce una differenza sulla varianza spiegata inferiore
alla soglia di aumento.
I risultati del test di Elbow
ll numero di classi derivante dal test di Elbow è pari a 11 e corrisponde al numero di
classi, che comporta un incremento della varianza spiegata inferiore a 0,01

k ev differenze
1 0
2 0,558057 0,5580569
3 0,695304 0,1372475
4 0,787718 0,0924134
5 0,854852 0,0671342
6 0,893411 0,0385586
7 0,912856 0,0194449
8 0,925722 0,0128666
9 0,937866 0,0121441
10 0,948587 0,0107208
11 0,953559 0,0049719
12 0,95752 0,0039613
Il dendogramma

AVELLINO, BENEVENTO, CAMPOBASSO,


CESENA, ISERNIA, NAPOLI, SALERNO
Il modello per il numero sinistri e la
selezione delle variabili
Ricordiamo che, per la variabile risposta «numero dei sinistri», il relativo GLM avrà le seguenti
caratteristiche:
 Regressori: PROVINCIA, CLASSE BONUS-MALUS, ETA’ DEL VEICOLO, ETA’ DEL CONDUCENTE.
 Distribuzione della variabile risposta: Poisson
 Link: Logaritmo
 Offset: Logaritmo delle esposizioni
Passando alla fase di selezione delle variabili, solitamente si utilizzano dei procedimenti
automatici di selezione. Quest’ultimi hanno una duplice funzione:
 Riducono il numero di modelli da analizzare
 Guidano nella selezione
I più diffusi sono procedimenti automatici iterativi di tipo forward, backward e stepwise e si
basano sul confronto tra modelli, uno annidato nell'altro.
Questi modelli sono guidati dall’Akaike Information Criterion e dal p-value.
Procedimento forward
Si parte dal modello con sola intercetta e si aggiunge una variabile ad ogni passo,
partendo dalla più significativa.
Le variabili vengono aggiunte tramite l’AIC:
 Si parte dal modello con sola intercetta e si calcola il primo AIC, che
chiameremo AIC0
 Si fanno girare 4 modelli di tipo intercetta+variabile1 (un modello per ognuna
delle 4 variabili da scegliere) e si vede quello che tra questi genera l’AIC minimo.
Indichiamo tale valore con AIC1
 Successivamente, si guarda alla Differenza tra i due AIC, scegliendo come soglia
il valore 5
 In particolare, se la differenza AIC0 – AIC1> 5 allora si procede con il passo 2,
inserendo una nuova variabile tra quelle rimanenti e si fanno girare 3 modelli del
tipo intercetta+variabile1+variabile2 , altrimenti mi fermo alle variabili selezionate
fino a quel momento
Procedimento backward e procedimento
stepwise
 Il procedimento backward è il procedimento opposto rispetto al «forward». Infatti, in
questo caso, si parte dal modello completo con tutte le variabili inserite.
 Successivamente, al primo passo, si toglie dal modello la variabile meno significativa,
ovvero quella tra le non significative (con p-value ≥ 𝛼) e alla quale corrisponde il p-
value più elevato
 Anche in questo tipo di procedimento, è sempre doveroso guardare all’AIC del
modello, o meglio alla differenza di AIC sui modelli che si vanno a creare.
 Infine, il procedimento stepwise, combina il procedimento forward con il
procedimento backward. In un generico passo, quello che si fa è considerare un
passo forward, quindi inserire una nuova variabile, e un passo backward per
verificare se la variabile appena inserita renda superflua qualcuna delle variabili
precedentemente inserite nel modello.
 Il procedimento termina quando si trova un modello uguale ad uno già ottenuto.
Il modello GLM
Mediante il software R, è possibile creare il modello utilizzando la seguente sintassi

Effettuiamo in modo
automatico la procedura
stepwise
La variabile Bonus-Malus
La variabile Bonus-Malus è una variabile particolare, perché ne conosciamo l’andamento
«a priori». Essa infatti, deve essere crescente al crescere delle classi

Ho a disposizione due approcci:


 Scelgo dei parametri fissati dall’impresa e li inserisco nel modello
 Effettuo un variate, ovvero trasformo la variabile da qualitativa a quantitativa e inserisco
un polinomio con andamento crescente
Variate per la variabile Bonus-Malus

FASE 1

FASE 2

FASE 3
Modello finale per il numero sinistri

AIC(FINALE)=12610
Lettura dell’outuput
 La colonna valore: Indica il valore del parametro β per una modalità (non è il
coefficiente tariffario)
 La colonna standard error: è il reciproco della statistica test di Wald 𝑠𝑑 𝛽 𝛽,
quando l’ipotesi nulla è β=0
 La terza colonna contiene i p-value che permettono di verificare la significatività
del parametro
 La colonna Exp(Valore): è l’inverso della funzione link applicata al parametro e
corrisponde al coefficiente tariffario. Infatti, ricordiamo che:
Il predittore lineare
Ricordiamo le ipotesi alla base dei GLM OFFSET

Per ogni combinazione di variabili è possibile calcolare il predittore lineare e quindi 𝐸 𝑁 ,


ovvero il numero atteso di sinistri

VALORI OTTENUTI DALLA


VARIATE POLINOMIALE
Modello per il costo medio
Ricordiamo le scelte fatte per la costruzione del glm per
il costo medio dei sinistri:
̶ VARIABILE RISPOSTA: costo medio dei sinistri
̶ VARIABILI ESPLICATIVE: province(cluster), classi bonus-
malus, età del veicolo, età del conducente
̶ DISTRIBUZIONE DELLA VARIABILE RISPOSTA: Gamma
̶ FUNZIONE LINK: logaritmo
̶ PESI: numero dei sinistri
Stepwise regression
Variate per la variabile Bonus-Malus

FASE 1

FASE 2

FASE 3

FASE 1
Modello finale per il costo medio

AIC(FINALE)=61333
Bibliografia
 «La tariffazione nei rami danni con modelli lineari
generalizzati», Gigante P., Picech L., Sigalotti L. , EUT
Edizioni Università di Trieste(2010).
 «An introduction to generalized linear models, Second
Edition», Annette J. Dobson, CHAPMAN & HALL/CRC
(2002)
 «Modelli stocastici della classe GLM», SIFA,
http://www.sifa-attuari.it/materiale/stampa_2_GLM.pdf