Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Giuseppina Bozzo
Giuseppina Bozzo
I modelli per l’analisi dei dati
I notevoli sviluppi tecnologici che hanno
caratterizzato gli ultimi decenni, hanno messo a
disposizione delle aziende una grande quantità di
dati.
Una delle grandi sfide per l’azienda, e in particolare
per una compagnia assicurativa, è quella di
elaborare questi dati, così da estrarne rilevanti
informazioni.
Per quanto riguarda l’analisi statistica, un maggiore numero di dati a disposizione
implica maggiore capacità di previsione. È da notare però che nei campioni di
dati a disposizione, sta aumentando anche il numero di variabili attraverso cui è
possibile descrivere il fenomeno.
Questa è una caratteristica di fondamentale importanza e necessita di modelli
avanzati in grado di sfruttare e di gestire il numero sempre maggiore di variabili
I modelli lineari generalizzati nel
ramo danni
In ambito assicurativo, il flusso di dati in questione
riguarda le polizze assicurative che possono essere
descritte attraverso un vasto numero di variabili
numeriche e non. Si rende necessario perciò l’utilizzo di
modelli statistici.
In particolare, facendo riferimento al ramo danni, ci
occuperemo dei modelli lineari generalizzati, utilizzati
per uno dei principali scopi di una compagnia
assicurativa danni: determinare il premio, ovvero il
corrispettivo in denaro, da richiedere al contraente
della polizza.
Alcuni richiami…
In diversi campi della ricerca, capita spesso di ritrovarsi a
studiare le relazioni presenti tra le variabili oggetto di
studio.
Formalizzando il problema, indichiamo con y la variabile
dipendente e con 𝑥1 , 𝑥2 , …, 𝑥𝑘 , le k variabili indipendenti,
dette anche regressori o variabili esplicative. Il modello
sarà:
𝑦 = 𝑓 𝑥1 , 𝑥2 , …, 𝑥𝑘 + 𝜀,
dove la variabile 𝜀, è un vettore aleatorio di variabili non
osservabili.
Le variabili esplicative
Le variabili esplicative rappresentano delle caratteristiche osservabili, che influiscono
sulla valutazione probabilistica delle variabili risposta.
Esistono due tipi di variabili esplicative:
Variabili numeriche: hanno determinazioni numeriche, come ad esempio la
variabile “età dell’assicurato”;
Variabili nominali: hanno determinazioni non numeriche, come ad esempio la
variabile “sesso dell’assicurato”.
Le variabili che hanno una determinazione numerica possono essere inserite
direttamente nel modello, mentre le variabili non numeriche devono essere
precedentemente codificate numericamente attraverso una variabile binaria 0-1.
Solitamente, una variabile nominale con ℓ modalità 𝑐1 , 𝑐2 , … , 𝑐𝑙 può essere codificata
con variabili indicatrici, dette variabili dummy.
Esempio. Sesso dell’assicurato (Maschio-Femmina)
Variabile dummy →
Il modello lineare
Se nella fase di specificazione del modello, si ipotizza che la funzione f sia lineare, si
avrà il modello lineare di equazione:
dove
OMOSCHEDASTICITA’
Inoltre, successivamente alla stima dei parametri, sarà necessario costruire intervalli di
confidenza e test d’ipotesi. Affinché questo possa avvenire, è necessario ipotizzare
che 𝜀~𝑁 0, 𝜎 2 𝐼
Dai modelli lineari ai modelli lineari
generalizzati (GLM)
Dei modelli lineari, noti per la loro semplicità,
vengono criticati diversi aspetti, tra cui l’ipotesi di
omoschedasticità e l’ipotesi di normalità.
Infatti, si assume che la distribuzione della variabile
risposta sia normale, ma spesso non si ha a che fare
con variabili di questa natura.
ETEROSCHEDASTICITA’
Un esempio…
Verifichiamo che la distribuzione di Poisson può essere vista come caso
particolare della famiglia esponenziale:
Posto ϑ = ln 𝜆 e 𝑦 = 𝑛, otteniamo:
LINK CANONICI
Alcune famiglie della classe
esponenziale
Diagnostica
I vettori dei parametri 𝛽 e 𝜑 vengono stimati con il metodo della massima
verosimiglianza. Questo permette di sfruttare le proprietà degli stimatori di massima
verosimiglianza. Sotto opportune ipotesi, infatti, questi stimatori risultano essere:
asintoticamente normali
asintoticamente non distorti: 𝐸 𝛽 = β
asintoticamente pienamente efficienti: la matrice di varianze-covarianze coincide
con il reciproco della matrice d’informazione di Fisher 𝐼 𝛽
Inoltre, per quantificare la differenza tra i valori attesi e i valori reali, possiamo definire i
residui standardizzati di Pearson:
MODELLO MOLTIPLICATIVO
MODELLO ADDITIVO
LM GLM
I GLM nei processi di tariffazione del ramo
danni
In campo assicurativo i GLM sono impiegati per la definizione a priori della tariffa
e anche nella valutazione delle riserve tecniche.
Contrariamente ai ML, infatti, si assume che la variabile risposta appartenga alla
famiglia esponenziale e quindi che possa essere una Poisson, una binomiale, etc.
Inoltre, nel processo di tariffazione la funzione link indica come calcolare il
premio equo, in funzione delle caratteristiche delle variabili tariffarie. Quindi,
attraverso g si determina il modello tariffario. Ad esempio:
Modello per il numero di sinistri
I dati disponibili per i diversi assicurati di un portafoglio sono:
● Determinazioni delle variabili esplicative
● Numeri dei sinistri che hanno colpito i rischi nel periodo di osservazione
● Tempi di esposizione, ovvero le esposizioni o rischi/anno
Indichiamo con K il numero delle classi tariffarie in cui è ripartito il portafoglio, con 𝑛𝑘 il
numero degli assicurati nella classe k e con 𝑥𝑘 il vettore delle determinazioni delle variabili
esplicative comune ai rischi della classe
Per l’i-esimo assicurato della classe k, indichiamo con 𝑚𝑘𝑖 il numero dei sinistri nel periodo di
osservazione e con 𝑡𝑘𝑖 l’esposizione. Nel contesto dei GLM, 𝑚𝑘𝑖 è il valore osservato del
numero aleatorio 𝑀𝑘𝑖 dei sinistri che colpiscono il rischio assicurato nel periodo di
osservazione.
Siano 𝜂𝑘 = 𝑥𝑘 ′𝛽 e 𝜆𝑘 > 0 rispettivamente il predittore lineare e il numero atteso annuo di
sinistri per ciascun assicurato della classe k. Indicando con g la funzione link avremo:
Modello Poisson per il numero di sinistri
Data la natura delle variabili aleatorie 𝑀𝑘𝑖 si assume solitamente:
Scegliendo per il link g il logaritmo naturale, la sua funzione inversa sarà l’esponenziale
e quindi:
La distribuzione più utilizzata è la distribuzione gamma, che rientra a far parte della
famiglia esponenziale. È da notare che questa distribuzione ha come supporto 𝑅+ e
presenta asimmetria positiva. È possibile verificare che:
Anche in questo caso, il link scelto è il logaritmo, necessario per fare in modo che il
modello sia moltiplicativo.
Applicazione: stima del
premio equo attraverso i
modelli lineari generalizzati
per il ramo RCA
Considerazioni preliminari
La costruzione di un GLM è preceduta da alcune importanti fasi:
Raggruppamento Territoriale: negli ultimi anni le imprese di assicurazione utilizzano per
ogni CAP un coefficiente tariffario. Questo comporta una sovra parametrizzazione del
modello, con conseguenti problemi di significatività dei parametri e conseguente AIC
alto dato l’elevato numero di parametri. Inoltre, è naturale pensare che zone vicine
siano similmente rischiose. Per tale raggruppamento, quindi, utilizzeremo le tecniche di
cluster analysis, sfruttando delle variabili rappresentative del rischio, ma anche variabili
volte a tener conto della vicinanza territoriale.
Selezione delle variabili: i modelli di regressione sono spesso utilizzati in situazioni in cui ci
sono numerose variabili esplicative potenzialmente influenti sulla valutazione della
variabile risposta. La costruzione di un modello con molte variabili comporta
l’introduzione di molti parametri, mentre una desiderabile proprietà di ogni modello
statistico è quella della parsimonia nel numero dei parametri. I procedimenti di
selezione delle variabili hanno l’obiettivo di determinare un sottoinsieme di variabili
esplicative significative, in modo che il modello stimato realizzi un buon adattamento ai
valori osservati, ma che dipenda da un numero relativamente basso di parametri.
Descrizione del database
Il database è costituito da 570385 record:
Le variabili considerate sono:
̶ PROVINCIA
̶ CLASSE BONUS-MALUS
̶ ETA’ DEL VEICOLO
̶ ETA’ DEL CONDUCENTE
Le variabili numeriche che saranno modellate con i GLM:
̶ numero dei sinistri NO CARD
̶ costo NO CARD
MIN MAX MEDIA TOTALE
NUMERO SX 0 3 0,005 2’835
COSTO SX 0€ 1͘͘͘͘͘͘͘͘’200’500€ 12’694€ 35’690’078€
Ricordiamo che La CARD, ovvero la Convenzione tra gli Assicuratori per il Risarcimento Diretto, è la
convenzione tra le compagnie assicuratrici con lo scopo di regolamentare i rapporti tra esse nell'ambito
dell’ RC Auto. Consente al proprietario dell'auto che subisce un danno, causato da un incidente stradale,
di rivolgersi direttamente alla propria agenzia per ottenere il rimborso dei danni. Vi sarà poi una
compensazione tra le Imprese.
Analisi territoriali e cluster analysis
La cluster analysis è una tecnica di analisi multivariata attraverso la quale è possibile
raggruppare le unità statistiche, in modo da minimizzare la “lontananza logica”
interna a ciascun gruppo e di massimizzare quella tra i gruppi. La “lontananza logica”
viene quantificata per mezzo di misure di similarità/dissimilarità definite tra le unità
statistiche.
La regola in base alla quale si formano i gruppi dipende dal tipo di dati. Infatti, per
dati quantitativi si hanno misure di distanza, mentre per dati qualitativi si hanno misure
di associazione.
DISTANZA EUCLIDEA
k ev differenze
1 0
2 0,558057 0,5580569
3 0,695304 0,1372475
4 0,787718 0,0924134
5 0,854852 0,0671342
6 0,893411 0,0385586
7 0,912856 0,0194449
8 0,925722 0,0128666
9 0,937866 0,0121441
10 0,948587 0,0107208
11 0,953559 0,0049719
12 0,95752 0,0039613
Il dendogramma
Effettuiamo in modo
automatico la procedura
stepwise
La variabile Bonus-Malus
La variabile Bonus-Malus è una variabile particolare, perché ne conosciamo l’andamento
«a priori». Essa infatti, deve essere crescente al crescere delle classi
FASE 1
FASE 2
FASE 3
Modello finale per il numero sinistri
AIC(FINALE)=12610
Lettura dell’outuput
La colonna valore: Indica il valore del parametro β per una modalità (non è il
coefficiente tariffario)
La colonna standard error: è il reciproco della statistica test di Wald 𝑠𝑑 𝛽 𝛽,
quando l’ipotesi nulla è β=0
La terza colonna contiene i p-value che permettono di verificare la significatività
del parametro
La colonna Exp(Valore): è l’inverso della funzione link applicata al parametro e
corrisponde al coefficiente tariffario. Infatti, ricordiamo che:
Il predittore lineare
Ricordiamo le ipotesi alla base dei GLM OFFSET
FASE 1
FASE 2
FASE 3
FASE 1
Modello finale per il costo medio
AIC(FINALE)=61333
Bibliografia
«La tariffazione nei rami danni con modelli lineari
generalizzati», Gigante P., Picech L., Sigalotti L. , EUT
Edizioni Università di Trieste(2010).
«An introduction to generalized linear models, Second
Edition», Annette J. Dobson, CHAPMAN & HALL/CRC
(2002)
«Modelli stocastici della classe GLM», SIFA,
http://www.sifa-attuari.it/materiale/stampa_2_GLM.pdf