Sei sulla pagina 1di 20

Analisi della variazione dell'Indice dei

Prezzi al Consumo Armonizzato.

Caso studio delle variazioni mensili dell'IPCA per tre classicazioni


di prodotto,in Italia, dal 2001 al 2021.
Come sono cambiati i prezzi per i consumatori italiani nell'ultimo
ventennio.

Marco Piemontese

890876

Introduzione alle serie storiche. A.A. 2021/22


Indice
1 Introduzione 3
1.1 Indici dei prezzi al consumo. . . . . . . . . . . . . . . . . . . . . . 3

1.2 Fonte dei dati, descrizione del dataset e delle variabili. . . . . . . 4

2 Analisi delle serie storiche 5


2.1 Gestione Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Statistiche descrittive e correlazione lineare . . . . . . . . . . . . 5

2.3 Distribuzione dei dati . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4 Analisi esplorativa . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4.1 Dalle variazioni percentuali ai valori di prezzo . . . . . . . 7

2.4.2 Confronto tra sottocategorie di prodotto . . . . . . . . . . 11

2.5 Analisi della persistenza . . . . . . . . . . . . . . . . . . . . . . . 12

2.6 Trasformazione di Box-Cox, Dierenziazione e Test di Dickey-Fuller 13

2.7 Identicazione modello . . . . . . . . . . . . . . . . . . . . . . . . 14

2.7.1 Verica dei modelli . . . . . . . . . . . . . . . . . . . . . . 18

3 Conclusioni 20
Riferimenti bibliograci 20

2
1 Introduzione
Questo elaborato si basa su un'analisi sulla variazione dell'indice IPCA
1 in Italia

negli ultimi venti anni. In particolare l'obiettivo è quello di rispondere ad alcune

domande di ricerca che mi sono posto prima di iniziare l'analisi:

ˆ 1) Come è variato l'indice IPCA negli ultimi venti anni in Italia (con riferi-

mento soltanto ad alcune categorie di prodotto in base alla classicazione

COICOP)?

ˆ 2) Data una categoria di prodotto, come sono cambiati i prezzi delle sotto-

categorie al suo interno? Come è cambiato il consumo dei prodotti in base

alle variazioni di prezzo? Alcuni prodotti sono stati sostituiti da altri?

ˆ 3) La variazione dell'indice dei prezzi al consumo è stata inuenzata da

particolari eventi storici (come la crisi nanziaria del 2008, o la crisi da

COVID-19 )?

ˆ 4) Qual è il miglior modello con cui si possono approssimare le serie

storiche delle variazioni dei prezzi al consumo?

Utilizzando un dataset con circa 250 osservazioni, dal 2001 al 2021, ho voluto

condurre un'analisi delle serie storiche per evidenziare l'oscillazione di questa

misura dell'inazione, con riferimento soltanto a tre diverse categorie di prodotto

secondo la classicazione COICOP.

1.1 Indici dei prezzi al consumo.


I numeri indici dei prezzi al consumo misurano le variazioni nel tempo dei prezzi

di un insieme di prodotti (paniere) rappresentativo di tutti i beni e i servizi

destinati al consumo nale delle famiglie. Gli indici dei prezzi al consumo sono

calcolati utilizzando l'indice di Laspeyres in cui sia il paniere sia il sistema dei

pesi vengono aggiornati annualmente.

In particolare, l'Istat produce tre diversi indici dei prezzi al consumo:

ˆ l'indice dei prezzi al consumo per l'intera collettività (NIC)

ˆ l'indice dei prezzi al consumo per le famiglie di operai e impiegati (FOI)

ˆ l'indice dei prezzi al consumo armonizzato per i paesi dell'Unione Europea

(IPCA)

1 L'IPCA (Indice dei Prezzi al Consumo Armonizzato tra i paesi europei) è uno dei tre
indici, insieme al NIC e al FOI, utilizzati in Italia dall'Istat per studiare l'andamento dei
prezzi al consumo.

3
I tre indici hanno nalità dierenti: il NIC è utilizzato come misura dell'ina-

zione a livello dell'intero sistema economico, il FOI si riferisce ai consumi delle

famiglie che hanno a capo un lavoratore dipendente e l'IPCA è stato sviluppato

per assicurare una misura dell'inazione compararabile a livello europeo. Infat-

ti, viene assunto come indicatore per vericare la convergenza delle economie

dei paesi membri dell'UE.

L'IPCA si riferisce al prezzo eetivamente pagato dal consumatore, a dierenza

degli altri due, che considerano il prezzo pieno di vendita. Ad esempio, nel caso

dei medicinali, il prezzo di riferimento è rappresentato dalla quota eettivamen-

te a carico delle famiglie, e non dal prezzo complessivo.

Inoltre, l'indice IPCA tiene conto anche delle riduzioni temporanee di prezzo,

come saldi, sconti e promozioni. [3]

1.2 Fonte dei dati, descrizione del dataset e delle variabili.


Il dataset utilizzato in questa analisi,  HICP - monthly data (monthly rate of

change), è stato messo a disposizione da Eurostat, l'Ucio statistico dell'Unio-


ne Europea in una sezione del sito web .
2

Contiene 2 842 945 osservazioni dal 1996 no al 2021, che rappresentano le varia-
zioni percentuali mensili dell'indice IPCA, o HICP nella versione inglese (Har-

monized Index of Consumer Prices), suddivise in base ai vari Paesi membri

dell'Unione Europea e alle classicazioni Coicop per i prodotti


3 . [1] [2]

Ai ni dell'analisi, sono state prese in considerazione tre variabili, rappresenta-

te da tre diverse categorie di prodotto: una riguardante i prodotti alimentari,

una riguardante i prodotti tecnologici (dati i notevoli sviluppi negli ultimi venti

anni) e un'ultima relativa alla sanità.

Di seguito le variabili considerate:

ˆ Food: rappresenta la categoria di prodotto CP011, quindi corrisponde

al gruppo n.1 della divisione n.1, ovvero i generi alimentari, escluse le

bevande analcoliche.

ˆ Health: rappresenta la sesta divisione di spesa, secondo la sigla CP06, la

quale corrisponde ai servizi sanitari e spese per la salute.

ˆ Technology: è indicata con la sigla CP08 cioè corrisponde all'intera ottava

divisione di spesa; che, secondo la classicazione, rappresenta i prezzi

delle apparecchiature, dei dispositivi e dei servizi di informazione e di

comunicazione.
2 https://ec.europa.eu/eurostat/web/products-datasets/-/prc_hicp_mmor
3 La classicazione C.O.I.CO.P. (Classication of Individual Consumption by Purpose) è
una classicazione dei consumi messa a punto dalla Divisione Statistica delle Nazioni Unite.
Il primo livello della classicazione dei prodotti considera 12 divisioni di spesa, il secondo è
costituito da 43 gruppi di prodotto e il terzo è formato da 102 classi di prodotto.

4
2 Analisi delle serie storiche
2.1 Gestione Dataset
Innanzitutto, ho importato su R il dataset "prc_hicp_mmor_linear.csv" (do-

po averlo rinominato "Prezzi.csv"), e l'ho trasformato in formato tibble.


Il formato tibble è costruito come sottoclasse di data.frame; lavorare con que-
sta sottoclasse serve ad utilizzare funzioni speciche e metodi diversi da quelli

di default, per esempio il pacchetto Tydiverse.

Dopodiché, visualizzando la struttura del dataset con il comando: str(Prezzi),


ho ritenuto opportuno prendere in considerazione solamente alcune variabili.

Delle nove variabili, infatti, le uniche rilevanti ai ni dell'analisi sono "coicop"

(che indica la classicazione dei prodotti), "geo" (che indica il Paese di rife-

rimento), "TIME_PERIOD" (l'indice temporale) e "OBS_VALUE" (ovvero i

tassi di variazione mensile).

Di conseguenza, ho eliminato le colonne "DATAFLOW", "LAST UPDATE",

"freq", "unit" e "OBS_FLAG", che rappresentano informazioni irrilevanti, co-

me la frequenza mensile o l'ultimo aggionarmento del dataset.

Dopodiché, per la variabile "geo" ho considerato solamente i valori "IT", ossia

quelli relativi al paese Italia, riducendo così le osservazioni a 83 258 ed eliminan-


do la variabile "geo".

Per la variabile "coicop", invece, ho considerato solamente le osservazioni con-

trassegnate con le sigle dei prodotti di interesse (cioè CP011, CP06, CP08 e

le ho rinominate rispettivamente Food, Health e Technology), eliminando tut-

te le altre e arrivando a 933 osservazioni. Inoltre ho applicato la rotazione da

righe a colonne in modo da avere tre variabili come colonne, con il comando:

pivot_wider(names_from = coicop, values_from = OBS_VALUE).


Inne ho preso in considerazione solamente le osservazioni dal Gennaio 2001,
no a Dicembre 2021, eliminando le osservazioni precedenti, in modo da avere

un intervallo temporale preciso dell'ultimo ventennio.

2.2 Statistiche descrittive e correlazione lineare


Variabile Media (avg) Deviazione standard (sd)
Food 0.160 0.460
Health 0.134 0.473
Technology −0.285 0.824

Da questi risultati si può notare che le variazioni percentuali mensili dei prezzi

dei generi alimentari e della sanità hanno una variabilità minore di quelle dei

prodotti tecnologici; ma il dato più rilevante è che i prezzi dei prodotti e dei

5
servizi di informazione e comunicazione siano diminuiti negli ultimi venti anni,

come si deduce dalla media delle variazioni pari a -0.285%. Questa diminuizione

potrebbe essere dovuta al fatto che venti anni fa, nei primi anni duemila, i servizi

e le apparecchiature tecnologiche non erano beni alla portata di tutti ed erano

sicuramente meno accessibili di quanto non lo siano adesso.

Per quanto riguarda le altre due variabili, si può vedere che la media delle

osservazioni è positiva, in particolare 0.160% per i generi alimentari e 0.134%

per la sanità; quindi possiamo dedurre che i prezzi di queste due categorie di

prodotto sono aumentati negli ultimi vent'anni.

Figura 1: Correlazione lineare


La correlazione lineare si può osservare da questi graci a dispersione. È possibile notare
che le tre variabili non presentano una correlazione lineare signicativa; infatti, i coecienti
di Pearson sono tutti prossimi allo zero, ad eccezione di quello tra i generi alimentari e la
tecnologia, che è comunque poco rilevante, pari a 0.127.

2.3 Distribuzione dei dati


Osservando la distribuzione delle variazioni percentuali per le tre categorie di

prodotto, ci si può fare un'idea sulla variabilità e sull'andamento della serie

storica di interesse. Per esempio, si può facilmente vedere quali sono stati i tassi

di variazione mensili più frequenti e quali sono stati i valori anomali.

I graci seguenti mostrano la distribuzione dei dati per ogni variabile attraverso

un istogramma e un boxplot. Sull'istogramma è rappresentata in azzurro la

curva di densità dei dati e in viola la densità di una distribuzione normale, per

poterle confrontare visivamente.

Dalle distribuzioni si può vedere, per esempio, che la variabile Health presenta la

maggior parte delle variazioni prossime allo zero ed ha uno scarto interquartile

estremamente piccolo. Inoltre si può notare dal boxplot della variabile Food la

presenza di pochi outliers; di conseguenza si può dire che, in Italia, negli ultimi

6
vent'anni, non ci sono stati grossi valori anomali nei tassi di variazione mensili

del prezzo dei generi alimentari.

Tuttavia, l'ipotesi di normalità per la distribuzione delle tre variabili è forte-

mente riutata attraverso il test di Bera-Jarque, la cui ipotesi nulla è proprio la

normalità dei dati.

Difatti il p-value risulta quasi nullo in tutti e tre i casi:

Jarque Bera Test per Food : X-squared = 26.795, df = 2, p-value = 1.519e-06


Jarque Bera Test per Health: X-squared = 10040, df = 2, p-value < 2.2e-16
Jarque Bera Test per Technology : X-squared = 2323.6, df = 2, p-value < 2.2e-16

2.4 Analisi esplorativa


2.4.1 Dalle variazioni percentuali ai valori di prezzo
Trasformando il dataset in classe ts (time-series), si possono rappresentare le serie
storiche delle variazioni di prezzo delle tre categorie di prodotto.

Tuttavia, i dati di cui disponiamo sono le variazioni percentuali di prezzo, e non i


valori dei prezzi dei prodotti. Infatti, ogni variazione della variabile Food indica di

7
quanto è variato in percentuale il prezzo dei generi alimentari in Italia rispetto al
mese precedente. Questo vuol dire che se a gennaio 2001 si registra un aumento dello
0.4% e a febbraio 2001 si registra una diminuizione dello 0.4%, in questi due mesi la
variazione è stata del -0.0016% (data dal prodotto tra -0.4% e 0.4%). Risulta quindi
dicile interpretare l'andamento dei prezzi veri e propri.
Tuttavia, dalle serie storiche delle variazioni di prezzo, del dataset originale di Eurostat,
è possibile ricavare le serie storiche dei valori dei prezzi. Infatti queste due grandezze
sono legate dalla seguente relazione: x1x−x 0
0
= v1 , dove x1 e x0 sono rispettivamente i
valori al tempo 1 e al tempo 0, e v1 è la variazione percentuale tra i due periodi.
Di conseguenza, disponendo del valore x0 è possibile ottenere il valore x1 , attraverso
la formula x1 = v1 · x0 + x0 .
Per esempio, il primo valore della serie Food è 0.4, questo vuol dire che nel primo mese
il prezzo dei generi alimentari è aumentato dello 0.4%. Quindi, prendendo x0 uguale
a 1 per semplicità, il valore successivo sarà uguale a 1.004.
Così facendo, ho ottenuto la serie storica dei valori di prezzo applicando quest'ultima
formula attraverso un ciclo for (utilizzando in questo esempio la variabile Food ):
pw_food <- numeric(253)
pw_food[1] <- 1
for(i in 1:252){pw_food[i+1] <- (y_food[i]/100)*pw_food[i] + pw_food[i]}
pw_food <- round(pw_food[-1],4)
pw_food <- ts(pw_food,start=c(2001,01,01),end=c(2021,12,01),frequency=12)

Rappresentando le serie storiche (pw_food, pw_health e pw_technology ) si ottiene


un graco in cui è possibile osservare la variazione di prezzo delle tre categorie di
prodotto, supponendo di avere il prezzo unitario al tempo 0, x0 = 1.

Di seguito, le rappresentazioni grache delle tre diverse serie storiche dei valori dei
prezzi, prendendo il primo valore uguale a 1.

8
Si può notare (come già si deduceva dalla media delle variabili Food, Health e Techno-
logy ) che i prezzi dei generi alimentari e della sanità sono aumentati, mentre i prezzi

della tecnologia sono diminuiti.


Quello che si riesce a notare meglio, osservando queste serie, è che i valori di prezzo,
in tutti e tre i casi, sono aumentati e diminuiti di circa il 50% in vent'anni. Più preci-
samente, le variazioni percentuali tra il primo e l'ultimo valore, delle tre categorie di
prodotto, sono rispettivamente 48.75%, 44.11% e −51.41%.
Di seguito le serie storiche dei valori di prezzo comparate con le variazioni percentuali,
prese in dettaglio per ogni categoria di prodotto:

Generi alimentari La prima cosa che salta all'occhio osservando la serie storica è
un forte trend positivo per tutto il ventennio, ed è l'unica componente assolutamente
visibile ad "occhio nudo", a dierenza di una eventuale stagionalità.
Inoltre è possibile notare che nel primo decennio le variazioni non subiscono grossi
cambi repentini, a dierenza del periodo 2011-2021. Questo si riette sulla serie storica
dei valori, dove l'instabilità delle variazioni tra un mese e l'altro genera una serie molto
più "ruvida".

Guardando le due serie, e considerando gli eventi cruciali di questo ultimo ventennio,
è interessante notare che tra la ne del 2007 e l'inizio del 2008 si è vericato un ra-
pido aumento del prezzo; difatti, le variazioni percentuali dell'anno 2008 sono tutte
positive. Questo aumento è probabilmente dovuto alla crisi nanziaria statunitense di
alcuni mesi prima, che ha poi inuenzato altri settori dell'economia reale mondiale ed
ha causato un crollo della ducia nei consumatori.
Inoltre, dopo un periodo di stabilità negli anni 2009-2010, inizia una fase più "tur-
bolenta" che dà inizio ad un trend in continua crescita che dura no ad oggi. Una
possibile causa di questa tendenza è la crisi dei debiti sovrani che ha colpito l'italia a
partire dal 2011. Per quanto riguarda la crisi da COVID-19 degli ultimi anni, il settore
dei generi alimentari non sembra aver accusato l'eetto della pandemia, mantendo il
trend in continua crescita.

9
Sanità Anche in questo caso, non si può parlare di stagionalità della serie; è invece
assolutamente visibile un forte trend continuo crescente che, in alcuni periodi, sembra
essersi stabilizzato. Inoltre è interessante capire se e come un particolare evento abbia
provocato un lieve shock permanente, visibile nella serie in corrispondenza del 2011.

Da queste due serie storiche si può notare una certa stabilità nelle variazioni percen-
tuali, la cui curva sembra quasi piatta ad eccezione di qualche valore anomalo. Questo
si riette sulla serie storica dei valori, che è molto "liscia" e abbastanza lineare. Inol-
tre è interessante notare che dal 2012 al 2021 la crescita dei prezzi ha cominciato a
rallentare notevolmente.
A cavallo del 2007 e nell'agosto del 2011, si possono notare dei cambi repentini, dovuti
a improvvisi valori anomali nella serie delle variazioni. Più precisamente, a febbraio
2007 si è vericato un aumento percentuale del 3.0% e ad agosto dello stesso anno una
riduzione del -1.8%; ad agosto del 2011, invece, si è registrato un aumento del 4.0%.
Quest'ultimo aumento repentino, in corrispondenza di agosto 2011, è probabilmente
dovuto all'introduzione, in molte regioni italiane, di una quota ssa di 10 euro per i
ticket sulla diagnostica (esami e visite specialistiche) per eetto della legge nanziaria
del mese precedente. Inoltre, è interessante notare un leggero trend decrescente sola-
mente per i mesi da febbraio a settembre del 2020; quindi è verosimile pensare che il
diondersi della pandemia da COVID-19 abbia in qualche modo inuenzato i prezzi
dei servizi sanitari.

Tecnologia La serie dei prodotti e dei servizi informatici di comunicazione è l'unica


delle tre che ha un andamento discendente. È interessante notare che un notevole calo
dei prezzi si è registrato no al 2007, dopodiché la curva diventa molto meno ripida.

10
Inoltre è possibile individuare un'improvvisa riduzione, dovuta ad una variazione ne-
gativa del -6.7% nel solo mese di marzo del 2007. È interessante notare che a gennaio
2007 sono state introdotte due importanti novità nel mondo della tecnologia: il 9 gen-
naio Apple presenta il primo Iphone e il 16 gennaio Netix annuncia lo streaming.
Questi due avvenimenti possono quindi aver inuenzato l'andamento dei prezzi degli
altri prodotti tecnologici concorrenti.
Inoltre, un'altra causa possibile è il decreto legge del 31 gennaio 2007 che emana nuo-
ve norme in materia di trasparenza delle condizioni economiche relative alle oerte
tariarie degli operatori della telefonia.

2.4.2 Confronto tra sottocategorie di prodotto


A questo punto, ipotizzando che il reddito dei consumatori non sia variato in maniera
considerevole, è interessante cercare di capire per quali sottocategorie di prodotto i
prezzi sono aumentati o diminuiti. Sono state quindi calcolate le serie storiche di ogni
sottocategoria attraverso la cumulata delle variazioni percentuali.
ˆ Per la variabile Food sono stati presi: la classe di prodotti CP0111 (che corri-

sponde a pane, cereali, pasta, riso e simili ), la classe CP0121 (cioè caè, tè e
cacao), la classe CP0112 (carne e derivati) e la classe CP0117 (verdure e ortaggi).
ˆ Per la variabile Healthsono stati presi: il gruppo di prodotti CP061 (prodotti
medicinali, attrezzature ed apparecchi terapeutici), il gruppo CP062 (servizi
ambulatoriali) e il gruppo CP063 (servizi ospedalieri).
ˆ Per la variabile Technology, sono stati presi: il gruppo CP082 (apparecchiature

informatiche e dispositivi di comunicazione per la telefonia mobile e ssa) e il


gruppo CP083 (servizi di informazione e comunicazione, come servizi di telefonia
mobile e ssa, fornitura di accesso a internet ecc.)
In particolare, tra le altre sottocategorie osservate, è stato inserito anche il graco
della serie storica della classe CP0913, non considerata nell'analisi. Questa comprende
le apparecchiature per l'elaborazione di informazioni (come personal computers, soft-
ware, calcolatori ecc.) ed è interessante comparare l'andamento dei prezzi di questa

11
sottocategoria con quello dei prodotti e dei servizi di comunicazione considerati nella
variabile Technology.

Dai graci si può notare che le sottocategorie dei generi alimentari hanno registrato un
aumento più o meno simile in termini numerici di crescita. In particolare, la serie della
classe CP0117 dei prezzi di verdure e ortaggi ha un andamento molto più "altalenante"
rispetto alle altre, anche se comunque il trend crescente è evidente in tutte le classi di
prodotto.
Per la sanità, si può facilmente notare una somiglianza della serie della classe CP062
con la serie della categoria generale CP06; si può quindi pensare che l'introduzione dei
ticket della legge nanziaria del 2011 abbia inuenzato solamente i prezzi dei servizi
ambulatoriali. La stessa serie, inoltre, è l'unica delle tre che sembra avere una essione
negativa in corrispondenza del 2020. Le altre invece sembrano seguire, in maniera più
o meno lineare, la tendenza crescente.
Riguardo alla variabile Technology, si nota innanzitutto un'enorme dierenza tra la
serie delle apparecchiature e quella dei servizi, la prima infatti attraversa una discesa
molto ripida con una variazione media del -0.9655% ogni mese. In particolare, la serie
storica dei servizi di informazione e comunicazione è caratterizzata dal lieve break-
strutturale permanente di marzo 2007, accennato prima.
Inne, la serie delle apparecchiature per l'elaborazione di informazioni attraversa una
discesa ripida e continua simile alla serie della classe CP082 delle apparecchiatu-
re di comunicazione. Questi ultimi risultati sono comprensibili dal momento che le
apparrecchaiture informatiche non sono più beni esclusivi come a inizio millennio.

2.5 Analisi della persistenza


Analizzando le autocorrelazioni delle serie storiche si nota una super persistenza nel-
la funzione di autocorrelazione delle tre categorie di prodotto (la persistenza è una
proprietà per la quale un valore al tempo t è molto simile al valore immediatamente

12
precedente). Dal graco a sinistra si nota che i valori dei prezzi risultano, infatti, corre-
lati anche con i valori di 5 anni prima. L'autocorrelazione parziale, ovvero la funzione
di autocorrelazione ripulita dalle correlazioni intermedie, risulta invece statisticamente
non signicativa per tutti i ritardi, tranne che per il primo. I due correlogrammi sono
utili per capire quale tipo di processo rappresenta la serie (AR, MA, ARMA ecc.)

Figura 2: Autocorrelazioni (ACF) e Autocorrelazioni parziali (PACF)

2.6 Trasformazione di Box-Cox, Dierenziazione e Test di


Dickey-Fuller
Per proseguire nell'analisi, si procede applicando la trasformazione di Box-Cox delle
tre serie storiche, per stabilizzare la varianza della serie originali, attraverso la formula:
|λ −1
Zt (λ) = sign(Yt )·|Y
λ
, dove il parametro λ è stato trovato con il metodo di Guerrero.
Al di là di questo, le serie trasformate presentano un chiaro andamento crescente (o
decrescente) nel tempo, ciò esclude la possibilità che siano realizzazioni di un processo
stazionario; è possibile però che si tratti di un processo stazionario attorno ad un trend
deterministico, per vericarlo utilizziamo il test di Dickey-Fuller aumentato. L'ipotesi
nulla aerma che il coeciente di Yt-1 nell'equazione ∆Yt = γ · Yt−1 + εt sia uguale
a zero, questo vuol dire che il processo può essere considerato non stazionario, cioè
guidato da un trend stocastico. Secondo l'ipotesi alternativa invece il coeciente γ è
minore di zero.
L'intuizione dietro al test è che un processo stazionario, a dierenza di uno non sta-
zionario, ha la tendenza di tornare alla media; di conseguenza il livello della serie sarà
un predittore signicativo ed avrà coeciente δ negativo (questo vuol dire che valori
alti tenderanno ad essere seguiti da valori bassi).
Per tutte e tre le variabili è stata calcolata, sulle serie trasformate, la dierenza di
ordine 1 e svolto il test ADF sia sulla serie originale trasformata che sulla serie die-
renziata. Il test è stato svolto nei tre casi possibili (unit root, unit root con costante,
unit root con costante e trend lineare). Riguardo la variabile Food, la serie originale
risulta non stazionaria dato che l'ipotesi nulla non viene mai riutata. Al contrario,
per la serie dierenziata il test riuta sempre; si può quindi concludere che la dierenza
prima della serie originale è stazionaria.

13
Figura 3: Serie dierenziate di ordine 1

Per la variabile Health i risultati sono gli stessi ottenuti in precedenza, portando alla
conclusione che la dierenza prima è, anche in questo caso, stazionaria. Allo stesso
modo, per la variabile Technology l'ipotesi nulla non viene riutata; la serie dieren-
ziata di ordine 1 invece risulta stazionaria. Si può quindi giungere alla conclusione che
le tre serie storiche sono processi integrati di ordine 1, in quanto la dierenza prima
di ogni serie risulta stazionaria.

2.7 Identicazione modello


A questo punto è opportuno cercare di identicare il processo che caratterizza le tre
serie: come si vede dai correlogrammi, l'autocorrelazione decade lentamente in maniera
esponenziale e la parziale si annulla dopo il primo lag; possiamo quindi aermare che
è possibile che si tratti di processi autoregressivi (AR) di ordine 1. Inoltre sappiamo,
con il test di Dickey-Fuller, che tutte e tre le serie sono processi integrati.
Un processo AR(1) (autoregressivo di ordine 1) può essere espresso nella seguente
forma: Yt = φ · Yt−1 + εt , ovvero come combinazione lineare del suo valore passato
più una componente stocastica che garantisce casualità al modello.
Sapendo che ∆Yt = Yt − Yt−1 , è possibile riscrivere Yt come ∆Yt + Yt−1 ; quindi
si ottiene ∆Yt = (φ − 1) · Yt−1 + εt . Sappiamo, inoltre che se la serie è un Random
Walk è un processo non stazionaro a radice unitaria, cioè che γ = φ − 1 = 0, ovvero:
∆Yt = εt .
Di conseguenza se la dierenza prima della serie è un White Noise, possiamo giungere
alla conclusione che la serie originale è un Random Walk o un RW con drift, cioè un
processo RW con l'aggiunta di una costante, con equazione: Yt = µ + φ · Yt−1 + εt .

14
Food Prendiamo in considerazione la serie storica per i generi alimentari; osservan-
do il correlogramma della dierenza prima di Food, si nota un evidente stagionalità
con un periodo di 12 mesi, (come si può intuire dalla forza della componente nella
decomposizione moltiplicativa).
In particolare, le autocorrelazioni totali decadono esponenzialmente mentre le auto-
correlazioni parziali si annullano dopo 2 ritardi, multipli di 12. A questo proposito ho
calcolato il modello ottimo con il comando auto.arima, allargando la ricerca anche ai
modelli stagionali con l'argomento seasonal=T e utilizzando come criterio di "ricerca"
l'AIC corretto.
Il modello ottenuto è un SARMA(1,0)(2,0)[12] (dove 12 indica il periodo della stagiona-
lità), quindi la componente regressiva della serie è di ordine 1, mentre la componente
autoregressiva della stagionalità è di ordine 2, come si intuisce dal correlogramma
parziale. Di conseguenza, il modello ottimo individuato per la serie è un processo
SARIMA(1,1,0)(2,0,0)[12].

Figura 4: Serie originale, Istogramma, ACF, PACF ( Food )

Figura 5: Serie dierenziata, Istogramma, ACF, PACF ( Food )

15
Health Prendiamo adesso in considerazione la serie storica per la variabile Health.
La serie originale sembra avere tutte le caratteristiche per essere considerata un RW.
Per confermare questa ipotesi occorre osservare la serie della dierenza prima.

Figura 6: Serie originale, Istogramma, ACF, PACF ( Health )

Figura 7: Serie dierenziata, Istogramma, ACF, PACF ( Health )

Nella serie della dierenza prima, le autocorrelazioni parziali e totali sono quasi tutte
non signicative, ad eccezione dei ritardi 48 e 54; secondo il criterio AICc, il modello più
accurato è ancora un ARIMA. Poiché i criteri di informazione su cui si basa la ricerca
del modello ottimo non sono buoni indicatori per selezionare l'ordine di dierenziazione
d, ma solo per selezionare i valori di p e q, occorre fare un'altra dierenziazione.
Ho calcolato quindi la dierenza seconda della serie originale e, come si può vedere
dai correlogrammi, la ACF si annulla dopo il primo ritardo mentre la PACF decade
esponenzialmente. Di conseguenza, la dierenza di ordine 2 della serie originale è
caratterizzata da una componente a media mobile di ordine q =1.
Difatti, il modello ottimo trovato, che miminizza l'AICc, è un MA(1).
Andando a ritroso, la dierenza prima della serie è un modello ARIMA(0,1,1), e la serie
originale è un processo integrato di ordine 2, e più precisamente può essere considerata
realizzazione di un processo ARIMA(0,2,1).

16
Figura 8: Dierenza seconda, Istogramma, ACF, PACF ( Health )

Technology Per quanto riguarda la serie storica per la variabile Technology, è pos-
sibile che anche questa sia una realizzazione di un processo Random Walk, in quanto
presenta le stesse caratteristiche della serie precedente.

Figura 9: Serie originale, Istogramma, ACF, PACF ( Technology )

Figura 10: Serie dierenziata, Istogramma, ACF, PACF ( Technology )

Osservando i correlogrammi della dierenza prima, le autocorrelazioni si possono con-


siderare tutte non signicative; quindi, utilizzando il solito comando per trovare il
modello ottimo che minimizza il criterio di informazione scelto, la serie dierenziata

17
di ordine 1 è un ARMA(2,2). Quindi, la serie originale può essere interpretata come
un ARIMA(2,1,2).

2.7.1 Verica dei modelli


Per vericare le assunzioni sui modelli delle serie, procediamo con l'analisi del tting
del modello ai dati, ovvero della loro capacità di adattamento, e con l'analisi sui resi-
dui (o diagnostic checking). Infatti, anché il modello riesca a "catturare" tutto ciò
che può essere previsto, cioè tutto tranne la parte casuale, i residui devono essere la
realizzazione di un processo White Noise.
Per la variabile Food il modello ottimo selezionato è un SARIMA(1,1,0)(2,0,0). Svol-
gendo opportuni test sui residui del modello, come i test Portmanteau e quello di
Bera-Jarque, si può giungere alla conclusione che i residui sono White Noise, ma non
seguono una distribuzione Normale. Infatti, come si può vedere dai correlogrammi dei
residui, le autocorrelazioni sono tutte nulle e il test di normalità riuta l'ipotesi nulla.
Inoltre, testando con il comando Arima il modello Random Walk, si può notare chia-
ramente che i criteri di informazione sono minori per il modello SARIMA selezionato.

Figura 11: Serie originale, Fittati e Residui ( Food )

Per la variabile Health il modello ottimo selezionato è un ARIMA(0,2,1), e il fatto che


i residui risultino White Noise, dai correlogrammi e dai test Portmanteu, ci suggerisce
che il modello è ben identicato, come si può vedere dal graco dei valori ttati.
Tuttavia, procedendo a testare il modello White Noise sulla dierenza prima, che
equivale a dire che la serie è un Random Walk, i criteri di informazione AIC, AICc
e BIC presentano valori più bassi. Di conseguenza, disegnando i correlogrammi della
dierenza prima si vede che le autocorrelazioni sono quasi tutte non signicative, ad
eccezione di due valori. Inoltre, i test Portmanteau accettano, per tutti i ritardi,
l'ipotesi nulla secondo la quale le autocorrelazioni possono essere considerate nulle, e
quindi la serie è indistinguibile da un processo White Noise.

18
A questo punto, la serie originale Health può essere considerata un Random Walk con
drift pari a 0.0014.

Figura 12: Serie originale, Fittati e Residui ( Health )

Inne, per la variabile Technology il modello ottimo selezionato è un ARIMA(2,1,2)


con drift, ed i valori ttati rappresentano una buona approssimazione dei valori origi-
nali per entrambi i modelli, senza sostanziali dierenze sul graco. Inoltre, i residui del
modello sono realizzazioni White Noise, come si può vedere dai correlogrammi e dai te-
st Portmanteau, e come conferma il modello ARIMA(0,0,0) trovato con auto.arima.
Anche per questa serie, ho testato il modello White Noise sulla dierenza prima e
confrontato i criteri di informazione, per capire se la serie originale può essere inter-
pretata come Random Walk. Basandosi su AIC e AICc, però, il modello ottimo è un
ARIMA(2,1,2) con drift pari a -0.0027.

Figura 13: Serie originale, Fittati e Residui ( Technology )

19
3 Conclusioni
La relazione consiste in un'analisi della variazione dei prezzi al consumo di alcune
categorie di prodotti e servizi, secondo la classicazione Coicop: è stato studiato il
cambiamento che questi prezzi hanno avuto nell'ultimo ventennio, dal 2001 al 2021.
È stato evidenziato, nel corso di questo elaborato, come i prezzi di queste tre categorie
di prodotto abbiano subìto un'evoluzione più o meno accentuata nel tempo, dimostra-
to dai risultati relativi alle serie pw_food, pw_health e pw_technology.
I risultati di questo studio dimostrano come il prezzo dei generi alimentari ed il prezzo
della sanità abbiano subito un notevole aumento a partire dai primi anni duemila e
che questo non si sia mai interrotto, anzi la crescita che si è registrata è di circa il
45%. Il prezzo dei prodotti e dei servizi di tecnologia, invece, risulta essere diminuito
di oltre il 50% negli ultimi venti anni.
Per quanto riguarda i risultati relativi alla modellazione delle serie storiche, ovvero
ai modelli che meglio approssimano i dati originali, è stato individuato un processo
SARIMA(1,1,0)(2,0,0)[12] per la serie storica sul prezzo dei generi alimentari, un Ran-
dom Walk con drt per la serie storica dei prezzi della sanità e un ARIMA(2,1,2) per
la serie dei prezzi dei prodotti e servizi di comunicazione.

Riferimenti bibliograci
[1] Eurostat METADATA Classication of Individual Consumption by Purpose, 2018
version, (Ultimo accesso: 12 febbraio 2021)
https://ec.europa.eu/eurostat/ramon/nomenclatures/index.cfm?
TargetUrl=LST_NOM_DTL&StrNom=COICOP_2018&StrLanguageCode=EN&IntPcKey=
&StrLayoutCode=HIERARCHIC&IntCurrentPage=1.
[2] Istat COICOP IPCA, (Ultimo accesso: 12 febbraio 2021)
http://dati.istat.it/Index.aspx.
[3] Istat (produzione editoriale) (2013), Indici dei prezzi al consumo. Aspetti generali
e metodologia di rilevazione, Edizione 2012.

20

Potrebbero piacerti anche