Sei sulla pagina 1di 7

INTRODUZIONE

Il seguente report si basa su un data set che contiene la serie storica trentennale (1990-2020) dei prezzi spot di 4
commodities appartenenti al medesimo gruppo, quello del beverage: cacao, caffè arabica, caffè robusta, thè.

I prezzi sono espressi in $ al kg. Le fonti da cui provengono i dati presenti nel data set sono rispettivamente:

• International Cocoa Organization


• International Coffee Organization
• World Bank

ORGANIZZAZIONE DEI DATI


Natura dei dati
Le variabili oggetto del report, ossia le 4 commodities hanno natura qualitativa. Non essendo presenti valori missing
non è stato necessario imputare i dati mancanti col metodo della media o col metodo della mediana.

Coffee, Other Coffee,


Cocoa Mild Arabicas Robusta
beans Price Price Price Tea Price
360 360 360 360
tipo dati
quantitativo quantitativo quantitativo quantitativo
missing 0 0 0 0

Distribuzione di frequenza a partire dalla matrice


Osserviamo innanzitutto che sono presenti 30 anni: per ogni anno si hanno 12 osservazioni ad eccezione degli anni
1990 e 2020 per i quali si hanno rispettivamente 10 e 2 osservazioni.

osservazioni a disposizione per ciascun anno


20
n° osservazioni

10

0
anno

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
2012 2013 2014 2015 2016 2017 2018 2019 2020

prezzo cacao prezzo caffè arabica


25% 25%
50% 49%

25% 26%

<1,3875 >=1,3875 - <=1,70 >1,70 <1,9275 >=1,975 - <=2,78 >2,78

prezzo thè prezzo caffè robusta


24% 25%
50% 50%

26% 25%

<1,52 >=1,52 - <=1,885 >1,885 <1,1175 >=1,1175 - <=1,685 >1,685


ANALISI DESCRITTIVA DEI DATI

Analisi univariata

Passiamo ora alle misure di posizione e variabilità per ciascuna variabile:


Cocoa beans Coffee, Other Mild Coffee,
Price Arabicas Price Robusta Price Tea Price
media 1,9323 2,8619 1,6416 1,9999
mediana 1,70 2,78 1,685 1,885
q1 1,3875 1,9275 1,1175 1,52
q3 2,48 3,47 2,05 2,3925
deviazione
standard 0,71436 1,13181 0,63475 0,54037
min 0,86 1,17 0,5 1,12
max 3,53 6,62 4,03 3,39
coefficiente di
variazione 0,5103 1,2810 0,4029 0,292

Volendo confrontare la variabilità di insiemi che, pur essendo espressi nella medesima unità di misura, hanno medie
differenti, facciamo ricorso a un indicatore adimensionale di variabilità: il coefficiente di variazione.

Possiamo osservare come la variabile che presenta maggiore variabilità sia il prezzo del caffè arabica (1,281).

Calcolando la media e la deviazione standard dei prezzi di ciascuna commodities per ogni anno dal 1990 al 2020
possiamo ricavare il coefficiente di variazione per uno specifico anno del prezzo di una data commodity.

In questo modo abbiamo l’opportunità di confrontare la variabilità del prezzo della commodity in più anni oppure
confrontare in corrispondenza di un particolare anno qual è stata la commodity il cui prezzo nell’anno ha presentato
una maggiore variabilità. Il coefficiente di variazione, essendo un indicatore adimensionale che prescinde dall’ordine
medio di grandezza del fenomeno (che è diverso da insieme a insieme) permette un confronto omogeneo fra i valori.

coefficiente di variabilità
0,5

0,4

0,3

0,2

0,1

0
1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 2020

Cocoa beans Price Coffee, Other Mild Arabicas Price


Coffee, Robusta Price Tea Price

Osserviamo a titolo esemplificativo che nell’anno 1994 il prezzo del caffè (sia di qualità arabica che di qualità
robusta) ha presentato una variabilità nettamente superiore rispetto ai prezzi di thè e cacao.
Analisi bivariata
Cocoa beans Coffee, Other Mild Arabicas Coffee, Robusta
Price Price Price Tea Price
0 |- 1,48 7,595505618 21,75280899 24,82022472 9,449438202 63,61798
1,48 |-|
1,93 0,245912807 22,8126703 1,635558583 15,94618529 40,64033
1,93 -| 2,64 0,43767507 8,941876751 2,779411765 3,93907563 16,09804
> 2,64 2,5 154,7111111 62,5 8,711111111 228,4222
10,77909349 208,2184672 91,73519507 38,04581023 348,7786
chi_quadro

Connessione tra i caratteri


Si è voluta misurare la connessione esistente tra i caratteri:

x → tipo di bevanda

y → prezzo della bevanda ($ al kg)

La connessione è una misura dell’allontanamento dalla condizione ipotetica di indipendenza in distribuzione (quando
le distribuzioni di un carattere, al variare delle modalità dell’altro carattere, rimangono identiche).

FREQUENZE EMPIRICHE
Cocoa beans Coffee, Other Mild Arabicas Coffee, Robusta
Price Price Price Tea Price
0 |- 1,48 115 45 136 60 356
1,48 |-|
1,93 87 46 104 130 367
1,93 -|
2,64 83 61 105 108 357
> 2,64 75 208 15 62 360
360 360 360 360 1440

FREQUENZE TEORICHE
Coffee, Robusta
Cocoa beans Price Coffee, Other Mild Arabicas Price Price Tea Price
0 |- 1,48 89 89 89 89 356
1,48 |-|
1,93 91,75 91,75 91,75 91,75 367
1,93 -| 2,64 89,25 89,25 89,25 89,25 357
> 2,64 90 90 90 90 360

Calcoliamo il chi quadro, indicatore che, se maggiore di 0, indica la presenza di una connessione tra i due caratteri.

Per avere una misura standardizzata della connessione esistente fra le due variabili calcoliamo l’indice di Cramer.

chi^2 max 720


v_cramer 0,22987258

Interpretiamo così il risultato ottenuto: tra la variabile tipo di bevanda e la variabile prezzo della bevanda c'è una
connessione che è uguale al 22,99% della massima connessione possibile.
Correlazione e codevianza

0,669896688 0,476847483 0,70459398 0,78418262 0,579204493 0,413426077


correlazione correlazione correlazione correlazione correlazione correlazione
x,y x,z x,w y,z y,w w,z

0,541623145 0,216221072 0,271985256 0,563365343 0,354236043 0,141803787


codevianza codevianza codevianza codevianza codevianza codevianza
x,y x,z x,w y,z y,w w,z

Per sinteticità ci riferiamo alle variabili prezzi con le lettere x, y, z, w.

Cacao → x Caffè arabica → y Caffè robusta → z Thè → w

L’indice di correlazione lineare può assumere valori compresi fra -1 e 1. Nel nostro caso assume qui sempre valori
positivi indicando una correlazione lineare positiva tra le variabili. La correlazione che più si avvicina a 1 è quella
esistente fra prezzo del caffè arabica e prezzo del caffè robusta (0,78). Tra le 2 variabili infatti c’è una correlazione
lineare positiva che è uguale al 78% della massima correlazione lineare possibile. Questo ci dà un’idea della forza che
ha la relazione lineare nelle due variabili.

La codevianza può assumere qualsiasi valore; nel nostro caso assume sempre valori maggiori di 0; il che significa che
tendenzialmente al crescere di x cresce anche y.

ANALISI INFERENZIALE
Calcolo di intervalli di confidenza per la media
Costruiamo ora gli intervalli di confidenza per ciascuna variabile. Consideriamo la serie storica trentennale dei prezzi
delle commodities come un campione di un più ampio fenomeno che vogliamo indagare. Consideriamo la
popolazione come ignota e calcoliamo l’intervallo di confidenza per la media con varianza in popolazione non nota
con un livello di confidenza del 95% (α = 0,05). Nel 95% dei campioni estraibili dalla popolazione, la media ricadrà
all’interno dell’intervallo ottenuto (intervallo compreso fra limite superiore e limite inferiore).

Coffee,
Coffee,
Other Mild
Cocoa beans Price Robusta Tea Price
Arabicas
Price
Price
IC per la media con varianza in popolazione
ignota
media 1,932306 2,861889 1,641583 1,999889
deviazione_standard_campionaria 0,715355 1,133381 0,635631 0,541119
N 360 360 360 360
media-+t_(1-
FORMULA alpha/2)*(dev_st/radq(N))
alpha_2 0,05 0,05 0,05 0,05
t_(1-alpha/2) 1,966594 1,966594 1,966594 1,966594
funzione: inv.t(alfa; dev_standard; n)

Limite superiore 2,006451 2,979362 1,707466 2,055975


Limite inferiore 1,85816 2,744416 1,575701 1,943803
Test di ipotesi per la media
Operiamo un test per il confronto fra medie: vogliamo determinare se due campioni (la serie trentennale dei prezzi
del cacao e la serie trentennale dei prezzi del thè) pur avendo medie campionarie diverse hanno in realtà medie
uguali in popolazione oppure no. Con questo test di significatività, che è una t di Student, vogliamo sapere se la
differenza tra le due medie è dovuta tutta e solo all’errore di campionamento (è imputabile cioè al fatto che
lavoriamo su campioni e non sulle intere popolazioni) e quindi in realtà le medie in popolazione sono verosimilmente
uguali oppure oltre all’errore casuale di campionamento (che è sempre presente) interviene un ulteriore fattore che
è sistematico e che contribuisce a generare la differenza osservata fra le medie.

Cocoa beans Price Tea Price

0,511732553 0,29281
p.value
Non c’è differenza Accetto
0,153297299 > 0,05 significativa Ho
Non c’è differenza Accetto
0,076648649 > 0,05 significativa Ho

Abbiamo due campioni che mostrano anche due varianze diverse.

Abbiamo fatto un test prima a due code poi ad una coda. In entrambi i casi il p.value è risultato essere maggiore di
0,05 (valore di α), che è il livello di significatività del test. Il che significa che è il test non è significativo di una
differenza che vada al di là di quella attribuibile al solo errore di campionamento. Pertanto, questo ci induce a non
rigettare l’ipotesi nulla, cioè che le due medie in popolazione siano in realtà uguali.

Regressione lineare semplice


Infine, avendo osservato che fra il prezzo del caffè arabica e il prezzo del caffè robusta esiste una correlazione lineare
positiva che è uguale al 78% della massima correlazione lineare possibile, vogliamo indagare ulteriormente su questa
relazione lineare.

Assumiamo come variabili:

X = PREZZO CAFFE' ROBUSTA


Y = PREZZO CAFFE' ARABICA

Statistica della regressione


R multiplo 0,78418262
R al quadrato 0,614942382 INDICE DI BONTA' DEL MODELLO
R al quadrato corretto 0,613866802 la variabile di y è spiegata per 61,49% dal suo dipendere lineare da x
Errore standard 0,704278589
Osservazioni 360

Notiamo innanzitutto che l’indice di determinazione lineare (R al quadrato) è pari a 0,61. Il che significa che la
variabile prezzo del caffè arabica è spiegata per il 61,49% dal suo dipendere lineare dalla variabile caffè robusta.
Questo indice serve per valutare la bontà del modello lineare nel descrivere i dati e può assumere valori compresi fra
0 e 1.

Coefficie Errore Valore di Inferiore Superiore Inferiore Superiore


nti standard Stat t significatività 95% 95% 95,0% 95,0%
0,56652 0,1029228 5,50439 0,364118 0,768937 0,3641184 0,7689372
Intercetta 7828 75 1817 7,0755E-08 415 242 15 42
Coffee, 1,39826 0,0584779 23,9108 1,283256 1,513263 1,2832569 1,5132639
Robusta Price 0456 59 9685 3,45645E-76 969 943 69 43
Possiamo constatare la presenza di coefficienti statisticamente rilevanti (sia quello angolare sia quello relativo
all’intercetta) dal momento che i valori soglia Stat t sono maggiori di 2 e i valori di significatività (o p.value) sono
minori di 0,05 (che è il nostro livello di significatività).

In conclusione, possiamo interpretare il coefficiente angolare come segue:

il prezzo del caffè arabica aumenta di 1,398$ all'aumentare di 1$ del prezzo del caffè robusta.
Sommario
INTRODUZIONE................................................................................................................................................................. 1
ORGANIZZAZIONE DEI DATI ............................................................................................................................................. 1
Natura dei dati .............................................................................................................................................................. 1
Distribuzione di frequenza a partire dalla matrice ....................................................................................................... 1
ANALISI DESCRITTIVA DEI DATI........................................................................................................................................ 2
Analisi univariata ........................................................................................................................................................... 2
Analisi bivariata ............................................................................................................................................................. 3
Connessione tra i caratteri ........................................................................................................................................ 3
Correlazione e codevianza ........................................................................................................................................ 4
ANALISI INFERENZIALE ..................................................................................................................................................... 4
Calcolo di intervalli di confidenza per la media ............................................................................................................ 4
Test di ipotesi per la media ........................................................................................................................................... 5
Regressione lineare semplice........................................................................................................................................ 5

Potrebbero piacerti anche