Sei sulla pagina 1di 12

Schema degli argomenti trattati

-Indici globali di autocorrelazione;


-Definizione di strutture di vicinato
-Modelli SAR

MODELLI PER DATI SU


RETICOLO (LATTICE DATA)

-Modelli CAR

Matrici di prossimit

Dati su reticolo
Si intendono dati su aree (regolari e irregolari). Si considera il
processo spaziale

{Z ( s) : s D}

Il dominio D={s1,s2,,sn} fisso e discreto (non casuale e


numerabile).
Siti spaziali sono riferiti ad aree o regioni.
Quando le forme sono irregolari: dati regionali
Lattributo Z pu essere continuo o discreto.
I dati sono dipendenti:
a) dati osservati in siti vicini tendono ad assumere valori simili
(autocorrelazione positiva) o valori differenti (autocorrelazione
spaziale negativa)
b) la dipendenza tra due osservazioni decresce al crescere della
distanza tra i punti di osservazione
3

Lelemento (i,j)-esimo della matrice di prossimit spaziale W,


indicato con wij, quantifica la dipendenza spaziale tra le regioni i
e j e considerate congiuntamente, le wij costituiscono una
struttura di vicinato sullintera area considerata.
Caso pi semplice: matrice di connettivit binaria

1 se le regioni i e j sono confinanti


wij =
altrimenti
0
Essa conduce ad una matrice W simmetrica, infatti wij=wji e si
fissa wii=0.

Matrici di prossimit

Matrici di prossimit
Estensione, cio lidea che il vicinato includa regioni che sono
vicine e non solo adiacenti.
In questo caso le regioni con wij=1 sono chiamati q-nearest
neighbors della regione i. In questo caso la matrice di prossimit
non necessariamente simmetrica

1 se il centroidedella regione j uno dei q

wij = pi vicini al centroidedella regione i


0 altrimenti

Invece di definire un certo numero di vicini, possiamo definire i


vicini come funzione parametrica della distanza. Per esempio se
dij indica la distanza (Euclidea, o in altre metriche) tra i centroidi
delle regioni i e j, si possono definire:

d ij-
wij =
0

1 se d ij <
wij =
0 altrimenti

>0

altrimenti

Per qualche potenza . Entrambi gli approcci conducono a matrici


simmetriche.
Un altro esempio: definire una struttura di vicinato basata sulla
frazione dei confini condivisi delle regioni.

l se le regioni i e j sono confinanti


wij = l
0 altrimenti
ij

dove lij la lunghezza del confine tra i e j e li il perimetro della


6
regione i. Matrice W non simmetrica

Indice di Moran (1950)

Indici globali di autocorrelazione


Misura di somiglianza dei valori nei siti i e j con pesi che tengono
conto della vicinanza tra i siti.

wij similarij

E una variazione del test del rapporto di verosimiglianze ed uno


dei migliori test per modelli di correlazione particolari sotto la
normalit distributiva della variabile casuale.

similij = ( Z ( si ) Z )( Z ( s j ) Z )

i j

wij
i j

Media pesata tra le somiglianze tra le osservazioni spaziali.


Due matrici di interesse: quella dei pesi e quella dei valori di
somiglianza. C arbitrariet su come si scelgono queste due
matrici.
La misura di similarit dipende dalle variabili casuali che
definiscono le osservazioni.

Il tutto diviso per la varianza campionaria osservata nelle Z(si).


wij ( Z ( si ) Z )( Z ( s j ) Z )

1
I = 2

wij
i

I una variabile casuale avente distribuzione definita dalle


distribuzioni e dalle interazioni spaziali.
E(I)=-1/(N-1).
Se I>E(I) allora siti vicini tendono ad essere simili. La
correlazione spaziale positiva e aumenta in funzione di |I-E(I)|.8

Indice di Geary

Esempi di dati su reticolo (disponibili su R)

In questo caso la proposta di una misura di similarit del


tipo:

Pacchetto R spdep
SIDS (risposta univariata su reticolo irregolare) Cressie,
1993 dataset ncsids di R

similij = ( Z ( si ) Z ( s j )) 2

Studio la distribuzione territoriale delle morti infantili improvvise in


North Carolina (i valori sono conteggi), organizzazione dei dati che
segue la geografia della zona (irregolare).

Il rapporto di contiguit di Geary:

N 1
c=
2
2 ( Z ( si ) Z )

wij ( Z ( si ) Z ( s j ))
i

0c2

wij
i

PEPPER FIELD (risposta binaria su reticolo regolare)


Chadoeuf et al, 1992 (file pepper.txt)
Altri dataset

Anche c una variabile casuale con E(c)=1. Se c>E(c) i siti


sono connessi ad altri con valori dissimili.
c=0 perfetta correlazione spaziale positiva
c=1 indipendenza spaziale
c=2 perfetta correlazione spaziale negativa
9

10

Prima fase: rappresentazione grafica dei dati SIDS

PEPPER FIELD DISEASE INCIDENCE


P e p p e r d a ta

10

400

10

EASTING

500

300
200

200

100

100

50

100

NORTHING

150

200

0
0

EASTING

400
300

number of SIDS

40
30
20

500

number of SIDS

50

60

15

20

SIDS DATA 1979 square root transformed

SIDS DATA 1979

50

100

150

200

NOTHING

11

10

15
x

1
20

12

Esempi di vicinato

Strutture di vicinato (Besag, 1974)

1) Connessione della torre

la struttura di vicinato definisce il modo con cui i siti sono


connessi tra loro
si definisce un grafo non orientato
G = (V,W)
dove V il reticolo
e W una matrice simmetrica, binaria, di dimensioni nn e con
elemento generico wij

Grafo non orientato

10

v ic in a to d e lla to r r e

Besag (1974): Spatial interaction and the statistical analysis of lattice systems
(with discussion). J.R. Statistical Society B, 36, 192-236.

13

2) Connessione della regina

10

14

Grafo non orientato

3) connessione della torre di ordine 1 e 2


connessione della torre vicini fino al secondo ordine

10

vicinato della regina

10

15

16

Il grafo non orientato per il North Carolina


con 4 vicini

Sedi di contee in North Carolina (reticolo irregolare)

100
0

50

50

north

100

150

150

G r a f o d e l v ic in a t o N N k = 4 p e r i d a t i S ID S

100

200

300

400

100

500

200

300

400

500

east

17

Il grafo non orientato per il North Carolina


con 8 vicini

18

Note sui dati su reticolo


Si deve tener conto che non possibile osservare una
realizzazione del processo tra due punti nel reticolo.

G r a fo d e l v ic in a to N N k = 8 p e r i d a ti S ID S

150

Vengono proposti metodi semplici per modellare la struttura di


probabilit di Z(s).

100
50

Per i dati di tipo geostatistico vale che:


Kriging assume che si campioni da una superficie continua e
lo scopo prevedere in siti in cui non ci sono osservazioni.
Per i dati su reticolo non ci sono obiettivi di tipo previsivo.
Funzioni di covarianza spaziale sono basate sulla distanza
tra osservazioni. Quindi il concetto di distanza deve essere
rivisto per i dati lattice

north

Per semplicit Z(s) viene considerata univariata.

100

200

300
east

400

500

19

20

Obiettivi dellanalisi spaziale per dati su reticolo

Strutture spaziali

Quantificare la natura dellassociazione tra una variabile


spaziale risposta, Z(s), e un insieme di covariate spaziali.

Strutture di larga scala

Z(s)=X(s)+(s)
Le usuali assunzioni fatte sul modello di regressione
classico vengono a mancare (in particolare quella
sullincorrelazione dei residui).

Vettore delle medie per dati su reticolo


Strutture di piccola scala
Pesi del vicinato per processi su reticolo

21

Obiettivi dellanalisi spaziale per dati su reticolo


Le assunzioni che sono alla base dei modelli autoregressivi
spaziali sono:
la dipendenza tra le osservazioni (se esiste) di tipo
lineare;
nessuna osservazione predicibile con certezza
conoscendo solo qualcuna delle altre.
In generale i modelli AutoRegressivi spaziali possono
essere visti come caso particolare dei modelli lineari. La
particolarit risiede in come viene costruita la matrice V.

23

Ci si avvicina al concetto dei modelli autoregressivi di


serie storiche.
Si incorpora (nel modello di regressione) lidea di
similarit spaziale trattando le osservazioni della variabile
risposta nei siti del dominio come covariate aggiuntive del
modello con parametri che misurano lassociazione
spaziale.
Il modello autoregressivo induce una struttura di
covarianza particolare per la distribuzione congiunta di
variabili.
22

Due approcci alla modellazione dei dati su reticolo


SAR: Simultaneos AutoRegressive model
CAR: Conditional AutoRegressive model
Entrambi questi modelli vengono visti riferiti ad una
distribuzione gaussiana (modello auto-normale)

24

SAR: Simultaneous AutoRegressive Models

SAR: Simultaneous AutoRegressive Models

A partire dal modello:

Z ( si ) = X ( si )' + ( si )

Il modello della forma:

il modello SAR incorpora lapproccio autoregressivo scrivendo la


struttura derrore come:
N

( si ) = bij ( s j ) + ( si )
j =1

dove:
-bii=0 non regredisce (si) su se stesso;
-bij rappresentano i parametri di dipendenza spaziale, poich essi
misurano il contributo delle altre osservazioni ((sj),ji)
alla
variazione di (si)
-(si) sono termini di errore indipendenti e a media nulla
~(0,2I).

Z ( si ) = X ( si ) ' + ( si ) = X ( si ) ' + bij ( s j ) + v( si )


Caso particolare: tutti i bij =0 siamo nel caso di modello di
regressione con errori incorrelati.
Se si usa la relazione ( s j ) = Z ( s j ) X ( s j ) ' , sostituendo
si ha:
N

Z ( si ) = X ( si ) ' + bij ( Z ( s j ) x( s j ) ' ) + ( si )


j =1

(Whittle, 1954).

25

SAR: Simultaneous AutoRegressive Models

26

SAR: Simultaneous AutoRegressive Models


Per ridurre il numero di parametri di dipendenza spaziale si
parametrizza la matrice B in funzione delle informazioni
sulla prossimit e lautocorrelazione definite prima.

In forma matriciale:
(I-B)(Z-X)=
dove B una matrice nxn contenente i parametri di dipendenza
spaziale.
La matrice di covarianza di Y quindi:

Z = ( I B ) 1 ( I BT ) 1

Z ( si ) = X ( si ) ' + wij ( Z ( s j ) X ( s j ) ' ) + ( si )


jNi

Un caso particolare:
B=W dove wij=1 se il sito i vicino al sito j e
altrimenti ( la matrice di prossimit).

wij=0

Il modello diviene quindi:

Condizione necessaria che (I-B)-1 esista.

Z = X +

= W + v
27

Z = X + ( I W ) 1 v
28

SAR: Simultaneous AutoRegressive Models

STIMA-SAR (lag model)

Affinch il modello sia specificato correttamente si


richiede che (I- W) sia non singolare (quindi invertibile).
A tal fine si pongono delle condizioni su W e (in particolare
sugli autovalori di W).
STIMA DEI PARAMETRI NEI MODELLI SAR
Si assume che i dati siano distribuiti come una distribuzione
Gaussiana multivariata.
Si riparametrizza la matrice di varianza v=2V, la matrice di
varianza covarianza del modello SAR:
SAR= 2(I- B)-1 V(I- BT)-1= 2VSAR()
I parametri , 2 e vengono stimati con il metodo di
massima verosimiglianza.

Ai fini della stima di m, B e , in questo caso utilizzeremo


solo la verosimiglianza:

L=

| I B|
1
exp (z )T (I B)1v (I BT )1(z )
1/ 2 n
2
| v |
2

Si noti che Cov(v,Z)=E(vZt)=v(I-B)-1 che diversa da zero.


Gli errori non sono indipendenti dalle osservazioni a
differenza di quanto accade nelle serie temporali, inoltre
ci implica che gli stimatori dei minimi quadrati non sono
necessariamente consistenti.

29

CAR: Conditional AutoRegressive Models

30

CAR: Conditional AutoRegressive Models

Alternativo al modello SAR


Consiste nella specificazione di distribuzioni condizionate di ogni
osservazione Z(si) dati i valori osservati in tutti gli altri punti del
dominio: f(Z(si)|Z-i).

Il passaggio da distribuzioni condizionate alla distribuzione congiunta


avviene nel contesto del Teorema di Hammersley e Clifford (Besag,
1974) che descrive le condizioni necessarie per un insieme di
distribuzioni condizionate a definire una distribuzione congiunta valida.

Anche per questo tipo di modello dobbiamo dire che Z(si) dipende
solo dai suoi vicini.

Nel caso di distribuzioni condizionate gaussiane ci si traduce nella


condizione
CAR=(I- C)-1c

Il modello CAR si ottiene specificando media e varianza

dove c=diag[21,, 2n]. Per garantire che questa matrice di varianzacovarianza sia simmetrica, imponiamo il vincolo:
2jcij= 2icji

E [ Z ( si ) | Z i ] = X ( si ) ' + cij ( Z ( s j ) X ( si ) ' )


j =1

Var [ Z ( si ) | Z i ] =

2
i

I parametri di dipendenza spaziale cij sono generalmente


specificati per mezzo della struttura di vicinato, cio cii=0, cij0 se
31
sjNi e 0 altrimenti

Casi particolari:
- C=H
- c = 2I o una versione pesata c = 2V dove, per esempio,
V=diag(v1,,vn).
32

Relazione tra CAR e SAR

Stima e inferenza con i modelli CAR


Si considera un modello gaussiano con media X e matrice
di varianza-covarianza definita come in precedenza.
Parametrizziamo la matrice diagonale c come c=2Vc, la
matrice di varianza-covarianza del modello CAR pu essere
scritta come:

CAR=

2(I-

C)-1 VC=

2V

CAR()

dove il vettore contenente tutti i parametri di


dipendenza spaziale cij e i parametri di Vc

La differenza principale dei modelli CAR e SAR per dati gaussiani


sta nella diversa definizione di Z.
Nel pi semplice dei casi: Z= 2(I-W)-1 per il modello CAR e Y=
2(I-W)-1 (I-W)-1 per il modello SAR

Il modello SAR un caso particolare del modello CAR:


Ponendo c= Z-2I, allora qualche modello SAR pu essere
scritto come modello CAR con C=B+B-BB
Generalmente il passaggio da CAR a SAR non immediato

Pi semplice implementare i modelli CAR in una struttura MCMC.

33

34

Stima e inferenza da modelli CAR Gaussiani

Stima e inferenza con i modelli CAR

Si considerano C=2I e i parametri di dipendenza spaziali


possono essere scritti come funzione di un singolo
parametro spaziale di autocorrelazione (per esempio C=W)

In un modello gaussiano con media X e matrice di


varianza-covarianza definita come in precedenza.
Parametrizziamo la matrice diagonale c come c=2Vc,
cos la matrice di varianza-covarianza del modello CAR
pu essere scritta come:

Gli stimatori dei minimi quadrati dei parametri SAR non sono
consistenti, mentre quelli dei modelli CAR lo sono. Quindi i
minimi quadrati generalizzati pesati possono essere
utilizzati per stimare tutti i parametri del modello CAR:
stimato con i GLS con ()=CAR=CAR() e stimata
utilizzando OLS.
La
struttura
condizionata
del
CAR
fornisce
immediatamente i predittori pi efficienti (in termini di
MSE)
35

CAR= 2(I- C)-1 VC= 2VCAR()

dove il vettore contenente tutti i parametri di


dipendenza spaziale cij e i parametri di Vc.
Al contrario di ci che accade per il modelli SAR gli
stimatori dei minimi quadrati dei parametri del modello
CAR sono consistenti.
Vengono quindi utilizzati i minimi quadrati generalizzati
36
ripesati.

Alcune note sui modelli CAR


Popolarit di questa classe di modelli con lo sviluppo dei
metodi MCMC.
Poich lo scopo finale quello di definire una distribuzione
congiunta, i Markov Random Field permettono per mezzo
di specificazioni locali di giungere alla distribuzione
congiunta.
La probabilit congiunta potrebbe risultare impropria
(avere integrale non finito) anche se tutte le condizionate
sono proprie. Per questo motivo necessario rispettare le
condizioni di H-C.

Modelli spaziali automodelli (Besag)

q ( z ) = zi g ( z ) + ij zi z j
i

i< j

Si associano le probabilit condizionate:

P ( Z i = zi | Z j = z j ; j i )
P( Zi = 0 | Z j = z j ; j i)

= exp zi { gi ( zi ) + ij z j }

La distribuzione condizionata appartiene alla famiglia


esponenziale
Es. Autonormale, AutoPoisson, Autologistico,

37

Il modello AutoNormale

38

Modello Autologistico

Il modello autonormale si pu scrivere come:

La variabile Z assume solo due valori (per comodit 0 e 1)


Z = (0 0 1 1 1 0 1 0 1 0 1 1 1 1 0 0 0)
se i dati fossero indipendenti:

Z i | ( Z j = z j , j i ) N cij y j , i2
j

Le distribuzioni condizionate sono compatibili con il


Teorema di H-C e quindi danno la distribuzione congiunta:

p ( z1 ,..., zn ) exp Z T ( I C ) 1 c Z
2

dove c=diag[21,, 2n] e il vettore =(0,,0).


Posto Z=(I- C)-1c allora

p = Pr ( Z i = 1)
Pr ( Z p ) = p #1s (1 p )

#0s

1 n
p = zi = freq. relativa degli 1
n i =1

p ( z1 ,..., zn ) exp Z T Z Z
2

39

40

Distribuzione di una variabile Binaria nello spazio

p = 0.9

50

Modello Autologistico

INDIPENDENZA SU
RETICOLO 50 50

40

Z1,Zn sono variabili casuali che assumono valori 0 e 1.

30
X

exp i + ij x j
j

Pr {Z i = 1| Z j = z j ; j i} = Pr {Z i = 1| Z j = z j ; j N i } =

1 exp i + ij x j
j

20

10

p = 0.5

50
0

10

20

30

40

50

Y
40

30

Se sono soddisfatte le condizioni del teorema di HC, la distribuzione


congiunta risulta

20

10

0
0

10

20

30

40

1n
n

Pr ( z ) = cost exp i zi + ij zi z j
2 i =1 j:cij =1
i =1

50

Y
50

40

verde = 1
blu = 0

30

20

p = 0.1

10

41

0
0

10

20

30

40

42
50

Approccio delleconometria spaziale

Approccio delleconometria spaziale

Applicazioni nellambito finanziario;


Attenzione ai test di eteroschedasticit;
Test di Breush-Pagan

Il modello spaziale SAR gi visto pu essere riportato;

Viene modificato il test di Moran (ci si sposta dai pesi binari


simmetrici a pesi standardizzati per riga);

Il modello spaziale di Durbin :

Z = X + WZ +

Laspetto chiave decidere se il processo generatore dei dati


presenta una struttura SAR sugli errori (ci che abbiamo appena
visto) oppure su componenti ritardate spazialmente.

Z = X + WX + WZ +

Ulteriori varianti tengono conto sia dellautocorrelazioni spaziali


che leteroschedasticit (attenzione alla multicollinearit)
43

44

Bibliografia Utile
Per la parte di dati su reticolo(in ordine di chiarezza):
Schabenberger e Gotway (2005). Statistical Methods for spatial
data analysis. Chapman & Hall. Qualche paragrafo del capitolo 1,
diversi paragrafi del capitolo 6
Cressie (1993). Statistics for spatial data, Wiley capitoli 6,7.
Per approfondimenti e chiarimenti in Econometria Spaziale:
Anselin (1999), Spatial Econometrics (a disposizione su internet)
Per collegamenti alla parte in laboratorio
Bivand, Pebesma e Gomez-Rubio (2008). Applied Spatial Data
Analysis with R. Springer. Capitoli 9 e 10.

45