Sei sulla pagina 1di 9

Informazioni sul corso

Ricevimento: marted 10-11; gioved 9.30-10.30


Laboratorio: software R

Analisi dei dati spaziali

Bibliografia:
N. Cressie (1993) Statistics for spatial data, Wiley.
R.L. Smith (2001) Environmental Statistics, scaricabile
dal sito:
http://www.stat.unc.edu/postscript/rs.envnotes.pdf.
B.D. Ripley (1981) Spatial Statistics, Wiley.
Schabenberger, C. A. Gotway (2005) Statistical
methods for spatial data analysis, Chapman and Hall.
R. Webster, M. A. Oliver (2001) Geostatistics for
environmental scientists, Wiley.

Francesca Bruno
Dipartimento di Scienze Statistiche P.Fortunati

francesca.bruno@unibo.it

Argomenti trattati nel corso


Introduzione alla statistica spaziale
Dati geostatistici:

Prova desame: tesina scritta ed esposta oralmente su


argomenti teorici o relativa ad una analisi
2
spaziale/spazio-temporale di un fenomeno scelto.

Introduzione alla statistica spaziale


La metodologia legata allanalisi statistica di dati spaziali si
sviluppata molto in contesti diversi seguendo diversi approcci:
-sviluppo in contesti applicativi;
-estensione dellanalisi delle serie storiche;
-seguendo la teoria dei processi stocastici.

Stima e previsione di processi spaziali.


Ipotesi di stazionariet e isotropia.
Funzioni variogramma, Kriging e cokriging.
Previsione e interpolazione spaziale.

Lattice Data

I dati si riferiscono ad un attributo di interesse (e altre


variabili) misurato in alcuni siti presenti in un dominio spaziale.

Processi di punto

Maggiore interesse per lo spazio geografico (caratterizzato


dunque generalmente da due coordinate: latitudine e
longitudine);

Modelli CAR
Modelli SAR (Econometria Spaziale)
Processi di Poisson Omogenei

Estensione al caso spazio-temporale

Principali differenze con i processi puramente spaziali e ipotesi


di separabilit (argomento trattato parzialmente attraverso
letture monografiche).
3

Come vedremo gli approcci alla statistica spaziale si distinguono


a seconda che gli attibuti o i siti siano rappresentati come
variabili casuali.
4

Introduzione alla statistica spaziale: alcune note

Introduzione alla statistica spaziale: tipi di dati

Un aspetto chiave dei dati spaziali lautocorrelazione delle


osservazioni nello spazio.

I dati spaziali sono quindi distinti in base alle caratteristiche


del loro dominio.

Osservazioni che sono vicine spazialmente tendono ad essere


pi simili di quelle che sono maggiormente lontane tra di loro.
(Legge della geografia di Tobler)
Poich i dati spaziali sono presenti in molti campi applicativi, ne
esistono di molti tipi.
Per presentarli utilizziamo la classificazione proposta in
Cressie (1993) e distinguiamo i tipi di dato per la natura del
dominio spaziale.
Si consideri un processo spaziale definito come: Z ( s ) : s D
dove: Z(s) rappresenta lattributo che si osserva
s un vettore di coordinate (dx1) in cui Z viene
5
osservato

Introduzione alla statistica spaziale: tipi di dati

Dati geostatistici (Geostatistical data): dati spaziali con


dominio continuo.
Il dominio D continuo e fisso;
Siti (puntuali) in cui si misura lattributo (o gli attributi);
Lattributo Z pu essere continuo o discreto.s D
Modelli su reticolo (Lattice data): dati spaziali con dominio
discreto.
Il dominio D={s1,s2,,sn} fisso e discreto (non casuale e
numerabile).
Siti spaziali sono riferiti ad aree o regioni.
Quando le forme sono irregolari: dati regionali
Lattributo Z pu essere continuo o discreto.
6

Introduzione alla statistica spaziale: tipi di dati

Processi di punto (Spatial Point Patterns): dati spaziali che si


manifestano su un dominio discreto D in cui sono i siti stessi ad
essere eventi casuali.
Il dominio D={s1,s2,,sn} una raccolta casuale di punti nel
piano.
Un attributo Z pu essere osservato (in tal caso si parla di
processi di punto marcati) oppure no.

I principali scopi dellanalisi dei dati spaziali:


dati geostatistici:
distribuzione sulla superficie dellattributo Z sullintero
dominio
dati su reticolo:
smussare i dati sullintero dominio;
identificare cluster spaziali
processi di punto spaziali:
individuare se i siti spaziali sono distribuiti casualmente,
sono regolari o sono raggruppati
individuare possibili andamenti del fenomeno in termini
spaziali.

Dati geostatistici

Dati geostatistici

I dati geostatistici sono caratterizzati da due elementi:


le coordinate dei siti (generalmente ci si riferisce ad un dominio
bidimensionale)
i valori dellattributo in esame.

In questo tipo di dati la variabile casuale una superficie continua


osservata solo in un numero fisso di punti (campione).

Lattributo pu essere discreto o continuo, univariato o multivariato.


La geostatistica nata negli anni 60 in un contesto di mineralogia
(Matheron, 1963).
Lo scopo utilizzare il campione osservato per fare previsioni su una
parte non osservata della superficie
Linferenza condizionale alla posizione dei punti sulla superficie
La correlazione tra le osservazioni decresce al crescere della
distanza

Ci sono 2 aspetti importanti di cui tenere conto:


-non ripetibilit: in ogni sito si dispone di una sola osservazione
-dipendenza: le osservazioni dellattributo in differenti siti sono
dipendenti.
Obiettivi:
-Trovare un modello che descriva la dipendenza tra valori osservati;
-Stimare valori in siti non campionati usando il modello scelto
precedentemente (stima dellincertezza);
-Utilizzare questa informazione per prendere decisioni.

Dati geostatistici: alcuni datasets utilizzati

Qui di seguito elenco alcuni data set che useremo nel corso e che
sono facilmente reperibili o gi disponibili in R:
elevation: dati di altitudine presi da Davis (1972).
gambia: dati di malaria in Gambia (Diggle, P., Moyeed, R.,
Rowlingson, B. & Thomson, M. (2002). Childhood malaria in The
Gambia: a case-study in model-based geostatistics, Applied
Statistics)

10

Dati geostatistici: elevation dataset


Possono essere presenti alcune differenze nella referenza spaziale:
per qualche area spaziale considerata piccola, il numero di siti
necessari pi contenuto; in altri casi larea considerata pu essere
molto vasta e in tal caso necessaria la conoscenza di un grande
numero di siti
Per questo dataset il
numero di siti di 52.

parana: dati di piogge dallo stato di Paran in Brasile (Diggle &


Ribeiro). I dati si riferiscono alla pioggia media misurata
durante la stagione secca. I dati si riferiscono a 143 siti.
wolfcamp: altezze piezometriche in una regione del Texas
detta Wolfcamp Aquifer (Cressie pp 212-214)
coal-ash: dati relativi a carbone per la miniera di Robena nella
contea Greene in Pennsylvania.
11

12

600000

500
Y Coord
300
0

100

Y Coord
300
100
0

800

400
600
X Coord

800

100

-100
0
X Coord

100

400

600

800

1000

250

350

400

Density
0.004
150

300
data

350

400

14

20

I dati sono proposti nel


lavoro di Gomez and Hazen
(1970, Tables 19 and 20)
relativamente ai dati di
carbone della miniera
Robena.

Y Coord
10
15

20
Y Coord
10
15

studio fatto per trovare


dove costruire un deposito
di rifiuti radioattivi

200
100
-200

-200

0
X Coord

200

300
data

Dati geostatistici: coal-ash data

I dati in questo caso si


riferiscono ad 85 stazioni
di monitoraggio.

-100

Y Coord
0

200
100
Y Coord
-100
0

data

10
X Coord

15

20

15

20

10

10

12
14
data

16

18

-200

0.30

16

Density
0.20

data
12
14

0.10

10

400

600

800

1000

data

15

10
X Coord

0.00

0.0000

400

600

data

Density
0.0010

800

0.0020

1000

18

-100

250

0.006

350
data
300
250
200

Dati geostatistici: wolfcamp dataset

-200

200

400

400
600
X Coord

0.002

500000

I dati si riferiscono a
143 stazioni di
monitoraggio in tutto
lo stato di Paran in
Brasile.

0.000

400000

200

200

1450000

1550000

Un dataset con 2035 osservazioni:


- coordinata x del villaggio;
- coordinata y del villaggio;
- presenza (1) della malaria in
campioni di sangue di bambini;
- et dei bambini (in giorni);
- variabile
indicatrice
che
rappresenta se il bimbo dorme
regolarmente sotto una zanzariera
oppure no.
-variabile
indicatrice
che
rappresenta se la zanzariera
stata trattata oppure no;
-Informazioni
da
satellite
riguardanti
la
dimensione
di
vegetazione attorno al villaggio.
-Variabile indicatrice per indicare
se c un centro medico nel
13
villaggio.

1350000
300000

Dati geostatistici: parana dataset


500

Dati geostatistici: Gambia dataset

12
14
data

16

18

16

Dati geostatistici: analisi descrittive e grafiche

o = Median Coal Ash %


x = Mean Coal Ash %
x
x
o
x o
x x o
x o
o
x
o
o

10
Columns

Inoltre, fornisce pi
informazioni
sulla
direzione delle relazioni
spaziali

15

17

Lattice data
I dati su reticolo sono caratterizzati da un numero (finito) di siti
spaziali in cui lattributo viene misurato.
Linsieme di tutti i siti viene chiamato reticolo, che supportato da
informazioni di vicinato.
Aspetto importante: come la struttura dei siti che indicizza il
processo integrata con informazioni sul vicinato dei siti.

8
15

15

20

20
8

10

10
12

10
10

12

10
10
10

10

12
12
14
16

12
5

x
x o
o

10
11
Coal Ash %

Il primo grafico
rappresenta le curve di
livello, mentre nel secondo i
livelli sono rappresentati da
colori diversi

10
10
12
10
10 10

10

10
10

10

12 16

o
x
x x x o
x
o
o x o o
x
o

Coal Ash %
8 9 10 11

Contour Plot of Coal Ash %'s Colourscale or Symbol Map

10

Rows
10 15 20

oo x x
ox ox
o xxo ox
xo
ooxx
o x o oxx
o x xo
xxoo
ox xo
o
x
xo
x o

Questo
grafico
rappresenta medie e
mediane per riga e
colonna e permette di
identificare, attraverso
il loro scostamento, la
presenza di outliers,
spesso problematici da
trattare in fase di
costruzione del modello.

Means and Medians Across Rows and Columns

Dati geostatistici: analisi descrittive e grafiche

10
x

15

10

15

Con queste rappresentazioni


possibile
individuare
eventuali
concentrazioni spaziali della variabile
oggetto di studio

Anche in questo caso il


software produce una
interpolazione che bene
tenere in considerazione!

18

Lattice data: alcuni datasets utilizzati


Dati di mortalit per malattie infettive in Emilia Romagna;
Biomassa di un batterio (bluegrama) rilevate in unarea di
200x200 m vicino Elgin in Arizona (file bluegrama.dat)

Il reticolo pu essere regolare o irregolare.

Numero di morti per Sindrome da morte infantile improvvisa


SIDS nelle contee delle North-Carolina (dataset nc.sids di R)

Il valore associato ad un punto nel reticolo non associato alla


posizione specifica che questo punto occupa, ma allarea che lo
contiene.

Valori di pixel in unimmagine satellitare (data set getisord di R)

La struttura spaziale dei dati descritta da una struttura di


vicinato tra le aree. Ci sono molti modi per specificare il vicinato.
Il pi semplice quello di definire vicine due aree confinanti.
Tra le applicazioni pi comuni quelle epidemiologiche, quelle
di
19
informazioni da satellite e fotografia,

20

Lattice data: dati di mortalit per malattie infettive in


Emilia-Romagna

Lattice data: dati di mortalit per malattie infettive in


Emilia-Romagna

I tassi di mortalit standardizzati (SMR) in Emilia-Romagna (19982002) per comune

Per ogni comune:


il tasso relativo in un comune misura il rapporto tra mortalit nel
comune e la media regionale;
Il numero atteso in caso di rischio costante nello spazio calcolato
applicando il tasso di mortalit osservato a livello regionale alla
popolazione del comune.

values for SMR

(116) <

(50)

0.5 -

0.7

(31)

0.7 -

0.9

(29)

0.9 -

1.1

(31)

1.1 -

1.3

(24)

1.3 -

1.5

(60) >=

0.5

Conteggio osservato nelli-esimo comune: Oi


Conteggio atteso nelli-esimo comune : Ei
SMR come stima del rischio relativo:

1.5

SMRi =
100.0km

Oi
Ei

21

Lattice data: dati di mortalit per malattie infettive in


Emilia-Romagna
Lo scopo stimare il rischio relativo per un evento raro in piccole
aree (comuni)
In questi casi generalmente presente elevata variabilit degli
SMR.

22

Lattice data: dati di mortalit per malattie infettive in


Emilia-Romagna
La stima dei rischi relativi per mezzo di un modello gerarchico
bayesiano che tiene conto della correlazione tra aree.
(samples)means for rel.risk

(0) <

0.5

(18)

0.5 -

0.7

(83)

0.7 -

0.9

(87)

0.9 -

1.1

Alcune situazioni tipiche:


pi sono piccole le aree pi estremi sono gli SMR;

(100)

risultano significativi gli SMR stimati per le aree pi ampie.

(37)

1.1 1.3 -

(16) >=

Obbiettivo:
ridurre la variabilit delle stime del rischio relativo
sfruttare la correlazione spaziale dei dati

1.3
1.5

1.5

100.0km

23

24

Lattice data: ncsids

Lattice data: Phytophthora Data


I dati si riferiscono alla presenza/assenza di una patologia
Phytophthora capsici in piante di pepe in un certo numero di campi.
In particolare, si esamina una griglia regolare 20x20 di piante. D in
questo caso sar pari a 400 siti spaziali.

I dati si riferiscono al
numero di casi di SIDS e
di nascite raccolti nelle
100 contee del NC in due
periodi dal 1974-78 e
1979-1984

Studio la distribuzione territoriale delle morti infantili improvvise


in North Carolina (i valori sono conteggi), organizzazione dei dati
che segue la geografia della zona (irregolare). Per questo tipo di
dati la modellizzazione deve tener conto di questultimo aspetto
25

26

Processi di punto

Griglia 16x16 (di passo 30 m)

300
200
100

La modellazione deve tener


conto di questo ultimo
aspetto.

In questo caso siamo in


presenza di un reticolo
regolare

55 56

54

58 65

75

82 77

74

74 69

61

62 71

73

63

62 63

64

59 85

88

95 106 110 99 89

82

79 84

97

79

55 55

56

60 91

95

86 98 115 105 110 107 101 89

85

68

55 54

53

61 82 102 88 93

96

94 110 114 109 103 92

68

59 58

60

64 88

99

82 81

71

80 89

89

89 102 104 75

63 57

58

58 77

92

82 71

59

90 105 92

79 98 110 83

62 55

56

56 80

90

99 88

64

91 112 94

76 91 100 85

62 59

55

61 99

97

93 80

65

87 107 80

59 60

67

66

65 62

68

72 102 94

90 83

74

81 96

69

52 50

51

54

62 62

86

85 55

59

64 72

75

70 70

62

66 61

55

57

52 59

61

56 41

40

43 44

46

48 50

52

68 69

60

61

42 43

44

43 42

41

42 44

43

43 44

47

58 59

55

61

44 41

39

42 44

43

42 42

42

43 43

49

56 53

53

61

43 42

40

42 42

42

41 42

42

43 42

53

66 61

51

62

40 42

41

40 43

49

46 42

42

43 43

49

59 62

53

62

40 41

42

43 49

54

47 44

42

44 43

46

52 56

56

61

La variabile di interesse
esiste ed osservata solo in
un insieme finito di
localizzazioni.

400

Lattice data: getisord

100

200

300

400
27

Tipi di dati:
-punti: un dataset di questo tipo contiene le posizioni degli
oggetti/eventi che si presentano nella regione sotto studio. I
punti possono rappresentare alberi, rifugi di animali, epicentri di
terremoto, omicidi, casi di influenza.
-marcati: i punti hanno un attributo associato. La variabile che
marca pu essere categorica (come ad es. specie o malattia)
oppure continua (diametro dellalbero).
I punti dovrebbero essere posti in una regione del piano
bidimensionale, o sulla superficie della terra, o in un volume
tridimensionale,
Datasets:
Posizione e diametri di alberi in una regione della Georgia (USA)
28
di 200x200 metri (dataset redwood e longleaf di R)

Processi di punto Swedish pine forest

Processi di punto amacrine dataset

Esempio di dataset : i dati si riferiscono alla posizione di pini


campionati in una foresta svedese.

Esempio di un processo di punto marcato.

Un oggetto ppp rappresenta un processo di punto dei siti in cui si


localizzano gli alberi in unarea quadrata 10x10 m2
sw edishpines

Lattributo misurato dicotomico: Austin Huges raccoglie


informazioni sulla posizione delle cellule amacrine nella retina di
un coniglio.
Un oggetto ppp rappresenta un processo di punto della posizione
delle cellule: coordinate x e y nel sistema cartesiano e un
marcatore se il fattore presente oppure no.
152 cellule positive e 142 negative.

29

Processi di punto Longleaf pine data


I dati riguardano coordinate di 584 alberi di pino (Pinus palustris) in una
foresta situata nel sud della Georgia (Thomas County, di 200x200 metri).
Questo un processo marcato da una variabile continua.
Lo scopo di questo studio era esaminare se le posizioni spaziali degli alberi
apparivano completamente casuali o raggruppati in un qualche modo.
Longleaf Pines

31

30

Processi di punto intensit


I problemi che generalmente si vogliono affrontare quando si
considerano processi di punto riguardano:
Intensit: cio la densit media dei punti (il numero atteso di punti
per unit di area).
Pu essere costante (processo uniforme) o pu variare da un sito
allaltro (processo non uniforme o non omogeneo)

32

Processi di punto effetti di covariate

Processi di punto interazione tra punti


Interazione tra punti: misura la dipendenza tra i punti di un
processo. Generalmente ci si aspetta dipendenza maggiore tra punti
vicini

Per un processo di punto con covariate, generalmente si vuole:


-vedere se lintensit del processo dipende dalle covariate
-considerare gli effetti delle covariate sullintensit prima di studiare
linterazione tra i punti.
Esempio (dati su foresta tropicale)I dati consistono in localizzare 360
alberi in una foresta tropicale con relativa mappa di altitudine
Le principali
questioni sono:
-la densit dipende
dallaltitudine?
-c evidenza di
clustering degli
alberi?

33

Processi di punto processi marcati

34

Dati spaziali: pacchetti di R

In un processo marcato, noi dobbiamo investigare se i punti con


differenti valori sono separati.
Esempio: Foresta di Lansing. I dati provengono da una osservazione
di una foresta di dimensione 924ftx924 situata nel Michigan. I dati
si riferiscono a 2251 alberi classificati per tipo.

35

Pacchetti per lanalisi dei dati spaziali:

GeoR
Spatial
Gstat
Spatstat
Splancs
DCluster

36

Potrebbero piacerti anche