1) Introduzione Grafica

Informazioni sul corso
Ricevimento: marted 10-11; gioved 9.30-10.30

Laboratorio: software R
Analisi dei dati spaziali
Bibliografia:
N. Cressie (1993) Statistics for spatial data, Wiley.
R.L. Smith (2001) Environmental Statistics, scaricabile
dal sito:
http://www.stat.unc.edu/postscript/rs.envnotes.pdf.
B.D. Ripley (1981) Spatial Statistics, Wiley.
Schabenberger, C. A. Gotway (2005) Statistical
methods for spatial data analysis, Chapman and Hall.
R. Webster, M. A. Oliver (2001) Geostatistics for
environmental scientists, Wiley.
Francesca Bruno
Dipartimento di Scienze Statistiche P.Fortunati
francesca.bruno@unibo.it
Argomenti trattati nel corso

Introduzione alla statistica spaziale
Dati geostatistici:
Prova desame: tesina scritta ed esposta oralmente su

argomenti teorici o relativa ad una analisi
2
spaziale/spazio-temporale di un fenomeno scelto.
Introduzione alla statistica spaziale

La metodologia legata allanalisi statistica di dati spaziali si
sviluppata molto in contesti diversi seguendo diversi approcci:
-sviluppo in contesti applicativi;
-estensione dellanalisi delle serie storiche;
-seguendo la teoria dei processi stocastici.
Stima e previsione di processi spaziali.

Ipotesi di stazionariet e isotropia.
Funzioni variogramma, Kriging e cokriging.
Previsione e interpolazione spaziale.
Lattice Data
I dati si riferiscono ad un attributo di interesse (e altre

variabili) misurato in alcuni siti presenti in un dominio spaziale.
Processi di punto
Maggiore interesse per lo spazio geografico (caratterizzato

dunque generalmente da due coordinate: latitudine e
longitudine);
Modelli CAR
Modelli SAR (Econometria Spaziale)
Processi di Poisson Omogenei
Estensione al caso spazio-temporale
Principali differenze con i processi puramente spaziali e ipotesi

di separabilit (argomento trattato parzialmente attraverso
letture monografiche).
3
Come vedremo gli approcci alla statistica spaziale si distinguono

a seconda che gli attibuti o i siti siano rappresentati come
variabili casuali.
4
Introduzione alla statistica spaziale: alcune note
Introduzione alla statistica spaziale: tipi di dati
Un aspetto chiave dei dati spaziali lautocorrelazione delle

osservazioni nello spazio.
I dati spaziali sono quindi distinti in base alle caratteristiche

del loro dominio.
Osservazioni che sono vicine spazialmente tendono ad essere

pi simili di quelle che sono maggiormente lontane tra di loro.
(Legge della geografia di Tobler)
Poich i dati spaziali sono presenti in molti campi applicativi, ne
esistono di molti tipi.
Per presentarli utilizziamo la classificazione proposta in
Cressie (1993) e distinguiamo i tipi di dato per la natura del
dominio spaziale.
Si consideri un processo spaziale definito come: Z ( s ) : s D
dove: Z(s) rappresenta lattributo che si osserva
s un vettore di coordinate (dx1) in cui Z viene
5
osservato
Dati geostatistici (Geostatistical data): dati spaziali con

dominio continuo.
Il dominio D continuo e fisso;
Siti (puntuali) in cui si misura lattributo (o gli attributi);
Lattributo Z pu essere continuo o discreto.s D
Modelli su reticolo (Lattice data): dati spaziali con dominio
discreto.
Il dominio D={s1,s2,,sn} fisso e discreto (non casuale e
numerabile).
Siti spaziali sono riferiti ad aree o regioni.
Quando le forme sono irregolari: dati regionali
Lattributo Z pu essere continuo o discreto.
6
Processi di punto (Spatial Point Patterns): dati spaziali che si

manifestano su un dominio discreto D in cui sono i siti stessi ad
essere eventi casuali.
Il dominio D={s1,s2,,sn} una raccolta casuale di punti nel
piano.
Un attributo Z pu essere osservato (in tal caso si parla di
processi di punto marcati) oppure no.
I principali scopi dellanalisi dei dati spaziali:

dati geostatistici:
distribuzione sulla superficie dellattributo Z sullintero
dominio
dati su reticolo:
smussare i dati sullintero dominio;
identificare cluster spaziali
processi di punto spaziali:
individuare se i siti spaziali sono distribuiti casualmente,
sono regolari o sono raggruppati
individuare possibili andamenti del fenomeno in termini
spaziali.
Dati geostatistici
Dati geostatistici
I dati geostatistici sono caratterizzati da due elementi:

le coordinate dei siti (generalmente ci si riferisce ad un dominio
bidimensionale)
i valori dellattributo in esame.
In questo tipo di dati la variabile casuale una superficie continua

osservata solo in un numero fisso di punti (campione).
Lattributo pu essere discreto o continuo, univariato o multivariato.

La geostatistica nata negli anni 60 in un contesto di mineralogia
(Matheron, 1963).
Lo scopo utilizzare il campione osservato per fare previsioni su una
parte non osservata della superficie
Linferenza condizionale alla posizione dei punti sulla superficie
La correlazione tra le osservazioni decresce al crescere della
distanza
Ci sono 2 aspetti importanti di cui tenere conto:

-non ripetibilit: in ogni sito si dispone di una sola osservazione
-dipendenza: le osservazioni dellattributo in differenti siti sono
dipendenti.
Obiettivi:
-Trovare un modello che descriva la dipendenza tra valori osservati;
-Stimare valori in siti non campionati usando il modello scelto
precedentemente (stima dellincertezza);
-Utilizzare questa informazione per prendere decisioni.
Dati geostatistici: alcuni datasets utilizzati
Qui di seguito elenco alcuni data set che useremo nel corso e che
sono facilmente reperibili o gi disponibili in R:
elevation: dati di altitudine presi da Davis (1972).
gambia: dati di malaria in Gambia (Diggle, P., Moyeed, R.,
Rowlingson, B. & Thomson, M. (2002). Childhood malaria in The
Gambia: a case-study in model-based geostatistics, Applied
Statistics)
10
Dati geostatistici: elevation dataset

Possono essere presenti alcune differenze nella referenza spaziale:
per qualche area spaziale considerata piccola, il numero di siti
necessari pi contenuto; in altri casi larea considerata pu essere
molto vasta e in tal caso necessaria la conoscenza di un grande
numero di siti
Per questo dataset il
numero di siti di 52.
parana: dati di piogge dallo stato di Paran in Brasile (Diggle &

Ribeiro). I dati si riferiscono alla pioggia media misurata
durante la stagione secca. I dati si riferiscono a 143 siti.
wolfcamp: altezze piezometriche in una regione del Texas
detta Wolfcamp Aquifer (Cressie pp 212-214)
coal-ash: dati relativi a carbone per la miniera di Robena nella
contea Greene in Pennsylvania.
11
12
600000
500
Y Coord
300
0
100
Y Coord
300
100
0
800
400
600
X Coord
800
100
-100
0
X Coord
100
400
600
800
1000
250
350
400
Density
0.004
150
300
data
350
400
14
20
I dati sono proposti nel

lavoro di Gomez and Hazen
(1970, Tables 19 and 20)
relativamente ai dati di
carbone della miniera
Robena.
Y Coord
10
15
20
Y Coord
10
15
studio fatto per trovare

dove costruire un deposito
di rifiuti radioattivi
200
100
-200
-200
0
X Coord
200
300
data
Dati geostatistici: coal-ash data
I dati in questo caso si

riferiscono ad 85 stazioni
di monitoraggio.
-100
Y Coord
0
200
100
Y Coord
-100
0
data
10
X Coord
15
20
15
20
10
10
12
14
data
16
18
-200
0.30
16
Density
0.20
data
12
14
0.10
10
400
600
800
1000
data
15
10
X Coord
0.00
0.0000
400
600
data
Density
0.0010
800
0.0020
1000
18
-100
250
0.006
350
data
300
250
200
Dati geostatistici: wolfcamp dataset
-200
200
400
400
600
X Coord
0.002
500000
I dati si riferiscono a
143 stazioni di
monitoraggio in tutto
lo stato di Paran in
Brasile.
0.000
400000
200
200
1450000
1550000
Un dataset con 2035 osservazioni:

- coordinata x del villaggio;
- coordinata y del villaggio;
- presenza (1) della malaria in
campioni di sangue di bambini;
- et dei bambini (in giorni);
- variabile
indicatrice
che
rappresenta se il bimbo dorme
regolarmente sotto una zanzariera
oppure no.
-variabile
indicatrice
che
rappresenta se la zanzariera
stata trattata oppure no;
-Informazioni
da
satellite
riguardanti
la
dimensione
di
vegetazione attorno al villaggio.
-Variabile indicatrice per indicare
se c un centro medico nel
13
villaggio.
1350000
300000
Dati geostatistici: parana dataset

500
Dati geostatistici: Gambia dataset
12
14
data
16
18
16
Dati geostatistici: analisi descrittive e grafiche
o = Median Coal Ash %

x = Mean Coal Ash %
x
x
o
x o
x x o
x o
o
x
o
o
10
Columns
Inoltre, fornisce pi
informazioni
sulla
direzione delle relazioni
spaziali
15
17
Lattice data
I dati su reticolo sono caratterizzati da un numero (finito) di siti
spaziali in cui lattributo viene misurato.
Linsieme di tutti i siti viene chiamato reticolo, che supportato da
informazioni di vicinato.
Aspetto importante: come la struttura dei siti che indicizza il
processo integrata con informazioni sul vicinato dei siti.
8
15
15
20
20
8
10
10
12
10
10
12
10
10
10
10
12
12
14
16
12
5
x
x o
o
10
11
Coal Ash %
Il primo grafico
rappresenta le curve di
livello, mentre nel secondo i
livelli sono rappresentati da
colori diversi
10
10
12
10
10 10
10
10
10
10
12 16
o
x
x x x o
x
o
o x o o
x
o
Coal Ash %
8 9 10 11
Contour Plot of Coal Ash %'s Colourscale or Symbol Map
10
Rows
10 15 20
oo x x
ox ox
o xxo ox
xo
ooxx
o x o oxx
o x xo
xxoo
ox xo
o
x
xo
x o
Questo
grafico
rappresenta medie e
mediane per riga e
colonna e permette di
identificare, attraverso
il loro scostamento, la
presenza di outliers,
spesso problematici da
trattare in fase di
costruzione del modello.
Means and Medians Across Rows and Columns
Dati geostatistici: analisi descrittive e grafiche
10
x
15
10
15
Con queste rappresentazioni

possibile
individuare
eventuali
concentrazioni spaziali della variabile
oggetto di studio
Anche in questo caso il

software produce una
interpolazione che bene
tenere in considerazione!
18
Lattice data: alcuni datasets utilizzati

Dati di mortalit per malattie infettive in Emilia Romagna;
Biomassa di un batterio (bluegrama) rilevate in unarea di
200x200 m vicino Elgin in Arizona (file bluegrama.dat)
Il reticolo pu essere regolare o irregolare.
Numero di morti per Sindrome da morte infantile improvvisa

SIDS nelle contee delle North-Carolina (dataset nc.sids di R)
Il valore associato ad un punto nel reticolo non associato alla

posizione specifica che questo punto occupa, ma allarea che lo
contiene.
Valori di pixel in unimmagine satellitare (data set getisord di R)
La struttura spaziale dei dati descritta da una struttura di

vicinato tra le aree. Ci sono molti modi per specificare il vicinato.
Il pi semplice quello di definire vicine due aree confinanti.
Tra le applicazioni pi comuni quelle epidemiologiche, quelle
di
19
informazioni da satellite e fotografia,
20
Lattice data: dati di mortalit per malattie infettive in

Emilia-Romagna

Emilia-Romagna
I tassi di mortalit standardizzati (SMR) in Emilia-Romagna (19982002) per comune
Per ogni comune:

il tasso relativo in un comune misura il rapporto tra mortalit nel
comune e la media regionale;
Il numero atteso in caso di rischio costante nello spazio calcolato
applicando il tasso di mortalit osservato a livello regionale alla
popolazione del comune.
values for SMR
(116) <
(50)
0.5 -
0.7
(31)
0.7 -
0.9
(29)
0.9 -
1.1
(31)
1.1 -
1.3
(24)
1.3 -
1.5
(60) >=
0.5
Conteggio osservato nelli-esimo comune: Oi

Conteggio atteso nelli-esimo comune : Ei
SMR come stima del rischio relativo:
1.5
SMRi =
100.0km
Oi
Ei
21

Emilia-Romagna
Lo scopo stimare il rischio relativo per un evento raro in piccole
aree (comuni)
In questi casi generalmente presente elevata variabilit degli
SMR.
22

Emilia-Romagna
La stima dei rischi relativi per mezzo di un modello gerarchico
bayesiano che tiene conto della correlazione tra aree.
(samples)means for rel.risk
(0) <
0.5
(18)
0.5 -
0.7
(83)
0.7 -
0.9
(87)
0.9 -
1.1
Alcune situazioni tipiche:

pi sono piccole le aree pi estremi sono gli SMR;
(100)
risultano significativi gli SMR stimati per le aree pi ampie.
(37)
1.1 1.3 -
(16) >=
Obbiettivo:
ridurre la variabilit delle stime del rischio relativo
sfruttare la correlazione spaziale dei dati
1.3
1.5
1.5
100.0km
23
24
Lattice data: ncsids
Lattice data: Phytophthora Data

I dati si riferiscono alla presenza/assenza di una patologia
Phytophthora capsici in piante di pepe in un certo numero di campi.
In particolare, si esamina una griglia regolare 20x20 di piante. D in
questo caso sar pari a 400 siti spaziali.
I dati si riferiscono al
numero di casi di SIDS e
di nascite raccolti nelle
100 contee del NC in due
periodi dal 1974-78 e
1979-1984
Studio la distribuzione territoriale delle morti infantili improvvise

in North Carolina (i valori sono conteggi), organizzazione dei dati
che segue la geografia della zona (irregolare). Per questo tipo di
dati la modellizzazione deve tener conto di questultimo aspetto
25
26
Processi di punto
Griglia 16x16 (di passo 30 m)
300
200
100
La modellazione deve tener

conto di questo ultimo
aspetto.
In questo caso siamo in

presenza di un reticolo
regolare
55 56
54
58 65
75
82 77
74
74 69
61
62 71
73
63
62 63
64
59 85
88
95 106 110 99 89
82
79 84
97
79
55 55
56
60 91
95
86 98 115 105 110 107 101 89
85
68
55 54
53
61 82 102 88 93
96
94 110 114 109 103 92
68
59 58
60
64 88
99
82 81
71
80 89
89
89 102 104 75
63 57
58
58 77
92
82 71
59
90 105 92
79 98 110 83
62 55
56
56 80
90
99 88
64
91 112 94
76 91 100 85
62 59
55
61 99
97
93 80
65
87 107 80
59 60
67
66
65 62
68
72 102 94
90 83
74
81 96
69
52 50
51
54
62 62
86
85 55
59
64 72
75
70 70
62
66 61
55
57
52 59
61
56 41
40
43 44
46
48 50
52
68 69
60
61
42 43
44
43 42
41
42 44
43
43 44
47
58 59
55
61
44 41
39
42 44
43
42 42
42
43 43
49
56 53
53
61
43 42
40
42 42
42
41 42
42
43 42
53
66 61
51
62
40 42
41
40 43
49
46 42
42
43 43
49
59 62
53
62
40 41
42
43 49
54
47 44
42
44 43
46
52 56
56
61
La variabile di interesse
esiste ed osservata solo in
un insieme finito di
localizzazioni.
400
Lattice data: getisord
100
200
300
400
27
Tipi di dati:
-punti: un dataset di questo tipo contiene le posizioni degli
oggetti/eventi che si presentano nella regione sotto studio. I
punti possono rappresentare alberi, rifugi di animali, epicentri di
terremoto, omicidi, casi di influenza.
-marcati: i punti hanno un attributo associato. La variabile che
marca pu essere categorica (come ad es. specie o malattia)
oppure continua (diametro dellalbero).
I punti dovrebbero essere posti in una regione del piano
bidimensionale, o sulla superficie della terra, o in un volume
tridimensionale,
Datasets:
Posizione e diametri di alberi in una regione della Georgia (USA)
28
di 200x200 metri (dataset redwood e longleaf di R)
Processi di punto Swedish pine forest
Processi di punto amacrine dataset
Esempio di dataset : i dati si riferiscono alla posizione di pini

campionati in una foresta svedese.
Esempio di un processo di punto marcato.
Un oggetto ppp rappresenta un processo di punto dei siti in cui si

localizzano gli alberi in unarea quadrata 10x10 m2
sw edishpines
Lattributo misurato dicotomico: Austin Huges raccoglie

informazioni sulla posizione delle cellule amacrine nella retina di
un coniglio.
Un oggetto ppp rappresenta un processo di punto della posizione
delle cellule: coordinate x e y nel sistema cartesiano e un
marcatore se il fattore presente oppure no.
152 cellule positive e 142 negative.
29
Processi di punto Longleaf pine data

I dati riguardano coordinate di 584 alberi di pino (Pinus palustris) in una
foresta situata nel sud della Georgia (Thomas County, di 200x200 metri).
Questo un processo marcato da una variabile continua.
Lo scopo di questo studio era esaminare se le posizioni spaziali degli alberi
apparivano completamente casuali o raggruppati in un qualche modo.
Longleaf Pines
31
30
Processi di punto intensit

I problemi che generalmente si vogliono affrontare quando si
considerano processi di punto riguardano:
Intensit: cio la densit media dei punti (il numero atteso di punti
per unit di area).
Pu essere costante (processo uniforme) o pu variare da un sito
allaltro (processo non uniforme o non omogeneo)
32
Processi di punto effetti di covariate
Processi di punto interazione tra punti

Interazione tra punti: misura la dipendenza tra i punti di un
processo. Generalmente ci si aspetta dipendenza maggiore tra punti
vicini
Per un processo di punto con covariate, generalmente si vuole:

-vedere se lintensit del processo dipende dalle covariate
-considerare gli effetti delle covariate sullintensit prima di studiare
linterazione tra i punti.
Esempio (dati su foresta tropicale)I dati consistono in localizzare 360
alberi in una foresta tropicale con relativa mappa di altitudine
Le principali
questioni sono:
-la densit dipende
dallaltitudine?
-c evidenza di
clustering degli
alberi?
33
Processi di punto processi marcati
34
Dati spaziali: pacchetti di R
In un processo marcato, noi dobbiamo investigare se i punti con

differenti valori sono separati.
Esempio: Foresta di Lansing. I dati provengono da una osservazione
di una foresta di dimensione 924ftx924 situata nel Michigan. I dati
si riferiscono a 2251 alberi classificati per tipo.
35
Pacchetti per lanalisi dei dati spaziali:
GeoR
Spatial
Gstat
Spatstat
Splancs
DCluster
36

1) Introduzione Grafica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

1) Introduzione Grafica

Caricato da

Copyright:

Formati disponibili

Informazioni sul corso

Ricevimento: marted 10-11; gioved 9.30-10.30

Analisi dei dati spaziali

Argomenti trattati nel corso

Prova desame: tesina scritta ed esposta oralmente su

Introduzione alla statistica spaziale

Stima e previsione di processi spaziali.

I dati si riferiscono ad un attributo di interesse (e altre

Maggiore interesse per lo spazio geografico (caratterizzato

Estensione al caso spazio-temporale

Principali differenze con i processi puramente spaziali e ipotesi

Come vedremo gli approcci alla statistica spaziale si distinguono

Introduzione alla statistica spaziale: alcune note

Introduzione alla statistica spaziale: tipi di dati

Un aspetto chiave dei dati spaziali lautocorrelazione delle

I dati spaziali sono quindi distinti in base alle caratteristiche

Osservazioni che sono vicine spazialmente tendono ad essere

Introduzione alla statistica spaziale: tipi di dati

Dati geostatistici (Geostatistical data): dati spaziali con

Introduzione alla statistica spaziale: tipi di dati

Processi di punto (Spatial Point Patterns): dati spaziali che si

I principali scopi dellanalisi dei dati spaziali:

I dati geostatistici sono caratterizzati da due elementi:

In questo tipo di dati la variabile casuale una superficie continua

Lattributo pu essere discreto o continuo, univariato o multivariato.

Ci sono 2 aspetti importanti di cui tenere conto:

Dati geostatistici: alcuni datasets utilizzati

Dati geostatistici: elevation dataset

parana: dati di piogge dallo stato di Paran in Brasile (Diggle &

I dati sono proposti nel

studio fatto per trovare

Dati geostatistici: coal-ash data

I dati in questo caso si

Dati geostatistici: wolfcamp dataset

Un dataset con 2035 osservazioni:

Dati geostatistici: parana dataset

Dati geostatistici: Gambia dataset

Dati geostatistici: analisi descrittive e grafiche

o = Median Coal Ash %

Contour Plot of Coal Ash %'s Colourscale or Symbol Map

Means and Medians Across Rows and Columns

Dati geostatistici: analisi descrittive e grafiche

Con queste rappresentazioni

Anche in questo caso il

Lattice data: alcuni datasets utilizzati

Il reticolo pu essere regolare o irregolare.

Numero di morti per Sindrome da morte infantile improvvisa

Il valore associato ad un punto nel reticolo non associato alla

Valori di pixel in unimmagine satellitare (data set getisord di R)

La struttura spaziale dei dati descritta da una struttura di

Lattice data: dati di mortalit per malattie infettive in

Lattice data: dati di mortalit per malattie infettive in

I tassi di mortalit standardizzati (SMR) in Emilia-Romagna (19982002) per comune

Per ogni comune:

values for SMR

Conteggio osservato nelli-esimo comune: Oi

Lattice data: dati di mortalit per malattie infettive in

Lattice data: dati di mortalit per malattie infettive in

Alcune situazioni tipiche:

risultano significativi gli SMR stimati per le aree pi ampie.

Lattice data: ncsids

Lattice data: Phytophthora Data

Studio la distribuzione territoriale delle morti infantili improvvise