Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
AMBIENTE in FORMAZIONE
Rossano Piazza
• Che cos’ è la Chemiometria ?
•
• Un sistema complesso, quale è un sistema ambientale, per
essere studiato richiede l’acquisizione e l’indagine di (su)
molti campioni, ed ognuno di essi, a sua volta, può essere
descritto da molte informazioni (variabili). Di conseguenza,
l’elaborazione e l’interpretazione dei dati da UNIVARIATA è
necessariamente diventata MULTIVARIATA per poter
utilizzare CONTEMPORANEAMENTE tutte le informazioni
disponibili.
• Aumento del numero di campioni atti a
caratterizzare un sistema:
PATTERN RECOGNITION
obiettivi:
• 1. LA SCELTA DELLE CONDIZIONI OTTIMALI PER
L’APPLICAZIONE DI METODOLOGIE SPERIMENTALI
(OTTIMIZZAZIONE ED EXPERIMENTAL DESING);
DATI
OBIETTIVO Obiettivi
diversi
I metodi chemiometrici vengono utilizzati per l’esplorazione dei dati, cioè per
aprire una finestra sulla complessità di un sistema reale, al fine di gettare luce
sulla struttura dei dati, sulle relazioni e correlazioni tra essi esistenti, sulla
congruità, sulla rilevanza e sulla ridondanza con cui il problema è stato
descritto.
LA CHEMIOMETRIA NEL CONTESTO SCIENTIFICO: APPROCCIO
“SOFT” E APPROCCIO “HARD”
(Soft models and Hard models)
PROBLEMI TEORIE
Nuovi Nuove
ESPERIMENTI
• Oggetti
• variabili, e loro rilevanza ai fini della descrizione del sistema
• Rappresentazione della struttura dei dati in forma matriciale nxp
n oggetti (riga) x p
variabili colonna):
R-Mode
• Le Variabili
•
• Centratura: I dati originali vengono scalati rispetto al loro valor medio:
• Proprietà: x’ij =0
Autoscaling (AS)
• I dati originali vengono trasformati in modo che ogni variabile abbia
media = 0 e deviazione standard unitaria. Quindi, in pratica,
l’autoscaling consiste in una centratura seguita da normalizzazione
a varianza unitaria.
• x’ij = ( xij - xj∙) / sj
• Proprietà: : x’j =0; s’j = 1
• L’inverso della deviazione standard di ciascuna variabile si indica
come peso (wj ) della variabile che possiamo quindi definire come
il fattore moltiplicativo richiesto per la trasformazione dei dati
nell’autoscaling. (al di là della centratura che, in qualche software,
non viene eseguita ( PCA )
• wj = 1 / sj
• In generale nell’ AS, viene quindi abbassata la varianza per le
variabili a varianza elevata, ed aumentata per quelle che
originalmente hanno bassa varianza. Ciò potrebbe portare a
sovrastimare l’effetto relativo a variabili pressoché costanti (e che
la cui variazione sia unicamente dovuta a rumore o ad un problema
di scarsa precisione nella misura (!!!) di in parametro costante.
Pertanto è opportuno che le variabili che abbiano varianza iniziale
molto piccola vengano lasciate fuori dall’operazione di autoscaling
Definizione di gruppo e di classe, e
differenze
-Metodi di Clustering
-Metodi di classificazione
x2
P2
x22
x12 P1
x11 x21 x1
• Nel caso bidimensionale, si può semplicemente
verificare la validità della formula sulla base del
Teorema di Pitagora.
• La misura della distanza Euclidea è a rigore
l’inverso di una misura di similtudine in quanto, per
oggetti identici (o, meglio, per oggetti diversi, ma
non distinguibili attraverso la nostra
caratterizzazione multivariata), si ha che d = 0.
• Di questo gruppo fanno parte i metodi di
classificazione [LDA (Analisi Discriminante
Lineare), K-NN (K intorni più vicini], e la Cluster
Analysis.Nel secondo gruppo di metodi il
criterio di similitudine è invece rappresentato
dall’aderenza ad un unico modello matematico.
• Fra questi metodi, regna sovrana l’Analisi delle
Componenti Principali (PCA).
Similarità: trasposizione del concetto di
analogia.
Significato opposto al concetto di distanza
euclidea.
•
Il metodo K-NN classifica gli oggetti a
seconda della classe di appartenenza
degli oggetti più vicini
• Vantaggi:
• -semplicità
• -non sono necessari software specifici
Metodo K-NN
• K-NN: Algoritmo
• -Scalatura dei dati
• -Selezione del tipo di distanza utilizzare (per esempio, la distanza
Euclidea)
• -Scelta del numero di K intorni utili per la classificazione
• -Calcolo della matrice delle distanze
• per ciascun oggetto del test set si considerano i K intorni più
vicini
• l’oggetto viene assegnato alla classe più rappresentativa nei k
vicini.
• La predizione della classe per un nuovo oggetto viene effettuata
aggiungendo il nuovo oggetto al training set, ed andando a
valutare a quale classe esso viene assegnato (in funzione dei K
oggetti più vicini appartenenti al training set).
Metodi di Raggruppamento: CLUSTER
ANALYSIS
• METODI DI CLUSTER ANALYSIS
• -Metodi gerarchici (single linkage,
average linkage, complete linkage)
?????
f (ns+nt)
• Algoritmi di Cluster
S
i d
m i
i s
l t
a a
r n
i z
t a
à
1
campioni 1 2 3 4 5 6 7 8 9 10
Limiti della Cluster Analysis
• -Rumore sperimentale legato alla
imprecisione delle misure sperimentali
• -Diversa rilevanza delle variabili prese
in considerazione
• -Interpretazione incompleta delle
informazioni ottenute (La Cluster
Analysis non da’ informazioni sul ruolo
discriminante delle variabili)
CASO DI STUDIO
Confronto fra acque potabili (con la genesi di
potabilizzazione, a partire dai pozzi di falda) ed acque
minerali
• Stima della qualità delle acque
• Indice di qualità di un’acqua che possa essere
confrontabile
• Le acque potabili sono “diverse” da quelle minerali?
• (Conoscenza preliminare)dell’aspetto Chimico-Fisico,
biologico, microbiologico, geografico, legislativo
• L’acquedotto di Venezia dispone di fonti di
approvigionamento molto differenti, per cui immette in rete
acque dalle caratteristiche diverse. Non si può, dunque,
parlare di un'unica acqua potabile.
-Cà Solaro appare l’acqua più “diversa” (si unisce per ultima)
-I campioni di Gazzera appaiono i più simili tra loro
-Marghera e Venezia non solo distinguibili a nessun livello (stesse fonti)
-poche
-latenti
-ortogonali
-informative
Var2 (X2)
PC2
PC1
X2
X1 Var 1 (X1)
Analisi delle componenti principali (PCA)
L’espansione del modello matematico utilizzata dalla PCA
(interpretazione geometrica della PCA)
x2 x2
x2 M=0 M=1
x1 x1 x1
x3 x3
x2
M=2
x1
x3
Rappresentazione di uno spazio tridimensionale (X1, X2, X3) su 2
componenti principali (t1, t2) : riduzione della dimensionalità da 3
a 2.
• T = X L
• (n,M) = (n,p) (p,M)
• XR = T LT
• (n,p )= (n,M) (M,p)
I Loadings
La matrice L dei loadings è la matrice le cui colonne
rappresentano gli autovettori della matrice di covarianza (o di
correlazione): le righe rappresentano le variabili originali: ciò
significa che, selezionato un autovettore, in ciascuna riga
troviamo i coefficienti numerici che rappresentano importanza
di ciascuna variabile originale in quell’autovettore.
I loadings sono coefficienti standardizzati.
• Un valore di ljm vicino a 1 (in valore assoluto) indica che la
componente principale m-esima è rappresentata soprattutto dalla j-
esima variabile originale; un valore vicino a 0 indica invece che la j-
esima variabile ha scarso significato e non è rappresentata (non è
rilevante) nella m-esima componente.
INTERPRETAZIONE DI LOADINGS E SCORES
3 3 4
1
11 14
x11 x16
C 15 x12 x17
t2
loading
vector 2 0.5
1 5
A 6
1 2 13 9 16
x2
0 7 B
0 x7 x8 x5 x1
12 8 10
x9 x6 x4 x3
-1 x10
-0.5
-2
x13 x15
x14
-3 -1
-1 -0.5 0 0.5 1
-3 -2 -1 0 1 2 3 Loading vector 1
t1 (Component 1, factor 1..)
(Component 1, Eigenvector 1, fattore 1....ecc.)
esempio di diagramma di dispersione dei campioni (score plot) esempio di loading plot (diagramma di dispersione delle variabili sulle prime due
componenti principali)
Grafici biplot
+5 = oggetto
component 2 = variabile
-3
-2 0 component 1 +4
La scelta del numero di componenti principali
significative
Obiettivi:
1) Riduzione della dimensionalità, utilizzando un
numero di componenti sufficiente a ricostruire la
base dati con una adeguata approssimazione
2) Eliminare l’informazione “rumorosa”
3) (errore sperimentale)
Criteri:
1) Quantità e qualità di varianza percentuale
accumulata in ogni componente principale.
SCREE PLOT
m
( % Var Spiegata)
(30) 4
(20)
2
(10)
0
1 2 3 4 5 6 .............. m
diagramma degli autovalori (m ) in funzione del numero delle componenti principali (m)
CASO DI STUDIO: Campionamento in Laguna di Venezia
URBANA (U)
Aree indagate: INDUSTRIALE (I)
AGRICOLA (A)
1) Autoscaling
2) PCA results:
L.V2 T2
Pest. A
+Cr
Colibatteri
U
Loading vector 1 t1
impatto antropico.
Proprietà principali: Pesticidi (1a pc +); colibatteri (2a pc, - ); metalli pesanti e
“bioinquinamento”
• Ca= Cà Solaro
• Ga= Gazzera
• Ve= Venezia Urbe (S. Marco)
• Ma= Marghera
Risultati della PCA: Varianza spiegata, e scelta
del numero di componenti principali significative
Risultati della PCA: Autovettori (loadings) e
scores (Score Plot)
• STEP 2: Confronto di qualità tra i
campioni provenienti dai differenti
pozzi di Gazzera
• Zero Branco 1
• Zero Branco 2
• Quinto (TV)
Gazzera Pozzi: Risultati della PCA/1
Gazzera Pozzi: Risultati della
PCA/2
Gazzera Pozzi: Risultati della
PCA/3
• STEP 3: Contronto fra i
campioni di Acqua di Zero
Branco 1
(la prescelta) e campioni di
acque minerali
Zero Branco 1 e acque minerali a
confronto: risultati della PCA /1
Zero Branco 1 e acque minerali a
confronto: risultati della PCA /2
• STEP 4: Confronto fra i
campioni di Acque di Zero
Branco, e campioni di acque
oligominerali
Zero Branco 1 e acque oligominerali a
confronto: risultati della PCA /1
Zero Branco 1 e acque oligominerali a
confronto: risultati della PCA /2
Utilizzo della PCA per la caratterizzazione di un sito contaminato
Suolo prelevato in un sito contaminato da scarichi di rubinetterie (Novarese)
Principali contaminanti: Cd, Cu, Cr, Ni, Pb, Zn
B1-B10: Campioni di suolo sub-superficiale Prelevati in aree fortemente contaminate (B8 e B9: in presenza di
vegetazione)
B12-B22: Campioni prelevati in profondità in aree fortemente contaminate (profili verticali).
B23-B28: Campioni sub-superficiali in prelevati in aree esterne al sito (bassa contaminazione)
3
B15 B17
2
B14 Al Y B13
B16 Sc B7
B19 B12 La B1
1
B18
Fe B2
V Cd
B20 B5 Ti Cu
B21 Cr Ni
0
Zn
PC 2 (18%)
B28
Zr B11 B6
B22 Mn B3 Pb B4
-1 pH
B10
B27 B8
-2 B26
B24 B23
-3
B9
-4
B25
-5
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
PC 1 (38%)
Non sempre, la PCA è una tecnica adatta agli scopi fin qui esposti, e
talvolta può addirittura indurre ad interpretazioni errate.