Lez Chemiom Treviso Mag2013

Istituto tecnico Industriale Statale “Enrico Fermi”, Treviso
Liceo Scientifico “Leonardo da Vinci”, Treviso
AMBIENTE in FORMAZIONE
• Il trattamento dei dati analitici ambientali

•
• (elementi di chemiometria)
Rossano Piazza
• Che cos’ è la Chemiometria ?
La chemiometria è un settore della chimica che studia

l'applicazione dei metodi matematici o statistici ai dati chimici
La chemiometria può essere definita come la branca della chimica che

si serve di metodi matematici, statistici e logici per:
•progettare, selezionare ed ottimizzare procedure ed esperimenti;
•estrarre la massima informazione possibile sul sistema in esame
attraverso l’analisi dei dati;
•fornire una rappresentazione grafica di questa informazione.
Appare chiaro come la chemiometria accompagni il processo chimico,
ed in particolare chimico-analitico, lungo tutte le sue fasi a partire dal
campionamento fino all’ottimizzazione.
• Fino a poco tempo fa le indagini chimico-fisiche
riguardavano essenzialmente una sola determinazione
analitica o la misura di poche variabili che si determinavano
una alla volta. Oggi, l’uso delle moderne strumentazioni
analitiche, come ad esempio i vari tipi di tecniche
cromatografiche e spettroscopiche, consente l’acquisizione in
tempi brevi di un gran numero di determinazioni
(informazioni) su un unico campione.
•
• Un sistema complesso, quale è un sistema ambientale, per
essere studiato richiede l’acquisizione e l’indagine di (su)
molti campioni, ed ognuno di essi, a sua volta, può essere
descritto da molte informazioni (variabili). Di conseguenza,
l’elaborazione e l’interpretazione dei dati da UNIVARIATA è
necessariamente diventata MULTIVARIATA per poter
utilizzare CONTEMPORANEAMENTE tutte le informazioni
disponibili.
• Aumento del numero di campioni atti a
caratterizzare un sistema:
• + Aumento del potenziale scientifico di

conoscenza sul sistema
• - Diminuzione della nostra capacità di

“vedere” la struttura dei dati
PATTERN RECOGNITION
obiettivi:
• 1. LA SCELTA DELLE CONDIZIONI OTTIMALI PER
L’APPLICAZIONE DI METODOLOGIE SPERIMENTALI
(OTTIMIZZAZIONE ED EXPERIMENTAL DESING);
• 2. L’ESTRAZIONE DELLE INFORMAZIONI

CONTENUTE IN SERIE O TABELLE DI DATI
SPERIMENTALI (PATTERN RECOGNITION).
• Lo scopo finale è quello di contribuire in maniera

determinante a risolvere i problemi ad alta complessità,
semplicemente semplificandoli, estraendo l’informazione
rilevante ai fini della comprensione dei problemi, e
scartando la parte di informazione ridondante e rumorosa.
La strategia chemiometrica
DATI
Informazione Informazione Informazione

RUMORE utile diversa ridondante
OBIETTIVO Obiettivi
diversi
I metodi chemiometrici vengono utilizzati per l’esplorazione dei dati, cioè per
aprire una finestra sulla complessità di un sistema reale, al fine di gettare luce
sulla struttura dei dati, sulle relazioni e correlazioni tra essi esistenti, sulla
congruità, sulla rilevanza e sulla ridondanza con cui il problema è stato
descritto.
LA CHEMIOMETRIA NEL CONTESTO SCIENTIFICO: APPROCCIO
“SOFT” E APPROCCIO “HARD”
(Soft models and Hard models)
PROBLEMI TEORIE
Nuovi Nuove
ESPERIMENTI
Schema di strategia su cui si basa lo sviluppo della scienza

tradizionale
• Cosa è un sistema?
• Cosa è un sistema relazionale empirico?
• Cosa è la rappresentazione di un sistema?
• Oggetti (i campioni atti a rappresentare il
sistema)
• Variabili (il modo con cui si decide di
rappresentare il sistema).
–Rilevanza
–Correlazione
Rappresentazione in uno spazio
multivariato
Una volta che serie di dati polidimensionali siano facilmente acquisibili o
costruibili, l’analisi statistica multivariata è lo strumento necessario per
poter usare contemporaneamente tutte le informazioni disponibili. Si può
facilmente dimostrare che l’uso di informazioni parziali (ad esempio
considerare le modificazioni dovute a ciascuna variabile presa una alla
volta) può portare a risultati completamente distorti.
Per una comprensione immediata del

significato dei vari metodi di analisi multivariata, è
estremamente utile averne una rappresentazione
grafica. Un campione su cui siano state misurate p
variabili è rappresentato da un punto dello spazio p-
dimensionale in cui ciascuna variabile misurata
rappresenta un asse ortogonale
La struttura multivariata dei dati
Come si può descrivere un oggetto rappresentato da p variabili?

• La struttura multivariata dei dati:
• Oggetti
• variabili, e loro rilevanza ai fini della descrizione del sistema
• Rappresentazione della struttura dei dati in forma matriciale nxp
n oggetti (riga) x p
variabili colonna):
R-Mode
• Le Variabili
• Sono le grandezze che utilizziamo per studiare un dato fenomeno e

per descrivere complessivamente le osservazioni; possono essere
di natura sperimentale o numerica (calcolabili per via teorica) .
• Le variabili sono il modo con cui si descrive il sistema

relazionale empirico, e le scale di misura sono il modo con cui
l’informazione empirica viene trasformata in informazione
numerica.
Il Trattamento Preliminare dei dati
1. Verifica della correttezza del dato
2. Verifica della completezza del dato (ovvero, se ci sono valori mancanti),

eventuale completamento della matrice di dati; verifica della presenza di
variabili “costanti”; verifica della co-presenza di variabili discrete e continue
3. Scalatura delle variabili

La Scalatura delle Variabili
• SCOPO: Rendere le variabili le più confrontabili possibile. Ciò diventa di
importanza fondamentale quando lo scopo principale del nostro studio
chemiometrico è quello di trovare informazioni sulla relazione esistente fra le
variabili, e tutti i metodi basati sul calcolo di distanze ) non sono invarianti alle
scalature. Per far ciò, occorre che tutte le variabili abbiano la stessa importanza
iniziale. In linea di massima, le variabili che presentano una grande varianza
risulteranno dalla nostra analisi decisive nel determinare le principali sorgenti di
informazione
•
• Centratura: I dati originali vengono scalati rispetto al loro valor medio:
• x’ij = xij - xj∙
• Proprietà: x’ij =0
Autoscaling (AS)
• I dati originali vengono trasformati in modo che ogni variabile abbia
media = 0 e deviazione standard unitaria. Quindi, in pratica,
l’autoscaling consiste in una centratura seguita da normalizzazione
a varianza unitaria.
• x’ij = ( xij - xj∙) / sj
• Proprietà: : x’j =0; s’j = 1
• L’inverso della deviazione standard di ciascuna variabile si indica
come peso (wj ) della variabile che possiamo quindi definire come
il fattore moltiplicativo richiesto per la trasformazione dei dati
nell’autoscaling. (al di là della centratura che, in qualche software,
non viene eseguita ( PCA )
• wj = 1 / sj
• In generale nell’ AS, viene quindi abbassata la varianza per le
variabili a varianza elevata, ed aumentata per quelle che
originalmente hanno bassa varianza. Ciò potrebbe portare a
sovrastimare l’effetto relativo a variabili pressoché costanti (e che
la cui variazione sia unicamente dovuta a rumore o ad un problema
di scarsa precisione nella misura (!!!) di in parametro costante.
Pertanto è opportuno che le variabili che abbiano varianza iniziale
molto piccola vengano lasciate fuori dall’operazione di autoscaling
Definizione di gruppo e di classe, e
differenze
-Metodi di Clustering
-Metodi di classificazione
• I metodi di Pattern Recognition sono basati

sul concetto di analogia:
• 1) metrica (distanza, similarità)
• 2) aderenza ad un modello matematico
Nei metodi di classificazione esiste una serie di campioni
la cui appartenenza ad una classe è conosciuta a
priori (training set). Ciascun oggetto del training set è
a priori assegnato alla sua classe. Il metodo serve per
trovare delle regole che permettono di distinguere le
varie classi. Una volta trovate, queste regole servono
per classificare campioni incogniti (test set)
Nei metodi di clustering non si hanno, invece,
conoscenze di sorta sui dati da elaborare. (le classi
non sono note a priori). L’obiettivo, in questo caso, è
quello di verificare se i punti nello spazio sono
dispersi omogeneamente o formano dei gruppi
(clusters). Se al termine dell’analisi riteniamo di dare ai
gruppi un significato, i gruppi saranno definiti classi.
(…)
Cluster Analysis
• Ciascun metodo di analisi multivariata si basa sull’utilizzo di un
criterio di similitudine. Sotto questo profilo, i vari metodi sviluppati fino ad
oggi si possono suddividere in due categorie.
• I primi (storicamente) usano come criterio di similitudine la
distanza Euclidea (ed altri tipi di distanze geometriche): due campioni sono
tanto più simili quanto più sono vicini nello spazio p-dimensionale.
• Dati n oggetti e p variabili, con X = x n,p ( matrice di n oggetti per p
variabili), si definisce distanza Euclidea dell’oggetto k-esimo
dall’oggetto l-esimo d k,l:
• dkl = [j (xkj – xlj )2]0.5
• (j= 1, 2,…….p)
• Nel semplice caso bidimensionale (p=2 ), dati 2 oggetti P1 e P2 di coordinate
• P1(x11 , x12) e P2(x21 ,x22), la distanza d12 sarà (x21-x11)2 + (x22-x12)2 .
x2
P2
x22
x12 P1
x11 x21 x1
• Nel caso bidimensionale, si può semplicemente
verificare la validità della formula sulla base del
Teorema di Pitagora.
• La misura della distanza Euclidea è a rigore
l’inverso di una misura di similtudine in quanto, per
oggetti identici (o, meglio, per oggetti diversi, ma
non distinguibili attraverso la nostra
caratterizzazione multivariata), si ha che d = 0.
• Di questo gruppo fanno parte i metodi di
classificazione [LDA (Analisi Discriminante
Lineare), K-NN (K intorni più vicini], e la Cluster
Analysis.Nel secondo gruppo di metodi il
criterio di similitudine è invece rappresentato
dall’aderenza ad un unico modello matematico.
• Fra questi metodi, regna sovrana l’Analisi delle
Componenti Principali (PCA).
Similarità: trasposizione del concetto di
analogia.
Significato opposto al concetto di distanza
euclidea.
Il concetto di similarità di oggetti è insito nel

concetto di distanza. Dalla definizione di
distanza Euclidea, discende quella di
similarità:
skl = 1- dkl /dmax (0s1 )

• Matrice delle distanze e matrice
delle similarità:
• Definizioni, proprietà e utilizzo

Metodo K-NN
•
Il metodo K-NN classifica gli oggetti a
seconda della classe di appartenenza
degli oggetti più vicini
• Vantaggi:
• -semplicità
• -non sono necessari software specifici
Metodo K-NN
• K-NN: Algoritmo
• -Scalatura dei dati
• -Selezione del tipo di distanza utilizzare (per esempio, la distanza
Euclidea)
• -Scelta del numero di K intorni utili per la classificazione
• -Calcolo della matrice delle distanze
• per ciascun oggetto del test set si considerano i K intorni più
vicini
• l’oggetto viene assegnato alla classe più rappresentativa nei k
vicini.
• La predizione della classe per un nuovo oggetto viene effettuata
aggiungendo il nuovo oggetto al training set, ed andando a
valutare a quale classe esso viene assegnato (in funzione dei K
oggetti più vicini appartenenti al training set).
Metodi di Raggruppamento: CLUSTER
ANALYSIS
• METODI DI CLUSTER ANALYSIS
• -Metodi gerarchici (single linkage,
average linkage, complete linkage)
• Caratterizzazione dei Clusters:

• la loro posizione nello spazio p –
dimensionale è definita da:
• centroide (vettore delle medie delle
variabili calcolate per gli oggetti assegnati
al cluster); centrotipo (oggetto di
riferimento fra tutti gli oggetti facenti parte
del cluster, il più vicino al centroide);
• .dimensione (n. di oggetti in esso
contenuti).
Strategia di una Cluster Analysis
• Questo avviene andando ad eliminare dalla
matrice di similarità le righe e le colonne
relative ai due cluster (oggetti) che sono
stati “uniti”, e mettendo al loro posto una
nuova riga ed una nuova colonna relativa
alle nuove similarità del nuovo cluster con
tutti i restanti cluster (oggetti). Così
facendo, la dimensione della matrice di
similarità si riduce di uno ad ogni passo
successivo.
• Ma come si calcola la distanza del
“nuovo” cluster f (ottenuto dalla
“fusione” del cluster s con il cluster t)
con un altro cluster k ?
• s (ns) t (nt) k (nk)
?????
f (ns+nt)
• Algoritmi di Cluster
• Se ns è la dimensione del cluster s, nt è la dimensione del

cluster t, nk quella del cluster k, ed ovviamente nf = ns + nt è la
dimensione del nuovo cluster f, si ha:
• 1. d kf = 0.5 ( d ks + d kt ) ( Average Linkage)
• 2. d kf = ( ns d ks + nt d kt ) \ nf (weighted Average Linkage)

• 3.d kf = min (d ks , dkt ) (Single Linkage)
• 4.d kf = max (d ks , d kt ) (Complete Linkage)
Cluster Analisys: Dendrogramma
S
i d
m i
i s
l t
a a
r n
i z
t a
à
1
campioni 1 2 3 4 5 6 7 8 9 10
Limiti della Cluster Analysis
• -Rumore sperimentale legato alla
imprecisione delle misure sperimentali
• -Diversa rilevanza delle variabili prese
in considerazione
• -Interpretazione incompleta delle
informazioni ottenute (La Cluster
Analysis non da’ informazioni sul ruolo
discriminante delle variabili)
CASO DI STUDIO
Confronto fra acque potabili (con la genesi di
potabilizzazione, a partire dai pozzi di falda) ed acque
minerali
• Stima della qualità delle acque
• Indice di qualità di un’acqua che possa essere
confrontabile
• Le acque potabili sono “diverse” da quelle minerali?
• (Conoscenza preliminare)dell’aspetto Chimico-Fisico,
biologico, microbiologico, geografico, legislativo
• L’acquedotto di Venezia dispone di fonti di
approvigionamento molto differenti, per cui immette in rete
acque dalle caratteristiche diverse. Non si può, dunque,
parlare di un'unica acqua potabile.
• Le acque bevute dai veneziani

•
94% FALDA 6% FIUME SILE
• CENTRALI DI SPINTA (ASPIV) :
• Venezia Urbe : Centrale S. Andrea

(VE) (1884)
• Mestre : Centrale GAZZERA
(GA)
• Centrale Marghera (MA)
• Cà Solaro: Centrale omonima
(CA) (1974)
• Identificazione di 20 parametri (variabili) per

l’identificazione della qualità e della “diversità”
Obiettivo: scelta dell'acqua "migliore" (basso
contenuto di sostanze indesiderabili, parametri
costanti nel tempo) da confrontare con le principali
acque minerali distribuite al dettaglio E' possibile
imbottigliare l'acqua dell' ASPIV ?
• (direttiva 96/70/CE sul riavvicinamento delle
legislazioni degli stati membri sull' uso e la
commercializzazione delle acque minerali).
ASPIV: Centrali di potabilizzazione
• Utilizzo della Cluster Analysis per un
primo screening: valutazione della
“diversità” fra i campioni analizzati
dalle 4 centrali di spinta
• Analisi di 100 campioni per ogni
centrale di spinta: totale 400 campioni,
20 variabili (variabilità stagionale)
• Matrice 400obj x 20vars
• Autoscaling
Risultati della Cluster Analysis sui dati autoscalati
-Cà Solaro appare l’acqua più “diversa” (si unisce per ultima)
-I campioni di Gazzera appaiono i più simili tra loro
-Marghera e Venezia non solo distinguibili a nessun livello (stesse fonti)
-Ipotesi: Marghera e Venezia: stesse fonti (permeabilità di falda)
-L’acqua di Gazzera sembra essere la più omogenea

No informazioni sulla variabili
Analisi delle Componenti
Principali (PCA)
• Si tratta di uno strumento di importanza
fondamentale nell’esplorazione multivariata dei
dati, ovvero, per estrarre l’informazione contenuta
in una serie di dati sperimentali quando essi
possono essere organizzati in modo da formare
una matrice.
• Nella PCA, le variabili che descrivono i dati
vengono trasformate in nuove variabili,
chiamate appunto componenti principali (o
variabili latenti), che risultano essere delle
combinazioni lineari delle variabili originali, e la
cui caratteristica principale è quella di essere
tra loro ortogonali.
• -Rappresentazione in uno spazio matematico
della realtà strutturale descrittiva contenuta in
una serie di dati (sfruttando la correlazione)
- Riduzione della dimensionalità (visibilità dei
campioni in uno spazio relativamente semplice)
- Eliminazione dell’informazione non significativa
e non utile ai fini della comprensione dei dati
(esempio rumore sperimentale, errori casuali)
- Ricerca delle proprietà principali (vedere in seguito)
La PCA è un passaggio intermedio per molte

tecniche multivariate.
COMPONENTI PRINCIPALI:
-poche
-latenti
-ortogonali
-informative
t1 = a11x1 + a12x2 +...+ a1jxj +…..+ a1pxp

t2 = a21x1 + a22x2 +...+ a2jxj +.….+ a2pxp X2
.....................................................……..
tj = aj1x1 + aj2x2 +...+ ajjxj +.…..+ aipxp
................................................……...... t1 t2
tp = ap1x1 + ap2x2 +...+ apjxj +….+ appxp
X1
Estrazione di 2 componenti principali su due sole variabili
Var2 (X2)
PC2
PC1
X2
Varianza spiegata = 100%
X1 Var 1 (X1)
Analisi delle componenti principali (PCA)
L’espansione del modello matematico utilizzata dalla PCA
(interpretazione geometrica della PCA)
x2 x2
x2 M=0 M=1
x1 x1 x1
x3 x3
x2
M=2
x1
x3
Rappresentazione di uno spazio tridimensionale (X1, X2, X3) su 2
componenti principali (t1, t2) : riduzione della dimensionalità da 3
a 2.
Le componenti principali, vengono dunque estratte dalle variabili

originarie con l’obiettivo di rendere massima la varianza di ognuna e
con il vincolo dell’ ortogonalità fra ognuna e tutte le altre.
• Ogni componente, essendo funzione di tutte le variabili originali, raccoglie in genere
informazioni da gruppi di variabili, ed in maggioranza da tutte quelle per le quali i
coefficienti sono sufficientemente elevati. Di conseguenza, variabili che sono ad elevato
grado di associazione (correlate) tendono a concentrare il loro peso (in positivo o in
negativo, a seconda del segno del coefficiente) su una o su poche componenti principali.
• Ad ogni componente è associata quindi una varianza (quella massimizzata) che,
essendo una frazione della variabilità totale presente in tutte le variabili, viene chiamata
varianza spiegata e spesso riportata come valore relativo percentuale:
• Riferendoci a più componenti, le prime m componenti, la somma delle varianze di queste,
sempre rapportata alla variabilità totale delle Xj sarà la varianza spiegata cumulata
• Per M = p, la varianza accumulata è uguale al 100%.
• Il numero di componenti principali estratte

• Dato l'obiettivo con cui vengono calcolate le componenti principali
(massimizzazione della varianza ad ogni stadio con il vincolo della ortogonalità), la
varianza associata alle componenti assume il valore massimo assoluto per la prima,
dopodiché essa tende in genere a diminuire fortemente passando da una componente alla
successiva.
• Le notevoli potenzialità del metodo derivano dal fatto che, in genere, la maggior
parte della varianza spiegata (informazione, struttura dei dati) si concentra sulle prime,
poche componenti principali, lasciando dispersa su tutte le rimanenti la variabilità residua o
di "errore". Questo comporta che l'insieme dei dati può essere studiato analizzando le
prime, poche componenti che, tuttavia, contengono (e riproducono quindi su una
dimensionalità ridotta) l'informazione principale presente nei dati multivariati.
• Nella pratica, molto frequentemente il problema si riduce all'analisi delle prime due
componenti principali, a volte è necessario prendere in considerazione anche la terza o la
quarta, ma molto raramente si va oltre. Uno dei problemi di “arbitrarietà” legato alla pca, è
proprio rappresentato dalla decisione di quante componenti principali scegliere per
escludere quella parte di informazione che costituisce rumore, ed al tempo stesso per non
privarci di una parte rilevante di informazione. In altre parole, si tratta di adottare una
“regola di arresto” che sia la più valida ed oggettiva possibile, e in sostanza di rispondere
alla domanda: “quante sono le componenti principali significative?”
• I parametri di output di una PCA
Per ogni espansione del modello di componenti principali: Varianza

spiegata, e varianza cumulativa
Varianza spiegata % per una componente m = [Var Cm / j Var Xj] ´
100
Varianza spiegata cumulata % = [m Var Cm / j Var Xj] ´ 100
Loadings : pesi delle singole variabili, sul modello di componenti

principali (coefficienti di combuinazione normalizzati): Matrice L
Scores: Coordinate degli oggetti nel modello di componenti

principali: Matrice T
• T = X L
• (n,M) = (n,p) (p,M)
• XR = T LT
• (n,p )= (n,M) (M,p)
I Loadings
La matrice L dei loadings è la matrice le cui colonne
rappresentano gli autovettori della matrice di covarianza (o di
correlazione): le righe rappresentano le variabili originali: ciò
significa che, selezionato un autovettore, in ciascuna riga
troviamo i coefficienti numerici che rappresentano importanza
di ciascuna variabile originale in quell’autovettore.
I loadings sono coefficienti standardizzati.
• Un valore di ljm vicino a 1 (in valore assoluto) indica che la
componente principale m-esima è rappresentata soprattutto dalla j-
esima variabile originale; un valore vicino a 0 indica invece che la j-
esima variabile ha scarso significato e non è rappresentata (non è
rilevante) nella m-esima componente.
INTERPRETAZIONE DI LOADINGS E SCORES
3 3 4
1
11 14
x11 x16
C 15 x12 x17
t2
loading
vector 2 0.5
1 5
A 6
1 2 13 9 16
x2
0 7 B
0 x7 x8 x5 x1
12 8 10
x9 x6 x4 x3
-1 x10
-0.5
-2
x13 x15
x14
-3 -1
-1 -0.5 0 0.5 1
-3 -2 -1 0 1 2 3 Loading vector 1
t1 (Component 1, factor 1..)
(Component 1, Eigenvector 1, fattore 1....ecc.)
esempio di diagramma di dispersione dei campioni (score plot) esempio di loading plot (diagramma di dispersione delle variabili sulle prime due
componenti principali)
Grafici biplot
+5 = oggetto
component 2 = variabile
-3
-2 0 component 1 +4
La scelta del numero di componenti principali
significative
Obiettivi:
1) Riduzione della dimensionalità, utilizzando un
numero di componenti sufficiente a ricostruire la
base dati con una adeguata approssimazione
2) Eliminare l’informazione “rumorosa”
3) (errore sperimentale)
Criteri:
1) Quantità e qualità di varianza percentuale
accumulata in ogni componente principale.
SCREE PLOT
m
( % Var Spiegata)
(30) 4
(20)
2
(10)
0
1 2 3 4 5 6 .............. m
diagramma degli autovalori (m ) in funzione del numero delle componenti principali (m)
CASO DI STUDIO: Campionamento in Laguna di Venezia
OBIETTIVO: verificare la possibile esistenza di diverse fonti

di contaminazione e la loro ubiquitarietà
URBANA (U)
Aree indagate: INDUSTRIALE (I)
AGRICOLA (A)
200 campioni (griglia di campionamento)

18 variabili (metalli pesanti, pesticidi, PCB tot., parametri
microbiologici
(n=200; p=18)
1) Autoscaling
2) PCA results:
PC % Expl, Var Cum. Var. Expl

dim.
1 47 47
2 32 79
3 6 85
4 5 90
LOADING SCORE
PLOT Metalli PLOT
+PCB
I
L.V2 T2
Pest. A
+Cr
Colibatteri
U
Loading vector 1 t1
1) Inquinamento localizzato spazialmente.
2) Diversificazione sulle base delle diverse forme di inquinamento e sul diverso
impatto antropico.
Proprietà principali: Pesticidi (1a pc +); colibatteri (2a pc, - ); metalli pesanti e
PCB (2aPC, +), eccezione per il cromo

Proprietà Principali (INTERPRETAZIONE):
PC1. Variabile “agricola”
PC2 Variabile “apporto industriale”, variabile
“bioinquinamento”
CrVI : posizione “anomala. ” Nuovi studi sulla
contaminazione da CrVI su foci e percorso

Caso acque ASPIV: matrice di correlazione
• STEP 1: Studio dulla
“diversità” dei campioni
provenienti dalle 4 centrali si
spinta
• Ca= Cà Solaro
• Ga= Gazzera
• Ve= Venezia Urbe (S. Marco)
• Ma= Marghera
Risultati della PCA: Varianza spiegata, e scelta
del numero di componenti principali significative
Risultati della PCA: Autovettori (loadings) e
scores (Score Plot)
• STEP 2: Confronto di qualità tra i
campioni provenienti dai differenti
pozzi di Gazzera
• Zero Branco 1
• Zero Branco 2
• Quinto (TV)
Gazzera Pozzi: Risultati della PCA/1
Gazzera Pozzi: Risultati della
PCA/2
Gazzera Pozzi: Risultati della
PCA/3
• STEP 3: Contronto fra i
campioni di Acqua di Zero
Branco 1
(la prescelta) e campioni di
acque minerali
Zero Branco 1 e acque minerali a
confronto: risultati della PCA /1
Zero Branco 1 e acque minerali a
• STEP 4: Confronto fra i
campioni di Acque di Zero
Branco, e campioni di acque
oligominerali
Zero Branco 1 e acque oligominerali a
Zero Branco 1 e acque oligominerali a
Utilizzo della PCA per la caratterizzazione di un sito contaminato
Suolo prelevato in un sito contaminato da scarichi di rubinetterie (Novarese)
Principali contaminanti: Cd, Cu, Cr, Ni, Pb, Zn
B1-B10: Campioni di suolo sub-superficiale Prelevati in aree fortemente contaminate (B8 e B9: in presenza di
vegetazione)
B12-B22: Campioni prelevati in profondità in aree fortemente contaminate (profili verticali).
B23-B28: Campioni sub-superficiali in prelevati in aree esterne al sito (bassa contaminazione)
3
B15 B17
2
B14 Al Y B13
B16 Sc B7
B19 B12 La B1
1
B18
Fe B2
V Cd
B20 B5 Ti Cu
B21 Cr Ni
0
Zn
PC 2 (18%)
B28
Zr B11 B6
B22 Mn B3 Pb B4
-1 pH
B10
B27 B8
-2 B26
B24 B23
-3
B9
-4
B25
-5
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
PC 1 (38%)
-Contaminazione prevalente nelle aree sub-superficiali (concentrazioni piu’

elevate);
-Correlazione tra i contaminanti
-I campioni profondi sono caratterizzati prevalentemente da variabili di origine
geologica, e sono a scarsa contaminazione, ad eccezione dei campioni B12 e B13
LIMITAZIONI ALL' USO DELL' ANALISI DELLE COMPONENTI
PRINCIPALI
Non sempre, la PCA è una tecnica adatta agli scopi fin qui esposti, e
talvolta può addirittura indurre ad interpretazioni errate.
•Basso grado di correlazione;

•Presenza di variabili incorrelate ma discriminanti; dall' analisi PCA esse
vengono di fatto escluse (poichè i loadings elevati per esse "escono" ad
una dimensionalità elevata e che spesso appare non significativa del
modello di componenti principali). Ciò porta ad una perdita di informazione
rilevante.
•Presenza di dati raggruppati nello spazio delle variabili originali (ovvero
presenza di sottogruppi o classi): in tal caso occorre una modellazione
separata per ogni classe.
• Roberto Todeschini: “Introduzione alla
Chemiometria”, EdiSES, Napoli
• D.L. Massart et al:”Chemometrics:a Textbook”,

Data Handling in Science and Technology, 2,
ELSEVIER, Amsterdam.

Lez Chemiom Treviso Mag2013

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Lez Chemiom Treviso Mag2013

Caricato da

Copyright:

Formati disponibili

Istituto tecnico Industriale Statale “Enrico Fermi”, Treviso

Liceo Scientifico “Leonardo da Vinci”, Treviso

• Il trattamento dei dati analitici ambientali

La chemiometria è un settore della chimica che studia

La chemiometria può essere definita come la branca della chimica che

• + Aumento del potenziale scientifico di

• - Diminuzione della nostra capacità di

• 2. L’ESTRAZIONE DELLE INFORMAZIONI

• Lo scopo finale è quello di contribuire in maniera

Informazione Informazione Informazione

Schema di strategia su cui si basa lo sviluppo della scienza

Per una comprensione immediata del

Come si può descrivere un oggetto rappresentato da p variabili?

• Sono le grandezze che utilizziamo per studiare un dato fenomeno e

• Le variabili sono il modo con cui si descrive il sistema

1. Verifica della correttezza del dato

2. Verifica della completezza del dato (ovvero, se ci sono valori mancanti),

3. Scalatura delle variabili

• x’ij = xij - xj∙

• I metodi di Pattern Recognition sono basati

Il concetto di similarità di oggetti è insito nel

skl = 1- dkl /dmax (0s1 )

• Definizioni, proprietà e utilizzo

• Caratterizzazione dei Clusters:

• Se ns è la dimensione del cluster s, nt è la dimensione del

• 1. d kf = 0.5 ( d ks + d kt ) ( Average Linkage)

• 2. d kf = ( ns d ks + nt d kt ) \ nf (weighted Average Linkage)

• Le acque bevute dai veneziani

• Venezia Urbe : Centrale S. Andrea

• Identificazione di 20 parametri (variabili) per

-Ipotesi: Marghera e Venezia: stesse fonti (permeabilità di falda)

-L’acqua di Gazzera sembra essere la più omogenea

La PCA è un passaggio intermedio per molte

t1 = a11x1 + a12x2 +...+ a1jxj +…..+ a1pxp

Varianza spiegata = 100%

Le componenti principali, vengono dunque estratte dalle variabili

• Il numero di componenti principali estratte

Per ogni espansione del modello di componenti principali: Varianza

Loadings : pesi delle singole variabili, sul modello di componenti

Scores: Coordinate degli oggetti nel modello di componenti

OBIETTIVO: verificare la possibile esistenza di diverse fonti

200 campioni (griglia di campionamento)

PC % Expl, Var Cum. Var. Expl

1) Inquinamento localizzato spazialmente.

2) Diversificazione sulle base delle diverse forme di inquinamento e sul diverso

PCB (2aPC, +), eccezione per il cromo

PC1. Variabile “agricola”

PC2 Variabile “apporto industriale”, variabile

CrVI : posizione “anomala. ” Nuovi studi sulla

contaminazione da CrVI su foci e percorso

-Contaminazione prevalente nelle aree sub-superficiali (concentrazioni piu’

•Basso grado di correlazione;

• D.L. Massart et al:”Chemometrics:a Textbook”,

Potrebbero piacerti anche