Analisi Statistica Multivariata Progetto 1

Analisi Statistica Multivariata. A.A. 2010-2011 Progetto n.1. Gruppo IV.
Barlotti Davide Mensali Giorgia
Problema 1 Si considerino i dati rainfalls (in DASL and More Data). Studiare gli oggetti e le variabili (eliminando la colonna dell'anno): fare un'analisi di clustering usando single e complete linkage, eventualmente considerando varie distanze. Interpretare i risultati indicando le eventuali eccezioni. Valutare i raggruppamenti con anche un metodo di Multidimensional scaling,e confrontare i risultati. Problema 2 Si considerino i dati sui salmoni in T11-2 (in JW), corrispondenti ai valori di crescita (diametro degli anelli di crescita) di due popolazioni (dell'Alaska,famiglia 1 e Canadesi, famiglia 2), in due tempi diversi: in acqua dolce (primo anno) ed acqua salata (primo anno). In tutta l'analisi, si considerino solo i dati dei maschi (seconda colonna, genere=2). 1. Per la matrice di osservazioni relativa ad ogni popolazione considerata, fare uno studio della normalit univariata e bivariata. Verificare l'eventuale presenza di outliers ed eliminarli dall'analisi successiva giustificando la scelta. Trasformare eventualmente le variabili, o alcune di esse, per migliorare la normalit dei dati. 2. Determinare la regione di confidenza (99% e 95%) per la media, relativamente alla famiglia Alaska. Riportare tutto sullo stesso grafico e commentare. 3. Per le osservazioni provenienti dalle diverse popolazioni, valutare l'ipotesi di uguale media delle popolazioni, con livello di signicativita = 0.05 e = 0.01. Commentare i risultati. In caso di rifiuto, valutare quale delle variabili piu responsabile del rifiuto, facendo il confronto di medie sulle singole variabili. 4. Determinare intervalli simultanei di confidenza (95%) e commentare su eventuali differenze tra i risultati ottenuti rispetto al test del quesito precedente. 5. Impostare un test di discriminanza per allocare la nuova osservazione x = [140; 370] anche mediante uno studio grafico.
Problem 1 Dati di Partenza

Can Southern California's water supply in future years be predicted from past data? One factor affecting water availability is stream runoff. If runoff could be predicted, engineers, planners and policy makers could do their jobs more efficiently. Multiple linear regression models have been used in this regard. The following dataset contains 43 years worth of precipitation measurements (in inches) taken at six sights in the Owens Valley labeled APMAM (Mammoth Lake), APSAB (Lake Sabrina), APSLAKE (South Lake), OPBPC (Big Pine Creek), OPRC (Rock Creek), and OPSLAKE, and stream runoff volume (measured in acrefeet) at a sight near Bishop, California (labeled BSAAM). Can precipitation predict runoff volume?
Year | APMAM | APSAB |APSLAKE| OPBPC | OPRC 1948 9.13 3.58 3.91 4.10 7.43 1949 5.28 4.82 5.20 7.55 11.11 1950 4.20 3.77 3.67 9.52 12.20 1951 4.60 4.46 3.93 11.14 15.15 1952 7.15 4.99 4.88 16.34 20.05 1953 9.70 5.65 4.91 8.88 8.15 1954 5.02 1.45 1.77 13.57 12.45 1955 6.70 7.44 6.51 9.28 9.65 1956 10.50 5.85 3.38 21.20 18.55 1957 9.10 6.13 4.08 9.55 9.20 1958 8.75 5.23 5.90 15.25 14.80 1959 8.10 3.77 4.56 9.05 6.85 1960 3.75 1.47 1.78 4.57 6.10 1961 10.15 5.09 4.86 8.90 7.15 1962 6.15 3.52 3.30 16.90 14.75 1963 12.75 8.17 10.16 16.75 11.55 1964 7.35 4.33 4.85 5.25 7.45 1965 11.25 6.56 7.60 8.40 13.20 1966 4.05 1.90 2.00 10.85 8.25 1967 12.65 6.62 7.14 23.25 17.00 1968 4.65 3.84 3.34 7.10 6.80 1969 5.35 3.62 4.62 43.37 24.85 1970 4.05 1.98 2.94 8.95 11.25 1971 5.90 5.72 5.42 8.45 10.90 1972 9.45 4.82 6.79 7.90 7.60 1973 3.45 2.63 2.88 14.80 14.70 1974 4.25 2.54 2.36 18.05 16.90 1975 7.90 4.42 6.78 11.50 9.55 1976 9.38 8.30 9.70 6.80 5.25 1977 7.08 4.40 3.90 4.05 4.35 1978 11.92 5.78 6.70 25.30 20.55 1979 3.88 2.26 3.10 15.97 11.83 1980 5.80 3.10 3.34 24.40 19.15 1981 2.70 2.22 2.48 8.99 9.45 1982 18.08 11.96 13.02 18.55 18.40 1983 8.20 4.98 5.76 19.25 22.90 1984 7.65 5.30 5.74 14.45 13.15 1985 5.22 4.42 4.04 11.45 10.16 1986 4.93 3.26 4.58 26.47 15.33 1987 5.99 2.76 3.98 4.80 6.85 1988 6.83 6.82 5.18 7.20 9.01 1989 8.80 5.06 4.92 8.05 9.60 1990 7.10 5.06 6.05 5.80 6.50 |OPSLAKE| BSAAM 6.47 54235 10.26 67567 11.35 66161 11.13 68094 22.81 107080 7.41 67594 13.32 65356 9.80 67909 17.42 92715 8.25 70024 17.48 99216 9.56 55786 7.65 46153 9.00 47947 17.68 76877 15.53 88443 8.20 54634 13.29 78806 12.56 56542 23.66 116244 8.28 60857 33.07 146345 11.00 73726 10.82 65530 8.06 60772 15.86 91696 16.42 87377 12.56 77306 4.73 44756 4.60 41785 21.94 112653 13.88 79975 23.78 106821 12.14 69177 19.45 120463 23.86 135043 14.42 102001 13.06 77790 26.46 118144 6.36 61229 9.88 58942 9.58 53965 8.41 49774
Elaborazione Dati:
>> RAIN=RAINFALLS(:,2:8)
Analisi di clustering per le osservazioni

>> clustering(RAIN,'seuclidean')
Observations. Single linkage 3 2 1 2 24 41 8 3 4 38 19 23 34 7 26 27 32 15 1 6 10 14 42 12 17 43 25 21 40 30 28 13 11 37 5 36 33 39 9 18 20 31 16 29 22 35 Observations. Complete linkage 10 8 6 4 2 2 24 28 8 41 6 10 14 42 25 43 1 12 17 30 13 21 40 3 4 38 15 26 27 7 32 19 23 34 5 36 33 39 9 11 37 20 31 22 16 18 29 35
>>clustering(RAIN,'correlation')
x 10 6 4 2 0
-9
Observations. Single linkage
2 24 3 23 36 34 5 11 38 37 21 26 8 28 41 12 16 4 6 10 17 18 40 35 43 25 42 13 9 31 32 14 20 7 15 33 27 19 39 1 30 22 29 x 10
-8
Observations. Complete linkage
6 4 2 0 2 24 8 21 41 11 38 37 13 1 30 6 10 14 12 16 28 17 18 42 25 35 40 43 29 3 23 36 5 34 26 4 7 15 27 33 9 19 20 31 32 22 39
Dallanalisi di clustering sulle osservazioni (Anni) , utilizzando le distanze seuclidean e correlation , si osserva nei grafici relativi al complete linkage che i risultati differiscono nellaccorpare le mie osservazioni. Nel grafico relativo al complete linkage per la distanza seuclidean, ipotizzando di tagliare al valore 4 dellasse delle ordinate individuiamo 7 macrogruppi di osservazioni , 2 dei quali ( osservazioni 22 e 35 ) sono composti da una singola osservazione indipendente.
Analizzando invece il grafico relativo al complete linkage per la distanza correlation e tagliando al valore 2 dellasse delle ordinate si riscontrano 2 macrogruppi di osservazioni (Anni) e 2 gruppi isolati costituiti luno dallosservazione 29 ( Anno 1976 ) e laltro dalle osservazioni 22 e 39 ( Anni 1969 e 1986 ). I grafici relativi al single linkage sono poco significativi in termini di analisi visiva , in quanto le distanze sono misurate da ogni membro di un cluster ad ogni membro dellaltro cluster , e tra tutte queste distanze la minima considerata la distanza tra i cluster.
Analisi di clustering delle variabili:

Dato che la variabile 7 ( stream runoff volume misurata in Acro/piede e denominata BSAAM) quantificata con una unit di misura differente dalle altre variabili abbiamo utilizzato le distanze seuclidean e correlation per lanalisi di clustering in quanto entrambe le distanze ci consentono di analizzare le variabili senza risentire delle diverse unit di misura. E opportuno notare inoltre che la variabile stream runoff ovvero ruscellamento superficiale costituisce una variabile che risulta si omogenea con le restanti variabili,in quanto dipendente dalle precipitazioni, ma rimane comunque sia una misura differente dal tasso di precipitazione misurato dalle altre .
>> clustering(RAIN','seuclidean')
Observations. Single linkage 15 10 5 0 2 3 1 4 6 5 7
Observations. Complete linkage 15 10 5 0 2 3 1 4 6 5 7
>> clustering(RAIN','correlation')
Observations. Single linkage 0.6 0.4 0.2 4 1 0.8 0.6 0.4 0.2 4 6 5 7 1 2 3 6 7 5 1 2 3
Observations. Complete linkage
La distanza seuclidean che normalizza i dati dalla varianza di ogni variabile,ci consente di individuare sia nel grafico del complete linkage che in quello del single linkage che la variabile 7 corrispondente allo stream runoff volume non risulta associata alle altre variabili che invece sono tutte strettamente associate tra di loro in quanto misure quantitative delle precipitazioni in 6 diverse zone della Owens Valley.
Dallanalisi dei grafici risultanti dal clustering con la distanza correlation si evidenziano dei raggruppamenti di variabili totalmente diversi da quelli ricavati con la distanza seuclidean; in particolar modo la variabile relativa allo stream runoff volume viene accorpata assieme alle variabili 4-5-6 , relative alle misurazioni di precipitazioni (Big Pine Creek, Rock Creek, and OPSLAKE ), sia nel single linkage che nel complete linkage , e le rimanenti variabili relative alle quantit di precipitazione in Mammoth Lake ,Lake Sabrina e South Lake costituiscono un gruppo a parte rispetto a quelle definite in precedenza.
Analisi delle osservazioni con MDS:

>>MDscaling1(RAIN) >>Coeff. Di stress in 3D: 0.792948
c o r r e la tio n x1 0 2
9
1 1 4 0 2 2 1 3 0 1 9 1 9 6 7 3 1 2 5 1 0 4 2 3 5 1 3 2 7 5 2 1 2 01 1 2 6 8 3 8 1 4 3 1 8 1 1 3 6 4 0 1 7 3 4 3 2 2 8 3 4 1 3 3 2 5 4 3 2 6 2 7 4
2 9
3 9
2 5
x1 0
0 2 4 x1 0
8
>> MDscaling1(RAIN)
*(modificato leditor della funzione per richiamare la distanza seuclidean)
Coeff. di stress in 3D: 0.016484

s e u c lid e a n
2 9 1 0 .5 3 5 0 0 .5 1 1 .5 6 1 6
8 4 4 1 2 42 4 3 3 4 2 8 3 9 3 2 1 8 3 6 3 3 7 2 6 1 7 5 3 2 2 3 3 0 4 0 1 3 1 1 1 8 2 5 1 9 4 2 2 7 1 2 1 5 6 3 3 2 2 7 1 0 1 4 1 2 0 3 1
9 0 4 5 2 0 2 4 1 0
Lanalisi con il Metodo Multi-dimensional-scaling ci consente di fare ipotesi di associazioni tra le nostre osservazioni e variabili attraverso la visualizzazione tridimensionali degli oggetti in analisi pur rispettando le distanze tra essi. Dal grafico relativo al MDS con la distanza correlation risulta un coefficiente di stress pari al 79% che risulta quindi molto scarso , tuttavia possiamo notare che tutte le nostre osservazioni (Anni) sono riunite in uno spazio molto prossimo ad eccezione della 29 ( Anno 1976) che anche con lanalisi di clustering con la distanza correlation risultava tale. Dal grafico relativo allMDS con la distanza seuclidean si evince invece come losservazione 35 e la 29 ( Anno 1983 e 1976) si discostino significativamente dal gruppo formato da tutte le altre osservazioni ; particolarit che era stata messa in luce anche con lanalisi di clustering con la stessa distanza seuclidean ma in cui anche losservazione 22 risultava non strettamente associata alle altre.
Analisi con MDS per le variabili
>> MDscaling1(RAIN',['APMAM ';'OPSLAKE';'BSAAM '])
';'APSAB
';'APSLAKE';'OPBPC
';'OPRC

s e u c lid e a n
x1 0 4 2 0 2
-4
O P R C
B S A A M
O P S L A K E A P S A B A P S L A K E O P B P C A P M A M 1 0 0 .5
-3
4 1 0 0 .5 1 5 0 5
1 5
x1 0
>> MDscaling1(RAIN',['APMAM ';'OPSLAKE';'BSAAM '])
';'APSAB
';'APSLAKE';'OPBPC
';'OPRC

*(modificato leditor della funzione per richiamare la distanza correlation)
co rre la tio n
0 .1 0 .0 5 A P S L A K E 0 -0 .0 5 O P S L A K E -0 .1 O P R C -0 .1 5 -0 .2 -0 .1 0 0 .1 0 .2 0 .6 0 .4 0 .2 0 -0 .2 -0 .4 -0 .6 -0 .8 O P B P C A P M A M B S A A M A P S A B
Il grafico relativo allMDS con la distanza seuclidean ci indica che la variabile stream runoff risulta separata dalle altre 6 variabili relative
alla misura di precipitazione , in accordo con quanto esplicitato in precedenza; tuttavia a differenza dellanalisi di clustering con la stessa distanza , si evidenzia la formazione di 2 gruppi separati per le restanti variabili. Tale discrepanza tuttavia non pero cos illogica se si tiene in considerazione che esistono differenti mesoclimi allinterno di una stessa area e che quindi si possono verificare tassi di precipitazione considerevolmente differenti in zone diverse di unica area considerata. Anche il grafico MDS relativo alla distanza correlation mette in evidenza la considerazione fatta in precedenza , la quale si accorda alla medesima analisi di clustering. A differenza dellanalisi MDS con la distanza seuclidean, in questo caso la variabile stream runoff viene accorpata alle variabili OPSLAKE,OPRC,OPBC cos come era avvenuto con lanalisi di clustering. Conclusioni relative alle osservazioni Dallanalisi complessiva delle osservazioni relative ai diversi anni , utilizzando sia il metodo dellMDS sia quello di clustering entrambi con diverse distanze, si evidenziano le seguenti considerazioni. La maggior parte delle osservazioni sono raggruppate assieme costituendo in linea generale un unico blocco di dati, tuttavia concentrando lanalisi sugli outliers desunti dai diversi grafici ed in particolare gli anni :
Year | APMAM | APSAB |APSLAKE| OPBPC | OPRC 1969 1976 1982 1986 5.35 9.38 18.08 4.93 3.62 8.30 11.96 3.26 4.62 9.70 13.02 4.58 43.37 6.80 18.55 26.47 24.85 5.25 18.40 15.33 |OPSLAKE| 33.07 4.73 19.45 26.46 BSAAM 146345 44756 120463 118144
Si evidenzia chiaramente come queste osservazioni siano differenti dalle altre in quanto il valore associato di runoff volume si discosti considerevolmente dai restanti dati sia come valori alti ( anni 1969,1982,1986) sia come valori bassi ( anno 1976). La variabile runoff volume , misurata nei pressi di Bishop, una variabile consistente in associazione con le variabili relative al quantitativo di precipitazione misurato nei nei 6 diversi punti della zona.
Conclusioni relative alla variabili
Dallanalisi complessiva delle variabili relative alle misura di precipitazione in 6 laghi di una stessa zona e della variabile relativa al ruscellamento stream runoff , utilizzando sia il metodo dellMDS sia quello di clustering entrambi con diverse distanze, si evidenziano le seguenti considerazioni. Da una prima analisi generica si porterebbe a concludere che tutte le variabili sono strettamente associate fra loro, il che non sbagliato, ma tuttavia occorre sottolineare come nei grafici relativi allMDS ed al clustering si ricavino altre informazioni. La variabile runoff volume risulta accorpata alle variabili relative ai Laghi Big Pine Creek ,Rock Creek , e OPSLAKE in cui si osservano anche i tassi di precipitazione maggiore in diversi anni e che pertanto influiscono maggiormente sul valore assunto dallo stream runoff volume proprio in quegli anni considerati. Questa considerazione viene rafforzata anche dal grafico relativo allMDS con la distanza correlation dove i tre laghi( e relative variabili) di cui sopra, costituiscono un gruppo a parte rispetto ai restanti tre. Il maggior tasso di precipitazione riscontrato nei tre laghi ci porta pertanto a differenziarli qualitativamente dai restanti e pertanto a considerarli piu influenti nel determinare i valori assunti dallo stream runoff volume.
Problema 2
Dati di Partenza
Matrice di partenza in cui abbiamo: 1 Colonna 2 Colonna 3 Colonna 4 Colonna Specie di Salmone 1 Alaska-2 Canada Sesso 1 Femmina 2 Maschi
Diametro Anelli di crescita Acqua dolce Primo Anno Diametro Anelli di crescita Acqua salata Primo Anno
(size 100X4)
Denomino la mia matrice di partenza TOT
Dalla matrice originale di dati estrapolo quelli relativi ai soli maschi delle due famiglie Alaska e Canada. >> ind=find(TOT(:,2)==2); >> TOTMASCHI=TOT(ind,:) Da questa matrice estrapolo poi le due popolazioni >>ind=find(TOTMASCHI(:,1)==1); >>ALASKA=TOTMASCHI(ind,:) >> ind=find(TOTMASCHI(:,1)==2); >> CANADA=TOTMASCHI(ind,:) >> ALASKA=ALASKA(:,3:4) >> CANADA=CANADA(:,3:4) >> [n1,p]=size(ALASKA) n1 = 24 p = 2 >> [n2,p]=size(CANADA) n2 = 24 p = 2 >> [RALASKA,SALASKA,MALASKA]= funzbase(ALASKA)
* vedi allegato per funzione
RALASKA = 1.0000 -0.3552 SALASKA = 1.0e+003 * -0.3552 1.0000
0.1820 -0.1977 MALASKA = 100.3333
-0.1977 1.7023
436.1667
>> [RCANADA,SCANADA,MCANADA]= funzbase(CANADA) RCANADA = 1.0000 0.2669 SCANADA = 370.1721 141.6431 MCANADA = 135.2083 364.0417 141.6431 760.6504 0.2669 1.0000
Da una prima analisi delle popolazioni attraverso le statistiche calcolate emergono gi alcune differenze che occorre tenere in considerazione. I valori assunti dal vettore media delle due popolazioni di salmoni risulta considerevolmente differente ,soprattutto per quanto riguarda la variabile crescita degli anelli in acqua salata, che nel caso dei Salmoni del Alaska assume un valore significativamente maggiore. Inoltre si osserva che i valori assunti dalle varianze interne delle variabili delle due popolazioni sono considerevolmente alti ,in particolare quello relativo alla dispersione dalla media della crescita degli anelli in acqua salata per i Salmoni dellAlaska, e quello relativo alla dispersione dalla media relativa alla crescita degli anelli in acqua dolce dei Salmoni del Canada.
Analisi della Normalit univariata per i salmoni dellAlaska

Variabile 1 Diametro Anelli di crescita acqua dolce >> qqplot1(ALASKA(:,1)) Corr.coeff 0.982067
140 130 120 observations 110 100 90 80 70 60 70
80
90
100 110 normal distribution
120
130
Il test di normalit con il qqplot per la variabile diametro anelli di crescita in acqua dolce Primo Anno dei Salmoni dellAlaska mi riporta un valore del coefficiente di correlazione pari a 0.982067, che se confrontato con i valori tabellari corrispondenti per Sample size=25 ed =5% e 1% risulta superiore in entrambi i casi (0.9591 per =5% , e 0.9410 per =1%) . Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile. >> testchi2(ALASKA(:,1),8,0.05) ans = 1.8327 11.0705
do NOT reje ct normality hypothesis

7
4.5
3.5
2.5
1.5
0 50
60
70
80
90
100
110
120
130
140
150
>> testchi2(ALASKA(:,1),8,0.01) ans = 1.8327 15.0863
do NOT reject normality hypothesis

7
4.5
3.5
2.5
1.5
0 50
60
70
80
90
100
110
120
130
140
150
1 1
Anche con il test del 2 con un livello di significativit dell1% ed del 5% accetto lipotesi di normalit dei dati relativi alla mia variabile.
Variabile 2 Diametro Anelli di crescita acqua salata
>> qqplot1(ALASKA(:,2)) Corr.coeff 0.986257

550
500
observations
450
400
350
300 340
360
380
400
420 440 460 normal distribution
480
500
520
540
Il test di normalit con il qqplot per la variabile diametro anelli di crescita in acqua salata Primo Anno dei Salmoni dellAlaska mi riporta un valore del coefficiente di correlazione pari a 0.986257, che se confrontato con i valori tabellari corrispondenti per Sample size=25 ed 5% e 1% risulta superiore in entrambi i casi (0.99591 per =5% , e 0.9410 per =1%) . Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile. >> testchi2(ALASKA(:,2),8,0.05) ans = 3.4167 11.0705
do NOT reject normality hypothesis >> testchi2(ALASKA(:,2),8,0.01) ans = 3.4167 15.0863
do NOT reject normality hypothesis

6
7
5.5
Figura 1 (=5%)
5 4
5 4.5 4 3.5
3 2.5
2
1
1.5 1
350 400 450 500 550 600
0 300
Figura 1 (=1%)
6 5.5 5
4.5 4 3.5
3
3
2.5 2
1
1.5
0 300
350
400
450
500
550
600
Figura 1 (=5%)
Analisi della Normalit univariata per i salmoni del Canada

Variabile 1 Diametro Anelli di crescita acqua dolce >> qqplot1(CANADA(:,1)) Corr.coeff 0.988822
180 170 160 150 observations 140 130 120 110 100 90 90
100
110
120
130 140 150 normal distribution
160
170
180
>> testchi2(CANADA(:,1),8,0.05) ans = 3.7097 11.0705
do NOT reject normality hypothesis >> testchi2(CANADA(:,1),8,0.01) ans = 3.7097 15.0863
do NOT reject normality hypothesis Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile.
Variabile 2 Diametro Anelli di crescita acqua salata >> qqplot1(CANADA(:,2)) Corr.coeff 0.971166
440
420
400 observations
380
360
340
320
300 300
320
340
360 380 normal distribution
400
420
440
>> testchi2(CANADA(:,2),8,0.01) ans = 10.3242 15.0863
do NOT reject normality hypothesis >> testchi2(CANADA(:,2),8,0.05) ans = 10.3242 11.0705
do NOT reject normality hypothesis Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile.
Analisi della Normalit bivariata per i salmoni dellAlaska

[xm,S,n_in,n_out]=testnorm2v(ALASKA) n_in = 11 n_out = 13 >>chi2plotnew(ALASKA)
9 8
520 500 480 460 440 420
7 6 d ista n ce s 5 4 1 3 3 2 19 18 1 5 2 2 0 6 4 1 0
400 380 360 70
24 23 3 8 16 1 22 2 1 12 1 5 9 7 17 1 1 4 01 0 1 2
80 90 100 110 120 130
I due test di normalit bivariata escludono la normalit delle mie due variabili considerate contestualmente.
Dal grafico risultante dal test del 2 per la normalit bivariata si evince la presenza di due osservazioni outliers corrispondenti alla 4 ed alla 6 della mia popolazione di salmoni dellAlaska.
Analisi della Normalit bivariata per i salmoni del Canada

>> [xm,S,n_in,n_out]=testnorm2v(CANADA) n_in = 15 n_out = 9
440
420
400
380
360
340
320
>> chi2plotnew(CANADA)
300 90 100 110 120 130 140 150
160
170
>>chi2plotnew(CANADA)
8 10 7 6 5 9 4 7 3 2 2 6 18 12 1 15 16 2 4 15 22 1 4 21 1 3 4 2 0 11 0 0 1 2 3 19 2 3 17 8
d ista n ce s
Visto il buon risultato ottenuto con il test del 2 accetto lipotesi di normalit bivariata, anche se dal grafico risultante dal test si evince la presenza di due outliers corrispondenti alle osservazioni 10 e 8 della popolazione di Salmoni del Canada.
Trasformazioni verso la dellAlaska e del Canada
normalit
per
le
due
popolazioni
di
salmoni
Direttamente dal Workspace di Matlab modifico la mia matrice ALASKA eliminando le osservazioni 4 e 6 che risultano outliers rispetto agli altri dati , in particolare si osserva che le due suddette osservazioni si discostano dalla retta del test 2 per la normalit bivariata a causa della 2 variabile , ovvero il diametro degli anelli di crescita sulle squame in acqua salata ; dove Losservazione 4 assume i valori (117,489) e la losservazione 6 i valori (123,372)rispetto alla media di popolazione pari a MALASKA = [100.3333 , 436.1667]. Da notare inoltre che la variabilit interna
relativa alla 2 variabile nella popolazione di salmoni dellAlaska visibile gi dalla matrice di covarianza calcolata in precedenza. era ben
Successivamente effettuo una trasformazione logaritmica dei dati relativi alla 2 variabile della mia matrice ALASKA che ora ha dimensioni 22X2.
>> ALASKA(:,2)=log(ALASKA(:,2)) Verifica della normalit per la popolazione di Salmoni del trasformazione logaritmica e leliminazione di due osservazioni Alaska dopo la
Ripeto i due test di normalit bivariata per verificare se leliminazione delle due osservazioni nella popolazione di salmoni dellAlaska e la successiva trasformazione logaritmica della 2 variabile hanno migliorato le mie osservazioni dal punto di vista della loro normalit di distribuzione. >>[xm,S,n_in,n_out]=testnorm2v(ALASKA) n_in = 11 n_out = 11
8 7 6 5 distances 4 16 3 17
6.05
>> chi2plotnew(ALASKA)
6.25
6.2
6.15
18
11
6.1
4 2
2
6
5.95
5.9 70
80
90
100
110
120
130
622 21 203 14 13 1 7 10 19 5 15 9 12 0 0 1 2
Anche se il test di normalit bivariata , dopo la trasformazione effettuata, non mi da un buon livello di normalit delle mie due variabili considerate contestualmente , decido di proseguire con lanalisi , in quanto almeno il 50% delle osservazioni della popolazione di salmoni dellAlaska rispetta lipotesi di normalit.
Trasformazione logaritmica dei dati relativi alla seconda variabile della popolazione di salmoni del Canada per dare lomogeneit necessaria ai dati oggetto di confronto
>> CANADA(:,2)=log(CANADA(:,2))
Verifica della normalit per la popolazione di trasformazione logaritmica della seconda variabile >> [xm,S,n_in,n_out]=testnorm2v(CANADA) n_in = 15 n_out = 9 >>chi2plotnew(CANADA)
8 7 8 6 5 distances 4 3 2 2 3 1 6 18 12 1 5 16 24 15 22 13 14 4 221 0 11 1 2 3 4 5 6 7 8
2
Salmoni
del
Canada
dopo
la
10
6.15 6.1 6.05
6 5.95
17 2319
5.9 5.85 5.8 5.75 5.7 90
0 0
100
110
120
130
140
150
160
170
Visualizzazione Grafica delle distribuzione delle mie due popolazioni con i dati trasformati
>> plot(ALASKA(:,1),ALASKA(:,2),'*b') >> hold on >> plot(CANADA(:,1),CANADA(:,2),'*r')
6.4
6.3
6.2
6.1
5.9
5.8
5.7 70
80
90
100
110
120
130
140
150
160
170
Ridefinizione statistiche delle matrici relative alle due popolazioni

>> [n1,p]=size(ALASKA)
n1 = p = 2
22
>> [n2,p]=size(CANADA) n2 = 24 p = 2
[RALASKA,SALASKA,MALASKA]= funzbase(ALASKA) RALASKA = 1.0000 -0.3802 -0.3802 1.0000
SALASKA = 158.2597 -0.4269 -0.4269 0.0080
MALASKA = 98.5455 6.0754
>> [RCANADA,SCANADA,MCANADA]= funzbase(CANADA) RCANADA = 1.0000 0.2778 0.2778 1.0000
SCANADA = 370.1721 0.4026 0.4026 0.0057
MCANADA = 135.2083 5.8945
Determinazione della regione di confidenza al 99% e 95% relativamente alla popolazione di salmoni dellAlaska
>> Fisher1=((p*(n1-1))/(n1-p))*finv(0.99,p,n1-p)
Fisher1 = 12.2828 >> ellisse(MALASKA,SALASKA/n1,Fisher1) >> hold on >> Fisher5=((p*(n1-1))/(n1-p))*finv(0.95,p,n1-p) Fisher5 = 7.3349 >> ellisse(MALASKA,SALASKA/n1,Fisher5) >> hold on >> plot(ALASKA(:,1),ALASKA(:,2),'*r')
6.25
6.2
6.15
6.1
6.05
5.95
5.9 70
80
90
100
110
120
130
Le regioni di confidenza al 99% ed al 95% , aventi come centro il vettore media della popolazione di salmoni dellAlaska, contengono rispettivamente 3 osservazioni (99%) e 2 osservazioni (95%)su un totale di osservazioni pari a 22. Tutte le osservazioni che ricadono nelle diverse regioni di confidenza possono costituire la vera media della popolazione considerata. La rappresentazione grafica ci conferma pertanto che le osservazioni relative alla popolazione di salmoni dellAlaska presentano una dispersione considerevolmente elevata rispetto alla media.
Confronto sulle medie delle due popolazioni di Salmoni

Test dellIpotesi Ipotesi aggiuntive: n1 e n2 piccoli le due popolazioni in esame hanno distribuzione normale
H0
MALASKA=MCANADA
con P(T2 c2)= 1-
Sx=Sy
, nel nostro caso le due matrici di covarianza sono molto simili fatta eccezione per la varianza interna della 1 variabile che differisce di circa un fattore 2 fra le due matrici.
Decido comunque di effettuare il test per la verifica di uguali medie delle due popolazioni considerando le matrici di covarianza uguali in quanto il numero di osservazioni molto piccolo e lutilizzo dellaltro test con ipotesi che le matrici di covarianza siano diverse presenta come condizione aggiuntiva la presenza di un grande numero di osservazioni, condizione che non si verifica in questo caso.
SALASKA =
158.2597
-0.4269
-0.4269
0.0080
SCANADA =
370.1721 0.4026
0.4026 0.0057
>> DIFF=[MALASKA-MCANADA] DIFF = -36.6629 0.1808
>> Scom=(((n1-1)*SALASKA)+((n2-1)*SCANADA))/((n1-1)+(n2-1)) Scom = 269.0321 0.0067 0.0067 0.0068
>> T2samecov=(DIFF)*(inv(((1/n1)+(1/n2))*Scom))*(DIFF)' T2samecov = 113.3806 >> Fisher5Test=(((n1+n2-2)*p)/(n1+n2-p-1))*finv(0.95,p,n1+n2-p-1) Fisher5Test = 6.5785
>> Fisher1Test=(((n1+n2-2)*p)/(n1+n2-p-1))*finv(0.99,p,n1+n2-p-1) Fisher1Test = 10.5100 Dal momento che il mio valore calcolato risulta superiore ai valori del 2 di riferimento sia per un livello di significativit al 5% che per l1%, rifiuto lipotesi nulla relativa alluguaglianza delle medie delle due popolazioni.
>> ellisse(DIFF,((1/n1)+(1/n2))*Scom,Fisher5Test) >> hold on
>> plot(0,0,'*r') >> hold on >> plot(ALASKA(:,1),ALASKA(:,2),'*b') >> hold on >> plot(CANADA(:,1),CANADA(:,2),'*g')
7
0.2
5 0.15 4 0.1
0.05
1 0 0 -50 0 50 100 150 200 -45 -40 -35 -30 -25 -20 -15 -10 -5 0
>> Amax_dif=inv(Scom)*(DIFF)' Amax_dif = -0.1369 26.8572
Il vettore A mi indica la combinazione lineare con la massima differenza delle variabili che in questo caso corrisponde alla 2 variabile , relativa al diametro degli anelli di crescita in acqua salata. Le due popolazioni di Salmoni pertanto , se considerate esclusivamente per le due variabili diametri degli anelli di crescita delle squame in acqua dolce e salata Primo Anno , non possono essere ritenute uguali e quindi appartenenti ad unica popolazione di individui. Si pu ipotizzare che i Salmoni dellAlaska che presentano un valore medio di accrescimento in acqua salata superiore di quello relativo ai Salmoni del Canada, si accrescano maggiormente sia per motivazioni connesse alle caratteristiche anatomiche della specie (maggiore peso in et adulta) sia per motivi legati alla sopravvivenza ( maggiori scorte di grasso per affrontare la migrazione in acque dolci per riprodursi).
Confronto sulle medie delle due popolazioni dipotesi alternativo (SALASKASCANADA)
di
Salmoni
con
il
test
>> T2Test_diffcovar=(DIFF)*inv(((1/n1)*SALASKA)+((1/n2)*SCANADA))*(DIFF)' T2Test_diffcovar = 111.557 >> chi2inv(0.05,p) ans =
0.1026 Anche con questo test rifiuto lipotesi nulla

e affermare con un livello di significativit del 5% che le due popolazioni sono differenti per quanto concerne le variabili considerate.
H0
Intervalli simultanei di confidenza al 95% considerando il test dipotesi svolto con matrici di covarianza considerate simili
>> a1=[1;0]; >> a2=[0;1]; >> c=sqrt(Fisher5Test) c = 2.5649
>> A1=(a1')*(DIFF')-(c)*(sqrt((a1')*(((1/n1)+(1/n2))*Scom)*(a1))) A1 = -49.0802 >> A2=(a1')*(DIFF')+(c)*(sqrt((a1')*(((1/n1)+(1/n2))*Scom)*(a1))) A2 = -24.2456 Lintervallo di confidenza relativo al vettore a1 pertanto (-49.0802,-24.2456) >> B1=(a2')*(DIFF')-(c)*(sqrt((a2')*(((1/n1)+(1/n2))*Scom)*(a2))) B1 = 0.1186 >> B2=(a2')*(DIFF')+(c)*(sqrt((a2')*(((1/n1)+(1/n2))*Scom)*(a2))) B2 = 0.2431 Lintervallo di confidenza relativo al vettore a2 pertanto (0.1186,0.2431) Dallanalisi degli intervalli di confidenza simultanei al 95% emerge che lorigine del grafico corrispondente alla mia Ho (medie delle due popolazioni uguali) si discosta dalla regione di confidenza avente come centro il vettore DIFF ( vettore differenza medie delle 2 popolazioni)sia per lintervallo di confidenza relativo alla prima variabile sia per lintervallo relativo alla seconda. Si puo pertanto concludere che entrambi le variabili relative alla crescita degli anelli sulle squame in acqua dolce e salata differiscono significativamente in entrambe le popolazioni di Salmoni. Questa risultanza in contrasto con il risultato ottenuto in precedenza , ma va considerata ugualmente attendibile in quanto non da escludere che i salmoni
Canadesi, che hanno un valore medio di accrescimento in acqua dolce maggiore rispetto a quello della specie dellAlaska, abbiano una maggiore disponibilit di risorse alimentari nellambiente in cui nascono o in alternativa abbiano un accrescimento iniziale maggiore rispetto alla specie dellAlaska per potere affrontare da subito la discesa verso le acque salate. In conclusione si pu affermare che le due popolazioni di Salmoni dellAlaska e del Canada si differenziano fra di loro in quanto i primi danno luogo ad un accrescimento maggiore rispetto agli altri nelle acque salate mentre i secondi nelle acque dolci a partire dal primo anno di nascita.
Allocazione della nuova osservazione X=[140,370]

>> X=[140,370] X = 140 370
>> X(1,2)=log(X(1,2)) X = 140.0000 5.9135
>> discr2pop(ALASKA,CANADA,X') S = 269.0321 0.0067 a =

variabile x
0.0067 0.0068
6.4
6.3
6.2
-0.1369 ans = 139.6480
26.8572
6.1
144.7339
5.9
5.8
Allocate pop.2
70 80 90 100
APER= 0.0652
110 120 130 variabile x

1
140
150
160
170
La nuova osservazione rientra allinterno della popolazione di salmoni del Canada. Il valore dellAPER ( Apparent error rate ) che costituisce la proporzione di osservazioni classificate erroneamente pari al 6% ,quindi molto buono.
Salmone del Canada
Genere Oncorhynchus
Specie: O. nerka
Il salmone canadese neonato rimane nel suo habitat natale per un massimo di tre anni, ovvero pi di ogni altro salmone. Poi si mette in viaggio verso il mare, dove cresce rapidamente, nutrendosi principalmente di zooplancton. Rimane quindi nell'oceano da uno a quattro anni. Lunghezza: 85 cm Peso: dai 2,5 ai 7 Kg
Salmone dellAlaska Genere Oncorhynchus
Specie: O. tshawytscha
La crescita del salmoni del genere Oncorhynchus nelloceano assai rapida. Il loro nutrimento tanto abbondante che creano una riserva di grasso importante e utile al momento di abbandonare loceano. A seconda della diversa specie di appartenenza rimangono in mare svariati anni fino al raggiungimento dellet riproduttiva per poi risalire nelle acque dolci. Lunghezza: 150 cm Peso: fino a 60 Kg
Genere Oncorhynchus
Specie: O. tshawytscha
Genere Oncorhynchus
Specie: O. nerka
Elenco Funzioni utilizzate

function clustering(X,s) %function clustering(X) % % rows are observations % columns are variables % Euclidean distance % D=pdist(X); % Jaccard D=pdist(X,s); % Correlation %D=pdist(X,'correlation'); DistanceMatrix = squareform(D) n=size(X,1); Similarity_coeff=ones(n,n)-DistanceMatrix Z1=linkage(D,'single'); Z2=linkage(D,'complete'); subplot(2,1,1) dendrogram(Z1,0); title('Observations. Single linkage') subplot(2,1,2) dendrogram(Z2,0); title('Observations. Complete linkage')
function MDscaling1(X,names) %function MDscaling1(X,names) % matrice X: % rows are observations % columns are variables % names= contiene una stringa di nomi degli oggetti. % **non e' necessaria** % if (nargin ==1), names=num2str([1:size(X,1)]'); end D=pdist(X,'correlation'); [Y,stress] = mdscale(D,2,'Criterion','sstress'); %[Y,stress] = mdscale(D,2,'Criterion','sstress','Start','random'); fprintf('Coeff. di stress in 2D: %f\n',stress) figure(1) plot(Y(:,1),Y(:,2),'x') text(Y(:,1),Y(:,2),names) title('correlation') [Y,stress] = mdscale(D,3,'Criterion','sstress'); %[Y,stress] = mdscale(D,3,'Criterion','sstress','Start','random'); fprintf('Coeff. di stress in 3D: %f\n',stress) figure(2) plot3(Y(:,1),Y(:,2),Y(:,3),'x') text(Y(:,1),Y(:,2),Y(:,3),names)
title('correlation')
function [R,S,M]= funzbase(X) R=corrcoef(X) S=cov(X) M=mean(X)
function qqplot1(X) %function qqplot1(X) % % variant of qqplot for 1 variable % % X = vector of observations [n,p]=size(X); if p>1, X=X(:,1);fprintf('Only first column is processed\n');end [d,ix]=sort(X); j=(1:n)'; z=norminv( (j-0.5)/n,mean(X),std(X)); qqplot(z,d); xlabel('normal distribution'); ylabel('observations'); rho=corrcoef([z,d]); fprintf('Corr.coeff %f \n', rho(1,2))
function testchi2(x,nh,alpha) %function testchi2(x,nh,alpha) % % Test chi2 di adattamento della distribuzione % normale univariata ai dati % % x = vettore di osservazioni % nh = numero di intervalli del range (es. nh=10) % alpha = livello di sign. % n=length(x); [f,xm]=hist(x,nh); l=(max(x)-min(x))/(nh+1); xm=xm+l/2; m=mean(x); s=std(x); z=(xm-m)/s; p=normcdf(z); pn1=length(p); F=[p(1),p(2:pn1)-p(1:pn1-1)]; F=F*n; figure(1) plot(f),hold on;plot(F,'r'),hold off figure(2) histfit(x); chi2=sum((f-F).^2./F); chi2ref=chi2inv(1-alpha,pn1-3); [chi2,chi2ref]
if (chi2>chi2ref), fprintf('reject normality hypothesis\n'), else fprintf('do NOT reject normality hypothesis\n'), end
function [xm,S,n_in,n_out]=testnorm2v(X) %function [xm,S,n_in,n_out]=testnorm2v(X) % % Effettua un test bivariato di normalita' % X matrice di osservazioni, n x p (p=2) % % in uscita: % xm vettore media (vettore riga) % S matrice di covarianza % n_in numero di osservazioni dentro l'ellisse % n_out numero di osservazioni fuori dall'ellisse c2=chi2inv(.5,2); X=X(:,1:2); n=size(X,1); xm=mean(X); S=cov(X); dev=X-ones(n,1)*xm; Sdev=S\dev'; fprintf('Distanza statistica:\n') dist=diag(dev*Sdev); disp(dist') n_in=length(find(dist<=c2)); n_out=length(find(dist>c2)); ellisse1(xm,c2,S) hold on plot(X(:,1),X(:,2),'*r') hold off
function chi2plotnew(X) [n,p]=size(X); S=cov(X); m = mean(X);
for k=1:n, d(k,1) = ( X(k,:)-m)*(S\(X(k,:)-m)'); end [d,ix]=sort(d); j=(1:n)'; z=chi2inv( (j-0.5)/n,p); qqplot(z,d); xlabel('\chi^2_p'); ylabel('distances'); hold on text(z,d,int2str(ix)); hold off
function ellisse(xbar,S,c2)
%function ellisse(xbar,S,c2) % Grafico dell'ellisse % % (t - xbar)^T inv(S) (t-xbar) = c2 centro: xbar=[x1;x2] % % con c2 = \chi_2^2 = 1.39 % (per test normalita') % x1 centro prima variabile (scalare) % x2 centro seconda variabile (scalare) % S matrice di distanza statistica % (per test normalita', e' la m. covarianza) x1=xbar(1); x2=xbar(2); %c2=1.39; [v,e]=eig(S); theta = 0:.01:2*pi; ntheta=length(theta); T=[x1;x2]*ones(1,ntheta)+v*sqrt(c2*e)*[cos(theta);sin(theta)]; plot(T(1,1),T(2,1),'.');hold on for k=2:ntheta, plot(T(1,k),T(2,k),'.') end hold off

Analisi Statistica Multivariata Progetto 1

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisi Statistica Multivariata Progetto 1

Caricato da

Copyright:

Formati disponibili

Analisi Statistica Multivariata. A.A. 2010-2011 Progetto n.1. Gruppo IV.

Barlotti Davide Mensali Giorgia

Problem 1 Dati di Partenza

Analisi di clustering per le osservazioni

Observations. Single linkage

Observations. Complete linkage

Analisi di clustering delle variabili:

Observations. Complete linkage 15 10 5 0 2 3 1 4 6 5 7

Observations. Complete linkage

Analisi delle osservazioni con MDS:

*(modificato leditor della funzione per richiamare la distanza seuclidean)

Coeff. di stress in 3D: 0.016484

Analisi con MDS per le variabili

>> MDscaling1(RAIN',['APMAM ';'OPSLAKE';'BSAAM '])

Coeff. di stress in 3D: 0.000000

>> MDscaling1(RAIN',['APMAM ';'OPSLAKE';'BSAAM '])

Coeff. di stress in 3D: 0.000003

Conclusioni relative alla variabili

Denomino la mia matrice di partenza TOT

RALASKA = 1.0000 -0.3552 SALASKA = 1.0e+003 * -0.3552 1.0000

0.1820 -0.1977 MALASKA = 100.3333

Analisi della Normalit univariata per i salmoni dellAlaska

140 130 120 observations 110 100 90 80 70 60 70

100 110 normal distribution

do NOT reje ct normality hypothesis

>> testchi2(ALASKA(:,1),8,0.01) ans = 1.8327 15.0863

do NOT reject normality hypothesis

Variabile 2 Diametro Anelli di crescita acqua salata

>> qqplot1(ALASKA(:,2)) Corr.coeff 0.986257

420 440 460 normal distribution

do NOT reject normality hypothesis >> testchi2(ALASKA(:,2),8,0.01) ans = 3.4167 15.0863

do NOT reject normality hypothesis

Analisi della Normalit univariata per i salmoni del Canada

130 140 150 normal distribution

>> testchi2(CANADA(:,1),8,0.05) ans = 3.7097 11.0705

do NOT reject normality hypothesis >> testchi2(CANADA(:,1),8,0.01) ans = 3.7097 15.0863

360 380 normal distribution

>> testchi2(CANADA(:,2),8,0.01) ans = 10.3242 15.0863

do NOT reject normality hypothesis >> testchi2(CANADA(:,2),8,0.05) ans = 10.3242 11.0705

Analisi della Normalit bivariata per i salmoni dellAlaska

400 380 360 70

Analisi della Normalit bivariata per i salmoni del Canada

Trasformazioni verso la dellAlaska e del Canada

6.15 6.1 6.05

5.9 5.85 5.8 5.75 5.7 90

Ridefinizione statistiche delle matrici relative alle due popolazioni

[RALASKA,SALASKA,MALASKA]= funzbase(ALASKA) RALASKA = 1.0000 -0.3802 -0.3802 1.0000

SALASKA = 158.2597 -0.4269 -0.4269 0.0080

MALASKA = 98.5455 6.0754

>> [RCANADA,SCANADA,MCANADA]= funzbase(CANADA) RCANADA = 1.0000 0.2778 0.2778 1.0000

SCANADA = 370.1721 0.4026 0.4026 0.0057

MCANADA = 135.2083 5.8945

Confronto sulle medie delle due popolazioni di Salmoni

con P(T2 c2)= 1-

>> DIFF=[MALASKA-MCANADA] DIFF = -36.6629 0.1808

>> Scom=(((n1-1)*SALASKA)+((n2-1)*SCANADA))/((n1-1)+(n2-1)) Scom = 269.0321 0.0067 0.0067 0.0068

>> T2samecov=(DIFF)*(inv(((1/n1)+(1/n2))*Scom))*(DIFF)' T2samecov = 113.3806 >> Fisher5Test=(((n1+n2-2)*p)/(n1+n2-p-1))*finv(0.95,p,n1+n2-p-1) Fisher5Test = 6.5785

>> ellisse(DIFF,((1/n1)+(1/n2))*Scom,Fisher5Test) >> hold on

>> Amax_dif=inv(Scom)*(DIFF)' Amax_dif = -0.1369 26.8572

Confronto sulle medie delle due popolazioni dipotesi alternativo (SALASKASCANADA)

>> T2Test_diffcovar=(DIFF)*inv(((1/n1)*SALASKA)+((1/n2)*SCANADA))*(DIFF)' T2Test_diffcovar = 111.557 >> chi2inv(0.05,p) ans =

0.1026 Anche con questo test rifiuto lipotesi nulla

Allocazione della nuova osservazione X=[140,370]

>> X(1,2)=log(X(1,2)) X = 140.0000 5.9135

>> Scom=(((n1-1)SALASKA)+((n2-1)SCANADA))/((n1-1)+(n2-1)) Scom = 269.0321 0.0067 0.0067 0.0068

>> T2samecov=(DIFF)(inv(((1/n1)+(1/n2))Scom))(DIFF)' T2samecov = 113.3806 >> Fisher5Test=(((n1+n2-2)p)/(n1+n2-p-1))*finv(0.95,p,n1+n2-p-1) Fisher5Test = 6.5785

>> T2Test_diffcovar=(DIFF)inv(((1/n1)SALASKA)+((1/n2)SCANADA))(DIFF)' T2Test_diffcovar = 111.557 >> chi2inv(0.05,p) ans =