Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Problema 1 Si considerino i dati rainfalls (in DASL and More Data). Studiare gli oggetti e le variabili (eliminando la colonna dell'anno): fare un'analisi di clustering usando single e complete linkage, eventualmente considerando varie distanze. Interpretare i risultati indicando le eventuali eccezioni. Valutare i raggruppamenti con anche un metodo di Multidimensional scaling,e confrontare i risultati. Problema 2 Si considerino i dati sui salmoni in T11-2 (in JW), corrispondenti ai valori di crescita (diametro degli anelli di crescita) di due popolazioni (dell'Alaska,famiglia 1 e Canadesi, famiglia 2), in due tempi diversi: in acqua dolce (primo anno) ed acqua salata (primo anno). In tutta l'analisi, si considerino solo i dati dei maschi (seconda colonna, genere=2). 1. Per la matrice di osservazioni relativa ad ogni popolazione considerata, fare uno studio della normalit univariata e bivariata. Verificare l'eventuale presenza di outliers ed eliminarli dall'analisi successiva giustificando la scelta. Trasformare eventualmente le variabili, o alcune di esse, per migliorare la normalit dei dati. 2. Determinare la regione di confidenza (99% e 95%) per la media, relativamente alla famiglia Alaska. Riportare tutto sullo stesso grafico e commentare. 3. Per le osservazioni provenienti dalle diverse popolazioni, valutare l'ipotesi di uguale media delle popolazioni, con livello di signicativita = 0.05 e = 0.01. Commentare i risultati. In caso di rifiuto, valutare quale delle variabili piu responsabile del rifiuto, facendo il confronto di medie sulle singole variabili. 4. Determinare intervalli simultanei di confidenza (95%) e commentare su eventuali differenze tra i risultati ottenuti rispetto al test del quesito precedente. 5. Impostare un test di discriminanza per allocare la nuova osservazione x = [140; 370] anche mediante uno studio grafico.
Elaborazione Dati:
>> RAIN=RAINFALLS(:,2:8)
>>clustering(RAIN,'correlation')
x 10 6 4 2 0
-9
2 24 3 23 36 34 5 11 38 37 21 26 8 28 41 12 16 4 6 10 17 18 40 35 43 25 42 13 9 31 32 14 20 7 15 33 27 19 39 1 30 22 29 x 10
-8
6 4 2 0 2 24 8 21 41 11 38 37 13 1 30 6 10 14 12 16 28 17 18 42 25 35 40 43 29 3 23 36 5 34 26 4 7 15 27 33 9 19 20 31 32 22 39
Dallanalisi di clustering sulle osservazioni (Anni) , utilizzando le distanze seuclidean e correlation , si osserva nei grafici relativi al complete linkage che i risultati differiscono nellaccorpare le mie osservazioni. Nel grafico relativo al complete linkage per la distanza seuclidean, ipotizzando di tagliare al valore 4 dellasse delle ordinate individuiamo 7 macrogruppi di osservazioni , 2 dei quali ( osservazioni 22 e 35 ) sono composti da una singola osservazione indipendente.
Analizzando invece il grafico relativo al complete linkage per la distanza correlation e tagliando al valore 2 dellasse delle ordinate si riscontrano 2 macrogruppi di osservazioni (Anni) e 2 gruppi isolati costituiti luno dallosservazione 29 ( Anno 1976 ) e laltro dalle osservazioni 22 e 39 ( Anni 1969 e 1986 ). I grafici relativi al single linkage sono poco significativi in termini di analisi visiva , in quanto le distanze sono misurate da ogni membro di un cluster ad ogni membro dellaltro cluster , e tra tutte queste distanze la minima considerata la distanza tra i cluster.
>> clustering(RAIN','seuclidean')
Observations. Single linkage 15 10 5 0 2 3 1 4 6 5 7
>> clustering(RAIN','correlation')
Observations. Single linkage 0.6 0.4 0.2 4 1 0.8 0.6 0.4 0.2 4 6 5 7 1 2 3 6 7 5 1 2 3
La distanza seuclidean che normalizza i dati dalla varianza di ogni variabile,ci consente di individuare sia nel grafico del complete linkage che in quello del single linkage che la variabile 7 corrispondente allo stream runoff volume non risulta associata alle altre variabili che invece sono tutte strettamente associate tra di loro in quanto misure quantitative delle precipitazioni in 6 diverse zone della Owens Valley.
Dallanalisi dei grafici risultanti dal clustering con la distanza correlation si evidenziano dei raggruppamenti di variabili totalmente diversi da quelli ricavati con la distanza seuclidean; in particolar modo la variabile relativa allo stream runoff volume viene accorpata assieme alle variabili 4-5-6 , relative alle misurazioni di precipitazioni (Big Pine Creek, Rock Creek, and OPSLAKE ), sia nel single linkage che nel complete linkage , e le rimanenti variabili relative alle quantit di precipitazione in Mammoth Lake ,Lake Sabrina e South Lake costituiscono un gruppo a parte rispetto a quelle definite in precedenza.
1 1 4 0 2 2 1 3 0 1 9 1 9 6 7 3 1 2 5 1 0 4 2 3 5 1 3 2 7 5 2 1 2 01 1 2 6 8 3 8 1 4 3 1 8 1 1 3 6 4 0 1 7 3 4 3 2 2 8 3 4 1 3 3 2 5 4 3 2 6 2 7 4
2 9
3 9
2 5
x1 0
0 2 4 x1 0
8
>> MDscaling1(RAIN)
2 9 1 0 .5 3 5 0 0 .5 1 1 .5 6 1 6
8 4 4 1 2 42 4 3 3 4 2 8 3 9 3 2 1 8 3 6 3 3 7 2 6 1 7 5 3 2 2 3 3 0 4 0 1 3 1 1 1 8 2 5 1 9 4 2 2 7 1 2 1 5 6 3 3 2 2 7 1 0 1 4 1 2 0 3 1
9 0 4 5 2 0 2 4 1 0
Lanalisi con il Metodo Multi-dimensional-scaling ci consente di fare ipotesi di associazioni tra le nostre osservazioni e variabili attraverso la visualizzazione tridimensionali degli oggetti in analisi pur rispettando le distanze tra essi. Dal grafico relativo al MDS con la distanza correlation risulta un coefficiente di stress pari al 79% che risulta quindi molto scarso , tuttavia possiamo notare che tutte le nostre osservazioni (Anni) sono riunite in uno spazio molto prossimo ad eccezione della 29 ( Anno 1976) che anche con lanalisi di clustering con la distanza correlation risultava tale. Dal grafico relativo allMDS con la distanza seuclidean si evince invece come losservazione 35 e la 29 ( Anno 1983 e 1976) si discostino significativamente dal gruppo formato da tutte le altre osservazioni ; particolarit che era stata messa in luce anche con lanalisi di clustering con la stessa distanza seuclidean ma in cui anche losservazione 22 risultava non strettamente associata alle altre.
';'APSAB
';'APSLAKE';'OPBPC
';'OPRC
x1 0 4 2 0 2
-4
O P R C
B S A A M
O P S L A K E A P S A B A P S L A K E O P B P C A P M A M 1 0 0 .5
-3
4 1 0 0 .5 1 5 0 5
1 5
x1 0
';'APSAB
';'APSLAKE';'OPBPC
';'OPRC
co rre la tio n
0 .1 0 .0 5 A P S L A K E 0 -0 .0 5 O P S L A K E -0 .1 O P R C -0 .1 5 -0 .2 -0 .1 0 0 .1 0 .2 0 .6 0 .4 0 .2 0 -0 .2 -0 .4 -0 .6 -0 .8 O P B P C A P M A M B S A A M A P S A B
Il grafico relativo allMDS con la distanza seuclidean ci indica che la variabile stream runoff risulta separata dalle altre 6 variabili relative
alla misura di precipitazione , in accordo con quanto esplicitato in precedenza; tuttavia a differenza dellanalisi di clustering con la stessa distanza , si evidenzia la formazione di 2 gruppi separati per le restanti variabili. Tale discrepanza tuttavia non pero cos illogica se si tiene in considerazione che esistono differenti mesoclimi allinterno di una stessa area e che quindi si possono verificare tassi di precipitazione considerevolmente differenti in zone diverse di unica area considerata. Anche il grafico MDS relativo alla distanza correlation mette in evidenza la considerazione fatta in precedenza , la quale si accorda alla medesima analisi di clustering. A differenza dellanalisi MDS con la distanza seuclidean, in questo caso la variabile stream runoff viene accorpata alle variabili OPSLAKE,OPRC,OPBC cos come era avvenuto con lanalisi di clustering. Conclusioni relative alle osservazioni Dallanalisi complessiva delle osservazioni relative ai diversi anni , utilizzando sia il metodo dellMDS sia quello di clustering entrambi con diverse distanze, si evidenziano le seguenti considerazioni. La maggior parte delle osservazioni sono raggruppate assieme costituendo in linea generale un unico blocco di dati, tuttavia concentrando lanalisi sugli outliers desunti dai diversi grafici ed in particolare gli anni :
Year | APMAM | APSAB |APSLAKE| OPBPC | OPRC 1969 1976 1982 1986 5.35 9.38 18.08 4.93 3.62 8.30 11.96 3.26 4.62 9.70 13.02 4.58 43.37 6.80 18.55 26.47 24.85 5.25 18.40 15.33 |OPSLAKE| 33.07 4.73 19.45 26.46 BSAAM 146345 44756 120463 118144
Si evidenzia chiaramente come queste osservazioni siano differenti dalle altre in quanto il valore associato di runoff volume si discosti considerevolmente dai restanti dati sia come valori alti ( anni 1969,1982,1986) sia come valori bassi ( anno 1976). La variabile runoff volume , misurata nei pressi di Bishop, una variabile consistente in associazione con le variabili relative al quantitativo di precipitazione misurato nei nei 6 diversi punti della zona.
Dallanalisi complessiva delle variabili relative alle misura di precipitazione in 6 laghi di una stessa zona e della variabile relativa al ruscellamento stream runoff , utilizzando sia il metodo dellMDS sia quello di clustering entrambi con diverse distanze, si evidenziano le seguenti considerazioni. Da una prima analisi generica si porterebbe a concludere che tutte le variabili sono strettamente associate fra loro, il che non sbagliato, ma tuttavia occorre sottolineare come nei grafici relativi allMDS ed al clustering si ricavino altre informazioni. La variabile runoff volume risulta accorpata alle variabili relative ai Laghi Big Pine Creek ,Rock Creek , e OPSLAKE in cui si osservano anche i tassi di precipitazione maggiore in diversi anni e che pertanto influiscono maggiormente sul valore assunto dallo stream runoff volume proprio in quegli anni considerati. Questa considerazione viene rafforzata anche dal grafico relativo allMDS con la distanza correlation dove i tre laghi( e relative variabili) di cui sopra, costituiscono un gruppo a parte rispetto ai restanti tre. Il maggior tasso di precipitazione riscontrato nei tre laghi ci porta pertanto a differenziarli qualitativamente dai restanti e pertanto a considerarli piu influenti nel determinare i valori assunti dallo stream runoff volume.
Problema 2
Dati di Partenza
Matrice di partenza in cui abbiamo: 1 Colonna 2 Colonna 3 Colonna 4 Colonna Specie di Salmone 1 Alaska-2 Canada Sesso 1 Femmina 2 Maschi
Diametro Anelli di crescita Acqua dolce Primo Anno Diametro Anelli di crescita Acqua salata Primo Anno
(size 100X4)
Dalla matrice originale di dati estrapolo quelli relativi ai soli maschi delle due famiglie Alaska e Canada. >> ind=find(TOT(:,2)==2); >> TOTMASCHI=TOT(ind,:) Da questa matrice estrapolo poi le due popolazioni >>ind=find(TOTMASCHI(:,1)==1); >>ALASKA=TOTMASCHI(ind,:) >> ind=find(TOTMASCHI(:,1)==2); >> CANADA=TOTMASCHI(ind,:) >> ALASKA=ALASKA(:,3:4) >> CANADA=CANADA(:,3:4) >> [n1,p]=size(ALASKA) n1 = 24 p = 2 >> [n2,p]=size(CANADA) n2 = 24 p = 2 >> [RALASKA,SALASKA,MALASKA]= funzbase(ALASKA)
* vedi allegato per funzione
-0.1977 1.7023
436.1667
>> [RCANADA,SCANADA,MCANADA]= funzbase(CANADA) RCANADA = 1.0000 0.2669 SCANADA = 370.1721 141.6431 MCANADA = 135.2083 364.0417 141.6431 760.6504 0.2669 1.0000
Da una prima analisi delle popolazioni attraverso le statistiche calcolate emergono gi alcune differenze che occorre tenere in considerazione. I valori assunti dal vettore media delle due popolazioni di salmoni risulta considerevolmente differente ,soprattutto per quanto riguarda la variabile crescita degli anelli in acqua salata, che nel caso dei Salmoni del Alaska assume un valore significativamente maggiore. Inoltre si osserva che i valori assunti dalle varianze interne delle variabili delle due popolazioni sono considerevolmente alti ,in particolare quello relativo alla dispersione dalla media della crescita degli anelli in acqua salata per i Salmoni dellAlaska, e quello relativo alla dispersione dalla media relativa alla crescita degli anelli in acqua dolce dei Salmoni del Canada.
80
90
120
130
Il test di normalit con il qqplot per la variabile diametro anelli di crescita in acqua dolce Primo Anno dei Salmoni dellAlaska mi riporta un valore del coefficiente di correlazione pari a 0.982067, che se confrontato con i valori tabellari corrispondenti per Sample size=25 ed =5% e 1% risulta superiore in entrambi i casi (0.9591 per =5% , e 0.9410 per =1%) . Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile. >> testchi2(ALASKA(:,1),8,0.05) ans = 1.8327 11.0705
4.5
3.5
2.5
1.5
0 50
60
70
80
90
100
110
120
130
140
150
3.5
2.5
1.5
0 50
60
70
80
90
100
110
120
130
140
150
1 1
Anche con il test del 2 con un livello di significativit dell1% ed del 5% accetto lipotesi di normalit dei dati relativi alla mia variabile.
500
observations
450
400
350
300 340
360
380
400
480
500
520
540
Il test di normalit con il qqplot per la variabile diametro anelli di crescita in acqua salata Primo Anno dei Salmoni dellAlaska mi riporta un valore del coefficiente di correlazione pari a 0.986257, che se confrontato con i valori tabellari corrispondenti per Sample size=25 ed 5% e 1% risulta superiore in entrambi i casi (0.99591 per =5% , e 0.9410 per =1%) . Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile. >> testchi2(ALASKA(:,2),8,0.05) ans = 3.4167 11.0705
5.5
Figura 1 (=5%)
5 4
5 4.5 4 3.5
3 2.5
2
1
1.5 1
350 400 450 500 550 600
0 300
Figura 1 (=1%)
6 5.5 5
4.5 4 3.5
3
3
2.5 2
1
1.5
0 300
350
400
450
500
550
600
Figura 1 (=5%)
100
110
120
160
170
180
do NOT reject normality hypothesis Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile.
Variabile 2 Diametro Anelli di crescita acqua salata >> qqplot1(CANADA(:,2)) Corr.coeff 0.971166
440
420
400 observations
380
360
340
320
300 300
320
340
400
420
440
do NOT reject normality hypothesis Accetto pertanto lipotesi di normalit dei dati relativi alla mia variabile.
7 6 d ista n ce s 5 4 1 3 3 2 19 18 1 5 2 2 0 6 4 1 0
24 23 3 8 16 1 22 2 1 12 1 5 9 7 17 1 1 4 01 0 1 2
80 90 100 110 120 130
I due test di normalit bivariata escludono la normalit delle mie due variabili considerate contestualmente.
Dal grafico risultante dal test del 2 per la normalit bivariata si evince la presenza di due osservazioni outliers corrispondenti alla 4 ed alla 6 della mia popolazione di salmoni dellAlaska.
420
400
380
360
340
320
>> chi2plotnew(CANADA)
300 90 100 110 120 130 140 150
160
170
>>chi2plotnew(CANADA)
8 10 7 6 5 9 4 7 3 2 2 6 18 12 1 15 16 2 4 15 22 1 4 21 1 3 4 2 0 11 0 0 1 2 3 19 2 3 17 8
d ista n ce s
Visto il buon risultato ottenuto con il test del 2 accetto lipotesi di normalit bivariata, anche se dal grafico risultante dal test si evince la presenza di due outliers corrispondenti alle osservazioni 10 e 8 della popolazione di Salmoni del Canada.
normalit
per
le
due
popolazioni
di
salmoni
Direttamente dal Workspace di Matlab modifico la mia matrice ALASKA eliminando le osservazioni 4 e 6 che risultano outliers rispetto agli altri dati , in particolare si osserva che le due suddette osservazioni si discostano dalla retta del test 2 per la normalit bivariata a causa della 2 variabile , ovvero il diametro degli anelli di crescita sulle squame in acqua salata ; dove Losservazione 4 assume i valori (117,489) e la losservazione 6 i valori (123,372)rispetto alla media di popolazione pari a MALASKA = [100.3333 , 436.1667]. Da notare inoltre che la variabilit interna
relativa alla 2 variabile nella popolazione di salmoni dellAlaska visibile gi dalla matrice di covarianza calcolata in precedenza. era ben
Successivamente effettuo una trasformazione logaritmica dei dati relativi alla 2 variabile della mia matrice ALASKA che ora ha dimensioni 22X2.
>> ALASKA(:,2)=log(ALASKA(:,2)) Verifica della normalit per la popolazione di Salmoni del trasformazione logaritmica e leliminazione di due osservazioni Alaska dopo la
Ripeto i due test di normalit bivariata per verificare se leliminazione delle due osservazioni nella popolazione di salmoni dellAlaska e la successiva trasformazione logaritmica della 2 variabile hanno migliorato le mie osservazioni dal punto di vista della loro normalit di distribuzione. >>[xm,S,n_in,n_out]=testnorm2v(ALASKA) n_in = 11 n_out = 11
8 7 6 5 distances 4 16 3 17
6.05
>> chi2plotnew(ALASKA)
6.25
6.2
6.15
18
11
6.1
4 2
2
6
5.95
5.9 70
80
90
100
110
120
130
622 21 203 14 13 1 7 10 19 5 15 9 12 0 0 1 2
Anche se il test di normalit bivariata , dopo la trasformazione effettuata, non mi da un buon livello di normalit delle mie due variabili considerate contestualmente , decido di proseguire con lanalisi , in quanto almeno il 50% delle osservazioni della popolazione di salmoni dellAlaska rispetta lipotesi di normalit.
Trasformazione logaritmica dei dati relativi alla seconda variabile della popolazione di salmoni del Canada per dare lomogeneit necessaria ai dati oggetto di confronto
>> CANADA(:,2)=log(CANADA(:,2))
Verifica della normalit per la popolazione di trasformazione logaritmica della seconda variabile >> [xm,S,n_in,n_out]=testnorm2v(CANADA) n_in = 15 n_out = 9 >>chi2plotnew(CANADA)
8 7 8 6 5 distances 4 3 2 2 3 1 6 18 12 1 5 16 24 15 22 13 14 4 221 0 11 1 2 3 4 5 6 7 8
2
Salmoni
del
Canada
dopo
la
10
6 5.95
17 2319
0 0
100
110
120
130
140
150
160
170
Visualizzazione Grafica delle distribuzione delle mie due popolazioni con i dati trasformati
>> plot(ALASKA(:,1),ALASKA(:,2),'*b') >> hold on >> plot(CANADA(:,1),CANADA(:,2),'*r')
6.4
6.3
6.2
6.1
5.9
5.8
5.7 70
80
90
100
110
120
130
140
150
160
170
n1 = p = 2
22
>> [n2,p]=size(CANADA) n2 = 24 p = 2
Determinazione della regione di confidenza al 99% e 95% relativamente alla popolazione di salmoni dellAlaska
>> Fisher1=((p*(n1-1))/(n1-p))*finv(0.99,p,n1-p)
Fisher1 = 12.2828 >> ellisse(MALASKA,SALASKA/n1,Fisher1) >> hold on >> Fisher5=((p*(n1-1))/(n1-p))*finv(0.95,p,n1-p) Fisher5 = 7.3349 >> ellisse(MALASKA,SALASKA/n1,Fisher5) >> hold on >> plot(ALASKA(:,1),ALASKA(:,2),'*r')
6.25
6.2
6.15
6.1
6.05
5.95
5.9 70
80
90
100
110
120
130
Le regioni di confidenza al 99% ed al 95% , aventi come centro il vettore media della popolazione di salmoni dellAlaska, contengono rispettivamente 3 osservazioni (99%) e 2 osservazioni (95%)su un totale di osservazioni pari a 22. Tutte le osservazioni che ricadono nelle diverse regioni di confidenza possono costituire la vera media della popolazione considerata. La rappresentazione grafica ci conferma pertanto che le osservazioni relative alla popolazione di salmoni dellAlaska presentano una dispersione considerevolmente elevata rispetto alla media.
H0
MALASKA=MCANADA
Sx=Sy
, nel nostro caso le due matrici di covarianza sono molto simili fatta eccezione per la varianza interna della 1 variabile che differisce di circa un fattore 2 fra le due matrici.
Decido comunque di effettuare il test per la verifica di uguali medie delle due popolazioni considerando le matrici di covarianza uguali in quanto il numero di osservazioni molto piccolo e lutilizzo dellaltro test con ipotesi che le matrici di covarianza siano diverse presenta come condizione aggiuntiva la presenza di un grande numero di osservazioni, condizione che non si verifica in questo caso.
SALASKA =
158.2597
-0.4269
-0.4269
0.0080
SCANADA =
370.1721 0.4026
0.4026 0.0057
>> Fisher1Test=(((n1+n2-2)*p)/(n1+n2-p-1))*finv(0.99,p,n1+n2-p-1) Fisher1Test = 10.5100 Dal momento che il mio valore calcolato risulta superiore ai valori del 2 di riferimento sia per un livello di significativit al 5% che per l1%, rifiuto lipotesi nulla relativa alluguaglianza delle medie delle due popolazioni.
>> plot(0,0,'*r') >> hold on >> plot(ALASKA(:,1),ALASKA(:,2),'*b') >> hold on >> plot(CANADA(:,1),CANADA(:,2),'*g')
7
0.2
5 0.15 4 0.1
0.05
1 0 0 -50 0 50 100 150 200 -45 -40 -35 -30 -25 -20 -15 -10 -5 0
Il vettore A mi indica la combinazione lineare con la massima differenza delle variabili che in questo caso corrisponde alla 2 variabile , relativa al diametro degli anelli di crescita in acqua salata. Le due popolazioni di Salmoni pertanto , se considerate esclusivamente per le due variabili diametri degli anelli di crescita delle squame in acqua dolce e salata Primo Anno , non possono essere ritenute uguali e quindi appartenenti ad unica popolazione di individui. Si pu ipotizzare che i Salmoni dellAlaska che presentano un valore medio di accrescimento in acqua salata superiore di quello relativo ai Salmoni del Canada, si accrescano maggiormente sia per motivazioni connesse alle caratteristiche anatomiche della specie (maggiore peso in et adulta) sia per motivi legati alla sopravvivenza ( maggiori scorte di grasso per affrontare la migrazione in acque dolci per riprodursi).
di
Salmoni
con
il
test
H0
Intervalli simultanei di confidenza al 95% considerando il test dipotesi svolto con matrici di covarianza considerate simili
>> a1=[1;0]; >> a2=[0;1]; >> c=sqrt(Fisher5Test) c = 2.5649
>> A1=(a1')*(DIFF')-(c)*(sqrt((a1')*(((1/n1)+(1/n2))*Scom)*(a1))) A1 = -49.0802 >> A2=(a1')*(DIFF')+(c)*(sqrt((a1')*(((1/n1)+(1/n2))*Scom)*(a1))) A2 = -24.2456 Lintervallo di confidenza relativo al vettore a1 pertanto (-49.0802,-24.2456) >> B1=(a2')*(DIFF')-(c)*(sqrt((a2')*(((1/n1)+(1/n2))*Scom)*(a2))) B1 = 0.1186 >> B2=(a2')*(DIFF')+(c)*(sqrt((a2')*(((1/n1)+(1/n2))*Scom)*(a2))) B2 = 0.2431 Lintervallo di confidenza relativo al vettore a2 pertanto (0.1186,0.2431) Dallanalisi degli intervalli di confidenza simultanei al 95% emerge che lorigine del grafico corrispondente alla mia Ho (medie delle due popolazioni uguali) si discosta dalla regione di confidenza avente come centro il vettore DIFF ( vettore differenza medie delle 2 popolazioni)sia per lintervallo di confidenza relativo alla prima variabile sia per lintervallo relativo alla seconda. Si puo pertanto concludere che entrambi le variabili relative alla crescita degli anelli sulle squame in acqua dolce e salata differiscono significativamente in entrambe le popolazioni di Salmoni. Questa risultanza in contrasto con il risultato ottenuto in precedenza , ma va considerata ugualmente attendibile in quanto non da escludere che i salmoni
Canadesi, che hanno un valore medio di accrescimento in acqua dolce maggiore rispetto a quello della specie dellAlaska, abbiano una maggiore disponibilit di risorse alimentari nellambiente in cui nascono o in alternativa abbiano un accrescimento iniziale maggiore rispetto alla specie dellAlaska per potere affrontare da subito la discesa verso le acque salate. In conclusione si pu affermare che le due popolazioni di Salmoni dellAlaska e del Canada si differenziano fra di loro in quanto i primi danno luogo ad un accrescimento maggiore rispetto agli altri nelle acque salate mentre i secondi nelle acque dolci a partire dal primo anno di nascita.
0.0067 0.0068
6.4
6.3
6.2
26.8572
6.1
144.7339
5.9
5.8
Allocate pop.2
70 80 90 100
APER= 0.0652
140
150
160
170
La nuova osservazione rientra allinterno della popolazione di salmoni del Canada. Il valore dellAPER ( Apparent error rate ) che costituisce la proporzione di osservazioni classificate erroneamente pari al 6% ,quindi molto buono.
Genere Oncorhynchus
Specie: O. nerka
Il salmone canadese neonato rimane nel suo habitat natale per un massimo di tre anni, ovvero pi di ogni altro salmone. Poi si mette in viaggio verso il mare, dove cresce rapidamente, nutrendosi principalmente di zooplancton. Rimane quindi nell'oceano da uno a quattro anni. Lunghezza: 85 cm Peso: dai 2,5 ai 7 Kg
Specie: O. tshawytscha
La crescita del salmoni del genere Oncorhynchus nelloceano assai rapida. Il loro nutrimento tanto abbondante che creano una riserva di grasso importante e utile al momento di abbandonare loceano. A seconda della diversa specie di appartenenza rimangono in mare svariati anni fino al raggiungimento dellet riproduttiva per poi risalire nelle acque dolci. Lunghezza: 150 cm Peso: fino a 60 Kg
Genere Oncorhynchus
Specie: O. tshawytscha
Genere Oncorhynchus
Specie: O. nerka
function MDscaling1(X,names) %function MDscaling1(X,names) % matrice X: % rows are observations % columns are variables % names= contiene una stringa di nomi degli oggetti. % **non e' necessaria** % if (nargin ==1), names=num2str([1:size(X,1)]'); end D=pdist(X,'correlation'); [Y,stress] = mdscale(D,2,'Criterion','sstress'); %[Y,stress] = mdscale(D,2,'Criterion','sstress','Start','random'); fprintf('Coeff. di stress in 2D: %f\n',stress) figure(1) plot(Y(:,1),Y(:,2),'x') text(Y(:,1),Y(:,2),names) title('correlation') [Y,stress] = mdscale(D,3,'Criterion','sstress'); %[Y,stress] = mdscale(D,3,'Criterion','sstress','Start','random'); fprintf('Coeff. di stress in 3D: %f\n',stress) figure(2) plot3(Y(:,1),Y(:,2),Y(:,3),'x') text(Y(:,1),Y(:,2),Y(:,3),names)
title('correlation')
function qqplot1(X) %function qqplot1(X) % % variant of qqplot for 1 variable % % X = vector of observations [n,p]=size(X); if p>1, X=X(:,1);fprintf('Only first column is processed\n');end [d,ix]=sort(X); j=(1:n)'; z=norminv( (j-0.5)/n,mean(X),std(X)); qqplot(z,d); xlabel('normal distribution'); ylabel('observations'); rho=corrcoef([z,d]); fprintf('Corr.coeff %f \n', rho(1,2))
function testchi2(x,nh,alpha) %function testchi2(x,nh,alpha) % % Test chi2 di adattamento della distribuzione % normale univariata ai dati % % x = vettore di osservazioni % nh = numero di intervalli del range (es. nh=10) % alpha = livello di sign. % n=length(x); [f,xm]=hist(x,nh); l=(max(x)-min(x))/(nh+1); xm=xm+l/2; m=mean(x); s=std(x); z=(xm-m)/s; p=normcdf(z); pn1=length(p); F=[p(1),p(2:pn1)-p(1:pn1-1)]; F=F*n; figure(1) plot(f),hold on;plot(F,'r'),hold off figure(2) histfit(x); chi2=sum((f-F).^2./F); chi2ref=chi2inv(1-alpha,pn1-3); [chi2,chi2ref]
if (chi2>chi2ref), fprintf('reject normality hypothesis\n'), else fprintf('do NOT reject normality hypothesis\n'), end
function [xm,S,n_in,n_out]=testnorm2v(X) %function [xm,S,n_in,n_out]=testnorm2v(X) % % Effettua un test bivariato di normalita' % X matrice di osservazioni, n x p (p=2) % % in uscita: % xm vettore media (vettore riga) % S matrice di covarianza % n_in numero di osservazioni dentro l'ellisse % n_out numero di osservazioni fuori dall'ellisse c2=chi2inv(.5,2); X=X(:,1:2); n=size(X,1); xm=mean(X); S=cov(X); dev=X-ones(n,1)*xm; Sdev=S\dev'; fprintf('Distanza statistica:\n') dist=diag(dev*Sdev); disp(dist') n_in=length(find(dist<=c2)); n_out=length(find(dist>c2)); ellisse1(xm,c2,S) hold on plot(X(:,1),X(:,2),'*r') hold off
for k=1:n, d(k,1) = ( X(k,:)-m)*(S\(X(k,:)-m)'); end [d,ix]=sort(d); j=(1:n)'; z=chi2inv( (j-0.5)/n,p); qqplot(z,d); xlabel('\chi^2_p'); ylabel('distances'); hold on text(z,d,int2str(ix)); hold off
function ellisse(xbar,S,c2)
%function ellisse(xbar,S,c2) % Grafico dell'ellisse % % (t - xbar)^T inv(S) (t-xbar) = c2 centro: xbar=[x1;x2] % % con c2 = \chi_2^2 = 1.39 % (per test normalita') % x1 centro prima variabile (scalare) % x2 centro seconda variabile (scalare) % S matrice di distanza statistica % (per test normalita', e' la m. covarianza) x1=xbar(1); x2=xbar(2); %c2=1.39; [v,e]=eig(S); theta = 0:.01:2*pi; ntheta=length(theta); T=[x1;x2]*ones(1,ntheta)+v*sqrt(c2*e)*[cos(theta);sin(theta)]; plot(T(1,1),T(2,1),'.');hold on for k=2:ntheta, plot(T(1,k),T(2,k),'.') end hold off