Marco Corti
Carlo Rondinini
1. Introduzione ......................................................................................................................................................................... 1
1.1. Una breve introduzione al sistema SAS ......................................................................................................................... 2
1.2. I comandi del SAS ....................................................................................................................................................... 3
2. Il materiale in esame ............................................................................................................................................................. 3
2.1. Il problema biologico ................................................................................................................................................... 3
2.2. I dati .......................................................................................................................................................................... 4
3. L’analisi dei dati .................................................................................................................................................................... 5
3.1. La struttura dei dati ..................................................................................................................................................... 5
3.2. Importazione dei dati in SAS ........................................................................................................................................ 5
3.2.1. Programma UNO ............................................................................................................................................... 5
3.2.2. Alternativa al programma UNO tramite menu ...................................................................................................... 6
3.3. Manipolazione delle tabelle ........................................................................................................................................ 10
3.3.1. Programma DUE.............................................................................................................................................. 10
3.3.2. Alternativa al programma DUE tramite menu .................................................................................................... 11
3.3.2.1. Duplicazione delle tabelle............................................................................................................................ 11
3.3.2.2. Cambiamento del nome e della codifica delle variabili ................................................................................... 12
3.3.2.3. Ordinamento della tabella ........................................................................................................................... 15
3.3.2.4. Salvataggio in un file esterno ...................................................................................................................... 16
3.3.2.5. Tabelle riassuntive...................................................................................................................................... 17
3.4. Esplorazione grafica dei dati....................................................................................................................................... 18
3.4.1. Programma TRE .............................................................................................................................................. 18
3.4.2. Alternativa al programma TRE tramite menu ..................................................................................................... 19
3.4.2.1. Selezione di un sottoinsieme di dati ............................................................................................................. 19
3.4.2.2. Grafici a barre ............................................................................................................................................ 20
3.4.2.3. Grafici a dispersione ................................................................................................................................... 22
3.5. Statistiche descrittive................................................................................................................................................. 23
3.5.1. Programma QUATTRO ..................................................................................................................................... 23
3.5.2. Alternativa al programma QUATTRO tramite menu ............................................................................................ 24
3.6. Trasformazione dei dati ............................................................................................................................................. 25
3.6.1. Programma CINQUE ........................................................................................................................................ 25
3.6.2. Alternativa al programma CINQUE tramite menu ............................................................................................... 26
3.7. Analisi della varianza ................................................................................................................................................. 27
3.7.1. Programma CINQUE A ..................................................................................................................................... 27
3.7.2. Alternativa al programma CINQUE A tramite menu ............................................................................................ 28
3.8. Generalized linear models .......................................................................................................................................... 29
3.8.1. Programma CINQUE B ..................................................................................................................................... 29
3.8.2. Alternativa al programma CINQUE B tramite menu ............................................................................................ 29
3.9. Test post hoc ............................................................................................................................................................ 30
3.9.1. Programma CINQUE B 1 .................................................................................................................................. 30
3.9.2. Alternativa al programma CINQUE B 1 tramite menu ......................................................................................... 31
3.10. Analisi della varianza multivariata (MANOVA) ......................................................................................................... 31
3.10.1. Programma CINQUE C ..................................................................................................................................... 31
3.10.2. Alternativa al programma CINQUE C tramite menu ............................................................................................ 32
3.10.3. Programma CINQUE D ..................................................................................................................................... 32
3.10.4. Alternativa al programma CINQUE D tramite menu ........................................................................................... 33
3.11. Analisi delle componenti principali (PCA) ................................................................................................................ 34
3.11.1. Programma SEI ............................................................................................................................................... 34
3.11.2. Alternativa al programma SEI tramite menu ...................................................................................................... 35
3.11.3. Programma SEI A ............................................................................................................................................ 36
3.11.4. Alternativa al programma SEI A tramite menu ................................................................................................... 38
3.11.5. Programma SEI B ............................................................................................................................................ 40
3.11.6. Alternativa al programma SEI B tramite menu ................................................................................................... 40
3.12. Analisi discriminante e delle variate canoniche ....................................................................................................... 40
3.12.1. Programma SETTE .......................................................................................................................................... 40
3.13. Calcoli matriciali: linguaggio IML ........................................................................................................................... 41
3.13.1. Programma SETTE A ....................................................................................................................................... 41
3.14. ENTERPRISE GUIDE ............................................................................................................................................. 44
4. Risorse in linea.................................................................................................................................................................... 46
Appendice 1: output completo dell’analisi........................................................................................................................................ 47
1. Introduzione
Questo seminario è rivolto agli studenti della Scuola di Dottorato di Ricerca in Biologia Animale. L’intento è di
proporre all’attenzione degli studenti un sistema professionale di analisi dei dati che può essere utilizzato per
la soluzione di problemi di carattere statistico di livello avanzato. La scelta del sistema SAS deriva dalla
completezza delle procedure statistiche disponibili, dalla adattabilità alle diverse problematiche, dalla
presenza di un linguaggio di programmazione interno. Il sistema SAS è scalabile e modulare, e questo
consente di accedere agli strumenti di analisi statistica attraverso una varietà di interfacce disponibili, dai
menu a tendina agli script di programma. Queste caratteristiche non sono tuttavia disponibili solo nel SAS,
ma anche in altri sistemi di analisi statistica inclusi S-plus ed R (disponibile liberamente e gratuitamente on
line). Il sistema SAS è disponibile per dottorandi e docenti della Sapienza con licenza campus.
I menu a tendina e gli script di programma rappresentano sono due strumenti in apparenza molto distanti
tra loro, che rispecchiano due differenti filosofie di approccio alla manipolazione dei dati. I menu a tendina
semplificano notevolmente l’accesso agli strumenti messi a disposizione da un programma (ad esempio, in
questo caso, importazione ed esportazione dei dati, test statistici, diverse tipologie di grafici). Questi d’altro
canto impediscono di tenere traccia del lavoro svolto sui dati e, spesso, compiono implicitamente delle
operazioni che, pur risultando trasparenti all’utente, influenzano il risultato ottenuto (ad esempio questo
accade frequentemente con le analisi della varianza). Al contrario, l’adozione di script di programma
rappresenta un massiccio ostacolo iniziale all’utilizzo di un software, in quanto utilizzano sintassi rigorose e
raramente intuitive. Tuttavia l’uso degli script si rivela immancabilmente più proficuo nel lungo termine,
perché fornisce i seguenti vantaggi:
1. maggiore controllo sull’elaborazione dei dati. Quando si produce uno script è necessario definire
TUTTI i paramentri e le opzioni di un’analisi;
2. realizzazione di analisi complesse e/o personalizzate. I menu a tendina non sono MAI in grado di
replicare tutte le funzionalità disponibili tramite la programmazione, mentre l’analisi di dati scientifici
che si affronta in un dottorato di ricerca molto spesso richiede l’applicazione di metodologie ad hoc;
3. replicabilità delle analisi. Quando uno script è stato messo a punto, è possibile ripetere esattamente
la stessa analisi su un dataset differente. Inoltre, se ci si accorge di un errore commesso
precocemente nel processo di analisi è possibile correggerlo nello script e ripetere tutta l’analisi in
modo automatico (usando i menu a tendina, è necessario ripetere manualmente tutta l’analisi);
4. applicazione delle analisi a grandi moli di dati. Introducendo dei cicli negli script di programma è
possibile eseguire automaticamente la stessa analisi su un grande numero di elementi del campione.
Il seminario ed il presente documento non intendono rappresentare una introduzione esauriente alla
statistica: per questo si rimandano i partecipanti alla lettura di manuali e testi dedicati.
1
1.1. Una breve introduzione al sistema SAS
3
4
La finestra iniziale contiene quattro sottofinestre e una serie di barre degli strumenti:
1) La finestra dell’EDITOR. Qui vanno scritte o richiamate le istruzioni per l’esecuzione dei programmi (File:
apri).
2) La finestra del LOG. In questa finestra compare l’esecuzione di ciascuna linea di programma, con i
commenti. Vengono riportati gli errori (sottolineati in rosso).
3) La finestra dell’OUTPUT. In questa finestra vengono riportati tutti i vostri risultati (per i grafici si apre una
finestra ad hoc).
4) Finestra di a) RISULTATI e b) EXPLORER. Con RISULTATI potete accedere a ogni sezione delle analisi e a
ogni grafico prodotto. In EXPLORER con “collegamenti di file” potete inserire una lista di routines (o
programmi) SAS già pronti e richiamarli di volta in volta; in “librerie” trovate diverse opzioni, tra cui ‘work’
che contiene tutti i SAS datafiles che avete creato e aperto durante la sessione di lavoro (questi saranno
cancellati quando chiudete il SAS).
5) Premendo sull’icona definite la cartella di default per il lavoro del SAS. Questa può contenere i vostri dali,
le routines e qui vengono salvati output e grafici.
2
1.2. I comandi del SAS
1) Ogni programma o routine, ad esempio quelli utilizzati in questo seminario e che terminano con
l’estensione *.sas, iniziano con la dichiarazione di un SAS data file che contiene i dati fintanto che la
sessione rimane aperta.
2) I dati vengono letti con la istruzione “infile” da un file memorizzato su disco (in questo caso
cranio.txt). Notate che il nome del file fisico deve essere incluso tra due apici.
3) L’istruzione “input” definisce il numero delle variabili. Notate che se queste sono alfanumeriche
devono essere seguite dal segno $, ma questo non è necessario per le variabili numeriche. Se il file
di dati è di tipo ASCII (o TXT) tra variabili basta uno o più spazi e non è necessario che queste siano
incolonnate.
4) L’istruzione “proc” identifica la procedura scelta di volta in volta (ovvero l’analisi, dalla più semplice
alla più complessa.
5) L’istruzione “run” conclude il programma e consente la sua esecuzione.
6) Ogni riga di comando deve terminare obbligatoriamente con “;”.
Esempio di programma:
data UNO;
infile 'cranio.txt';
input spe$ loc$ cat$ sex$ TL NL FL BZW CW MLOW CBL BL IZL PL PLL IML;
Proc print;
run;
2. Il materiale in esame
I dati qui utilizzati (vedi oltre) devono essere intesi unicamente come esempio. Le tabelle ad essi relative
potrebbero rappresentare un problema biologico comune in sistematica, ecologia, genetica di popolazione o
altro. Di seguito è illustrato brevemente il problema biologico al solo scopo di facilitare una eventuale
interpretazione dei risultati.
I dati che ci apprestiamo a esaminare derivano da uno studio di morfometria multivariata tradizionale sul
complesso di specie e sottospecie del roditore Venezuelano Proechimys, presente nella foresta a galleria
della cordigliera andina e della cordigliera della costa a altitudini di 1.000 m slm circa (Fig. 1).
3
Le specie sono caratterizzate da riordinamenti cromosomici. Lo studio è stato pubblicato in passato
(Aguilera and Corti, 1994; Corti and Aguilera, 1995) e ha mostrato una differenziazione nella forma del
cranio e processi di allometria statica congruenti con un modello di speciazione cromosomica e di isolamentio
geografico.
L’elenco delle specie e delle località, il numero diploide, la loro localizzazione geografica, e il numero
di individui analizzato sono riportati in tabella 1.
Tabela 1 – Specie, località, numero diploide, latitudine e longitudine, numero di maschi e femmine, numero
totale.
Aguilera M. and Corti M. 1994 - Craniometric differentiation and chromosomal speciation of the genus
Proechimys (Rodentia: Echimyidae). Z. Saug., 59: 366-377
Corti M. and M. Aguilera. 1995 - Allometry and chromosomal speciation of the casiraguas Proechimys
(Mammalia, Rodentia). J. Zool. Syst. Evol. Res, 33: 109-115
2.2. I dati
Sono state rilevate sul cranio le seguenti 17 misure con un calibro alla precisione di 0.01 mm: TL (lunghezza
totale), NL (lunghezza dei nasali), FL (lunghezza dei frontali), BZW (larghezza bizigomatica), CW (larghezza
del cranio), MLOW (larghezza minima interorbitaria), CBL (dal condilo occipitale all’alveolo dell’incisivo), BL
(dal forame magnum all’alveolo dell’incisivo), IZL (distanza incisivo-zigomatica), PL (lunghezza palatale), PLL
(lunghezza dei palatini), IML (dall’ultimo molare all’incisivo), IFL (lunghezza del forame incisivo), UAL
(lunghezza della fila dei molari all’alveolo), FMW (larghezza del rostro), IFW (larghezza del forame palatino)
CH (altezza del cranio) (Fig. 2).
4
3. L’analisi dei dati
Il file contenente i dati è di tipo ASCII (volgarmente conosciuto e confuso anche come “txt”). SAS può
importare files di diverso formato (ad esempio Excel, dbase, Access) ma, in caso di file ASCII, si deve essere
certi che questo non contenga caratteri nascosti (es. tabulazioni) che vengono interpretati come variabili. E’
bene utilizzare un buon file editor per preparare e controllare i dati.
I dati utilizzati in questo seminario sono esemplificati di seguito (per i primi record):
1 101 39 1 61.9 22.8 19 27.7 12.7 21.5 51.4 44.2 38 8.7 20.7 26.2 8 9.8 10.8 3.7 13.5
1 101 41 1 52.1 18.3 16.5 25.8 11.9 20.9 43.3 36.6 22.6 8.6 16.7 22.9 5.4 9.2 9 3.2 12.8
1 101 46 1 55.8 19.2 18.3 26.7 12.3 21.7 40.9 38.8 33.9 9.2 18.6 24 6.4 9.5 9.2 2.9 13
1 101 48 1 57 20.6 18.2 28.7 13 22.4 48.3 42 35.5 8.8 19 24.2 6.7 8.7 9.6 3.1 13.6
1 101 54 1 50.2 15.8 17.8 25.1 12.2 20.8 43.2 36.5 22.3 7.9 16.7 22.5 6 9 8.6 2.9 12.5
1 101 42 0 54.4 18.8 17.8 26.6 12 21.4 46.3 39.7 34.6 7.7 18.2 22.8 7.1 8.7 9.6 3.5 13
Notare che il file è scritto “a bandiera”, ovvero non è necessario che le variabili siano incolonnate in
modo preciso. E’ necessario solo lasciare uno spazio o più tra une variabile e l’altra. Ogni record contiene 21
campi o variabili. Sarà quindi necessario indicare il numero di variabili e come leggerle. Queste possono
essere numeriche (solo numeri) o alfanumeriche (numeri e altri caratteri testuali, o solo caratteri testuali).
Questo semplice programma legge il file di dati “cranio.txt” presente su disco e crea il SAS datafile “UNO”, in
cui sono contenuti i dati, e assegna un nome alle variabili. Assegna anche il tiolo “Dati Proechimys” per
l’output e quindi effettua una stampa a video dei dati letti seguendo le istruzioni.
Da un veloce esame del listato si nota che la variabile PL dell’osservazione (o record) 14 ha un
valore (84) che è 10 volte circa superiore rispetto ai valori della variabile nelle altre osservazioni. Si tratta di
un errore di battitura (8.4 -> 84) che va corretto prima di procedere oltre. Vi sono due modi: A) utilizzare un
editor esterno per correggere i dati originali; o B) utilizzare l’editor del SAS. In questo caso optiamo per la
seconda soluzione: 1) utilizzando explorer, apriamo le librerie e nella libreria work troviamo il SAS datafile
“UNO”. Apriamolo e, utilizzando la modalità “Edit” nel menù “modifica”, correggiamo semplicemente il dato e
salviamo.
/*********************************************************************
PROGRAMMA UNO
Questo è un box di commento delimitato da slash-asterisco all'inizio e
arterisco-slash alla fine. Questo è il primo programma SAS che utilizziamo
ed è breve e semplice. Illustra come caricare i dati, assegnare nomi
alle variabili, cambiare i nomi, ordinare i dati secondo un criterio e,
infine, produrre una tabella semplice.
tutto ciò che è compreso tra slash-asterisco e arterisco-slash costituisce
un commento e non viene eseguito
Notate che tutti i comandi SAS terminano con un punto e virgola;;;;;;;;;
RUN; è l'ultimo comando necessario per far girare la routine
**********************************************************************/
data UNO; /* nome arbitrario assegnato a un SAS file che conterrà i dati */
infile 'cranio.txt'; /* il nome del file originale che contiene i dati */
input /* definisce come leggere i dati*/
spe$ loc$ cat$ sex$ /* i nomi delle variabili:
le alfanumeriche sono seguite dal carattere $ */
TL NL FL BZW CW MLOW /* le variabili numeriche sono descritte */
CBL BL IZL PL PLL IML /* semplicemente con il loro nome */
IFL UAL FMW IFW CH;
TITLE 'Dati Proechimys'; /* mette il titolo su tutte le pagine di output */
Proc print; /* la procedura stampa (nell'output) i dati */
run;
5
3.2.2. Alternativa al programma UNO tramite menu
La stessa procedura di importazione dei dati può essere effettuata utilizzando i comandi da menu. Prima di
iniziare è necessario assegnare i nomi alle variabili nel file di testo:
6
Dalla tendina, selezionare “Delimited file (*.*)”, quindi premere “Next”:
7
Dopo aver aperto “cranio_1.txt”, premere “Options”, accertarsi che il tipo di separatore dei valori sia lo
spazio, quindi selezionare “Get variable names from first row” (il file “cranio_1.txt” contiene i nomi delle
variabili). Premere “Ok”:
Nella library “WORK” creare la tabella membro “UNO_1”, quindi premere “Next”:
8
Come ultimo passo, è possibile salvare la procedure di importazione come script: navigare fino alla cartella
del corso SAS, quindi nominare lo script “uno_1.sas”. Premere “Finish”:
Verificare le differenze tra “uno.sas” e “uno_1.sas”, aprendo i due script in un editor di testo.
Ora fare doppio click su “UNO_1” nella finestra di explorer per aprire la tabella:
9
Se è necessario modificare dei dati, è possibile farlo dopo aver premuto il pulsante “Edit”. ATTENZIONE:
dato che SAS lavora su una copia dei dati mantenuta nella memoria RAM, i dati del file di origine
“cranio_1.txt” non saranno modificati.
/*********************************************************************
PROGRAMMA DUE
Con questa routine creiamo il nuovo SAS data set 'DUE', in cui
specifichiamo meglio il nome di due variabili: spe e loc.
Quindi, creiamo una tabella riassuntiva con il numero di individui
per specie e località.
Infine, ordiniamo i dati in modo crescente per specie e salviamo
su disco il file con i nuovi codici
**********************************************************************/
data DUE; set UNO; /* creiamo un nuovo SAS datafile, che si chiama "DUE"
e che legge i dati da "UNO". In questo file viene cambiato il
valore e il nome di due variabili
notate che i nomi delle variabili non possono
contenere più di 8 caratteri */
if spe=1 then specie='poliopus'; /*la variabile spe diventa specie */
if spe=2 then specie='falcon' ; /* e il suo valore numerico */
if spe=3 then specie='miranda' ; /* diviene il nome della specie */
if spe=4 then specie='miranda' ;
if spe=5 then specie='llanos' ;
if spe=6 then specie='llanos' ;
if spe=7 then specie='barinens';
if spe=8 then specie='barinens';
if spe=9 then specie='trinitat' ;
if spe=10 then specie='oriente' ;
if spe=11 then specie='canicoll';
if spe=12 then specie='barinens';
if loc=101 then local= 'Kasmera'; /* la variabile loc diventa localita */
if loc=202 then local= 'La_Tril'; /* e il suo valore numerico */
if loc=303 then local= 'Turiamo'; /* diviene il nome della località */
if loc=304 then local= 'El_Limo';
if loc=405 then local= 'Palmero';
if loc=406 then local= '406';
if loc=507 then local= 'LA' ;
if loc=408 then local= 'La_Nuli';
if loc=508 then local= 'Las_Mat';
if loc=609 then local= 'Guachar';
if loc=710 then local= 'C_Agua' ;
if loc=811 then local= 'Rio_Cac';
proc sort; by specie; /* questa routine ordina i record in base alla specie */
data TRE; set DUE;
file 'dati nuovi.txt'; /* salviamo su disco un nuovo file con */
/* questi nuovi valori e */
put specie local sex /* le variabili numeriche sono descritte */
TL NL FL BZW CW MLOW /* semplicemente con il loro nome */
10
CBL BL IZL PL PLL IML
IFL UAL FMW IFW CH;
proc tabulate; /* procedura per creare tabelle */
class specie local; /* le tabelle sono per specie e località */
table specie; /* crea una tabella per specie */
table specie*local; /* crea una tabella per specie e località */
TITLE 'Tabelle Proechimys';
Run;
Con un click sul tasto destro del mouse far comparire il menu a tendina sul dataset UNO, e selezionare
“Duplicate”:
11
3.3.2.2. Cambiamento del nome e della codifica delle variabili
Dal menu accessibile con un click del tasto destro del mouse, aprire il dataset “DUE”:
12
Dal menu del tasto destro, abilitare le modifiche al dataset:
Selezionare la colonna da ricodificare (“spe”) e assegnarle il nuovo nome “specie”. Assegnare il tipo di dati
“character” e premere “Ok”:
13
Ricodificare i valori della variabile:
Questo oggetto contiene il codice generato dall’operazione di ricodifica, e può essere salvato come script
utilizzando il comando “Save as” dal menu “File”.
È ora possibile ripetere la procedura per la variabile “loc” seguendo le specifiche dello script.
14
3.3.2.3. Ordinamento della tabella
15
3.3.2.4. Salvataggio in un file esterno
È possibile salvare in diversi formati inclusi Access e dbase: in questo caso scegliamo il formato ASCII
“Delimited file” per replicare il risultato dello script “due.sas”. Salvare il file con il nome “dati nuovi_1.txt”:
16
3.3.2.5. Tabelle riassuntive
Inserire “specie” e “local” come gruppi, e una variabile per cui non esistano missing values (in questo caso
abbiamo selezionato “TL”) come variabile da riassumere. Tra le statistiche descrittive proposte, selezionare
“N”,quindi premere “Ok”:
17
In questo caso l’aspetto della tabella riassuntiva ottenuta è leggermente differente da quella derivata dallo
script, ma il contenuto è analogo:
/*********************************************************************
PROGRAMMA TRE
Questo programma illustra come estrarre un sottoinsieme di dati
per una specie;
quindi produce un grafico a barre (GCHART) per una variabile
e un grafico a dispersione (GPLOT) per due variabili
**********************************************************************/
DATA QUATTRO; /* nuovo SAS datafile */
infile 'dati nuovi.txt'; /* il file nuovo creato precedentemente */
input specie$ local$ sex$
TL NL FL BZW CW MLOW
CBL BL IZL PL PLL IML
IFL UAL FMW IFW CH;
IF specie='barinens'; /* estrae il sottoinsieme per la specie barinensis */
PROC GCHART; VBAR TL ; /* produce un istogramma a barre */
TITLE 'Istogramma della variabile TL per la specie barinensis';
PROC GCHART; VBAR CH ; /* istogramma per la variabile CG */
TITLE 'Istogramma della variabile CH per la specie barinensis';
PROC GPLOT; PLOT CH*TL=SEX ; /* i due caratteri per il grafico a dispersione */
TITLE 'Grafico a dispersione per la specie barinensis';
RUN;
18
3.4.2. Alternativa al programma TRE tramite menu
19
Selezionare “LOOKUP distinct values”, quindi “barinens”:
Premere “Ok”.
20
Inserire la variabile “TL” nel box “Chart”; premere “Title” per scrivere “Istogramma della variabile TL per la
specie barinensis”, quindi premere “Ok” per produrre il grafico:
21
3.4.2.3. Grafici a dispersione
Scegliere “TL” come variabile X,”CH” come Y, “sex” per dividere in classi. Premere “Titles” per scrivere
“Grafico a dispersione per la specie barinensis” nel titolo, quindi “Ok” per produrre il grafico:
22
Il grafico che si ottiene è meno leggibile di quello ottenuto con lo script, perché i due sessi sono identificati
dalla forma e non dal colore dei simboli.
23
/*********************************************************************
PROGRAMMA QUATTRO
Utilizziamo la PROC UNIVARIATE per le variabili TL e CH per una statistica
descrittiva e grafica
**********************************************************************/
PROC UNIVARIATE PLOT normal DATA=QUATTRO;
VAR TL CH; /* INSERIRE QUI LE VARIABILI SCELTE */
Title; /* Title da solo cancella il title precedente */
run;
24
Premere “Plots” e scegliere i grafici che si vuole disegnare:
Premere “Ok” per eseguire l’analisi. Notare che rispetto al risultato ottenuto con lo script mancano i test di
normalità. Inoltre i grafici non sono nella finestra dei risultati numerici, ma si trovano nella finestra “Results”
sotto “Univariate” e “Boxplot”.
/*********************************************************************
PROGRAMMA CINQUE
Le variabili originali vengono trasformate in logaritmi.
Questi nuovi dati sono contenuti nel SAS datafile LOGCINQUE.
Le vecchie variabili vengono cancellate dal file.
Per semplicità analizziamo le variabili TL e CH dopo solo per
la specie barinensis dopo che sono state trasformate
in logaritmi, ora LnTL e LnCH.
A tal fine, utilizziamo la routine del programma
precedente PROC UNIVARIATE e osserviamo cosa avviene dopo la
trasformazione logaritmica
**********************************************************************/
DATA CINQUE; SET TRE; /* un nuovo SAS datafile */
25
DROP TL NL FL BZW CW MLOW CBL BL IZL PL PLL IML IFL UAL FMW IFW CH; /* cancella le vecchie
variabili */
proc print;
/* salviamo su disco le variabili trasformate in logaritmi
incluse specie local sex per un utilizzo successivo */
data SEI; set CINQUE;
file 'logcranio.txt';
put specie local sex
LnTL LnNL LnFL LnBZW LnCW
LnMLOW LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH;
/****** questa routine è uguale a quella di quattro.sas ******/
DATA LOGCINQUE;SET CINQUE;
IF SPECIE='barinens';
TITLE ;
/*********************************************************************
esattamente la stessa di quattro.sas eccetto per LnTL e LnCH
**********************************************************************/
PROC UNIVARIATE PLOT NORMAL DATA=LOGCINQUE; /* DATA=LOGCINQU per esser sicuri
che usi il datafile corretto */
VAR LnTL LnCH; /****** notare che usa le variabili logaritmiche logs *****/
run;
26
Assegnare alla nuova variabile trasformata il nome “LnTL”. Scegliere la categoria di funzioni “Mathematical”,
quindi la funzione “Log” e la variabile “TL”. Premere “Ok” per eseguire la trasformazione:
Procedere con le altre variabili, quindi ripetere l’analisi trattata al punto 4.5. In questa situazione si può
cominciare ad apprezzare il vantaggio di utilizzare degli script!
/*********************************************************************
PROGRAMMA CINQUE A
Questo programma esegue un'analisi della varianza sulla variabile
LnTL (logaritmo della lunghezza totale) per verificare se,
in ogni specie, i due sessi sono diversi, ovvero se esiste un
dimorfismo sessuale
**********************************************************************/
Title 'Analisi della Varianza per sessi';
data logsei;
infile 'logcranio.txt';
input specie$ local$ sex$
LnTL LnNL LnFL LnBZW LnCW
LnMLOW LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH;;
proc anova; /* la procedura ANOVA esegue l'analisi della varianza */
class specie sex; /* i due fattori sono 'specie' e 'sex' */
model LnTL= sex; by specie; /* esegue l'analisi tra i due sessi */
/* separatamente tra le due specie */
run;
27
3.7.2. Alternativa al programma CINQUE A tramite menu
Dal menu del tasto destro, aprire il file “logsei” in Analyst:
Scegliere “LnTL” come variabile dipendente, “sex” come indipendente. Premere “Variables” e quindi scegliere
“specie” come “By group”. Premere “Ok” per eseguire l’analisi:
28
3.8. Generalized linear models
/*********************************************************************
PROGRAMMA CINQUE B
Poiché il numero di osservazioni presenti in ogni cella non è
eguale, è più appropriato utilizzare un modello lineare.
Anche questo programma esegue un'analisi della varianza sulla variabile
LnTL, ma utilizzando la progedura GLM invede della ANOVA
**********************************************************************/
proc glm; /* utilizziamo la procedura GLM e non ANOVA */
class specie sex; /* il modello è uguale al precedente */
model LnTL= sex; by specie;
run;
29
Scegliere “LnTL” come variabile dipendente e “sex” come indipendente; in “Variables” selezionare “specie”
come “BY group”. Premere “Ok” per eseguire l’analisi:
/*********************************************************************
PROGRAMMA CINQUE B 1
Questo programma conduce l'analisi della varianza e aggiunge però
un test tra le medie. Questo al fine di avere un confronto a coppie
per tutti i gruppi. Il test utilizzato è quello di Tukey
**********************************************************************/
proc glm; /* si utilizza la procedura GLM */
class specie; /* il modello è uguale alle specie */
model LnTL= specie; /* per la variabile LnTL */
means specie/tukey alpha= 0.05; /* test di Tukey fra le medie */
/* ALTRE OPZIONI PER TEST FRA LE MEDIE: */
/* sostituire a "tukey" "LSD" per il test 'Least square significance' */
/* oppure "GT2" o, per altre opzioni, consultare la guida */
run;
30
3.9.2. Alternativa al programma CINQUE B 1 tramite menu
Seguire i passi esposti al punto 4.8.2. Nella finestra “Linear models” selezionare “LnTL” come variabile
dipendente e “specie” come indipendente. Accertarsi che in “Variables” il campo “BY groups” sia vuoto: in
caso contrario rimuovere “specie”. Nella finestra “Linear models” premere “Means”. Selezionare “Tukey’s
HSD” come metodo di confronto; accettare il livello di significatività 0.05 proposto; aggiungere (pulsante
“Add”) “specie” alla lista di “Effect / methods”. Premere “Ok” per eseguire l’analisi:
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall sex Effect
H = Type III SSCP Matrix for sex
Questi comprendono Wilk’s L, Pillai's Trace, Hotelling-Lawley Trace e Roy's Greatest Root; sono tutti
test multivariati di significatività per il cui significato si rimanda a testi che trattano questi argomenti. Notate
che l’errore è quello del Type III.
Notate come siano tutti non significativi, eccetto che per “barinens”. Secondo questi risultati, c’è un
effetto appezzabile di dimorfismo sessuale solo in questa specie.
/*********************************************************************
PROGRAMMA CINQUE C
Poiché in questo caso il dimorfismo sessuale è relativo a tutte
le variabile registrate, eseguiamo un'analisi della varianza
multivariata (MANOVA) su tutte le variabili utilizzando sempre
la procedura GLM
**********************************************************************/
31
title 'MANOVA dimorfismo sessuale';
proc glm;
class specie sex;
model LnTL LnNL LnFL LnBZW LnCW LnMLOW /* vengono incluse tutte le variabili */
LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH= sex / nouni; by specie; /* l'istruzione 'nouni' fa si' che non
vengano stampati i risultati relativi
all'analisi della varianxa su ogni variabile */
manova h=sex ; /* questa istruzione richiama la MANOVA */
run;
Notare che, essendo impossibile evitare che il programma esegua i test univariati, l’output è molto più
prolisso del necessario.
32
/*********************************************************************
PROGRAMMA CINQUE D
Questo programma esegue una MANOVA con un modello più complesso.
La domanda è la seguente: il dimorfismo sessuale è tale da
compromettere la distinzione tra le specie?
Il modello indaga: 1) differenze tra i due sessi
2) differenze tra le specie
2) l'interazione tra il fattore 'sex' e il fattore 'specie'
**********************************************************************/
title 'MANOVA dimorfismo sessuale, differenze tra specie e interazione degli effetti';
proc glm;
class specie sex; /* i due fattori: 'sex' e 'specie' */
model LnTL LnNL LnFL LnBZW LnCW LnMLOW
LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH = sex specie specie*sex/ nouni; /* il modello prevede lo studio */
/* dei due fattori e della */
manova h=sex specie specie*sex ; /* loro interazione */
run;
Nella finestra “Linear models” premere “Tests”. Nella sottofinestra “Multivariate” aggiungere “sex”, “specie” e
“sex*specie” agli effetti. Premere “Ok” per eseguire l’analisi:
33
Notare che, essendo impossibile evitare che il programma esegua i test univariati, l’output è molto più
prolisso del necessario.
1)
Eigenvalues of the Covariance Matrix
Autovalore Differenza Proporzione Cumulata
Con gli autovalori, la percentuale di varianza spiegata e la porzione di varianza cumulata. Notate che
il primo autovalore spiega il 50.95% della varianza, il secondo il 14.50% e assieme il 65.45%.
2)
Eigenvectors
Gli autovettori per ogni variabile e per ogni componente (dal primo al 17°). Notate che, in questo
caso, i valori degli autovettori del primo autovalore (primo vettore, primo PC, primo asse ….) sono diversi da
tutti gli altri: hanno infatti tutti lo stesso segno (sono tutti positivi) e valori più o meno simili (tranne LnCH).
Grossolanamente, il primo autovalore può essere considerato un “growth factor”, indipendentemente dal
fatto che ci stiamo occupando di reali forme biologiche soggette a crescita, dove il “growth factor” esprime
realmente un’allometria. Casi in cui tutti gli autovettori del primo autovalore sono simili per segno e
dimensioni sono comuni al di fuori della morfometria; questo vettore spiega quindi un processo o direzione
dal “più piccolo” al “più grande”.
***************************************************************
PROGRAMMA SEI
ANALISI DELLE COMPONENTI PRINCIPALI
Questa routine esegue l'analisi delle componenti principali a partire
dalla matrice di covarianza dei dati trasformati in logaritmi
(le 17 variabili originali).
L'opzione COV fa sì che autovalori e autovettori siano estratti
dalla matrice di varianza-covarianza
******************************************************************/
data PCA;
infile 'logcranio.txt'; /*utilizziamo il file salvato in precedenza */
input specie$ local$ sex$
LnTL LnNL LnFL LnBZW LnCW
LnMLOW LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH;
proc princomp COV; /* proc PRINCOMP esegue l'analisi delle PCA */
run;
34
3.11.2. Alternativa al programma SEI tramite menu
Per eseguire questa analisi delle componenti principali si utilizzerà un modulo SAS di nome ASSIST. Questo
modulo permette di eseguire in modo assistito delle analisi molto semplici (come quella qui considerata).
Nell’esercizio successivo, in cui sarà necessario produrre un output più ricco, l’analisi sarà eseguita tramite il
consueto modulo SAS Analyst. Per richiamare ASSIST, attivare una finestra a scelta tra “Results”. “Log”,
“Output” o “Editor” (con un singolo click del mouse); scegliere “Solutions” “Assist” dalla barra degli strumenti
in alto; accettare i default della finestra successiva premendo “Continue”. Nella nuova finestra scegliere
“Data analysis” “Multivariate” “Principal components”:
35
In “Other options” selezionare “Compute components from covariance matrix”, quindi “Ok”:
Per eseguire l’analisi premere il pulsante “Run” ( ) che normalmente si utilizza per eseguire gli script.
Notare che il modulo ASSIST costituisce una via alternativa (assistita) alla creazione di scritp. È possibile
salvare lo script generato dal modulo attraverso il menu “File” “Save as source”.
1) vengono creati due nuovi files, a) OUT=DIVSCRES e b) OUTSTAT=TEMP. In TEMP salviamo autovettori e
autovalori; in DIVRESC sono salvati tutti gli elementi dell’analisi, compresi i punteggi di ciascun
individuo (PRIN1 – PRIN17) rispetto a ogni componente principale.
2) Viene utilizzata la procedura TRANSPOSE; le matrici dei vettori vengono trasposte.
3) Viene prodotto un “grafico a cascata” per i 17 autovalori; è possibile osservare come la varianza
spiegata da ciascun componente principale decresca rapidamente dal primo al secondo e, quindi, dal
5° al 17° sia notevolmente bassa.
4) I tre grafici successivi mostrano, a titolo esemplificativo, i coefficienti degli autovettori per i primi tre
componenti. Viene mostrato in modo grafico quanto detto in precedenza, ovvero che i valori degli
autovettori del primo autovalore hanno infatti tutti lo stesso segno (sono tutti positivi) e valori più o
meno simili (tranne LnCH), mentre gli altri variano per segno e dimensioni.
5) L’ordinamento grafico relativamente al primo e al secondo componente, e al primo e al terzo. E’
stata utilizzata l’opzione “SYMBOL” par assegnare simboli e colori diversi alle specie in modo da
renderle più riconoscibili.
6) Infine, vengono salvati sul file “punteggi PCA.txt” i valori di ogni individuo rispetto ai primi tre PC,
unitamente ai codici di specie, località e sesso.
Notate che nel primo grafico a dispersione (PC1 e PC2) vi sono due individui fortemente devianti.
Avremmo dovuto riconoscerli prima durante le analisi esplorative. Per individuarli, utilizziamo il modulo
“analisi interattiva dei dati”. Vi si accede dal menu, premendo su “soluzioni”, quindi su “analisi”. Sulla finestra
che si apre scegliamo la libreria “WORK” (che contiene tutti i SAS datafiles aperti) e quindi su “DIVRESK”
(apre la finestra che contiene i dati originali più i punteggi dei componenti principali, PNIN1 – PRIN17). Dal
menù in alto “Analyze” apriamo “Scatter Plot (X Y)”. Sulla finestrella evidenziamo PRIN1 e inseriamolo nella
casella “X” e PRIN 2 nella casella “Y”; quindi, premiamo su “OK”. Il grafico che compare è lo stesso di quello
precedente, tranne per i colori e i simboli delle specie. Premiamo con il mouse sui due individui devianti:
appariranno i numeri 85 e 86, che corrispondono all’85° e 86° record (o individuo) nel file. Si suggerisce
crudemente di eliminarli. Una strada è quella di aprire con un text editor il file “punteggi PCA.txt”.
Notate che il modulo “analisi interattiva dei dati” offre numerose altre possibilità.
/*****************************************************************
PROGRAMMA SEI A
ANALISI DELLE COMPONENTI PRINCIPALI
Questa routine esegue l'analisi delle componenti principali a partire
36
dalla matrice di covarianza dei dati trasformati in logaritmi
(le 17 variabili originali). I punteggi degli individui sulle
componenti principali sono salvati nel SAS datafile DIVSCRES
in modo tale da poter essere utilizzate per grafici.
I risultati (piuttosto estesi) dell'analisi sono presentati
nella finestra di output.
Il SAS datafile OUTSTAT contiene tutti i risultati dell'analisi.
I componenti principali sono chiamati PRIN1-PRIN17 in OUTSTAT.
Viene prodotto un grafico a cascata degli autovalori,
dei grafici con i coefficienti degli autovettori 1 - 17
per i primi tre componenti principali e il grafico a dispersione degli
individui rispetto ai primi tre componenti principali (vengono
assegnati colori diversi alle specie)
Infine, vengono salvati sul file 'punteggi PCA.txt' i punteggi
degli individui rispetto ai primi tre componenti principali.
Questo file può essere utilizzato come input per programmi di
grafica scientifica
******************************************************************/
data pippo;
infile 'logcranio.txt';
input specie$ local$ sex$
LnTL LnNL LnFL LnBZW LnCW
LnMLOW LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH;
PROC PRINCOMP COV OUT=DIVSCRES OUTSTAT=TEMP;
data tempo; set temp; /* salva solo gli autovettori e i vettori */
if _TYPE_='EIGENVAL' OR _TYPE_='SCORE';
if _NAME_=' ' then _NAME_='EIGEN';
proc transpose;
data;set;i+1; /* crea una variabile indicizzata i per gli autovalori */
options pagesize=66;
proc print;var EIGEN _NAME_ PRIN1-PRIN17;
SUM EIGEN;
/* notare che la somma degli autovalori è la traccia della matrice di varianza-covarianza */
title 'Grafico a cascata degli autovalori 1 - 17';
proc gplot;
plot eigen*i;
symbol1 I=JOIN;
proc gplot;
title1 'Coefficienti degli autovettori 1 - 17';
title2 ' per i primi tre componenti principali';
plot prin1*i prin2*i prin3*i ;
proc gplot data=divscres;plot prin2*prin1=specie; plot prin3*prin1=specie;
symbol1 c=green i=none v=circle; /* il comando symbol consente simboli grafici a piacimento */
symbol2 c=blue i=none v=triangle;
symbol3 c=blue i=none v=square;
symbol4 c=black i=none v=square;
symbol5 c=red i=none v=square;
symbol6 c=yellow i=none v=circle;
title 'Proechimys, analisi delle componenti principali’;
title2 'Grafico a dispersione dei primi tre componenti pincipali';
data pluto; set divscres;
file 'punteggi PCA.txt';
PUT specie local sex
PRIN1-PRIN3;
run;
37
3.11.4. Alternativa al programma SEI A tramite menu
Tornare al modulo SAS Analyst e aprire la tabella “LOGSEI” (se non è già attiva). Dal menu del tasto destro
scegliere “Principal components”:
Specificare tutte le variabili numeriche come variabili da analizzare, quindi premere “Statistics”:
38
Premere “Plots”. Specificare che si vuole lo scree plot per tutti gli autovalori…
… e il component plot per le prime tre componenti principali, assegnando i simboli in base alla specie di
appartenenza del punto:
Infine, premendo “Save data” è possibile scegliere di salvare sia i punteggi individuali rispetto a ogni
componente principale, sia tutte le statistiche.
Notare che i grafici a dispersione prodotti sono meno facilmente interpretabili di quelli ottenuti tramite script:
infatti qui non è possibile scegliere i simboli dei punti né gli intervalli di valori sugli assi. Inoltre non è
possibile generare i grafici dei componenti degli autovettori per i primi tre autovalori. Per manipolare più
agevolmente questi grafici è possibile esportare le tabelle “Temp” e “Divscres” in un file Excel. Per compiere
questa operazione, selezionare la tabella nella finestra di Explorer, e dal menu del tasto destro scegliere
“Export”. Seguire la procedura guidata.
39
3.11.5. Programma SEI B
Corretti i dati, eseguiamo questo programma che produce i due grafici con la dispersione degli individui
rispetto ai primi tre PC, con colori e simboli diversi per ogni specie. Notiamo che c’è una leggera
segregazione delle specie rispetto ai tre assi. Questo dipende dalla forte somiglianza tra i caratteri, anche se
con la ANOVA, il test di Tukey e la MANOVA avevamo mostrato differenze significative. D’altra parte, il caso
in esame è costituito da specie sorelle e criptiche e non ci possiamo aspettare forti evidenze apprezzabili da
un’analisi di questo tipo.
/*****************************************************************
PROGRAM SEI B
Dopo aver cancellato anche dal file 'logcranio.txt' l’85° e 86° record, procediamo a un altro modello di
analisi multivariata: l’analisi discriminante e l’analisi della variate canoniche.
Il programma SETTE esegue l’analisi producendo:
1) Le distanze di Mahalanobis al quadrato tra i gruppi (qualora queste distanze venissero utilizzate per
modelli di analisi dei grappoli o altro sarebbe bene farne prima la radice quadrata).
2) La statistica di F associata a queste distanze e le probabilità.
3) L’ANOVA per ogni variabile.
4) La MANOVA e i test di significatività associati.
5) I valori di correlazione canonica di ciascun vettore (più si approssimano a 1, più sono dei buoni
descrittori del fenomeno).
6) Gli autovalori (vettori discriminanti o canonici) e la percentuale di varianza spiegata.
7) I valori dei centroidi (la media di ciascun gruppo) relativamente a ciascun vettore (le distanza
euclidee tra i centroidi corrispondono alle distanze di Mahalanobis).
Per questo programma e per il successivo (SETTE A) non è praticabile nel sistema SAS un’alternativa tramite
menu.
/**********************************************************************
PROGRAMMA SETTE
40
calcola le distanze di Mahalanobis (avvertenza: sono distanze quadratiche),
la statistica di F associata e la probabilità, la statistica per ogni variabile,
la MANOVA tra gruppi.
Inoltre, segnala i valori di correlazione canonica, gli autovalori e
la varianza spiegata da ogni vettore e la varianza cumulata.
***********************************************************************/
data discimina;
infile 'logcranio.txt';
input specie$ local$ sex$
LnTL LnNL LnFL LnBZW LnCW
LnMLOW LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH;
title 'analisi delle variate canoniche';
proc candisc anova distance; /* l'opzione DISTANCE calcole le distanze_2 */
class specie; /* di Mahalanobis e la statistica associata */
/* l'opzione ANOVA la anova per ogni variabila */
run;
/**********************************************************************
PROGRAMMA SETTE A
Questo programma costituisce un'estensione del PROGRAMMA SETTE. Viene
utilizzato un linguaggio interno al SAS e viene richiamata
la procedura IML che consente una programmazione utilizzando un
linguaggio simbolico matriciale.
Il programma:
1) Esegue nuovamente l'analisi discriminante ma l'istruzione NOPRIN fa si'
che non vengano stampati i risultati; questi (vettori, ecc) vendono salvati
nei SAS datafile "OCH" e "CANOUT".
2) La procedura IML esegue istruzioni per manipolare le matrici
3) viene prodotta la matrice delle distanze di Mahalanobis distorte
e la matrice delle distanze di Mahalanobis non distorte; viene prodotta una
matrice con i valori F e le probabilità (corrispondono al test T2 di Hotelling)
tra i centroidi.
3) vengono calcolate le medie (proc MEANS) dei valori degli individui
rispetto a ogni asse canonico e prodotto un grafico a dispersione
41
per i centroidi di ciascuna specie per i primi tre assi. Questi dati
vengono salvati sul file 'punteggi medie canoniche.txt'.
4) Si inizia una analisi discriminante (proc DISCRIM) che arricchisce i
risultati. I valori di ogni individuo sugli assi discriminanti vengono
salvati (anche nel file 'punteggi canonici.txt') e quindi posti
in grafico.
NOTA BENE: i segni #### indicano dove eventualmente dovete apportare semplici modifiche
per adattare questo programma ai vostri dati
***********************************************************************/
data discimina; /* come in PROGRAMMA SETTE */
infile 'logcranio.txt';
input specie$ local$ sex$
LnTL LnNL LnFL LnBZW LnCW
LnMLOW LnCBL LnBL LnIZL LnPL
LnPLL LnIML LnIFL LnUAL
LnFMW LnIFW LnCH;
title 'analisi delle variate canoniche';
proc candisc out=och outstat=canout noprint;
class specie;
data freq;set canout; if _type_='N'; keep LnTL specie;
data canmn;set canout;
if _type_='CANMEAN' ;
keep specie _NAME_ LnTL;
data temp;set freq;
i+1;
if i>1;
PROC IML ; /* INIRIA LA PROCEDURA IML */
reset nolog;
USE temp;
READ ALL INTO NSIZE[rowname=specie]; /* ##### cambiare con la vostra variabile */
NS=NSIZE[,1];
print ns[rowname=specie] ; /* ##### cambiare con la vostra variabile */
CONFCOE=.01; /* ##### coefficienti di confidenza */
FND=PROBIT(CONFCOE);
NUM= NROW(nsize); /* il numero di "SPECIE" */
NTOT=nsize[+,]; /* il numero totale di individui */
use canmn; /* utilizza le medie canoniche */
read all into xtemp;
NCMS=nrow(xtemp);
P=NCMS/NUM;
X=SHAPE(xtemp,num);
CONFLIM=J(NUM,NUM,0); /* queste sono tre matrici in cui */
FLAST=J(NUM,NUM,0); /* salva i risultati */
FDIST=J(NUM,NUM,1);
NUM1=NUM-1;
WORK=X*X`;
DIAG= VECDIAG(WORK); /* le prossime linee calcolano */
COLDIAG=DIAG* J({1},NUM); /* le distanze distorte e non distorte */
ROWDIAG= J(NUM,{1})*DIAG`;
DSQMAT=COLDIAG+ROWDIAG-{2}*WORK;
NTOTAL=NS[+,1]; /* il numero totale di individui */
PRINT NTOTAL;
DO I1=1 TO NUM1; /* loop sui valori delle distanze di Mahalanobis */
DO J1= I1+1 TO NUM;
N1=NS[I1,1];N2=NS[J1,1];M=P;
DSQ=DSQMAT[I1,J1];
UDSQ=(NTOTAL-NUM-p-1)*DSQ/(NTOTAL-NUM)-(N1+N2)*P/(N1*N2); /* distanze non distorte */
FLAST[I1,J1]=DSQ; /* le formule per correggere le distanze */
FLAST[J1,I1]=UDSQ;
F=N1*N2*(NTOTAL-NUM-P+1)*DSQ/(N1+N2)/(NTOTAL-NUM)/M; /* i valori di F */
FDIST[I1,J1]=F;
FDIST[J1,I1]=1-PROBF(F,P,NTOTAL-NUM-P+1); /* le probabilità per F */
N=N1+N2-M-1;
42
END;END;
/* I valori sopra la diagonale sono le distanze di Mahalanobis distorte */
print 'La matrice contiene le distanze di Mahalanobis distorte sopra la diagonale';
print ' e quelle non distorte sotto';
print flast[FORMAT=7.4 rowname=specie colname=specie];
print 'I valori sopra la diagonale sono i valori di F e sotto le probabilità';
print FDIST[FORMAT=7.4 rowname=specie colname=specie];
data mediecan; set ochmns; /* salva nel file 'punteggi medie canoniche.txt' */
file 'punteggi medie canoniche.txt'; /* i valoridei centroidi sui primi tre assi canonici */
put specie mn1 mn2 mn3; /* per programmi di grafica scientifica */
43
3.14. ENTERPRISE GUIDE
Enterprise guide costituisce un’interfaccia grafica con qui è possibile eseguire le analisi dei dati (non quelle
particolarmente complesse) tramite un sistema di menù a tendina che lo rendono molto simile a altri sotware
statistici. L’esecuzione delle analisi avviene in batch, ossia è necessario avere installato sul vostro PC il
sistema SAS in modo che le sue diverse routines possano venire richiamate e eseguite senza che voi ve ne
rendiate conto.
Enterprise è costituito da due moduli: uno e Enterprise guide, l’altro Enterprise guide administrator.
E’ necessario che configuriate semplicemente il vostro Enterprise guide administrator indicando che
l’esecuzione avviene con una macchina in modalità “local” (il SAS può anche essere utilizzano in rete,
installato su un server remoto).
Enterprise guide sia su SAS datafiles che avete salvato da una precedente sessione o importando
files in diverso formato.
3
1 2
1) La finestra contiene il progetto e i diversi elementi dei files e dell’analisi che, di volta in volta,
eseguite. Il progetto può essere nuovo o potete richiamare un progetto che avete creato in
precedenza. Il progetto contiene inizialmente un SAS datafile; in questo caso, è contenuto “uno”,
creato con la sessione SAS precedente, e “dati importati da cranio$”. Quest’ultimo file è stato
importato utilizzando il comando ‘strumenti’, ‘importa dati’.
2) La finestra contiene tutti i vostri dati e l’output delle analisi. Qui viene mostrato il file importato “dati
importati da cranio$” (il file di dati iniziale “cranio.txt”).
3) Finestra con le “librerie”, i “cubi” e la cartella dati “file” presenti sul vostro PC local, in questo caso
chiamato “topo2”. Potete richiamare tutti i files presenti in questi elementi.
4) La finestra vi elenca i processi che potete eseguire. Potete scegliere direttamente qui le analisi o i
grafici che volete eseguire o utilizzare il menù a tendina in alto, sotto la barra.
44
Eseguiamo ora qualche semplice analisi descrittiva, similmente a quanto abbiamo fatto in precedenza con il
sistema tradizionale tramite inserimento di comandi.
1) Selezionare ”statistiche di riepilogo“ in “processi per categoria” (la stessa scelta può essere fatta
utilizzando il menù a tendina. Si apre la finestra:
2) In cui definite A) le variabili dell’analisi (F5, un nome assegnato alla variabile ‘TL’, in modalità edit
potete cambiare a piacimento il nome delle vostre variabili), la variabile di classificazione (specie); B)
le statistiche descrittive di vostra scelta (media, deviazione standard, ecc); C) l’eventuale grafico (in
questo esempio scegliamo un “box and wisker”; D) risultati e E) eventuali titoli. Con “fine” eseguite il
programma. L’output compare nella finestra interna.
I risultati vi verranno mostrati in formato HTML nella finestra centrale. Potete effettuare una quantità
notevole di grafici e parte delle analisi condotte precedentemente con le routines, da PROGRAMMA UNO in
poi.
Notate che, dopo aver effettuato una qualsiasi analisi, nella finestra del progetto appare anche l’icona del
“LOG”. Questa contiene la routine di esecuzione. La potete salvare in un editor, importarla nell’editor del SAS
e modificarla ulteriormente per le vostre necessità.
45
4. Risorse in linea
Manuali ondine del SAS presso il CASPUR (tutta la documentazione con esempi; CONSIGLIATO)
http://www.caspur.it/risorse/softappl/doc/sas_docs/main.htm
Alcuni collegamenti utili con esempi e espedienti (trovati tramite un motore di ricerca. La documentazione in
linea con programmi di esempio è ricchissima):
Supporto tecnico
Come utenti SAS, potete in qualsiasi momento utilizzare il supporto tecnico per risolvere malfunzionamenti o
quesiti (evidentemente, non per le analisi!). Il supporto è ben organizzato e il personale è competente e
gentile.
tel. 02 574851
tel. 02 23950460
I manuali cartacei di SAS sono reperibili presso il responsabile dell’installazione per il Dipartimento BAU.
46
Appendice 1: output completo dell’analisi
______________________________________________________________________________________
PROGRAMMA UNO
_______________________________________________________________________________________
1 44.2 38.0 8.7 20.7 26.2 8.0 9.8 10.8 3.7 13.5
2 36.6 22.6 8.6 16.7 22.9 5.4 9.2 9.0 3.2 12.8
3 38.8 33.9 9.2 18.6 24.0 6.4 9.5 9.2 2.9 13.0
4 42.0 35.5 8.8 19.0 24.2 6.7 8.7 9.6 3.1 13.6
5 36.5 22.3 7.9 16.7 22.5 6.0 9.0 8.6 2.9 12.5
6 39.7 34.6 7.7 18.2 22.8 7.1 8.7 9.6 3.5 13.0
7 39.0 33.8 8.4 18.2 23.6 6.5 9.0 9.1 3.5 13.8
8 36.8 32.6 8.2 17.1 22.8 5.6 9.1 9.0 3.1 12.8
9 40.2 35.8 8.8 18.3 24.6 6.1 9.1 9.9 3.7 13.1
10 38.1 33.3 8.8 17.9 23.2 6.0 9.0 9.5 3.4 12.6
11 39.0 34.4 9.3 18.4 23.8 6.2 8.9 8.8 3.0 12.9
12 35.4 31.2 8.0 16.7 21.9 5.7 8.6 8.8 3.0 12.5
13 36.8 31.9 8.2 17.1 22.6 6.0 9.5 9.7 3.0 13.1
14 40.0 34.3 84.0 18.5 24.1 6.7 9.9 8.8 3.6 12.8
15 35.9 30.8 8.1 18.5 22.3 6.3 9.0 8.3 2.7 13.5
16 39.6 34.5 9.5 19.7 24.0 5.2 9.3 9.7 3.3 14.3
17 36.9 31.1 7.6 17.0 21.9 5.8 9.5 8.0 3.2 12.7
47
______________________________________________________________________________________
PROGRAMMA DUE
_______________________________________________________________________________________
„ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ†
‚ specie ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ barinens ‚ canicoll ‚ falcon ‚ llanos ‚ miranda ‚ oriente ‚ poliopus ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ N ‚ N ‚ N ‚ N ‚ N ‚ N ‚ N ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ 57.00‚ 17.00‚ 21.00‚ 24.00‚ 43.00‚ 18.00‚ 39.00‚
Šƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒŒ
„ƒƒƒƒƒƒƒƒƒƒƒƒ†
‚ specie ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ trinitat ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ N ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ 19.00‚
ŠƒƒƒƒƒƒƒƒƒƒƒƒŒ
„ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ†
‚ specie ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ barinens ‚ canicoll ‚ falcon ‚ llanos ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ local ‚ local ‚ local ‚ local ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ LA ‚ La_Nuli ‚ Las_Mat ‚ Rio_Cac ‚ La_Tril ‚ 406 ‚ Palmero ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ N ‚ N ‚ N ‚ N ‚ N ‚ N ‚ N ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ 16.00‚ 16.00‚ 25.00‚ 17.00‚ 21.00‚ 13.00‚ 11.00‚
Šƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒŒ
„ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ†
‚ specie ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ miranda ‚ oriente ‚ poliopus ‚ trinitat ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ local ‚ local ‚ local ‚ local ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ El_Limo ‚ Turiamo ‚ C_Agua ‚ Kasmera ‚ Guachar ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ N ‚ N ‚ N ‚ N ‚ N ‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚ 20.00‚ 23.00‚ 18.00‚ 39.00‚ 19.00‚
Šƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒŒ
48
______________________________________________________________________________________
PROGRAMMA TRE
_______________________________________________________________________________________
49
______________________________________________________________________________________
PROGRAMMA QUATTRO
_______________________________________________________________________________________
La procedura UNIVARIATE
Variabile: TL
Momenti
Posizione Variabilità
Test di normalità
Quantili (Definizione 5)
Quantile Stima
Variabile: TL
Quantili (Definizione 5)
Quantile Stima
75% Q3 58.7
50% Mediana 56.5
25% Q1 53.7
10% 51.2
5% 50.0
1% 49.3
0% Min 49.3
Osservazioni estreme
---Inferiori--- ---Superiori---
49.3 48 60.8 24
49.4 33 62.2 37
50.0 32 62.5 25
50.4 43 63.2 2
51.0 53 63.3 8
50
Stem Foglia # Boxplot
63 23 2 |
62 25 2 |
61 |
60 0678 4 |
59 15577 5 |
58 01246678 8 +-----+
57 899 3 | |
56 003555699 9 *--+--*
55 1277 4 | |
54 0367 4 | |
53 011478 6 +-----+
52 245 3 |
51 029 3 |
50 04 2 |
49 34 2 |
----+----+----+----+
Variabile: TL
Variabile: CH
Momenti
Posizione Variabilità
51
Test di normalità
Quantili (Definizione 5)
Quantile Stima
Variabile: CH
Quantili (Definizione 5)
Quantile Stima
75% Q3 14.3
50% Mediana 13.9
25% Q1 13.5
10% 13.3
5% 13.1
1% 12.9
0% Min 12.9
Osservazioni estreme
---Inferiori--- ---Superiori---
12.9 41 14.8 25
12.9 40 14.8 31
13.1 33 15.0 1
13.1 16 15.0 26
13.2 39 15.3 49
La procedura UNIVARIATE
Variabile: CH
52
Variabile: CH
53
______________________________________________________________________________________
PROGRAMMA CINQUE
_______________________________________________________________________________________
Oss spe loc cat sex specie local LnTL LnNL LnFL LnBZW LnCW LnMLOW LnCBL
1 7 507 179 1 barinens LA 4.05872 3.09104 2.85071 3.31782 2.60269 3.11352 3.85862
2 7 507 182 1 barinens LA 4.14630 3.20275 2.94969 3.34990 2.60269 3.10906 3.97968
3 7 507 186 1 barinens LA 4.07073 3.06339 2.81541 3.33577 2.54945 3.14415 3.89589
4 7 507 187 1 barinens LA 4.09434 3.11795 2.91777 3.34990 2.54160 3.14415 3.93183
5 7 507 188 1 barinens LA 4.07923 3.10906 2.86220 3.37417 2.51770 3.15274 3.92790
6 7 507 190 1 barinens LA 4.06044 3.03495 2.91235 3.29584 2.45101 3.07269 3.88362
7 7 507 193 1 barinens LA 4.08598 3.08649 2.86790 3.29584 2.47654 3.13549 3.89589
8 7 507 196 1 barinens LA 4.14789 3.23868 2.93916 3.35690 2.61007 3.19048 3.98155
9 7 507 197 1 barinens LA 4.03601 3.02529 2.88480 3.29953 2.47654 3.10009 3.87120
10 7 507 178 0 barinens LA 4.02535 2.97041 2.86220 3.28091 2.50960 3.10906 3.83298
11 7 507 180 0 barinens LA 3.97781 2.97553 2.85071 3.26576 2.45101 3.03495 3.82428
12 7 507 181 0 barinens LA 4.08933 3.04452 2.93386 3.36730 2.48491 3.15700 3.90801
13 7 507 183 0 barinens LA 4.08598 3.10459 2.94444 3.28466 2.50144 3.06339 3.91999
14 7 507 189 0 barinens LA 4.10594 3.15274 2.90142 3.34990 2.52573 3.09558 3.93964
15 7 507 202 0 barinens LA 4.07073 3.06339 2.85647 3.28840 2.53370 3.07269 3.88362
16 7 507 203 0 barinens LA 4.01096 3.00072 2.85071 3.23868 2.40695 3.05871 3.82864
17 12 408 15352 0 barinens La_Nuli 3.98341 2.99072 2.84491 3.28466 2.49321 3.07731 3.81331
18 12 408 15358 1 barinens La_Nuli 3.98898 2.90690 2.79728 3.25037 2.49321 3.10009 3.80888
19 12 408 15351 0 barinens La_Nuli 4.02535 3.04452 2.85647 3.28840 2.45101 3.05400 3.87743
20 12 408 15350 1 barinens La_Nuli 3.96081 2.88480 2.82731 3.25810 2.44235 3.05400 3.80221
21 12 408 15349 1 barinens La_Nuli 4.03424 3.05871 2.85071 3.26194 2.38876 3.05871 3.85015
22 12 408 15348 0 barinens La_Nuli 4.04130 3.01062 2.82731 3.30689 2.43361 3.13114 3.85015
Oss LnBL LnIZL LnPL LnPLL LnIML LnIFL LnUAL LnFMW LnIFW LnCH
1 3.67630 3.57235 2.23001 2.99573 3.21888 1.94591 2.28238 2.29253 1.09861 2.70805
2 3.81551 3.67630 2.29253 3.10459 3.30689 2.01490 2.30259 2.37955 1.22378 2.60269
3 3.72086 3.58074 2.20827 2.96527 3.19867 1.84055 2.23001 2.28238 1.22378 2.68102
4 3.75887 3.62167 2.27213 3.03495 3.28091 1.96009 2.28238 2.40695 1.25276 2.68785
5 3.74005 3.60550 2.17475 3.00072 3.23080 1.97408 2.26176 2.42480 1.36098 2.68785
6 3.72328 3.57515 2.16332 2.99072 3.23080 1.93152 2.25129 2.33214 0.95551 2.58776
7 3.73767 3.58352 2.18605 3.00072 3.23475 1.94591 2.26176 2.30259 1.06471 2.64617
8 3.80666 3.66356 2.20827 3.08191 3.28840 2.04122 2.25129 2.36085 1.22378 2.60269
9 3.69387 3.56671 2.10413 2.93916 3.21084 1.94591 2.24071 2.23001 1.25276 2.63906
10 3.66099 3.54385 2.07944 2.91777 3.18635 1.90211 2.21920 2.21920 0.95551 2.65324
11 3.63495 3.52342 2.12823 2.93386 3.17388 1.90211 2.19722 2.27213 1.13140 2.58776
12 3.72328 3.59457 2.21920 3.00072 3.23868 1.88707 2.27213 2.42480 1.28093 2.61007
13 3.74242 3.61899 2.21920 2.99573 3.23475 1.88707 2.34181 2.39790 1.19392 2.58776
14 3.77506 3.64545 2.10413 3.05400 3.28091 2.10413 2.29253 2.48491 1.38629 2.58776
15 3.72086 3.59457 2.24071 3.02042 3.23475 1.91692 2.28238 2.37024 1.28093 2.60269
16 3.64284 3.54096 2.23001 2.93916 3.17805 1.82455 2.28238 2.23001 0.95551 2.57261
17 3.65325 3.51750 2.23001 2.91235 3.13549 1.80829 2.21920 2.15176 0.95551 2.64617
18 3.63495 3.50856 2.24071 2.92316 3.16969 1.82455 2.27213 2.11626 0.99325 2.66026
19 3.71113 3.57795 2.18605 2.97553 3.19458 1.93152 2.26176 2.16332 0.99325 2.60269
20 3.63759 3.50255 2.14007 2.90690 3.15700 1.87180 2.28238 2.16332 1.09861 2.60269
21 3.72328 3.55249 2.10413 2.96011 3.19458 1.97408 2.21920 2.18605 0.99325 2.63189
22 3.69138 3.54096 2.20827 2.97553 3.19458 1.94591 2.23001 2.30259 1.19392 2.62467
Variabile: LnTL
Momenti
Posizione Variabilità
54
Test di locazione: Mu0=0
Test di normalità
Quantili (Definizione 5)
Quantile Stima
Variabile: LnTL
Quantili (Definizione 5)
Quantile Stima
75% Q3 4.07244
50% Mediana 4.03424
25% Q1 3.98341
10% 3.93574
5% 3.91202
1% 3.89792
0% Min 3.89792
Osservazioni estreme
----Inferiori---- ----Superiori----
3.89792 48 4.10759 24
3.89995 33 4.13035 37
3.91202 32 4.13517 25
3.91999 43 4.14630 2
3.93183 53 4.14789 8
La procedura UNIVARIATE
Variabile: LnTL
55
Variabile: LnTL
Variabile: LnCH
Momenti
Posizione Variabilità
Test di normalità
Quantili (Definizione 5)
Quantile Stima
56
Variabile: LnCH
Quantili (Definizione 5)
Quantile Stima
75% Q3 2.66026
50% Mediana 2.63189
25% Q1 2.60269
10% 2.58776
5% 2.57261
1% 2.55723
0% Min 2.55723
Osservazioni estreme
----Inferiori---- ----Superiori----
2.55723 41 2.69463 25
2.55723 40 2.69463 31
2.57261 33 2.70805 1
2.57261 16 2.70805 26
2.58022 39 2.72785 49
Variabile: LnCH
57
_______________________________________________________________________________________
PROGRAMMA CINQUE A
_______________________________________________________________________________________
………………..
224 model LnTL= sex; by specie; /* esegue l'analisi tra i due sessi */
225 /* separatamente tra le due specie */
226 run;
………………
La finestra dell’output:
Media Valore
Origine DF Anova SS quadratica F Pr > F
58
R-Square Coeff Var Root MSE LnTL Mean
0.000220 1.324687 0.052532 3.965637
Media Valore
Origine DF Anova SS quadratica F Pr > F
sex 1 9.1293491E-6 9.1293491E-6 0.00 0.9549
Media Valore
Origine DF Anova SS quadratica F Pr > F
Media Valore
Origine DF Anova SS quadratica F Pr > F
sex 1 0.02297850 0.02297850 8.60 0.0077
Number of observations 43
59
R-Square Coeff Var Root MSE LnTL Mean
0.142782 1.674918 0.066786 3.987440
Media Valore
Origine DF Anova SS quadratica F Pr > F
sex 1 0.03046085 0.03046085 6.83 0.0125
Number of observations 18
Media Valore
Origine DF Anova SS quadratica F Pr > F
sex 1 0.02653291 0.02653291 6.60 0.0206
Number of observations 39
Media Valore
Origine DF Anova SS quadratica F Pr > F
sex 1 0.00277995 0.00277995 1.13 0.2956
60
Analisi della Varianza per sessi 59
Number of observations 19
Media Valore
Origine DF Anova SS quadratica F Pr > F
61
_______________________________________________________________________________________
PROGRAMMA CINQUE B
_______________________________________________________________________________________
Number of observations 57
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.00456532 0.00456532 1.15 0.2890
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.00456532 0.00456532 1.15 0.2890
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 9.1293491E-6 9.1293491E-6 0.00 0.9549
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 9.1293491E-6 9.1293491E-6 0.00 0.9549
62
Analisi della Varianza per sessi 65
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.01914162 0.01914162 6.66 0.0184
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.01914162 0.01914162 6.66 0.0184
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.02297850 0.02297850 8.60 0.0077
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.02297850 0.02297850 8.60 0.0077
63
Analisi della Varianza per sessi 69
Number of observations 43
The GLM Procedure
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.03046085 0.03046085 6.83 0.0125
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.03046085 0.03046085 6.83 0.0125
Number of observations 18
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.02653291 0.02653291 6.60 0.0206
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.02653291 0.02653291 6.60 0.0206
64
Analisi della Varianza per sessi 73
Number of observations 39
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.00277995 0.00277995 1.13 0.2956
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.00277995 0.00277995 1.13 0.2956
Number of observations 19
Media Valore
Origine DF Type I SS quadratica F Pr > F
sex 1 0.00957717 0.00957717 5.09 0.0376
Media Valore
Origine DF Type III SS quadratica F Pr > F
sex 1 0.00957717 0.00957717 5.09 0.0376
65
_______________________________________________________________________________________
PROGRAMMA CINQUE B 1
_______________________________________________________________________________________
Media Valore
Origine DF Type I SS quadratica F Pr > F
specie 7 0.11807435 0.01686776 4.51 <.0001
Media Valore
Origine DF Type III SS quadratica F Pr > F
specie 7 0.11807435 0.01686776 4.51 <.0001
Alpha 0.05
Error Degrees of Freedom 230
Error Mean Square 0.003742
Critical Value of Studentized Range 4.32616
Difference
specie Between Simultaneous 95%
Comparison Means Confidence Limits
66
poliopus - miranda 0.00084 -0.04054 0.04222
poliopus - falcon 0.01562 -0.03503 0.06627
poliopus - trinitat 0.01900 -0.03335 0.07135
poliopus - canicoll 0.02265 -0.03174 0.07703
miranda - barinens -0.04149 -0.07929 -0.00369 ***
miranda - llanos -0.02921 -0.07689 0.01847
miranda - oriente -0.01124 -0.06377 0.04129
miranda - poliopus -0.00084 -0.04222 0.04054
miranda - falcon 0.01478 -0.03504 0.06459
miranda - trinitat 0.01816 -0.03339 0.06970
miranda - canicoll 0.02180 -0.03181 0.07541
falcon - barinens -0.05627 -0.10403 -0.00850 ***
falcon - llanos -0.04399 -0.09990 0.01193
falcon - oriente -0.02602 -0.08612 0.03409
falcon - poliopus -0.01562 -0.06627 0.03503
falcon - miranda -0.01478 -0.06459 0.03504
falcon - trinitat 0.00338 -0.05587 0.06263
falcon - canicoll 0.00703 -0.05402 0.06808
trinitat - barinens -0.05964 -0.10921 -0.01007 ***
trinitat - llanos -0.04737 -0.10483 0.01010
trinitat - oriente -0.02940 -0.09094 0.03215
trinitat - poliopus -0.01900 -0.07135 0.03335
trinitat - miranda -0.01816 -0.06970 0.03339
trinitat - falcon -0.00338 -0.06263 0.05587
trinitat - canicoll 0.00365 -0.05882 0.06612
canicoll - barinens -0.06329 -0.11500 -0.01158 ***
canicoll - llanos -0.05101 -0.11033 0.00830
canicoll - oriente -0.03304 -0.09633 0.03024
canicoll - poliopus -0.02265 -0.07703 0.03174
canicoll - miranda -0.02180 -0.07541 0.03181
canicoll - falcon -0.00703 -0.06808 0.05402
canicoll - trinitat -0.00365 -0.06612 0.05882
67
_______________________________________________________________________________________
PROGRAMMA CINQUE D
_______________________________________________________________________________________
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall sex Effect
H = Type III SSCP Matrix for sex
E = Error SSCP Matrix
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall specie Effect
H = Type III SSCP Matrix for specie
E = Error SSCP Matrix
Valore
Statistica Valore F Num DF Den DF Pr > F
68
The GLM Procedure
Multivariate Analysis of Variance
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall specie*sex Effect
H = Type III SSCP Matrix for specie*sex
E = Error SSCP Matrix
Valore
Statistica Valore F Num DF Den DF Pr > F
69
_______________________________________________________________________________________
PROGRAMMA SEI
_______________________________________________________________________________________
Observations 238
Variables 17
Simple Statistics
Covariance Matrix
……………… OMESSA LA RESTANTE PARTE DELLA MATRICE DI COVARIANZA PERCHE’ NON INTERESSANTE
Eigenvectors
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 Prin8 Prin9
LnTL 0.232816 0.004905 0.119860 -.093231 0.116443 0.005886 -.077217 -.100298 0.129843
LnNL 0.313240 0.030385 0.179898 -.034994 0.095054 -.311573 -.106870 -.208531 0.456948
LnFL 0.206746 -.019975 -.012137 -.212139 0.376398 0.580984 -.256576 -.173457 -.459451
LnBZW 0.173775 0.012018 0.085365 0.008728 0.013599 0.099918 -.073605 0.075834 0.190854
LnCW 0.152194 0.028276 0.045077 0.101857 0.116786 0.333436 0.009560 0.703164 0.292932
LnMLOW 0.147368 0.008130 0.062732 0.010887 -.047803 0.307484 -.072532 0.196306 0.294650
LnCBL 0.253590 0.000148 0.080595 -.034611 0.047721 -.004836 -.053537 -.085484 0.039784
LnBL 0.266598 -.001122 0.071961 -.043081 0.131254 -.038431 -.049051 -.088842 0.009319
LnIZL 0.271569 0.020262 0.101683 -.042745 0.125718 -.079670 -.078065 -.258049 0.176990
LnPL 0.186518 -.092993 0.484214 -.119785 0.013359 -.344474 0.198912 0.429962 -.403135
LnPLL 0.299754 0.003205 0.102637 -.160937 0.012927 -.186153 0.044148 0.054061 -.289887
LnIML 0.242805 -.034261 0.021392 -.056892 0.078059 0.074447 0.186726 -.080226 0.041703
LnIFL 0.388593 0.017369 -.740443 -.353678 -.246069 -.178439 -.021144 0.200883 -.047079
70
LnUAL 0.162523 -.096173 -.043168 0.028951 -.040037 0.265599 0.878087 -.208285 0.058479
LnFMW 0.312764 -.006408 0.190858 0.346672 -.768072 0.219002 -.185717 -.127869 -.167235
LnIFW 0.248770 0.063491 -.286098 0.797931 0.353792 -.179130 0.009041 0.039038 -.189333
LnCH 0.000438 0.986801 0.063265 -.057815 -.024839 0.022314 0.110503 -.003690 -.058768
71
_______________________________________________________________________________________
PROGRAMMA SEI A
_______________________________________________________________________________________
Observations 238
Variables 17
Simple Statistics
72
_______________________________________________________________________________________
PROGRAMMA SEI B
_______________________________________________________________________________________
73
_______________________________________________________________________________________
PROGRAMMA SETTE
_______________________________________________________________________________________
2 _ _ -1 _ _
D (i|j) = (X - X )' COV (X - X )
i j i j
From
specie barinens canicoll falcon llanos miranda oriente poliopus trinitat
From
specie barinens canicoll falcon llanos miranda oriente poliopus trinitat
From
specie barinens canicoll falcon llanos miranda oriente poliopus trinitat
74
Univariate Test Statistics
Average R-Square
Unweighted 0.158416
Weighted by Variance 0.1630089
Valore
Statistica Valore F Num DF Den DF Pr > F
Autovalori di Inv(E)*H
= CanRsq/(1-CanRsq)
75
Rapporto di Valore F
verosimiglianza approssimato Num DF Den DF Pr > F
……………… OMESSA LA RESTANTE PARTE DELLA MATRICE DI COVARIANZA PERCHE’ NON INTERESSANTE
……………… OMESSA LA RESTANTE PARTE DELLA MATRICE DI COVARIANZA PERCHE’ NON INTERESSANTE
……………… OMESSA LA RESTANTE PARTE DELLA MATRICE DI COVARIANZA PERCHE’ NON INTERESSANTE
76
Raw Canonical Coefficients
……………… OMESSA LA RESTANTE PARTE DELLA MATRICE DI COVARIANZA PERCHE’ NON INTERESSANTE
77
_______________________________________________________________________________________
PROGRAMMA SETTE A
_______________________________________________________________________________________
In questo output vengono mantenuti solo gli elementi nuovi dei risultati rispetto all’output del PROGRAMMA SETTE
NS
barinens 57
canicoll 17
falcon 21
llanos 24
miranda 43
oriente 18
poliopus 39
trinitat 19
NTOTAL
238
78
The DISCRIM Procedure
Classification Summary for Calibration Data: WORK.DISCIMINA
Resubstitution Summary using Linear Discriminant Function
2 _ -1 _
D (X) = (X-X )' COV (X-X )
j j j
2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k
From
specie barinens canicoll falcon llanos miranda oriente poliopus trinitat Total
barinens 43 2 0 5 1 3 1 2 57
75.44 3.51 0.00 8.77 1.75 5.26 1.75 3.51 100.00
canicoll 0 15 0 1 1 0 0 0 17
0.00 88.24 0.00 5.88 5.88 0.00 0.00 0.00 100.00
falcon 1 1 11 2 4 1 1 0 21
4.76 4.76 52.38 9.52 19.05 4.76 4.76 0.00 100.00
llanos 1 0 3 16 3 1 0 0 24
4.17 0.00 12.50 66.67 12.50 4.17 0.00 0.00 100.00
miranda 4 1 3 7 16 6 4 2 43
9.30 2.33 6.98 16.28 37.21 13.95 9.30 4.65 100.00
oriente 1 1 0 1 2 12 1 0 18
5.56 5.56 0.00 5.56 11.11 66.67 5.56 0.00 100.00
poliopus 1 0 2 1 4 1 30 0 39
2.56 0.00 5.13 2.56 10.26 2.56 76.92 0.00 100.00
trinitat 0 0 0 0 0 1 0 18 19
0.00 0.00 0.00 0.00 0.00 5.26 0.00 94.74 100.00
Total 51 20 19 33 31 25 37 22 238
21.43 8.40 7.98 13.87 13.03 10.50 15.55 9.24 100.00
Priors 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125
Rate 0.2456 0.1176 0.4762 0.3333 0.6279 0.3333 0.2308 0.0526 0.3022
Priors 0.1250 0.1250 0.1250 0.1250 0.1250 0.1250 0.1250 0.1250
79
80