Sei sulla pagina 1di 16

Nota sullAnalisi .....(2a ed.

Confronto fra due o distribuzioni di frequenza

pi

I problemi statistici considerati in questo capitolo possono riguardare l'analisi di variabili di risposta sia qualitative, sia quantitative discrete oppure continue ma con dati riuniti in classi di frequenza. Essi possono essere elencati nel modo seguente in funzione della loro ipotesi nulla da verificare: 1) omogeneit di due o pi distribuzioni di frequenza 2) uguaglianza di due o pi proporzioni 3) indipendenza stocastica di due criteri di classificazione 4) bont dell'adattamento di una distribuzione di frequenza osservata ad una determinata distribuzione teorica. In questa Nota, il termine "distribuzione di frequenza" si riferisce in particolare al caso in cui la variabile di risposta abbia un numero di varianti o livelli almeno pari a 3, mentre il termine "proporzione" utilizzato nel caso che tali varianti siano solo 2 (il che equivale ad una distribuzione di frequenza per ciascun campione composta da 2 sole classi). Perci, il secondo problema statistico costituisce in effetti un importante caso particolare del primo problema. In entrambi i problemi, si mettono a confronto per un determinato carattere due o pi campioni rappresentativi di altrettante popolazioni; nel terzo e nel quarto problema le osservazioni sono invece relative ad un campione estratto da una sola popolazione. In ogni caso, i test statistici considerati richiedono come condizione di applicazione che i campioni considerati siano casuali e indipendenti (cio non dipendenti dal/dai campioni precedenti). Il 2 di Pearson il test statistico di validit generale per questi problemi. Attraverso di esso si confronta la osservata distribuzione di frequenze a due dimensioni (nei primi tre dei problemi anzidetti) o ad una dimensione (nel quarto problema) con una distribuzione teorica od attesa in base all'ipotesi nulla considerata. Tale test, approssimato, affidabile a condizione che nessuna frequenza attesa per ciascuna classe sia inferiore al valore 5; si pu ammettere per una frequenza attesa compresa tra 1 e 5 se le classi della distribuzione sono almeno 6, e 2 di tali frequenze se le classi sono almeno 11. Il SAS comunica come avviso nel file .LST la presenza e la percentuale sul totale delle frequenze attese con valore inferiore a 5. Limitatamente alla risoluzione dei primi tre problemi statistici sopra elencati, l'esecuzione di questo test viene richiesta nell'ambito della procedura FREQ attraverso l'opzione CHISQ come esemplificato nei paragrafi 2.1 e 2.3. Le modalit di esecuzione del test nella risoluzione del quarto problema sono invece illustrate in 2.5.

Confronto fra due distribuzioni di frequenza

Nota sullAnalisi .....(2a ed.)

Il test "esatto" di Fisher calcola invece esattamente la distribuzione definita dall'ipotesi nulla entro la quale vengono distinte le regioni di accettazione e di rifiuto, consentendo cos una soluzione non approssimata dei primi tre problemi su elencati. Essendo per dispendioso per il Sistema dato l'elevato numero di calcoli richiesto, se ne consiglia l'adozione solo nei casi in cui il test 2 fosse inaffidabile per quanto detto e nei problemi implicanti tavole di frequenza a doppia entrata con un numero limitato di classi. Il test di Fisher si richiede, sempre nell'ambito della PROC FREQ, con l'opzione EXACT. Nel solo caso di tavole di frequenza 2 x 2 il SAS esegue d'ufficio il test di Fisher anche nell'ambito dell'opzione CHISQ. L'adozione del test di Fisher esemplificata in 2.2 e 2.4. Considerando i primi due problemi statistici sopra elencati, pu succedere che pi campioni vengano prelevati per ciascuna popolazione statistica (o trattamento). Se la variabile di risposta di tipo binario, il dato per campione pu essere espresso sotto forma di percentuale ed i trattamenti essere messi a confronto tramite analisi della varianza, nella quale i diversi campioni per trattamento rappresentano altrettante unit sperimentali (o repliche) completamente randomizzate od eventualmente organizzate in blocchi a seconda delle modalit del campionamento stesso. Un esempio di tale caso considerato in 5.1. Se invece la variabile di risposta ha pi di due varianti, si confrontano le distribuzioni di frequenza dei trattamenti che si ottengono cumulando i dati dei campioni a disposizione per trattamento; tuttavia, buona regola far precedere tale operazione da un controllo dell'errore sperimentale verificando l'omogeneit delle distribuzioni di frequenza dei campioni relativi ad uno stesso trattamento. Pu anche succedere che il campionamento (ovvero l'esperimento) venga ripetuto nel tempo o nello spazio e ci si chieda se i campioni disponibili per ciascun trattamento siano omogenei, ovvero se non si verifichi interazione fra trattamento ed ambiente, e le risposte dei trattamenti siano quindi confrontabili attraverso un solo test eseguito sull'insieme dei dati disponibili. Ci ammissibile se non pu essere respinta l'ipotesi nulla di omogeneit delle distribuzioni di frequenza o di uguaglianza delle proporzioni dei diversi campioni appartenenti ad uno stesso trattamento. L'esempio in 2.3 si riferisce a tale problematica. Il quarto problema statistico, che comprende in effetti anche il caso del test di conformit di una proporzione osservata ad una teorica, non purtroppo risolvibile attraverso alcuna specifica procedura dei moduli del SAS qui considerati. E' necessaria la redazione di un programma le cui istruzioni sono illustrate nell' esempio in 2.5; le frequenze assolute attese per la distribuzione teorica considerata dovranno essere state calcolate dall'utente a priori, dopo avere stimato i parametri di tale distribuzione se essa non completamente definita. Nel solo caso della distribuzione normale il SAS consente per di eseguire, nell'ambito della procedura UNIVARIATE, il test di Shapiro-Wilks per i campioni non superiori ai 2000 individui, ed il test di Kolmogorov per i campioni di effettivi superiori. Un esempio del primo test sar dato in 3.1 . Lapplicazione di modelli lineari a dati categorici di tipo numerico, eseguibile con la PROC CATMOD, non viene esemplificato nella Nota.

Confronto fra due distribuzioni di frequenza

Nota sullAnalisi .....(2a ed.)

2.1 Omogeneit di due o pi distribuzioni di frequenza


I dati si riferiscono ad un esperimento su erba medica. Nell'ambito della variet Lodi sono stati selezionati due gruppi di individui presentanti rispettivamente in misura positiva (gruppo "plus") e negativa (gruppo "minus") le desiderate caratteristiche di elevato sviluppo radicale, elevato numero di tubercoli ed elevato vigore. Tali due gruppi sono stati poi messi a confronto per evidenziare eventuali differenze nella forma dei tubercoli radicali, carattere considerato nelle sue tre varianti di tonda, cilindrica e ramificata. La distribuzione di frequenza per questo carattere legata alla complessit dell'organizzazione dei tubercoli, che minima nel caso della forma tonda e massima nella forma ramificata. PROGRAMMA SAS I dati sono inseriti direttamente nello step di DATA del programma, preceduti dall'istruzione CARDS. L'istruzione INPUT presenta le successive variabili in un ordine scelto a piacere, che nel nostro caso : gruppo di appartenenza, forma dei tubercoli ed infine la variabile "nindiv" indicante il numero di individui appartenenti al gruppo e presentanti la forma dei tubercoli indicati dalle variabili precedenti. Il segno di dollaro che segue le prime due variabili indica la loro natura alphanumerica. L'analisi viene eseguita nell'ambito della procedura FREQ. Nell'istruzione TABLES si riportano insieme la variabile categorica "gruppo" e la variabile "forma" che oggetto di analisi. Nell'ambito di questa istruzione, l'opzione CHISQ richiede l'esecuzione del test 2 di Pearson. L'opzione EXPECTED richiede invece la stampa delle frequenze attese per classe, mentre l'opzione NOCOL elimina dalla tabella di output i valori delle percentuali degli individui compresi in ciascuna classe rispetto al totale per colonna, di scarsa importanza in casi del genere. La variabile indicata nell'istruzione WEIGHT, "nindiv", indica poi il peso da assegnare a ciascuna osservazione appartenente ad un certo gruppo ed alla variante del carattere la cui analisi richiesta in TABLES. Tale istruzione e la relativa variabile sarebbero assenti nel caso che ciascuna riga di dati si riferisse ad un solo individuo. Infine, l'istruzione facoltativa TITLE richiede che la stringa di caratteri racchiusa tra gli apici compaia come titolo in ciascuna pagina dell'output. Con TITLE2, un'altra stringa si estende sulla seconda riga. L'ordine delle istruzioni nelle procedure di analisi facoltativo. L'istruzione RUN chiude il programma SAS.
* * 2.1 OMOGENEITA' DI DUE O PIU' DISTRIBUZIONI DI FREQUENZA * C. SCOTTI e M. MOLINARI (NON PUBBL.) *; DATA esempio; INPUT gruppo $ forma $ nindiv; CARDS; minus tonda 6 minus cilind 74 minus ramif 22 plus tonda 16 plus cilind 245 plus ramif 226 ; PROC FREQ;

Confronto fra due distribuzioni di frequenza

Nota sullAnalisi .....(2a ed.)

TITLE '2.1 omogeneit di due o pi distribuzioni'; TITLE2 'di frequenza'; TABLES gruppo*forma / CHISQ EXPECTED NOCOL; WEIGHT nindiv; RUN;

OUTPUT SAS L'output riporta nella tabella a doppia entrata per ciascuna classe le frequenze assolute osservate (Frequency) ed attese (Expected), le frequenze relative (Percent) ed i valori espressi in percento delle due distribuzioni di frequenza messe a confronto (Row Pct), insieme ai totali marginali espressi anch'essi sia in valori assoluti che relativi. I valori delle frequenze attese ci permettono di verificare che sotto questo aspetto le condizioni per l'analisi richiesta risultano soddisfatte. Il valore del 2 talmente elevato da poter respingere l'ipotesi nulla di omogeneit delle due distribuzioni osservate con un livello di probabilit di commettere un errore P 0.001 La tendenza che si osserva per i tubercoli radicali del gruppo "plus" ad avere una forma, quella ramificata, indice di una organizzazione pi complessa, risulta quindi altamente significativa.
2.1 omogeneit di due o pi distribuzioni di frequenza TABLE OF GRUPPO BY FORMA GRUPPO FORMA

Frequency| Expected | Percent | Row Pct |cilind |ramif |tonda | Total ---------+--------+--------+--------+ minus | 74 | 22 | 6 | 102 | 55.243 | 42.947 | 3.8098 | | 12.56 | 3.74 | 1.02 | 17.32 | 72.55 | 21.57 | 5.88 | ---------+--------+--------+--------+ plus | 245 | 226 | 16 | 487 | 263.76 | 205.05 | 18.19 | | 41.60 | 38.37 | 2.72 | 82.68 | 50.31 | 46.41 | 3.29 | ---------+--------+--------+--------+ Total 319 248 22 589 54.16 42.11 3.74 100.00 STATISTICS FOR TABLE OF GRUPPO BY FORMA Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 21.582 0.000 Likelihood Ratio Chi-Square 2 22.994 0.000 Mantel-Haenszel Chi-Square 1 10.006 0.002 Phi Coefficient 0.191 Contingency Coefficient 0.188 Cramer's V 0.191 Sample Size = 589

Confronto fra due distribuzioni di frequenza

10

Nota sullAnalisi .....(2a ed.)

2.2 Uguaglianza di due o pi proporzioni


Sei popolazioni di trifoglio violetto appartenenti tutte all'ecotipo "Bolognino" sono state confrontate per evidenziare, fra i vari caratteri morfologici distintivi, eventuali differenze nella percentuale di piante presentanti marche fogliari. Tale carattere stato rilevato su un campione di piante per popolazione compreso fra i dieci e i dodici individui completamente randomizzati. PROGRAMMA SAS Dopo l'istruzione INPUT, quella facoltativa LABEL associa la stringa di caratteri racchiusa tra gli apici al nome della variabile alla quale si riferisce; la stampa di tale stringa nell'output, richiesta come opzione, ha lo scopo di rendere pi comprensibile la variabile stessa. Nell'ambito della PROC FREQ, l'opzione EXACT richiede l'esecuzione del test esatto di Fisher, poich il numero di frequenze attese per classe con un valore inferiore a 5 troppo elevato per permettere l'applicazione del test di Pearson. Le istruzioni TABLES e WEIGHT sono utilizzate secondo modalit analoghe a quelle dell'esempio precedente; l'istruzione LABEL richiede la stampa delle stringhe di caratteri anzidette.
* * 2.2 UGUAGLIANZA DI DUE O PIU' PROPORZIONI * P. ANNICCHIARICO (NON PUBBL.) *; DATA esempio; INPUT popol marche $ nindiv; LABEL popol='popolazioni' marche='marche fogliari'; CARDS; 1 no 10 1 si 1 2 no 7 2 si 5 3 no 8 3 si 3 4 no 10 4 si 1 5 no 9 5 si 2 6 no 5 6 si 5 ; PROC FREQ; TITLE '2.2 uguaglianza di due o pi proporzioni'; TABLES popol*marche / EXACT NOCOL; WEIGHT nindiv; LABEL; RUN;

OUTPUT SAS Il test di Fisher indica l'assenza di differenze significative tra le popolazioni per il carattere considerato.
Confronto fra due distribuzioni di frequenza 11

Nota sullAnalisi .....(2a ed.)

L'avviso in fondo all'output ci conferma che ci troviamo al di fuori delle condizioni di applicazione per il test di Pearson.
2.2 Uguaglianza di due o pi proporzioni TABLE OF POPOL BY MARCHE POPOL(popolazioni) MARCHE(marche fogliari) Frequency| Percent | Row Pct |no |si | Total ---------+--------+--------+ 1 | 10 | 1 | 11 | 15.15 | 1.52 | 16.67 | 90.91 | 9.09 | ---------+--------+--------+ 2 | 7 | 5 | 12 | 10.61 | 7.58 | 18.18 | 58.33 | 41.67 | ---------+--------+--------+ 3 | 8 | 3 | 11 | 12.12 | 4.55 | 16.67 | 72.73 | 27.27 | ---------+--------+--------+ 4 | 10 | 1 | 11 | 15.15 | 1.52 | 16.67 | 90.91 | 9.09 | ---------+--------+--------+ 5 | 9 | 2 | 11 | 13.64 | 3.03 | 16.67 | 81.82 | 18.18 | ---------+--------+--------+ 6 | 5 | 5 | 10 | 7.58 | 7.58 | 15.15 | 50.00 | 50.00 | ---------+--------+--------+ Total 49 17 66 74.24 25.76 100.00 STATISTICS FOR TABLE OF POPOL BY MARCHE Statistic DF Value Prob -----------------------------------------------------Chi-Square 5 8.200 0.146 Likelihood Ratio Chi-Square 5 8.417 0.135 Mantel-Haenszel Chi-Square 1 0.837 0.360 Fisher's Exact Test (2-Tail) 0.166 Phi Coefficient 0.352 Contingency Coefficient 0.332 Cramer's V 0.352 Sample Size = 66 WARNING: 50% of the cells have expected counts less than 5. Chi-Square may not be a valid test.

Confronto fra due distribuzioni di frequenza

12

Nota sullAnalisi .....(2a ed.)

2.3 Omogeneit di due o pi distribuzioni di frequenza esperimento ripetuto nel tempo o nello spazio
I dati si ispirano ad un riferimento bibliografico (Dagnelie, 1973, pag. 84). Dei rametti fruttiferi di una cultivar di melo sono stati sottoposti a 4 diversi trattamenti applicati a caso sui rametti stessi. La variabile di risposta, data dal numero di frutti per rametto, continua ma discreta essendo caratterizzata da tre livelli (0, 1, pi di 1 frutto per rametto). Ci si chiede se i trattamenti determinano quote di allegagione diverse. Rispetto all'esempio bibliografico, si immagina che i dati a disposizione per trattamento non derivino da un unico campione bens da due, relativi ad altrettante localit nelle quali stato ripetuto l'esperimento. E' necessario quindi verificare l'omogeneit della distribuzione di frequenza dei due campioni a disposizione nell'ambito di ciascun trattamento. Se i dati dei due campioni risultano omogenei, cio risultano appartenere alla stessa popolazione statistica, essi possono essere cumulati per l'esecuzione di un unico test; se non lo risultano, il confronto fra i trattamenti va limitato alle singole localit. PROGRAMMA SAS Rispetto all'esempio precedente qui presente e considerata nell'istruzione INPUT una variabile categorica indicativa della localit (1 o 2) di provenienza dei campioni. L'uso di un particolare segno di codice nell'ambito della stessa istruzione, la doppia "chiocciola", consente di riportare i valori relativi a pi di un'osservazione su ciascuna riga di programma riservata ai dati. Come si vede, nell'input dei dati il numero di spazi bianchi che dividono due osservazioni sulla stessa riga non rilevante. La verifica dell'omogeneit dei dati dei due campioni viene eseguita attraverso il test di Fisher richiedendo quattro separate PROC FREQ, ciascuna relativa ad una variante della variabile "tratt". Questo si ottiene attraverso l'uso dell'istruzione BY, secondo una modalit che in SAS ha la funzione di restringere l'esecuzione della procedura richiesta ai sottogruppi identificati dalla variabile categorica indicata da tale istruzione. L'istruzione stessa per eseguibile solo se le osservazioni sono state preordinate, numericamente e/o alfabeticamente, secondo la variabile categorica indicata; ci ottenuto tramite la procedura SORT che precede. L'istruzione NOPRINT sopprime la stampa della tabella a doppia entrata in ciascuna di queste procedure. Verificata l'omogeneit dei dati dei campioni, i dati stessi vengono cumulati attraverso la PROC MEANS che segue. Si indica con l'opzione SUM la richiesta dell'esecuzione della somma dei valori contenuti nella variabile "nindiv", indicata dall'istruzione VAR, separatamente per ciascuno dei sottogruppi identificati dalla combinazione delle varianti delle variabili categoriche indicate in BY (l'uso di quest'ultima istruzione va ancora fatto precedere dalla PROC SORT). Attraverso l'istruzione OUTPUT si richiede la creazione di un nuovo file di dati contenente le somme dei valori nella variabile il cui nome specificato in SUM= ; tale file, il cui nome indicato in OUT= , conterr anche le due variabili che identificano i sedici sottogruppi. L'opzione NOPRINT richiede che i risultati della PROC MEANS non siano riportati nell'output. La successiva PROC FREQ viene eseguita sul nuovo file di dati grazie all'opzione DATA= , che ne specifica il nome. Ogni volta che tale opzione non viene utilizzata, la procedura richiesta viene eseguita sul file di dati impiegato nello STEP precedente, che viene detto perci "file attivo".

Confronto fra due distribuzioni di frequenza

13

Nota sullAnalisi .....(2a ed.)

* * 2.3 OMOGENEITA' DI DUE O PIU' DISTRIBUZIONI DI FREQUENZA * ESPERIMENTO RIPETUTO NEL TEMPO O NELLO SPAZIO * *; DATA file1; INPUT tratt $ luogo nfrutti $ nindiv @@; LABEL tratt='trattamento' luogo='localit' nfrutti='numero di frutti'; CARDS; A 1 0 110 A 1 1 86 A 1 >1 3 A 2 0 93 A 2 1 64 A 2 >1 3 B 1 0 141 B 1 1 56 B 1 >1 1 B 2 0 125 B 2 1 56 B 2 >1 0 C 1 0 135 C 1 1 70 C 1 >1 2 C 2 0 123 C 2 1 56 C 2 >1 0 D 1 0 102 D 1 1 83 D 1 >1 9 D 2 0 94 D 2 1 85 D 2 >1 8 ; * * verifica della omogeneit delle distribuzioni di frequenza * dei campioni di ciascun trattamento *; PROC SORT; BY tratt; PROC FREQ; TITLE '2.3 omogeneit di due o pi distribuzioni di frequenza -'; TITLE2 'esperimento ripetuto nel tempo o nello spazio'; TITLE4 'test di omogeneit delle distribuzioni di frequenza'; TITLE5 'dei campioni di ciascun trattamento'; BY tratt; TABLES luogo*nfrutti / EXACT NOPRINT; WEIGHT nindiv; LABEL; * * esecuzione del test di omogeneit delle distribuzioni di frequenza * dei trattamenti sui dati cumulati dei campioni *; PROC SORT; BY tratt nfrutti; PROC MEANS SUM NOPRINT; BY tratt nfrutti; VAR nindiv; OUTPUT OUT=file2 SUM=nindtot; PROC FREQ DATA=file2; TITLE4 'test di omogeneit delle distribuzioni di frequenza'; TITLE5 'dei trattamenti'; TABLES tratt*nfrutti / CHISQ EXPECTED NOCOL; WEIGHT nindtot; LABEL; RUN;

Confronto fra due distribuzioni di frequenza

14

Nota sullAnalisi .....(2a ed.)

OUTPUT SAS I valori del test di Fisher, l'unico affidabile in ognuno dei casi in esame, non consentono di respingere l'ipotesi di omogeneit dei dati dei due campioni . Il test di Pearson indica, con una probabilit di errore molto esigua , che i trattamenti determinano quote di allegagione diverse nella cultivar e nelle localit considerate.

2.3 omogeneit di due o pi distribuzioni di frequenza esperimento ripetuto nel tempo o nello spazio test di omogeneit delle distribuzioni di frequenza dei campioni di ciascun trattamento ------------------------------ trattamento=A -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 0.418 0.811 Likelihood Ratio Chi-Square 2 0.419 0.811 Mantel-Haenszel Chi-Square 1 0.194 0.660 Fisher's Exact Test (2-Tail) 0.781 Phi Coefficient 0.034 Contingency Coefficient 0.034 Cramer's V 0.034 Sample Size = 359 WARNING: 33% of the cells have expected counts less than 5. Chi-Square may not be a valid test. ------------------------------ trattamento=B -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 1.202 0.548 Likelihood Ratio Chi-Square 2 1.586 0.452 Mantel-Haenszel Chi-Square 1 0.119 0.731 Fisher's Exact Test (2-Tail) 0.692 Phi Coefficient 0.056 Contingency Coefficient 0.056 Cramer's V 0.056 Sample Size = 379 WARNING: 33% of the cells have expected counts less than 5. Chi-Square may not be a valid test. ------------------------------ trattamento=C -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 2.094 0.351 Likelihood Ratio Chi-Square 2 2.857 0.240 Mantel-Haenszel Chi-Square 1 0.816 0.366 Fisher's Exact Test (2-Tail) 0.499

Confronto fra due distribuzioni di frequenza

15

Nota sullAnalisi .....(2a ed.)

Phi Coefficient Contingency Coefficient Cramer's V

0.074 0.073 0.074

Sample Size = 386 WARNING: 33% of the cells have expected counts less than 5. Chi-Square may not be a valid test. ------------------------------ trattamento=D -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 0.281 0.869 Likelihood Ratio Chi-Square 2 0.281 0.869 Mantel-Haenszel Chi-Square 1 0.107 0.744 Fisher's Exact Test (2-Tail) 0.877 Phi Coefficient 0.027 Contingency Coefficient 0.027 Cramer's V 0.027 Sample Size = 381

test di omogeneit delle distribuzioni di frequenza dei trattamenti TABLE OF TRATT BY NFRUTTI TRATT(trattamento) NFRUTTI(numero di frutti)

Frequency| Expected | Percent | Row Pct |0 |1 |>1 | Total ---------+--------+--------+--------+ A | 203 | 150 | 6 | 359 | 220.17 | 132.63 | 6.202 | | 13.49 | 9.97 | 0.40 | 23.85 | 56.55 | 41.78 | 1.67 | ---------+--------+--------+--------+ B | 266 | 112 | 1 | 379 | 232.44 | 140.02 | 6.5475 | | 17.67 | 7.44 | 0.07 | 25.18 | 70.18 | 29.55 | 0.26 | ---------+--------+--------+--------+ C | 258 | 126 | 2 | 386 | 236.73 | 142.6 | 6.6684 | | 17.14 | 8.37 | 0.13 | 25.65 | 66.84 | 32.64 | 0.52 | ---------+--------+--------+--------+ D | 196 | 168 | 17 | 381 | 233.66 | 140.75 | 6.5821 | | 13.02 | 11.16 | 1.13 | 25.32 | 51.44 | 44.09 | 4.46 | ---------+--------+--------+--------+ Total 923 556 26 1505 61.33 36.94 1.73 100.00

Confronto fra due distribuzioni di frequenza

16

Nota sullAnalisi .....(2a ed.)

STATISTICS FOR TABLE OF TRATT BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 6 53.720 0.000 Likelihood Ratio Chi-Square 6 52.756 0.000 Mantel-Haenszel Chi-Square 1 5.548 0.019 Phi Coefficient 0.189 Contingency Coefficient 0.186 Cramer's V 0.134 Sample Size = 1505

Confronto fra due distribuzioni di frequenza

17

Nota sullAnalisi .....(2a ed.)

2.4 Indipendenza stocastica di due criteri di classificazione


I dati si riferiscono alla caratterizzazione di 1000 genotipi di Cichorium intybus. Si vuole verificare l'indipendenza dei due criteri di classificazione "pubescenza fogliare" e "crespatura fogliare", essendo ciascun criterio costituito semplicemente dalle due varianti presenza assenza del carattere considerato. Si vuole anche fornire una rappresentazione grafica della distribuzione di frequenze a due dimensioni osservata. PROGRAMMA SAS La struttura del programma analoga a quella degli esempi precedenti. L'istruzione TABLES indica stavolta le variabili che costituiscono i due criteri di classificazione. L'opzione EXACT richiede l'esecuzione del test esatto di Fisher; come detto, in un caso del genere (tavola di contingenza 2 x 2) anche l'opzione CHISQ avrebbe permesso l'esecuzione di questo test. Attraverso la PROC CHART vengono eseguiti istogrammi di vario tipo ed altre rappresentazioni grafiche del genere. L'istruzione BLOCK specifica la rappresentazione desiderata, l'istogramma a colonne, mentre la variabile che la segue indica il primo criterio di classificazione. L'opzione GROUP e la variabile associata indicano la presenza ed il nome della seconda variabile categorica; l'opzione SUMVAR riporta la variabile indicante il numero di individui appartenenti a ciascuna classe identificata dai criteri di classificazione; infine DISCRETE informa che nessuna delle variabili categoriche del tipo continuo con dati da riunire in classi di frequenza.
* * 2.4 INDIPENDENZA STOCASTICA DI 2 O PIU' CRITERI DI CLASSIFICAZIONE * DAGNELIE (1973) - PAG. 91 , DAGNELIE (1975) - PAG. 89 *; DATA esempio; INPUT pubesc $ crespat $ nindiv; LABEL pubesc='pubescenza fogliare' crespat='crespatura fogliare'; CARDS; no no 506 no si 326 si no 83 si si 85 ; PROC FREQ; TITLE '2.4 indipendenza stocastica di due o pi criteri'; TITLE2 'di classificazione'; WEIGHT nindiv; TABLES pubesc*crespat / EXACT; PROC CHART; TITLE3 'distribuzione di frequenze a due dimensioni osservata'; BLOCK pubesc / SUMVAR=nindiv GROUP=crespat DISCRETE; LABEL; RUN;

OUTPUT SAS L'ipotesi nulla di indipendenza dei due criteri di classificazione pu essere respinta con un livello di P 0.01 in funzione tanto del test di Pearson che del test di Fisher (2-Tail) ,
Confronto fra due distribuzioni di frequenza 18

Nota sullAnalisi .....(2a ed.)

indicando quest'ultimo una probabilit di errore nel respingere tale ipotesi pari a 7.58 x (10)-3 = 0.00758. Deduciamo per dai coefficienti di correlazione non parametrica riportati che l'associazione fra i due caratteri, sebbene significativa, piuttosto debole.
2.4 Indipendenza stocastica di due o pi criteri di classificazione TABLE OF PUBESC BY CRESPAT PUBESC(pubescenza fogliare) CRESPAT(crespatura fogliare) Frequency| Percent | Row Pct | Col Pct |no |si | Total ---------+--------+--------+ no | 506 | 326 | 832 | 50.60 | 32.60 | 83.20 | 60.82 | 39.18 | | 85.91 | 79.32 | ---------+--------+--------+ si | 83 | 85 | 168 | 8.30 | 8.50 | 16.80 | 49.40 | 50.60 | | 14.09 | 20.68 | ---------+--------+--------+ Total 589 411 1000 58.90 41.10 100.00 STATISTICS FOR TABLE OF PUBESC BY CRESPAT Statistic DF Value Prob -----------------------------------------------------Chi-Square 1 7.520 0.006 Likelihood Ratio Chi-Square 1 7.422 0.006 Continuity Adj. Chi-Square 1 7.056 0.008 Mantel-Haenszel Chi-Square 1 7.513 0.006 Fisher's Exact Test (Left) 0.998 (Right) 4.12E-03 (2-Tail) 7.58E-03 Phi Coefficient 0.087 Contingency Coefficient 0.086 Cramer's V 0.087 Sample Size = 1000

Confronto fra due distribuzioni di frequenza

19

Nota sullAnalisi .....(2a ed.)

distibuzione di frequenze a due dimensioni osservata SUM OF NINDIV BY PUBESC GROUPED BY CRESPAT

___ /_ /| |**| | crespatura fogliare ___ -|**| |--------------------/_ /| |**| | / ___ / |**| | |**| | / /_ /| / si |**| | |**| | / |**| | / |**| | |**|/ / |**|/ / |**| | / / |**| | 326 / 85 / /|**| |-------/-------------/ / |**| | / ___ / / |**| | / /_ /| / no / |**| | / |**| | / / |**|/ / |**|/ / / / / / 506 / 83 / /-------------/-------------/ no si

pubescenza fogliare

Confronto fra due distribuzioni di frequenza

20

Nota sullAnalisi .....(2a ed.)

2.5 Bont dell'adattamento di una distribuzione di frequenze osservata ad una determinata distribuzione teorica
Si vuole determinare se la distribuzione spaziale di piante di asfodelo sia in accordo con la distribuzione teorica di Poisson (indice di una distribuzione del tutto casuale degli individui). A questo scopo si determinato il numero di piante presenti in ciascuna di 512 parcelle quadrate di un metro di lato ciascuna scelte a caso nella localit di rilevamento. Tali parcelle sono state poi riunite in classi di frequenza in funzione del numero di piante contenute. Le frequenze assolute della distribuzione teorica sono state previamente calcolate attraverso la relativa formula di ricorrenza della distribuzione, dopo aver utilizzato il valore della media osservato come stima del parametro non conosciuto di questa distribuzione teorica non completamente definita. Le classi con un numero di individui superiore ad 8 sono state poi riunite in un'unica classe, per rientrare nelle condizioni di applicazione del test di Pearson che prevedono per il numero di classi indicato non pi di una delle frequenze teoriche inferiore a 5. PROGRAMMA SAS Il test richiesto eseguibile solo attraverso una serie di istruzioni che prevedono il calcolo del 2 osservato e la successiva verifica del suo livello di significativit tramite la funzione PROBCHI del SAS. Il programma non viene commentato in dettaglio, ma ci si sofferma solo sui punti di esso che possono variare in coincidenza con dati, numero di classi e distribuzioni teoriche differenti. Nell'istruzione INPUT le variabili classe, nosserv e nteoric si riferiscono rispettivamente alle classi di frequenza ed al numero di individui contenuti in esse secondo la distribuzione osservata e secondo quella teorica. Mantenendo inalterati tali nomi, la sola parte del programma da variare nella risoluzione di un problema analogo , a parte la porzione riservata all'input dei dati, il numero indicato tra parentesi nella funzione PROBCHI verso la fine del programma. Tale numero indica i gradi di libert da considerare nell'esecuzione del test di Pearson. Esso pari al numero di classi di frequenza meno uno nel caso di distribuzioni completamente definite. Se, come in questo e nella gran parte dei casi, la distribuzione non completamente definita occorrer sottrarre un grado di libert aggiuntivo per ogni parametro della distribuzione che si dovuto stimare (in questo caso uno).
* * 2.5 BONTA' DELL'ADATTAMENTO DI UNA DISTRIBUZIONE DI FREQUENZE * OSSERVATA AD UNA DETERMINATA DISTRIBUZIONE TEORICA * DAGNELIE (1975) - PAG. 67 *; DATA file1; INPUT CLASSE $ NOSSERV NTEORIC; SCARTO = (NOSSERV - NTEORIC) ** 2 / NTEORIC; CARDS; 0 119 18.9 1 88 62.5 2 59 103.0 3 69 113.2 4 27 93.2 5 36 61.5 6 25 33.8

Confronto fra due distribuzioni di frequenza

21

Nota sullAnalisi .....(2a ed.)

* * calcolo del valore del X2 *; PROC MEANS SUM NOPRINT; VAR SCARTO; OUTPUT OUT=file2 SUM=CHIQU; * 2 * determinazione della significativit del X tramite * la funzione PROBCHI *; DATA file3; SET file2; PROBCHI = PROBCHI (CHIQU,8); ALPHA = 1 - PROBCHI; FILE PRINT; TITLE '2.5 bont dell'adattamento di una distribuzione di frequenze'; TITLE2 'osservata ad una determinata distribuzione teorica'; PUT ' '; PUT ' chi quadrato = ' CHIQU ' alpha = ' ALPHA; RUN;

7 22 15.9 8 18 6.6 >8 49 3.5 ;

OUTPUT SAS L'ipotesi di distribuzione casuale delle piante di asfodelo pu essere respinta con una probabilit di errore talmente ridotta da essere riportata come 0 in alpha. In effetti, la distribuzione di tali piante di tipo aggregativo.
2.5 Bont dell'adattamento di una distribuzione di frequenze osservata ad una determinata distribuzione teorica chi quadrato = 1250.0350237 alpha = 0

Confronto fra due distribuzioni di frequenza

22