Sei sulla pagina 1di 123

Borislav D.

Dimitrov

EPIDEMIOLOGIA E STATISTICA MEDICA


CON SPSS VER.11

2003

Italia
Dott. Borislav D. Dimitrov, MD, MSc, SM
Specialista e Professore Assistente (Hons.) di Medicina Sociale &
Gestione Sanitaria (organizzazione della sanità e del settore farmaceutico)
& Ricercatore Senior di Biostatistica / Statistica Applicata & Epidemiologia Clinica
Sezione di servizi informatici, Ospedale Universitario (Plovdiv, Bulgaria) e
Laboratorio di Biostatistica, IRFMN (Ranica, BG, Italia)

EPIDEMIOLOGIA E STATISTICA MEDICA


CON SPSS, VER.11 (Manuale di livello intermedio / di base)

Prima edizione, Italia


2003  Borislav D Dimitrov, Autore
Tutti i diritti riservati

2
Indice

1. Revisione della gestione, trasformazione e presentazione dei dati con SPSS


Base dei dati (databases), file di SPSS, scale di misure e vari tipi di caratteri (e.g., variabili continue,
nominali)
Scopo e procedure della gestione dei dati
Creazione di un database e definizione delle variabili con inserimento dei dati (data input)
Import ed export dei dati con SPSS.
Trasformazione (e.g. ricodifica, computo), selezione e presentazione dei dati.

2. Statistica descrittiva
La classificazione della statistica, popolazione, campioni e stima dei parametri di una popolazione,
misurazione e tipi di errori.
Probabilità, frequenze e distribuzione empiriche unidimensionali. Legge dei grandi numeri. Test
statistici delle ipotesi: ipotesi nulla ed alternativa e loro probabilità ("p" e "1-p"). Inferenze statistiche.
Utilizzo dei parametri statistici qualitativi per descrivere un fenomeno: eventi e non-eventi (outcome),
intensità degli eventi (incidenza, prevalenza), frequenze e densità di frequenze.
Utilizzo dei parametri statistici quantitativi: tendenza centrale (media, mediana, moda), errore
standard, deviazione standard, varianza, coefficiente di variazione ed intervallo di confidenza.
Presentazione e valutazione della distribuzione empirica, istogrammi della distribuzione empirica.

3. Statistica esplorativa
Confronti delle variabili: campioni indipendenti o appaiati, test parametrici e non-parametrici per
confrontare due campioni (e.g., t-test,), proporzioni osservate e teoriche o tra due proporzioni
osservate (e.g.,2-test).
Analisi della varianza (ANOVA) e confronto dei variabili continue, condizioni (assumptions) per
applicare vari tipi di ANOVA, F-test.
Confronto delle variabili qualitative: proporzioni (e.g., tabelle 2x2 ed esempio con fattori di rischio o
di trattamento).
Confronto delle variabili quantitative (continue) con distribuzione normale (t-test) o asimmetriche
(e.g., Mann-Whitney test, Wilcoxon test, etc.).
ANOVA: analisi della varianza dei campioni indipendenti o appaiati.

4. Statistica analitica
Epidemiologia: studi epidemiologici (classificazione). Dipendenza ed indipendenza statistica:
corrispondenza, odds ratio (OR) e rischio relativo (RR) (e.g., indice di Cramer, correlazione e
coefficiente di rank di Spearman)
Correlazione lineare parametrica delle variabili continue (covarianza, coefficiente di correlazione di
Pearson e coefficiente di determinazione)
Correlazione non-parametrica.
Odds ratio (studi trasversali e/o studi "case-control") o rischio relativo (studi "cohort" o studi clinici
randomizzati)
Correlazione parametrica, correlazione parziale e loro significatività ed interpretazione.

5. Modelli statistici
Regressione lineare semplice (univariata) e multifattoriale (parametrica e logistica), serie temporali e
variazioni cicliche (periodiche) e stagionali.
Eventi nel tempo ed analisi della sopravivenza (curve di Kaplan-Meier); log-rank test per il confronto
delle curve di sopravvivenza.
Regressione: interpretazione di un modello lineare, suoi parametri statistici e valutazione delle
predizioni statistiche (interpolazione, estrapolazione ed intervallo di confidenza individuale e della
popolazione).
Regressione logistica: interpretazione di un modello logistico e valutazione della predizione statistica
(sensibilità, specificità ed accuratezza, curve ROC)
Calcolo, interpretazione e confronto delle curve di sopravvivenza cumulative di Kaplan-Meier.

3

REVISIONE DELLA GESTIONE, TRASFORMAZIONE E


PRESENTAZIONE DEI DATI CON SPSS

Parte teorica:
Base dei dati (databases), file di SPSS, scale di misure e vari tipi di
caratteri (e.g., variabili continue, nominali)
Scopo e procedure della gestione dei dati

Parte teorico-pratica:
Creazione di un database e definizione delle variabili con
inserimento dei dati (data input)
Import ed export dei dati con SPSS.
Trasformazione (e.g. ricodifica, computo), selezione e
presentazione dei dati.

4
Uno dei pacchetti statistici più adatti per clinici è l’SPSS. Il pacchetto è molto
diffuso e la sua interfaccia è facile da usare. I dati possono essere introdotti tramite una
worksheet come questa di Excel o direttamente (Figura 1.1). SPSS ha un ricco numero
di test statistici e consente di analizzare non solo problemi semplici ma anche i problemi
clinici più complessi. L’analisi dei dati con i grafici, varie procedure e test statistici, è
immediata. Questo ci ha fornito la base della nostra scelta dell'SPSS come prodotto
specifico per l'analisi dei dati e la construzione delle grafiche e presentazoni che
potrebbe essere una opportunità eccellente per clinici e altri specialisti e scienziati che
vogliono occuparsi di statistica applicata.

1.1. Base dei dati (databases) e files di SPSS


A)

B)

Figura 1.1

5
Per aprire un file SPSS, dal menu si deve scegliere “File” e nella finestra di
dialogo “Apri” selezionare il file che si desidera aprire (Figura 1.2). Fare clic su
“Apri”. Se lo si desidera, dopo è possibile leggere nomi di variabili dalla prima riga di
fogli elettronici e file tab delimitati (per esempio, file tipo Excel). Per leggere un file di
dati di testo, dal menù possiamo scegliere di nuovo “File”, selezionare il file di testo
nella finestra di dialogo “Apri” e dopo si devono eseguire i passi della procedura
“Importazione guidata di testo” per definire il metodo di lettura (vedi #1.5 sotto).

Figura 1.2

Per salvare un nuovo file di dati oppure salvare i dati in un formato diverso si
deve attivare la finestra dell'Editor dei dati facendo clic in un punto qualsiasi al suo
interno. Dopo, dal menù, si deve scegliere "File" e "Salva come dati...". Si seleziona un
tipo di file dall'elenco a tendina e si fa la specificazione del nome per il nuovo file di
dati. Per scrivere i nomi delle variabili nella prima riga di file di dati in formato foglio

6
elettronico o tab delimitato diverso (per esempio, file tipo Excel) si deve fare clic su
"Scrivi i nomi della variabile su foglio elettronico" o “Scrivi i nomi delle variabili
nel foglio di lavoro” nella finestra di dialogo "Salva dati" e scegliere la cartella dove si
vogliono salvare il file con i dati.

Per comprimere o espandere la vista riassuntiva dell'Output (Viewer) (Figura


1.3), si deve fare clic sulla casella a sinistra dell'elemento che si desidera comprimere o
espandere. Per modificare il livello di un elemento nella vista riassuntiva, si deve fare
clic sull'elemento nella vista riassuntiva per selezionarlo. Dopo, fare clic sulla freccia
rivolta verso sinistra sulla barra degli strumenti della vista riassuntiva per spostare
l'elemento avanti di un livello (a sinistra). Se desiderato, fare clic sulla freccia rivolta
verso destra per spostare l'elemento indietro di un livello (a destra).

Figura 1.3

Per nascondere una tabella o un grafico senza eliminarli, si deve fare doppio
clic sull'icona a forma di libro corrispondente nella vista riassuntiva del Viewer oppure
fare clic sull'icona a forma di libro chiuso (Nascondi) sulla barra degli strumenti. Verrà
attivata l'icona a forma di libro aperto (Visualizza), ad indicare che l'elemento è

7
nascosto. Quando si tratta delle celle di una tabella, si deve fare clic con il pulsante
destro del mouse sulla riga o colonna evidenziata per visualizzare il menù di scelta
rapida. Scegliere “Nascondi categoria” dal menù di scelta rapida (per attivare una tabella
pivot, prima si fa doppio clic sulla tabella). Fare doppio clic in un punto qualsiasi al suo
interno e scegliere "Visualizza" e "Mostra tutto". Verranno visualizzate tutte le celle
della tabella. Se è selezionata l'opzione "Nascondi righe e colonne vuote" nella finestra
di "Proprietа tabella", le righe o le colonne completamente vuote rimarranno nascoste.
Per modificare gli strati, si deve fare clic su una delle frecce dell'icona dello strato.

8
1.2. Variabili - scale di misure e vari tipi di caratteri (e.g., variabili
continue, nominali)

Una variabile è la caratteristica (parametro) di un evento misurata tramite


osservazione e descrive questo evento e/o fenomeno. La misura della variabile può
essere una quantità, qualità o funzione che può assumere qualsiasi valore o gruppo di
valori (anche, la variabile stessa e il simbolo di questa caratteristica), per esempio,
pressione arteriosa sistolica in mmHg (PAS), peso in kilogrammi, colore della pelle
(bianco, nero, giallo, ecc.). Una variabile reale è continua se i valori che è suscettibile
di assumere formano un intervallo di numeri reali (Figura 1.4). La variabile "peso" e la
variabile "larghezza" sono variabili continue. Le variabili continue identificano
variabili (valori dei eventi) che, almeno in teoria, possono essere misurate con infinita
precisione (3.54 kg, 45.876 g, 23.9814 m, 132.5 mmHg, ecc.). Gli apparecchi di misura
hanno precisione finita, per cui i dati raccolti sono necessariamente, in un certo senso,
sempre discreti, ovvero esiste solo un insieme di valori finito di valori possibili che
possono essere misurati.

Figura 1.4

Al contrario, i valori che una variabile “discreta” (discreta, in senso di valore


intero) può assumere costituiscono un insieme numerabile (0, 1, 2, ...n.). Per esempio, il
numero e il seme in un'estrazione di carte sono variabili discrete (Figura 1.5).
Possiamo soggerire un esempio di dati sulla cicala dove sono stati registrati il
sesso, peso corporeo, colore, la lunghezza, la specie e lunghezza di ali (per esempio,

9
Pi=peso di l'i-esima cicala). Una variabile reale si carraterizza con il suo livello di
misura. La misura determina esattamente tutte le operazioni matematiche che si
possono eseguire con questa variabile.

Figura 1.5

Da un altro punto di vista, come detto sopra, le variabili sono quantitative


(numeriche) e possono essere continue o discrete, qualitative (categoriche, indicate con
numeri discreti o lettere) e speciali (Tabella 1.1).

Tabella 1.1

Quantitative (numeri) Qualitative (categorie) Altri


Continua Dicotomica Nominale Ordinale Date, etc.
PAS Malattia Colore Severita Data di nascita
138.5 1 (si) Nero (n) ‘4’ 21/4/92
130.2 0 (no) Bianco (b) ‘1’ 1/5/75
… … … … …
121.4 1 (si) Giallo (g) ‘3’ 15/6/85
Scale "Ordinal" Nominal Ordinal
Numerici String (alphanumerici) Speciali

Per esempio, la variabile tipo "colore" è qualitativa. Le variabili qualitative


codificano diverse tipologie di oggetti e, pertanto, nessuna operazione matematica ha
senso, anche se si utilizzano numeri per la codifica (il colore puo essere codificato con il
“string” b=bianco o con la cifra 1=bianco, v=verde e 2=verde, g=giallo e 3=giallo, ecc.).
La scala di misurazione della variabile è nota come scala nominale.

10
Una variabile quantitativa si misura sempre su una scala numerica (cifre)
come tipo della variabile o solo scala. La variabile, anche qualitativa, per cui ha senso
solo un confronto di ordine si misura su una scala ordinale (normale=1, bene=2, molto
bene=3, ecc.); le differenze su questa scala non hanno nessun senso. Invece, una
variabile quantitativa per cui hanno senso le differenze ma non i rapporti si misura su
scala intervallare. Esempi di altri variabili quantitative sono la temperatura (in gradi
Celsius) o il tempo. Infine, una variabile quantitativa per la quale hanno senso anche i
rapporti si misura su una scala a rapporti. Le variabili speciali hanno un formato
speciale e scala speciale (per esempio, data di nascita, Tabella 1.1).
Le definizioni delle variabili nell SPSS 11.0 sono tenuti e si identificano a parte
della base di dati principale (matrice) e contengono le misure e le scale proprie delle
variabili. Le definizioni sono ordinate secondo l'ordine della variabile nel file (matrice)
e le varie caratteristiche sono in colonne (Figura 1.6).

Figura 1.6

11
1.3. Scopo e procedure della gestione dei dati

L'esercitazione di SPSS illustra come utilizzare molte funzionalità presenti nel


programma. In questo Corso si tratta di una guida pratica con procedure visualizzate. È
inoltre possibile avviare e interrompere l'esercitazione in qualsiasi momento. Come
abbiamo visto, l'Editor dei dati è uno strumento utile per la creazione e la modifica di
file di dati, analogo a quello dei fogli di calcolo. La finestra dell'editor dei dati viene
aperta automaticamente all'apertura di ogni sessione di SPSS. L'Editor dei dati offre due
visualizzazioni dei dati: (I) visualizzazione dati: visualizza i valori dei dati effettivi o le
etichette dei valori definiti; (II) visualizzazione variabili: visualizza le informazioni di
definizione delle variabili, tra cui etichette delle variabili e dei valori definiti, tipo di dati
(ad esempio, stringa, data e numerico), scala di misurazione (nominale, ordinale o scala)
e valori mancanti definiti dall'utente. In entrambe le visualizzazioni, è possibile
aggiungere, modificare ed eliminare le informazioni contenute nel file di dati.
Collezione, preparazione, controllo ed analisi dei dati sono disponibili con i
moduli di SPSS come SPSS Base, SPSS Tables, ecc. Le procedure di inserimento dei
dati ricalcano fedelmente quanto riportato sui modelli cartacei in modo da semplificare
il lavoro. Diversi controlli sulla qualità dei dati immessi possono essere effettuati
immediatamente, durante l’immissione stessa, altri al momento della conferma di
registrazione. Il programma ci aiuta a scoprire tendenze e relazioni esistenti che
rimarrebbero inosservate utilizzando solamente fogli elettronici o database. Si può
scegliere tra le numerose analisi statistiche per scoprire relazioni e tendenze
significative e si può applicare ai dati la potenza dell’analisi statistica. L'interfaccia di
SPSS è amichevole e l’esteso sistema di aiuto in linea, ci supporta nell'eseguire le
analisi rapidamente ed in modo efficiente. Per sapere come eseguire una procedura è
sufficiente cliccare il bottone di auito e con un semplice clic è possibile ottenere
definizioni dei termini statistici e suggerimenti pratici. Sempre si può scegliere
immediatamente quali procedure statistiche o rappresentazioni grafiche utilizzare con i
consigli e gli esempi.
Con le estese funzionalità di gestione dei file e dei dati di SPSS per Windows è
facile mettere assieme dati provenienti da fonti diverse e prepararli per l’analisi. Come
vedremo sotto, l'importazione guidata di dati ASCII, inoltre, consente di accedere senza
problemi a qualsiasi formato di file di testo. Le procedure comprendono tavole di
contingenza, statistiche descrittive, analisi fattoriale, analisi di regressione e di
classificazione. Si possono analizzare e visualizzare le informazioni più importanti con
oltre 50 tipologie di tecniche di analisi statistica e di grafici di alta qualità. Come
abbiamo visto, le tabelle pivot multidimensionali di SPSS ci offrono la possibilita di
riorganizzare righe, colonne e strati. Svelare importanti relazioni che possono andare
perdute con i report tradizionali. Comparare i gruppi in modo più semplice e chiaro
suddividendo le tabelle in modo da visualizzare i dati di un gruppo per volta. SPSS offre
una nuova famiglia di grafici interattivi per visualizzare i risultati delle analisi con un
livello di qualità molto alto, a due ed a tre dimensioni. Si possono aggiungere o
cambiare variabili o, addirittura, inserire nuovi elementi (barre, linee, istogrammi, curve
di adattamento, ecc.) senza ricostruire il grafico. Si possono anche modificare i singoli

12
oggetti del grafico, cambiandone dimensioni, forma, illuminazione, colore, trame, retini,
stili, ecc. L’opzione "Panel" consente di affiancare più grafici relativi a gruppi di casi
diversi. È possibile inserire anche titoli, annotazioni, etichette e testo libero in
qualunque punto del grafico.

13
1.4. Creazione di un database e definizione delle variabili con inserimento dei dati
(data input)

Per inserire dati numerici, si deve selezionare una cella nella “Visualizzazione
dati” (Figura 1.7). Dobbiamo inserire il valore il quale verrà visualizzato nell'editor
delle celle nella parte superiore dell'Editor dei dati. Si deve premere “Invio” oppure
selezionare un'altra cella per registrare il valore. Per inserire dati non numerici,
dobbiamo fare doppio clic su un nome di variabile nella parte superiore della colonna
nella “Visualizzazione dati” oppure fare clic sulla scheda “Visualizzazione variabili”.
Dopo si fa clic sul pulsante nella cella “Tipo della variabile” e si seleziona il tipo di dati
desiderato nella finestra di dialogo “Definisci tipo di variabile”, e fare clic su “OK”.
Dopo dobbiamo fare doppio clic sul numero di riga oppure sulla scheda
“Visualizzazione dati” ed inserire i dati nella colonna della nuova variabile definita.
Per sostituire o modificare un valore (eliminare il vecchio valore e inserire un
nuovo valore), nella “Visualizzazione dati” si deve fare doppio clic sulla cella. Il valore
della cella verrà visualizzato nell'editor delle celle. Per modificare il valore direttamente
nella cella o nell'editor delle celle, dobbiamo premere “Invio” (oppure passare a un'altra
cella) per registrare il nuovo valore.
Per visualizzare e definire gli attributi delle variabili, si deve attivare la
finestra dell'Editor dei dati. Dopo si fa doppio clic su un nome di variabile nella parte
superiore della colonna nella “Visualizzazione dati” oppure si fa clic sulla scheda
“Visualizzazione variabili”. Per definire una nuova variabile, dobbiamo immettere un
nome di variabile in una riga vuota e selezionare gli attributi da definire o modificare.

Figura 1.7

Per inserire un nuovo caso tra quelli esistenti, nella “Visualizzazione dati”, si
deve selezionare una cella qualsiasi nel caso (riga) sottostante la posizione in cui si
desidera inserire un nuovo caso. Dopo, dai menu, si deve scegliere “Dati” e così verrà
inserita una nuova riga per il caso ed in tutte le variabili verrà immesso il valore
mancante di sistema. Per inserire una nuova variabile tra quelle esistenti, dobbiamo
selezionare qualsiasi cella della variabile a destra (Visualizzazione dati) o sotto
(Visualizzazione variabili) la posizione in cui inserire la nuova variabile e dai menu
scegliere “Dati” - così verrà inserita una nuova variabile con il valore mancante di
sistema per tutti i casi.

14
1.5. Import ed export dei dati con SPSS

A)

B)

Figura 1.8

15
A)

B)

Figura 1.9

16
A)

B)

Figura 1.10

17
Figura 1.11

18
1.6. Trasformazione (ricodifica, compute), selezione e presentazione dei
dati.

Per ricodificare i valori di una variabile, dai menù, si deve scegliere


“Trasformazioni” e selezionare le variabili che si desidera ricodificare. Se vengono
selezionate più variabili, devono essere dello stesso tipo (numerico o stringa). Dopo si
deve fare clic su “Valori vecchi e nuovi” e specificare le modalità di ricodifica dei
valori. È inoltre possibile sempre definire un sottoinsieme di casi da ricodificare
(Figura 1.12).

Figura 1.12

Per ricodificare i valori di una variabile in una nuova variabile, dai menù
dovete scegliere di nuovo “Trasformazioni” e dopo selezionare le variabili che si
desidera ricodificare. Se vengono selezionate più variabili, dovranno essere dello stesso
tipo (numerico o stringa). Si deve specificare un (nuovo) nome di variabile di output per

19
ciascuna nuova variabile e fare clic su “Cambia”. Dopo si fa clic su “Valori vecchi e
nuovi” e si specifica la modalità di ricodifica dei valori (Figura 1.13). Come sopra, è
inoltre possibile definire un sottoinsieme di casi da ricodificare.

Figura 1.13

Per calcolare variabili (compute), dai menù si deve scegliere di nuovo


“Trasformazioni” e digitare il nome di una sola variabile di destinazione. Può essere
una variabile esistente o una nuova variabile da aggiungere al file dati di lavoro (Figura
1.14). Per creare un'espressione, è possibile incollare o digitare direttamente i
componenti nel campo “Espressione”. Incollare le funzioni dalla lista e specificare i
parametri indicati da punti interrogativi. Le costanti stringa devono essere incluse tra
virgolette o apostrofi. Le costanti numeriche devono essere digitate in formato
americano, con il punto (.) come separatore decimale. Per le nuove variabili stringa, è
necessario selezionare anche “Tipo ed etichetta” per specificare il tipo di dati.

20
Figura 1.14

Per selezionare sottoinsiemi di casi in base a un'espressione logica, dai menù, si


deve scegliere “Dati” e selezionare “Se la condizione и soddisfatta” e fare clic su “Se”.
Dopo si specifica l'espressione condizionale. (Figura 1.15).

Figura 1.15

21
Per creare un'espressione, è possibile incollare o digitare direttamente i
componenti nel campo “Espressione” e incollare le funzioni dalla lista e specificare i
parametri indicati da punti interrogativi. Le costanti stringa devono essere incluse tra
virgolette o apostrofi. Le costanti numeriche devono essere digitate in formato
americano, con il punto (.) come separatore decimale. Per selezionare un campione
casuale di dati, dai menù dobbiamo scegliere “Dati” e selezionare “Campione casuale
di casi”, fare clic su “Campione” e scegliere il metodo di campionamento e specificare
la percentuale o il numero di casi.

22

STATISTICA DESCRITTIVA

Parte teorica:
La classificazione della statistica, popolazione, campioni e stima
dei parametri di una popolazione, misurazione e tipi di errori.
Probabilità, frequenze e distribuzione empiriche unidimensionali.
Legge dei grandi numeri. Test statistici delle ipotesi: ipotesi nulla
ed alternativa e loro probabilità ("p" e "1-p"). Inferenze statistiche.

Parte teorico-pratica:
Utilizzo dei parametri statistici qualitativi per descrivere un
fenomeno: eventi e non-eventi (outcome), intensità degli eventi
(incidenza, prevalenza), frequenze e densità di frequenze.
Utilizzo dei parametri statistici quantitativi: tendenza centrale
(media, mediana, moda), errore standard, deviazione standard,
varianza, coefficiente di variazione ed intervallo di confidenza.
Presentazione e valutazione della distribuzione empirica,
istogrammi della distribuzione empirica.

23
2.1. La statistica e la probabilità: popolazione e campioni; stima dei
parametri di una popolazione, misurazione e errori.

2.1.1. Statistica e probabilità

La statistica é la scienza degli eventi e numeri. Il nome deriva dal termine


"Stato" e/o dal termine tedesc “Statistik” e significa la nozione della collezione,
gestione, analisi e publicazione delle informazioni (dati) che descrivono le
caratteristiche quantitaive della vita della società in relazione con il loro contenuto
qualitativo; tali caratteristiche appartengono ai vari fenomeni della nostra vita
quotidiana – tecnica, economica, culturale, medica, sociale, politica, ecc. Il fenomeno è
un fatto, evento o circostanzze osservati, per esempio, fenomeni della natura (la neve e
un fenomeno dell'inverno). La statistica si occupa solo degli eventi di massa ("mass
events") - il fenomeno deve occorere almeno due volte per essere studiato con i metodi
statistici.
La teoria degli insiemi (popolazioni) è fondamentale per la statistica. Tale teoria
è utilizzata come linguaggio per modellare e descrivere gli esperimenti (osservazioni).
Un insieme (popolazione) è, semplicemente, una collezione di oggetti o eventi; gli
oggetti sono detti elementi dell'insieme, per esempio, osservazioni giornaliere della neve
durante l'inverno o misurazioni della variabile "pressione arteriosa sistolica" di 70
pazienti (Figura 2.1). Ogni insieme è completamente individuato dai suoi elementi.
Nella maggior parte delle applicazioni della teoria degli insiemi, tutti gli insiemi che si
considerano sono sottinsiemi di un certo insieme universo. Al contrario, l'insieme vuoto
è un insieme privo di elementi. Un insieme si dice numerabile se può essere messo in
corrispondenza uno a uno con un sottinsieme degli interi. Quindi, un insieme
numerabile è un insieme, finito o infinito, che puo essere "contato" con i numeri interi.
Al contrario, l'insieme dei numeri reali non è numerabile.

PAS [mmHg]
Popolazione (N=500)
µ σ
Campione (n=70 pazienti)
x s

Figura 2.1

Per definizione, una variabile è la caratteristica (parametro) descrittiva di un


evento e/o fenomeno misurata tramite osservazione. La misura della variabile può
essere una quantità, qualità o funzione che può assumere qualsiasi valore o gruppo di
valori (anche, la variabile stessa è il simbolo di questa caratteristica), per esempio,
pressione arteriosa sistolica in mmHg (PAS), peso in kilogrammi, colore della pelle
(bianco, nero, giallo, ecc.). Una variabile reale è continua se i valori che è suscettibile

24
di assumere formano un intervallo di numeri reali. La variabile "peso" e la variabile
"larghezza" sono variabili continue. Le variabili continue identificano variabili (valori
degli eventi) che, almeno in teoria, possono essere misurate con infinita precisione. In
pratica, ovviamente, gli apparecchi di misura hanno precisione finita, per cui i dati
raccolti sono necessariamente discreti, ovvero esiste solo un insieme di valori finito (ma
anche molto grande) di valori possibili che possono essere misurati. Al contrario, i
valori che una variabile discreta puo assumere costituiscono un insieme numerabile. Per
esempio, il numero e il seme in un'estrazione di carte sono variabili discrete.

La statistica è basata sulla teoria della probabilità e sul concetto di


esperimento casuale. L'esprimento casuale è un esperimento il cui risultato non può
essere previsto con certezza prima di eseguire l'esperimento e registrare l'evento che è il
risultato proprio della sperimentazione. Di solito si assume che l'esperimento possa
essere ripetuto all'infinito (essenzialmente, dobbiamo dire, sotto le stesse condizioni).
Questa assunzione è molto importante poichè la teoria statistica della probabilitа si
occupa dei risultati di lungo termine, al replicare dell'esperimento. In questo ambito, una
variabile casuale X si interpreta come una misura di interesse nel contesto
dell'esperimento casuale. Una variabile casuale X è casuale nel senso che il suo valore
dipende dall'esito dell'esperimento, il quale non puo essere previsto con certezza prima
di effettuare l'esperimento stesso. Ogni volta che si effettua l'esperimento, si verifica un
esito s appartenente all'insieme S e, cosi, una data variabile casuale X assume il valore
X(s).
La probabilità, in senso pratico (stretto), è la possibilità relativa (caso o
"chance") che l'evento occorrerà; la probabilità è rapresentata come razio delle volte che
un evento occorre (number of actual occurrences) verso il numero totale di tutte volte
che questo evento puo occorrere (total number of possible occurrences). Parliamo della
cosìddetta frequenza relativa con cui occorre o può occorrere un evento (quanto lanciate
un dado a sei facce, la probabilità di avere "2" e 1/6). La definizione completa di un
esperimento casuale richiede che si individui con precisione quali informazioni relative
all'esperimento si registrano, infatti, quello che costituisce l'esito dell'esperimento o
evento (Figura 2.2).

Non evento Evento


0 1

Figura 2.2

Supponiamo ora di avere un esperimento semplice con due possibili esiti


(fenomeno A = "Arrivo del treno [in ore 13:00 alla stazione]" con esito 1 = Si, arrivato
= Evento; 0 = No = Non evento, Figura 2.2). Le replicazioni indipendenti di questo
esperimento si dicono prove Bernoulliane. Questo modello è uno dei piu semplici ma
molto importante. Ancora, supponiamo in generale di avere un esperimento con k

25
(maggiore di due) possibili esiti. Le replicazioni indipendenti di questo esperimento si
dicono prove multinomiali (per esempio, quando si misura una caratterisica come "peso
del corpo" che, essendo una variabile quantitativa, può avere diversi valori con numeri
reali, non solo "1" o "0"). A volte un esperimento si presenta a stadi ben definiti, ma in
maniera dipendente, nel senso che l'esito di un certo stadio è influenzato dagli esiti degli
stadi precedenti. Un numero fissato (o anche infinito) di replicazioni indipendenti
dell'esperimento semplice costituisce un nuovo esperimento composto. Molti
esperimenti si rivelano essere composti e in più, come già osservato, la stessa teoria
della statistica (della probabilità) si basa sull'idea di replicare gli esperimenti.

2.1.2. Popolazioni e campionamento

La popolazione di un fenomeno, come una collezione di oggetti o eventi, si


caratteriza con l'aspetto di spazio campionario. Lo spazio campionario (environment,
milieu) di un esperimento casuale costituisce l'insieme che include tutti i possibili esiti
dell'esperimento (valori dell'evento o della variabile che descrive il fenomeno). Ogni
fenomeno occorre solo nel suo spazio prorpio e l'evento deve essere studiato solo in
questo spazio, per esempio, "nascita di un babmbino" (solo una donna puo partorire un
bambino). Cosi, lo spazio campionario ha la funzione di insieme universo nella
modellazione dell'esperimento.
Per gli esperimenti semplici, lo spazio campionario è esattamente l'insieme di
tutti i possibili esiti. Più spesso, per gli esperimenti composti, lo spazio campionario è
un insieme matematicamente trattabile che comprende tutti i possibili esiti ed anche altri
elementi. Per esempio, se l'esperimento consiste nel lanciare un dado a sei facce e
registrare il risultato, lo spazio campionario sarà и S = {1, 2, 3, 4, 5, 6}, cioe l'insieme
dei possibili esiti. D'altra parte, se l'esperimento consiste nel catturare una cicala e
misurare il suo peso corporeo (in milligrammi), possiamo prendere come spazio
campionario S = [0, ∞), anche se la maggior parte degli elementi sono impossibili
all'atto pratico.
Come visto prima, certi sottinsiemi dello spazio campionario di un esperimento
sono detti eventi. Quindi,, nel senso streto, un evento è un insieme di esiti di un
esperimento, ma non di tutti possibili esiti. Ogni volta che si esegue l'esperimento, un
dato evento A si verifica, se l'esito dell'esperimento è un elemento di A (arrivo del treno
alla stazione), o non si verifica, se l'esito dell'esperimento non è un elemento di A (A e
l'insieme dei arrivi del treno). Intuitivamente, si puo pensare all'evento come ad
un'affermazione significativa relativa all'esperimento.
In molti studi statistici, il dato di partenza è una popolazione di unità di
interesse. Le unità possono essere persone, animali, campi di grano, o qualsivoglia. Di
solito si hanno uno o piu misure numeriche di interesse: l'altezza e il peso di una
persona, la durata di un viaggio, la quantitа di pioggia, di fertilizzante e la produzione di
un campo di grano. Anche se siamo interessati all'intera popolazione di unità, di solito
tale insieme è troppo grande per essere studiato. Si raccoglie allora un campione
casuale di unità dalla popolazione e si registrano le misurazioni di interesse per
ciascuna unitа del campione (valori del evento). Per esempio, le misurazioni della

26
variabile "pressione arteriosa sistolica" dei nostri 70 pazienti (Figura 2.1) è proprio
l'osservazione di un campione casuale della pressione dalla popolazione totale di 500
pazienti nell'ospedale.
Esistono due tipi fondamentali di campionamento. Se campioniamo con
reinserimento, ogni unità è reinserita nella popolazione prima di ogni estrazione;
pertanto, una singola unità puo presentarsi più di una volta nel campione. Se
campioniamo senza reinserimento, le unità estratte non vengono reinserite nella
popolazione. Il campionamento con reinserimento può essere pensato come un
esperimento composto, basato su singole replicazioni dell'esperimento semplice e
consiste nell'estrarre una singola unità dalla popolazione e registrarne le misure di
interesse. Al contrario, un esperimento composto consistente in n replicazioni
indipendenti di un esperimento semplice può essere pensato come campionamento.
D'altro canto, il campionamento senza ripetizione è un esperimento formato da stadi
dipendenti.

2.1.3. Stima dei parametri di una popolazione, misurazione e errori

Quando si studia un fenomeno, osservando tutti gli eventi della popolazione


totale o solo gli eventi dell campione casuale, e necessario valutare e analizzare i vari
parametri quantitativi o qualitative di questo fenomeno (valori delle variabili e gli
aspetti che lo caratterizzano). In pratica, la statistica può essere divisa in due rami:
statistica descrittiva (in senso stretto, la statistica descrittiva si occupa dei metodi per
riassumere e presentare i dati osservati x) e statistica inferenziale (si occupa dei metodi
per estrarre dai dati osservati x informazioni sulla distribuzione di X). Nel calcolo della
probabilità si cerca di prevedere il valore di X assumendo nota la sua distribuzione. In
statistica inferenziale, al contrario, si osserva il valore di X del campione e si cerca di
inferire informazioni sulla distribuzione sottostante (popolazione). Per i dati sulla
cicala, sono state catturate 104 cicale. In questo caso, Xi regsitra il peso corporeo, la
lunghezza, il sesso, la specie e la lunghezza per l'i-esima cicala in questo campione e
possiamo così sapere, per esempio, il peso medio, minimo e massimo osservabile.
Possiamo anche inferire sul peso di ogni cicala che esiste se il nostro campione è
rapresentativo dell'intera popolazione delle cicale. Le tecniche statistiche hanno
incontrato un enorme successo e sono largamente utilizzate in ogni scienza in cui le
variabili di interesse sono quantificabili: scienze naturali, scienze sociali, economia,
giurisprudenza e medicina.
Come detto prima, una variabile reale è contraddistinta altresì dal suo livello di
misura, che determina le operazioni matematiche che hanno senso su quella variabile.
Le variabili qualitative codificano diverse tipologie di oggetti e, pertanto, nessuna
operazione matematica ha senso, anche se si utilizzano numeri per la codifica. Tali
variabili si dicono misurate su scala nominale. Per esempio, la variabile tipo "colore" è
qualitativa. Una variabile, per cui ha senso solo un confronto, di ordine si dice misurata
su scala ordinale (normale=1, bene=2, molto bene=3, ecc.); le differenze non hanno
senso e tantomeno la codifca è numerica. Per esempio, in molti giochi di carte i semi
sono ordinati, per cui la variabile "seme" è misurata su scala ordinale. Una variabile
quantitativa in cui hanno senso le differenze e non i rapporti, si dice misurata su scala

27
intervallare. Ciò equivale a dire che una variabile ha valore di zero relativo. Esempi
sono la temperatura (in gradi Celsius) o il tempo. Infine, una variabile quantitativa per la
quale hanno senso anche i rapporti, si dice misurata su scala a rapporti (Tabella 2.1).

Tabella 2.1
Quantitative (numeri) Qualitative (categorie) Altri
Continua Dicotomica Nominale Ordinale Date, etc.
PAS Malattia Colore Severità Data di nascita
138.5 1 (si) Nero (a) ‘2’ 21/4/92
130.2 0 (no) Bianco (b) ‘1’ 1/5/75
… … … … …
121.4 1 (si) Giallo (g) ‘3’ 15/6/85
Scale "Ordinal" Nominal Ordinal
Numerici String (alphanumerici) Speciali

Una statistica (stima, stimatore, X) nel senso proprio è un parametro (variabile)


casuale che è funzione osservabile dell'esito di un esperimento (valore del evento) e
stima il valore attuale (reale) ma non osservabile della variabile nella popolazione. Il
termine osservabile indica che la funzione non deve contenere parametri ignoti, ovvero
che, alla fine dell'esperimento si deve essere in grado di calcolare il valore della
statistica sulla base dell'esito. Osserva che una statistica è una variabile casuale e,
pertanto, ha una distribuzione di probabilità. Quello che osserviamo all'atto pratico è
una realizzazione di questa variabile casuale (Figura 2.1).

La statistica (il parametro) indica un aspetto non casuale di un certo modello


che, una volta scelta, resta costante (così il parametro descrive una caratteristica
costante del fenomeno studiato). Supponiamo che X sia una variabile casuale a valori
reali. Indicheremo la media e la deviazione standard di X nella popolazione generale
(totale) rispettivamente con, µ e σ. Supponiamo ora di eseguire una serie di replicazioni
indipendenti di questo esperimento. Cio definisce un nuovo esperimento costituito da
una sequenza di variabili casuali indipendenti, ciascuna distribuita come X: X1, X2, ...,.
Ricordiamo che, in termini statistici, (X1, X2, ..., Xn), è un campione casuale di
dimensione n proveniente dalla distribuzione X, qualunque sia n. La media
campionaria è semplicemente la media delle variabili del campione: Mn = (X1 + X2 + ···
+ Xn) / n (per esempio, detto come "x" del campione nella Figura 2.1). La media
campionaria è una funzione a valori reali di un campione casuale, ed è pertanto la
statistica costante. Come ogni altra statistica, la media campionaria come un aspetto del
fenomeno si caratterizza con la sua distribuzione, il suo valore atteso (x), la sua
deviazione standard (s) e la sua varianza (s2). In molti casi la media della distribuzione è
ignota, e si usa la media campionaria come stimatore della media della distribuzione.

28
2.1.3.1) Misurazioni (precisione)
• Limite di Osservazzione (“Detection Limit”) - LD o quando il "noise" è
equivalente alla deviazione standard di un insieme vuoto; la razio
"signal/noise" (S/N) è il segnale diviso al "noise";
• Limite di Azione (“Action Limit”) - LA(2) o S/N=2; quando abbiamo un
limite di azione intorno a 2, siamo sicuri al 97.7% che il segnale
osservato (vero) non è casuale (falso) o errore (“random noise”);
• Limite di Osservazzione Speciale (“Special Detection Limit”) - SLD(3)
o S/N=3; quando abbiamo limite speciale intorno a 3, siamo sicuri
all'84% che il segnale è stato osservato (vero); questo limite è sopra il
limite di azione se la soluzione ha la stessa concetrazione;
• Limite di Quantificazione (“Quantitation Limit”) - LQ(10) or S/N=10;
per esempio, questo può dare informazione che la concentrazione è
necessaria per osservare (registrare) un segnale con 10% RSD (il più
basso limite teorico di registrazione secondo la metodologia applicata
(“the lowest theoretical limit of detection by the method”).

2.1.3.2) Errori
Metodologici
• Errore casuale (random) - errore indeterminato, valutato con la
statistica;
• Errore sistematico - errore determinato, valutato con standard di
referenza;

Tecnologici (statistici)
• Errore Tipo I - registrare (accettare) l'evento falso come vero (an
identification of random noise as signal);
• Errore Tipo II - mancare (non registrare) un evento vero (“not
identifying a signal that is present”).

29
2.2. Frequenze e distribuzioni empiriche: legge dei Grandi Numeri. Test
statistici delle ipotesi. Inferenze statistiche .

La statistica (parametro), come detto prima, indica una variabile non casuale di
un certo modello che, una volta scelto, resta costante per il campione. Quasi tutti i
modelli probabilistici sono di fatto famiglie parametriche di modelli, ovvero dipendono
da uno o piu parametri che possono essere modificati per adattare il modello al processo
che si intende descrivere. Detto in termini più formali, un parametro è una
caratteristica della distribuzione della variabile osservabile X.

2.2.1. Frequenze e distribuzioni

Il teorema limite centrale e la legge dei grandi numeri sono i due teoremi
fondamentali della probabilità. In termini semplici, il teorema limite centrale afferma
che la distribuzione della somma di un numero elevato di variabili casuali indipendenti
e identicamente distribuite, tende a distribuirsi normalmente indipendentemente dalla
distribuzione delle singole variabili. Il teorema limite centrale ha un'importanza enorme
ed e grazie ad esso che molte procedure statistiche funzionano.
Intuitivamente, la probabilità di un evento dovrebbe misurare la frequenza
relativa dell'evento a lungo termine. Specificamente, supponiamo di ripetere
indefinitamente l'esperimento (osserva che cio costituisce un nuovo esperimento
composto). Per un evento A dell'esperimento base, sia Nn(A) il numero di volte che A si
è verificato (la frequenza assoluta di A) nelle prime n replicazioni (nota che si tratta di
una variabile casuale dell'esperimento composto). Quindi, Pn(A) = Nn(A)/n è la
frequenza relativa di A nelle prime n replicazioni. Se abbiamo scelto la misura di
probabilità corretta per l'esperimento, allora in un certo senso ci aspettiamo che la
frequenza relativa di ciascun evento converga alla probabilità dell'evento stesso: Pn(A)
P(A) per n .
La formalizzazione di questa intuizione è la legge dei grandi numeri o legge
della media, uno dei teoremi piu importanti della probabilità. Per sottolineare questo
punto osserviamo che, in generale, esisteranno molte possibili misure di probabilità per
un esperimento. Tuttavia, solo la vera misura di probabilità soddisferà la legge dei
grandi numeri. Segue che, se abbiamo dati da n replicazioni dell'esperimento, la
frequenza relativa osservata Pn(A) può essere utilizzata come approssimazione di P(A);
tale approssimazione è detta probabilità (distribuzione) empirica di A.
Al solito, introduciamo un esperimento aleatorio semplice, definito su un certo
spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile
casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard
d (che assumiamo essere finite). Supponiamo ora di ripetere l'esperimento per formare
una sequenza di variabili casuali indipendenti (ciascuna distribuita come X ), cioи
campioniamo dalla distribuzione di X): X1, X2, X3, ... . La funzione q che assegna le
frequenze alle classi è nota come distribuzione di frequenza per i dati . Ugualmente, p
e f definiscono rispettivamente la distribuzione di frequenza relativa e la
distribuzione di densità per i dati. Se k = 1 o 2, il grafico a barre di queste distribuzioni

30
è detto istogramma. La ragione per cui si costruiscono e si disegnano queste
distribuzioni empiriche è quella di raccogliere e presentare i dati in maniera informativa
(Fig.3). Alcuni suggerimenti nella scelta delle classi sono i seguenti: (I) Il numero di
classi dev'essere limitato; (ii) possibilmente, le classi devono avere la stessa dimensione.
Quando parliamo di distribuzioni, supponiamo di avere un esperimento casuale
con spazio campionario R e misura di probabilità P. Una variabile casuale X, relativa
all'esperimento che assume valori in un insieme numerabile S, si dice avere
distribuzione discreta (un analogia si può fare direttamente con la distribuzione di
frequenza). La distribuzione di probabilità di una variabile casuale discreta è
completamente individuata dalla sua funzione di densità. Una distribuzione di
probabilità discreta è equivalente ad una distribuzione di massa discreta, con massa
totale 1. In questa analogia - S è l'insieme (numerabile) dei punti di massa, e f(x) è la
massa del punto x appartenente a S. La proprietà (c) dell'esercizio 1 significa
semplicemente che la massa di un insieme A può essere trovata sommando le masse dei
punti di A (per esempio, se un'urna contiene 60 palline rosse e 30 blu e si fa estrarre a
caso un campione di 10 palline, il numero Y di palline rosse del campione può essere la
somma di tutte le paline rosse estratte, indicate con "1"; le eventuali palline blu possono
essere indicate con "0" e hanno un altra distribuzione, densità e fanno parte di un altro
insieme, diverso da quello delle palline rosse).
Al solito, supponiamo di avere un esperimento casuale con spazio campionario
R e misura di probabilità P. Una variabile casuale X a valori in un sottinsieme S di Rn si
dice avere distribuzione continua se P(X=x)=0 per ogni x appartenente a S. Il fatto che
X assuma ogni singolo valore con probabilità 0 può sembrare paradossale in prima
battuta, ma non è concettualmente diverso dall'affermare che un intervallo di R possa
avere lunghezza positiva anche se composto da punti che hanno tutti lunghezza 0.
Similmente, una regione di R2 può avere area positiva anche se composta da punti (o
curve) che hanno tutti area 0. Quindi, le distribuzioni continue sono diverse dalle
distribuzioni discrete, per le quali tutta la massa di probabilità è concentrata su un
insieme discreto. Per una distribuzione continua, la massa di probabilità è ripartita in
senso continuo su S. Notare inoltre che S non può essere numerabile (per esempio, noi
possiamo usare i dati di peso o i dati sulla cicala dove L indica la lunghezza delle ali e
così possiamo costruire una distribuzione e/o una funzione di densità empirica per
[VL])., Dobbiamo, però, sapere che la distribuzione di probabilità di X (variabile
continua) è completamente individuata dalla funzione di densità. Di converso, ogni
funzione che soddisfa le proprietà (a) e (b) è una funzione di densità di probabilità, per
cui la proprietà (c) può essere utilizzata per definire una distribuzione continua su S (un
elemento x appartenente a S, per cui la densità f è massima, è detto moda della
distribuzione; così, se esiste un'unica moda, la si usa a volte come misura del centro
della distribuzione). A differenza del caso discreto, la funzione di densità di una
distribuzione continua non è unica. Notiamo che i valori di f su un insieme finito (o
anche numerabile) di punti può essere modificata con altri valori non negativi, e le
proprietà (a), (b) e (c) continuerebbero a valere. Il fatto importante è che sono rilevanti
solo gli integrali di f. Un'altra differenza è che f(x) può essere maggiore di 1; all'atto
pratico, f può essere illimitato su S. Dobbiamo ricordare che f(x) non è una probabilità,
è una densità di probabilità.

31
Le serie di famiglie parametriche di distribuzioni hanno un ruolo di particolare
importanza in statistica. In alcuni casi, queste distribuzioni sono rilevanti perché si
presentano come limite di altre. In altri casi, l'importanza di una distribuzione deriva dal
fatto che può essere utilizzata per modellare un'ampia varietà di fenomeni aleatori. Ciò è
di solito importante perché queste famiglie presentano un'ampia varietà di densità con
un numero limitato di parametri (di solito uno o due). Come principio generale, è uile
modellare un fenomeno aleatorio col minor numero possibile di parametri; questo è noto
come principio di parsimonia. Questo, tra l'altro, è un riflesso particolare del rasoio di
Occam, che prende il nome da Guglielmo di Occam; tale principio stabilisce che per
descrivere un certo fenomeno è sempre meglio utilizzare il modello più semplice.
Supponiamo che una variabile casuale Z a valori reali abbia una distribuzione
continua con funzione di densità g e funzione di ripartizione G. Siano a e b costanti con
b>0. Dimostrare che X = a+bZ ha funzione di densità f e funzione di ripartizione F, con
F(x) = G[(x - a) / b] e f(x) = (1 / b) g[(x - a) / b]. Questa famiglia a doppio parametro è
indicata come famiglia di posizione e scala associata alla distribuzione data; a è detto
parametro di posizione e b parametro di scala. Nel caso in cui b=1, la famiglia possiede
un solo parametro ed è detta famiglia di posizione associata alla distribuzione data; nel
caso in cui a=0, si parla invece di famiglia di scala.
Sotto, possiamo dare alcuni esempi di distribuzione piu utilizzate che dobbiamo
conoscere:
a) Distribuzione Normale: La distribuzione normale ricopre un ruolo di
particolare rilievo nel calcolo delle probabilità e nella statistica, in larga parte grazie al
teorema limite centrale che fa da ponte tra queste due discipline. In più, come avremo
modo di osservare, la distribuzione normale possiede molte utili proprietà matematiche.
La distribuzione normale è nota anche come distribuzione Gaussiana, in onore di Carl
Friedrich Gauss, che è stato tra i primi a utilizzarla. Le più importanti proprietà della
distribuzione normale si ottengono più facilmente utilizzando la funzione generatrice
dei momenti. Come la notazione stessa suggerisce, i parametri di posizione e scala sono,
rispettivamente, la media e la deviazione standard (per esempio, nella statistica
inferenziale si può trovare la probabilità che il peso complessivo di 5 pesche superi i 45
kg se sappiamo che il peso di una pesca proveniente da un certo frutteto è distribuito
normalmente con media 8 kg e deviazione standard di 1 kg). Dobbiamo, tuttavia, dire
che la varianza (deviazione standard al quadrato o SD2) di X è il momento secondo di
X centrato sulla media e misura la dispersione della ditribuzione di X attorno alla media.
I momenti centrali terzo e quarto di X misurano anch'essi caratteristiche interessanti
della distribuzione. Il momento terzo misura la skewness, ovvero l'asimmetria, mentre
il momento quarto misura la curtosi, ovvero il grado di "appuntimento" della
distribuzione. Le misure numeriche di tali caratteristiche vengono standardizzate, per
eliminare le unità di misura, dividendo per una potenza appropriata della deviazione
standard.
b) Distribuzione di Student (T-distribuzione): Per studiare la distribuzione di
T (di Student) dobbiamo mostrare altre due distribuzioni (gamma e chi-quadro). In
particolare, i tempi di arrivo del treno nei processi di Poisson hanno una distribuzione
gamma, e la distribuzione chi-quadro è un caso speciale della gamma. Per ogni k>0
(parametro di forma), la seguente funzione f(x)=xk-1exp(-x)/gam(k) per x>0 è funzione

32
di densità di probabilità - una variabile casuale X che possiede questa funzione di
densità ha distribuzione gamma con parametro di forma k. Per n>0, la distribuzione
gamma con parametro di forma k=n/2 e parametro di scala 2 è detta distribuzione chi-
square con n gradi di libertà. La distribuzione di T è detta distribuzione t di Student con
n gradi di libertà. La distribuzione è definita per ogni n>0, ma in pratica si considerano
interessanti solo i valori interi positivi di n. Questa distribuzione fù introdotta da
William Gosset, che pubblicava sotto lo pseudonimo di Student. Oltre a riportare la
dimostrazione, l'esercizio 1 rappresenta anche una maniera interessante di vedere la
distribuzione t: essa si presenta quando la varianza di una distribuzione a media 0 è in
qualche modo casualizzata (nella distrubuzione di T la curtosi è negativa e la curva è piu
bassa che la normale o cosiddetta “flat”).
c) Distribuzione di Poisson (funzione di densità): La distribuzione di Poisson
è una delle più importanti della teoria della probabilità. In generale, una variabile
casuale discreta N di un certo esperimento si dice avere distribuzione di Poisson con
parametro c>0 se ha funzione di densità g(k)=P(N=k)=e-c*ck/k! per k = 7, 6, ... . La
distribuzione corrispondente è detta distribuzione di Poisson con parametro c e prende
nome da Simeon Poisson. Abbiamo mostrato che il k-esimo tempo di arrivo del treno ha
funzione di densità gamma con parametro di forma k e parametro di velocità r:
fk(t)=(rt)k-1re-rt /(k-1)!, t > 0. Ricordiamo inoltre che almeno k arrivi si presentano
nell'intervallo (0, t] se e solo se il k-esimo arrivo si presenta prima di t: Nt k se e solo se
Tk≤t. Nell'esperimento di Poisson, possiamo modificare r e t con le barre a scorrimento
e osserva la forma della funzione di densità. Con r=2 e t=3, possiamo simulare 1000
replicazioni, aggiornando ogni 10, e osservare la convergenza delle frequenze relative
alla funzione di densità. Semplicemente, la distribuzione di Poisson riflette la
probabilità di un certo numero di eventi quando il numero di prove (“trials”) è troppo
grande, ma la possibilita (caso, “chance”) per un evento è troppo bassa (simile alla
distribuzione binomiale). Per esempio, nei casi di eventi molto rari (per esempio,
registrazione delle malatie rare), si puòo anche dire che qui spesso la media e la varianza
sono in un certo senso uguali e la distribuzione ha un solo parametro (eventi = “trials”!).
Per esempio sono conoscuti anche altre distribuzioni interessanti. La
distribuzione zeta si usa per modellare la dimensione di certi tipi di oggetti estratti
casualmente da certi tipi di popolazioni. Esempi classici sono la lunghezza di una parola
scelta casualmente da un testo o la popolazione di una città scelta a caso in un certo
paese. La distribuzione zeta è nota anche come distribuzione di Zipf, in onore del
linguista americano George Zipf. La distribuzione di Pareto è asimmmetrica e con code
spesse e si usa in certi casi per modellare la distribuzione del reddito.La distribuzione
logistica si usa nei modelli di crescita e in certi tipi di regressione, che prendono il nome
di regressioni logistiche.

2.2.2. Test statistici delle ipotesi. Inferenze statistiche

Se abbiamo un esperimento casuale definito su un certo spazio campionario e


con misura di probabilità P, possiamo introdurre nel modello statistico di base una
variabile casuale osservabile X che assume valori in S. Ad esempio, se l'esperimento
consiste nell'estrarre n unità da una popolazione e registrare le varie misure di interesse,

33
allora X = (X1, X2, ..., Xn) dove Xi è il la misurazione per l'i-esima unità. Il caso più
importante si ha quando X1, X2, ..., Xn, sono indipendenti e identicamente distribuiti.
Si ha allora un campione casuale di dimensione n dalla distribuzione comune (totale).
Un'ipotesi statistica è un'asserzione sulla distribuzione della variabile X;
equivalentemente, un'ipotesi statistica individua un insieme di possibili distribuzioni per
X. L'obiettivo del test di ipotesi è valutare se vi è sufficiente evidenza statistica per
rifiutare un'ipotesi nulla in favore dell'ipotesi alternativa. L'ipotesi nulla si indica di
solito con H0, mentre l'ipotesi alternativa con H1 (Ha). Un'ipotesi che specifica una
singola distribuzione per X si dice semplice; un'ipotesi che ne specifica più di una X si
dice invece composta. Un test di ipotesi conduce a una decisione statistica; la
conclusione potrà essere di rifiutare l'ipotesi nulla in favore di quella alternativa, o di
non poter rifiutare l'ipotesi nulla. Ovviamente la decisione che prendiamo è basata sui
dati di cui disponiamo X. Pertanto, dobbiamo trovare un sottinsieme R dello spazio
campionario S e rifiutare H0 se e solo se X appartiene a R. L'insieme R è detto regione
di rifiuto o regione critica. Usualmente, la regione critica è definita in funzione di una
statistica W(X), detta statistica test (Figura 2.3).
La decisione che prendiamo potrebbe essere corretta o errata. Esistono due tipi di
errore (come visto sopra), a seconda di quale delle due ipotesi è vera: (i) un errore di
prima specie consiste nel rifiutare l'ipotesi nulla quando è vera; (ii) Un errore di seconda
specie consiste nel non rifiutare l'ipotesi nulla quando è falsa. Similmente, esistono due
modi di prendere una decisione corretta: possiamo rifiutare l'ipotesi nulla quando è falsa
o non rifiutare l'ipotesi nulla quando è vera. Le possibilità sono date in questo modo:

Test di ipotesi    Decisione


Non rifiuto H0 Rifiuto H0
Stato reale H0 è vera Decisione corretta Errore di prima specie
H0 è falsa Errore di seconda specie Decisione corretta

Figura 2.3

Se H0 è vera (cioè la distribuzione di X è specificata da H0), allora P(X∈R) è la


probabilità di un errore di prima specie per questa distribuzione. Se H0 è composta,
allora H0 specifica una varietà di distribuzioni per X e, pertanto, esiste un insieme di
probabilità di errori di prima specie. La massima probabilità di un errore di prima specie
è detta livello di significatività del test o ampiezza della regione critica, che indicheremo
con r. Di solito si costruisce la regione di rifiuto in modo che il livello di significatività
sia un valore prefissato e piccolo (tipicamente 0.1, 0.05, 0.01).
Se H1 è vera (cioè la distribuzione di X è specificata da H1), allora P(X∈Rc) è la
probabilità di un errore di seconda specie per questa distribuzione. Di nuovo, se H1 è
composta, allora H1 specifica una varietà di distribuzioni per X, ed esiste quindi un
insieme di probabilità di errori di seconda specie. Esiste, di solito, un compromesso tra
le probabilità di errori di prima e seconda specie. Se riduciamo la probabilità di un
errore di prima specie, riducendo l'ampiezza della regione R incrementiamo
necessariamente la probabilità di errore di seconda specie, poiché Rc è più grande.

34
La potenza del test: se H1 è vera (cioè la distribuzione di X è specificata da
H1), allora P(X∈R), la probabilità di rifutare H0 (e prendere quindi una decisione
corretta), è detta potenza del test. Supponiamo di avere due test, a cui corrispondono
rispettivamente le regioni di rifiuto R1 e R2, ciascuna con livello di significatività r. Il
test con regione R1 è uniformemente più potente del test con regione R2 se P(X∈R1)
P(X∈R2) per ogni distribuzione di X specificata da H1. Ovviamente, in questo caso,
preferiremmo il primo test. Infine, se un test ha livello di significativtità r ed è
uniformemente più potente di ogni altro test con livello di significativtà r, allora il test si
dice uniformemente più potente al livello a. Un test del genere è il migliore di cui
possiamo disporre.
La p-value: nella maggior parte dei casi si dispone di una procedura generale
che ci consente di costruire un test (cioè una regione di rifiuto Rr) per ogni dato livello
di significativtà r. Tipicamente, Rr decresce (nel senso della dimensione del sottinsieme)
al crescere di a. In questo contesto, il p-value della variabile X, indicato come p(X) è
definito come il più piccolo r per cui X appartiene a Rr; cioè il minor livello di
significatività per cui H0 sarebbe rifiutata dato X. Conoscere p(X) ci consente di testare
H0 ad ogni livello di significatività, sulla base dei dati: se p(X) r, allora rifiuteremo H0
al livello di significatività r; se p(X) > r, non rifiuteremo H0 al livello di significatività r.
Nota che p(X) è una statistica.
Il test di ipotesi è un concetto generale, ma un caso particolarmente importante si
ha quando la distribuzione della variabile X dipende da un parametro a, che assume
valori in uno spazio parametrico A. Ricorda che, usualmente, a è un vettore di parametri
reali A Rk per un certo k. L'ipotesi, di solito, ha forma H0: a∈A0 contro H1: a∈A–A0
dove A0 è un sottinsieme di A (quì il test è su un parametro ignoto). In questo caso, la
probabilità di compiere un errore (o di prendere una decisione corretta) dipende dal
valore vero di a. Se R è la regione di rifiuto, allora la funzione di potenza è Q(a)=P(X∈
R | a) per a∈A.
Supponiamo che X1, X2, ..., Xn sia un campione casuale della distribuzione
normale con media µ e varianza d2. In questo paragrafo impareremo a costruire test di
ipotesi per µ, cioè una delle situazioni più rilevanti. La procedura di test è diversa a
seconda che si conosca oppure no d; per questa ragione, d rappresenta un parametro di
disturbo relativamete al problema del test per µ. Gli elementi chiave nella costruzione
del test sono la media campionaria e la varianza campionaria nonchè le proprietà di
queste statistiche quando la distribuzione è normale (vediamo sotto le definizioni
pratiche). Supponiamo in primo luogo che la deviazione standard d sia nota (o possimo
averla dal campione stesso); questa assunzione è di solito artificiale, ma non sempre (il
test per µ con d noto). Lo spazio parametrico è quindi {µ: µ appartiene a R} ed ogni
ipotesi definisce sottinsiemi di questo spazio. La statistica test che utilizzeremo è Z0 =
(M-µ0)/(d/n1/2). Nota che Z0 è la distanza della media campionaria da µ0 in unità di
deviazioni standard. Pertanto, Z0 dovrebbe fornire buone informazioni sulle ipotesi
relative a µ0.
L'insieme di confidenza (intervallo di confidenza): supponiamo inoltre che la
distribuzione di X dipenda da un parametro a che assume valori in uno spazio
parametrico A. Normalmente, a è un vettore di parametri reali, cosicché A è un

35
sottinsieme di Rk per dati k e a = (a1, a2, ..., ak). Un insieme di confidenza è un
sottinsieme A(X) dello spazio parametrico A che dipende esclusivamente dalla variabile
X, e non da altri parametri ignoti. Quindi, in un certo senso, è una statistica che assume,
come valori, degli insiemi. Un insieme di confidenza è una stima di a, nel senso che ci
aspettiamo che a appartenga ad A(X) con probabilità elevata. Di solito si cerca di
costruire un insieme di confidenza per a con un certo livello di confidenza 1-r, dove
0<r<1. Il livello di confidenza è la più piccola probabilità che a appartenga ad A(X).
Livelli di confidenza comunemente utilizzati sono 0.9, 0.95, e 0.99. A volta la cosa
migliore che si può fare è costruire un insieme di confidenza il cui livello di confidenza
è almeno 1-r; questo è detto insieme di confidenza conservative 1-r per a.
Si osserva che, quando effettuiamo un esperimento e osserviamo i dati x,
l'insieme di confidenza calcolato è A(x). Il valore vero del parametro a può appartenere
oppure no a questo insieme, e di solito ciò è ignoto. In ogni caso, per la legge dei grandi
numeri, se ripetiamo più volte l'esperimento, la proporzione di insiemi che contiene a
converge a P[a∈A(X) | a) ≥ 1-r. Questo è il significato del termine confidenza.
Dobbiamo notare che la qualità di un intervallo di confidenza come stimatore di
a, dipende da due fattori: il livello di confidenza e la dimensione dell'insieme; una
buona stima ha dimensione ridotta (e pertanto definisce un intervallo ristretto per a) ed
elevata confidenza. In ogni caso, per un dato X, esiste di solito un compromesso tra
livello di confidenza e dimensione: aumentare il livello di confidenza implica aumentare
la dimensione dell'insieme.
In molte situazioni si ha interesse a stimare un certo parametro reale b = b(a). Per
esempio, se a è un vettore, b può rappresentare una delle coordinate di a; le altre
coordinate, in questo contesto, risulterebbero essere parametri di disturbo. In questo
caso, l'insieme di confidenza ha forma A(X) = {a∈A: L(X)≤b≤U(X)} dove L(X) e U(X)
sono statistiche. In questo caso [L(X), U(X)] è detto intervallo di confidenza
(bilaterale) per b. Se l'insieme di confidenza ha forma A(X) = {a∈A: L(X)≤b} allora
L(X) è detto limite inferiore di confidenza per b. Se l'insieme di confidenza ha forma
A(X)={a∈A: b≤U(X)} allora U(X) è detto limite superiore di confidenza per b.
Dobbiamo sapere che se riusciamo a costruire un intervallo di confidenza per un
parametro, allora possiamo costruire un intervallo di confidenza per una funzione del
parametro.
I quantili: Sia X una variabile casuale con funzione di ripartizione F.
Supponiamo che p∈(0,1). Un valore di x tale che F(x-)=P(X<x)≤p e F(x)=P(X≤x)≥p è
detto quantile di ordine p per la distribuzione. In prima approssimazione, un quantile
di ordine p è un valore per cui la distribuzione cumulata passa per p. Notiamo che
sussiste una sorta di relazione inversa tra i quantili e i valori della distribuzione
cumulata. Per esplorare ulteriormente questa relazione, supponiamo in primo luogo che
F sia la funzione di ripartizione di una distribuzione continua su un intervallo aperto S
(poiché la distribuzione è continua, non si perde in generalità assumendo che S sia
aperto). Inoltre, supponiamo che F sia strettamente crescente, e che vada da S su (0,1)
ciò significa che ciascun sottointervallo aperto di S ha probabilità positiva, cosicché la
distribuzione ha supporto in S (F, allora, ha un'inversa definita F-1 che vada da (0,1) su
S). Un quantile di ordine 1/2 si dice mediana della distribuzione. Quando c'è una sola

36
mediana, la si può utilizzare come misura del centro della distribuzione. Un quantile di
ordine 1/4 è detto primo quartile e uno di ordine 3/4 - terzo quartile. Una mediana è un
secondo quartile. Assumendo l'unicità, siano q1, q2 e q3 rispettivamente primo,
secondo e terzo quartile di X. Nota che l'intervallo da q1 a q3 include metà della
distribuzione, per cui lo scarto interquartile si definisce come IQR=q3–q1
(“interquartile range”), ed è a volte usato come misura della dispersione della
distribuzione rispetto alla mediana. Siano a e b rispettivamente i valori minimo e
massimo di X (assumendo che siano finiti). I cinque parametri a, q1, q2, q3, b sono
detti spesso five-number summary. Presi insieme, tali parametri contengono un bel po' di
informazioni sulla distribuzione in termini di centralità, dispersione e asimmetria. Per
fare inferenze statistiche. Graficamente, tali parametri sono spesso rappresentati in un
boxplot, formato da una linea che si estende dal valore minimo a al valore massimo b,
con una rettangolo da q1 a q3, e segni in a, q2 (la mediana) e b.

37
2.3. Parametri statistici qualitativi: eventi e non-eventi (“outcome”) e loro
intensità e frequenze.

Dati categorici (qualitativi o “count data”) descrivono carateristiche; si


utilizzano e registrano come numeri interi o lettere; possono essere espressi dal numero
di individui (per esempio, pazienti, estrazione o no di una palline rossa, ecc.) e
occorrono in un campione o numero di specie avendo un aspetto piuttosto che l'altro
(rosso verso verde). Dati continui possono essere trasformati in dati categorici usando
un range o parte del range (“segment”) e registrati come numero di valori che
appartengono nel questo range (segmento).
Per esempio, l'intensità (paramteri intensisvi; “rate”) descrive la frequenza di un
fenomeno (evento) nella popolazione (una malatia nella popolazione N=21,000) nella
regione di Reggio Calabria per un periodo di tempo (un anno):

No. pazienti 180


Incidenza cruda = ------------------------- * 1,000 = ---------- * 1,000 = 8.6 ‰
No. popolazione 21,000

Si puo dire che anche i parametri estensivi (percentuale) possono descrivere la


frequenza della malatia, pero, come una proporzione (razio) dei pazienti (np = 180) verso
l'individui sani nella popolazione totale dello studio (n=400) per lo stesso periodo di
tempo di un anno (Figura 2.4):

Healthy
persons
55%

Patents
45%

Figura 2.4

No. pazienti 180


Proporzione = ------------------------------------------ * 100 = -------- * 100 = 45%
No. totale dei individui 400

Percentuale (p%) = 100-q%o proporzione (p) = 1 – q


Errore standard (sp) = √(p*q/(np-1))*(1-np/n)

38
Gli eventi (“occurrence of the phenomenon”) in corrispondenza tra di loro
possono essere espressi con loro probabilità proprie e/o probabilità relative (“odds
ratio”, rischio relativo, ecc., Tabella 2.2). Si possono usare anche altri approci e test
come chi-quadro (χ2), test di Fisher, ecc., per valutare queste correspondenze tramite gli
eventi.

Tabella 2.2

Malattia Malattia Totale


(+) (-)

a1 b1 c1
Esposizione (+) 172 28 200 AbsR1 = 0.860
Esposizione (-) 69 131 200 AbsR2 = 0.345
a2 b2 c2
400 RR = 2.4928

39
2.4. Parametri statistici quantitativi: la tendenza centrale (media, mediana,
moda) e le variazioni.

Come abbiamo visto, le variabili continue descrivono i fenomeni con la


variazione delle caratteristiche. La precisione è limitata dallo strumento e/o dal metodo
utilizzato (sfigmomanometro, bilancia, termometro, ecc.). La variazione e l'aspetto più
importante di queste variabili.
Il valore atteso è uno dei concetti più importanti di tutta la probabilità. Il valore
atteso di una variabile casuale a valori reali indica il centro della distribuzione della
variabile in un senso particolare. In più, calcolando il valore atteso di varie
trasformazioni reali di una generica variabile, possiamo ricavare una varietà di
importanti caratteristiche della variabile, comprese misure di dispersione, simmetria e
correlazione. Per esempio, sia W una variabile casuale indicatore (cioè una variabile che
assume solo i valori 0 e 1 o discreta). In particolare, se WA è l'indicatore dell'evento A,
allora E(IA)=P(A), per cui, in un certo senso, il valore atteso individua la probabilità.
Un testo che usa come concetto fondamentale il valore atteso e non la probabilità è
Probability via Expectation, di Peter Whittle. Se X (il colore della pallina: rosso o
verde) ha distribuzione discreta con funzione di densità f, il valore atteso di X è definito
come E(X).
Se X (PAS) ha distribuzione continua con funzione di densità f1, il valore atteso
di X è definito come E1(X) (Tabella 2.3). In ogni caso, il valore atteso di X (sempre
una somma in un certo senso) può non esistere, poiché la sommatoria o l'integrale può
non convergere. Il valore atteso di X è detto anche media della distribuzione di X ed è
spesso indicato con µ (nella popolazione totale). La media è il centro della
distribuzione di probabilità di X in un senso particolare. Se pensiamo alla distribuzione
come a una distribuzione di massa, la media è il baricentro fisico della massa.
Ricordiamo, a questo proposito, gli altri indici di centralità che abbiamo studiato: la
moda è ogni valore di x che massimizza f(x); la mediana è ogni valore di x che
soddisfa P(X<x)≤1/2, P(X≥x)≥1/2. Per interpretare il valore atteso in senso
probabilistico, supponiamo di generare un nuovo esperimento composto ripetendo più
volte l'esperimento semplice. Ciò produce una successione di variabili casuali
indipendenti, X1, X2, X3 ... ciascuna distribuita come X. In termini statistici, stiamo
campionando dalla distribuzione di X. Il valore medio, o media campionaria, dopo n
replicazioni è Mn = (X1 + X2 + ··· + Xn)/n. Il valore medio Mn converge al valore
atteso µ per n→∞.

Tabella 2.3
No. PAS [mmHg]
1 115.35
2 121.47
3 125.63
… …
90 118.22

40
Le statistiche principali per descrivere PAS sono:

§ n – il numero dei casi nel campione (“sample size”);


§ xn – l'osservazione individuale (valore) nel campione (individual sample
observation with number n);
§ m o (x) – la media campionaria (x=Σx/nx); la media indica l'effetto dei
fattori determinanti sulla variabile (fenomeno, evento) nonostante
rapresenti solo uno stimatore della media propria (µ) della popolazione
totale (generale);
§ S.E.M. (sx) – errore standard campionaria della media campionaria;
§ varx (s2) – varianza (varx=Σ(xi-x)2/(n-1));
§ S.D. (s) – deviazione standard campionaria; la deviazione indica
l'influenza dei fattori casuali (“random”); la deviazione è lo stimatore
della deviazione standard propria (σ) della poplazione totale;
§ C.I. (x±∆ o x-∆ e x+∆) – intervallo di confideza con limite inferiore e
superiore di confidenza;
§ d.f. –i gradi di liberta; questa si riferisce ai numeri di items che possono
essere variati nella base di dati (dataset, df = n-1, Tabella 2.4).

Tabella 2.4

No. A A1
1 2 6
2 4 1
3 3 3
4 5 x
Totale 14 14
df = n – 1 = 4 – 1 = 3  dfA=3

q Mediana – il punto centrale (uguale alla media nella distribuzione


normale)
q Moda – il valore piu frequente (uguale alla media nella distribuzione
normale)
q Skewness – livello di asimmetria della distribuzione (uguale a 0 nella
distribuzione normale)
q Curtosi – livello di eccesso (“excess”) della distribuzione (uguale a 0
nella distribuzione normale)

41
2.5. Presentazione e valutazione della distribuzione empirica: istogrammi e
normalità di una distribuzione continua.

La media (x) e la deviazione standard (s) sono i parametri più importanti; i valori
individuali sono distribuiti attorno alla media (simmetricamente nella distribuzione
normale) così che il 95% di loro si trovano nell spazio di 1.96 deviazioni standard e il
99% nello spazio di 2.58 deviazione standard di ogni parte della media (Figura 2.5).

18

16

14

12
Frequency

10

6
Sample statistics
4

Std. Dev = 2.28


2
Mean = 120

0 N = 42.00
114 116 118 120 122 124 126

Systolic blood pressure [mmHg]

x–∆ x x+∆

95% C.I. 119.3---120---120.7


99% C.I. 119.1------120------120.9

Figura 2.5

Come detto prima, il livello di confidenza si referisce alla probabilità desiderata


selezionata dall'investigatore cosi che la media vera (reale) della popolazione totale (µ)
si trovi tra questi limiti. Nei nostri studi clinici si tiene conto della probabilità di 0.95
(95%) o 0.99 (99%) per questi limiti di confidenza (in questo caso, S.E.M.SBP = 0.35).

95% C.I. = x ± 1.96 * S.E.M.


99% C.I. = x ± 2.58 * S.E.M.

42
2.6. OUTPUT di SPSS 11.0

Appendice 2.I

VARIABILE QUALITATIVA (SESSO)

2.I.A.1. Syntassi (frequenze)


FREQUENCIES
VARIABLES=sesso_c
/BARCHART PERCENT
/ORDER= ANALYSIS .

2.I.A.2. Output (frequenze)

SESSO_C
Frequenza Percentuale Percentuale Percentuale
valida cumulata
Validi F 11 19.0 19.0 19.0
M 47 81.0 81.0 100.0
Totale 58 100.0 100.0

2.I.A.3. Output (grafica)


SESSO_C
100

80

60

40

20
Percentuale

0
F M

SESSO_C

Figura 2.6

43
Appendice 2.II

VARIABILE QUANTITATIVA (PESO)

2.II.A.1. Sintassi (descrittiva)

DESCRIPTIVES
VARIABLES=peso
/STATISTICS=MEAN SUM STDDEV VARIANCE RANGE MIN MAX SEMEAN
KURTOSIS SKEWNESS.

2.II.A.2. Output (descrittiva)

Statisticа descrittiva (originale)


Statistiche descrittive
N Intervallo Minimo Massimo Somma Media Deviazione std. Varianza Asimmetria Curtosi
Statistica Statistica Statistica Statistica Statistica Statistica Errore std Statistica Statistica Statistica Errore std Statistica Errore std
PESO 58 75.00 42.00 117.00 4001.00 68.9828 1.9254 14.66317 215.008 1.041 .314 2.007 .618
Validi (listwise) 58

Statisticа descrittiva (trasposta)

Statistiche descrittive
PESO Validi (listwise)
N Statistica 58 58
Intervallo Statistica 75.00
Minimo Statistica 42.00
Massimo Statistica 117.00
Somma Statistica 4001.00
Media Statistica 68.9828
Errore std 1.9254
Deviazione std. Statistica 14.66317
Varianza Statistica 215.008
Asimmetria Statistica 1.041
Errore std .314
Curtosi Statistica 2.007
Errore std .618

44
2.II.B.1. Sintassi (frequenze)

FREQUENCIES
VARIABLES=peso /NTILES= 4 /PERCENTILES= 5 50 95
/STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN
MEDIAN MODE SUM SKEWNESS SESKEW KURTOSIS SEKURT
/ORDER= ANALYSIS .

2.II.B.2. Output (frequenze)

Statistiche

PESO
N Validi 58
Mancanti 0
Media 68.9828
E.S. della media 1.92537
Mediana 69.0000
Moda 70.00
Deviazione std. 14.66317
Varianza 215.00847
Asimmetria 1.041
Errore std dell'asimmetria .314
Curtosi 2.007
Errore std della curtosi .618
Intervallo 75.00
Minimo 42.00
Massimo 117.00
Somma 4001.00
Percentili 5 46.9500
25 60.0000
50 69.0000
75 74.3750
95 98.7250

PESO
Frequenza Percentuale Percentuale Percentuale
valida cumulata
Validi 42.00 1 1.7 1.7 1.7
46.00 1 1.7 1.7 3.4
… . .. .. ..
117.00 1 1.7 1.7 100.0
Totale 58 100.0 100.0

45
2.II.C.1. Sintassi (istogramma)

GRAPH
/HISTOGRAM(NORMAL)=peso .

2.II.C.2. Output (istogramma)

12

10

2 Std. Dev = 14.66


Mean = 69.0

0 N = 58.00
40.0 50.0 60.0 70.0 80.0 90.0 100.0 110.0
45.0 55.0 65.0 75.0 85.0 95.0 105.0 115.0

PESO

Figura 2.7

46

STATISTICA ESPLORATIVA

Parte teorica:
Confronti delle variabili: campioni indipendenti o appaiati, test
parametrici e non-parametrici per confrontare due campioni (e.g.,
t-test,), proporzioni osservate e teoriche o tra due proporzioni
osservate (e.g.,χ2-test).
Analisi della varianza (ANOVA) e confronto dei variabili
continue, condizioni (assumptions) per applicare vari tipi di
ANOVA, F-test.

Parte teorico-pratica:
Confronto delle variabili qualitative: proporzioni (e.g., tabelle 2x2
ed esempio con fattori di rischio o di trattamento).
Confronto delle variabili quantitative (continue) con distribuzione
normale (t-test) o asimmetriche (e.g., Mann-Whitney test,
Wilcoxon test, etc.).
ANOVA: analisi della varianza dei campioni indipendenti o
appaiati.

47
3.1. Confronto delle variabili: campioni indipendenti o appaiati con test
parametrici o non-parametrici (con test di Kolmogorov-Smirnov per distribuzione
normale).
In questo paragrafo, studieremo il test di ipotesi nel modello normale a due
campioni. Supponiamo in primo luogo che X = (X1, X2, ..., Xn1) sia un campione
casuale di dimensione n1 della distribuzione normale con media µ1 e varianza d1 2 e che
Y=(Y1, Y2,..., Yn2) sia un campione casuale di dimensione n2 della distribuzione
normale con media µ2 e varianza d22. Supponiamo inoltre che i campioni X e Y siano
indipendenti. Prima di confrontare le variabili dobbiamo applicare il test non-
parametrico di Kolmogorov-Smirnov per valutare la distribuzione (Figira 3.1).
A)

B) Test di Kolmogorov-Smirnov per un campione


Stipendio iniziale
Numerosità 1100
Parametri normali Media 26064.21
Deviazione standard 6967.982
Differenze più estreme Assoluto .049
Positivo .034
Negativo -.049
Z di Kolmogorov-Smirnov 1.636
Sig. Asint. a 2 code .009
a La distribuzione del test è Normale. b Calcolato dai dati.

Figura 3.1

48
Questa situazione di confronto si verifica di frequente quando le variabili
casuali rappresentano delle misurazioni di interesse sulle unità della popolazione, e i
campioni corrispondono a due diversi trattamenti. Per esempio, possiamo essere
interessati alla pressione sanguigna di una certa popolazione di pazienti. X registra la
pressione sanguigna di un campione di controllo, mentre Y registra la pressione
sanguigna di un campione trattato con un nuovo farmaco. Similmente, possiamo
essere interessati al rendimento di una piantagione di grano. X registrerebbe allora il
rendimento di un appezzamento trattato con un tipo di fertilizzante, mentre Y quello di
un appezzamento trattato con un altro tipo di fertilizzante.
Di solito, siamo interessati a un confronto tra i parametri (media o varianza) per
le due distribuzioni. Cosi impareremo a costruire test per la differenza tra le medie
(test T) e, dopo, per il rapporto tra le varianze (test F). Analogamente a quanto
abbiamo visto per le procedure di stima, la costruzione del test è diversa a seconda che i
parametri siano noti oppure no. Gli elementi fondamentali nella costruzione dei test
sono, di nuovo le medie campionarie, le varianze campionarie e loro proprietà quando
la distribuzione è normale (Figura 3.2 e Figura 3.3).

Figura 3.2

Figura 3.3

49
Prima di analizzare e confrontare le due variabili, e sempre meglio di studiare la
variabilità (variazione). Se Z è una variabile casuale, M(X) è la media di X e Z=[X-
M(X)]/sd(X), la sua media=0 e la sua varianza=1. La variabile Z è detta a volte
standard score associato a X. Poiché X e la sua media e deviazione standard sono
espressi nella stessa unità di misura, lo standard score Z è un numero puro e misura la
distanza tra M(X) e X in termini di deviazioni standard. D'altra parte, quando M(X) è
diverso da zero, il rapporto tra deviazione standard e media è detto coefficiente di
variazione: sd(X)/M(X). Si capisce che anche questa quantità è un numero puro (può
essere moltiplicato x100 e presentato in percentuale %), ed è a volte utilizzata per
confrontare la variabilità di variabili casuali con medie diverse

50
3.2. Analisi della varianza (ANOVA): confronto dei variabili continue e F-
test.

Se abbiamo un esperimento casuale definito su un certo spazio campionario e


con misura di probabilità P, supponiamo che X sia una variabile casuale, relativa
all'esperimento, a valori in un sottinsieme S di R. Dobbiamo ricordare che il valore
atteso (o media) di X indica il centro della distribuzione di X (o, la covarianza, quando
abbiamo due variabili). La varianza di X è la misura della dispersione della
distribuzione attorno al centro ed è definita come var(X)=M{[X-M(X)]2}. La varianza
è quindi il secondo momento centrale di X. Supponiamo che X abbia distribuzione
continua con funzione di densità f, allora var(X)=S[x-M(X)] 2 f(x)dx. La deviazione
standard di X è la radice quadrata della varianza: sd(X)=[var(X)]1/2 e misura anch'essa
la dispersione attorno alla media, ma è espressa nella stessa unità di misura di X. La
varianza di Y è definita come var(Y)=M{[Y–M(Y)]2}. La deviazione standard di Y è la
radice quadrata della varianza: sd(Y)=[var(Y)]1/2.
Con ANOVA, invece di confrontare le medie, confrontiamo le varianze (Figura
3.4). Come esempio teorico, considereremo il test per il rapporto tra varianze d2 2/d12
quando le medie µ1 e µ2 sono note (ovviamente questa assunzione è spesso irrealistica).
La statistica test è F0=W12/W22)a0 dove a0>0 e si chiama test di Fisher (F-test).
Quando d22/d12=a0, allora F0 ha distribuzione F con n1 gradi di libertà al numeratore e
n2 gradi di libertà al denominatore. Consideriamo ora il test per il rapporto tra le
varianze d22/d12 sotto l'assunzione, più realistica che le medie µ1 e µ2 siano ignote
(test per d22/d12 con µ1 e µ2 ignoti). In questo caso, la statistica F-test è F0=(S12/S22)a0
dove a0>0.
.

Figura 3.4

Quando abbiamo un test nel modello normale bivariato (variabili appaiati),


consideriamo un modello simile a quello normale a due campioni, ma molto più
semplice. Supponiamo che (X1, Y1), (X2, Y2), ..., (Xn, Yn) sia un campione casuale di
dimensione n della distribuzione normale bivariata con M(X)=µ1, M(Y)=µ2,
var(X)=d12, var(Y)=d22 e la covarianza (cov(X,Y)=d1,2). Quindi, invece che una coppia
di campioni, abbiamo un campione di coppie. Questo tipo di modello si presenta di

51
frequente negli esperimenti prima e dopo, in cui si registra una misura di interesse su un
campione di n unità della popolazione prima e dopo un certo trattamento. Per esempio,
possiamo registrare la pressione sanguigna su un campione di n pazienti prima e dopo la
somministrazione di un certo farmaco. Le differenze, quindi, seguono il modello
normale a un campione che abbiamo già esaminato. In particolare, per i test per µ2-µ1,
si deve controllare sul test per la media nel modello normale, e per i test per d 2, quello
sui test per la varianza nel modello normale.
Dobbiamo dire che, calcolando il valore atteso di diverse trasformazioni di una
variabile casuale, possiamo misurare molte caratteristiche interessanti della
distribuzione della variabile e suoi rapporti con altre varaibili. Questo valore atteso
misura una particolare relazione tra due variabili a valori reali. Supponiamo che X e Y
siano variabili casuali a valori reali, relative all'esperimento, con medie M(X), M(Y) e
varianze var(X), var(Y) (ipotizzate finite). La covarianza di X e Y è definita come
cov(X, Y) = M{[X-M(X)][Y–M(Y)]} e (assumendo che le varianze siano positive) la
correlazione di X e Y è cor(X,Y) = cov(X,Y)/[sd(X)sd(Y)]. La correlazione è quindi
una versione modificata della covarianza; osserva che i due parametri hanno sempre lo
stesso segno (positivo, negativo o 0). Quando il segno è positivo, le variabili si dicono
positivamente correlate; quando il segno è negativo negativamente correlate; e quando è
0, le variabili si dicono incorrelate. Come il termine stesso suggerisce, la covarianza e la
correlazione misurano un certo tipo di dipendenza tra le due variabili (vedremo questo
nel Modulo 4).

52
3.3. Confronto delle variabili qualitative: proporzioni e fattori di rischio /
trattamento.
Ricordiamo che la probabilità, in senso pratico (stretto), e la possibilità relativa
(caso o "chance") che l'evento occorrerà; la probabilità e rappresentata come razio delle
volte che un evento occorre (number of actual occurrences) verso il numero totale di
tutte volte che questo evento può occorrere (total number of possible occurrences). Per
esempio, questa è la cosiddetta frequenza relativa con cui occorre o può occorrere un
evento. La definizione completa di un esperimento casuale richiede che si individui con
precisione quali informazioni relative all'esperimento si registrano, infatti, quello che
costituisce l'esito dell'esperimento o evento (vedi Fig.2.2 nel Modulo 2). Per un evento
A, Nn(A) è la frequenza assoluta di A. Quindi, Pn(A)=Nn(A)/n e la frequenza relativa di
A (per esempio, percentuale %). Ricordiamo anche che la funzione q che assegna le
frequenze alle classi è nota come distribuzione di frequenza per i dati . Ugualmente, p e
f definiscono rispettivamente la distribuzione di frequenza relativa e la distribuzione di
densità per i dati.
Usando dati categorici (qualitativi), possiamo esprimere gli eventi in numeri
degli individui (per esempio, pazienti con ansia in gradi diversi) e loro rapporti con le
altri eventi (tensione alta o bassa). L'intensità descrive la frequenza dei pazienti con
evento, invece, il parametro estensivo (percentuale %), descrive l'evento “ansia forte”
(n=26) come proporzione, in percentuale (54.2%) di tutti pazienti con ansia (N=48).
Come abbiamo visto, gli eventi e la corrispondenza tra di loro possono essere
espressi con probabilità proprie e/o probabilità relative (“odds ratio” OR, rischio
relativo “RR”, ecc., Tabella 3.1). Si possono usare anche altri approcci e test come chi-
quadro (χ2), test di Fisher, ecc., per valutare questi corrispondenze tramite gll'eventi che
ci interessano (vedi esempio di SPSS, Appendice 3.I).

Tabella 3.1

Tensione Alta Tensione Bassa Totale


(+) (-)

a1 b1 c1

Ansia Forte (+) 6 20 26

Ansia Minore (-) 12 10 22

a2 b2 c2
48

Nel SPSS, con la procedura “Tavole di contingenza” si consente di formare non


solo tabelle bivariate ma anche a più dimensioni e fornisce una serie di test e misure di
associazione per le tabelle bivariate. Il test o la misura da utilizzare vengono determinati

53
in base alla struttura della tabella e al fatto che le categorie siano ordinate o meno. Le
statistiche e le misure delle tavole di contingenza vengono calcolate solo per le tabelle
bivariate. Se si specifica una riga, una colonna o uno strato (variabile di controllo),
verrà visualizzato un riquadro contenente le statistiche associate e le misurazioni per
ciascun valore dello strato (o una combinazione di valori per due o più variabili di
controllo). Ad esempio, se la variabile “sesso” è uno strato per la tabella della variabile
coniugato (si, no) rispetto alla variabile “tipo di vita” (ottima, soddisfacente, non
soddisfacente), i risultati per la tabella bivariata per le donne saranno elaborati
separatamente da quelli per gli uomini e quindi stampati come riquadri in successione.
Un altro esempio può essere per i clienti rappresentati da piccole società – la domanda è
se loro siano più remunerativi per la vendita di servizi (addestramenti e consulenze)
rispetto ai clienti rappresentati da società di grandi dimensioni? Mediante una tavola di
contingenza è possibile scoprire che la maggior parte delle società di piccole dimensioni
(con un numero di dipendenti inferiore a 700) fruttano alti profitti per i servizi, mentre
la maggior parte delle grandi società (con oltre 3000 dipendenti) fruttano profitti di
scarsa entità. Il software SPSS contiene le seguenti statistiche e misure di associazione:
chi-quadrato di Pearson, chi-quadrato del rapporto di verosimiglianza, test di
associazione lineare, test esatto di Fisher, chi-quadrato corretto di Yates, R di Pearson ,
rho di Spearman, coefficiente di contingenza, phi, V di Cramer, lambda simmetrica e
asimmetrica, tau di Goodman e Kruskal, coefficiente di incertezza, gamma, D di
Somers, tau-b di Kendall, tau-c di Kendall, coefficiente eta, Kappa di Cohen, stima del
rischio relativo, rapporto odd, test di McNemar, e statistiche di Cochran e Mantel-
Haenszel.

54
3.4. Confronto delle variabili quantitative con distribuzione normale o
asimmetriche.

Per il confronto di due variabili quantitative (indipendenti) con


distribuzione normale si può usare il test parametrico (t-test) (Figura 3.5-3.6 e
Appendice 3.IIA).

Figura 3.5

Figura 3.6

55
Come visto prima, per il confronto di due variabili quantitative
(indipendenti), senza distribuzione normale (asimmetriche, ecc.), si deve fare una
trasformazione delle variabili per ottenere una distribuzione normale o usare test non-
parametrici (Figura 3.6 e Figura 3.7-3.8, Appendice 3.IIC).

Figura 3.7

Figura 3.8

56
Per il confronto di due variabili quantitative (appaiati) si possono usare test
parametrici (t-test) o test non-parametrici secondo la distribuzione (Figura 3.9-3.10,
Appendice 3.IIB/D).

Figura 3.9

Figura 3.10

57
3.5. ANOVA univariata: analisi della varianza.
Per applicare l'ANOVA dobbiamo avere una distribuzione normale (c0). Il
fattore deve essere codificato come variabile numerica (sex_n) (Figura 3.11-3.12,
Appendice 3.III).

Figura 3.11

Figura 3.12

58
3.6. OUTPUT di SPSS 11.0

Appendice 3.I

CONFRONTO DELLE VARIABILI QUALITATIVE

3.I.1. Syntassi (tavole di contingenza)

CROSSTABS
/TABLES=ansia BY tensione
/FORMAT= AVALUE TABLES /STATISTIC=CHISQ CORR D BTAU RISK CMH(1)
/CELLS= COUNT EXPECTED ROW COLUMN TOTAL .

3.I.2. Output (tavole)


Riepilogo dei casi
Casi
Validi Mancanti Totale
N Percentuale N Percentuale N Percentuale
Ansia * Tensione 48 100.0% 0 .0% 48 100.0%

Tavola di contingenza Ansia * Tensione


Tensione
2.Alta Totale
1.Bassa

Conteggio 10 12 22
Conteggio atteso 13.8 8.3 22.0
1.Minore % entro Ansia 45.5% 54.5% 100.0%
% entro Tensione 33.3% 66.7% 45.8%
% del totale 20.8% 25.0% 45.8%
Ansia
Conteggio 20 6 26
Conteggio atteso 16.3 9.8 26.0
2.Forte % entro Ansia 76.9% 23.1% 100.0%
% entro Tensione 66.7% 33.3% 54.2%
% del totale 41.7% 12.5% 54.2%
Conteggio 30 18 48
Conteggio atteso 30.0 18.0 48.0
Totale % entro Ansia 62.5% 37.5% 100.0%
% entro Tensione 100.0% 100.0% 100.0%
% del totale 62.5% 37.5% 100.0%

59
Chi-quadrato
Sig. asint. Sig. esatta Sig. esatta
Valore df
(2 vie) (2 vie) (1 via)
Chi-quadrato di Pearson 5.035(b) 1 .025
Correzione di continuità(a) 3.782 1 .052
Rapporto di verosimiglianza 5.103 1 .024
Test esatto di Fisher .037 .026
Associazione lineare-lineare 4.930 1 .026
N. di casi validi 48
a Calcolato solo per una tabella 2x2
b 0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo и 8.25.

Misure di direzione
E.S. T Sig.
Valore
asint.(a) appross.(b) appross.
Simmetrica -.324 .137 -2.335 .020
Ordinale
D di
per Dipendente Ansia -.333 .141 -2.335 .020
Somers
ordinale
Dipendente Tensione -.315 .135 -2.335 .020
a Senza assumere l'ipotesi nulla. b Viene usato l'errore standard asintotico in base all'assunzione dell'ipotesi nulla.

Misure simmetriche
T
E.S. Sig.
Valore appross.(b
asint.(a) appross.
)
Ordinale per Tau-b di Kendall -.324 .137 -2.335 .020
ordinale Correlazione di Spearman -.324 .137 -2.322 .025(c)
Intervallo per
R di Pearson -.324 .137 -2.322 .025(c)
intervallo
N. di casi validi 48
a Senza assumere l'ipotesi nulla. b Viene usato l'errore standard asintotico in base all'assunzione dell'ipotesi
nulla. c In base all'approssimazione normale.

Stima di rischio
Intervallo di confidenza 95%
Valore
Inferiore Superiore
Rapporto odd per Ansia (1.Minore / 2.Forte) .250 .072 .864
Per coorte Tensione = 1.Bassa .591 .357 .978
Per coorte Tensione = 2.Alta 2.364 1.063 5.254
N. di casi validi 48

60
Test di omogeneitа del rapporto odds

Significatività
Statistiche Chi-quadrato df
asintotica (2 sensi)

di Cochran 5.035 1 .025


Indipendenza condizionale
Mantel-Haenszel 3.703 1 .054

Breslow-Day .000 0 .
Omogeneità
di Tarone .000 0 .
In base all'assunzione dell'indipendenza condizionale, la statistica di Cochran viene distribuita in modo asintotico come una
distribuzione chi-quadrato 1 df solo se il numero di strati и fisso, mentre la statistica di Mantel-Haenszel viene sempre distribuita
in modo asintotico come una distribuzione chi-quadrato 1 df. Si noti che la correzione di continuitа viene rimossa dalla statistica
di Mantel-Haenszel quando la somma delle differenze tra i valori osservati e quelli attesi и pari a 0.

Stima di Mantel-Haenszel del rapporto odds comune

Stima .250

ln(stima) -1.386

Errore standard di ln(stima) .632

Significatività asintotica (2 sensi) .028

Limite inferiore .072


Rapporto odds comune
Intervallo di confidenza al Limite superiore .864
95% asintotico Limite inferiore -2.626
ln(rapporto odds comune)
Limite superiore -.147

La stima di Mantel-Haenszel del rapporto odds comune viene distribuita in modo asintotico e normale in base al rapporto odds
comune dell'assunzione 1.000, in modo analogo al log naturale della stima.

61
Appendice 3.II

CONFRONTO DELLE VARIABILI QUANTITATIVE

3.II.A.1. Syntassi (confronto delle variabili indipendenti con distribuzione


normale – t-test)
T-TEST
GROUPS=sesso_c('M' 'F')
/MISSING=ANALYSIS
/VARIABLES=c0
/CRITERIA=CIN(.95) .

3.II.A.2. Output (confronto delle variabili indipendenti con distribuzione


normale – t-test)

Test t

Statistiche di gruppo
SESSO_C N Media Deviazione std. Errore std. Media
M 47 100.7872 35.24321 5.14075
C0
F 11 108.4545 35.61562 10.73851

Test per campioni indipendenti


C0
Assumi
Non assumere
varianze
varianze uguali
uguali
Test di F .092
Levene di
uguaglianza
delle Sig. .763
varianze
t -.648 -.644
df 56 14.938
Sig. (2-code) .519 .529
Test t di
uguaglianza Differenza fra medie -7.6673 -7.6673
delle medie
Differenza errore standard 11.82678 11.90559
Intervallo di confidenza per Inferiore -31.35920 -33.05263
la differenza al 95% Superiore 16.02457 17.71801

62
3.II.B.1. Syntassi (confronto delle variabili appaiati con distribuzione
normale – t-test)

T-TEST
PAIRS= c0 WITH c1 (PAIRED)
/CRITERIA=CIN(.95)
/MISSING=ANALYSIS.

3.II.B.2. Output (confronto delle variabili appaiati con distribuzione normale – t-


test)

Test t

Statistiche per campioni appaiati


Media N Deviazione std. Errore std. Media
C0 102.2414 58 35.12999 4.61279
Coppia 1
C1 773.8793 58 349.52931 45.89545

Correlazioni per campioni appaiati


N Correlazione Sig.
Coppia 1 C0 e C1 58 .388 .003

Test per campioni appaiati


Coppia 1
C0 - C1
Media -671.6379
Deviazione std. 337.45943
Differenze a coppie Errore std. Media 44.31059
Intervallo di confidenza per la Inferiore -760.3684
differenza al 95% Superiore -582.9075
t -15.158
df 57
Sig. (2-code) .000

63
3.II.C.1. Syntassi (confronto delle variabili indipendenti senza distribuzione
normale)

NPAR TESTS
/M-W= stipend BY sesso(1 0)
/STATISTICS= DESCRIPTIVES
/MISSING ANALYSIS.

3.II.C.2. Output (confronto delle variabili indipendenti senza distribuzione


normale)

Test non parametrici

Statistiche descrittive
Numerosità Media Deviazione standard Minimo Massimo
Stipendio iniziale 1100 26064.20 6967.982 7200 65500
Sesso 1100 .57 .495 0 1

Test di Mann-Whitney

Ranghi
Sesso Numerosità Rango medio Somma dei ranghi
Femmina 469 488.18 228958.01
Stipendio iniziale Maschio 631 596.82 376592.00
Totale 1100

Test(a)
Stipendio iniziale
U di Mann-Whitney 118743.000
W di Wilcoxon 228958.000
Z -5.611
Sig. Asint. a 2 code .000
a Variabile di raggruppamento: Sesso

64
3.II.D.1. Syntassi (confronto delle variabili appaiati senza distribuzione normale)

NPAR TEST
/WILCOXON=rapo2om WITH rapo3om (PAIRED)
/STATISTICS DESCRIPTIVES QUARTILES
/MISSING ANALYSIS.

3.II.D.2. Output (confronto delle variabili appaiati senza distribuzione normale)

Test non parametrici

Statistiche descrittive
Rapporto fra seconda offerta e Rapporto fra terza offerta e
offerta migliore offerta migliore
Numerosità 235 235
Media 1.0534756 1.1284517
Deviazione standard .05735954 .10361054
Minimo 1.00000 1.00012
Massimo 1.30227 1.73452
25° 1.0107400 1.0562201
50°
Percentili 1.0352499 1.0976700
(Mediana)
75° 1.0750400 1.1694100

Test di Wilcoxon
Ranghi
Rango Somma dei
Numerosità
medio ranghi
Ranghi
0(a) .00 .00
negativi
Rapporto fra terza offerta e offerta Ranghi
235(b) 118.00 27730.00
migliore - Rapporto fra seconda positivi
offerta e offerta migliore Valori pari
0(c)
merito
Totale 235
a Rapporto fra terza offerta e offerta migliore < Rapporto fra seconda offerta e offerta migliore
b Rapporto fra terza offerta e offerta migliore > Rapporto fra seconda offerta e offerta migliore
c Rapporto fra seconda offerta e offerta migliore = Rapporto fra terza offerta e offerta migliore

65
Test(b)
Rapporto fra terza offerta e offerta migliore - Rapporto fra
seconda offerta e offerta migliore
Z -13.290(a)
Sig. Asint. a 2 code .000
a Basato su ranghi negativi.
b Test di Wilcoxon

66
Appendice 3.III

ANOVA: ANALISI DELLA VARIANZA

3.III.A.1. Syntassi (ANOVA)

ONEWAY
c0 BY sex
/STATISTICS DESCRIPTIVES EFFECTS
/PLOT MEANS
/MISSING ANALYSIS .

3.III.A.2. Output (ANOVA)

ANOVA univariata

Descrittivi C0
Modello
1.M 2.F Totale Effetti
Effetti fissi
casuali
N 47 11 58
Media 100.7872 108.4545 102.2414
Deviazione std. 35.24321 35.61562 35.12999 35.31000
Errore std. 5.14075 10.73851 4.61279 4.63643 4.63643(a)
Limite
Intervallo di 90.4394 84.5276 93.0044 92.9535 43.3299(a)
inferiore
confidenza 95%
per la media Limite
111.1350 132.3814 111.4783 111.5293 161.1528(a)
superiore
Minimo 44.00 41.00 41.00
Massimo 190.00 162.00 190.00
Varianza tra componenti -40.54252
a Avvertimento: la varianza tra componenti и negativa ed и stata sostituita da 0,0 nel calcolo della misura
degli effetti casuali.

ANOVA univariata
C0
Somma dei quadrati df Media dei quadrati F Sig.
Fra gruppi 524.021 1 524.021 .420 .519
Entro gruppi 69820.600 56 1246.796
Totale 70344.621 57

67
3.III.A.3. Grafica (ANOVA)

Grafici delle medie

110

108

106

104
Media di C0

102

100
1.M 2.F

sex_n

Figura 3.13

68

STATISTICA ANALITICA

Parte teorica:
Epidemiologia: studi epidemiologici (classificazione). Dipendenza
ed indipendenza statistica: corrispondenza, odds ratio (OR) e
rischio relativo (RR) (e.g., indice di Cramer, correlazione e
coefficiente di rank di Spearman)
Correlazione lineare parametrica delle variabili continue
(covarianza, coefficiente di correlazione di Pearson e coefficiente
di determinazione)

Parte teorico-pratica:
Correlazione non-parametrica.
Odds ratio (studi trasversali e/o studi "case-control") o rischio
relativo (studi "cohort" o studi clinici randomizzati)
Correlazione parametrica, correlazione parziale e loro
significatività ed interpretazione.

69
4.1. Epidemiologia: studi epidemiologici (classificazione). Dipendenza ed
indipendenza statistica: corrispondenza, odds ratio e rischio relativo.
La prima definizione della epidemiologia (studio di malattie in popolazioni) è
generica, ma ha il pregio di sottolineare che le malattie non vengono studiate nel singolo
individuo; si studia invece l'evento 'malattia' collettivamente in più individui,
organizzati in popolazioni. Non si deve tuttavia pensare che l'epidemiologia si occupi
soltanto delle malattie infettive o di quelle contagiose, che tipicamente (ma non
sempre!) coinvolgono molti (ma quasi mai tutti) individui di una popolazione. Infatti,
l'epidemiologia si occupa di tutte le malattie ma, diversamente da altre discipline, se ne
occupa esclusivamente a livello di popolazione piuttosto che di individuo.
La seconda definizione dell'epidemiologia (studio della frequenza,
distribuzione e determinanti di salute/malattia in popolazioni) è più circostanziata e
contiene 5 importanti parole-chiave. Le parole verranno considerate dettagliatamente: (i)
la frequenza: con questo termine si indica, sia quanto spesso ('quanto') la malattia
compare, sia l'aspetto temporale ('quando'); (ii) la distribuzione: indica sia l'aspetto
geografico ('dove') di comparsa o presenza della malattia che le caratteristiche della
popolazione ospite (per esempio se è più frequente negli animali liberi o in cattività,
giovani o vecchi ecc.); (iii) i determinanti (fattori): il termine 'determinante' si usa
come sinonimo di 'causa', anche se ciò non è esatto; (iv) la salute/malattia:
l'epidemiologia studia, oltre agli individui ammalati (pazienti), anche gli individui sani;
oppure, meglio, l'epidemiologia studia individui ammalati a confronto con individui
sani. Inoltre, occorre fare attenzione al fatto che, oltre ai “determinanti di malattia”,
esistono anche dei “determinanti di salute” (fattori che contribuiscono a mantenere in
salute l'animale o, se ammalato, a farlo guarire). In epidemiologia si studiano sia i
determinanti di malattia che i determinanti di salute; (v) le popolazioni: anche questo
termine verrà meglio chiarito successivamente (Figure 4.1).
__________________________________________________________________________

CLASSIFICAZIONE DI STUDI EPIDEMIOLOGICI


(Beaglehole R et al. Basic Epidemiology, WHO, Geneva, 1993)

A. Studi di osservazione [observational studies]


A.1. Studi descrittivi [descriptive studies]
A.2. Studi analitici [analytical studies]
a) Ecologici [ecological, correlational] (unità: popolazioni)
b) Trasversali [cross-sectional, prevalenza] (unità: individui)
c) Caso-controllo [case-control, case-reference] (unità: individui)
d) Coort [cohort, follow-up] (unità: individui)
B. Studi sperimentali [experimental studies, intervention studies]
B.1. Studi randomizzati controllati [Randomized controlled trials, clinical
trials] (unità: pazienti)
B.2. Studi di campo [field trials] (unità: individui)
B.3. Studi dei gruppi [community trials, community intervention studies]
(unità: gruppi)
__________________________________________________________________________
Figure 4.1

70
Per popolazione si intende un insieme di individui che hanno uno o più caratteri
in comune (es. sono presenti nella stessa area geografica, oppure hanno la stessa età,
oppure vengono alimentati con la stessa razione ecc.). Per esempio, il “field trial”
(Figura 4.1) è un studio epidemiologico di uso di un manuale per la prevenzione di
HIV/AIDS perinatale in Kwazulu/Natal (Africa) dove lo studio ha scoperto che l'uso del
manuale ha significativamente migliorato la sapienza teorica (p<0.01) quando gli
infermieri organizzano loro corsi propri e usano questo manuale.
Il significato delle stime ottenute nei diversi tipi di studi epidemiologici varia a
seconda della schema di selezione dei soggetti (Figura 4.2). Per lo studio
dell'occorrenza di una malattia si deve stabilire: il tipo di popolazione da considerare a
base dello studio (fissa, dinamica) e il conseguente tipo di reclutamento da effettuare; il
tipo di studio da condurre: longitudinale o trasversale; e la fase della malattia da
rilevare: casi di nuova diagnosi (incidenti) o casi in atto (prevalenti). Come abbiamo
visto, la prevalenza (P) è una proporzione in cui il numero di casi presenti in un certo
momento (in teoria in un istante), viene rapportato al numero complessivo di persone
presenti nella popolazione totale in quel momento.

Figure 4.2

71
Supponiamo che il numero di persone sotto osservazione sia 10. Di queste,
alcune sono già malate quando iniziamo l'osservazione, altre ancora rimangono sane. Se
vogliamo calcolare la prevalenza al 2° giorno dobbiamo contare i malati presenti nel
giorno 2 (che sono A, D, F, I) e rapportarli alla popolazione presente lo stesso giorno (9
persone in tutto, perché C è scomparso dall'osservazione dopo il giorno 1 e non viene
contato né al numeratore né al denominatore). La misura della prevalenza per il giorno 2
è quindi P=4/9=0.44 (44%). Quindi per misurare la prevalenza di una condizione
bisogna definire il momento di rilevazione (la prevalenza può variare molto da un
momento all'altro ed è indispensabile definire quando esattamente viene fatta la misura),
il numero di casi presenti nel momento della rilevazione e il numero complessivo delle
persone presenti (casi + non casi) nello stesso momento. Il numero di casi prevalenti in
una popolazione dipende dalla frequenza con cui le persone contraggono la malattia e da
quanto a lungo rimangono malate. Conoscere la prevalenza è un punto fondamentale
degli studi descrittivi ed è essenziale in pianificazione sanitaria per la stima della
domanda di servizi sanitari. La prevalenza fornisce uno spaccato della popolazione in un
certo momento ed indica la proporzione di casi esistenti nella popolazione.
Come visto prima, l'incidenza (I) è invece una misura di frequenza (misura di
insorgenza) che stima la velocità del cambiamento dello stato di salute della
popolazione. L'incidenza misura la frequenza con cui le persone si ammalano,
indipendentemente da quanto a lungo rimangono malate. Per contare quante persone si
ammalano bisogna definire l'arco di tempo durante cui osserviamo l'intero gruppo.
Nell'esempio precedente possiamo vedere il periodo di tempo che va da 2 a 4. In questo
intervallo le persone G e I si ammalano ex novo, mentre A, C, D e F erano già malate
prima del giorno 2 (e non sono contate) e B, E, H, J non si ammalano nel periodo da 2 a
4: il numero totale di casi incidenti è 2. Il denominatore cui rapportare i casi è dato dalla
somma di tutti gli intervalli di tempo t a rischio per ognuno degli N soggetti della
popolazione. Il tasso di incidenza misura la velocità con la quale una popolazione
esente da una particolare patologia sviluppa quella data malattia durante uno specificato
periodo di tempo. Una riduzione nell'incidenza indica che si è modificato l'equilibrio dei
fattori eziologici per naturali fluttuazioni o per l'attivazione di programmi di
prevenzione. Un cambiamento nella prevalenza può riflettere un cambiamento
nell'incidenza o nell'esito della malattia o in entrambe. La diminuzione della prevalenza
implica la diminuzione dell'incidenza e/o la minor durata della malattia, ricoveri meno
numerosi e/o sopravvivenza più breve. Se la durata della malattia si riduce
sensibilmente si può osservare una diminuzione nella prevalenza della malattia
nonostante un incremento nell'incidenza (Prevalenza = Incidenza-durata).
Il rischio (RA) è la probabilità di contrarre la malattia in un definito intervallo di
tempo. L'odds è il rapporto fra la probabilità, assoluta o condizionale, di un evento e il
suo complemento a uno. Il tasso è la variazione istantanea di una quantità al variare
unitario di un'altra cui la prima è funzionalmente legata. La stima del rischio e
dell'incidenza richiede che i soggetti siano considerati finché sono suscettibili di
ammalarsi (candidati a rischio), i soggetti immuni, privi dell'organo bersaglio (nel caso
di studio dei tumori) o affetti dalla malattia in studio (casi prevalenti) non siano
considerati, l'osservazione dei soggetti (periodo di “follow-up”) inizia col reclutamento
e termina all'insorgenza della malattia, alla morte per altra causa, al momento in cui se

72
ne perdono le tracce, all'uscita dalla condizione di rischio o alla conclusione dello studio
stesso. Il rischio si calcola come proporzione di individui, inizialmente candidati a
contrarre la malattia, che la contraggono nel successivo periodo di follow-up (vedi sotto
Tabella 4.1, Tabella 4.2 e Tabella 4.3). Si stima direttamente in uno studio
longitudinale (“cohort”) che recluti una coorte fissa di N individui al tempo t(0) e li
osservi tutti fino al tempo t(1). Se in questo intervallo i casi incidenti risultano essere C ,
allora il rischio per l'intervallo [t(1)-t(0)] vale: R = C/N dove R = rischio nell'intervallo
di tempo [t(1)–t(0)], C = n° dei nuovi casi insorti nel periodo, N= n° di soggetti
candidati al tempo t(0). Invece, l'odds è il rapporto fra il rischio e il suo complemento a
uno: Odds=R/(1-R). In uno studio caso-controllo nel quale si stima la proporzione di
esposizione fra casi e controlli l'odds dell'esposizione fra i casi o fra i controlli è dato dal
rapporto fra la proporzione dei casi esposti e il suo complemento a 1: Odds = P(1)/[1-
P(1)] dove p(1) =proporzione vera di casi o controlli esposti al fattore in studio. Il tasso
(“rate”) si stima direttamente in uno studio longitudinale nel quale un numero di casi
pari a I si osservi nel corso del periodo di follow-up su una massa a rischio NdT (tempo-
persone) e per definizione I = C / NdT dove I = tasso medio di incidenza nel periodo in
studio, C = n° dei nuovi casi insorti nel periodo, NdT = massa tempo-persone osservata.
Il tasso di incidenza della malattia (o morte) esprime il numero medio di casi
insorgenti per unità “tempo-persone”. In Italia nel corso del 1983 si sono verificati
553568 decessi su un totale di 56835784 residenti, a metà anno. Il tasso non è una
misura utilizzabile per esprimere la probabilità di malattia a livello individuale ma
piuttosto il gettito medio di casi che si ha in una popolazione (il tasso si usa per studiare
l'insorgenza di malattie a lungo periodo di latenza (patologia cronico-degenerativa). Per
esempio, Il tasso grezzo di mortalità era 553.568 / 56.835.784 = 0.00974. In media, ogni
1000 residenti si sono avuti circa 10 decessi. Il rischo esprime una probabilità: è riferito
a un definito intervallo di tempo e aumenta con l'aumentare di tale intervallo. In Italia,
nel 1980, su 94464 soggetti di 40 anni, 1285 morivano per una qualsiasi causa entro il
44-esimo anno di età. Il rischio di morire fra i 40 e i 44 anni, per un soggetto vivo a 40
anni, era R=1285/94464 = 0.013613. Il rischio invece è una misura di probabilità
individuale di contrarre malattia nell'intervallo per il quale è calcolato e si usa per
studiare una patologia a breve periodo di latenza. Nel calcolare il denominatore di un
tasso un soggetto seguito per 10 anni equivale a 10 soggetti se-guiti ciascuno per un
anno (un singolo individuo può contare solo una volta come caso incidente per una
malattia; 10 soggetti possono dare luogo fino a 10 casi). Un singolo soggetto non dà
alcuna informazione circa la variabilità biologica della suscettibilità individuale alla
malattia studiata. Nel calcolare il rischio, il numeratore è parte del denominatore e si
tratta infatti di una proporzione (nel calcolo del tasso l'insorgenza di malattia, che porta
all'inclusione del soggetto al numeratore, comporta l'esclusione dello stesso dal
denominatore, a partire da quel momento. In entrambi i casi (rischio e tasso) il
denominatore è costituito da soli candidati, ciascuno con peso unitario (se si calcola il
rischio) o con peso proporzionale alla durata del follow-up (se si calcola il tasso).
Dobbiamo notare che il numeratore è sempre formato dalla somma degli eventi unici e
nuove (incidenze) che si verificano nel periodo considerato (Tabella 4.1). Il rischio è un
numero puro, privo di dimensione, in quanto numeratore e denominatore sono espressi
nelle stesse unità.

73
Le misure relative di insorgenza sono rapporti fra rischi (RR o rischio
relativo), rapporti fra odds (OR o “odds ratio”) e rapporti fra tassi. Misure relative a
una popolazione assunta come riferimento sono rapporto standardizzato di mortalità e
rapporto proporzionale di mortalità. In generale, la popolazione in un studio è costituita
da individui esposti, la popolazione di riferimento è costituita da individui non esposti
suscettibili alla malattia. La misura relativa è interpretabile come misura di forza
dell'associazione fra esposizione e malattia. Tale misura di associazione trova
applicazione in caso di malattie a breve periodo di latenza, malattie a insorgenza
variabile nel periodo in studio e studi di coorte fissa [RR=R(E)/R(NE) dove RR =
rapporto dei rischi o rischio relativo, R(E) = rischio assoluto negli esposti (E), R(NE) =
rischio assoluto nei non esposti (NE).
Come abbiamo visto sopra, per odds di un evento si intende il rapporto fra la
probabilità del verificarsi e la probabilità del non verificarsi dell'evento stesso.
Odds(M)=P(M)/[1-P(M)] dove Odds(M)= odds in favore dell'evento M, P(M)=
probabilità dell'evento M. Invece, per OR o “odds ratio” si intende il rapporto fra
Odds: Odds Ratio (E|M) = ODDS (M|E) / ODDS(M|NE).
I fattori che sono legati ad un aumento dell'incidenza, (prevalenza, mortalità o
morbosità) di una malattia sono chiamati fattori di rischio. Usualmente si usano tre
misure di rischio: rischio assoluto, rischio relativo e rischio attribuibile. Il rischio
assoluto di sviluppare una data malattia per un individuo esposto a un fattore di rischio
coincide con l'incidenza della malattia nella popolazione esposta a quel fattore di rischio
alla quale l'individuo appartiene. Analogamente, il rischio assoluto di sviluppare una
data malattia per un individuo non esposto al fattore di rischio coincide con l'incidenza
della malattia nella popolazione non esposta alla quale l'individuo appartiene: rischio
assoluto (esposti) = A/[A+B] e rischio assoluto (non esposti) = C/[C+D]. Come visto, il
rischio relativo (RR) è il rapporto tra l'incidenza della malattia tra i soggetti esposti ad
un particolare fattore di rischio e l'incidenza tra coloro che non sono esposti a quel
fattore di rischio: una popolazione seguita prospettivamente. Invece, il rischio
attribuibile (RA) è la differenza assoluta tra i tassi di morbosità degli esposti e dei non
esposti ad un agente eziologico fornisce una misura alternativa dell'effetto di questo
fattore: RA=A/(A+B)-C/(C+D). Spesso, il rischio attribuibile è espresso come rischio
attribuibile percentuale (RA%), dove il rischio attribuibile è una percentuale del tasso di
incidenza tra gli esposti al fattore di rischio [A/(A+B)]. Questo valore rappresenta la
riduzione del carico di malattia che si avrebbe nella popolazione esposta se si evitasse
l'esposizione al fattore di rischio. Il rischio relativo indica quante volte è più probabile
che un individuo esposto a un certo fattore di rischio sviluppi la malattia rispetto a un
individuo non esposto. Il rischio attribuibile (%) indica la proporzione di individui che,
tra tutti gli individui esposti al fattore di rischio, sviluppano la malattia a causa del
fattore di rischio. Quanto maggiori sono il rischio attribuibile e la prevalenza del fattore
di rischio nella popolazione tanto maggiore sarà l'effetto benefico sull'incidenza della
malattia ottenuto con l'eliminazione del fattore di rischio.
Le indicazioni all'uso dei rapporti fra tassi (RI) sono analoghe a quelle relative
all'uso dei tassi: malattie a lungo periodo di latenza, malattie a costante insorgenza nel
periodo considerato, studi di popolazione dinamica. Il rapporto si indica e si calcola
come RI=I(E)/I(NE) dove RI = rapporto fra tassi di incidenza negli esposti (E).

74
4.2. Correlazione parametrica delle variabili continui (coefficiente R di
Pearson).

Un valore atteso di diverse trasformazioni di una variabile casuale può misurare


varie interessanti caratteristiche della variabile e suoi rapporti con altre variabili
(covarianza, correlazione). Il valore atteso misura una relazione tra due variabili a valori
reali. Supponiamo che X e Y hanno valori reali con medie M(X), M(Y) e varianze
var(X), var(Y) (ipotizzate finite). La covarianza di X e Y è definita come cov(X, Y) =
M{[X-M(X)][Y–M(Y)]}. Assumendo che le varianze siano positive, la correlazione di
X e Y è cor(X,Y)=cov(X,Y)/[sd(X)sd(Y)] e il coefficiente è noto come coefficiente
della correlazione lineare R di Pearson (“Pearson product-moment correlation
coefficient R”). La correlazione è una versione modificata della covarianza, osserva che
i due parametri hanno sempre lo stesso segno (positivo, negativo o 0) e indica il grado
della corrispondenza tra le variabili. Quando il segno del coefficiente è positivo, le
variabili si dicono positivamente correlate; quando è negativo - negativamente
correlate; e quando è 0 - incorrelate. In senso puro, la correlazione misura un tipo di
dipendenza tra le variabili continui (Figura 4.3 e Figura 4.4).
La correlazione è una tecnica per individuare una relazione fra due variabili.
Nella maggior parte dei casi non vi è alcuna manipolazione delle variabili da parte dello
sperimentatore e possiamo avere una osservazione in condizioni naturali. Le due
variabili si rappresentano come X e Y (ascisse: X, ordinate: Y). Le osservazioni si
rappresentano come punti sul piano cartesiano (Figura 4.9 e Figura 4.10, Appendice
4.III). La correlazione indica la direzione della relazione nell'intervallo (-1;0;+1) e la
forma della relazione e lineare (ci sono anche forme non-lineari: a flessione, logistiche,
ecc.). Le relazioni si distinguono a secondo del grado di correlazione: elevato grado di
correlazione (punti vicini alla “linea di regressione”) e basso grado di correlazione
(punti lontani dalla “linea di regressione”). L'utilizzo della correlazione è noto per la
previsione del valore di una variabile target in base al valore di una variabile predittore,
per la validazione (confronto fra i risultati di un test nuovo e i test già noti), per
l'affidabilità (replicabilità degli esperimenti/test) e per la verifica di previsioni teoriche
(verifica di un rapporto previsto fra due variabili). Il calcolo della correlazione di
Pearson si fa con la somma dei prodotti degli scarti e l'interpretazione del coefficiente
della correlazione deve essere fatta con molto prudenza (per esempio, elevato punteggio
X indica elevato punteggio Y, basso punteggio X indica basso punteggio Y). La
correlazione perfetta (solo in teoria) è positiva (R = 1) o negativa (R = -1) e R=0 indica
l'assenza di correlazione.
Un rapporto di correlazione può essere “spuria”: esso non implica
necessariamente un rapporto di causa e effetto (per esempio: correlazione fra il numero
di sacerdoti e il numero di omicidi). La correlazione puo essere valida solo per una
gamma limitata di valori e si deve evitare l’estrapolazione dei risultati sperimentali. In
questo senso, si può calcolare anche il “coefficiente di determinazione” del rapporto. Il
coefficiente di determinazione R2 misura la percentuale della variabilità di Y spiegata
dalla variabilità di X. Il coefficiente R si calcola rispetto ad campione per determinare se
esiste o non esiste una correlazione nella popolazione (H0: non esiste una correlazione
fra la variabile X e la variabile Y; H1: esiste una correlazione statisticamente significati-

75
Figure 4.3

Figure 4.4

76
va). Il valore critico del coefficiente per un determinato valore di alfa e un determinato
valore di gradi di liberta (GdL) si determina in base ad una tabella. Se il valore di R è
inferiore al valore critico si accetta H0. Nel caso contrario si accetta H1 (Gdl=n-2,
alfa=0.05 o alfa=0.01).
Quando si usa la correlazione nella letteratura scientifica debbono essere
specificati la grandezza del campione, il valore di R, la presenza (o l’assenza) di una
relazione statisticamente significativa), il valore di alfa, il tipo di test utilizzato (test ad 1
o a 2 code). Per esempio, “Il nostro studio ha riscontrato la presenza di una correlazione
statisticamente significativa fra l’età dei pazienti e la capacità di richiamo (R=-0,85,
n=30, p<0,01, due code).
Un altro coefficiente di corrispondenza (correlazione) tra variabili continui
(quantitativi) è la correlazione non-parametrica di Spearman. Tutte le relazioni
“monotoniche” (relazioni dove Y cresce o decresce continuamente con il crescere o
descrescere di X) possono essere analizzate sostituendo ai singoli valori di X e di Y la
loro “posizione” nell’insieme delle osservazioni X. Per calcolare il coefficiente rho della
correlazione di Spearman, si deve calcolare la posizione dei singoli X (Xr) e la
posizione dei singoli Y (Yr). Dopo, si deve calcolare la correlazione di Pearson fra Xr e
Yr (associazione tra punteggi di rango).

77
4.3. Correlazione non-parametrica (variabili qualitative e variabili
quantitative).
Le correlazioni non-parametriche si usano per analizzare le variabili
qualitative nelle tavole di contingenza (Figura 4.5 e Figura 4.6). Nel SPSS, come
abbiamo visto, sono disponibili varie coefficienti di correlazione (corrispondenza). Per i
dati nominali (nessun ordine intrinseco, ad esempio: cattolico, protestante, ebreo), è
possibile selezionare il coefficiente Phi e V di Cramér, il coefficiente di contingenza,
lambda (lambda simmetrico e asimmetrico e tau di Goodman e Kruskal), nonché il
coefficiente di incertezza.

Figura 4.5

Figura 4.6

78
Per tabelle in cui sia le righe che le colonne contengono valori ordinati, scegliere
Gamma (gamma di ordine zero per tabelle a due vie e gamma condizionali per tabelle
da 3 a dieci vie), tau-b di Kendall e tau-c di Kendall. Per desumere le categorie delle
colonne dalle categorie delle righe, scegliere D di Somers Se una variabile è
categoriale e l'altra quantitativa, scegliere Età (la variabile categoriale deve essere
codificata numericamente). Per tabelle che contengono le stesse categorie sia nelle righe
che nelle colonne (ad esempio, per valutare la coincidenza di opinioni di due stimatori),
scegliere il kappa di Cohen. Il test di McNemar è un test non parametrico per due
variabili dicotomiche correlate (il test utilizza la distribuzione del chi-quadrato). Questo
test è utile per individuare le variazioni della risposta in disegni sperimentali del tipo
'prima e dopo'.
Le correlazioni non-parametriche si usano anche per analizzare le variabili
quantitative (per esempio, quando le variabile non hanno una distribuzione normale).
Per esempio, per tabelle in cui sia le righe che le colonne contengono valori ordinati,
l'opzione “Correlazioni” restituisce il coefficiente di correlazione di Spearman, rho
(solo per dati numerici). Il coefficiente rho di Spearman è una misura di associazione tra
punteggi di rango (Figura 4.7 e Figura 4.8).

Figura 4.7

Figura 4.8

79
4.4. Odds ratio (OR) e rischio relativo (RR)

Nelle tavole di contingenza di SPSS, per tabelle con due righe e due colonne, e
disponibile la valutazione del rischio relativo e il rapporto “odd” (Tabella 4.1 e
Tabella 4.2). Per ottenere tale valutazione, si deve scegliere il “coefficiente di rischio”
(Figura 4.6).

Tabella 4.1

Stato (esito)

Deceduto (+) Troncato (-) Totale

Linfonodi a1 b1 c1

Si (+) 30 248 278

No (-) 42 887 929

a2 b2 c2
1207

Tabella 4.2
Stima di Rischio (RR)

Intervallo di confidenza 95%


Valore
Inferiore Superiore
Rapporto odd per Linfonodi (1. Si / 2. No) 2.555 1.566 4.167
Per coorte stato_c = 1. Deceduto 2.387 1.524 3.740
Per coorte stato_c = 2. Troncato .934 .895 .976
N. di casi validi 1207

La misura di associazione lineare fra variabili di riga e di colonna può essere


calcolata moltiplicando la radice quadrata del coefficiente di correlazione di Pearson per
il numero di casi meno 1. Tale misura ha un grado di libertà e non dovrebbe essere usata
per dati nominali e viene anche detta test chi-quadrato di Mantel-Haenszel. In generale
si dà più importanza al livello di significatività che al valore di questa statistica.
Se vengono selezionate una o più variabili di strato, verrà prodotta una tavola di
contingenza distinta per ciascuna categoria di ciascuna variabile di strato (variabile di
controllo). Ad esempio, se si dispone di una variabile di riga, una variabile di colonna e
una variabile di strato con due categorie, si otterrà una tabella bivariata per ciascuna
categoria della variabile di strato. Per creare un altro strato di variabili di controllo, fare
clic su “Successivo” (Figura 4.6). Verranno create sottotabelle per ogni combinazione
80
delle categorie di ciascuna variabile del primo strato con ciascuna variabile del secondo
e così via. Se sono richieste statistiche e misure di associazione, verranno applicate solo
alle sottotabelle bivariate. In questo modo si possono utilizzare le statistiche di Cochran
e Mantel-Haenszel per valutare l'indipendenza tra una variabile fattore dicotomica e una
variabile risposta dicotomica, sulla base di modelli di covariata definiti da uno o più
variabili (di controllo) di strato (Tabella 4.3). Cosi vengono inoltre calcolati il rapporto
odds comune di Mantel-Haenszel e le statistiche di Breslow-Day e Tarone per il test di
omogeneità del rapporto odds comune.

Tabella 4.3

A) Tavola di riepilogo dei casi

Casi
Validi Mancanti Totale
N Percentuale N Percentuale N Percentuale
Linfonodi * stato_c *
869 72.0% 338 28.0% 1207 100.0%
Ricettore estrogeno

B) Tavola di contingenza: Linfonodi * stato_c * Ricettore estrogeno

stato_c
Totale
Ricettore estrogeno 1. Deceduto 2. Troncato

1. Si 13 70 83
Linfonodi
Negativo 2. No 15 240 255
Totale 28 310 338
1. Si 12 125 137
Linfonodi
Positivo 2. No 11 383 394
Totale 23 508 531

81
4.5. Correlazione parametrica: significatività ed interpretazione.

Come abbiamo visto, la correlazione parametrica è la correlazione di Pearson.


La correlazione è il prodotto-momento tra due vettori di valori (questa è la misura di
similarità predefinita per i dati di intervallo). Nel SPSS la procedura “Correlazioni
bivariate” consente di calcolare il coefficiente di correlazione di Pearson con i rispettivi
livelli di significatività. Le correlazioni consentono di misurare la relazione tra variabili
o punteggi di rango (per esempio, punteggi di qualità della vita). Prima di calcolare un
coefficiente di correlazione, è necessario sempre valutare la presenza di valori anomali
nei dati (che possono causare risultati errati) e l'esistenza di una distribuzione normale e
una relazione lineare (come sappiamo, il coefficiente di correlazione di Pearson è una
misura di associazione lineare, Figura 4.9 e Figura 4.10).

Figura 4.9

Due variabili possono essere perfettamente correlate, ma se la relazione non è


lineare, il coefficiente di correlazione di Pearson non è la statistica migliore per
misurare tale associazione. Un esempio è quando il numero di partite vinte da una
squadra di baseball è correlato con la media dei punti totalizzati per ciascuna partita. Un
grafico a dispersione indica l'esistenza di una relazione lineare.

Figura 4.10
82
Dall'analisi dei dati relativi alla stagione NBA 1994-1995 risulta che il
coefficiente di correlazione di Pearson (0.581) è significativo al livello 0.01. Si può
presumere che il numero di partite vinte per stagione sia inversamente proporzionale ai
punti totalizzati dagli avversari. Queste variabili sono legate da una correlazione
negativa (-0.401), significativa al livello 0.05. Nel SPSS per ogni variabile si calcola il
numero di casi con valori non mancanti, media e deviazione standard. Per ciascuna
coppia di variabili si calcola il coefficiente di correlazione di Pearson, il prodotto
incrociato delle deviazioni e la covarianza.

83
4.6. OUTPUT di SPSS 11.0

Appendice 4.I

CORRISPONDENZA E CORRELAZIONE NON-PARAMETRICA

4.I.A.1. Syntassi (contingenza / corrispondenza e correlazione: variabili qualitative)

CROSSTABS
/TABLES= linfsino BY stato_c
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ CORR D BTAU RISK CMH(1)
/CELLS= COUNT EXPECTED ROW COLUMN TOTAL .

4.I.A.2. Output (tavole)

Tavole di contingenza / corrispondenza

Tavola di contingenza Linfonodi * stato_c


stato_c
Totale
1. Deceduto 2. Troncato

Conteggio 30 248 278


Conteggio atteso 16.6 261.4 278.0
1. Si % entro Linfonodi 10.8% 89.2% 100.0%
% entro stato_c 41.7% 21.9% 23.0%
% del totale 2.5% 20.5% 23.0%
Linfonodi
Conteggio 42 887 929
Conteggio atteso 55.4 873.6 929.0
2. No % entro Linfonodi 4.5% 95.5% 100.0%
% entro stato_c 58.3% 78.1% 77.0%
% del totale 3.5% 73.5% 77.0%
Conteggio 72 1135 1207
Conteggio atteso 72.0 1135.0 1207.0
Totale % entro Linfonodi 6.0% 94.0% 100.0%
% entro stato_c 100.0% 100.0% 100.0%
% del totale 6.0% 94.0% 100.0%

84
Chi-quadrato
Sig. asint. Sig. esatta Sig. esatta
Valore df
(2 vie) (2 vie) (1 via)
Chi-quadrato di Pearson 14.998(b) 1 .000
Correzione di continuità(a) 13.901 1 .000
Rapporto di verosimiglianza 13.188 1 .000
Test esatto di Fisher .000 .000
Associazione lineare-lineare 14.985 1 .000
N. di casi validi 1207
a Calcolato solo per una tabella 2x2
b 0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo и 16.58.

Misure di direzione
E.S. T Sig.
Valore
asint.(a) appross.(b) appross.
Simmetrica .095 .029 3.143 .002
Ordinale
D di Dipendente
per .198 .059 3.143 .002
Somers Linfonodi
ordinale
Dipendente stato_c .063 .020 3.143 .002
a Senza assumere l'ipotesi nulla. b Viene usato l'errore standard asintotico in base all'assunzione dell'ipotesi nulla.

Stima di Rischio (RR)


Intervallo di confidenza 95%
Valore
Inferiore Superiore
Rapporto odd per Linfonodi (1. Si / 2. No) 2.555 1.566 4.167
Per coorte stato_c = 1. Deceduto 2.387 1.524 3.740
Per coorte stato_c = 2. Troncato .934 .895 .976
N. di casi validi 1207
Test di omogeneitа del rapporto “ODDS”
Significativitа
Statistiche Chi-quadrato df
asintotica (2 sensi)
di Cochran 14.998 1 .000
Indipendenza condizionale
Mantel-Haenszel 13.889 1 .000
Breslow-Day .000 0 .
Omogeneitа
di Tarone .000 0 .
In base all'assunzione dell'indipendenza condizionale, la statistica di Cochran viene distribuita in modo asintotico come una distribuzione chi-
quadrato 1 df solo se il numero di strati и fisso, mentre la statistica di Mantel-Haenszel viene sempre distribuita in modo asintotico come una
distribuzione chi-quadrato 1 df. Si noti che la correzione di continuità viene rimossa dalla statistica di Mantel-Haenszel quando la somma delle
differenze tra i valori osservati e quelli attesi и pari a 0.

85
4.I.B.1. Syntassi (correlazione non-parametrica: variabili quantitative)

NONPAR CORR
/VARIABLES=eta dimtum
/PRINT=BOTH TWOTAIL NOSIG
/MISSING=PAIRWISE .

4.I.B.2. Output (tavole)

Correlazioni non parametriche

Correlazioni

Dimensioni
Età (anni) del tumore
(cm)
Coefficiente di
1.000 -.161(**)
correlazione
Età (anni)
Sig. (2-code) . .000
Tau_b di N 1207 1121
Kendall Coefficiente di
-.161(**) 1.000
correlazione
Dimensioni del tumore (cm)
Sig. (2-code) .000 .
N 1121 1121
Coefficiente di
1.000 -.230(**)
correlazione
Età (anni)
Sig. (2-code) . .000
Rho di N 1207 1121
Spearman Coefficiente di
-.230(**) 1.000
correlazione
Dimensioni del tumore (cm)
Sig. (2-code) .000 .
N 1121 1121
** Correlazione significativa al livello 0,01 (2-code).

86
Appendice 4.II

CORRELAZIONE PARAMETRICA

4.II.A.1. Syntassi (correlazione parametrica: variabili quantitative)

NPAR TESTS /K-S(NORMAL)= age_tx_y peso c0 c1 c2 /MISSING ANALYSIS.

CORRELATIONS
/VARIABLES=age_tx_y peso c0 c1 c2
/PRINT=TWOTAIL NOSIG /STATISTICS DESCRIPTIVES XPROD
/MISSING=PAIRWISE .

GRAPH /SCATTERPLOT(BIVAR)=age_tx_y WITH c2 /MISSING=LISTWISE .

4.II.A.2. Output (tavole)

Test non parametrici


Test di Kolmogorov-Smirnov per un campione (per distribuzione normale)
AGE_TX_Y PESO C0 C1 C2
Numerosità 58 58 58 58 58
Media 38.8617 68.9828 102.2414 773.8793 594.81
Parametri
normali(a,b) Deviazione
11.96821 14.66317 35.12999 349.52930 210.5
standard
Assoluto .092 .133 .085 .076 .114
Differenze più
Positivo .071 .133 .085 .076 .114
estreme
Negativo -.092 -.052 -.070 -.044 -.084
Z di Kolmogorov-Smirnov .703 1.016 .644 .580 .865
Sig. Asint. a 2 code .707 .253 .802 .889 .443
a La distribuzione del test è Normale.
b Calcolato dai dati.

Correlazioni
Statistiche descrittive
Media Deviazione std. N
AGE_TX_Y 38.8617 11.96821 58
PESO 68.9828 14.66317 58
C0 102.2414 35.12999 58
C1 773.8793 349.52931 58
C2 594.8103 210.50411 58

87
Correlazioni
AGE_TX_Y PESO C0 C1 C2
Correlazione di
1 .092 .175 0.24 .263(*)
Pearson
Sig. (2-code) . .490 .188 .068 .046
AGE
_TX Somma dei quadrati e
8164.572 924.26 4200.738 57486.890 37727.169
_Y dei prodotti incrociati
Covarianza 143.238 16.21 73.697 1008.542 661.880
N 58 58 58 58 58
Correlazione di
.092 1 .207 .230 .149
Pearson
Sig. (2-code) .490 . .119 .082 .263
PES
Somma dei quadrati e
O 924.262 12255.48 6081.241 67196.379 26267.31
dei prodotti incrociati
Covarianza 16.215 215 106.688 1178.884 460.830
N 58 58 58 58 58
Correlazione di
.175 .207 1 .388(**) .465(**)
Pearson
Sig. (2-code) .188 .119 . .003 .000
C0 Somma dei quadrati e 70344.62
4200.738 6081.24 271490.690 196103.65
dei prodotti incrociati 1
Covarianza 73.697 106.68 1234.116 4762.995 3440.415
N 58 58 58 58 58
Correlazione di
.241 .230 .388(**) 1 .401(**)
Pearson
Sig. (2-code) .068 .082 .003 . .002
C1 Somma dei quadrati e 271490.6 6963732.15
57486.890 67196.37 1682668.6
dei prodotti incrociati 90 5
Covarianza 1008.542 1178.88 4762.995 122170.740 29520.5
N 58 58 58 58 58
Correlazione di
.263(*) .149 .465(**) .401(**) 1
Pearson
Sig. (2-code) .046 .263 .000 .002 .
C2 Somma dei quadrati e 26267.31 196103.6 1682668.67 2525782.9
37727.169
dei prodotti incrociati 0 55 2 14
Covarianza 661.880 460.830 3440.415 29520.503 44311.981
N 58 58 58 58 58
* La correlazione и significativa al livello 0,05 (2-code). ** La correlazione и significativa al livello 0,01 (2-code).

88
4.II.A.3. Output (grafica)

Grafica

1300

1200

1100

1000

900

800

700

600

500

400

300

200
C2

100 Rsq = 0.0690

10 20 30 40 50 60 70 80 90 100

AGE_TX_Y

Figura 4.11

89

MODELLI STATISTICI

Parte teorica:
Regressione lineare semplice (univariata) e multifattoriale
(parametrica e logistica), serie temporali e variazioni cicliche
(periodiche) e stagionali.
Eventi nel tempo ed analisi della sopravivenza (curve di Kaplan-
Meier); log-rank test per il confronto delle curve di
sopravvivenza.

Parte teorico-pratica:
Regressione: interpretazione di un modello lineare, suoi parametri
statistici e valutazione delle predizioni statistiche (interpolazione,
estrapolazione ed intervallo di confidenza individuale e della
popolazione).
Regressione logistica: interpretazione di un modello logistico e
valutazione della predizione statistica (sensibilità, specificità ed
accuratezza, curve ROC)
Calcolo, interpretazione e confronto delle curve di sopravvivenza
cumulative di Kaplan-Meier.

90
5.1. Regressione: univariata e multifattoriale; serie temporali e variazioni
cicliche (periodiche) e stagionali.

Le regressione parametrica lineare è una stima della relazione lineare tra una
variabile dipendente ed una o più variabili indipendenti o covariate. La regressione è
anche una tecnica per l’individuazione di un’equazione che descrive la relazione lineare
fra due variabili (Figura 5.1). Tale equazione è rappresentabile come retta (linea di
regressione). L’analisi di regressione consente di visualizzare (facilitare la
comprensione) della relazione fra le due variabili, individuare la tendenza centrale della
relazione (così come la media individua la tendenza centrale per un insieme di
osservazioni) e prevedere il valore di Y per un X ignoto (interpolazione/estrapolazione).

Figura 5.1

La tecnica della regressione parametrica consiste nella procedura statistica per


individuare la linea di regressione ottimale (“best fit”) per un determinato insieme di
osservazioni. La linea di regressione ottimale si definisce come quella linea che
minimizza le distanze verticali fra le osservazioni e la linea stessa e utilizza i parametri
della regressione a e b in un’equazione lineare (“equazione di regressione”).

91
Le regressione logistica è utile quando si desidera prevedere la presenza o
l'assenza di una caratteristica o di un risultato in base ai valori di un insieme di variabili
stimatore (Figura 5.2). È simile al modello di regressione lineare ma si adatta ai modelli
in cui la variabile dipendente è dicotomica (1,0). È possibile utilizzare i coefficienti di
regressione logistica per stimare i rapporti “odds” per ogni variabile indipendente nel
modello. La regressione logistica è applicabile a un numero più elevato di ricerche
rispetto all'analisi discriminante (parametrica).

Figura 5.2

Per esempio, possiamo fare la domanda: quali caratteristiche dello stile di vita
rappresentano fattori di rischio per le malattie cardiovascolari (CHD)? In un campione
di pazienti in cui è stato verificato lo stato di fumatore, la dieta, l'esercizio, l'uso di
alcolici e lo stato delle malattie cardiovascolari (CHD), è possibile costruire un modello
utilizzando le quattro variabili relative allo stile di vita per prevedere la presenza o
l'assenza di CHD in un campione di pazienti. È quindi possibile utilizzare il modello per
ottenere le stime dei rapporti odd per ogni fattore e per sapere, ad esempio, quante
probabilità in più hanno i fumatori di sviluppare malattie CHD rispetto ai non fumatori
(vedi rischio relativo e rapporto “odds” nel Modulo 4).
92
L'analisi di serie temporali (serie storiche o “time series”) contiene un'elevata
quantità di metodi descrittivi, di modellazione parametrica, decomposizione e di
previsione sia per serie aventi come dominio il tempo che per serie che si basano sulle
frequenze (le procedure sono tra loro pienamente integrate nel SPSS e possono essere
utilizzate direttamente nelle analisi successive, per esempio, per calcolare la funzione di
autocorrelazione dei residui ARIMA). Sono disponibili trasformazioni, modellazioni,
grafici, autocorrelazioni, ecc. che permettono di esplorare appieno le regolarità presenti
nella serie storica di input e di eseguire tutte le trasformazioni comuni sulle serie
storiche tale l'eliminazione del trend, rimozione delle autocorrelazioni, lisciamento a
medie mobili (Figura 5.3). Si può specificare anche la lunghezza del periodo di
stagionalità e scegliere il modello di stagionalità additiva o moltiplicativa (per esempio,
si possono specificare fattori a priori relativi a giorni lavorativi e fattori per
l'aggiustamento stagionale). Le variazioni dovute a variazioni nei giorni lavorativi
possono essere stimate tramite regressione (con controllo per le osservazioni estreme)
ed utilizzate per meglio impostare le serie. Le componenti finali (stagionalità, trend-
ciclo, irregolare) e le serie aggiustate per la stagionalità sono disponibili per ulteriori
analisi e grafici (per esempio, l'analisi di spettro incrociata). Per l'analisi spettrale su una
singola serie, i risultati standard includono la frequenza, il periodo, i coefficienti di seno
e coseno, i valori del periodogramma e le stime della densità spettrale. Le stime della
densità possono essere eseguite utilizzando pesi e dimensioni delle varie “finestre”.
Tutte queste quantità possono essere poste in un grafico in confronto con le frequenze o
con i periodi.

Figura 5.3

93
5.2. Analisi della sopravvivenza: analisi di Kaplan-Meier e log-rank test per
il confronto delle curve di sopravvivenza.

Il metodo di Kaplan Meier per l'analisi di sopravvivenza serve a costruire le


curve di sopravvivenza di uno o più gruppi di pazienti (Figura 5.4). Nel caso di più
gruppi il metodo permette anche di confrontare tra loro le curve di sopravvivenza con un
particolare test di significatività statistica denominato log-rank test.

Figura 5.4

Cosi abbiamo visto come la probabilità cumulativa di sopravvivenza possa


essere stimata attraverso la curva di Kaplan-Meier. Rimanendo nell’ambito delle nostre
esemplificazioni, è ovviamente possibile tracciare curve separate per i pazienti
(riceventi) di rene giovane e rene vecchio. Questo consente di confrontare le curve di
sopravvivenza con un test statistico. Possiamo pertanto verificare direttamente quale dei
due gruppi sia a maggior rischio dell’altro. A ciascun momento del follow-up
corrisponderà un percentuale di sopravvivenza per ciascun gruppo. Ad esempio, in
Figura 5.5 si vede che la sopravvivenza a cinque anni è circa 85% per i reni vecchi e
75% per i reni giovani. Occorre subito sottolineare che un confronto tra le curve è un
confronto "crudo", non aggiustato per eventuali confounder; non ci sono garanzie che la
differenza osservata sia attribuibile alla variabile considerata (questo problema può
venire risolto con l’applicazione del metodo del rischio proporzionale di Cox).

94
Figura 5.5

Talvolta, però, come nelle sperimentazioni randomizzate, è ragionevole


assumere che i gruppi siano diversi solo per una caratteristica (il trattamento); in questo
caso una eventuale differenza nella sopravvivenza potrà essere attribuita alla variabile
considerata e le curve di Kaplan-Meier sono sufficienti da sole allo scopo. Il paragone
tra le curve fatto sopra, è un paragone "ad occhio". Abbiamo necessità di un test che ci
dica se la differenza osservata tra le curve è statisticamente significativa: l’ipotesi che
deve essere testata è quanto la differenza osservata sia compatibile con la variabilità
casuale. A tale scopo i test più importante è il log-rank test. Il test si può eseguire
utilizzando un listato di dati come quelli necessari per tracciare le due curve di
sopravvivenza; si compilano delle tabelle 2x2 (analoghe a quelle riportate prima) con le
righe che corrispondono al gruppo di appartenenza e le colonne allo stato dei pazienti
(fallito/sopravvissuto); si combinano poi tutte le tabelle tra loro per testare
l’associazione tra il gruppo in questione (vedi anche l'esempio per i linfonodi e la
sopravvivenza cumulativa dei pazienti con tumore nell'Appendice 5.III). Il significato
del termine "log rank" deriva dal fatto che lo score test risulta dalla somma di valori
ottenuti in momenti successivi nel tempo ("rank"). Il log-rank test si fonda sull’
assunzione che i rischi siano proporzionali.

95
5.3. Regressione: interpretazione di un modello lineare, suoi parametri
statistici e valutazione delle predizioni statistiche.

L'analisi della regressione parametrica lineare permete di costruire un modello


lineare e valutare i parametri statistici. Un tale modello è rappresentato dal'equazione
lineare Y=A+B*X e dalla linea di regressione e visualizza la relazione fra le due
variabili continui (Figura 5.6).

Figura 5.6

L'asse orizzontale è l'asse delle X (ascissa), l'asse verticale è l'asse delle Y


(ordinata). In questo esempio la variabile Y(C2) è tanto più alta quanto maggiore è la
variabile X(C0). Questo rapporto è ben descritto dal'equazione lineare nella quale A
rappresenta l'intercetta (“intercept”, il valore che la variabile Y assume quando la
variabile X è = 0), e da B cioè dalla pendenza ("slope") della linea che meglio interpola
i dati (come detto prima, il "best fit"). Il problema statistico è trovare il modello
migliore con una intercetta e una pendenza della linea tali da minimizzare la distanza di
ciascuno dei punti dalla linea. Questa procedura è l'interpolazione o “fitting”. Il criterio
per “fitting” è che la retta ideale è quella che minimizza la somma dei quadrati delle
deviazioni dalla retta stessa (si usa il metodo dei “minimi quadrati” o “least squares
method” che produce la linea di regressione ottimale che minimizza le distanze
verticali fra le osservazioni e la linea).
Le deviazioni dei singoli punti dalla retta sono definite residui. Le deviazioni
dovute alla regressione non sono altro che la distanza delle singole Yi dalla Y media.
Alcune distanze sono “positive”, alcune sono negative. L’ottimizzazione minimizza la
somma degli scarti quadratici (i dati vengono trasformati in quadrati per risolvere il
problema dei numeri negativi). La linea di regressione (modello lineare) si usa per
prevedere valori di Y per valori di X e si puo usare anche per prevedere i valori di Y
inferiori o superiori a quelli compresi nel campione (pero, con prudenza, perche è bene
sottolineare che stiamo operando su un campione e il campione fornisce solo una stima
probabilistica dei parametri della popolazione). La misura del rapporto tra le due
variabili è data dal coefficiente di correlazione (R) o coefficiente di Pearson: (i)
positivo tra 0 e 1 quando il rapporto è diretto (Figura 5.6) e (ii) negativo (tra -1 e 0)
nell caso di rapporto inverso.
96
5.4. Regressione logistica: interpretazione dei risultati e valutazione della
predizione statistica (sensibilità, specificità ed accuratezza, curve ROC)

L'analisi di regressione logistica si applica per la classificazione dei casi


(eventi/non-eventi) secondo un fattore presente o il livello della caratteristica specifica
determinante e fa confronto fra numero di casi osservati e casi attesi secondo il modello
(vedi la tabella “Classificazione” in giallo nell'Appendice 5.II.A.2). Nell SPSS, come
abbiamo visto, per la procedura “Regressione logistica” sono disponibili le varie
funzionalita utili come test di bonta dell'adattamento di Hosmer-Lemeshow per il
modello logistico, analisi per passi, contrasti per definire la parametrizzazione del
modello, punti di divisione alternativi per la classificazione, grafici di classificazione,
modello adattato a una serie di casi per produrre una serie di casi, salvataggio di valori
stimati, residui e statistiche di influenza per solvere problemi complessi nei studi
“cohort” (vedi Figura 4.2A e Tabella 4.1 nell Modulo 4) e nei studi “caso-controllo”.
Per esempio, un problema maggiore che nasce con gli studi di tipo "caso-controllo" è
l'identificazione univoca di un campionamento corretto per i controlli, necessario per
limitare l'effetto di possibili fattori di confondimento dovuti a miscele di popolazione e
stratificazione. Nei casi in cui il miscuglio di popolazione crei un serio rischio di
confondimento è possibile applicare le curve di “Receiver Operating Characteristic”
(ROC) riassuntive come un approccio avanzato di analisi dei dati (Figura 5.7). E'
possibile considerare il test di associazione “malattia/fattore” come un insieme di test
indipendenti. Si effettua il test all'interno di ogni popolazione e si riporta una stima del
tasso dei falsi positivi (FPR) e dei veri positivi (TPR). E' quindi possibile costruire una
curva ROC riassuntiva usando la trasformazione logistica di FPR e TPR come funzione
della soglia intesa come parametro. Tale test è robusto rispetto a molte distorsioni e
fornisce un'analisi grafica e immediata del grado di stratificazione della popolazione.

Figura 5.7

97
Le curve ROC appartengono ad un campo disciplinare definito con “Teoria dei
segnali”. Ancora più in generale, le curve ROC si inseriscono nel contesto della
classificazione binaria di tipo supervisionato; infatti consentono di utilizzare i valori di
un punteggio per costruire una regola decisionale che assegni a ciascun individuo la
presenza o l’assenza di una determinata caratteristica; tuttavia richiedono la conoscenza
del reale stato dell’unità esaminata, poiché deve essere possibile anche la verifica delle
reali capacità di riconoscimento della regola. Tornando all’ambito medico con la
presenza di una certa condizione patologica (evento) coincida con valori del “test”
(fattore di rischio) più elevati, possiamo considerare la Figura 5.7 che rappresenta le
due distribuzioni di frequenza dei soggetti “sani” e di quelli “malati” in funzione dei
valori di un test a questi somministrato. Nella figura si può notare una regione nella
quale le due distribuzioni si intersecano (intervallo di overlap) che rappresentano
risultati del test possibili ed equivalenti sia per soggetti sani sia per quelli malati. E’ da
osservare, infatti, che usualmente i test medici (ed i metodi di classificazione in
generale) commettono un certo errore - la loro accuratezza percentuale non è pari a 100.
In particolare gli errori possibili sono di due tipi: “falso-positivo” se il test risulta
positivo in un paziente in cui la malattia è assente; “falso-negativo” se il test risulta
negativo in un paziente in cui la malattia è presente. La linea verticale nella figura
rappresenta il valore soglia, o cutpoint, ovvero il valore oltre il quale il test viene
considerato positivo, e di conseguenza il soggetto malato. In funzione del cutpoint scelto
è possibile, quindi, definire il numero dei “veri positivi” (TP–True Positives), dei “veri
negativi” (TN –True Negatives), dei “falsi positivi” (FP–False Positives) e dei “falsi
negativi” (FN–False Negatives). Queste quantità possono essere rappresentate
costruendo la matrice di confusione che confronta il risultato del test (valore osservato)
con il reale stato del soggetto (valore previsto o atteso, vedi la tabella “Classificazione”
in giallo nell'Appendice 5.II.A.2). Sulla base di tale tabella (matrice) vengono
determinate tre importanti misure della validità di un test: la sensibilità, la specificità e
l'accuratezza. La sensibilità di un test riguarda la sua capacità d’individuare la malattia
quando essa è presente: si ottiene rapportando il numero di malati che risultano positivi
al test al totale dei malati (a/a+c). Se un test non è sensibile, non riconoscerà la
patologia in qualche soggetto malato; il tasso al quale tale mancato riconoscimento si
verifica viene definito tasso di errore falso-negativo (il complemento ad uno della
sensibilità) ed è calcolato come la quota dei malati risultanti negativi al test.
La specificità, invece, si riferisce alla capacità d’individuare l’assenza della
malattia quando essa non è presente: si ottiene rapportando il numero di sani che
risultano negativi al test al totale dei sani (d/b+d). Se un test non è specifico, indicherà
falsamente la malattia in soggetti non malati; il tasso al quale questo si verifica viene
definito tasso di errore falso-positivo (il complemento ad uno della specificità) ed è
calcolato come la quota dei non malati risultanti positivi al test. Queste misure
dipendono dal valore oltre il quale il test viene considerato positivo, ovvero dal cutpoint
scelto; modificando questo valore è possibile, quindi, incrementare l’una o l’altra
quantità. Naturalmente sarebbe ottimale massimizzare contemporaneamente sia la
sensibilità che la specificità di un test (fattore preditivo), ma questo non è sempre
possibile. Si può, quindi, osservare che esiste un trade-off tra sensibilità e specificità,
che costringe a scegliere tra un test più sensibile ma meno specifico e, viceversa, uno

98
più specifico ma meno sensibile. La scelta è sempre condizionata dalle finalità del test
desiderato. Infatti un test di screening, usato a fini di prevenzione per escludere una
patologia, dovrebbe avere un alto grado di sensibilità, così da garantire che solo pochi
casi di malattia non vengano riconosciuti. Al contrario un test di conferma, usato per
confermare una diagnosi già sospetta, dovrebbe avere un alto grado di specificità, in
modo da garantire di diagnosticare erroneamente la malattia in pochi pazienti.
Per quel che riguarda il dettaglio della costruzione della curva ROC, si procede
fissando diversi possibili punti di taglio del test e calcolando in corrispondenza di
ognuno di essi la sensibilità ed il tasso di errore falso-positivo; in seguito si
rappresentano i risultati nell grafico di curva ROC. Dunque ogni test, al variare del
valore soglia, definisce una curva ROC ciò permette di confrontare due o più test
semplicemente tramite l’osservazione della rappresentazione congiunta delle
corrispondenti curve ROC. La curva ideale per un test dovrebbe innalzarsi quasi
verticalmente dall’angolo basso a sinistra e quindi muoversi orizzontalmente quasi
lungo la linea orizzontale superiore, come la curva più alta nella figura (curva definita
“eccellente”). In questo modo infatti la sensibilità aumenta provocando un decremento
minimo della specificità. Dunque, le curve ROC risultano molto utili nei problemi di
classificazione, sia nella scelta del valore soglia per la costruzione di una regola
decisionale, sia nella valutazione di un metodo di classificazione o nel confronto tra due
o più metodi o fattori di rischio. Inoltre al di là del campo medico, possono essere
applicate nei contesti più diversi, purché si abbia a disposizione un punteggio
esplicativo in base al quale classificare gli individui.

99
5.5. Interpretazione e confronto delle curve di sopravvivenza cumulative di
Kaplan-Meier.

L'analisi di sopravvivenza usano metodi nonparametrici come le stime Kaplan-


Meier e attuariali, test di grado lineare per paragonare la sopravvivenza tra gruppi
incluso, come visto, il logrank (Mantel-Cox o Mantel-Haenszel), Breslow-Gehan-
Wilcoxon, Tarone-Ware, Peto-Peto-Wilcoxon, Harrington-Fleming e versioni “trend” e
stratificazione. Le tabelle e grafiche presentano l'eventi, il tempo medio, le funzione di
sopravvivenza e quantita relative, quantili e dati riassuntivi, sopravvivenza cumulativa,
azzardo cumulativo (rischio), azzardo ln cumulativo, azzardo (solo attuariale) e densita
(solo attuariale) (Figura 5.8). Abbiamo capito che l’obiettivo principale dell’analisi
della sopravvivenza è l’evento denominato "fallimento", come nel caso di esempio del
professor Zoccali, la perdita del trapianto di rene (Figura 5.5, vedi anche il libro di
Carmine Zoccali “Aspetti Tecnici in Nefrologia”). Questa è un’analisi "binaria" poiche
la risposta a misurare puo avere solo due possibili valori: "fallito" o "sopravvissuto".

A) Grafica di sopravvivenza (per paziente)

B) Curva di sopravvivenza cumulata di Kaplan-Meier

Figura 5.8

100
In un studio clinico esiste sempre un punto di partenza ben identificabile, ad
esempio, primo sintomo, visita dal medico, ecc.; esiste anche un evento finale facile nel
caso di decesso (morte) ma non sempre evento singolo (ricovero ospedale). La
probabilità di essere “persi allo studio” non dipende dall’evento finale (dobbiamo anche
considerare in uno studio sul cancro un caso di suicidio o rifiuto a continuare la cura).
Nell studio di 10 pazienti seguiti per 10 anni abbiamo 4 deceduti pazienti con
melanoma, 3 persi e 3 censurati “a destra” (sono "censurate" perche non ci e dato di
sapere quanto sarebbe stato lungo il tempo di sopravvivenza: l’analisi deve tenere conto
che l’evento critico non si e ancora verificato in tutti i pazienti e le osservazioni per
questi pazienti vengono definite "censurate").
Per calcolare la sopravvivenza media (Figura 5.8A) possiamo prendere in
considerazione solo i pazienti di cui si conosce tutto ma la statistica si riduce solo ai casi
a,c,d,f e tempo trascorso fino evento finale e numero casi che lo raggiungono: la
sopravvivenza media sm=(61+29+46+22)/4=39.5 mesi. In questo calcolo abbiamo perso
la maggioranza dei casi (60%) e non sapiamo se gli altri 6 avrebbero avuto stesso
comportamento. Il problema non è solo chi sopravvive ma quanto sopravvive. Dopo un
anno 100%, dopo 90 quasi certamente 0%. Occorre fissare una data limite (backdating)
che fissa un termine (in studi di cancro chi risulti vivo dopo 5 anni dall’inizio dello
studio dei dati è considerato sopravvissuto indipendentemente da quello che gli accade
dopo). Per tenere conto dei censurati / persi si può utilizzare il tempo (in anni) trascorso
da ciascun soggetto nello studio cioè numero totale di “anni-persona di osservazione”
(cosi si utilizzano anche le informazioni delle persone che sono uscite dallo studio). Le
tavole di sopravvivenza (“life table”) possiedono i vantaggi degli “anni-persona” con la
massima utilizzazione dei dati disponibili senza lo svantaggio di dover considerare il
rischio costante per lunghi periodi di tempo. Vediamo che possiamo trattare le persone
che si ritirano dallo studio (P) e le censurate (C) allo stesso modo come “perse”. Le
persone perse sono (per compromesso) considerate come mezzo anno-persona (numero
delle persone perse o censurate / 2).
L’hazard (rischio) è la probabilità che si verifichi l’evento in un soggetto che è
in osservazione al momento in cui inizia uno specifico intervallo di tempo. La
probabilità qi=di/[ri–(ki/2)] dove ri = numero soggetti a rischio all’inizio dell’anno (i),
qi è probabilità di morire nel corso dell’anno (i), pi=(1–qi) è la probabilità di
sopravvivere nell’anno (i), di = numero delle persone decedute nell’anno (i), ki =
numero delle persone “perse” nell’anno (i). Cosi 10 persone arrivano al secondo anno
con q1=0/[10–(0/2)]=0, q2=1/10–(1/2)]=0,105, ecc. La funzione di sopravvivenza è
calcolata esattamente quando accade l’evento. La curva della probabilità di
sopravvivenza (pi) cambia ogni volta quando accade l’evento e, nell’approccio alla
Kaplan-Meier, gli intervalli sono uguali sull’asse y delle probabilità (Figura 5.8B). I
soggetti persi (ritirati o censurati) sono considerati a rischio fino al momento del ritiro.
Come abbiamo detto prima, il confronto fra curve di sopravvivenza si puo fare
con il log-rank test (Mantel-Cox): il confronto è tra le probabilita attese dell’evento (il
decesso) con il numero di eventi osservato. Per individuare i fattori che influenzano il
rischio della morte è necessario confrontare la sopravvivenza di due gruppi di pazienti
che differiscono solo per essere stati esposti o non esposti a quel fattore. Supponiamo

101
che abbiamo due gruppi di individui che hanno avuto un incidente stradale viaggiando
con o senza la centura allanciata per un periodo di tre anni (periodo di osservazione). La
mortalita attesa si calcola assumendo che essa sia casuale, cioe che essa si ripartisca tra i
due gruppi in misura proporzionale al numero di soggetti che sono presenti in ciascun
gruppo (i soggetti a rischio) e la ripartizione e espressa, intervallo per intervallo, dal
numero di soggetti a rischio di ciascun gruppo diviso per il totale dei soggetti a rischio
(l’insieme dei due gruppi) nello stesso intervallo. Quando i due gruppi hanno la stessa
numerosita la mortalita attesa si distribuisce in eguale misura nei due gruppi (0.5:0.5).
La mortalita attesa si calcola sommando le mortalita attese di tutti gli intervalli. Il
risultato del log-rank test si calcola con la formula: (“mortalita attesa” - “mortalita
osservata”)2/“somma dei prodotti delle mortalita attese nei due gruppi”(vedi anche
il libro di Carmine Zoccali “Aspetti Tecnici in Nefrologia”). Il numeratore puo essere
calcolato indifferentemente utilizzando i dati del primo o del secondo gruppo (il
risultato e identico). Il denominatore si calcola moltiplicando intervallo per intervallo i
dati dei due gruppi e sommandoli (per esempio, vedi Appendice 5.III). Il risultato
ottenuto va tradotto in una probabilità consultando la tavola della distribuzione di chi-
quadrato (si è già detto che questa distribuzione è analoga a quella della deviazione
media standardizzata). Questa distribuzione consente di stabilire la probabilità di una
differenza tra valori osservati e attesi per variabili categoriche come la sopravvivenza
(in nostro caso nell Appendice 5.III, il test di log-rank=15.99 con p=0.0001 e indica che
la differenza è significativa fra le due curve di sopravvivenza cumulata per gli strati di
linfonodi come fattori di rischio di decesso).
Dobbiamo dire ancora una volta che le misure di Kaplan-Meier stimano la
lunghezza del tempo prima di un certo evento, la regressione di Cox permette di stimare
funzioni di rischio con variabili dipendenti come la durata di un evento o il tempo
prima di un evento. Un altro approcio e il “Metodo bayesiano” con probabilità “prior” e
“posterior” dove la stima della sopravvivenza (non costante) si calcola all’interno
dell’intervallo La curva predittiva tiene conto di tutte le informazioni iniziali e poi
aggiorna la stima sulla base dei dati già osservati (per esempio, con meno di 50 soggetti
Kaplan-Meier è più efficiente: utilizza esattamente l’istante dell’evento). La procedura
“Kaplan-Meier” di SPSS permete la definizione dei fattori e degli strati con grafiche
delle funzioni di rischio cumulative, sopravvivenza cumulata e logaritmica,
visualizzazione dei casi segnati e troncati, salvataggio su file di variabili (numero
cumulativo di eventi, rischio, errore standard, funzione di sopravvivenza). Le statistiche
calcolate sono la media, la mediana e errori standard dei tempi di sopravvivenza, il
numero a rischio, i percentili richiesti, l'errore standard, la definizione di una
componente di trend per livelli di fattore metrici e i test di eguaglianza delle
distribuzioni di sopravvivenza: Breslow, ranghi logaritmici (log-rank) e Tarone. Queste
procedure assieme a quella di analisi delle “Tavole di sopravvivenza” (Appendice 5.III),
forniscono un insieme di tecniche flessibile e completo per l’analisi dei dati di
sopravvivenza..

102
5.6. OUTPUT di SPSS 11.0

Appendice 5.I

I.A. REGRESSIONE PARAMETRICA UNIVARIATA

5.I.A.1. Syntassi (regressione parametrica univariata)

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI BCOV R ANOVA
/CRITERIA=PIN(.05) POUT(.10) CIN(95)
/NOORIGIN
/DEPENDENT c2 /METHOD=ENTER age_tx_y
/SCATTERPLOT=(*ADJPRED ,c2 )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID)
/CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE PRED ZPRED MCIN .

GRAPH
/SCATTERPLOT(BIVAR)=age_tx_y WITH c2
/MISSING=LISTWISE .

5.I.A.2. Output (tavole: regressione parametrica univariata)

Regressione parametrica univariata

Statistiche descrittive
Media Deviazione std. N
C2 594.8103 210.50411 58
AGE_TX_Y 38.8617 11.96821 58

Correlazioni
C2 AGE_TX_Y
C2 1.000 .263
Correlazione di Pearson
AGE_TX_Y .263 1.000
C2 . .023
Sig. (1-coda)
AGE_TX_Y .023 .
C2 58 58
N
AGE_TX_Y 58 58

103
Variabili inserite/rimosse(b)
Modello Variabili inserite Variabili rimosse Metodo
1 AGE_TX_Y(a) . Per blocchi
a Tutte le variabili richieste sono state inserite
b Variabile dipendente: C2

Riepilogo del modello(b)


R-quadrato Errore std. della
Modello R R-quadrato Durbin-Watson
corretto stima
1 .263(a) .069 .052 204.91513 1.565
a Stimatori: (Costante), AGE_TX_Y
b Variabile dipendente: C2

ANOVA(b)
Modello Somma dei quadrati df Media dei quadrati F Sig.
Regressione 174331.163 1 174331.163 4.152 .046(a)
1 Residuo 2351451.751 56 41990.210
Totale 2525782.914 57
a Stimatori: (Costante), AGE_TX_Y

b Variabile dipendente: C2

Coefficienti(a)
Coefficienti non Coefficienti Intervallo di
standardizzati standardizzati confidenza per B al
95%
t Sig.
Errore Beta
Modello B Limite Limite
std.
inferiore superiore

(Costante) 415.237 92.147 4.506 .000 230.644 599.829


1
AGE_TX_Y 4.621 2.268 .263 2.038 .046 .078 9.164
a Variabile dipendente: C2

Coefficienti di correlazione(a)
Modello AGE_TX_Y
Correlazioni AGE_TX_Y 1.000
1
Covarianze AGE_TX_Y 5.143
a Variabile dipendente: C2

104
Diagnostiche per casi(a)
Numero di caso Residuo std. C2 Valore atteso Residuo
22 3.294 1277.00 601.9932 675.0068
a Variabile dipendente: C2

Statistiche dei residui(a)


Minimo Massimo Media Deviazione std. N
Valore atteso 474.3049 690.6272 594.8103 55.30318 58
Valore atteso std. -2.179 1.733 .000 1.000 58
Errore standard dei valori attesi 26.91611 64.97459 37.02021 8.87697 58
Valore atteso corretto 484.2873 706.9915 594.8852 55.28850 58
Residuo -383.6925 675.0068 .0000 203.10967 58
Residuo std. -1.872 3.294 .000 .991 58
Residuo stud. -1.891 3.323 .000 1.006 58
Residuo cancellato -391.4429 687.0560 -.0748 209.27219 58
Residuo studentizzato per
-1.937 3.676 .011 1.043 58
cancellazione
Distanza di Mahal. .001 4.748 .983 .991 58
Distanza di Cook .000 .099 .015 .024 58
Valore d'influenza .000 .083 .017 .017 58
a Variabile dipendente: C2

I.A.3. Output (grafici: regressione parametrica univariata)


1400

1200

1000

800

600

400

200
C2

0 Rsq = 0.0690
10 20 30 40 50 60 70

AGE_TX_Y

Figura 5.9

105
Istogramma
Variabile dipendente: C2
10

Frequenza 4

2 Dev. Stand = .99


Media = 0.00

0 N = 58.00
-1

-1

-.7

-.2

.2

.7

1.

1.

2.

2.

3.
2

2
5
5

75

25
.7

.2

5
5

5
5

Regressione Residuo standardizzato

Normalità P-P di regressione Residuo standardizzato

Variabile dipendente: C2
1.00

.75

.50
Prob cum attesa

.25

0.00
0.00 .25 .50 .75 1.00

Prob cum osservata

Grafico a dispersione
Variabile dipendente: C2
800
Regressione Valore previsto corretto

700

600

500

400 Rsq = 0.0236


0 200 400 600 800 1000 1200 1400

C2

Figura 5.10

106
5.I.B. REGRESSIONE PARAMETRICA MULTIVARIATA

5.I.B.1. Syntassi (regressione parametrica multivariata)

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI BCOV R ANOVA COLLIN TOL CHANGE ZPP
/CRITERIA=PIN(.05) POUT(.10) CIN(95)
/NOORIGIN
/DEPENDENT c2
/METHOD=BACKWARD age_tx_y c0
/SCATTERPLOT=(*ADJPRED ,c2 )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID)
/CASEWISE PLOT(ZRESID) OUTLIERS(3)
/SAVE PRED ZPRED MCIN .

GRAPH
/SCATTERPLOT(BIVAR)=c0 WITH c2 /MISSING=LISTWISE .

5.I.B.2. Output (tavole: regressione parametrica multivariata)

Statistiche descrittive
Media Deviazione std. N
C2 594.8103 210.50411 58
AGE_TX_Y 38.8617 11.96821 58
C0 102.2414 35.12999 58

Correlazioni
C2 AGE_TX_Y C0
C2 1.000 .263 .465
Correlazione di Pearson AGE_TX_Y .263 1.000 .175
C0 .465 .175 1.000
C2 . .023 .000
Sig. (1-coda) AGE_TX_Y .023 . .094
C0 .000 .094 .
C2 58 58 58
N AGE_TX_Y 58 58 58
C0 58 58 58

107
Variabili inserite/rimosse(b)
Variabili
Modello Variabili inserite Metodo
rimosse
1 C0, AGE_TX_Y(a) . Per blocchi
Indietro (Criterio: Probabilitа di F di
2 . AGE_TX_Y
rimozione >= .100).
a Tutte le variabili richieste sono state inserite
b Variabile dipendente: C2

Riepilogo del modello(c)


Modello
1 2
R .500(a) .465(b)

R-quadrato .250 .216

R-quadrato corretto .223 .202

Errore std. della stima 185.54900 187.99191

Variazione di R-quadrato .250 -.034


Variazione di F 9.182 2.484
Variazione dell'adattamento df1 2 1
df2 55 57
Sig. variazione di F .000 .121

Durbin-Watson 1.562

a Stimatori: (Costante), C0, AGE_TX_Y

b Stimatori: (Costante), C0

c Variabile dipendente: C2

108
ANOVA(c)
Modello Somma dei quadrati df Media dei quadrati F Sig.
Regressione 632219.161 2 316109.581 9.182 .000(a)
1 Residuo 1893563.753 55 34428.432
Totale 2525782.914 57
Regressione 546689.188 1 546689.188 15.469 .000(b)
2 Residuo 1979093.726 56 35340.959
Totale 2525782.914 57
a Stimatori: (Costante), C0, AGE_TX_Y
b Stimatori: (Costante), C0
c Variabile dipendente: C2

Coefficienti(a)
Modello
1 2
AGE_T
(Costante) C0 (Costante) C0
X_Y
Coefficienti non B 202.099 3.288 2.591 309.786 2.788
standardizzati Errore std. 101.871 2.086 .711 76.557 .709
Coefficienti
Beta .187 .432 .465
standardizzati

t 1.984 1.576 3.647 4.046 3.933

Sig. .052 .121 .001 .000 .000

Limite inferiore -2.054 -.892 1.167 156.423 1.368


Intervallo di confidenza
per B al 95% Limite
406.253 7.468 4.015 463.149 4.208
superiore
Ordine zero .263 .465 .465
Parziali .208 .441 .465
Correlazioni
Parziali
.184 .426 .465
indipendenti
Statistiche di Tolleranza .969 .969 1.000
collinearità VIF 1.032 1.032 1.000

a Variabile dipendente: C2

109
Coefficienti di correlazione(a)

Modello C0 AGE_TX_Y

C0 1.000 -.175
Correlazioni
AGE_TX_Y -.175 1.000
1
C0 .505 -.260
Covarianze
AGE_TX_Y -.260 4.350
Correlazioni C0 1.000
2
Covarianze C0 .502
a Variabile dipendente: C2

Diagnostiche di collinearitа(a)
Dimensione
Indice di
Modello Autovalore (Costante) AGE_TX_Y C0
collinearità

1 2.883 1.000 .01 .01 .01


1 2 7.894E-02 6.044 .01 .43 .73
3 3.775E-02 8.740 .98 .56 .25
1 1.947 1.000 .03 .03
2
2 5.341E-02 6.037 .97 .97
a Variabile dipendente: C2

Variabili escluse(b)
Modello
Beta Correlazioni Tolleranza
t Sig. Tolleranza VIF
In parziali minima

AGE_TX .187(a
2 1.576 .121 .208 .969 1.032 .969
_Y )
a Stimatori nel modello : (Costante), C0
b Variabile dipendente: C2

Diagnostiche per casi(a)


Numero di caso Residuo std. C2 Valore atteso Residuo
22 3.084 1277.00 697.2844 579.7156
a Variabile dipendente: C2

110
Statistiche dei residui(a)
Minimo Massimo Media Deviazione std. N
Valore atteso 424.0843 839.4600 594.8103 97.93385 58
Valore atteso std. -1.743 2.498 .000 1.000 58
Errore standard dei valori attesi 24.70022 66.92219 33.61503 9.49943 58
Valore atteso corretto 417.7140 862.4548 595.2687 99.42118 58
Residuo -303.5865 579.7156 .0000 186.33556 58
Residuo std. -1.615 3.084 .000 .991 58
Residuo stud. -1.653 3.142 -.001 1.009 58
Residuo cancellato -318.1315 601.6453 -.4583 193.29202 58
Residuo studentizzato per
-1.680 3.430 .009 1.042 58
cancellazione
Distanza di Mahal. .001 6.241 .983 1.219 58
Distanza di Cook .000 .187 .019 .033 58
Valore d'influenza .000 .109 .017 .021 58
a Variabile dipendente: C2

5.I.B.3. Output (grafici: regressione parametrica multivariata)

1400

1200

1000

800

600

400

200
C2

0 Rsq = 0.2164
40 60 80 100 120 140 160 180 200

C0

Figura 5.11

111
Appendice 5.II

5.II.A. REGRESSIONE LOGISTICA UNIVARIATA

5.II.A.1. Syntassi (regressione logistica univariata)

LOGISTIC REGRESSION VAR=stato_c


/METHOD=ENTER dimtum
/SAVE PRED PGROUP COOK LEVER DFBETA
/CLASSPLOT
/PRINT=GOODFIT CORR CI(95)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

5.II.A.2. Output (tavole: regressione logistica univariata)

Regressione logistica

Riepilogo dei casi


Casi non pesati(a) N Percentuale
Incluso nell'analisi 1121 92.9
Casi selezionati Casi mancanti 86 7.1
Totale 1207 100.0
Casi non selezionati 0 .0

Totale 1207 100.0

a Se il peso è attivo, vedere la tabella di classificazione per il numero totale dei casi.

Codifica variabile dipendente


Valore originale Valore interno
1. Deceduto 0
2. Troncato 1

112
Blocco 0: Blocco iniziale

Tabella Classificazione(a,b)
Atteso
stato_c
2. Troncato
Osservato 1. Deceduto

1. Deceduto 0 66 .0
stato_c
Passo 0 2. Troncato 0 1055 100.0
Percentuale globale 94.1

a Costante nel modello.

b Il valore di riferimento è .500

Variabili nell'equazione
Exp Passo
B E.S. Wald df Sig. Costante 2.772 .127 477.161 1 .000 15.985
(B) 0

Variabili non nell'equazione


Punteggio df Sig.
Variabili DIMTUM 39.635 1 .000
Passo 0
Statistiche globali 39.635 1 .000

Blocco 1: Metodo = Per blocchi

Test omnibus dei coefficienti del modello


Chi-quadrato df Sig.
Passo 31.542 1 .000
Passo 1 Blocco 31.542 1 .000
Modello 31.542 1 .000

Riepilogo del modello


Passo -2 log verosimiglianza R-quadrato di Cox e Snell R-quadrato di Nagelkerke
1 470.360 .028 .077

113
Test di Hosmer-Lemeshow
Passo Chi-quadrato df Sig.
1 9.367 8 .312

Tabella di contingenza per il test Hosmer-Lemeshow


stato_c = 1. Deceduto stato_c = 2. Troncato
Attesa Totale
Osservato Attesa Osservato

1 17 16.523 72 72.477 89
2 7 7.985 77 76.015 84
3 11 7.845 97 100.155 108
4 10 7.566 120 122.434 130
5 7 5.856 110 111.144 117
Passo 1
6 3 5.289 118 115.711 121
7 7 4.797 118 120.203 125
8 2 4.254 126 123.746 128
9 0 3.167 108 104.833 108
10 2 2.718 109 108.282 111

Tabella Classificazione(a)
Atteso
stato_c

Osservato 1. Deceduto 2. Troncato

1. Deceduto 1 65 1.5
stato_c
Passo 1 2. Troncato 0 1055 100.0
Percentuale globale 94.2

a Il valore di riferimento è .500

114
Variabili nell'equazione
DIMTUM Costante
B -.590 3.970
E.S. .100 .268
Wald 34.844 219.472
df 1 1
Sig. .000 .000
Exp(B) .554 52.991
Inferiore .456
95.0% CI per EXP(B)
Superiore .674
a Variabili immesse al passo 1: DIMTUM.

Matrice di correlazione
Costante DIMTUM
Costante 1.000 -.875
Passo 1
DIMTUM -.875 1.000

5.II.A.3. Output (grafica: regressione logistica univariata)

Figura 5.12

115
5.II.B. REGRESSIONE LOGISTICA MULTIVARIATA

5.II.B.1. Syntassi (regressione logistica multivariata)

LOGISTIC REGRESSION VAR=stato_c


/METHOD=BSTEP(COND) dimtum linfsino
/CONTRAST (linfsino)=Indicator
/SAVE PRED PGROUP COOK LEVER DFBETA
/CLASSPLOT
/PRINT=GOODFIT CORR ITER(1) CI(95)
/CRITERIA PIN(.05) POUT(.07) ITERATE(20) CUT(.5) .

5.II.B.2. Output (tavole: regressione logistica multivariata)

Regressione logistica

Riepilogo dei casi


Casi non pesati(a) N Percentuale
Incluso nell'analisi 1121 92.9
Casi selezionati Casi mancanti 86 7.1
Totale 1207 100.0
Casi non selezionati 0 .0

Totale 1207 100.0

a Se il peso è attivo, vedere la tabella di classificazione per il numero totale dei casi.

Codifica variabile dipendente


Valore originale Valore interno
1. Deceduto 0
2. Troncato 1

Codifiche variabili categoriali


Codifica del parametro
Frequenza
(1)
1. Si 261 1.000
Linfonodi
2. No 860 .000

116
Blocco 0: Blocco iniziale

Cronologia iterazioni(a,b,c)
Coefficienti
Iterazione -2 log verosimiglianza
Costante

1 587.354 1.764
2 508.337 2.464
Passo 0 3 501.989 2.734
4 501.902 2.771
5 501.902 2.772
a Costante nel modello.
b -2 log verosimiglianza iniziale: 501.902
c La stima è stata interrotta all'iterazione numero 5 perché le stime dei parametri sono cambiate di meno
del .001.

Tabella Classificazione(a,b)
Atteso
stato_c
2. Troncato
Osservato 1. Deceduto

1. Deceduto 0 66 .0
stato_c
Passo 0 2. Troncato 0 1055 100.0
Percentuale globale 94.1
a Costante nel modello.
b Il valore di riferimento è .500

Variabili nell'equazione
Exp Passo
B E.S. Wald df Sig. Costante 2.772 .127 477.161 1 .000 15.985
(B) 0

Variabili non nell'equazione

Punteggio df Sig.

DIMTUM 39.635 1 .000


Variabili
Passo 0 LINFSINO(1) 12.198 1 .000
Statistiche globali 44.579 2 .000

117
Blocco 1: Metodo = Stepwise all'indietro (Condizionale)

Cronologia iterazioni(a,b,c,d)
Coefficienti
Iterazione -2 log verosimiglianza
Costante DIMTUM LINFSINO(1)

1 572.797 2.085 -.164 -.151


2 478.670 3.222 -.365 -.357
Passo 1 3 466.104 3.889 -.509 -.543
4 465.591 4.058 -.543 -.603
5 465.590 4.067 -.545 -.607

a Metodo: Stepwise all'indietro (Condizionale)

b Costante nel modello.

c -2 log verosimiglianza iniziale: 501.902

d La stima è stata interrotta all'iterazione numero 5 perché la log verosimiglianza è diminuita di meno del
.010 percento.

Test omnibus dei coefficienti del modello


Chi-quadrato df Sig.
Passo 36.312 2 .000
Passo 1 Blocco 36.312 2 .000
Modello 36.312 2 .000

Riepilogo del modello


Passo -2 log verosimiglianza R-quadrato di Cox e Snell R-quadrato di Nagelkerke
1 465.590 .032 .088

Test di Hosmer-Lemeshow
Passo Chi-quadrato df Sig.
1 10.467 8 .234

118
Tabella di contingenza per il test Hosmer-Lemeshow
stato_c = 1. Deceduto stato_c = 2. Troncato
Attesa Totale
Osservato Attesa Osservato

1 23 20.217 92 94.783 115


2 7 9.525 101 98.475 108
3 9 8.396 116 116.604 125
Passo 1 4 5 5.028 87 86.972 92
5 6 4.570 89 90.430 95
6 6 3.921 88 90.079 94
7 2 3.921 104 102.079 106

Tabella Classificazione(a)
Atteso
stato_c

Osservato 1. Deceduto 2. Troncato

1. Deceduto 0 66 .0
stato_c
Passo 1 2. Troncato 1 1054 99.9
Percentuale globale 94.0

a Il valore di riferimento è .500

Variabili nell'equazione
Passo 1(a)
DIMTUM LINFSINO(1) Costante
B -.545 -.607 4.067
E.S. .103 .272 .277
Wald 28.063 4.982 216.060
df 1 1 1
Sig. .000 .026 .000
Exp(B) .580 .545 58.378
Inferiore .474 .320
95.0% CI per EXP(B)
Superiore .710 .929
a Variabili immesse al passo 1: DIMTUM, LINFSINO.

119
Matrice di correlazione
Constant DIMTUM LINFSINO(1)
Constant 1.000 -.800 -.214
Passo 1 DIMTUM -.800 1.000 -.190
LINFSINO(1) -.214 -.190 1.000

Modello se il termine è rimosso(a)


Log verosimiglianza Cambiamento di -2 log Sig. di
Variabile df
del modello verosimiglianza variazione

DIMTUM -246.275 26.960 1 .000


Passo
1
LINFSINO -235.211 4.831 1 .028

a Basato sulle stime dei parametri condizionali

II.B.3. Output (grafica: regressione logistica multivariata)

Figura 5.13

120
Appendice 5.III

5.III. ANALISI DI SOPRAVVIVENZA (KAPLAN-MEIER)

5.III.1. Syntassi (sopravvivenza)

KM
tempo BY linfsino /STATUS=stato_c(1)
/PRINT TABLE MEAN
/PLOT SURVIVAL
/TEST LOGRANK BRESLOW TARONE
/COMPARE OVERALL POOLED
/SAVE SURVIVAL HAZARD .

5.III.2. Output (tavole: sopravvivenza)

Kaplan-Meier

Survival Analysis for TEMPO Tempo (mesi)

Factor LINFSINO = 1. Si

Time Status Cumulative Standard Cumulative Number


Survival Error Events Remaining

3.27 2. Troncato 0 277


5.30 2. Troncato 0 276
5.93 2. Troncato 0 275
.........................................................................................
122.23 2. Troncato 30 2
122.60 2. Troncato 30 1
129.03 2. Troncato 30 0

Number of Cases: 278 Censored: 248 ( 89.21%) Events: 30

Survival Time Standard Error 95% Confidence Interval


Mean: 111.33 3.01 ( 105.44, 117.23 ) (Limited to 129.03 )
Median: . . ( . , . )

121
Survival Analysis for TEMPO Tempo (mesi)

Factor LINFSINO = 2. No

Time Status Cumulative Standard Cumulative Number


Survival Error Events Remaining

2.63 1. Deceduto .9989 .0011 1 928


3.00 2. Troncato 1 927
3.00 2. Troncato 1 926
3.37 2. Troncato 1 925
.......................................................................................
132.67 2. Troncato 42 1
133.80 2. Troncato 42 0

Number of Cases: 929 Censored: 887 ( 95.48%) Events: 42

Survival Time Standard Error 95% Confidence Interval


Mean: 124.92 1.40 ( 122.18, 127.66 ) (Limited to 133.80 )
Median: . . ( . , . )

Survival Analysis for TEMPO Tempo (mesi)

Total Number Number Percent


Events Censored Censored

LINFSINO 1. Si 278 30 248 89.21


LINFSINO 2. No 929 42 887 95.48
Overall 1207 72 1135 94.03

Test Statistics for Equality of Survival Distributions for LINFSINO

Statistic df Significance

Log Rank 15.99 1 .0001


Breslow 18.41 1 .0000
Tarone-Ware 18.34 1 .0000

122
5.III.3. Output (grafica: sopravvivenza)

Funzioni di sopravvivenza
1.1

1.0
sopravvivenza cumulata

.9
Linfonodi

2. No
.8
2. No-troncata

1. Si

.7 1. Si-troncata
0 20 40 60 80 100 120 140

Tempo (mesi)

Figura 5.14

123