Sei sulla pagina 1di 454

M. PAGANO

K. GAUVREAU

FONDAMENTI

DI

BIOSTATISTICA

Seconda edizione

con 121 figure e 91 tabelle

Edizione italiana a cura di

ITALO F. ANGELILLO -MARIA PAVIA - PAOLO VILLARl

a;

IDELSON - GNOCCHI

--------------------------------~·~~

--------------------------------~·~~

--------------------------------~·~~

M ARCELLO PAGANO, PhD

Professar of Statistica! Comp uting Depart men t of Biostatistics Harvard School of Public Health Boston (lldA ), U.S. A.

KIM BERLEE GA UV REAU , ScD

Assistant Professar

D

epanment of Biostati stics

H

aruard School of Public Health

Boston (MA), U.S.A.

Ed izione italiana a cura di:

P ROF. I TA LO F. A NGEL!LLO

O rdin ario di Igiene

Facoltà di Medicin a e Chintrgia

Univers ità degli Studi

di Catanzaro "}o~fagna Gr.ecia"

PROF.SSA MARIA PAVIA

Associato di Igiene Facoltà di Medicina e Chimrgia Università degli Studi di Catanzaro "Magna Gr.ecia"

PROF. PAOLO VILLAR!

Associato di Igiene Facoltà di Medicina e Chirurgia Università degli Studi di Roma "La Sapienza"

Traduzione italiana:

DoTT.SSA GABRIELLA DI NATALE

Titolo dell'edizione originale:

PRINCIPLES OF BIOSTAT!STICS. 2nd edition

©

2000 by Brooks/Cole

.

.

.

.

Duxbury is an

The Thomson Learning logo is a trademark used herem under hcense.

imprint of Brooks/Cole, a d!VIS!On of ~homson ~earnmo

"

All right reserv e d. No part of this work may be reproduced, transcribcd o~ used i~ anWy fobr dm ' orbby ~ny

tstn uuon,

means _ "'raph ic electron ic, or mechamcal, mc u 1ng P otocopytng, r

or infor~ation;torage and / or retrieval systems- without the prior w ritte n permtSSIOn o t e pu ts er.

·

·

l

d'

h

·

ecordm<> tapma

0

'

••

. "

'

e f

h

bl'

h

Tutti i diritti sono riservati

È VIETATA PER LEGGE LA RIPRODUZIO N E IN FOTOCOPIA E IN

(microfilms, compact disk, videocassetta

ecc.)

.

.

.

.

.

QU ALSI ASI ALTRA FO R. NIA

O gnj violazione sarà perse guita secondo le leggt Cl\'t h e pcnah .

Per l'edizione italiana

© 2003 Gruppo Editoriale IDELSON-GNOCCHI srl dal 1908

Sorbona • Grasso • Morelli • Livi a na Med icin a • Grafite

Via M. P ictravall e, 8 5 - 8013

12255 N.W . Highway 225A Rcddick, FL 32686.~T

http:/1www.idelson-gnocchi.com

I NAPOLI-

Te!. 081-5453443 pbx- Fax 0 81-5 464991 _

el.

_ooi_-3?2591-1 ~36-F~~~~-3,259I-1189

E-mail informazJOm@tdelson-.,noccht.

infor~ation

"}o~fagna

Presentazione alla II edizione italiana

l libri ai qua/i si è più affezionati rendono sempre ad essere letti più volte. È quanto accaduto

a noi con il resto di t'darcello Pa gan o e Kimberl ee Gauvreau, che ci ha aiutato n el nostro lungo

University di Boston ; ci ha

percorso forma rivo presso la School of Public . Health della Harvard

confortato nel preparare le lezioni di Statistica per i corsi di laurea delle scienze sanitarie; ci ha

impegnato non poco nella cura della sua versione italiana.

Abbiamo cercato in rutti i capitoli di mantenere inalterato lo stile e di rendere apprezzabili anche

le sfumawre ed i e/erragli, talvolta sacrijìcmrdo la pirì appropriata fo rma italiana. Lo stile puntuale

ed accessibile con erli il libro è stato scritto rappresenta, secondo noi, il suo vero punto di forza, rendendo facilmente comprensibili con cerri ed applicazioni talora molto complessi. Un ringraziamento particolare è rivolro agli studenti che hanno studiato la Statistica sulla prima edizione italiana de l testo; sono loro eire. grazie anche al meritorio impegno dell 'editore Gnocchi, ne hanno consentito questa seconda edi:ione italiana . Ci auguriamo che anche questa edizione abbia lo stesso favore vole riscontro da parte degli swdenti. È doveroso, infine, ricordare il Professore Guido D'Alfonso, che non soltallfo ha scritto la presenta zione della prima edizione italiana del testo, ma ne ha anche letto, con l'impegno e la competenza che gli erano propri, le prime boz ze, fornendoci utili e preziosi suggerimenti.

32686.~

~homson ~earnmo

o~

i~

~ny

~36-F~~~~-3,259I-1189

ITALO F. A NGEL!LLO MARIA PAVIA PAOLO VILLAR!

Presentazione alla I edizione italiana

La moderna ricerca biomedica ha abb,mdonaco i modi tradizionali di valutazione dei feno-

meni biologici e clinici per darsi la norma e l'autorità di una metodologia capace da una parte

di preordinare e programmare gli esperim enti secondo ben definiti schemi, e dall'altra di appli-

care correttamente le diverse tecn iche nel/,, -varietà dei problemi che si presentano ne lla pratica.

Ne è derivata un'accresciuta consape-r:olezza da parte dei ricercatori e dei medici della necessità di una adeguata conoscenza di detti metodi e l'esigenza forte dell'introduzione, negli anni di studi universitari e poswniversicari, di insegnamenti finalizzati ad o1·ientare lo swdioso attraverso i capitoli fondamentali della biostacistica. La riforma dell'orientamento didattico della Facoltà di kledicina in !calia prevede, ad esempio, l'inserimento degli insegnamenti della Statistica medica al primo anno di corso e della Metodologia epidemiologica clinica e della Programmazione sociosanitaria nel triennio clinico. Il confronto continuo e stimolante con gli stttdenti ha portato gli statistici medici ad una profonda riflessione sui contenuti e le fo1·me dell'insegnamento, i cui frutti si possono cogliere dalla lettura dei testi che ripercorrono gli itinerari dei corsi condotti. Il teseo di Pagano e Gauvreau è tra questi. Esso ripropone l'itinerario del corso introdzmivo

di Biostatistica che gli Autori svolgono nelL'l Har-vard School of Public Health di Bo ston.

!!libro raccoglie ed espone in modo piano e largamente accessibil e tutto quanto di attuale e fondamentale è necessario sapere sul campo della metodologia per la ricerca medica, privi- legiando nella trattaz ione la struttura e il fondamento logico dei metodi piuttosto che le giu-

modo mfficientemente dee-

stificazioni matematiche. Le

tecn iche sono tuttavia sviluppate in

tagliato, cosicché il lettore, studente, medico o ricercatore al primo approccio con la statistica, possa verificarne personalmente i rimltati. Per illu strare principi e metodi, inoltre, gli Autori hanno utilizzato dati reali estratti dalla letterawra medica corrente a vari livelli di complessità

e di settore medico di attinenza, che se da zm lato illustrano in modo appropriato le procedure

statistiche, dall'altro, sono di intrinseco interesse per il medico. Nel complesso il libro è zm'ucile guida sia p er chi si accosta per la prima v olta alla Biostatistica

che per i ricercatori interessati ad un approccio moderno alla ricerca biomedica.

Gumo D 'ALFONso

Avvertenza

Sono numerose nel testo le tabelle che illu strano i risultati delle elaborazioni statistiche con-

dotte utilizzando i pacchetti statistici Stata, }ol/initab e SA S. Poiché le versioni americane

sono ampiamente diffuse, si è preferito lasciare queste tabelle in lingua origin ale.

Indice

l. Introduzione

1.1 Presenrazior.1e del resro

1.2 Esercizi

Bibliografia

2. Presentazione dei dati

2.1 Tipi di dati numerici

2.1.1 Dati nominali

2.1.2 Dati ordinali

2.1.3 Dati ordinati in ranghi

2.1.4 Dati discreti

2.1.5 Dati continui

2.2 Tabelle

2.2.1 Distribuzioni di frequenza

2.2.2 Frequenza relativa

2.3 Grafici

2.3.1 Diagrammi a barre

2.3 .2

2.3.3 Poligoni di frequenza

2.3.4 Diagrammi di dispersione a una dimensione

2.3.5 Diagrammi a scatola

2.3 .6

2.3.7 Diagrammi lineari

Istogrammi

Diagrammi di dispersione a due dimensioni (Diao-rammi a punti)

"'

2.4 Ulteriori applicazioni

_:J

7"

_

Esercizi

Bibliografia

3. Misure di sintesi numerica

3.1 Misure di tendenza centrale

3.1.1 Media

3.1.2 Mediana

3.1.3 Moda

2

4

5

7

7

7

9

9

10

10

11

11

12

14

14

15

15

18

19

20

20

21

26

30

33

33

33

35

35

x

3.2 Misure di dispersione

3.2 .1

3.2.2 Campo

3.2.3 Varianza e D eviazione standard

3.2.4 Coefficiente di variazione

Campo di variazione (Range)

di variazione incerquarcile (Range interquartile)

3.3 D aci raggruppati

3.3.1 Media raggruppata

3.3.2 Varianza raggruppata

3.4 Disuguaglianza di Cheb yc hev

3.5 Ulteriori applicazioni

3.6 Esercizi

Bibliografia

4. Tassi e standardizzazione

4.1 Tassi

4.2 Standardizzazione dei cassi

4.2.1 Metodo diretto di standardizzazione

4.2.2 Metodo indiretto di standardizzazione

4.2.3 U cilizzo dei tassi standardizzati

4.3 Ulteriori applicazioni

4.3.1 Metodo diretto di standardizzazione

4.3 .2

Metodo indiretto di standardizzazione

4.4 Esercizi

Bibliografia

5. Tavole di sopravvivenza

5.1 Calcolo della tavola di sopravvivenza

5.1.1 Colonna l

5.1.2 Colonna 2

5.1.3

5.1.4 Colonna 5

5.1.5 Colonna 6

5.1.6 Colonna 7

Colonne 3 e 4

5.2 Applicazioni della tavola di sopravvivenza

5.3 Anni di vita potenziale perduti

5.4 Ulteriori applicazioni

5.5 Esercizi

Bibliografia

6. Probabilità

6.1 Operazioni sugLi eventi e probabilità

6.2 ProbabiLità condizionale

INDICE

37

37

37

38

40

41

41

42

43

44

48

51

53

53

57

58

60

61

69

70

72

72

77

79

79

79

80

81

82

83

83

84

86

90

92

100

101

101

104

.--n ·~~

li

INDICE

6.3 Teorema di Bayes

6.4

Tese diagnostici

6.4.1 Sensibilità e Specificità

6.4.2 Applicazioni del teo rema di

6.4.3

6.4.4 Calcolo della prevalenza

Curve ROC

Bayes

6.5 Il Rischio Relativo e l'Odds Ratio

6.6 Ulteriori applicazioni

6.7 Esercizi

Bib liografia

7. Distribuzioni teoriche di probabilità

7.1 Distribuzioni di probabilità

7.2

7.3 La distribuzione di Poisson

7.4 La distribuzione normale

7.5 Ulterio ri applicazioni

7.6 Esercizi

La distribuzione binomiale

Bibliografia

8. Distribuzione campionaria della

media

8.1 Distribuzioni campionarie

8.2 Il teorema del limite centrale

8.3 Applicazioni del teorema del limite centrale

8.4 Ulteriori applicazioni

8.5 Esercizi

Bibliografia

9. Intervalli di confidenza

9.1 Intervalli di confidenza bilaterali

9.2 Intervalli di confidenza unilaterali

9.3 Distribuzione t di Srudent

9.4 Ulteriori applicazioni

9.5 Esercizi

Bibliografia

1 O. Test di ipotesi

l 0.1

Concetti generali

10.2

Tese di ipotesi bilaterali

10 .3 Tes e di ipot es i unilaterali

- -----------

.--n ·~~

Xl

!!

Il

105

107

108

108

111

112

114 li

!~

"

il

;J

j!

,,

!!

!

:

117

121

124

~:

127

127

129

134

136

143

147

150

151

151

152

153

156

161

163

165

165

168

169

172

174

176

179

179

181

183

Xli

10.4 Tipi di errore

10.5 Potenza

10.6 Stima della dimensione del campione

10.7 Ulteriori applicazioni

10.8 Esercizi

Bibliografia

11. Confronto tra due medie

11.1 Campioni appaiati

11 .2 Campion i indipendenti

11.2.1 Varianze uguali

11.2 .2 Varianze disuguali

11.3 Ulteriori applicazioni

11.4 Esercizi

Bibliografia

12. Analisi della varianza

12.1 Analisi della varianza ad un criterio di classificazione

12.1.1 Il problema

12.1.2 Fonti di variabilità

12.2 Procedure per confronti multipli

12.3 Ulteriori applicazioni

12.4 Esercizi

Bibliografia

13. Metodi non parametrici

13.1 Il test del segno

13.2 Il test di Wilcoxon dei ranghi con segno

13 .3

Il test di Wilcoxon della somma dei ranghi

13.4 Vantaggi e svantaggi dei metodi non parametrici

13

.5 Ulteriori applicazioni

13

.6 Esercizi

Bibliografia

14. Inferenza sulle proporzioni

14.1 Approssimazione normal e alla distribuzione binomiale

14.2 Distribuzione campionaria di un a proporzione

14.3 Int erv alli di confidenza

14.4 Tes t di ipotesi

INDICE

184

187

189

190

194

196

199

200

203

204

207

208

212

215

217

217

217

219

222

223

226

228

229

229

231

233

235

236

239

242

245

245

247

248

249

INDI CE

XI II

 

14.5

Stima della dimensione del campione

250

14.6 Confronto tra due proporzioni

251

14.7 Ulteriori applicazioni

253

14.8

Esercizi

 

254

 

Bibliografia

257

15.

Tabelle di contingenza

259

15.1

Il test chi-quadrato

259

 

15.1.1

Tab ell e

2 x 2

259

15.1.2

Tabelle rxc

262

 

15 .2

Il test di McNemar

 

264

15.3

L'Odds Ratio

265

15.4

La fallacia di Berkson

268

15.5

Ulteriori applicazioni

270

15.6

Esercizi

 

273

 

Bibliografia

278

16 . Tabelle di contingenza multiple 2 x 2

281

 

16.1 Il paradosso di Simpson

281

16.2 Il metodo di Mantel-Haenszel

282

 

16.2.1 Test di omogeneità

283

16.2.2 Odds Ratio globale

285

16.2.3 Test di associazione

287

 

16.3 Ulteriori applicazioni

288

16.4 Esercizi

292

 

Bibliografia

293

17.

Correlazione

295

17.1

Il diagramma di dispersione a due dimensioni (Diagramma a punti)

295

17.2 Il

coefficiente

di

correl azi one

di Pearson

296

17.3 Il

coefficiente

di

correlazione

dei ranghi di Spearm an

299

17.4 Ulteriori applicazioni

301

17.5

Esercizi

Bibliografia

18. Regressione lineare semplice

18 .1

Concetti sulla regressione

18.2 Il modello

18.2.1 La retta di regressione

della popol az ion e

304

306

307

307

310

310

XIV

I N DI CE

18.2.2 Il metodo dei minimi quadrati

311

 

18.2.3 Inferenza

per

i coefficienti di r egre ssione

314

18.2.4

Inferenza per i valori predetti

316

 

18

.3

Valutazi one del modello

 

317

 

18.3 .1

I! coefficiente di determina zion e

317

18.3.2

Grafici dei residui

319

18.3.3

Trasformazioni

320

 

18

.4 Ulteriori applicazioni

 

322

18.5

Esercizi

326

 

Bibliografia

329

19.

Regressione multipla

331

19.1 Il modello

331

19.1.1 L'equazione di regressione dei minimi quadrati

332

19.1.2 Inferenza per i coefficienti di regressione

333

19.1.3 Valutazione del modello

334

19.1.4 Variabili indicatrici

335

19.1.5 Termini di interazione

336

19.2 Selezione del modello

337

19.3 Ulteriori applicazioni

339

19.4 Esercizi

343

Bibliografia

346

20 . Regressione logistica

347

20.1 Il modello

347

20.1.1 La funzione logistica

348

 

20.1.2 L'equazione adattata

349

20.2 Regressione logistica multipla

351

20.3 Variabili indicatrici

352

20.4 Ulteriori applicazioni

354

20.5 Esercizi

356

Bibliografia

358

21.

Analisi della sopravvivenza

361

21.1 Il metodo della tavola di sopravvivenza

361

21.2 U metodo del prodotto limite

366

21.3 Illog-rank test

368

21.4 Ulteriori applicazioni

371

21.5 Esercizi

376

I ND I CE

xv

22 . Teori a del campionamento

379

22.1

Schemi di campion am ent o

379

 

22.1.1

Campionamento casuale semplice

380

 

22

.1.2 Campionamento sistematico

380

 

22.1.3

Campionamento stratificato

381

 

22

.1.4 Campionamento a cluster

381

22.1.5 Campionamento

non prob abalistico

382

22

.2 Fonti di distorsione

382

22

.3

Ult eriori applicazioni

384

22.4

Esercizi

 

386

 

Bibliografia

387

Appendice A

Tabelle

389

Appendice B

Set di dati

415

Indice analitico

429

~tanto
~tanto

~tanto

Prefazione

QHesto libro è stato scritto per gli stttdenti in scien ze mediche ed è un te;·co introduttivo allo studio della biostatistica o l'ttso di tecniche numeriche per l'acquisiz ione di informa-

zioni da dati ed eventi. l numeri, in

adatti alla comunica zione di risultati

Così come è possibile mentire con le parole, è possibile tuttavia mentire anche con i mt- meri. Numeri e bugie sono stati associati per lungo tempo; c'è addirittura un libro intitolato

'How to Lie with Statistics'. È probabile che questa associazione debba la sua origine, o almeno la sua prima enunciazione, al primo ministro britannico Benjamin Disraeli. Mark

Twain sostiene che D israeli abbia detto: "Esistono tre tipi di menzogne: le menzogne, le

ad osservare una modema campagna

dannate menzogne e la statistica ». Basta limitarsi

elettorale per conv incersi dell'abuso fatto della statistica. Ma basta con le menzogne; que- sto libro adotta la posizione del Professore Frederick Mosteller, quando afferma: «È facile

mentire con la statistica, ma è ancora più facile mentire senza di essa».

q ~tanto più precisi delle parole, sono particolarmente scientifici.

Background

Principles of Biostatistics è rivolto agli studenti di scienze biologiche e sanitarie che desi- derano apprendere i moderni metodi della ricerca. Si basa su zm corso obbligatorio tenuto

University, frequentato anche da numerosi

testimo-

nianza della sua importanza. Si sviluppa nell'arco di 16 settimane con lezioni ed esercita-

zioni in laboratorio. Ogni settimana comprende due lezioni di 50 minuti ed una esercita-

zione in laboratorio di 2 ore. Le lezioni sono tenute all'intera classe, che viene, poi, divisa in piccoli gruppi per le esercitazioni in laboratorio, sotto la guida di un tutor. L e esercita-

argomenti trattati nelle lezioni, rivedono gli esercizi

svolti a casa ed introducono all'uso del computer. Abbiamo incluso il m ateriale svolto in laboratorio -tranne gli esercizi svolti a casa e specifici comandi in/armatici- nelle sezioni

ulteriori esempi o una differente pro-

spettiva del materiale già presentato nel Capitolo. Le esercitazioni in laboratorio hanno l'ob ie ttivo di stimolare la discussione, sebbene sian o sufficientem ente complete da essere utili anche allettare che non utilizza il libro nell'ambito di zm coJ'So. Questo libro è stato modificato negli anni ed inchzde argomenti che, noi riteniamo, pos- sono essere trattati in modo approfondito in un semestre di una scuola americana. È stato necessario fare delle scelte; speriamo di aver fatto quelle giuste. Nel nostro corso, abbiamo

zion i in laboratorio richiamano gli

presso la School of Public H ealth della Harvard

altri operatori sanitari di H arv ard. Il corso è antico quanto la Scuola stessa, a

'Ulteriori Applicazioni'. Q ueste sezioni presentano

XVI! l

I'REFti Z/O NE

tempo sufficiente per esaminare la maggior parte degli argomenti presentati nei primi venti

consentire al docente tma certa flessibi lità .

Ad esempio, alwni docenti possono scegliere di omettere le sezioni mi dati raggruppati (Pa-

ragrafo 3.3), la

(Paragrafo 3.4), la distribu zione di Poisson

(Paragrafo 7.3) o il capito lo relativo all'analisi della varianza (Capitolo 12), se ritengono

capito li. Comunq t<e, c'è materia le

sll[ficiente per

disug uag lianza di Chebychev

che tali concetti siano meno importanti di altri.

Stmttura delliho

Almni sostengon o che la statistica sia lo studio della variabilità

e dell'incertezza . Noi cre-

diamo che vi sia qualcosa di v ero in questa affermazione e la abbia mo utilizzata come guida, suddividendo il libro in tre parti. I primi cinque capitoli trattano la raccolta dei dati e le diverse possibilità di sintetizzar/i, esaminarli e spiega r/i. I successivi due cap itoli trat- tano la probabilità e sono int roduttivi agli strumenti necessari per la m ccessiva analisi dell'incertezz a. È solo dall 'areavo capitolo che introduciamo la distinzione t ra popolazione e campione ed iniziamo ad esaminare la variabilità insita nel processo di campionamento, procedendo così verso l'inferenza . Riteniamo che questa introdHzione modulare a livelli crescenti di incertezza sia gù<stificata dal successo ottemtto dai n ostri stu denti. Il presentare i concetti tm po' p iù d ifficili solo dopo aver costruito delle solide basi rende più facile la

comprensione allettare.

Set di dati ed esempi

Nel testo abbiamo utilizzato d~tiestratti dalla letteratura medica per illt<strare i concerei di biostatistica. I dati reali non solo sono più significativi, ma anche più interessanti. Non abbiamo voh<to ~ttilizzareesempi in cui l'argomento fo sse troppo complesso. A tale scopo, siamo stati auidati dal backaround e dagli interessi dei nostri studenti - innanzitutto la sanità pubblica e la ricerca clinica -per scegliere esempi che ilhmrano in modo ottima/e i

concetti presentati.

. Esiste qualche rischio nell'~ttilizzodi dati pubblicati. Non possiamo garantire che tutti gli

esempi siano veritieri e che i dati siano stati raccolti in modo corretto; possiamo basarci solo

stdl 'affidabilità delle fonri.

valore delle nostre inferenze dipende criticamente dal valore dei dati e consigliamo vi- vame nte di valutare con wra la loro qualità. Assumiamo che ciò sia compre so dal lettore. Più di una volta abbiamo utilizzato esempi in cui la popolazione degli Stati Un iti è sud- divisa in razze. Nel riportare quest e statistiche ufficiali ci siamo lascia ti guidare dalle agen - zie governative che le hanno rilasciate. Non v ogliamo concretizzare questa suddiv isio ne razziale, poiché, in effetti, le differenz e osservate possono essere do vute a fattori socioeco- namici piuttosto che 1·azziali. Una possibilità sarebbe quella di ignorare queste statistiche; tttttavia, ciò non rivelerebbe le inegttaglianze esistenti nel nostro sistema sanitario - ine- guaglianze che devono essere eliminate. Prestiamo attenzione a questo problema nella

speranza di stimolare l 'interesse nel promttovere possibili soluzioni. Abbiamo ridotto al minimo l'uso delle notazioni matematich e tenendo presente la loro reputazione, meritata, di linguaggio quasi incomprensibile. Se utilizzate in modo eccessivo tali notazioni matematiche possono scoraggiare anche lo studente più audace. Non p os- sùtmo, tttttavia, elim ina re del wtto il loro ><tilizzo, che si è svihtppato ne l tempo per faah-

Non sottovalutiamo l'importanza di tale considerazione. Il

comunq~te

comp~tter.

I'REFAZIONE

XIX

~ttilizzare

d~ti

nell'~ttilizzo

tare la com1micazione dei risultati. Speriamo, a ta le proposito, di aver scritto un t esto sinte- tico e co mprensibile. A l di là della lom precisione, i n ume ri hanno qua lcosa di più- forse un po' di m agia - ch e rende divertente il loro studio. Il divertimento è nella concettua lizz azione più che nei cal-

agli

coli e for tu natamente il

swdenti di concentrarsi sulle idee. In altre parole, il computer consente al docente di in-

segnare

comp ;t ter può s·r;olgere i compiti più faticosi . Q ues to consente

la poesia della sta tistica e non il Sit O aspetto fone più pesante.

Uso del compute1·

Per utilizzare il comp1tter in modo ottimale, è necessario avere un buon pacchetto stati- stico. Noi ut ilizziamo lo Stata, della Stata Corporation, College Station, Te:cas. Riteniamo che sia uno dei migliori pacchetti disponibili oggi sul mercato, ha un 'ottima interfaccia con l'u tente, è preciso, potente, ha un prezzo ragionevo le e opera in diversi ambienti, tra cui Window s, Unix e Macintosh. Inoltre , i risu ltati delle elaborazioni effettuate con questo pacchetto sono accettate dalla Federa! D mg Administration. Sono comunq~te disponibili altri pacchetti e questo libro p uò essere wpportato da ognuno d i essi. I n questa seconda edizione, ad esempio, presentiamo anche i risultati ottenuti con il SAS ed il Minitab, nelle sezioni Ulteriori Applicazioni di ogni Capitolo. R accomandiamo vivamente l'tttilizzo di 1m pacchetto statistico. AlCimi degli esercizi nel testo richiedono l'ausilio del computer. Per aiutare il lettore, abbiamo inclus o i files usati negli esercizi in Appendice B e nel CD a lleg ato allibro. Il CD contiene ciascun set di dati in due formati: un file ASCII (suffisso 'raw') ed un file Stata (slljfisso 'cita'). Ci sono anche molti esercizi che non richiedono l 'utilizzo del comp~tter. Come sempre, 1m apprendimento attiv o dà migliori risultati di un apprendimento passivo. Non smetteremo m ai di affermm·e l'impo rta nza degli esercizi e di esorta re il/ettore a svol- gerne il m aggior numero possibile.

No vità nelltt seconda edizione

In questa seconda edizione la trattazione di nHmerosi argomenti è stata rivista ed am- pliata, e mtovi esempi sono stati introdotti per illus trare i concetti in modo più chiaro. I dati utilizzati nell'edizione precedente, soprattfttto le statistiche ttfficiali pubblicate dalle agen- zie governative, sono stati av e possibile aggiornati. Il testo contiene inoltre molti dati - re-

gistrati nel CD allegato allibro- e

nuovi esempi. Nell'Appendice A sono rip ortate le ta-

belle con le probab ilità esa tt e per la discribttzione binomiale e di Poisson (ottenHte con lo Stata). Com e già detto in precedenz a, sono illustrati anche i risu ltati ottenuti con il SAS ed

sezione dea/i

stata notevo lm ente ampliata ed arricchita, soprattutto pe r q ttanto ;i-

gttarda i quesiti relativi ai concetti fondamenta li trattati in ogni C apito lo.

il Minitab, in aggiunta allo

Esercizi, infine, è

Stata nelle sezioni Ulteriori Applicazioni. La

Ringraziamenti

Abbiamo un debito di gratiwdine con molte persone: il Presidente della Harvard Uni-

versity D erek Bo.k che ci h a fornito il sostegno necessario a far decollare il libro, il Dr. Mi-

ch ael K. Martin che ha calcolato le tabelle sta t istiche A

3

- A.8 dell'Append i ce A e fohn-P ad

xx

PREFAZIONE

. coloro che hanno revisionato il manosmtto: Rtck Chappell, Umverstty. of ~tsconsm, Dr. Todd G. Nick, University of Mississippi, Medicai Cen ter; A lB artoluccz, Umverszty of Alabama, Birmingham; Bruce E. Trumbo, C a liforni a State Umvemty,.Ha~ward; J a mes Godbold The Mount Sinai School of Medicine della New York Umverszty;. Maureen Lahiff, University of California, Berkeley. Il nostr~ringraziamento va an.che a z W tal· c;~ ci hanno aiutato durante il corso con prezzost suggenmentz. Probabzlmente znngrazzame più meritati sono per gli studenti che hanno frequentato il co~sonegh anm e che C! hanno sopportato quando stavamo cercando di imparare zl modo mtglw1·e per msegnare. Sttamo

Pagano per l'assistenza fornita nella redazwne

·

d .e

{la

·

d'

·

R mgra ·

ziamo tt~tti

.

.

pnma e tZto~e.

ancora imparando.

MARCELLO PAGANO- KIMBER L EE G AUVREAU

Boston, Mass ac husetts

nostr~

tZto~e.

tt~tti

~tsconsm,

Umvemty,.Ha~ward;

co~so

c;~

Introduzione

Nell903 H .G. Wells ipotizzò che il ragio- namento scacistico sarebbe diventato un gior- no un segno di civiltà necessario quanto il sa- per leggere e scrivere. In fa tti, la staciscica rive- ste un ruolo rilevante in molci processi deci- sionali. Prima che un nuovo farmaco possa essere commercializzato, ad esempio, la U.S. Food and Drug Adminiscration richiede che venga sotcoposco ad un clinica! trial - uno scudio sperimentale condotto sull'uomo. I ri- sultati di questo scudio devono essere analiz- zati al fine di determinare non solo se il far- maco è efficace, ma anche se non provoca ef- fetti collaterali. Inoltre, le decisioni del Go- verno degli Stati Uniti sui programmi di Sicurezza Sociale c di Sanità Pubblica sono in parte basate sulle previsioni relative alla lon- gevità della popolazione; pertanto, è necessa- rio poter prevedere il num ero di anni che un soggetto vivrà. Ci sono molte altre domande

a cui è necessario dare u na

vrebbe investire le proprie risorse un governo se volesse ridurre la mortalità infantile? L'u ti- lizzo della cintura di sicurezza o dell'air bag riduce il rischio di morire in un incidente au-

tomobilistico? La mastectomia deve esse re semp re consigliata ad una paziente afferca da cancro della m ammell a? Qual.i fattori aumen - tan o in un soggetto il rischio di sviluppare malattie coronariche? Per rispondere a questi e ad altri quesiti, ci basiamo sui metodi della biostatistica. Lo scudio della statistica riguarda la raccol- ta, l'organizzazio ne, l'analisi e l'interpre ta- zione dei daci numerici. I concetti della scati-

risposta. Do ve do-

1

stica possono essere app licati in diversi setto- ri, quali l'economia, la psicologia e l' agri col- tura. Quando l'interesse è rivolto alle scienze

term ine biosta-

tistica.

Storicamente, la statistica è stata utilizzata per illustrare gli eventi con i numeri. I nume- ri spesso comunicano le idee più sinte t ica- mente delle parole. Ad esempio, per i seguen- ti dati, il messaggio è abbastanza chiaro . Ne l 1979 sono state uccise con rivoltella 48 perso-

ne in Giappone, 34 in Svizzera, 52 in Canada, 58 in Israele, 21 in Svezia, 42 in Germania, 8 in Inghilterra e l 0.728 negli Stati Uniti (l). L a forza di questi numeri è evidente; il messag- gio sarebbe ugualmente chiaro anche se do- vessimo considerare le differenze di dimen- sio n e era le varie popolazioni.

esempio, si consideri la se-

guente citazione tratta da un editoriale del

The Boston Globe (2):

La mancanz a di contraccezione è legaca ad un tasso straordinariamente elevato di aborri nel- l'Unione Sovietica - 120 aborri per 100 nascite, verso i 20 aborri per I 00 nascite in Gran Bretagna, dove la possibilità di ricorrere ai comraccenivi è assicura ta. Un supporto inadeguato alla pianifica- zione fami liare negli $caci Unici ha determinaco un tasso di 40 aborri per !00 nascite- un casso infe- riore a quello dell'Unione Sovietica, ma due volte

più elevaco di que ll o de ll a maggior parre dei Paesi industrializzati.

biolog ic he e mediche, si usa il

Come seco ndo

In questo caso, un gran numero di informa- zioni è contenuto in soli tre numeri: 120, 20 e

40. La statistica consente un 'a naLisi delle con- seguenze derivami da attitudini diverse nei

co nfronti d e ll a pianifica z ione familia re. In entrambi gli esempi, i numeri forniscono una sintesi di alcuni aspetti della situaz ion e in esame. Considerare il numero di morti con se- gue nti all 'uso di rivolt ell e è senza d ubbi o più immediato che ragio nare su una frase quale:

'Alcune perso ne sono state ucc ise in Giapp o-

ne , di meno in Svizzera, di più in Can ada, an-

cora di più in Israele, ma molte di meno in Svezia, e così via'. E ntrambi gli ese mpi af- frontan o siruazioni molto complesse, tu ttavia

i numeri so no in grado di comunicare le

info rmazioni esse nziali . N atura lmente, n es -

suna valutazio ne statistica, per quanto effica-

ce,

pot re bbe convincere che una determinata

co

nclusione è vera. I dati relativi all'uso della

rivoltella sono s pesso supera ti dall' afor ism a:

'Le rivoltelle non uccidono, sono gli uomini che uccidono'. Ciò non deve so rprendere; dopo tutto, c'è a ncora chi cred e che la terra

sia piatta. L'o biettivo di un'analisi statistica è

quello di fornire dei numeri che contengano informazioni su una determinata situazione e

di presentarli così da rendere possibili valide

interpretazioni.

1.1 PRESENTAZIONE DEL TESTO

Se vogliamo s tudiare gli effetti di una nuo-

va dieta, si può iniziare a misurare i cambia-

menti nella massa corporea in rutti i soggetti che la hanno seguita. Allo stesso modo, se vo-

INTRODUZIONE

che dei computer hanno reso più faci lmente

realizzabil e q uesta

si ntesi rispetto al passa to,

ed

è ora possibile utilizzare nuove modalità

di

presentaz ione an che per

le analisi più sem-

plici.

 
 

Il

C api tolo 3 va

al di

delle rappresenta-

z ioni grafiche presentate nel Capi tolo

troduce le misure di sintesi numerica. Per de-

si nt esi cogl ie s olo un aspe tt o

particolare dei dati esaminati; pertanto, è an- che importante avere un'idea dell'efficacia con cu i la sintes i è in gra do di rapp rese n ta re i

dati nell'insieme. Ad esemp io, vogliamo co-

nos cere la sopravv ivenza d i pazienti affe tt i d a A IDS dopo la diagn osi di una delle infezioni opporrunistiche che caratterizzano la malat- tia. Se calco liamo la sopravvivenza m edi a, quest'ultima è rappresentativa di tutti i pa-

fin iz ion e, una

2 ed in-

zienti? Inoltre, qu ale utilità avrebbe tale valu- tazione per la pianificazione dei servizi sani- tari? Il Capitolo 3 esamina le tecniche descrit-

tive che aiutano a rispondere

questi. I dati che possono assumere solo due valori richiedono particolare attenz ione. Nel campo

a quesi ti come

delle scienze mediche, uno degl i esempi più comuni di qu esto tipo di dati è pro babilmen-

te la categorizzazion e tra vivi e morti. Se in-

dichiamo il primo status con O cd il secondo con l, siamo in grado di classificare, utiliz-

zando questi numeri, un gruppo di soggetti e calcolare la media dei risultati . In questo

modo , possiamo sintetizza re

la mort alità in

ciascun gruppo. Il C apitolo 4 illustra esclusi- vamente le misure che p osso no assumere solo

gli

amo

valu t ar e l' effi cacia di una determinata

due valori. È, inoltre, introdotta la noz ione

terapia nel trattamento del cancro della pro- stata, dovremmo esaminare la so p ravvive nz a

della d iv isio n e di un g ruppo in so ttogruppi o classi in relazione ad alcune caratteristiche

de

i soggetti trattati con qu es ta terapia dopo

come l'età o il sesso. Ad esempio, si potrebbe

la

diagnosi . T ali raccol te di numeri, tutt avia,

vo

ler esaminare la mort alit à nelle femmine

possono mostrare un elevato grado di varia-

sep

aratamente d a quella nei masc h i.

Infin e, il

bilità e non sono

molto utili fin o a quando

cap

ito lo esamina

le tecniche che co ns entono

essi non vengono combinati. La statistica de-

sc rittiva organi zz a e sintetizza i dati ed ai uta a

d escr iv er e le caratteristiche di

una popolazione . Il C ap itol o 2 esa m ina le

tec n iche descrittive di tabulazione e rappre-

se nt azio ne grafica de i d ati. L e capacit à grafi-

un gru pp o o di

di effettuare va li di confront i tra grupp i c he

p osso no differ ire ne ll a loro composizione. Il C ap itol o 5 int rod u ce la tavola di so prav - vivenza, una delle p iù i"mportanti tecniche

nell o studio dell e scien ze mediche. Le tavole

di sopravvivenza sono utiliz za te d ag li esp erti

INTRODUZIONE

in

sanità pubblica per caratterizzare lo staro

di

salute

di una popolazione e dalle

co mpa-

gnie di assic uraz ione per predire la d urara

dete rmin ato sogge tt o. In que- studi o della morta li tà iniziato

nel Capitolo 4 è ampliato ed include la spe-

ran za di vita di ciascun soggetto; ciò consente

un'analisi p iù acc urat a. La co n oscenza de ll a

spe ranza di vi t a fornisce anche la base per ca l-

colare la curva di sopravvivenza di una popo- lazione . Ques ta misura di longev ità è fre- quentemente utilizzata nei clinica! trials che studia no gli effe tti di vari farmaci e di tratta-

menti chirurgici su l tempo di sopravvivenza. In definitiva, i primi ci nqu e capitoli del li- bro dimostrano che l'estrazio ne di importan-

da un a serie di dati numerici

non è impedita dalla loro variabilità. Malgra-

do la variabilità, i dati spesso present ano an-

che una certa regolarità. Ad esempio, se esa-

mortalità tra gli

adolesce nti n egli Stati Uniti n eg li u ltimi dieci

anni, non notiamo una grande differenza tra i numeri . È solo una coincidenza, o ci ò ind ica una stabilità naturale nel tasso di mortalità?

a quesiti co me qu.esto è neces-

sario studiare i pri ncip i dell a prob ab ilit à. La teoria della probabilità si basa su ciò che è noto come sistema assiomatico: si inizia con alcune verità di base e poi si costruisce intor- no ad esse un sistema logico. Nella sua forma più pura, il sistema non ha alcun valore prati- co. La sua praticità deriva dalla capacità di utiliz zare la teoria per la produzione di u tili approssimazioni. È possibile trarre un'analo-

gia con la geomet ri a, un a dis ciplin a

Per rispondere

della v ita di un

sto capitolo lo

ti informaz io ni

miniamo il tasso annual e di

co n cu i la

maggior parte degli studenti entra in contatto nei primi anni di scuola. Sebbene sia impo ssi- bile che un 'i d ea le linea retta esista al di fuo ri

della nost ra immaginazione, ciò non ci ha im- pedito d i edi fi care meravigliose costruzioni basate su calcoli geo metric i. L a st essa cosa è

teoria della probabilità; se bbe ne

va lida p er la

essa

n on sia pratica nell a sua fo rma pura, i

s uoi

principi di base - esaminati nel Capitolo

essere appli ca ti p er quantizz are

l'incertezza. La te or ia de ll a prob ab ilit à tro va una s ua

6 - possono

imp o rtant e app li caz ione n ei tes t dia gnosti ci. L'inc ertezza emerge p oic hé, mal grad o le ass i-

curazio ni delle case produttrici, nessun

disponibile è perfetto. Pertanto, ci sono nu-

merose importanti dom ande a cu i ri spo ndere. Ad esempio, è possi bile concludere che cia-

scu n campion e em atico che ri sulta

test per l'H IV contenga realmente il virus? E ancora, tutte le unità di sangue d ella Croce

Rossa hann o dato risultati negativi per

ciò significa che non ci so n o campioni conta- minati? Se ci so no alc u ni cam p ion i co ntami -

l'HIV;

posi ti vo al

test

nati,

qu anti potrebbero esse re? Pe r risponde-

re a

queste dom ande, dobbi am o b asarci su l

compo rtamento a med io o a lungo termin e d ei test diagnostici; la teor ia dell a prob abilità

consente di quantizzare tale comportamento.

 

Il C apitolo

7 approfondisce le nozioni sul-

la

probabilità

ed introduce alcun e comuni di-

stribuzioni di probabilità. Questi modelli matematici costituiscono un utile punto di partenza per le metodologie esaminate nelle successive parti del libro. I primi capitoli del libro esaminano la va-

ri abilità che esiste in un insieme di numeri. I capitoli successivi esaminano un'altra form a

di variabilità -la variabilità che emerge quan-

do selezioniamo un campione di osservazioni

da una popolazione. Supponiamo di voler sa-

pere se un nuovo farmaco è efficace nel trat-

Poiché la popola-

zion e mond ia le di ipertesi è molto ampia, è poco verosimile che si disponga del tempo o

delle risorse necessarie per esaminare ogni

singolo soggetto iperteso. In altre siruazioni,

la popolazione può includere pazienti futuri;

possiamo voler sapere come risponderanno

ad un determinato trattamento sia i pazienti

affetti da una determinata malattia che ·quelli che la svilupperanno in seguito. Per risponde-

re a queste domande, d i soli to si se leziona un camp ion e d all a popolazione in esam e e, sulla base di qu es to campione, si inferisce che cosa potrebbe accadere all'intera popolazione. Se sceg li amo due div er si ca mpioni, è poc o veros imile che perverremo alla stessa serie di num eri. Allo stesso modo, se studiamo un grup po di bambini co n cardiopa ti a congenita

tamento dell 'ipertensione.

4

INTRODUZIONE

a Boston, o tterremo risultati differenti da

quelli di un gruppo di bambini esaminato a Roma. Malgrado questa differenza, vorrem- mo essere in grado di uti li zza re uno o en- trambi i campioni per trarre conclusioni

sull'intera popo laz ione di bambini con questa

malattia. Il r esto d el libro sv iluppa l' inferenza stansttca. Il Cap itol o 8 studia le proprietil de ll a media campionaria quando ve ng ono seleziona ti campioni ripetuti da una popolazione ed in- troduce l'importante co ncetto del teorema

del limite centrale. Questo teorema fornisce un fondamento per quantizzare l'incertezza associata alle in fe r enze dedotte. Affinché uno stud io abbia un valore prati- co, dobbiamo essere in grado di estrapolare i

risultati applicandoli ad un gruppo p iù ampio

o ad una popolazione. A tal fine, vengono in-

trodotti nei Capitoli 9 e IO l'intervallo di con- fidenza ed il test di ipotesi. Queste tecniche sono dei metodi per trarre una conclusione sulla popolazione campionata, fornendo, co- munque, anche informazioni sulla probabilità che la conclusione non si a es atta . Questi co n-

cetti sono prima applicati alla media di una singola popolazione. Ad esempio, potremmo voler stimare la concentraz ione media di un agente inquinante in un se rbato io d'acqua e, quindi, determinare se il livello medio rea le s ia più elevato della concentrazione massima consentita d all'Eme per la Protezione Am- bientale. N el C apitolo Il, la teoria è estesa al confronto tra le medi e di due popolazioni; nel Capitolo 12 è applicata al confronto tra

ere o p iù m edie. Il Capitolo 13

sviluppa ulte-

riormente il concetto del test di ipotesi, ma

introduce le tecniche che consentono di ri- d urre alcune delle ass unzioni necessarie p er

questi t es e. I C apit oli 14, 15 e 16 svi -

eseg uire

luppano i metodi inferenziali che possono es-

sere app lica ci alle frequenze - come il numero

di casi di sindrome della morte improvvisa

d el neonato in relaz ione all a p os iz io n e ass un-

ta

d al neonato n ell a c u lla - piuttosto ch e a

.

.

.

.

m ts ur aztO m co nnnu e. L'inferenza può essere anche utilizzata per

esaminare la relazione tra varie ca ratteristi-

che. Se un bambino nato a termine, la cui età

ges tazionale è di 39 settimane, pesa alla na-

libbre, ciò non sorp rende.

so le 22 motivo

se ttim a ne, però, il suo peso sare bb e

Se

sc

ita

4

Kg

o

8,8

l'età gescazionale de l neonato è di

di preoccupazione. Perché? Sappiamo c he il

peso alla nascica tende ad au mentare con

l' età

gescaz ion ale e, seb be ne sia es t remamente

raro

trovare un bambino che pesi 4 Kg a 22 setti- mane, ciò non è un evento raro a 39 settima- ne. Lo stud io del grado di associazione tra due fa ttor i è noto come ana li si di corre lazio-

n e; questo è l'argomento del Capitolo 17. Se

vogliamo predire il risu lt a to

b ase al valore di un al tro, la r cg ressio ne è la

tecnica ad a tt a. L a

regressione lineare semplice

C apitol o 18 e la regressione

multipla- in cui vengono usati due o più fat- tori per predire un unico risultato- è trattata

nel Capito lo 19. Se il risultato in esame può assumere solo due valori- come vivo o mor-

to- d eve

tiva; la regressione logistica è sviluppata nel

Cap itolo 20. Nel Cap ito lo 21 vengono introdotti i meto-

di inferenziali corrispondenti alle ·tavole di

sopravvivenza. Queste tecniche consentono

di trarre conclusioni sulla

popolazione in base ad un suo campione di

soggem. Infine, il Capitolo 22 esamina un argomen-

to f ondamentale nell'inferenza - il concetto

della rappresentacività di un campione. In ogni studio, è di fondam entale importanza

che il campione scelto fornisca un quadro ac- curato d ell a popolazione da cui è selezionato. Sono descritti numerosi metodi per selezio- nare campioni rappresenta ti vi, il conce tto di distorsione ed i diversi problemi che possono

se le zione di un campione. Il

verificarsi ne ll a

buon senso ha un ruolo importante nel cam-

mo rtalità di una

di un fa tto re in

è l'a rgomento del

essere applicata una cecnica alterna-

pion amento, così co me in cucco

il libr o .

1.2 ESERCIZI

l . Pianificate uno srudio per

esaminare un

argomento che riten ete possa influenzare la sa lm e d ell a popolaz ion e nel mondo . D esc ri-

INTRODUZIONE

vere bre ve m ente i da ci di cu i avete bi sogno, com e ottcnerli, come a n ali zzarli ed il metodo per presentare i risultati. Conservate questo materiale c rileggecelo do po aver completato la lettur a del li b ro.

2. Esaminate la seguence citazione rel ativa

al r ap ido aumento della popola zio ne (3 ):

512 mili oni di persone erano ma ln utrite ne l

periodo 19 86-1987 ri spe tto ai 460 mil ion i de- gli anni 1979-1981.

a. Supponete di condividere questa opinione. Giusti.ficace l' uso d i q ues ti numeri. b. Siete sicuri che i num eri siano corretti? Pensate che sia possi bile che 5 !3 milioni

soggecci fossero

invece di 512 m ilioni di

m alnutr iti negli anni 1986-19 87?

3. Oltre ad affe rm are che ' i cinesi mangiano

la pas ta dal1!00 a.C.', l'etichetta su una co n-

fezione di pasca afferma che 'gli ame ri cani

m angiano 11 libbre di pasta all'a nno' , m ent r e

'gli ita li a ni ne mangiano 60

sta ti stic h e

Credete

li bb re all' ann o' .

acc urat e?

Us erest e que sti num eri come base per uno

studio sulla nutrizione?

ch e cali

siano

Bibliografia

l. McGERVEY J.D.: Probabilities in everyday !ife.

Nelso n-Hall, Chicago, !986.

2. T he pill 's Eas tern Euro pc debut. T he Boston Globe, Janu ary 19 : l O, 1990.

3.

FUND : Family

Planning: saving children, improving lives. Jo-

nes & ]an e llo , New Yo r k.

UNtTED

NA TlONS

PoPULI\TION

2

Presentazione dei dati

produce una se -

rie di dati. Le sue dimensioni possono va ri are da poche a molte migliaia di osservazioni. Una serie completa di dati, però, non fornirà necessariamente informazioni facilmente in-

terpretab ili . Ad esempio,

la Tabella 2.1 elenca

nell'ordine i primi 2.560 casi di Sindrome da Immunodeficienza Acquisita (AIDS) ripor- tati ai Centers fo r Disea se Contro! and Pre-

vention (1). Ogni soggetto è stato classificato come affetto da sarcoma di Kaposi, cd indi-

affetto da tale pato logia, ed

cato con 1, o non

indicato con O. (Il sarcoma di Kaposi è un tu- more che colpisce la cute, le mucose ed i linfonodi). Sebbene la Tabella 2.1 illustri l'in-

tera serie di risultati, è es trema ment e difficile interpretare i dati. Non siamo neppure in

di individuare le proporzion i relative

di O e

grado

Ogni studio o esperimento

1. Tra i dati grezzi ed i risultati dello

studio si colloca un'intelligente e creativa ma-

nipolazione dei numeri effettuata con i me- todi d ella statistica d escrittiva.

sinte-

tizza le osservazioni e consente una vis ione di insieme sulle caratteristiche generali di una serie d i d ati. La statis tica descrittiva può as -

sume re forme differenti, qu ali tabelle, grafici e misure di sintes i numerica. In questo ca-

pitolo, ana li zzeremo i diversi

metodi per il-

lustrare un a serie di dati. Prima di decid e-

re

quale tecnica sia la p iù ad atta in una dc-

terminata situazione è, comunque, necessario definire qu ale tipo di dati ab bi amo.

La statistica

descrittiva

organizza,

2.1 TIPI DI DATI NUMERICI

2.1.1

Dati nominali

Nello studio della biostatistica SI mcon-

trano molti tip i d i dati numerici, che si diffe-

valori

possibili. I dati più semplici sono i dati nomi- nali, in cui i valori rie ntrano in categorie o classi non ordinate. Come in Tabella 2.1, i numeri sono spesso utilizzati per rappresen- tare le categorie. In uno studio, ad esempio, si

renziano per la diversa relazion e tra

può assegnare ai maschi il valore l ed alle femmine il valore O. Sebbene le caratteristiche

non con parole,

siano ind icate con numeri e

l'ordine e la grandezza dei numeri non sono

importanti. Potremmo con altrettanta facilità assegnare l alle femmine e O ai maschi. I nu- meri sono utilizza ti per convenienza poiché

ci consentono di utilizz are i computer per

eseguire complesse analisi dei dati. I dati nominali che assumono uno di due distinti valori - come maschio e femmina - sono denominati dicotomici o binari, a se-

conda che si utilizzi la radice greca o qu ell a

latina

per

il numero 'due' . Comunqu e, non

turri i

dati

nomin al i so no necessariamente di-

coto mic i. Spesso esistono tre o più

possibili

osserva-

categorie in cui possono ri entrare le

zio ni . Ad esemp io, le persone possono essere

raggruppate in relazione al gruppo sangui- gno , dove 1 rappresenta il grup po O, 2 il gruppo A, 3 il gruppo B e 4 il gruppo AB . La sequenza di questi valori non è importante. I numeri so n o soltanto simboli per i diversi

PRESENTAZIONE DE/ Dr! TI

Tabella 2.1 Risultati sulla presenza del sarcoma di Kaposi nei primi 2.560 casi di AIDS registrati presso i Ccmcrs for Discasc Contro! and Prcvcntion ad A dama, Georgia

00000000

00010100

00000010

0000

l000

00000001

00101000

00000000

00000000

000

Il 000

00 l 00001

00000001

00000000

00000010

ol l 00000

00000000

00100010

00100000

00000101

00000000

00000000

00000000

00010000

00010000

000

l 0000

00000000

00000000

00000000

00000000

0000

l 000

00000000

00100000

00000000

00001000

000000

l o

00000000

00000000

00000000

00000100

00001000

0000 l 000

00010000

00000000

00010000

ol 000000

00000000

00000000

00000000

00000100

00000000

ol 000 l 00

00000100

00000000

00010000

00000000

0000 l 000

00000000

00000000

00000000

10001000

00001000

00000000

00001100

00000000

00000000

l 0000011

00000000

00000000

00000000

00000000

ol 000000

10000000

00000000

01000000

00000000

00000000

00000000

00000000

00000000

00001010

00000101

00000000

00000000

00000000

00000001

00000100

11000000

00000100

00000000

00000000

00000000

11000000

00010010

00000000

00001000

00000000

00000000

01100000

00100010

l 0000000

00000000

01000010

01000100

00000000

000

l 0000

00000000

01000000

00000001

00000000

l 0000000

ol 000000

00000000

00000000

ol 0000 l o

. 00000000

00000000

00000000

00000010

00001010

00001001

10000000

00000000

01000000

00000000

00001 000

00000000

00001000

010000!0

01001111

00100000

00000000

00000001

00000000

01000000

00000000

00000000

00000000

00000000

00100000

01000000

00100000

01000000

00000100

10000001

00000001

00001000

00100000

00000000

00000000

00000000

00000010

00000000

10000000

10000000

00000000

00000000

00001000

00000000

01000010

00011000

00000001

01000010

01001000

01000000

00000010

00000000

00000010

00000000

00000000

000000

l o

00000000

00001100

00000100

00 001010

00000000

00000000

00000010

00000000

00000000

00000000

00 l 00000

01000000

00000000

00000000

00 l 00000

00000000

00000000

00100000

00110000

00000000

000 l 0000

00010100

00000000

00001001

00000001

00000000

00000010

00000100

010!0100

l 0000001

0000 l 000

00000000

!0000000

00000000

01001100

00000000

00000010

00000100

00000000

00000000

00000001

0000

!001

00000000

00000000

ocoooooo

00000000

00010000

!0000000

00000000

00000100

00000000

000 10000

00000101

00000000

01000000

00000000

0000

01 01

00 100000

00000000

00000001

10100000

00000000

00 000010

00100000

00000000

01000000

00000000

00000001

11000000

0000 1000

00000001

00010001

00000000

01010100

ocoooooo

000!0100

00000000

00000000

00010000

00000000

00000000

00001000

00000000

00000000

00001000

00111000

00000001

01001100

00000010

00000001

00000000

01000000

00000001

00000000

00000000

00000000

00000100

00000000

00000000

00000000

00000000

00000010

00000000

01000000

00010000

00000000

00100000

00000000

10000001

00000000

00000000

01000000

00000000

00000011

00000000

00000100

00001000

00001000

01000001

00010011

00000000

00001000

01000000

00000000

00001001

00000000

00000001

10000000

00000100

00000000

00100100

00000000

10110100

00000000

00000000

00000000

10100000

00001000

00000000

01000001

00010010

00010001

00000000

00000100

00000000

00000000

00000000

00000000

00000000

00010010

00010000

gruppi sanguigni, proprio come le letter e. È necessario ricordare ciò quando si eseguono operazioni aritmetiche sui dati. Ad esempio, dire che il gruppo sanguigno medio di una determinata popolazione è 1,8 non ha alcun signi ficato. Tuttavia, un'operazione aritme-

tica che può esse re interpretata è la propor- zione di soggetti ch e rientra in ciascun gruppo. Un'analisi dei dari in Tabella 2.1 mo- stra che il 9,6% dei pazienti con AIDS era af- fetto da sarcoma di Kaposi, mentre il 90,4% non ne era affetto.

TIPI DJ DATI NUMERIC I

2.1.2 Dati ordinali

Quando l' ordine tra le categorie è impor- tante i dati so no definiti dati ordinali. Ad esempio, le ferire possono essere cbssificate

in relazion e alla loro gravità, do ve l rappre-

senta una ferita mortale, 2 una ferita grave, 3 una ferita di modesta entità e 4 una ferita lieve. In questo caso esiste un ordine naturale tra i diversi gruppi; il numero più piccolo

rappresenta la fer ita più lore intrinseco di questi

tante. Il numero 4 potrebbe indicare una fe- rita mortale e l una ferita lieve. Inoltre, la dif- ferenz a tra una ferita mortale ed una ferita grave non è necessariamente uguale a quella tra una ferita di modesta entità ed una ferita lieve, anche se in entrambi i casi le categorie sono distanziate da una unità. Pertanto, molte operazioni aritmetiche non possono essere applicate ai dati ordinali. La Tabella 2.2 illustra un secondo esempio

di dati ordinali; la scala è utilizzata dagli on-

grave. Tuttavia, il va- nume ri non è impor-

cologi per classificare lo stato di salute di pa- zienti arruolati in un clinica[ trial (2). Un cli- nica! trial è uno studio sperimentale condotto

sull'uomo, che ha di solito l'obiettivo di faci- litare il confronto tra trattamenti alternativi per una determinata patologia, ad esempio il cancro. I pazienti vengono assegnati casual- mente ai diversi gruppi di trattamento e poi

9

so ttop os ti a follow up per valutare il verifi- carsi o meno di un determinato evento.

2.1.3

Dati ordinati in ranghi

In alcune situazioni una serie di osserva- zioni è prim:~ disposta in ordine decrescente in relazione alla grandezza e poi a ciascuna osservazione è assegnato un numero che cor- risponde alla relativa posizione nella se- quenza. Questi dati sono definiti dati ordi-

esempio, consideriamo

tutte le possibili cause di morte negli Stati Uniti. Possiamo elencare tutte queste cause, insieme al numero di morti per ciascuna di esse nel 1992. Se le cause sono ordinate da quella che ha provocato il maggior numero di morti a quella che ne ha causato il minor nu- mero e poi ad esse vengono assegnati dei nu- meri interi, si dice che i dari sono stati ordi- nati in ranghi. La Tabella 2.3 elenca le 10 principali cause di morte negli Stati Uniri nel 1992 (3) . Si noti che le malattie cerebrovasco- lari sarebbero state classificate al terzo posto sia nel caso in cui avessero causato 480.000 morti che 98.000. Nell'assegnare i ranghi, non si considerano le grandezze delle osserva- zioni, ma solo le loro relative posizioni. No- nostante questa imprecisione, è sorprendente la quantità di informazioni contenuta nei ran- ghi. Infatti, talvolta è meglio lavorare con i

nati in

rangh i. Ad

Tabella 2.2 Classificazione dell'Eastern Cooperative Oncology Group sullo srato di salute dei pazienti

Sratus

Definizione

o

Il paziente è pienamente attivo ed in grado di effeuuare qualsiasi attività, senza alcuna restrizione dovuta alla malattia

Il paziente non è in grado di svolgere a uivirà faticose, ma può camminare e svolgere lavori leggeri e sedentari

2

Il paziente è in grado d i camminare ed è autosufficiente per più del 50% delle ore di veglia, ma non può svolgere alcuna auività lavorativa

Il paziente è so lo parzialmente autosufficiente; è costretto a rimanere a !erto o seduto per più del 50% delle ore di veglia

10

Tabella 2.3

Le 10 pr in cipa li cau se di morte negli Stati Unit i, 1992

 

Numero

Ran go

Caus:~ di morte

totale

di m ort i

1

Mahttic cardiache

717.706

2

Neoplasie ma li gne

520.578

Malattie ce rebrovascola ri

143.769

4

Pneumopatie cron ich e os tnmi vc

91.938

5

Incidenti

86.777

6

Polmonite cd influenza

75.7 19

7

Diabete mellito

50 .067

8

Infez ioni da HIV

33.566

9

Suicidio

30.484

IO

Omicidio e pena cap itale

25 .488

ranghi che con i dati originali; questo aspetto

è ulteriormente approfondito nel Capito lo 13 .

2.1.4 Dati discreti

Per i dati discreti sono importanti sia l'or- dine che la grandezza. In questo caso, i nu-

me ri rappresentano quantità realmente misu-

rabi li piuttosto che sempl ici simboli. Inol tre,

i dati discn!ti possono assumere solo valori

specifici - spesso numeri interi - che differi- scono per quanti tà fisse; non sono possibili valori intermedi. Esempi di dati discreti sono

il numero di incidenti stradali nel Massachu-

set ts in un mese, il numero di parti di una

donna, il numero di nuovi casi di tubercolosi riportati negli Stati Uniti in un anno ed il nu- mero di posti-letto in un ospedale. Si not i che per i da t i discreti esiste un ordine natura le tra i possibi li valori dei dati. Se siamo

interessati, ad esempio, al numero di p arti di una donna, un numero più elevato indica che

una donna ha avuto più figli. Inoltre, la diffe -

renza tra una e due nascite è uguale a quella

tra quattro e cinque nasci t e. Infi ne, il num ero

di nascite è ristretto a numeri interi non nega-

PRESENTAZIONE DE I DATI

mentre un'altra solo due. Il numero medio di

nasc ite per queste due donne è 2,5, che non è

un numero Intero.

2.1.5 Dati contin u i

quan tità misura- ad assumere solo

bili, ma che n o n si limitano

determinati valori (come i num eri interi)

so no noti come dati continui. In questo caso,

la differenza t ra du e po ss ibili va lo ri può es-

sere arbitraria ment e piccola. Esempi d i d ati

continui sono il t empo, il li ve ll o d i coleste- rolo sierico di un pa z iente, la concentrazion e

di un agente inquinante e la temperatura. In

tutti i casi so no possibili valori frazionari.

Poiché ha senso misurare la d istanza tra due osservazioni, è possibile applicare delle ope- razioni aritmetiche. Il solo fattore limitante per un'osservaz ione continua è il grado di ac- curatezza con il quale può essere misurata; pertanto, spesso il tempo è approssimato al secondo vicino ed il peso al grammo o alla libbra vicina. Comunque, più accurati sono

di misurazione, m aggiore è la

gli st rumenti

quantità ài dettagli che è possibile ottenere nei nostri dati. Talvolta possiamo aver bisogno di un mi- nor numero di dettagli rispetto a quelli con-

sentiti dai dati continui; in questo caso pos- siamo trasformare le osservazioni continue in osservazioni discrete, ordinali o anche dico- tomiche. Ad esempio, in uno studio sugli ef-

fet ti del fumo materno sui neonati possiamo

prima rilevare il peso alla nascita di un ampio nume ro di neonati per poi suddividerli in tre gruppi: quelli che pesano meno di 1.500 gram- mi, tra 1.500 e 2.500 grammi e più di 2.500 grammi. Sebbene siamo in possesso delle mi- surazioni reali del peso alla nasci ta, non ci in- teressa se un neonato pesa 1.560 grammi o

I dati che rapprese ntano

tivi; una donna non pu ò partorire 3,4 volte.

1.5 80 grammi; ci int eressa solo il n u me r o di

Poiché ha se nso misurare la di stanz a tra i pos-

neonati che rientra in ciascun gruppo . In

base

sibili valori ass unti d a osserv azio ni di screte,

all 'esper ienza, non dobbiamo aspet tarci

dif-

possono essere applicate operaz ioni aritm e ti -

fer

enze sostanziali nel gruppo di bambini con

che. Tuttavia, il risu ltato di un'operazione

peso molto basso, in quelli con peso basso e

aritmetica su due va lori discreti non è di per sé

con peso normale. I dati ordinali, inoltre,

necessariamente discr eta. Ad esemp io, su ppo-

sono spesso più semplici da gestire rispetto ai

niamo che una donna abbia partorito tre volte,

dati con t inui e l'a n ali si è

più semplice . Tutta-

--- --------- -

frequenz~,

Caus:~

TABELLE

v ia, nel no stro esemp io vi è un a perdita di

ai neonati.

In generale, il grado di pr ec isione r ichiesto in una serie di dati dipende dalle domande che ci pomamo.

dettag li nelle in fo rmazioni relativ e

Il Paragrafo

num eric i,

2.1 ha descritto gradua lmente i da quelli nominali a quelli con -

dari

tinui. In questa descrizione la na tura della re- la z ion e tra i va lori possibili è diventata sem- pre più comp lessa. È necessario fare delle distinzio ni tra i diversi tipi di dati poiché ven- gono utilizzate tecniche differenti per analiz-

zarl i.

Come detto in precedenza, non ha al-

cun senso parlare di un gruppo sanguigno medio di l ,8; ha senso, invece, parlare di una temperatu ra m edia di 24,55°C .

2.2 TABELLE

Adesso che siamo in grado di distinguere i dive rsi tipi di dati, dobbiamo imparare ad in- dividuare le tecniche statistiche più appro - priate per descriverli. Sebbene una certa quantità di informazioni sia perduta nella sin- resi dei dati, è possibile anche guadagnarne

quanti t à no t evole. Un a tabella è fors e il modo più semplice per sintetizzare una serie di osservazioni e può essere utilizzata per tutti i tipi di dati numerici.

una

2.2.1 Distribuzioni di frequenza

Un tipo di tabella comunemente utilizzato

per valutare i dati è la distrib uz ione di fre-

quenza. Per i da t i nominal i e ordin a li, u na di- stribuzione di frequenza consiste in una serie d i cl assi o categorie e nelle conte nu m eriche che co rr is pondono a ci as cuna di esse. Un semplice esempio è la T abella 2 .-1, che ri p orta

Tabella 2.4 Casi di sarco ma d i Kapos i nei primi 2.560 pazienti con AIDS registrati presso i Cenrers fo r Disease Contro! ad Atlanta, Georgia

Sarcoma di Kapo si

Numero di sogg et ti

Si

246

No

2.314

----- ·

Il

il num ero di sogge t ti (conta num eri ca) affett i

o non affetti da sarcoma di Kaposi (classi o categorie) per i primi 2.560 casi di AIDS ri- portati ai Centers far Disease Contro!. Un esempio più comp lesso è fo rnito nella Tabella 2.5, che indica il num ero di sigarette fumate

per

ad ul to n eg li Sta ti Uniti in vari anni (4).

Tab ella 2.5 Consumo di sigare tt e pro capite in sogge t ti d i età magg iore o uguale a 18 anni, Stati Un iti, 1900 -1990

Anno

Numero di sigarette

1900

54

1910

15 1

1920

665

1930

1.485

1940

1.976

1950

3.522

1960

4.171

1970

3.985

1980

3.851

1990

2.828

Per illustrare i d ati discreti o continui nella

fo rma di una distribuzione di frequenz~, do bbiamo scomporre i val ori delle oss erva- zio ni in una serie di intervalli distinti, non so- vrapposti. Se ci sono troppi intervalli, la sin- tesi non è un reale miglioramento rispetto ai

si perde

una grande quantità di informazioni. Sebbene

non sia necessario, gli intervalli sono spesso

costruiti di

il

d ati grezzi. Se sono troppo pochi,

amp iezze

uguali;

ciò

facilita

confronto tra le classi. Un a volta selezionati i limiti superiore ed inferiore di ciascun inter-

vallo, si calcola il numero d i osservazioni i cui valori rientrano in ciascuna coppia di limiti

ed i risultati

so no organizzati in una tabella.

Ad esempio, la National H ealth Examination Su rvey ha, tra l'altro, rilevato il livello di co-

lestero lo si erico di 1.067 soggetti d ella

lazione maschile degli Stati Uniti di età com- presa tr a 25 e 34 anni · approssi m andolo al

mi lligrammo più vicino per

L e osservazioni sono state, poi, suddivise in

intervalli di ugual e am piezza; in Tabella 2.6

popo -

100 millili tri (5).

sono presentate le

frequen ze corrispondenti a

ciascun interva llo.

12

La Ta b ell a 2.6 fornisc e un quadro di

in-

sieme dei dari; essa illustra come i valori di

negli in-

t ervall i. Si noti che le os s ervazio ni variano da

colesterolo sic rico sono distribuiti

SO a 399 mg/100 ml, con poc he misurazioni

a ll e es t remità d ell'int erva ll o ed un gra n nu-

me

ro di

va lor i tra 120 c 279 mg/100 m l.

L'in-

t

erva llo

160 - 199

mg/100 m l co mi e n e il

mag-

gio r num ero di osservazioni. La tabella 2.~

permette un a mig lio r e comp r e n sione dei cl a n

rispetto ad un elenco di valo ri del colestero lo

di 1.067 soggetti. Sebbene si siano

cune informazioni -d ata la tabella,

sia mo più risalire ai valori o rig in a li dei dati -

sono stare anche estratte imporrami informa- zioni che aiutano a comprendere la distribu- zione dei livelli di colesterolo sierico in que-

sto gruppo di maschi.

Tabella 2.6

perse al - no n pos-

Frequenze assolute d ei livell i d i cole- sterolo sierico in 1.067 soggetti d ella

popolazi o ne masc hile degli Stati

34

anni, 1976-1980

Uniti di

età compresa tra 25

e

Livello di colesterolo (mg/100 mi)

Numero di soggetti

80-119

13

120-159

150

160-199

442

200-239

299

240-279

115

280-319

34

320-359

9

360-399

5

To tale

1.067

L' acquisizione di un tipo di info rmaz ione e la perdita di un altro vale anche per i semplici dari dicotomici riport ati nelle Tabe lle 2 .1 e 2.4 . Porremmo pensare di non aver p erso al-

cun eleme nto sinte tizzando qu es ti d ari e con-

A d

tando

esem pio, se esis te un cerro andamento tem- porale nelle osservazioni - forse la propor- zione di pazienti afferri d a AIDS con sarcoma

d i Kaposi può a um e ntare o diminu ir e co n il

diffondersi dell'epidemia - questa informa-

i numeri O ed

1,

m a non

è così.

z ione è perdura nella sim esi.

PR ESE N TAZION E D El DATI

Le

tabelle

fornisco no

maggiori

informa-

zioni

quando

non

sono

trop po

complesse.

Come r ego l a genera l e, l e tabelle

all oro interno devono ess e re sempre d ef mtte

con chia rezza. Se sono uti lizza re delle unità

e

le

co

l~

n

ne

di

misura, come mg/ 100 ml per i livelli di co-

les

t erolo s ierico in T a be ll a 2 .6, esse devono

essere speci fica t e.

2.2.2 Frequenza rela tiva

È utile t alvolta conoscere la proporzione di

valori che ri entra in un derermin:uo int erva ll o

in una distribuzione d i frequenza e non il nu-

mero assoluto. La frequenz a relativa per un intervallo è la proporzione del num ero di os- servazioni che appare nell'intervallo stesso.

La frequenza rel at iva è calcolata divi~end~ il

numero di os servaz ioni all'interno d1 un m- rervallo per il num ero tot ale di osservazioni

della tabella. La proporzione può essere la-

immurata o esse re moltiplicata per

100% per ottenere la percentuale di valori

nell'intervallo. Ad esempio, in Tabella 2.6 la f(equenza relativa nella classe 80-119 mg/100

mi è (13/1.067) x 100% = 1,2%; allo stesso

modo, la fre quenza relativa nella classe 120-

159 mg/100 ml è ( 150/1.067) X 100°~o.=

Le frequenze relative p er rum gh In-

tervalli di una tabella sommano al100%. Le frequenze relative sono utili per con-

frontare serie di dari con un numero diverso

di osservazioni. La Tabella 2.7 illustra le fre-

quenze assolute e relati ve del livello di cole-

sterolo sierico per i 1.067 soggetti della popo- lazione maschile di età compresa tra 25 e 34 anni illustrati in Tabella 2.6 e p er u n gruppo

di 1.227 maschi di et à compresa tr a 55 e 64

anni. Poiché i soggetti anziani sono più nu-

col onn e

sciata

14,1 %.

m eros i, non è corretto confrontare le

delle

frequenze assolute dei d ue grupp i. In-

vece,

il confr o ntO delle frequenze relative ha

un si <> n ifica to . P ossia mo notare c h e, in gene-

ral e ,

i'soggett i a nziani presentano liv~lli_di co_-

lestero lo sierico più e lev a t i r is petto a1 g10va m;

più